文字與圖像融合的AI生圖

3 月 19 日

叫ChatGPT生圖，它其實是呼叫Dalle 3，再來產圖。但上週Google Gemini 2.0 Flash 已經做到文字與圖像結合，未來更容易產製一致的圖形，而不會每一次都長出不一樣的人了

建議可以玩玩，目前都不用錢的google AI studio，記得在右邊選擇模型Gemini 2.0 Flash (Image Generation) Experimental 這個模型

https://aistudio.google.com/prompts/new_chat

Gemini 2.0最新的文字影像整合的AI，最厲害是影像和文字在同一個模型下運算，不像ChatGPT是另外呼叫Dalle 3來做圖。這樣的好處是影像的資訊也是輸入的訊息之一，會被記錄。之後對圖形下達修正指令時，只會針對要調整的部份修正，其餘的資訊還是會保留。換句話說，未來每一次都可以產出同樣的人像圖。確保主角一樣，就是很大的進步了。未來，可以用這個技術，逐一產出影格，再連結成比較長的影片，也是可能的。

我測試了一下，用AI先生成一張人物半身圖，再找一張產品圖。想辦法要用指令來完「拍攝」Model拿著產品展示的照片。指令也很簡單如下：

結果，還算可以，重點是我都沒有修

改個背景看看，大致的效果還算不錯。

即然現在的大型語言模型可以同時吃文字、語音、照片，可以運用的範圍就更大，有更多的想像空間了。這邊只是簡單展示AI如何取代「商品攝影」，我也可以讓背景在世界各大知名景點，創造一種產品行銷全世界的感覺。AI真的快要無所不能了。

CC BY-NC-ND 4.0 授权