文字與圖像融合的AI生圖

EduAIgnite
·
·
IPFS
·
叫ChatGPT生圖,它其實是呼叫Dalle 3,再來產圖。但上週Google Gemini 2.0 Flash 已經做到文字與圖像結合,未來更容易產製一致的圖形,而不會每一次都長出不一樣的人了

建議可以玩玩,目前都不用錢的google AI studio,記得在右邊選擇模型Gemini 2.0 Flash (Image Generation) Experimental 這個模型

https://aistudio.google.com/prompts/new_chat

Gemini 2.0最新的文字影像整合的AI,最厲害是影像和文字在同一個模型下運算,不像ChatGPT是另外呼叫Dalle 3來做圖。這樣的好處是影像的資訊也是輸入的訊息之一,會被記錄。之後對圖形下達修正指令時,只會針對要調整的部份修正,其餘的資訊還是會保留。換句話說,未來每一次都可以產出同樣的人像圖。確保主角一樣,就是很大的進步了。未來,可以用這個技術,逐一產出影格,再連結成比較長的影片,也是可能的。

我測試了一下,用AI先生成一張人物半身圖,再找一張產品圖。想辦法要用指令來完「拍攝」Model拿著產品展示的照片。指令也很簡單如下:

Gemini 可以合併兩張圖

結果,還算可以,重點是我都沒有修

改個背景看看,大致的效果還算不錯。

即然現在的大型語言模型可以同時吃文字、語音、照片,可以運用的範圍就更大,有更多的想像空間了。這邊只是簡單展示AI如何取代「商品攝影」,我也可以讓背景在世界各大知名景點,創造一種產品行銷全世界的感覺。AI真的快要無所不能了。

CC BY-NC-ND 4.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

EduAIgnite對新奇事物有無法抗拒的雙子座,最近每天嚐試 AI 新工具,也關注區塊鏈的技術,花很多時間在電腦的宅男一枚。 不是作家,只是找個地方寫筆記。
  • 来自作者
  • 相关推荐

超越一步到位:為什麼提示鏈接 (Prompt Chaining)才是駕馭AI的關鍵

STEP-BACK PROMPTING

Deep Research的風險