本站4月18日消息,今日,騰訊混元宣布開源定制化圖像生成件InstantCharacter,并實現了對開源文生圖模型Flux的兼容。
通過該插件,在大模型中,只需要一張圖加一句話,就能讓任何角色以你想要的姿勢出現在任何地方。
據介紹,InstantCharacter的優勢在于可以確保角色在不同場景中的一致性和真實性、畫質和精度高,同時具有靈活的文本編輯性,用戶可以根據需要靈活切換任意場景,讓人物生成任意動作。
因此,內容創作者能通過這一插件讓生成的角色保持高度一致,能夠更高效地創作出符合其需求的視覺作品,可以用于連環畫、影片創作等場景。
輸入以下原始圖片:
prompt :a rabbit is in the kitchen holding a spoon and drinking soup,就能得到下面的圖:
prompt:a rabbit in the city,cyberpunk,就可以得到:
實際的測評中,開源的InstantCharacter實現的效果媲美GPT 4o等業界領先模型。
騰訊混元表示,現有基于學習的方法主要依賴于U-Net架構,但在泛化能力和圖像質量上存在局限性,而基于優化的方法則需要針對特定主體進行微調,這不可避免地降低了文本可控性。
為解決這些問題,InstantCharacter利用DiT模型構建了一個創新的框架。
框架引入一個可擴展的適配器(adapter),采用多個transformer encoder,能有效處理開放域的角色特征,并與現代擴散變換器的潛在空間無縫交互,這種設計使得系統能夠靈活適應不同的角色特征。
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。