阿里推新AI圖像生成模型生成過程中不斷調整及優化

更新時間：12:17 2025-06-28 HKT
發佈時間：12:17 2025-06-28 HKT

阿里巴巴（9988）的通義千問推出新模型Qwen VLo，用戶可更容易從文字和視覺內容生成和修改圖像。新模型是Qwen2.5-VL的升級，據報Qwen VLo能夠以一種漸進式生成方式，從左到右、從上到下逐步清晰地構建整幅圖片。在生成過程中，模型會對預測的內容不斷調整和優化，從而確保最終結果更加和諧一致，此生成機制提升了視覺效果，亦為用戶提供更靈活、更可控的創作體驗。

據官方介紹，以往的多模態模型在生成過程中容易出現語義不一致的問題，例如將汽車誤生成其他類型的物體，或者無法保留原圖的關鍵結構特徵。Qwen VLo 通過更強大的細節捕捉能力，能夠在生成過程中保持高度的語義一致性。例如，當用戶輸入一張汽車的照片並要求「更換顏色」時，Qwen VLo能準確識別車型，還能保留其原有的結構特征，同時完成色彩風格的自然轉換，讓生成結果既符合預期又不失真實感。

另外，用戶可通過自然語言提出各種創意性指令，如「將這張畫風改為梵高風格」、「讓這張照片看起來像 19 世紀的老照片」或「給這張圖片添加一個晴朗的天空」。Qwen VLo能靈活響應這些開放性指令，並生成符合用戶預期的結果。

Qwen VLo又支持包括中文、英文在內的多種語言指令。不過阿里官方提醒，Qwen VLo仍屬於預覽階段，還有很多不足的地方，在生成的過程可能存在不符合事實、不完全和原圖一致的問題，開發團隊還在持續叠代。

即睇《亂世投資》專頁↓