阿里推新AI图像生成模型生成过程中不断调整及优化

更新时间：12:17 2025-06-28 HKT
发布时间：12:17 2025-06-28 HKT

阿里巴巴（9988）的通义千问推出新模型Qwen VLo，用户可更容易从文字和视觉内容生成和修改图像。新模型是Qwen2.5-VL的升级，据报Qwen VLo能够以一种渐进式生成方式，从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中，模型会对预测的内容不断调整和优化，从而确保最终结果更加和谐一致，此生成机制提升了视觉效果，亦为用户提供更灵活、更可控的创作体验。

据官方介绍，以往的多模态模型在生成过程中容易出现语义不一致的问题，例如将汽车误生成其他类型的物体，或者无法保留原图的关键结构特征。Qwen VLo 通过更强大的细节捕捉能力，能够在生成过程中保持高度的语义一致性。例如，当用户输入一张汽车的照片并要求「更换颜色」时，Qwen VLo能准确识别车型，还能保留其原有的结构特征，同时完成色彩风格的自然转换，让生成结果既符合预期又不失真实感。

另外，用户可通过自然语言提出各种创意性指令，如「将这张画风改为梵高风格」、「让这张照片看起来像 19 世纪的老照片」或「给这张图片添加一个晴朗的天空」。Qwen VLo能灵活响应这些开放性指令，并生成符合用户预期的结果。

Qwen VLo又支持包括中文、英文在内的多种语言指令。不过阿里官方提醒，Qwen VLo仍属于预览阶段，还有很多不足的地方，在生成的过程可能存在不符合事实、不完全和原图一致的问题，开发团队还在持续叠代。

即睇《乱世投资》专页↓