阿里推新AI图像生成模型 生成过程中不断调整及优化

更新时间:12:17 2025-06-28 HKT
发布时间:12:17 2025-06-28 HKT

阿里巴巴(9988)的通义千问推出新模型Qwen VLo,用户可更容易从文字和视觉内容生成和修改图像。新模型是Qwen2.5-VL的升级,据报Qwen VLo能够以一种渐进式生成方式,从左到右、从上到下逐步清晰地构建整幅图片。在生成过程中,模型会对预测的内容不断调整和优化,从而确保最终结果更加和谐一致,此生成机制提升了视觉效果,亦为用户提供更灵活、更可控的创作体验。

据官方介绍,以往的多模态模型在生成过程中容易出现语义不一致的问题,例如将汽车误生成其他类型的物体,或者无法保留原图的关键结构特征。Qwen VLo 通过更强大的细节捕捉能力,能够在生成过程中保持高度的语义一致性。例如,当用户输入一张汽车的照片并要求「更换颜色」时,Qwen VLo能准确识别车型,还能保留其原有的结构特征,同时完成色彩风格的自然转换,让生成结果既符合预期又不失真实感。

另外,用户可通过自然语言提出各种创意性指令,如「将这张画风改为梵高风格」、「让这张照片看起来像 19 世纪的老照片」或「给这张图片添加一个晴朗的天空」。Qwen VLo能灵活响应这些开放性指令,并生成符合用户预期的结果。

Qwen VLo又支持包括中文、英文在内的多种语言指令。不过阿里官方提醒,Qwen VLo仍属于预览阶段,还有很多不足的地方,在生成的过程可能存在不符合事实、不完全和原图一致的问题,开发团队还在持续叠代。