首页/详情

通义万相 2.0 发布:7B 统一生成与编辑模型,支持原生 2K 分辨率和文本渲染

Reddit r/LocalLLaMA2026/02/10 17:25机翻/自动摘要/自动分类
6 阅读

摘要

通义千问团队发布了 Qwen-Image-2.0,这是一个 7B 参数的统一图像生成与编辑模型。新模型支持原生 2K 分辨率,拥有逼真的纹理,并能从提示词中渲染高达 1000 个 token 的文本,适用于信息图、海报等多种场景。其多面板漫画生成能力和一致的角色保持也备受关注。虽然目前仅提供 API 和演示,但其 7B 的规模预示着未来权重开放后,将极大地便利本地用户。

正文

通义千问团队发布了 Qwen-Image-2.0。目前尚未开放权重,仅通过阿里云 API(邀请测试)提供服务,并在通义千问上提供免费演示。鉴于团队在 Qwen-Image v1 上发布权重的前例(发布后约一个月开源,Apache 2.0 协议),预计此模型也不会长期闭源。

主要亮点包括:

  • 7B 模型,相较于 v1 的 20B 模型,这对于本地运行者是重大利好。
  • 统一的生成与编辑能力,无需区分不同模型。
  • 原生支持 2K(2048×2048)分辨率,纹理逼真。
  • 支持高达 1000 个 的文本渲染,可生成信息图、海报、幻灯片,甚至中文书法。这可能是开源实验室中最好的文生图文本效果。
  • 支持多面板漫画生成(4x6),角色保持一致。

7B 的模型规模是本次发布最令人兴奋的部分。如果权重未来开放,该模型将非常适合在消费级硬件上运行。v1 的 20B 模型在 ComfyUI 中已广受欢迎,一个功能更强但规模更小的 7B 版本正是本地社区所需要的。

用户可在通义千问上体验演示,了解模型能力。

标签