通义万相 2.0 发布：7B 统一生成与编辑模型，支持原生 2K 分辨率和文本渲染

Reddit r/LocalLLaMA2026/02/10 17:25机翻/自动摘要/自动分类

摘要

通义千问团队发布了 Qwen-Image-2.0，这是一个 7B 参数的统一图像生成与编辑模型。新模型支持原生 2K 分辨率，拥有逼真的纹理，并能从提示词中渲染高达 1000 个 token 的文本，适用于信息图、海报等多种场景。其多面板漫画生成能力和一致的角色保持也备受关注。虽然目前仅提供 API 和演示，但其 7B 的规模预示着未来权重开放后，将极大地便利本地用户。

正文

通义千问团队发布了 Qwen-Image-2.0。目前尚未开放权重，仅通过阿里云 API（邀请测试）提供服务，并在通义千问上提供免费演示。鉴于团队在 Qwen-Image v1 上发布权重的前例（发布后约一个月开源，Apache 2.0 协议），预计此模型也不会长期闭源。

主要亮点包括：

7B 模型，相较于 v1 的 20B 模型，这对于本地运行者是重大利好。
统一的生成与编辑能力，无需区分不同模型。
原生支持 2K（2048×2048）分辨率，纹理逼真。
支持高达 1000 个的文本渲染，可生成信息图、海报、幻灯片，甚至中文书法。这可能是开源实验室中最好的文生图文本效果。
支持多面板漫画生成（4x6），角色保持一致。

7B 的模型规模是本次发布最令人兴奋的部分。如果权重未来开放，该模型将非常适合在消费级硬件上运行。v1 的 20B 模型在 ComfyUI 中已广受欢迎，一个功能更强但规模更小的 7B 版本正是本地社区所需要的。

用户可在通义千问上体验演示，了解模型能力。

通义万相 2.0 发布：7B 统一生成与编辑模型，支持原生 2K 分辨率和文本渲染

摘要

正文

标签