DoorDash发布DashCLIP：基于3200万标签的多模态语义对齐模型

InfoQ 中文2026/03/24 19:00机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

4/10

摘要

DashCLIP 是 DoorDash 推出的多模态AI模型，利用3200万个餐饮场景标注数据，实现图像、文本与用户查询的语义对齐。该模型显著提升菜品图像的零样本检索准确率，已应用于App内拍照搜菜功能。其核心亮点在于构建了大规模垂直领域标注数据集，并通过对比学习优化餐饮语义空间，为行业提供可复用的多模态搜索范式。

正文

DoorDash 推出名为 DashCLIP 的多模态，旨在实现图像、文本与用户查询之间的高精度语义对齐。该模型基于 CLIP 架构进行扩展，训练数据包含超过 3200 万个由人工标注的餐饮相关图像-文本对，覆盖菜单项、食材、菜品风格、用餐场景等细粒度标签。训练过程中，模型通过对比学习对齐视觉特征与语义文本嵌入，显著提升了在餐饮场景下的零样本图像检索与语义搜索能力。与通用 CLIP 模型相比，DashCLIP 在 DoorDash 内部测试中，对菜品图像的查询准确率提升达 37%，尤其在处理模糊描述（如‘辣味亚洲风味’）时表现突出。该模型已集成至 DoorDash 应用的图像搜索功能中，支持用户上传照片查找相似菜品，提升点餐体验。模型架构未开源，但团队公开了训练数据构建方法与评估基准，为餐饮AI应用提供了可复用的技术路径。