首页/详情

DoorDash发布DashCLIP:基于3200万标签的多模态语义对齐模型

InfoQ 中文2026/03/24 19:00机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
4/10

摘要

DashCLIP 是 DoorDash 推出的多模态AI模型,利用3200万个餐饮场景标注数据,实现图像、文本与用户查询的语义对齐。该模型显著提升菜品图像的零样本检索准确率,已应用于App内拍照搜菜功能。其核心亮点在于构建了大规模垂直领域标注数据集,并通过对比学习优化餐饮语义空间,为行业提供可复用的多模态搜索范式。

正文

DoorDash 推出名为 DashCLIP 的多模态,旨在实现图像、文本与用户查询之间的高精度语义对齐。该模型基于 CLIP 架构进行扩展,训练数据包含超过 3200 万个由人工标注的餐饮相关图像-文本对,覆盖菜单项、食材、菜品风格、用餐场景等细粒度标签。训练过程中,模型通过对比学习对齐视觉特征与语义文本嵌入,显著提升了在餐饮场景下的零样本图像检索与语义搜索能力。与通用 CLIP 模型相比,DashCLIP 在 DoorDash 内部测试中,对菜品图像的查询准确率提升达 37%,尤其在处理模糊描述(如‘辣味亚洲风味’)时表现突出。该模型已集成至 DoorDash 应用的图像搜索功能中,支持用户上传照片查找相似菜品,提升点餐体验。模型架构未开源,但团队公开了训练数据构建方法与评估基准,为餐饮AI应用提供了可复用的技术路径。

标签