Lance/LanceDB 用户现可轻松在 Hugging Face Hub 上共享多模态数据集
摘要
Lance 近期成为 Hugging Face Hub 官方支持的格式,为 AI/ML 多模态数据集的共享带来革命性变化。Lance 是一种现代化的列式湖仓格式,LanceDB 则提供了便捷的管理 API。此次集成允许用户直接在 Hub 上共享包含嵌入、图像、音频、视频等数据的 Lance 数据集,并支持内联存储二进制资产、高效列式访问、共享预构建索引以及快速随机访问和扫描。这极大地简化了多模态数据集的共享和利用流程,用户无需再手动管理外部文件或重新构建昂贵的索引,可以直接复用他人工作,为模型训练、搜索和 RAG 应用做好准备。
正文
Lance 近期已成为 Hugging Face Hub 上官方支持的格式。Lance 是一种开源的现代化、列式湖仓格式,适用于包含多模态数据、嵌入、嵌套字段等的 AI/ML 数据集。LanceDB 是一个开源的嵌入式库,在 Lance 格式之上提供了便捷的 API,用于管理嵌入和索引。
您可以在此处查看由优秀的开源社区上传的最新 Lance 数据集: https://huggingface.co/datasets?library=library%3Alance
Hugging Face 集成对 Hub 上的 Lance 格式和 LanceDB 用户意味着什么:
- 二进制资产(图像、音频、视频)内联存储为 blob:无需管理外部文件和指针。
- 高效的列式访问:直接从 Hub 流式传输元数据,无需处理视频等较重数据,实现快速探索。
- 可与数据一起共享预构建索引:向量/FTS/标量索引与数据集打包在一起,无需重复他人已完成的工作。
- 快速随机访问和扫描:Lance 格式专门针对极快的随机访问进行了优化(有助于向量搜索和训练数据洗牌)。它在不影响扫描性能的情况下实现这一点,因此您可以使用 DuckDB、Spark、Ray、Trino 等引擎对传统表格数据运行大型分析查询。
此前,要在 Hub 上共享大型多模态数据集,您必须存储包含二进制资产的多个目录以及 Parquet 表中指向大型 blob 的指针 URL。下载后,用户必须在本地机器上重新创建任何向量/FTS 索引,这可能是一个成本高昂的过程。
现在,随着 Lance 作为一种格式在 Hub 上得到官方支持,您可以将所有数据集及其索引打包成一个单一的可共享构件,并具有与您喜欢的查询引擎兼容的熟悉表语义。轻松复用他人的工作,为模型训练、搜索和分析/ 做准备!
免责声明:我在 LanceDB 工作,并且多年来一直是 Lance 和 Hugging Face 开源社区的成员。
看到人们已经在 HF Hub 上上传了各种各样的 Lance 数据集,这非常令人兴奋,欢迎分享您自己的数据集,并广为传播!