首页/详情

soul-schema:本地LLM驱动的数据库元数据自动语义化工具

Reddit r/LocalLLaMA2026/03/04 22:05机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

soul-schema 是一款利用本地LLM自动生成数据库语义描述的工具,强调数据隐私与本地化处理。它仅读取元数据,不接触行级数据,支持多种模型,输出格式灵活,适用于数据建模和AI训练场景。

正文

soul-schema 是一款专为关注数据隐私的用户设计的工具,它能够利用本地运行的大语言模型()如 Ollama,为任意数据库模式自动生成语义描述。该工具仅读取数据库的元数据,包括表名、列名、数据类型、约束条件以及每张表最多10个样本值,确保在不接触行级数据的前提下完成分析。其核心优势在于完全的数据隔离,所有处理过程均在本地进行,不会将任何数据上传至外部API,从而避免数据泄露风险。此外,soul-schema 支持多种模型,包括 llama3.2 和 codellama,其中 codellama 在语义推断方面表现更优。生成的描述可导出为 dbt YAML、Vanna 训练数据或纯 JSON 格式,便于后续数据建模或AI训练使用。该项目为开源,开发者可直接通过命令行调用。

标签