大规模部署AI需构建权威数据源：数据治理与语义层的关键作用

在企业部署真正有效的AI系统之前，必须建立一个统一且权威的数据来源，这是大多数组织所缺乏的。Workday企业数据与分析副总裁Joe DosSantos在与Robb和Josh的讨论中，深入解析了‘权威知识’（canonical knowledge）的概念、语义层（semantic layer）的重要性，以及为何20世纪90年代提出的数据治理理念在当今AI部署中变得尤为关键。

核心挑战在于，大型语言模型（LLMs）本质上是预测性工具，它们试图‘揣测用户的真实意图’。虽然在处理语言任务上表现良好，但在处理数学数据时却缺乏确定性。例如，企业需要精确的收入数字，如‘去年收入为16.25651亿美元’，而非概率性的猜测。

为解决这一问题，DosSantos提出了三个层面的解决方案：

建立权威知识：通过人工明确组织内部数据的定义和含义；
构建语义层：将人类定义转化为机器可读的格式，如YAML；
将作为接口连接后端系统，而非将AI本身视为整个系统。

他用了一个生动的比喻：在没有打好地基的情况下安装花岗岩台面，是不可取的。这强调了数据治理和语义层作为AI部署基础设施的重要性。

讨论还涉及了对AI的担忧，DosSantos引用了Kate Darling的观点，认为AI应被视为工具而非人类替代品，而Robb Wilson则认为AI只是‘更智能的机器’，能够执行更精确的任务，如区分木材和手指，防止火灾，且不会损坏衣物。

对于企业领导者而言，播客指出在AI系统真正发挥作用之前，必须完成的数据治理和语义转换等基础工作，而非仅仅关注那些炫目的应用案例。

大规模部署AI需构建权威数据源：数据治理与语义层的关键作用

内容评分

摘要

正文

标签