GitHub 将 Copilot 用户交互数据用于大模型训练的策略与影响

InfoQ 中文2026/04/09 01:00机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

4/10

摘要

GitHub 公开了 Copilot 如何收集、脱敏并利用用户代码交互数据训练其后续大语言模型的完整流程。文章说明了数据范围、隐私保护措施、训练方法以及质量评估手段，并提供了用户数据管理入口，帮助开发者了解其代码如何被用于模型迭代。

正文

GitHub 在其 AI 编码助手 Copilot 中收集用户的代码编辑、接受建议、拒绝建议等交互数据，并将这些数据用于训练后续的大语言模型（）。文章首先说明了数据收集的范围：包括用户在编辑器中输入的代码片段、Copilot 生成的建议、用户是否采纳或修改这些建议以及相应的上下文信息。随后，GitHub 介绍了数据脱敏和匿名化的处理流程，确保个人可识别信息（PII）在进入训练管道前被剔除或模糊化。接下来，文中阐述了训练流程：收集的匿名化数据会被聚合进大规模代码语料库，结合公开的开源代码和已有的模型权重，使用自监督学习（如掩码语言模型）进行，以提升模型对实际开发场景的适应性。文章还披露了对模型输出的质量评估方法，包括人工评审、自动化代码正确性检测以及用户满意度调查。最后，GitHub 对外承诺在数据使用上遵循透明、可撤回和合规的原则，并提供了用户控制面板，允许用户查看、导出或删除其贡献的数据。

GitHub 将 Copilot 用户交互数据用于大模型训练的策略与影响

内容评分

摘要

正文

标签