GitHub 将 Copilot 用户交互数据用于大模型训练的策略与影响
InfoQ 中文2026/04/09 01:00机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
7/10
营销水分
4/10
摘要
GitHub 公开了 Copilot 如何收集、脱敏并利用用户代码交互数据训练其后续大语言模型的完整流程。文章说明了数据范围、隐私保护措施、训练方法以及质量评估手段,并提供了用户数据管理入口,帮助开发者了解其代码如何被用于模型迭代。
正文
GitHub 在其 AI 编码助手 Copilot 中收集用户的代码编辑、接受建议、拒绝建议等交互数据,并将这些数据用于训练后续的大语言模型()。文章首先说明了数据收集的范围:包括用户在编辑器中输入的代码片段、Copilot 生成的建议、用户是否采纳或修改这些建议以及相应的上下文信息。随后,GitHub 介绍了数据脱敏和匿名化的处理流程,确保个人可识别信息(PII)在进入训练管道前被剔除或模糊化。接下来,文中阐述了训练流程:收集的匿名化数据会被聚合进大规模代码语料库,结合公开的开源代码和已有的模型权重,使用自监督学习(如掩码语言模型)进行,以提升模型对实际开发场景的适应性。文章还披露了对模型输出的质量评估方法,包括人工评审、自动化代码正确性检测以及用户满意度调查。最后,GitHub 对外承诺在数据使用上遵循透明、可撤回和合规的原则,并提供了用户控制面板,允许用户查看、导出或删除其贡献的数据。