揭秘AI检测工具：为何它们无法“证明”文本由AI生成？

<p>生成式AI的迅速发展催生了一个价值数十亿美元的“AI检测工具”子行业：这些工具声称能够判断一段文本是由人类撰写还是由ChatGPT等AI工具生成的。但这究竟是如何实现的呢？</p><p>我认为这些工具既令人印象深刻又非常实用，而且未来还有很大的改进空间。然而，我非常担心公众会高估它们的可靠性。<strong>AI检测工具无法证明文本是由AI生成的。</strong></p><h3>为什么AI检测如此困难？</h3><p>当我第一次听说这些工具时，我立刻觉得“这根本不可能实现”。我的这种反应在很大程度上是正确的，因为AI检测工具的核心理念——即人类生成的文本与AI生成的文本之间存在本质区别——其实是一个根本性的错误。</p><p>大型语言模型是从大量人类撰写的文本数据中学习而来的，它们会生成与训练数据尽可能相似的文本。真正决定模型“风格”的，是这些训练数据本身，而非模型本身的性质。例如，一个用莎士比亚作品训练出的模型，其写作风格也会类似于莎士比亚。即使用上千个不同的训练数据集训练出上千个模型，我们也无法找到它们共有的独特“风格特征”。</p><p>因此，我们可以几乎可以肯定地说：<strong>AI检测工具无法证明文本是由AI生成的。</strong>任何由语言模型生成的文本，<em>从定义上来说</em>都可能是人类创作的。</p><h3>不过，AI检测工具为何仍有可能发挥作用？</h3><p>不过，其实还是可以判断某些文本是否由AI生成的！比如在阅读Twitter评论时，那些明显由AI生成的评论很容易被识别出来。我在另一篇文章中讨论过这个问题（<a href="/on-slop">《为什么AI生成的文本读起来如此糟糕？》</a>）。既然无法证明某段文本是AI生成的，这又该如何解释呢？</p><p>部分原因可能是：<strong>当前一代的AI模型具有某种独特的“写作风格”，而任何采用这种风格写作的人类也会让人产生类似的感觉</strong>。当我读到一篇博客的开头句子时，如果觉得“这显然是AI生成的，就不想继续读了”。无论作者是人类还是AI，其写作风格都可能让人产生这种印象。</p><p>不过，我认为还有其他因素在起作用。尽管Claude和ChatGPT是不同的模型，使用不同的训练数据和方法，但它们的写作风格确实有相似之处。对于AI检测工具来说，乐观的看法可能是：</p><ul><li><a href="https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback">强化学习</a>以及相关的训练方法会让所有强大的AI模型都呈现出相似的语气和风格</li><li>这种语气和风格可以通过训练分类器模型来自动识别</li><li>虽然技术娴熟的用户可以使用经过特殊处理的AI模型，但99%的用户可能只会使用ChatGPT或Claude（尤其是那些懒惰到会在论文中作弊的人）</li><li>因此，一个简单的“ChatGPT/Claude/Gemini写作风格检测器”就能识别出90%使用AI写作的文章</li></ul><p>这个观点相当有说服力，<strong>前提是你能接受90%的准确率</strong>。如果基础准确率很低，90%的准确率其实也并不理想（比如<a href="https://tomrocksmaths.com/2021/08/31/bayes-theorem-and-disease-testing/">贝叶斯定理</a>中的例子所示）。如果一个班级中只有10%的论文是AI生成的，而检测工具的准确率为90%，那么它标记为AI生成的论文中实际上只有50%才是真正的AI作品。因此，当检测工具认为某篇文本是AI生成的时，你应该将其视为“可疑”，而非确凿的证据。</p><h3>AI检测工具的工作原理是什么？</h3><p>构建AI检测工具的方法有很多。一种简单的方法（不过我没有找到实际应用的例子）是使用人类文本和AI生成的文本来训练分类器。但这种方法效果并不好。<a href="https://arxiv.org/pdf/2305.15047">Ghostbuster</a>论文指出，直接对文本进行分类效果不佳。</p><p>我见过最令人印象深刻的论文是<a href="https://arxiv.org/pdf/2510.03154">EditLens</a>，该论文使用经过不同程度AI编辑的文本进行训练，这样模型就能更准确地判断AI的参与程度。这种方法比单纯的“AI或非AI”分类器更有效，因为每个样本都能为模型提供更详细的反馈。</p><p>需要注意的是：<strong>所有这些工具本身也都依赖于AI</strong>。如果不自己训练模型或使用现有的AI模型进行推理，就无法检测出AI生成的文本。这对那些坚决反对AI的人来说是个坏消息，因为他们根本不想利用AI来检测其他人的作品。这也意味着：<strong>AI检测工具无法证明文本是由AI生成的</strong>，即使是最先进的工具也只能说明文本极有可能是由AI生成的。</p><h3>“人性化”工具</h3><p>有趣的是，还有一类“人性化工具”旨在将AI生成的文本转换成AI检测工具能识别为“人类创作”的文本。一些免费的AI检测工具实际上只是这些“人性化工具”的销售手段，它们会故意产生大量误判结果，从而让用户购买相关服务。例如，我曾将自己的一篇博客文章通过<a href="https://justdone.com/ai-detector">JustDone</a>进行检测，结果该工具判断文章90%是AI生成的，并提供每月40美元的服务来“修复”这些错误。</p><p>这些工具并未明说这一点，但它们的“人性化”过程实际上是将文本输入到经过训练的AI模型中，使其生成更接近人类风格的文本。这很讽刺：有些学生可能因为担心误判而选择让AI生成自己的论文。</p><h3>误判与社会影响</h3><p>对大多数人来说，假装这些工具比实际更可靠是有利的。AI检测工具的制造商自然希望展示出产品的可靠性；学校和机构管理者也希望掩盖问题；网上的人则喜欢通过截图来“证明”他人抄袭AI内容。</p><p>就连AI研究机构本身也希望AI检测看起来简单可靠，因为这样可以减轻他们在破坏教育系统方面的责任。OpenAI曾在2023年1月发布了自己的AI检测工具，但六个月后因准确率低而将其撤下。</p><p>真正受影响的是那些试图写作的人——他们不得不面对被误判为AI生成作品的情况。有些学生会调整自己的写作风格，或记录敲击键盘的痕迹、拍摄草稿照片作为证据。</p><p>如果你需要判断他人是否使用AI写作，我建议你对AI检测工具的能力保持现实态度：它们只能做出有根据的猜测，而已。尤其是那些提供“人性化”服务的工具，更有可能产生误判。</p><h3>总结：</h3><strong>AI检测工具无法证明文本是由AI生成的。</strong>

揭秘AI检测工具：为何它们无法“证明”文本由AI生成？

内容评分

摘要

正文

标签