首页/详情

揭秘AI检测工具:为何它们无法“证明”文本由AI生成?

Sean Goedecke2025/12/05 08:00机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
2/10

摘要

文章深入探讨AI检测工具的局限性,指出其无法“证明”文本由AI生成。核心原因在于大型语言模型从人类文本学习,不具备独特“AI风格”。尽管当前模型因RLHF可能呈现相似风格,但检测工具误判率高,尤其在低AI文本比例下。文章还揭露了“人性化”工具的讽刺,并强调AI检测工具本身依赖AI。最终,建议对检测结果持怀疑态度,将其视为猜测而非确凿证据。

正文

<p>生成式AI的迅速发展催生了一个价值数十亿美元的“AI检测工具”子行业:这些工具声称能够判断一段文本是由人类撰写还是由ChatGPT等AI工具生成的。但这究竟是如何实现的呢?</p><p>我认为这些工具既令人印象深刻又非常实用,而且未来还有很大的改进空间。然而,我非常担心公众会高估它们的可靠性。<strong>AI检测工具无法证明文本是由AI生成的。</strong></p><h3>为什么AI检测如此困难?</h3><p>当我第一次听说这些工具时,我立刻觉得“这根本不可能实现”。我的这种反应在很大程度上是正确的,因为AI检测工具的核心理念——即人类生成的文本与AI生成的文本之间存在本质区别——其实是一个根本性的错误。</p><p>大型语言模型是从大量人类撰写的文本数据中学习而来的,它们会生成与训练数据尽可能相似的文本。真正决定模型“风格”的,是这些训练数据本身,而非模型本身的性质。例如,一个用莎士比亚作品训练出的模型,其写作风格也会类似于莎士比亚。即使用上千个不同的训练数据集训练出上千个模型,我们也无法找到它们共有的独特“风格特征”。</p><p>因此,我们可以几乎可以肯定地说:<strong>AI检测工具无法证明文本是由AI生成的。</strong>任何由语言模型生成的文本,<em>从定义上来说</em>都可能是人类创作的。</p><h3>不过,AI检测工具为何仍有可能发挥作用?</h3><p>不过,其实还是可以判断某些文本是否由AI生成的!比如在阅读Twitter评论时,那些明显由AI生成的评论很容易被识别出来。我在另一篇文章中讨论过这个问题(<a href="/on-slop">《为什么AI生成的文本读起来如此糟糕?》</a>)。既然无法证明某段文本是AI生成的,这又该如何解释呢?</p><p>部分原因可能是:<strong>当前一代的AI模型具有某种独特的“写作风格”,而任何采用这种风格写作的人类也会让人产生类似的感觉</strong>。当我读到一篇博客的开头句子时,如果觉得“这显然是AI生成的,就不想继续读了”。无论作者是人类还是AI,其写作风格都可能让人产生这种印象。</p><p>不过,我认为还有其他因素在起作用。尽管Claude和ChatGPT是不同的模型,使用不同的训练数据和方法,但它们的写作风格确实有相似之处。对于AI检测工具来说,乐观的看法可能是:</p><ul><li><a href="https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback">强化学习</a>以及相关的训练方法会让所有强大的AI模型都呈现出相似的语气和风格</li><li>这种语气和风格可以通过训练分类器模型来自动识别</li><li>虽然技术娴熟的用户可以使用经过特殊处理的AI模型,但99%的用户可能只会使用ChatGPT或Claude(尤其是那些懒惰到会在论文中作弊的人)</li><li>因此,一个简单的“ChatGPT/Claude/Gemini写作风格检测器”就能识别出90%使用AI写作的文章</li></ul><p>这个观点相当有说服力,<strong>前提是你能接受90%的准确率</strong>。如果基础准确率很低,90%的准确率其实也并不理想(比如<a href="https://tomrocksmaths.com/2021/08/31/bayes-theorem-and-disease-testing/">贝叶斯定理</a>中的例子所示)。如果一个班级中只有10%的论文是AI生成的,而检测工具的准确率为90%,那么它标记为AI生成的论文中实际上只有50%才是真正的AI作品。因此,当检测工具认为某篇文本是AI生成的时,你应该将其视为“可疑”,而非确凿的证据。</p><h3>AI检测工具的工作原理是什么?</h3><p>构建AI检测工具的方法有很多。一种简单的方法(不过我没有找到实际应用的例子)是使用人类文本和AI生成的文本来训练分类器。但这种方法效果并不好。<a href="https://arxiv.org/pdf/2305.15047">Ghostbuster</a>论文指出,直接对文本进行分类效果不佳。</p><p>我见过最令人印象深刻的论文是<a href="https://arxiv.org/pdf/2510.03154">EditLens</a>,该论文使用经过不同程度AI编辑的文本进行训练,这样模型就能更准确地判断AI的参与程度。这种方法比单纯的“AI或非AI”分类器更有效,因为每个样本都能为模型提供更详细的反馈。</p><p>需要注意的是:<strong>所有这些工具本身也都依赖于AI</strong>。如果不自己训练模型或使用现有的AI模型进行推理,就无法检测出AI生成的文本。这对那些坚决反对AI的人来说是个坏消息,因为他们根本不想利用AI来检测其他人的作品。这也意味着:<strong>AI检测工具无法证明文本是由AI生成的</strong>,即使是最先进的工具也只能说明文本极有可能是由AI生成的。</p><h3>“人性化”工具</h3><p>有趣的是,还有一类“人性化工具”旨在将AI生成的文本转换成AI检测工具能识别为“人类创作”的文本。一些免费的AI检测工具实际上只是这些“人性化工具”的销售手段,它们会故意产生大量误判结果,从而让用户购买相关服务。例如,我曾将自己的一篇博客文章通过<a href="https://justdone.com/ai-detector">JustDone</a>进行检测,结果该工具判断文章90%是AI生成的,并提供每月40美元的服务来“修复”这些错误。</p><p>这些工具并未明说这一点,但它们的“人性化”过程实际上是将文本输入到经过训练的AI模型中,使其生成更接近人类风格的文本。这很讽刺:有些学生可能因为担心误判而选择让AI生成自己的论文。</p><h3>误判与社会影响</h3><p>对大多数人来说,假装这些工具比实际更可靠是有利的。AI检测工具的制造商自然希望展示出产品的可靠性;学校和机构管理者也希望掩盖问题;网上的人则喜欢通过截图来“证明”他人抄袭AI内容。</p><p>就连AI研究机构本身也希望AI检测看起来简单可靠,因为这样可以减轻他们在破坏教育系统方面的责任。OpenAI曾在2023年1月发布了自己的AI检测工具,但六个月后因准确率低而将其撤下。</p><p>真正受影响的是那些试图写作的人——他们不得不面对被误判为AI生成作品的情况。有些学生会调整自己的写作风格,或记录敲击键盘的痕迹、拍摄草稿照片作为证据。</p><p>如果你需要判断他人是否使用AI写作,我建议你对AI检测工具的能力保持现实态度:它们只能做出有根据的猜测,而已。尤其是那些提供“人性化”服务的工具,更有可能产生误判。</p><h3>总结:</h3><strong>AI检测工具无法证明文本是由AI生成的。</strong>

标签