最近,芝加哥大学的一项研究揭示了市场上各类商业 AI 文本检测工具的显著差异。研究人员构建了一个包含1992篇人类撰写文本的数据集,涵盖亚马逊产品评论、博客文章、新闻报道、小说摘录、餐厅评论和简历等六种类型。同时,他们使用了四种领先的语言模型:GPT-41、Claude Opus4、Claude Sonnet4和 Gemini2.0Flash,生成了相应的 AI 写作样本。
为了比较这些检测工具的性能,研究团队主要跟踪了两个指标。假阳性率(FPR)用于衡量人类文本被错误标记为 AI 生成的频率,而假阴性率(FNR)则显示 AI 文本未被检测到的比例。在这次直接对比中,商业检测工具 Pangram 表现出色。对于中长文本,Pangram 的 FPR 和 FNR 几乎为零;在短文本方面,错误率也普遍低于0.01,唯有 Gemini2.0Flash 在餐厅评论中的 FNR 为0.02。

其他检测工具如 OriginalityAI 和 GPTZero 表现稍逊,虽然在较长文本上表现良好,FPR 保持在0.01以下,但在极短文本方面却不尽如人意。此外,它们对将 AI 文本伪装成人类写作的 “人性化” 工具也较为敏感。
Pangram 在识别 AI 生成文本方面表现出色,所有四种模型生成的文本 FNR 均未超过0.02。相比之下,OriginalityAI 的表现则受生成模型的影响更大,而 GPTZero 在模型选择上表现更为稳定,但仍不及 Pangram。
研究人员还测试了各检测工具对抗 StealthGPT 工具的能力,该工具能让 AI 生成的文本更难被检测。Pangram 在这些情况下表现较为稳健,而其他检测工具则面临较大挑战。
在经济效益方面,Pangram 的平均识别成本为每个正确识别的 AI 文本0.0228美元,约为 OriginalityAI 的一半和 GPTZero 的三分之一。研究提出了 “政策上限” 的概念,用户可以设定最大可接受的假阳性率,以便更好地调节检测工具。

研究团队警告,这些结果仅是当前形势的一个快照,未来将在检测工具、新 AI 模型和规避工具之间展开一场 “军备竞赛”。他们建议定期进行透明的审计,以跟上这一快速变化的领域。
项目:https://pangram.ai/
划重点:
🌟 Pangram 在检测准确性方面表现卓越,假阳性和假阴性率几乎为零。
📊 其他工具在处理短文本时存在困难,Pangram 在识别 AI 生成文本方面更具优势。
💰 Pangram 的识别成本最低,经济效益显著,为用户提供了实用的选择。
