Skip to main content
ai-detectionguideexplainer

ChatGPT检测器如何工作?简明讲解

· 10 min read· NotGPT Team

了解ChatGPT检测器的工作原理对提交论文的学生、筛选自由撰稿内容的编辑以及遇到被标记作品并需要判断分数是否代表有意义证据或统计噪声的教师来说都是实用的。这些工具是机器学习分类器,可以测量文本中的两个主要信号——困惑度和突发性——并输出一个概率估计,表示该段落是由语言模型生成的而非由真人撰写的。分数不是判决,而是结果与可靠结论之间的差距是这些系统最常见误解的地方。

ChatGPT检测器在统计学层面如何工作?

ChatGPT检测器在最基础的层面是如何工作的?它们将作者身份的问题简化为统计问题,将给定文本的可测量属性与分类器从大量人类撰写和AI生成的文本样本中学到的内容进行比较。ChatGPT检测器是在大型人类撰写文本和来自GPT-4、Claude、Gemini和Llama等模型的AI生成文本集合上训练的机器学习分类器。在训练期间,分类器学习哪些统计属性区分了这两个类别——主要是在给定上下文的情况下每个词选择的可预测程度,以及句子长度和结构在整个文档中的一致性。在推理时,该工具接收输入文本,提取这些特征,并输出0到100之间的数字,表示文本的统计特征与模型从AI生成的训练样本中学到的内容的匹配程度。存在两种主要的技术方法:通过变压器传递输入并读取最后一层表示的微调分类器模型,以及检查在生成时嵌入到令牌中的统计签名的水印检测器。大多数面向消费者的工具——GPTZero、Copyleaks、Turnitin的AI检测功能和NotGPT——都使用微调分类器方法,因为水印检测需要生成系统的配合,并且不适用于任何未在生成期间嵌入签名的模型生成的文本。

什么是困惑度,为什么它很重要?

困惑度是一种衡量语言模型对段落中每个单词感到惊讶程度的指标,考虑到它之前的单词。当AI模型生成文本时,它在每个位置选择最统计可能的令牌——生成的文本在设计上相对于模型的训练分布具有低困惑度。人类撰稿人不会为令牌概率优化:他们采用不寻常的措辞、在段落中改变风格、做出适合个人风格而非统计安全选项的词选择,导致与同一主题的AI生成输出相比具有更高的总体困惑度。ChatGPT检测器通过通过参考语言模型运行输入、收集分配给每个令牌的对数概率并将它们汇总成单一分数来利用这种不对称。低总体困惑度提高了AI可能性估计;高困惑度表明语言模型会感到惊讶的词选择,这是与人类创作相关的信号。复杂的是,某些类别的人类写作——技术文档、正式学术文章、精心编辑的内容——也具有低困惑度得分,因为它们利用受限词汇和流派惯例,这正是误报的来源。

困惑度衡量给定其上下文的每个词选择的可预测程度。AI生成的文本几乎在构造上是低困惑度的——模型在每一步选择最可能的下一个令牌,而这种可预测性正是检测器被训练去发现的。

什么是突发性,检测器如何使用它?

突发性捕捉整个文档中句子长度和结构复杂性的变化。人类撰稿人自然产生高突发性文本:段落可能以短而直接的观察开头,然后是一个长句子,其中包含资格和背景,然后以推动论证的中等长度的陈述结束。这种变化不是一个刻意的风格选择——它是人类思想如何产生写作的副产品,遵循认知动量和背景压力而非流畅性优化目标。AI模型倾向于生成低突发性文本,因为它们在每个令牌步骤优化流畅、可读的输出,生成句子聚集在一致的长度范围内并在段落中遵循可预测的结构模式。检测器通过测量文档中句子长度分布的统计方差来计算突发性:低方差提高AI概率估计,而高方差——特别是同一部分中非常短和长句子的混合——是强烈指向人类创作的信号。这就是为什么故意混合被标记部分中的句子长度倾向于降低检测分数的原因:它恢复了一致AI输出所缺乏的突发性信号。

AI模型逐个令牌优化流畅性,作为副作用产生节奏一致的输出。人类撰稿人遵循他们的思维过程,由此产生的句子长度变化是检测器测量的突发性信号。

检测器如何生成置信度评分?

大多数ChatGPT检测器的输出是一个百分比——标记为AI概率、AI生成的置信度或类似的描述符。这个数字是分类器基于困惑度、突发性和该特定模型被训练的任何其他特征的测量组合,估计文本属于AI生成类的概率。80%的AI结果并不意味着检测器对整个文档有80%的把握:这意味着文本的特征位于分类器在训练期间学到的AI可能性分布的第80个百分位数,这是一个不同且在解释上更复杂的声明。大多数平台应用一个阈值——通常为60到80%——超过该阈值的结果被报告为可能是AI生成的,但具体阈值会以相反的方向影响假阳性和真阳性率:较低的阈值捕获更多的AI内容,但也标记更多的人类写作;较高的阈值减少误报,但代价是遗漏更多AI生成的文本。平台之间的分数可变性是关于可靠性最实用的信号之一:在一个检测器上得分78%、在另一个检测器上得分42%的文档不在任何工具的分类应该被视为确定的区域,因为文本占据了人类和AI写作真正重叠的统计区域。

句子级高亮显示如何工作?

几个AI检测工具——包括NotGPT——在文档级评分的同时提供句子级概率高亮显示,用本地AI可能性估计标注各个句子,而不是将所有内容折叠成单一数字。技术机制通过独立计算每个句子或短跨度的困惑度来工作,使用周围上下文作为每个本地计算的背景:模型将为每个单词分配高概率的句子出现在高AI层,而预测概率较低的句子出现在低AI层。句子级高亮显示在两个不同的情况下在实践中很有用。对于在提交前进行自检的撰稿人,高亮的句子标识特定的修订目标——写作已进入与AI输出相关的统计寄存器的段落——在正式提交被标记之前。对于评论被标记文档的教师或编辑,高亮显示分布显示高得分段落是集中在文档的一个部分(这可能表示与周围写作在风格上不一致的文本),还是分散在整个文档中(通常表示写作风格模式而不是特定段落中的选择性AI使用)。

为什么ChatGPT检测器会产生假阳性?

当人类撰写的文本与分类器与AI输出相关的统计特征相同——低困惑度、低突发性——时,ChatGPT检测器会产生假阳性,这种情况的发生频率比供应商准确性声称的要高。形式上受限的写作是最常见的原因:学术、法律和技术写作遵循限制词汇选择、偏向被动语态、强制执行一致段落组织的流派惯例,所有这些都会降低困惑度和突发性,即使文本完全是人类创作的。编辑是提升假阳性风险的第二个来源——平缓不规则句子变化的语法纠正工具或消除非正式措辞和尴尬过渡的仔细修订段落会移除最统计上与人类创作相关的特征。自2023年以来进行的研究一致表明,假阳性率在5%到25%之间,取决于写作人群和使用的工具,非英语使用者在完全相同的任务中的错误率是英语使用者的两到五倍。这些比率实质上高于平台在其内部管理的基准上报告的内容,这些基准通常将未编辑的AI输出与非正式的人类写作进行比较——这是最大化分类器准确性的配置,并低估了在真实部署中最可能被错误标记的人群。

ChatGPT检测器的高分数是统计分类,而不是AI使用的发现。当人类写作和AI输出占据分类器概率分布的相同区域时,该工具无法区分它们——某些人类写作总会这样做。

在提交前如何自检您的写作?

一旦您了解ChatGPT检测器的工作原理——测量困惑度和突发性以生成概率分数——修订策略就从抽象变为具体。在正式提交前通过检测工具运行您自己的文本会给您时间修订被标记的段落,同时风险仍然是可控的。实际工作流程结合了三个元素:粘贴文本、阅读句子级高亮以确定哪些具体段落得分较高,以及修订这些部分以增加句子长度变化和词语选择的特异性,然后文档进入机构或编辑系统。最可靠地降低检测分数的修订是那些通常加强写作的修订——具体细节、精确词汇和反映真实思想而非通用框架的句子结构。保持版本历史和研究文档作为常规做法也提供了强有力的反证,以防提交在正式受到质疑。

  1. 将您的文本粘贴到提供句子级概率高亮显示的检测工具中,而不仅仅是总体评分——句子级数据是可操作修订指导所在的地方
  2. 确定得分最高的句子和段落;这些是您写作的统计特征最接近分类器学到的AI生成训练数据的部分
  3. 在被标记的段落中,故意改变句子长度:在同一段落中,复杂的多子句句子后面是一个短而直接的句子,并寻找多个连续句子长度相似的序列
  4. 用特定、与背景相关的词选择替换得分较高的部分中可预测或通用的词汇——命名的例子、精确的描述、只有您能从您特定的研究背景中写出的第一人称观察
  5. 重新运行修订后的文本并比较新分数;之前被标记部分的实质性下降确认突发性和词语选择多样性已实际改进
  6. 将您的草稿历史、研究笔记和源材料保存为常规做法,以便时间戳的流程文档在正式提交受到质疑时可用
  7. 对于学术提交,在截止日期前至少48小时运行提前提交自检,以便有时间进行有意义的修订,而不是在压力下进行表面修改

使用NotGPT检测AI内容

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

即时检测AI生成的文本和图像。一键将内容人性化。

相关文章

检测功能

🔍

AI Text Detection

粘贴任何文本并接收带有高亮部分的AI相似度概率分数。

🖼️

AI图像检测

上传图像以检测它是否由DALL-E或Midjourney等AI工具生成。

✍️

Humanize

重写AI生成的文本以使其听起来自然。选择轻型、中型或强型强度。

使用场景