Skip to main content
guideai-detection

AI检测器如何工作?技术深度解析

· 8 min read· NotGPT Team

AI检测器如何工作?简短的答案是它不像老师或编辑那样阅读文本——它研究当语言模型生成单词与人类书写时留下的统计指纹。两个信号位于大多数基于文本的检测器的中心:困惑度,它捕捉单词选择的可预测性,和突发性,它衡量整个段落中句子结构变化的程度。这些信号一起进入一个经过训练的机器学习分类器,该分类器生成AI作者身份的概率估计,而不是简单的是或否判断。

AI检测器在信号层面如何工作?

AI检测器不检查语法,不评估论点质量,也不以传统方式寻找抄袭。它们分析文本的统计属性——当语言模型将单词串在一起与人类自然写作时出现的概率模式。核心机制是一种不对称性:语言模型根据上下文选择最可能的下一个令牌,这产生流畅的输出,根据定义,对随后评估它的另一个模型也是统计上可预测的。人类作者不为令牌概率优化。我们选择单词是为了节奏、强调、个性和语域——这些选择即使完全清楚易读,从纯粹的概率角度看也常常显得令人惊讶。除了困惑度和突发性这两个基本指标外,许多检测器还将额外的特征——词汇范围、被动语态频率、过渡短语密度——输入一个经过训练的机器学习分类器。这些信号的组合使检测器能够返回概率分数而不是二元标签,这是对统计检测实际能告诉您什么的更诚实的表示。

什么是困惑度以及它如何揭示AI写作?

困惑度是一个源自信息论的度量,捕捉语言模型对给定单词序列感到惊讶的程度。当AI生成文本时,它始终选择高概率令牌——所以另一个模型随后评估输出时看到的正是它会预测的东西,导致困惑度分数低。人类作者不遵循最可能的下一个令牌路径。一个人可能出于效果使用不寻常的单词,出人意料地打破句子结构,或选择反映他们风格的措辞而不是模型会排列为最可能选择的措辞。这些风格决定产生更高的困惑度——从概率的角度来看文本更令人惊讶,尽管它对人类读者来说清楚易读。AI检测器直接使用这种不对称性:每个单词转换都是统计预期的段落往往被评为AI可能的,而具有意外措辞、结构断裂或习语式词语使用的段落往往被评为更接近人类。复杂的是,并非所有人类写作都是高困惑度的。正式的体裁——法律文件、学术论文、临床报告——使用可预测的结构,因为这些语域要求如此。标准的样板条款和该相同条款的GPT生成版本在困惑度分析下可能看起来几乎相同,这就是为什么仅困惑度在专业领域不是一个可靠的判断。

困惑度衡量每个单词选择相对于语言模型预期的可预测程度。AI生成的文本往往在统计上不令人惊讶;人类写作引入不遵循最可能的下一个令牌路径的选择。

什么是突发性以及它为什么对检测很重要?

突发性从困惑度捕捉不同的东西:整个段落中句子结构和长度的变化。人类写作通常是突发的。一个作者可能会在长的、复杂的句子之后跟随一个短的、直接的句子,该句子加载了从属子句。强调转移。节奏根据段落正在做的事情加速和减速。这种不规则性不是偶然的——它反映了人们如何在页面上思考想法,在阐述和总结之间交替,在复杂性和清晰度之间。AI生成的文本往往具有低突发性。语言模型优化连贯性,这产生句子围绕相似长度和结构复杂性聚集的散文。结果读起来很顺畅,但当您检查整个段落中的句子长度分布时看起来异常一致。典型GPT输出中句子长度的直方图通常显示围绕平均值的紧密聚类;对人类写作文本的相同分析往往显示更广泛的分布。检测器通过分析整个文本中的句子长度方差、句法复杂性分布和相关结构措施来计算突发性。像困惑度一样,突发性是一个概率信号而不是一个明确的标记。一些经过训练的学术作家在正式语域中故意制作低突发性散文。而一个精心提示的AI模型如果明确指示改变句子长度可以生成更高突发性的文本。该信号在有足够句子建立分布的长段落中最有意义——不是在几百字的短摘录中。

机器学习分类器如何为AI检测器提供支持?

困惑度和突发性是可以从第一原则计算的统计指标。将这些指标转变为实用检测器的是在大量标记文本数据集上训练的机器学习分类器——已确认为人类写作与AI生成的段落。分类器学习哪些信号组合最能预测AI作者身份,它可以同时权衡数十个特征,而不是仅依赖两个数字。困惑度和突发性之外的常见特征包括词汇丰富度比率(整个段落中词汇选择的多样性)、被动语态频率、特定过渡短语的密度、段落级结构模式和相邻句子之间的语义连贯性得分。训练数据的质量决定了分类器在实践中的性能几乎一切。主要在GPT-3.5输出上训练的模型已学会该特定模型的统计指纹。它可能在未编辑的GPT-3.5文本上表现良好,但在Claude 3 Sonnet、Gemini或GPT-4o上表现不佳,这些具有不同的文体特征。这产生了训练数据延迟:每当发布并广泛采用一个新的主要语言模型时,在其可用之前训练的检测器需要时间和新的标记示例来针对它进行校准。一些检测器提供商发布定期更新来跟踪这种漂移;其他人在发布后不积极维护他们的分类器。检测器的训练数据的年龄和广度与其架构的复杂性一样重要——两个因素都决定了它在其原始基准条件之外的泛化程度。

句子级高亮实际显示什么?

大多数现代AI检测器不仅仅返回单个汇总分数——它们还高亮对整体结果贡献最大的单个句子或段落。每个高亮部分都有一个本地概率分数:分类器估计该特定段落基于其统计属性看起来像AI生成的。然后这些本地分数通常用一些加权汇总为在顶部显示的文件级数字。句子级输出很有用,正是因为它告诉您信号集中在哪里,而不仅仅是信号的总体强度。70%的文件级AI可能得分意味着的东西非常不同,取决于标记的内容是集中在几个连续的段落中还是分散在整个文件中。一个部分中的集中标记可能表明内容是分别起草的,或特定段落使用分类器评分为AI似的语域。整个文件中的分布标记表明一个更一致的基线,影响作者的整体风格。句子级高亮也有助于诊断误报。当段落被标记但您知道这是您自己的写作时,查看哪些特定句子被高亮——以及为什么它们可能看起来像AI——让您拥有远不止于一个汇总数字的东西来处理。一个正式的介绍句子、一个具有很少文体变化的段落或一个使用技术术语的部分都可能在没有任何AI参与的情况下触发更高的本地分数。

为什么AI检测器会产生误报?

误报——检测器将人类写作的文本标记为AI生成——不是罕见的边缘情况。它们是应用于与AI输出共享表面属性的写作的统计检测的可预测后果,并且它们以足够的规律性发生以至于在任何真实后果遵循分数的背景中很重要。最常见的触发是文体重叠:以正式正确、结构一致、词汇受限的风格书写的文本,即使作者是人类。非母语英语使用者在正式语域中仔细工作始终面临更高的风险。当一个人故意构造句子以最小化语法错误时——正是因为英语不是他们的第一语言——生成的文本对检测器来说可能看起来低困惑度和低突发性,密切匹配它与AI生成的输出相关联的档案。技术、法律和临床写作呈现类似的问题。这些体裁通过职业惯例强制可预测的过渡、受限的词汇范围和标准化的结构,无论谁写的。域特定的样板——标准保修语言、循环合同条款、诊断报告模板——即使作者是人类也经常在AI检测器上得分很高。大约250字以下的短文本是误报的另一个一致来源:大多数检测器根本在短样本中没有足够的统计数据来生成可靠的分类。短摘录中的随机变化可能会将看起来均匀人类的分数推到高于标记阈值。实际含义是高检测分数和AI作者身份的确认身份不是同一件事——区分它们需要查看背景、写作历史和驱动结果的特定段落。

误报是应用于与AI输出共享表面属性的写作的统计AI检测的可预测后果——不是罕见的边缘情况,而是特定的、明确定义的文本类别中的已知失败模式。

对于当前AI检测最难的情况是什么?

某些类型的文本位于AI检测器始终困难的区域,无论您使用哪个平台。事先了解这些情况是什么样的有助于校准您应该在检测结果上放多少权重。大量编辑的AI草稿是最清晰的例子。如果某人为第一稿使用GPT然后大幅重写它——改变词汇、重组句子、插入他们自己的示例和分析——原始统计指纹被稀释到大多数检测器返回不可靠分数的程度。即使中等程度的编辑后处理也可能将分数从85% AI推至低于50%,而不改变作者身份的任何基本特征。混合文件,其中某些部分是人类写作而其他部分是AI生成,会产生聚合问题。一个60%人类和40% AI的文件可能产生一个看起来平凡的汇总分数,而句子级分解揭示了一个更清晰的关于每个部分来源的模式。高度技术或专业内容也造成困难。当一个领域通过职业惯例强制受限词汇和可预测结构时,检测器无法可靠地区分该风格中AI生成和专家人类写作——困惑度信号在这里特别弱,因为精确驱动的散文根据设计是低困惑度的。最后,提示工程的AI输出——用明确指令生成以改变句子长度、引入非正式措辞和避免常见AI模式的文本——可能在大多数检测器上得分欺骗性地低。这是一个任何检测方法都无法完全逃脱的军备竞赛动态:当人们了解检测器测量的内容时,他们可以指示AI工具避免这些特定的模式。

  1. 大量编辑的AI草稿:编辑后处理稀释检测器依赖的统计指纹
  2. 混合人类AI文件:汇总分数可能具有欺骗性——句子级输出是必需的
  3. 非母语英语使用者:正式、仔细的写作产生类似AI的统计模式,没有AI参与
  4. 短文本不足250字:数据不足以进行可靠的分类
  5. 特定于域的技术或法律散文:职业惯例在人类写作中创建AI似的表面模式
  6. 提示工程的AI输出:用避免检测模式的指令生成的文本需要更复杂的信号来捕捉

当您在自己的文本上使用AI检测器时它如何工作?

了解AI检测背后的技术力学在您查看为您实际写的东西的结果时最有用——或评估提交给您的东西。当您将文本粘贴到检测器中并收到分数时,该工具同时运行所有这些信号:计算整个段落的困惑度,测量句子长度和结构的突发性,将这些值连同额外特征输入经过训练的分类器,以及返回汇总分数和句子级分解。汇总分数告诉您整体概率估计;句子级分解告诉您哪些特定段落驱动了它。对于检查自己工作的作者,可操作部分通常是句子级视图。如果几个特定段落被高亮而文本的其余部分没有,这是一个值得调查的有意义的信号——这些段落可能是单独起草的,或者它们碰巧使用分类器评分为AI似的风格(正式过渡、受限词汇、低句子长度变化)。NotGPT的文本检测返回文件级概率分数和高亮个别句子,所以您可以追踪恰好哪些部分对结果有贡献,而不是从单个百分比向后工作。对于在自己的写作上收到意外高分的任何人,句子级视图是理解检测器响应什么以及结果是否反映您的实际作者身份或误报的最有用的起点。

使用NotGPT检测AI内容

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

即时检测AI生成的文本和图像。一键将内容人性化。