Skip to main content
ai-detectionguidewritingacademic-integrity

写作中的突发性和困惑度是什么?AI检测背后的信号

· 9 min read· NotGPT Team

写作中的突发性和困惑度是什么——为什么这两个统计学术语每次涉及AI检测时都会出现?这两个概念起源于计算语言学和信息论,但从AI检测器开始将其作为判断文本是由人类撰写还是由机器生成的主要证据的那一刻起,它们就进入了大众话题。对于工作需要通过自动化筛查的学生、作家和编辑来说,理解这些信号实际衡量的内容——以及它们不能做什么——适用于所有AI检测工具,而不仅仅是一个特定平台。

什么是写作中的困惑度?

困惑度是从信息论中借用的概念,最初用于评估概率模型对文本样本的预测效果。在语言模型和AI检测的背景下,它捕捉了更直观的含义:一个经过训练的语言模型对你选择的单词序列会感到多么惊讶。当单词选择在周围单词的基础上高度可预测时——显而易见的下一个词、预期的同义词、完成熟悉构造的常规短语——模型为该选择分配较低的困惑度。当作者寻求不寻常的同义词、结构上出乎意料的句子或特殊的表达方式时,困惑度就会上升。ChatGPT、Claude和Gemini等大型语言模型被训练为在每一步选择统计上最可能的下一个词。该训练目标直接产生低困惑度的输出——不是作为副作用,而是这些系统构建方式的根本结果。语言模型撰写关于气候变化解释的文本会在每一步选择最可能的词,沿着任何经过训练的模型都会遵循的统计路径。相比之下,人类作家做出的选择是训练数据没有强烈预测的:特定的比喻、不寻常但准确的词汇、打破预期节奏的句子结构。这些偏差推高了困惑度,困惑度更高的文本在统计上更有可能来自真人。

困惑度不衡量创意或质量——它衡量一段写作与最统计可能路径的距离有多远。人类作者比语言模型走得更远,这个差距就是AI检测器被训练来发现的。

什么是写作中的突发性?

突发性最初用来描述时间序列数据和网络事件的特性:某些过程倾向于以集群和间隙的方式产生事件,而不是以稳定、可预测的速率产生事件。应用于写作,它描述了整个文本中句子长度、结构复杂性和文体寄存器的变化。人类写作自然具有突发性。一篇论文、一篇博客文章或一篇报告文章通常混合了短的陈述句——直接而有力——和更长的句子,这些句子包含从属子句、嵌入的限定和详细的例子。这种交替不是有意计划的;它反映了口语思维转换为散文的节奏,强调在快速要点和详细解释之间自然转换的方式。AI生成的写作往往具有较低的突发性。当语言模型生成段落时,它不会经历在情感吸引力和技术解释之间转换或从一句话总结关键点然后用三句话扩展其含义时出现的寄存器转换。结果是散文中大多数句子占据相似的结构权重:不完全相同,但分布远比人类作者在相同字数上的分布要窄得多。突发性是在整个文档中统计测量的,而不是逐句测量的。单个长句不能使文档具有突发性;重要的是整个文本中句子长度的分布是宽还是窄。

  1. 句子长度分布狭窄:当一段中的大多数句子落在10-15个词的范围内时,即使单个句子中等长度,突发性也会下降
  2. 统一的段落结构:始终以主题句开头、添加两到三个支持句并以过渡句结尾的段落遵循会抑制突发性的模板
  3. 一致的连接组织:过渡短语(然而、因此、另外)出现在可预测的结构位置会创建一种节奏,检测模型将其与AI输出联系起来
  4. 缺少文体转换:人类散文通常在叙述时刻、分析时刻和直接陈述之间改变语调和句子权重——AI输出往往在整个过程中保持一致的文体

AI检测器如何使用这两个信号?

大多数AI检测工具——包括Turnitin的AI写作指示器、GPTZero和类似平台——将困惑度和突发性一起使用,而不是单独处理任何一个信号。这种结合创建了更可靠的分类,因为两个信号可以以区分真正边界情况与清晰情况的方式相互确认或矛盾。检测管道通常首先在句子级别工作。每个句子都根据给定语言模型概率分布的单词选择的可预测程度进行评估——为该句子生成局部困惑度得分。然后汇总这些句子级得分,这些得分在整个文档中的方差——它们的一致性或不一致性高或低——产生突发性信号。句子级困惑度得分紧密聚集在一起的文档在突发性上得分较低。困惑度在句子之间变化显著的文档得分更高。当两个信号都指向AI生成的文本时——低平均困惑度和句子间的低方差——检测器分配较高的AI概率得分。当信号冲突时——低平均困惑度但高突发性的文档——分类器必须做出更不确定的决定,这通常会产生中等范围的得分,其中任何结果都不是有信心预测的。

  1. 句子级困惑度评分:每个句子根据其单词序列在模型语言模型下的可能性接收概率得分
  2. 文档级突发性计算:整个文档中句子级得分的方差产生突发性度量
  3. 组合分类:低平均困惑度结合低方差(突发性)产生最高的AI概率得分
  4. 阈值应用:跨越分类阈值的句子比例成为总体百分比得分
  5. 得分解释:任何信号本身都不构成最终结论——两者都有助于概率,而不是确定性
AI检测器不会将你的文本与AI输出数据库进行比较。它们测量你特定文本的两个统计属性,并将这些属性与训练期间学到的分布进行比较。

为什么AI写作的得分与人类写作如此不同?

当你检查为什么AI生成的文本在两个方面的得分都可靠地低于大多数人类写作时,理解写作中的突发性和困惑度就变得更具体了。这个差异可以追溯到所有大型语言模型共享的训练目标:在给定周围背景的情况下预测最可能的下一个标记。这个目标是使语言模型有用的原因——它们一致地产生连贯、流畅、情境适当的文本。但它也使其输出在可测量的方式上有系统地不同于人类写作。语言模型生成关于光合作用的段落不会经历疲劳、分心或从无关领域引入意外类比的冲动。它不会产生一个半成熟的想法,导致一个笨拙的连句,然后作者回头收紧它。它不会从正式解释转换到会话旁白,因为此时的文体感觉合适。相反,它遵循其训练数据的统计景观,在每一步做出一致的可能选择。结果是具有可识别纹理的散文:平滑、变化足以避免明显重复,但没有来自转换为文本的实时思维的尖锐不规则性。从统计上看,人类写作更混乱——不是因为人类作者技能不足,而是因为写作和思维过程一样是思考过程,而即时思维是不规则的。人类撰写的段落通常显示词汇可预测性的变化,当作者寻求精确性、做出旁观察并返回主要论点时。这种变化推高了困惑度和突发性。

AI文本很平滑,因为语言模型优化了平滑性。人类写作不规则,因为它由不规则的思维产生。这两个过程之间的统计差异就是AI检测被训练来测量的。

哪些写作模式会产生低突发性和困惑度得分?

从理解写作中的突发性和困惑度中获得的最实际的见解是,人类作者可以在不涉及AI的情况下生成在两个信号上都得分较低的文本。几类写作可靠地生成与AI生成的输出重叠的统计概况,使它们成为跨检测平台假阳性的常见来源。了解哪些背景承载这种风险有助于作者、编辑和审稿人以适当的怀疑态度解释检测分数,而不是将单个数字视为结论。

  1. 正式学术文体:学术写作的惯例——清晰的主题句、结构化论证、正式词汇、逻辑过渡——产生可预测的、低困惑度的散文,即使完全由掌握了这些惯例的学生撰写
  2. 技术和科学写作:实验室报告、方法部分和技术文档使用狭窄的词汇域和僵硬的结构模板,限制了句子变化并抑制了突发性
  3. 非英语写作:用第二语言谨慎写作自然会产生更保守、更可预测的词汇选择和更统一的句子结构——即使完全是原创,也会记录为低困惑度和低突发性
  4. 编辑充分的最终草稿:修订过程平滑粗糙的边缘并删除特殊的措辞,将抛光散文转向检测模型与AI输出相关联的统计概况
  5. 总结和密切释义:遵循源文档结构的文本通常采用源的统计模式;即使每个词都是作者自己的,摘要也倾向于平滑、可预测的散文
  6. 200字以下的短文档:统计模型需要足够的数据来产生可靠的分类;短文本产生不稳定的分数,只需几个词选择就可以大幅波动
假阳性不是AI使用的证据——它是文本的统计概况落在人类和AI写作都可以存在的重叠区域的证据。这些区域比大多数检测供应商公开承认的要大。

你能改变你的困惑度和突发性得分吗?

如果你知道你的写作在两个信号上的得分,你可以调整具体的表面级特征来改变这些分数——调整是对散文的真实改进,而不是欺骗算法的技巧。增加突发性和困惑度的变化往往会使写作更具体和更易读,因为它们用特定的选择替换通用模式。突发性最可靠的杠杆是句子长度变化。如果你扫描一段文字,发现大多数句子在15到22个词之间,你在该部分有低突发性。有意添加一些非常短的句子——5到9个词,直接说明一点——和一些带有嵌入限定的较长句子会转换分布。在两个中等长度句子后插入一个短句可以显著改变该块的突发性计算。对于困惑度,最可靠的杠杆是具体性。通用学术词汇——显著、重要、各种、多个因素——在几乎任何背景下都是高度可预测的,降低了困惑度。用特定于你论证的精确形容词替换通用形容词会增加局部困惑度,因为选择不太被预期。添加具有特定名称、数字或观察的具体例子会产生相同的效果。目标不是任意变化——一个句子长度随机打乱的文档读起来很糟糕,可能根本不会改善困惑度,因为困惑度信号对词选择作出反应,而不是句子顺序。目标是使你的写作更具体、更独特,这也碰巧产生了检测器与人类创作相关联的统计概况。

  1. 扫描每个段落的句子长度一致性:标记任何所有句子都在10字范围内的块
  2. 在这些块中,在较长的句子后插入一个10字以下的短直接句子,或将30字句子分成12字和15字句子
  3. 用实际描述论证的特定形容词替换通用形容词——三倍增加、有争议、特定于格式
  4. 每个主要部分至少添加一个具体例子或特定观察——这些通过引入特定于你背景的术语而不是从段落主题预测的术语来提高本地困惑度
  5. 改变过渡短语的位置:不是每个段落都需要以However或Additionally开头——有时对比来自句子结构本身
  6. 单独审查引用段落和引文块:它们经常在两个信号上都得分较低,可能会拉低文档的整体得分;用你自己的分析评论抵消它们之前和之后

突发性和困惑度得分实际上告诉你什么?

基于困惑度和突发性的检测得分是统计概率估计,而不是关于创作权的决定。没有现在的AI检测系统——不是Turnitin的AI写作指示器,不是GPTZero,不是任何建立在相同基础信号上的平台——可以以确定性确定特定的人是否撰写了特定的文本,或者特定的AI工具是否生成了它。该得分表示的是文本的统计属性相对于检测模型在训练期间学到的分布的位置。高分意味着文本的困惑度和突发性概况类似于检测训练分布的AI生成一侧的文本,比人类写作一侧更多。它并不意味着文本是AI生成的;它意味着它在统计上类似于AI生成的文本。这一局限性最具体的证据是跨平台不一致。相同的文档通常在一个平台上得分75-85% AI,在另一个平台上得分25-35% AI。如果两个平台都在测量文档的真实、稳定属性,这些数字不应相差50个百分点。不一致反映了训练数据、分类阈值和模型架构的差异——不是文本实际情况的差异。出于实际目的,无论你是收到标记结果的学生、审查提交的编辑还是决定如何解释AI得分的讲师,基于困惑度和突发性分析派生的数字都是许多数据点中的一个——不是判决。NotGPT等平台显示了哪些具体句子驱动了得分,让你可以直接检查标记的段落,而不是对抽象数字做出响应。

跨平台可变性是AI检测分数不是测量文档某些明确的清晰指示。当两个建立在相同基础信号上的工具不一致相差40个百分点时,单独的得分都不是强有力的证据。

使用NotGPT检测AI内容

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

即时检测AI生成的文本和图像。一键将内容人性化。