AI检测器如何检测论文?技术分析
了解AI检测器如何用于论文可以帮助学生和教师理解这些工具产生的分数。大多数检测器依赖于文本中的统计模式——特别是写作的可预测性或变异性有多大——而不是为了理解而阅读。本文分解了论文中AI检测的核心技术,解释了为什么结果有时是错误的,以及这些数字真正告诉你什么。
目录
核心问题:AI检测器如何检测论文?
AI检测器不像教师那样读你的论文。他们通过统计模型运行你的文本,将你的词语选择与大型语言模型可能生成的模式进行比较。核心思想很简单:AI生成的文本往往异常流畅且可预测,而人类写作则有更多的变化、错误和惊喜。检测器对这种可预测性进行评分,并返回文本由机器编写的概率。两个度量主导这个过程:困惑度和突发性。
困惑度:衡量你的写作有多可预测
困惑度是从信息论中借用的度量。当语言模型读一个句子时,它尝试预测每个下一个单词。如果发现每个单词都容易预测,文本就有低困惑度——这是一个迹象,表明它类似于AI输出。如果单词更难预测,困惑度就高——更符合自发的人类写作。像GPT-4这样的AI模型通过选择统计上可能的单词来生成文本,这自然会产生低困惑度的输出。经过精心校准的AI检测器会标记这种模式。但是,直白的学术写作——简单的句子、正式的词汇、可预测的结构——也可能显示为低困惑度,这是论文中出现误报的原因之一。
困惑度不衡量质量或智能。它衡量可预测性。一篇清晰写出的人类论文可能会得到与AI输出相似的分数,仅仅因为两者都避免了不寻常的词语选择。
突发性:为什么句子变化很重要
突发性是指一段写作在短句和长句之间交替的程度。人类作家自然会混合句子长度——长积累之后的短打,强调的片段。AI模型倾向于产生始终中等长度、整个节奏模式相似的句子。高突发性分数表明人类写作;低突发性分数引起怀疑。当检测器分析论文时,他们通常会将困惑度分数和突发性分数合并为一个AI概率百分比。结构均匀的论文——常见于五段式格式——在突发性轴上往往得到的分数更接近AI生成的文本,即使是手写的。
突发性是AI检测中最可靠的信号之一——人类作家很少在数百个单词中保持完全均匀的句子长度而不是有意识的努力。
AI检测器在论文中使用的其他信号
除了困惑度和突发性外,检测器还寻找与AI写作相关的额外模式。这些包括词汇分布(AI倾向于偏好某些中频词而不是罕见或非常常见的词)、句子开头的重复以及人类草稿中自然出现的小语法错误的缺失。一些检测器还使用在已知AI和人类文本的大型数据集上训练的分类器模型。这些模型学习纯困惑度评分遗漏的特征——例如特征性的转变、过度使用保护词如"然而"或"重要的是要注意",以及令人怀疑的一致段落长度。检测器结合的信号越多,其准确性通常就越高——但分析的计算成本也就越高。
- 词汇分布:AI偏好统计常见的中频词而不是罕见或口语词。
- 句子开头模式:AI生成的论文经常开始具有类似语法结构的句子,重复多次。
- 过渡词密度:AI文本倾向于过度使用正式连接词如"此外"、"而且"和"另外"。
- 段落长度一致性:人类论文自然地改变段落长度;AI输出经常将段落分组在接近相同的字数。
- 小错误的缺失:拼写错误、逗号融合和非正式短语在人类写作中很常见,但在未编辑的AI输出中很少见。
为什么AI检测器对某些论文不可靠
了解AI检测器如何用于论文也意味着了解它们失败的地方。最大的弱点是误报——将人类写作标记为AI。非英语使用者不成比例地受到影响,因为他们的写作倾向于遵循更安全、更可预测的语法结构,导致较低的困惑度分数。经过大量编辑的学术散文、标准化测试答题和公式化的申请论文也获得更高的AI相似性分数。相反,大量编辑和平衡句子长度变化的人类作家可能会无意中降低突发性。另一方面,复杂的提示工程可以将AI生成的文本推向更高的困惑度,欺骗检测器将机器编写的论文接受为人类。目前没有检测器在论文上达到100%的准确度,大多数供应商承认误报率在1%到9%之间,取决于写作风格。
2023年斯坦福大学的一项研究发现,AI检测器将非英语使用者写的论文标记为AI生成的比率明显高于英语使用者写的论文——引发了严重的公平关切。
Turnitin和其他学术平台如何将AI检测应用于论文
Turnitin的AI检测功能在全球推向机构时,使用了专门针对学术写作训练的模型。它返回一个百分比分数,以及论文的突出版本,显示它认为最可能由AI生成的段落。Canvas LMS、Blackboard和其他平台以各种方式集成了第三方AI检测——一些在提交时自动运行检查,其他需要手动审查。这些平台的共同之处是他们使用AI检测作为人类审查的信号,而不是最终判决。大多数机构政策将高AI分数视为调查的原因,而不是不当行为的确凿证据。分数本身不是证据——背景、学生草稿和课堂写作样本在任何学术后果之前通常是必需的。
如果你的论文被AI检测器标记,该怎么办
如果AI检测器标记你的论文,你有一些具体的步骤要采取。首先,明白标记不是结论——它是一个数据点。其次,收集你的写作过程中的任何证据:浏览器历史、文档修订历史、笔记或大纲。第三,考虑用更多的句子长度变化和更具体、更个人的例子重新编写标记的段落——AI检测器在具有特殊细节的文本上获得更低分数,这些细节不会出现在通用AI输出中。如果你在起草时使用了AI工具,但自己写了最终版本,请与教师对你的过程保持透明,因为许多机构现在有区分AI协助和AI替换的政策。
- 将你在写作过程中创建的所有草稿和笔记保存为你工作的证据。
- 检查检测器报告中突出显示的部分——关注标记为高AI概率的段落。
- 通过添加具体的例子、改变句子长度和删除通用转变来修改标记的段落。
- 审查你机构的AI使用政策,以了解允许什么协助以及什么需要披露。
- 如果标记是由Turnitin或类似平台生成的,请要求与教师会面,讨论背景中的分数。
高AI分数是一个标记,不是判决。检测工具是概率性的——它们估计概率,而不是意图。
在提交前检查你自己的论文
在提交前通过AI检测器运行你自己的论文让你有机会识别哪些部分听起来像是机器生成的,并主动修改它们。NotGPT的AI文本检测工具分析困惑度和突发性模式的文本,返回AI概率百分比,并突出显示最可能被标记的特定句子。如果你发现获得高分的部分,Humanize功能可以用可调节的强度——Light、Medium或Strong——重新编写它们,以增加自然变化,同时保持你的意思。在提交前在你自己的工作上使用这些工具是理解AI检测器如何为论文工作并在你自己的写作中捕获误报的实际方法,然后再成为问题。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI文本检测
粘贴任何文本并获得AI相似性概率分数,其中突出显示部分。
AI图像检测
上传图像以检测它是否是由DALL-E或Midjourney等AI工具生成的。
Humanize
重新编写AI生成的文本以听起来自然。选择Light、Medium或Strong强度。