Turnitin 如何检测 ChatGPT?AI 写作指示器的工作原理
Turnitin 如何检测 ChatGPT——更广泛地说,它如何区分 AI 生成的文本和学生自己写的内容?简短的答案是,Turnitin 的 AI 写作指示器不搜索特定 AI 工具的指纹;相反,它测量文本的两个统计特性,称为困惑度和突发性,这两个特性往往在人类写手和大型语言模型之间有所不同。理解这一区别对学生很重要,因为高分数并不证明使用了 ChatGPT——它表明某些段落与 AI 生成的散文共享统计特征,这些特征有时也可能出现在普通人类写作中。
目录
Turnitin 如何检测 ChatGPT?
许多学生询问 Turnitin 如何检测 ChatGPT 时,往往会惊讶地发现该系统不维护 AI 输出的指纹数据库。没有存储的 ChatGPT 响应库与你的论文进行比较——AI 写作指示器分析任何文本在面前的统计特性,而不参考任何特定的 AI 系统。Turnitin 主要测量的两个信号是困惑度和突发性。困惑度反映了在给定的上下文中,每个词选择的可预测性。像 ChatGPT 这样的语言模型被训练为选择最可能的下一个词,这使其输出的困惑度始终较低——它流畅运行并保持在预期的路径附近。人类写手会选择出人意料的同义词,做出特异性的表述决定,偶尔会以打破预期模式的方式构造句子。突发性测量整个文档中句子长度和结构复杂性的变化程度。人类散文自然地在短而直接的句子和更长、更精心构造的句式之间交替出现。ChatGPT 和类似工具倾向于在给定响应中产生长度和复杂性更统一的句子。当两个信号都指向同一方向——低困惑度和低突发性——时,AI 写作指示器会分配更高的可能性,认为文本是由机器生成的。
- 困惑度分析:评估在给定上下文中每个词选择的可预测性
- 突发性分析:测量整个文档中句子长度和结构复杂性的变化程度
- 句子级分类:为每个句子分配 AI 作者身份的可能性评分
- 综合百分比:超过分类阈值的句子比例成为整体评分
- 无工具识别:该模型无法确定是 ChatGPT、Claude、Gemini 还是其他工具生成的文本
Turnitin 的 AI 写作指示器测量文本的统计质地——不是哪个 AI 生成的文本,而是文本读起来是否像 AI 会写的东西。
什么是 AI 写作指示器,何时发布的?
Turnitin 在 2023 年 4 月发布了其 AI 写作指示器,最初是作为 Turnitin Feedback Studio 内的一项功能。该工具是使用 Turnitin 专有的学术文本数据集内部构建的——这是超过 20 年的剽窃检测积累的最大学生写作库之一。该数据集给 Turnitin 的研究团队带来了重大优势:一个专门为学术写作类型而不是一般互联网内容校准的模型。当讲师为作业启用 AI 检测时,每个超过最少字数阈值的提交都会自动通过 AI 写作指示器以及标准相似性检查进行处理。这两项分析是独立的。提交可以在原创性上得分很高——表明没有剽窃——同时显示高 AI 百分比,因为剽窃检测寻找已知来源的复制文本,而 AI 检测测量提交文本本身的统计特性。Turnitin 的模型是为英文学术散文设计的,对于少于 300 个单词的文档、主要以其他语言提交的文件或包含大量引用材料的文本,性能不太可靠。
"AI 写作指示器建立在世界上最广泛的学术写作数据集之上——这个数据集反映了学生实际的写作方式,而不仅仅是 AI 生成文本的方式。" — Turnitin,2023
Turnitin 能检测所有 ChatGPT 输出吗?
"Turnitin 如何检测 ChatGPT"这个问题需要一个重要的限定条件:答案在很大程度上取决于提交前 AI 输出被修改的程度。Turnitin 的 AI 写作指标在检测 ChatGPT 的原始形式输出方面很有效 — 直接从 ChatGPT 响应复制的文本,粘贴到提交中而没有任何修改。在这些情况下,ChatGPT 输出的统计特征在很大程度上是完整的,模型通常会分配一个高 AI 百分比。当文本在生成后进行了大量修改时,检测变得不那么可靠。改写 ChatGPT 草稿 — 重写句子、改变词汇、重新组织段落 — 会以减少 AI 信号的方式改变文本的统计特性。学生对 ChatGPT 输出编辑得越彻底,困惑度和突发性模式就越会转向人类写作,模型就越不能自信。AI 人类化工具创造了类似的挑战:它们特意设计为产生类似于人类文体模式的输出,可以在多个检测系统上显著降低 AI 分数。Turnitin 已经承认,大量修改和人类化的文本是一个真正的技术挑战,并表示检测模型会随着这些工具的发展而定期更新。原始 AI 输出和广泛编辑的 AI 内容之间的差距是真实的,目前没有任何 AI 检测器 — 包括 Turnitin 的 — 能完全解决这个问题。
直接粘贴到论文中的 ChatGPT 响应具有清晰的统计特征。经过彻底编辑和重写的相同响应可能没有那么清晰的特征。
Turnitin AI 的高分对学生意味着什么?
Turnitin 的 AI 写作指标的高分意味着提交中的相当大一部分句子与模型将其与 AI 生成文本相关联的统计特征相匹配。这并不证明使用了 ChatGPT 或任何其他工具 — 这是一个概率信号,而不是不当行为的明确认定。Turnitin 自己的指导建议将任何分数(无论百分比如何)视为对话的开始,而不是最终判决。大多数机构已经定义了内部阈值,用以确定 AI 分数何时变得可执行。低于 20% 的文档通常被机构政策视为低风险,因为模型在该级别的置信度不足以得出有意义的结论。20% 到 40% 之间的分数通常会标记以供教师审查,而无需触发正式的学术诚信诉讼。超过 40% 的分数可能,取决于机构政策,导致正式审查程序 — 尽管这在不同大学甚至同一机构的不同部门之间差异很大。作为学生最有用的是知道该分数会出现在你的教师看到的文档查看器中,它也显示哪些特定的句子被标记了。看到 45% 分数的教师,如果看到被标记的句子全部来自正式写作的结论,会得出与看到被标记的段落散布在论文每个部分的教师非常不同的结论。
- 低于 20%:通常被大多数机构政策视为不确定
- 20%-40%:通常标记供教师-学生对话,无需正式程序
- 超过 40%:在某些机构政策下可能触发正式学术诚信审查
- 百分比反映标记句子的比例,而不是文档的整体置信水平
- 查阅你所在机构的学术诚信政策,了解适用于你的确切阈值
Turnitin 能识别你使用了哪个 AI 工具吗?
这是关于 Turnitin 检测工作方式最重要的澄清之一:AI 写作指标无法识别 ChatGPT、Claude、Gemini、Copilot 或任何其他特定工具生成的文本。该模型测量提交文本本身的统计特性 — 它不会将文本与已知 AI 系统的输出数据库进行比较。这意味着无论哪个 AI 工具生成的提交,只要文本中的统计模式类似于 AI 生成的文本,分数就会类似。这也意味着模型无法根据学生声称使用过的工具来排除 AI 使用的可能性。高分同样适用于来自 GPT-4o、Gemini 1.5 或较小模型的文本 — 低分既不能确认人类创作,也不能像高分确认 AI 创作一样。无法将文本归因于特定工具并不是 Turnitin 独有的缺陷。所有当前的 AI 检测系统都通过测量文本的文体和统计特性来工作,而不是通过识别特定系统的输出。这使它们在 AI 领域中广泛适用,但也意味着它们不能在任何个别学术诚信案例中充当决定性的法医证据。
"没有目前的 AI 检测器能够可靠地识别哪个 AI 工具生成了给定的文本 — 它们只能报告文本在统计上与一般 AI 生成的文本有多相似。"
为什么 Turnitin 有时会标记人类写作?
Turnitin 的 AI 写作指标会产生假阳性 — 人类写的文本收到高 AI 分数的情况 — 有几个有文献记载的原因。理解这些模式可以帮助学生理解他们的分数,并帮助教师避免仅根据百分比得出坚定的结论。正式学术文本是假阳性最常见的来源。掌握了学术写作规范的学生 — 明确的主题句、逻辑段落结构、正式转换、受限制的词汇 — 会产生与大型语言模型生成的内容非常相似的文本。这部分是因为 AI 模型是在大量完全这种类型的写作上训练的,部分是因为学术写作规范本身会产生可预测、低突发性的文本。非英语使用者受到的影响尤为严重。用第二语言写作往往会倾向于更安全、更可预测的语法选择 — 更少的特殊措辞和更少的意外词语选择 — 即使写作完全是原创的,这也会登记为低困惑度。经过大量润色和编辑的草稿是另一个常见的触发器:修订过程自然会平滑掉初稿中的粗糙变化,将最终文本转向更均匀的句子结构。技术写作流派 — 实验室报告、案例摘要、结构化商业分析 — 实施格式模板,通过设计产生低文体变化,通常在 AI 指标上的得分比来自同一作者的叙述或辩论文体文本要高。
- 高度正式的学术文体产生低困惑度,这是 AI 输出的特有模式
- 非英语写作往往倾向于可预测的词汇选择,降低突发性
- 经过大量编辑和润色的最终草稿比未修改的初稿更光滑和均匀
- 技术写作格式(实验室报告、案例研究、结构化分析)强加低变化模板
- 少于 300 字的提交会产生统计上不可靠的结果,无论创作方式如何
- 来自正式学术来源的密集引用块可能具有类似 AI 的统计模式
假阳性不是系统的失败 — 它是统计检测的特征。任何按模式而不是来源分类的模型偶尔会对恰好遵循相似模式的人类写作进行分类。
提交到 Turnitin 前应该做什么?
一旦你理解了 Turnitin 是如何检测 ChatGPT 的,实际的下一步就是在启用 AI 检测的任务提交前采取一些主动措施。最有用的措施是在 Turnitin 处理它之前,通过独立的 AI 检测器运行你的草稿。像 NotGPT 这样的工具提供句级突出显示,显示哪些特定段落在统计上最可能被标记 — 这样你就有时间在截止日期前修改,而不是在之后解释分数。如果你用正式学术文体写作、用第二语言提交或制作结构化技术内容,预先检查特别值得。如果你修改被标记的段落以引入更自然的变化 — 用更具体的对你论点的回调替换公式转换、添加具体例子、更有意识地改变句子长度 — 产生的文本既读得更好,也不太可能在 Turnitin 运行其分析时触发高分。对于手动修改后仍然得分很高的段落,NotGPT 的 Humanize 功能会以轻度、中等或强度调整措辞,以恢复区分自然文体的文体变化。除了检测工具外,保持有文档记录的写作流程是最可靠的长期习惯。保存带日期的草稿、保留研究笔记和保存你的大纲意味着如果提交收到高分,你有具体的流程证据与你的教师分享 — 这是对任何 AI 检测标记的最有效回应。
- 完成你的草稿并在检查 AI 模式前进行全面阅读
- 将完整文本粘贴到 NotGPT 的 AI 文本检测中并查看句级突出显示
- 识别标记为可能 AI 生成的段落并注意其结构模式
- 修改标记部分:改变句子长度、添加具体细节、替换通用转换
- 对手动修改后仍然得分很高的段落使用 NotGPT 的 Humanize 功能
- 保存所有草稿版本以及你使用的任何大纲、笔记或研究文档
- 在截止日期前提交到 Turnitin,清楚了解你的文档可能会如何得分
预先检查与校对是相同的纪律。你不是试图欺骗系统 — 你是在确保你的真实写作听起来像你。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI 文本检测
粘贴任何文本并获得 AI 相似性概率分数,其中包含突出显示的部分。
AI 图像检测
上传图像以检测它是否由 DALL-E 或 Midjourney 等 AI 工具生成。
Humanize
重写 AI 生成的文本使其听起来自然。选择“轻度”、“中等”或“强度”。