Turnitin AI分数说明:百分比的含义及其计算方式
Turnitin AI分数是一个百分比,用来估计提交的文档中有多少部分显示出与AI生成文本相关的统计特征——自从Turnitin在2023年4月推出其AI写作指示器以来,这个单一的数字已成为学术生活中被最密切关注的数字之一。无论你是第一次看到被标记报告的学生,还是需要决定如何解读结果的教师,准确理解turnitin ai分数测量的内容——以及它不测量的内容——是做出任何合理回应的基础。本文涵盖如何计算百分比、不同分数范围在实践中意味着什么,以及为什么人类写的文本有时会产生出乎意料的高结果。
目录
Turnitin AI分数实际上测量了什么
Turnitin AI分数不是对整个文档的置信度评级——它是一个句子级别的计数。具体来说,它表示提交内容中被Turnitin模型分类为可能由AI生成的句子的比例。30%的分数意味着文档中大约十分之三的句子触发了分类。80%的分数意味着大多数句子都这样做了。这种句子级别的框架很重要,因为它改变了你阅读结果的方式:一份有30%句子使用正式、可预测措辞的文档即使每个单词都是由人类写的,也可能产生30%的分数。Turnitin AI写作指示器被设计用来分析文本的统计属性,而不是从第一原理确定作者身份。该模型将每个句子与从大量AI生成和人类写的文本语料库中学到的模式进行比较。当提交内容中的句子模式类似于AI生成的训练数据中的模式时,该句子被标记。当被标记句子的总体比例超过某些阈值时,机构会注意到。该工具不会识别哪个AI模型生成了文本,不会链接到任何特定的提示,也不会像剽窃检测那样产生并排比较。turnitin ai分数纯粹是关于句子级别的统计模式匹配。
Turnitin将其AI写作指示器描述为测量显示与AI作者身份一致的模式的文本比例——而不是关于文档如何产生的最终判断。
Turnitin如何计算其AI分数
Turnitin的检测模型是围绕两个核心信号构建的,这些信号已成为跨多个工具的AI写作检测的标准框架。第一个是困惑度——衡量在给定周围文本的情况下每个词汇选择的可预测程度。当语言模型生成文本时,它在每一步选择统计上概率高的令牌,产生流畅且语法正确的输出,但与人类实际写作方式相比异常可预测。第二个信号是突发性,它捕捉整个文档中句子长度和结构复杂性存在多少变异。人类作家自然在简洁有力的句子和更长、精心构思的句子之间交替,有时无意中,有时有意为之。AI生成的文本倾向于更均匀的节奏——句子长度聚集在一个狭窄的范围内,结构模式重复的方式是人类散文在整个文档上很少做的。turnitin ai分数是从两个信号共同衍生而来的:同时具有低困惑度(可预测的词汇选择)和低突发性(统一的句子结构)的文本获得最高分。在一个信号上评分高但在另一个信号上没有的文本通常会收到较低的整体AI百分比。Turnitin自2023年以来多次更新了其模型,调整了训练数据和阈值校准。该模型在Turnitin的机构数据中的真实学生提交上进行训练——这是免费替代品无法完全复制的学术写作量,这是为什么即使其他检测器使用相同概念框架,Turnitin的结果也被视为机构基准的部分原因。
"困惑度和突发性是同一检测问题的两个方面:AI文本是逐字可预测的,逐句一致的。人类文本两者都不是。"——AI写作检测研究员,2024
如何阅读Turnitin AI分数报告
Turnitin AI分数报告出现在Feedback Studio文档查看器中,位于相似度分数(剽窃)旁边。两个分数是独立的——一份文档可能有高相似度分数和低AI分数,或任何其他组合,因为它们测量的是完全不同的东西。当你打开AI报告时,你会看到两层信息:顶部的总体百分比和整个文档正文中的句子级别高亮显示。
- 报告顶部的整体AI百分比显示文档的哪个比例的句子被分类为AI生成的——这是大多数人首先关注的数字。
- 文档视图中用黄色和橙色突出显示的句子是Turnitin标记的——未突出显示的句子在分类上没有变化。
- 将光标悬停在任何突出显示的句子上,以查看Turnitin是否提供有关该特定段落的其他上下文。
- 报告没有说明哪个AI工具生成了文本,也没有提供源匹配——与剽窃检测不同,没有涉及比较数据库。
- 相似度分数(剽窃百分比)出现在单独的徽章中,不应与AI分数组合或比较——它们使用不同的方法。
- 如果你是教师,可以通过Feedback Studio中的导出功能为你的记录下载或打印AI报告。
- 如果你是学生并且根本看不到AI徽章,你的教师可能已限制学生访问AI检测报告——直接联系他们询问。
不同的Turnitin AI分数范围意味着什么
Turnitin发布了关于如何解释分数范围的一般指导,尽管具体的机构行动阈值因大学和部门而异。理解这些范围有助于学生和教师成比例地回应,而不是将任何非零分数视为自动问题。所有范围中的关键要点是Turnitin本身建议不要使用分数作为任何学术诚实决定的唯一基础。
- 0–19%:Turnitin自己的指导将此范围描述为非结论性的。大多数机构将此范围内的分数视为低风险,不会升级。根据大多数机构政策,低于20%的分数不被认为是AI使用的重要证据。
- 20–39%:此范围通常会引发教师和学生之间的对话,而不是正式措施。它表明大部分句子显示了与AI相关的模式,但水平是模棱两可的,与人类写作风格有显著重叠,这些风格因其他原因可能会得到高分。
- 40–59%:许多机构认为此范围值得更仔细的审查。根据机构发布的学术诚实政策,正式审查程序可能在此阈值开始。在此级别,印证证据——版本历史、研究笔记——变得更加重要。
- 60–79%:此范围内的分数表明文档中大多数句子显示了与AI相关的模式。拥有明确AI检测政策的机构通常将其视为调查的充分理由,尽管调查本身旨在确定作者身份,而不是假设作者身份。
- 80–100%:在此级别,文档中的大多数句子已被分类为AI生成的。在大多数机构框架下,此范围被视为强有力的证据,尽管它仍然可以接受审查和上诉——特别是对于已知产生高假阳性率的文档类型。
Turnitin指出,没有分数范围构成不当行为的自动证明——分数报告的是最终文本中的统计模式,而不是产生它的过程。
为什么人类写的文本有时会产生高的Turnitin AI分数
围绕turnitin ai分数最一致的困惑来源是,完全由人类写的文本可能会产生出乎意料的高百分比。这不是一个bug——它是该工具实际测量内容的结果。任何统计上流畅且结构均匀的写作都会获得更高的分数,无论是人类还是机器生成的。有几个特定的写作特征被充分记录为在没有任何AI参与的情况下提高turnitin ai分数。
- 正式学术语境:以受限制的学术风格写作——结构化论证、谨慎的主张、特定学科的词汇——使用一个狭隘的词汇集,其中选择变得可预测,直接降低困惑度。
- 英语学习者写作模式:以英语为非母语的使用者,谨慎且在语法上写作的人,通常避免标记流利母语散文的习语变化,产生比接受较少正式培训的母语使用者更低的突发性分数。
- Grammarly和编辑工具的使用:语法工具纠正的正好是帮助AI检测器识别人类写作的不规则性——大量编辑的文本可能比相同文本的未编辑草稿形式得分更高。
- 技术和科学写作:实验室报告、案例研究和特定领域的分析使用受领域惯例限制的词汇,使得每个词汇选择都高度可预测,无论谁写的。
- 大量修订的最终草稿:经过许多编辑轮次的文档可能已将其自然的句子变异规范化,留下在技术上是精致的但统计上是流畅的散文。
- 300字以下的短文档:Turnitin明确承认,对于较短的提交,检测准确性会降低——句子较少的文档为分类器提供的统计信号较少。
一名研究生用英语作为第二语言写他们的第一份实验室报告,和一名学生提交ChatGPT输出的学生有时可以在同一范围内产生turnitin ai分数——这正是为什么分数本身不能被视为证据。
高Turnitin AI分数后应该做什么
高turnitin ai分数是调查的起点,而不是最终的发现。Turnitin自己的指导和大多数机构学术诚实框架都说同样的话:分数应该引发对话,而不是自动制裁。知道接下来做什么——无论你是被标记的学生还是审查结果的教师——都是已解决情况和不必要升级情况之间的区别。对于双方来说,流程是相似的:收集背景,查看特定高亮句子,并评估标记的段落是否与你对写作或作者的了解一致。
- 如果你是学生,立即导出文档的版本历史——Google Docs、Word和大多数云工具都存储带时间戳的草稿,显示你的文档如何从大纲演变成最终提交。
- 收集你的研究材料:下载的源PDF、图书馆笔记、浏览器书签——任何显示你写作前使用的来源的东西。
- 确定在AI报告中突出显示的具体句子,并考虑为什么每个句子可能得分高——是一个非常正式的过渡句吗?特定领域的声明?一段你为了清晰而大量修改过的段落?
- 如果你使用了Grammarly或类似工具,将其注明为背景——语法工具编辑是已记录的AI分数升高的来源,是与教师讨论的合理解释。
- 要求与教师开会,并从你文档的实质内容开始——你提出了什么论点,你发现哪些来源最有用,第一稿和最后一稿之间发生了什么变化。
- 如果你的机构进行正式的诚实性审查,找到你部门发布的AI检测政策,该政策将指定什么证据是可接受的,以及在什么分数范围内开始正式程序。
- 如果你是教师,将turnitin ai分数视为众多信号之一——要求学生引导你了解他们的写作过程,然后再将任何关于不当行为的对话框架化。
"分数是对话的开始,而不是结束。重要的是教师和学生在一起审视写作过程时发现的内容。"——大学学术诚实官员,2025
在Turnitin审查之前检查你的写作
在提交前将你的文本通过第二个检测工具可以让你预览哪些句子可能导致高的turnitin ai分数,以及修改或准备背景的时间。这对于以正式语言写作的学生、英语非母语使用者以及提交技术或科学工作的任何人特别有用——最容易出现假阳性的群体。NotGPT的AI文本检测工具显示句子级别的概率分数,其高亮方式反映了Turnitin如何呈现其结果,因此你可以在正式审查前准确看到哪些段落显示为AI生成的。如果特定句子始终得分很高,Humanize功能可以调整措辞以听起来更自然地变化,而不改变你的论点。提前审查不保证更低的机构分数,但它给你一个具体的图景,说明你的写作在统计上的位置——以及足够的时间来处理它。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI文本检测
粘贴任何文本并获得AI相似度概率分数以及高亮部分。
AI图像检测
上传图像以检测它是否由DALL-E或Midjourney等AI工具生成。
人性化
重写AI生成的文本使其听起来自然。选择轻度、中度或强度。