Turnitin能检测转述的ChatGPT吗?分数实际测量的是什么
关于Turnitin是否能检测转述的ChatGPT这个问题在学生论坛中不断出现,诚实的答案是:比大多数学生预期的要频繁得多。转述改变了词汇。它并不能可靠地改变Turnitin的AI写作指示符被训练来检测的底层统计特征。要理解为什么,需要查看Turnitin实际分析的内容——以及转述在那个级别上改变和不改变什么。本文分解了这些机制、学生产生错误信心的地方,以及教师在任何分数之外要注意的内容。
目录
Turnitin能检测转述的ChatGPT吗?
能——Turnitin甚至可以检测转述后的ChatGPT输出,而且检测的频率惊人地高。原因是Turnitin的AI写作指示符不是通过检查你的词语是否与已知AI生成文本数据库中的词语相匹配(就像剽窃检测检查复制句子的方式)。它分析你文章的统计结构:给定周围上下文的情况下,你的词汇选择的可预测性有多高(称为困惑度),以及整个文档中句子长度和复杂性的差异有多大(称为突发性)。ChatGPT通过选择高概率词序列——适合周围上下文的令牌来生成文本。结果是困惑度低的文章:每个词都是语言模型根据之前内容会预期的那种词。当学生用自己的词转述该输出时,他们通常保留句子结构和逻辑流程。新词可能不同,但文章的结构节奏和可预测性往往与原始模型生成的内容保持接近。Turnitin的分类器拾取的是那种节奏,而不仅仅是单个词的选择。所以关于Turnitin是否能检测转述的ChatGPT的简短回答是:这取决于转述在多大程度上破坏了底层句子结构——而且大多数表面转述无法充分改变分数。
Turnitin的AI写作指示符实际上分析什么
重要的是对Turnitin测量的内容有具体的了解,因为学生的常见心理模型——即检测是关于捕捉匹配短语——对AI检测来说是错误的。Turnitin的剽窃检测通过将文本与现有来源数据库进行匹配来工作。AI检测的工作方式不同。AI写作指示符根据你的提交内容与AI生成写作统计特征的拟合程度,为每个句子分配句子级分数。两个信号驱动该分数:困惑度和突发性。困惑度是衡量语言模型对你的词汇选择会有多惊讶的指标。AI生成的文本困惑度低,因为生成它的模型特别优化了流畅、可预测的输出。人工写作,特别是非正式或初稿写作,往往包含意外的词汇选择、特质短语和导致更高困惑度分数的结构迂回。突发性衡量句子长度和结构的多样性。人类作者自然会混合简洁的陈述句和较长的精心设计的句子。AI模型倾向于更一致的节奏——句子聚集在舒适的中等长度范围内,没有在人类散文中发现的尖锐差异。最终的Turnitin AI分数是一个百分比,显示有多少句子在两个信号上都达到了阈值。转述改变了每个句子中出现的词。它很少改变那些句子的长度、它们是否遵循可预测的词序,或文档节奏的一致性。这就是为什么关于Turnitin是否能检测转述的ChatGPT的问题只有在转述真正重组散文时——而不仅仅是交换词汇时——才保持悬而未决。
"AI写作指示符不将文本与已知AI输出进行匹配。它测量文档的统计属性是否类似于与AI生成相关的属性——这一区别对于学生应该如何思考修订策略至关重要。" — Turnitin产品文档,2024
为什么转述给学生虚假的信心?
转述可以击败AI检测的虚假信心来自一个在这种环境下被证明是错误的合理直觉。学生习惯于剽窃检测,其中改变足够的词实际上会因为该工具寻找特定的复制短语而减少匹配百分比。该逻辑不转移到统计AI检测。使用自己的词汇重写ChatGPT响应的每个句子的学生做了真实的事情——他们在心理上处理了内容并用不同的词编码了它。但是如果那些不同的词遵循相同的句子模式、相同的主谓宾结构和相同的段落节奏作为原始,则文档的困惑度和突发性特征没有以任何有意义的方式改变。还有一个工具介导版本的虚假信心值得明确命名。一些学生使用转述工具——Quillbot、WordAI及类似工具——在提交前系统地改写AI输出。这些工具旨在用同义词替换词语和短语,同时保留语法结构。结果是一个通常会轻易规避剽窃检测的文档,同时AI写作分数几乎没有移动,因为句子级统计结构——Turnitin实际测量的——已被几乎完全保留。虚假信心的另一个版本来自通过免费AI检测器测试转述文本的学生,看到较低的分数,然后得出结论他们对Turnitin是安全的。不同的检测器使用不同的模型和阈值,而一个工具上的分数不能可靠地预测另一个工具上的分数。Turnitin拥有比大多数公开可用的工具更大的训练集和不同的检测架构。
转述实际上能降低多少你的Turnitin AI分数?
没有单一的答案,因为结果取决于转述的深度和原始ChatGPT输出的特征。但研究人员和教师持续观察的模式讲述了一个有用的故事。表面转述——用同义词交换词语、将被动改为主动语态、将一个长句子拆分为两个较短的——往往会导致AI分数的适度降低。从85-90%的ChatGPT响应开始并应用这种编辑级别的学生通常落在55-75%范围:仍然清楚地高于许多机构标记的阈值,并且对经验丰富的教师来说仍然明显统一的结构。更深层的改写——重新组织论证顺序、添加原文中没有的具体例子、从头重写句子,仅将ChatGPT文本用作事实参考——会产生更大的降低。但在这种深度的修订,学生实际上在进行写作的理智工作,ChatGPT的作用更像研究总结而非起草工具。这里的分数降低是实质性的,有时甚至低于20%的阈值,Turnitin将其视为不确定的,但这是否构成适当的学术使用完全取决于机构和教师的具体政策。重要的框架是:问Turnitin是否能检测转述的ChatGPT实际上是在问你是否可以浅转述并避免一个分数。答案通常是否定的。如果问题是深层改写是否会保留唯一的事实内容同时生成完全新的散文来降低分数——是的,它会,但你不再以任何有意义的方式转述AI输出了。
- 表面同义词化(通过转述工具进行词语交换):通常将AI分数降低10-20个百分点——通常不足以避免标记
- 句子重构(重新排列子句、拆分句子、添加过渡):将分数降低20-35个点,但结构统一性通常仍然可检测
- 从记忆进行段落级改写而不看AI文本:实质上降低分数,但需要与内容的真正智力参与
- 添加原始例子、个人分析或AI输出中不存在的源特定引用:最有效地破坏突发性特征
- 混合AI辅助部分与真正原创部分:在整个文档中产生不一致的分数,这本身可能会引起教师注意
教师除了检测分数还在寻找什么?
即使转述确实能可靠地降低Turnitin AI分数至任何阈值以下,教师也不纯粹依赖分数来判断学术诚信。经验丰富的教师——特别是在写作密集型学科——已为不依赖任何检测工具的AI辅助写作形成了模式识别。几个信号倾向于在转述的AI输出中一起出现,并且对仔细阅读的人是明显的。论证结构太干净是最常见的标记之一。ChatGPT以高度逻辑的、可枚举的方式组织论证:三个原因、四个好处、五个考虑。人类论文会曲折、限定、与早期观点矛盾,并建立不能整洁地解决的论证。转述的ChatGPT论文往往有与原始相同的整洁结构,即使词语不同,因为学生转述了内容而不破坏组织逻辑。通用特殊性是另一个吸引关注的模式。AI输出倾向于足够具体听起来明智但不足以反映真正的参与——对"许多研究表明"的引用而不引用具体研究,或对任何在维基百科上花五分钟的人来说都很明显的观察。转述保留了这个特质。也许最重要的是,整个学期教过一个学生的教师会形成对那个学生声音的感觉。与那个学生的其他写作、讨论帖子或早期作业听起来明显更流畅、更有组织、更精美的提交是一种异常,不需要任何检测器分数来注意。
"我很少需要分数来知道有问题。论证结构太干净了,过渡太光滑了,要点太平衡了。这听起来不像他们的任何其他作品。" — 大学教师引用在2024年学术诚信论坛帖子
转述ChatGPT输出的更安全的学术替代方案
该问题的框架——Turnitin是否能检测转述的ChatGPT——假设转述AI输出是一个只需要变得更安全的合理起点。但对于大多数学术背景,不同的工作流在每个维度上产生更好的结果:更低的检测风险、更强的实际学习,以及真正代表学生思考的写作。将AI用作研究起点而非起草工具是最可防守的方法。要求ChatGPT解释一个概念、确定辩论中的关键论证或总结一个文献体——然后使用该解释作为背景与实际来源互动——将AI保持在信息角色而非写作角色。你从自己的阅读和思考中产生的散文不会携带AI生成的统计指纹。许多教师明确允许的另一种方法是使用AI在你已经写的草稿上提供反馈。提交你自己的散文给ChatGPT,提示寻求关于结构、清晰度或论证强度的建议,然后根据这些建议修改,在根本上与AI写草稿不同。你的写作保留你的句子模式和词汇,即使它改进了。如果你的机构允许AI辅助,最安全的路径是记录你使用的确切方式,并准备好向教师解释该使用。许多机构现在有明确的政策,区分允许和禁止的AI使用,理解这一区别比试图保持低于检测阈值更有用。检测阈值是一个移动的目标——Turnitin定期更新其模型——但对你的过程的诚实账户是持久的。
- 使用ChatGPT理解概念并确定来源,然后阅读这些来源并从你自己的笔记而非AI摘要中写作
- 在咨询AI前写你的初稿——仅使用AI来反馈已经存在于你自己词语中的草稿
- 如果你在任何文本部分使用AI建议,记下哪些部分被影响以及如何,以防后来需要解释你的过程
- 写作后,大声读你的草稿,识别任何听起来不像你正常声音的句子——那些是修改的可能候选
- 开始任何作业前咨询你的机构的具体AI使用政策,而不是之后——允许的使用在机构之间甚至课程之间变化很大
- 当不确定时,问你的教师什么构成了对特定作业的允许AI辅助——对话本身展示了学术善意
转述在某些AI检测器上是否比其他的效果更好?
研究Turnitin是否能检测转述的ChatGPT的学生经常发现第三方AI检测器——如GPTZero、Copyleaks或各种基于浏览器的检查器等工具——对转述文本返回比Turnitin更低的分数。这个观察是准确的,原因有意义而非令人安心。不同的检测器使用不同的训练数据和不同的模型架构,因此它们对同一文本产生不同的分数。免费或成本较低的检测器通常训练数据较少和阈值较窄。Turnitin已处理数十亿学生文档,并在学术写作背景中有数年的机器学习投资。其模型比大多数公开工具对学生使用的AI辅助写作策略范围的接触更多,包括常见的转述模式。这意味着使用免费检测器来审查你转述的ChatGPT文本并找到低分数并不能预测Turnitin会产生什么。通过这个过程的学生提交时充满信心,往往发现Turnitin的分数比预提交检查所显示的明显更高。如果你想要一个更接近近似Turnitin方法论的预提交检查,你需要一个专门使用困惑度和突发性分析并具有可比范围和质量的训练数据的工具。透明解释其方法论的工具——引用它们测量的具体信号——比仅仅返回百分比而不解释它是什么的工具更有用。
如何在提交前检查你的写作
在提交前对你自己的写作进行预提交检查——无论你是否使用AI辅助——是一个合理的预防措施,在你的分数成为学术记录的一部分之前给了你修改的时间。关键是理解预提交检查能和不能告诉你什么。它可以显示你的文档中哪些句子在AI相似性指标上得分高,给你特定的修改目标。它不能保证Turnitin会产生相同的分数,因为不同的工具有不同的模型。如果你的写作确实有AI影响的段落——因为你转述了ChatGPT输出、因为你大量使用了语法工具,或因为你的正式学术写作风格比你的随意写作产生更高的统计一致性——句子级检测结果帮助你在提交前找出特定部分值得修改。NotGPT的AI文本检测工具突出显示在AI相似性上得分高的特定句子,所以你可以确切看到哪些段落承载最多检测风险,并决定它们是否需要更实质的修改,或者你是否可以通过你的正常写作过程解释该风格。对于没有使用AI但担心假阳性的学生,在提交前运行检查也给了你基线信息:如果你的论文在提交前分数很低,Turnitin返回高分数,那个不一致本身在任何申诉对话中很有用。
- 在提交前将你的完整草稿粘贴到AI文本检测工具中,以看到哪些段落得分高的句子级分解
- 将修改努力集中在得分最高的AI相似性的部分,特别是如果它们也恰好是你最大声地转述源材料的部分
- 对于得分高但你在没有AI辅助的情况下写的段落,记下你的风格可能产生了该结果的原因——这成为必要时在申诉中很有用的背景
- 修改后,再运行一次检查以确认你的编辑在你期望的方向上移动了分数——如果它们没有,修改可能过于表面
- 将预提交检测报告保存为带时间戳的文档,如果后来关于你的写作过程出现问题,你可以参考
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI文本检测
粘贴任何文本并接收带有突出部分的AI相似度概率分数。
AI图像检测
上传图像以检测它是否由DALL-E或Midjourney等AI工具生成。
人性化
重写AI生成的文本使其听起来自然。选择轻、中或强强度。