ChatGPT 水印检测器:它测量的是什么,它遗漏的是什么
ChatGPT 水印检测器是一种工具,用于确定文本是否由 OpenAI 的 ChatGPT 生成——但这个标签经常误导人,因为 ChatGPT 目前并不在为标准用户生成的文本中嵌入水印。OpenAI 开发并在内部测试了一个基于令牌分布的水印系统,但尚未在消费者产品中部署。大多数营销为 ChatGPT 水印检测器的工具实际上测量的是 ChatGPT 语言模型通过选择词语方式留下的统计指纹——不是嵌入式信号,而是可测量的分布模式。理解真正的水印检测和统计性 AI 文本检测之间的区别对于解释任何结果以及了解其可信度至关重要。
目录
什么是 ChatGPT 水印检测器?
这个术语涵盖了两种意义上有很大区别的技术,在搜索结果和产品营销中被合并为一个标签。在严格的意义上,ChatGPT 水印检测器是一种工具,用于查找在文本生成时故意嵌入的信号——这些信号只有在生成系统明确插入时才会出现。要使其工作,ChatGPT 首先必须为其输出添加水印,这对于任何公开可用的界面来说默认是不会做的。在更广泛的、人们搜索 ChatGPT 水印检测器时通常使用的通俗意义上,目的很简单,即确定一段文本是否由 ChatGPT 编写。在搜索结果中以这个标签出现的工具几乎都是统计性 AI 文本检测器——测量文本可预测性、句子长度变化和词汇分布等属性,以估计一个段落是机器生成的概率的工具。这些统计方法会产生概率估计而非二元判决,它们通过读取大型语言模型如何生成文本的固有模式而工作,而不是检测 OpenAI 刻意嵌入的任何信号。这种区分很重要,因为这两种方法有不同的优点、不同的失败模式,以及结果为正或为负时有不同的含义。
- 标记为 ChatGPT 水印检测器的工具几乎总是统计性 AI 文本检测器——而不是查找嵌入信号的工具
- 统计检测器测量困惑度(文本的可预测程度)和突发性(句子复杂性的变化程度)
- 真正的水印检测需要生成系统在输出时嵌入可检测的信号——ChatGPT 默认不这样做
- 统计检测可能在人类编写的文本上产生假阳性;真正的水印检测器(当水印存在时)无法错误地标记不含嵌入信号的文本
ChatGPT 是否为其文本输出添加水印?
对于绝大多数用户来说,答案是否定的。标准 ChatGPT 输出——无论是来自消费者网络应用、iOS 或 Android 应用,还是标准 API——都不携带文本水印。OpenAI 公开证实了探索文本水印的工作,并聘请了知名理论计算机科学家 Scott Aaronson,部分原因是研究 AI 输出水印。Aaronson 在 2022 年发布了博客文章,描述了一种密码学方法,该方法通过影响模型在生成过程中采样哪些令牌来工作,在一长段落中创造统计上可检测的偏差。尽管进行了这项研究,OpenAI 还是选择不在其消费者产品中部署文本水印。多份报告将这一决定部分归因于公平性考虑:基于令牌分布的文本水印在用户编辑生成文本时可能会出现性能下降,人们担心非英语使用者、使用语法纠正工具的学生以及依赖编辑协助的残障人士会受到不成比例的影响。一个用户将 ChatGPT 草稿通过语法检查器或改写工具运行,可能会得到无法通过水印检测的文本,而未编辑的原始 AI 输出会通过——这是在学术和专业环境中有真实后果的公平性问题。这项部署决策的实际后果是,依赖嵌入式信号的 ChatGPT 水印检测器将在标准 ChatGPT 输出中找不到任何东西。不是因为文本是人类编写的,而是因为不存在可以找到的水印。
- 标准 ChatGPT(消费者应用和 API)在当前部署中不在生成文本中嵌入水印
- OpenAI 与 Scott Aaronson 研究了基于令牌分布的水印,但决定不在消费者产品中部署它
- 对非英语使用者和使用编辑和语法工具用户的公平性考虑促成了反对部署的决定
- 使用 OpenAI 模型的企业或自定义 API 实现理论上可能启用水印,取决于配置——但这不是默认设置,也没有公开记录
- 标准 ChatGPT 文本中水印的缺失意味着统计检测是大多数用户唯一实际可用的方法
OpenAI 的内部水印研究实际上发现了什么?
OpenAI 探索的技术方法——以及 Aaronson 在 2022 年公开描述的——是学术研究中发展的绿名单/红名单水印方法的一个版本。该机制的工作方式如下:在生成每个令牌之前,模型对最近的令牌上下文应用伪随机哈希函数,为序列中该位置产生词汇表分割为"绿色"集合和"红色"集合。在采样过程中,模型被偏向于青睐绿色集合中的令牌。在整个数百个令牌的段落中,这创造了统计上可检测的不平衡:带水印的文本将显示绿名单令牌的比例高于在无水印段落中预期的概率。持有相同哈希函数的检测器可以通过测量其绿令牌频率并将其与无水印输出的预期基线进行比较来对任何候选文本进行评分。显著高于该基线的文本可能被加了水印;接近基线的文本可能没有。Aaronson 在公开写作中确认,该方法可以在足够长的段落中实现可靠检测,在正常条件下具有低假阳性率。该方法文件记载的弱点是对改写的稳健性。来自马里兰大学的 2023 年分析发现,系统改写——更改段落中大约三分之一的单词同时保留其含义——将某些水印配置的检测精度从近乎确定降低到仅略高于偶然。一个单独的问题是,在学术讨论中提出的是,一个知道绿名单哈希函数的坚决对手可以故意将他们的文本偏离绿令牌以错误地逃避检测。这些稳健性和对抗问题,加上围绕轻微编辑 AI 文本的公平性考虑,促成了 OpenAI 不部署该系统的决定。
"基本思想是生成令牌的随机化'红名单',并通过小的、可调整的数量来柔和地阻止使用红名单令牌。生成后,水印检测器检查文本是否使用了不寻常的小比例的红名单令牌。" — Scott Aaronson, 2022
统计检测器如何在没有水印的情况下识别 ChatGPT 文本?
当不存在嵌入式水印时,ChatGPT 水印检测器会退而其次地测量人类编写的文本和大型语言模型生成的文本之间不同的内在统计属性。两个指标主导当前的方法论。困惑度测量文本相对于语言模型可能预测的内容有多令人惊讶:真正的人类编写的文本倾向于在困惑度上得分较高,因为人类做出非常规的词语选择,在推理中采取意外的转向,并遵循特异的风格模式。AI 生成的文本——特别是来自 GPT-4 的文本,经过训练以生成流利和连贯的输出——倾向于在每个步骤中选择更可预测的延续,导致平均困惑度较低。突发性测量文本在整个段落中句子复杂性的变化程度:人类自然地在短的、直接的句子和长的、复杂的构造之间交替,频率统计分析可以识别。GPT-4 的输出通常表现出更低的突发性,相比大多数人类写作产生更一致的中等句子长度。除了这两个主要指标之外,ChatGPT 的输出还表现出特征性的词汇偏好。该模型使用某些过渡短语、对冲构造和结构模式,其频率在语料库中测量时与典型的人类写作不同。这些个别信号是概率性的——没有单一属性能明确识别 ChatGPT 文本——但在几百个单词的段落中组合在一起时,它们会产生当前检测器可以在较长文本样本上以有意义的准确度计算的概率估计。基本限制是这些相同的信号也出现在人类写作中:一些作家自然地生成低困惑度、低突发性的文章,不考虑个人写作变化的检测器会在该写作上产生假阳性。
ChatGPT 文本水印能被绕过吗?
由于标准 ChatGPT 输出不含嵌入式水印,绕过 ChatGPT 水印检测器的实际问题实际上是关于打败统计检测而非水印检测的问题。最可靠的方法也是最耗时的:大量改写。一个被大量改写的段落——具有显著的句子结构调整、词汇替换和逻辑流的重新组织——会在困惑度和突发性上得到不同的评分,因为人类编辑真正改变了文本的统计属性。研究发现,改写足够多的 GPT 生成段落以显著降低检测置信度通常需要改变至少 30% 到 40% 的单词,这是有意义的工作而不是微不足道的解决方法。自动化人性化工具——专门改写 AI 文本以降低检测器分数的软件——通过自动应用改写来工作。它们的有效性取决于它们被评估的检测器,来自人性化工具的输出在分析轻机改写特有的模式时本身可能变得可检测,这些模式与原始 AI 生成的模式不同但并非无关。关于这种框架的一个更根本的观点:如果 chatgpt 水印检测器无法可靠地区分大量编辑的 AI 文本和原始人类写作,那可以说是一个正确的结果而不是失败。被人类大量改写的文本在有意义的意义上比原始 AI 输出更多是人类创作的。检测系统的置信度下降适当地跟踪了内容的实际组成——AI 生成和人类修订的混合,不属于与未编辑的 AI 输出相同的类别。
- 系统改写(改变 30%+ 的词汇和句子结构)显著降低统计检测置信度——但需要真正的改写工作
- 自动化人性化工具大规模应用改写,但有效性差异很大,可能引入自己的可检测模式
- 翻译成另一种语言然后翻译回来会降低统计信号,但也会引入可能通过其他方式识别的翻译产物
- 混合 AI 生成的部分和原始人类编写的文本会按比例稀释信号——测量整个段落的检测器看到反映实际内容混合的混合结果
- 没有单一方法能可靠地同时击败所有检测器;不同的工具对信号的权重不同,并在相同输入上产生不同的结果
是什么使 ChatGPT 文本在统计上与人类写作区分开来?
GPT-4 及其前身版本有文件记载的趋势,虽然单独来看很微妙,但在长段落中积累成一致的统计档案。该模型过度使用某些过渡短语——"值得注意的是"、"这可能导致"、"此外"、"总结来说"——其频率在语料库中测量时与人类写作不同。其句子长度分布比人类写作更一致地聚集在中等长度周围,产生检测器测量的低突发性模式。ChatGPT 的推理结构也倾向于遵循可识别的弧:定义问题、以并行格式枚举考虑、综合走向结论、以重述结尾。这个结构是连贯有用的,但它在各个主题中重复,以与大多数人类编写的解释性文本的更有机流程不同的方式。该模型在人类反馈强化学习 (RLHF) 上的训练还有附加效果,使其输出在立场表述中系统地更温和、在语言中更多限定词、在表面形式上比典型的人类初稿更精致——所有这些都在检测器分析的分布统计中显现出来。这些趋势中的每一个单独都是一个弱信号。统计方法将它们全部汇总到整个段落中并计算综合分数。对于短文本——一个句子或短段落——检测器精度急剧下降,因为小样本中的信噪比不足以将个人风格变化与模型特征模式分开。对于较长的文本(通常 300 个单词及以上),综合信号变得实质上更可靠,这就是为什么几乎所有当前的检测器都在返回高置信结果之前包含最小字符或单词计数要求。
如何负责任地使用 ChatGPT 水印检测器
在依赖 ChatGPT 水印检测器结果做出重大决定之前,值得理解工具精确测量的是什么以及正面或负面结果实际意味着什么。如果该工具使用统计检测——这本质上是所有的——那么高 AI 可能性分数意味着文本与 ChatGPT 生成的文本共享统计属性。这并不意味着特定的单词是由 ChatGPT 生成的,作者以违反政策的方式使用了 ChatGPT,或文本应该在正式诉讼中视为已确认的 AI 输出。低 AI 可能性分数意味着文本没有显示预期的统计档案——这可能意味着它是人类编写的,或者它是 AI 生成然后大量编辑的,或者它是由与检测器训练的模型具有不同统计特性的模型产生的。单工具依赖是最常见的滥用模式。不同的检测器使用不同的训练数据和权重方案,可以在相同输入上返回实质上不同的分数。在高风险环境中做出结论之前,至少交叉参考两个独立工具是专业人员进行这种验证的标准做法。
- 确认该工具使用的检测方法——统计分析、水印检测或混合——因为这决定了结果的含义
- 将统计检测结果视为概率估计而非判决——75% 的 AI 可能性分数并不意味着 75% 的单词是 AI 生成的
- 对样本长度应用相称的权重:对于较长的文本(300+ 单词)结果更可靠,对于短摘录(100 个单词以下)可靠性较低
- 对于重大决定,在做出任何结论之前从至少两个独立工具交叉参考结果以检查一致性
- 记录您的验证方法——哪个工具、哪个版本、什么阈值以及什么结果——因为可防守的过程比任何单一分数更重要
- 考虑假阳性率:一些人类作家持续生成低困惑度的文章,被检测器标记,所以正结果本身不是 AI 使用的证明
NotGPT 如何在没有水印的情况下检测 ChatGPT 文本
NotGPT 的 AI 文本检测工具是围绕统计方法构建的——分析提交文本的困惑度、突发性和分布模式,而不是寻找嵌入式水印信号。这个设计反映了一个实际的现实,即目前流通中压倒性多数的 ChatGPT 文本都不携带水印:标准消费者输出没有水印,大量现有的无水印内容将继续使用,无论 OpenAI 未来做出什么部署决定。通过读取提交文本的内在统计属性,NotGPT 根据文本本身的样子而不是在生成时是否嵌入了任何信号来产生表示 AI 可能性的概率分数。该工具突出显示了对分数贡献最大的提交文本的部分,这有助于用户了解是整个段落还是特定部分推动了检测结果——对于希望了解审阅者最可能仔细审视哪些部分的作家来说,这是有用的背景。对于希望在提交或发布前了解其文本在检测下将如何执行的作家和编辑,NotGPT 的人性化工具提供可调整强度级别的改写——有助于减少检测器测量的统计特征并产生无论其来源如何都更自然阅读的输出。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI 文本检测
粘贴任何文本并接收 AI 相似性概率分数以及突出显示的部分。
AI 图像检测
上传图像以检测它是否由 DALL-E 或 Midjourney 等 AI 工具生成。
人性化
改写 AI 生成的文本以听起来自然。选择轻度、中度或强度。