AI水印检测器:它能找到什么、能证明什么,以及如何负责任地使用它
AI水印检测器是一个工具,用于寻找隐藏或嵌入的信号,以表明文本或图像是由AI系统生成的。这个概念听起来很简单——进行检查,得到答案——但实际上,水印和水印检测远比简单的通过/失败结果要复杂得多。有些水印是编码在像素值中的隐形信号;有些是织入词汇选择分布中的统计模式;有些是附加在文件容器中的加密证书。每种类型的工作方式各不相同,在不同的转换中的表现也不同,支持的结论也不同。本指南讲述了AI水印检测器如何对文本和图像进行操作、正面检测结果实际上告诉您什么、当前水印技术的局限性,以及如何以兼顾这些工具优势和真实局限性的方式来处理内容验证。
目录
什么是AI水印检测器?
AI水印检测器是任何旨在识别在创建时故意或偶然嵌入在AI生成内容中的信号的工具或方法。「水印」一词涵盖了三个经常被混淆的不同技术类别。文件级来源标记——最著名的是C2PA内容凭证——是存储在图像或视频文件的元数据容器中的加密签名证书。它们声称作者身份并记录哪个AI工具生成了内容,但它们存在于文件包装中,可以被任何标准元数据编辑器删除。像素级水印,其中谷歌DeepMind的SynthID是最著名的例子,在生成期间直接将可检测信号编码到图像的像素值中。与文件元数据不同,这些信号在格式转换、JPEG压缩和截屏中存活,因为它们被织入实际图像内容而不是文件容器。文本水印的工作方式又完全不同:由于文本无法在像素值中嵌入信号,文本水印通过在生成期间影响词汇选择的概率分布来工作。当大型语言模型等模型生成一个标记时,它可以被偏向以略微倾向于指定「绿色」词汇表中的标记。在数百个标记中,这种偏差会产生一个统计上可检测的模式——文本在绿色标记频率上的得分高于预期。用于文本的AI水印检测器检查一段文本是否显示这种分布偏斜。这三种方法都有相同的目标——允许第三方在事实发生后验证AI来源——但它们在编辑、翻译或故意删除尝试中生存下来的方式上差异巨大。
- 文件级来源(C2PA):图像或视频文件元数据中的加密证书;标识生成内容的AI工具;可用任何EXIF编辑器、格式转换或截屏轻易删除
- 像素级水印(SynthID):在生成期间编码到实际像素值中的信号;在格式转换、压缩和截屏中存活;不能在不显著降低图像质量的情况下被移除
- 文本标记分布水印(统计):在生成期间标记选择概率中的偏差产生可测量的分布特征;在轻度编辑和轻微改写中存活,但在重度改写或翻译中降低
- 模型固有特征:生成架构本身的无意伪影——不依赖水印的AI检测器改为分析这些;存在于所有AI输出中,无论是否启用了水印
文本水印与图像水印:它们有何不同?
文本和图像水印的机制差异很大,理解其中一种不会自动使您为另一种做好准备。对于图像,嵌入隐形信号的问题是数字隐写术的一个充分研究的分支。研究人员可以修改像素值的最低有效位、使用离散余弦变换改变频率分量,或者——如SynthID所做的那样——调整局部补丁内像素的相对强度,其方式对人类视觉而言不可察觉,但对训练的水印检测器来说是统计上可检测的。由于信号在数百万像素中冗余分布,它在典型图像可能经历的各种操纵中都能存活:调整大小、色彩校正、合理质量水平下的JPEG重新编码,甚至打印和重新扫描。SynthID对截屏的鲁棒性特别值得注意:当您截屏一个带水印的图像时,您基本上不变地捕获其像素值,因此水印存活。对于文本,这个问题更具挑战性。文本是离散的:没有单个字符级值可以细微改变,任何改变统计模式的改动也会改变意义。最技术上可信的文本水印方法——由加州大学圣芭芭拉分校的学术工作开创,后来在谷歌关于其文本生成产品的公开声明中提及——在标记采样过程中插入隐藏的依赖关系。每次模型选择一个词时,一个私有哈希函数确定该词是否在该序列位置的「绿色」集合或「红色」集合中。该模型被偏向以选择绿色标记。拥有相同哈希函数访问权限的检测器可以随后对任何段落的绿色标记比例进行评分,并将其与未水印文本的预期分布进行比较。高绿色标记得分表示文本可能被水印;接近预期基线的得分表示它可能不是。实际问题是,这个检测仅适用于由启用了水印的模型生成的文本——而大多数可公开访问的LLM,包括GPT-4和Claude的API版本,目前默认不向用户输出应用文本水印。
「为语言模型输出加上水印在技术上是可行的,但需要每个主要提供商一致地实现它——一个尚未大规模解决的协调问题。」——美国马里兰大学Soheil Feizi,2023年
AI水印实际上能证明什么?
这是在关于AI水印的报道中最经常被忽视的问题。被检测到的水印提供了证据,表明特定AI系统在创建时生成了内容。它不证明内容是有害的、抄袭的或不适当的。它不证明提交内容的人以违反任何特定规则的方式使用了AI。最关键的是,没有可检测水印的不存在并不证明内容是由人类编写或创建的。有几个原因说明为什么不存在不能作为免责证据。首先,目前流通中的绝大多数AI生成内容是由从未实现水印或未激活水印的系统生成的。通过标准ChatGPT界面使用GPT-4的学生,或使用未采用C2PA的图像生成器的人,生成了没有水印的内容——因为这些工具不为其输出添加水印。其次,水印可以被移除。文件级元数据可以被标准工具删除。文本水印在改写下会降低。甚至像素级水印也不能保证在特别设计来破坏它们的对抗性处理中存活。第三,某些工具会向人类创建的内容添加假水印,要么是有意混淆检测器,要么是处理管道的伪影。检测到的水印因此是有意义的:它是特定AI系统参与生成内容的正面证据。没有水印是信息灵通的:它意味着要么没有使用水印系统,要么水印被移除,要么内容是真正由人类创建的。这是三种不同的情况,具有非常不同的含义,AI水印检测器结果单独无法区分它们。
AI水印能被移除或破坏吗?
水印的鲁棒性很大程度上取决于它是什么类型以及删除尝试有多复杂。文件级C2PA凭证可以被任何对图像元数据有基本理解的人在几秒内删除。右键单击图像、使用免费工具删除其EXIF数据、在没有「保留元数据」选项的情况下在格式之间转换,或简单地截屏——这些都会产生没有C2PA凭证的文件。这不是C2PA设计中的缺陷;该标准被构建为真实媒体的来源链,而不是防篡改AI使用证书。当C2PA凭证存在时,它们的存在是有意义的。当它们不存在时,这种不存在不能证明任何关于来源的事情。文本水印比文件元数据更鲁棒,但比像素级嵌入更脆弱。关于基于标记分布的水印的学术研究发现,重度改写、翻译成另一种语言再翻译回来,或将带水印的文本与不带水印的段落混合,都可以显著降低检测置信度。来自马里兰大学2023年的分析发现,改写攻击将某些水印方案的检测精度从接近确定降低到仅略好于随机。关键是,有效的改写已经需要足够的编辑,使得输出与模型生成的内容本质上不同——所以攻击是有代价的。像SynthID这样的像素级水印是这三个类别中最鲁棒的。它们特别设计来存活在图像分发期间经常发生的各种操纵:调整大小、压缩、色彩分级和格式转换。根据谷歌DeepMind发布的研究,从图像中移除SynthID而不将其视觉质量降低到击败图像目的的程度是计算困难的。也就是说,没有水印是无条件鲁棒的。足够激进的重新采样、添加噪声或使用专门设计来击败像素水印的对抗扰动工具都可以降低检测置信度,尽管通常以牺牲图像质量为代价。
- C2PA文件元数据:可用任何EXIF编辑器、格式转换或截屏在几秒内删除;凭证的不存在不能证明任何关于AI来源的事情
- 文本标记分布水印:在重度改写下显著降低(学术研究报告的检测信心约50%下降);在轻度编辑和轻微改写中存活
- 像素级水印(SynthID):对JPEG压缩、调整大小、色彩分级和截屏鲁棒;击败需要通常会降低视觉质量的对抗性处理
- 文本翻译攻击:将带水印的文本转换为另一种语言再翻译回来会显著降低水印信号,因为词汇分布重置
- 对抗性像素扰动:专门的工具可以削弱甚至SynthID风格的水印,但处理在计算上很昂贵,通常会引入可见伪影
AI水印检测器会遗漏什么?
任何AI水印检测器都有一个硬覆盖问题:它只能找到由它知道的系统嵌入且随后未被破坏的信号。这创建了三个系统性差距,依赖单独水印检测的用户会遇到。第一个差距是生成器覆盖。大多数AI文本是由ChatGPT、Claude、Gemini及其他公开版本等模型生成的,这些模型目前不在其标准输出中嵌入文本水印。为基于标记分布分析的水印检测器设计的AI水印检测器将在野生环境中的大多数AI生成文本上报告没有水印,不是因为文本是人类编写的,而是因为它来自从未实现水印的系统。第二个差距是生成后编辑差距。即使对于对其输出进行水印的系统,事后由人类进行的任何实质性编辑都会降低水印信号。提示AI获得草稿然后手动改写三分之二的学生可能最终得到通过水印检测的文本——因为带水印的标记现在是更大段落的少数。测量完整文本中分布偏斜的AI水印检测器将看到一个稀释的信号。这不是检测方法中的缺陷;它准确地读取了内容,这确实在那一点上比AI生成更多地是人类编辑的。第三个差距是由故意不为输出加水印的模型生成的AI内容。在本地下载和运行的开源模型——LLaMA、Mistral、Qwen及其他——生成没有水印的文本和图像,因为用户控制推理,平台无法强制水印插入。这些工具生成的任何内容都不会有水印,无论涉及多少AI。这些差距是AI水印检测最有用的原因,作为多信号验证过程的一层,而不是作为独立验证方法。
如何使用水印检测负责任地验证AI内容
负责任地使用AI水印检测器首先要理解该工具实际上在回答什么。水印检查和AI来源检查不是同一个问题,混淆它们会产生错误的信心和不公平的结论。对于图像验证,实际工作流看起来像这样:首先使用C2PA兼容阅读器检查C2PA内容凭证。大多数标准照片应用程序不显示C2PA数据,所以您需要一个专门设计用来读取它们的工具。Adobe的内容真实性网络工具或任何C2PA感知查看器可以在存在凭证时表露这些凭证。如果存在凭证并声称AI生成,那是一个很强的正面发现。如果未找到凭证,继续进行像素级AI图像检测——测量图像看起来如何而不是文件容器说什么的步骤。对于文本验证,基于水印的检查目前受上述采用差距的限制。在主要提供商实现一致的文本水印之前,更可靠的方法是使用测量文本本身统计属性的检测器——困惑度、突发性和在人类和AI写作之间不同的分布模式——而不是寻找故意嵌入的水印。这些固有信号检测器的工作方式与生成系统是否实现了水印无关。当验证结果将被用来做出后果性决定时——无论是学术、法律、专业还是编辑——明确记录您的方法。您使用了哪个工具?什么版本?它返回了什么结果?单个工具对水印检查或统计检测器的依赖不是高风险决定的最佳实践。交叉参考多个工具可以减少任何单个工具的假阳性或假阴性率的影响。
- 对于图像,从C2PA兼容阅读器开始检查签名的内容凭证——签名声称AI生成的凭证是快速、明确的发现
- 将缺失的凭证视为中立——无论元数据状态如何,都继续进行像素级AI图像检测
- 对于文本,使用统计AI文本检测(困惑度/突发性分析)作为主要检查——考虑到当前的采用差距,比水印检测更可靠
- 在高风险环境中做出结论之前,交叉参考至少两个独立工具
- 记录您的验证方法:工具名称、版本、结果和日期——这支持可防御的决策制定
- 应用相称的信心:在多个检测方法中的强正面比单个工具的边界结果更值得更高的信心
水印标准、采用情况以及今天实际部署的内容
AI水印理论上可以实现什么和目前实际部署什么之间的差距足够大,可以影响您如何解释检测结果。在图像方面,C2PA具有真正的吸引力。Adobe Firefly、DALL-E 3和Microsoft的AI图像工具都默认嵌入C2PA内容凭证。内容真实性倡议获得了主要新闻机构、平台公司和硬件制造商的承诺。包括Leica和Sony在内的相机制造商已经发布了硬件级C2PA签名,以便在拍摄时对照片进行签名,而不是之后。SynthID在谷歌的Gemini图像生成工具、Google Imagen中部署,并已扩展到视频和音频。在文本方面,进展较慢。OpenAI在内部探索了文本水印,据报道决定不在消费产品中部署它,部分原因是文本水印在改写下的脆弱性,以及对非母语使用者、患有阅读困难的作家、需要辅助编辑工具的人可能被不成比例地标记的担忧。谷歌在一些研究背景下提到了SynthID扩展到文本,但尚未广泛提供面向消费者的文本水印检测。最终结果是,检查C2PA或SynthID信号的AI水印检测器将捕获已采用该标准的主要商业平台的内容,并会遗漏来自开源模型、未采用水印的平台以及任何水印已被删除或降级的内容。这是一个覆盖现实,而不是水印概念的失败——采用是一个正在进行的过程,今天部署的工具反映了该行业现在所在的位置,而不是这些标准的发展方向。
「C2PA为一个媒体可以携带经验证来源的网络提供了基础——但该价值随着有多少创作者和平台参与而扩展。」——内容真实性倡议,2024年
NotGPT如何帮助进行AI水印和来源验证
NotGPT提供两个与AI来源验证相关的检测工具,通过分析内容的固有属性而不是仅依赖嵌入的信号来补充基于水印的方法。AI图像检测工具在像素级分析上传的图像,检查区分AI生成图像与照片的视觉特征——纹理规律性、频率域特征和语义一致性模式。无论是否存在任何水印或已被删除,此分析都运行,使其对来自从未嵌入水印的平台的图像以及元数据已被删除的图像有效。AI文本检测工具测量提交文本中的困惑度、突发性和分布模式,以估计该段落是AI生成的可能性。这是涵盖文本水印采用差距的方法:它不是寻找只有某些生成器嵌入的信号,而是读取所有当前LLM在其输出中留下的统计指纹,尽管程度各不相同。将NotGPT与专用水印检查一起使用——特别是用于图像的C2PA阅读器——为您提供了来源信号(当存在时)和固有信号(无论是否使用了水印都存在)。这两种方法都不单独涵盖完整的验证问题;它们一起涵盖了实质上更多的检测表面。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI文本检测
粘贴任何文本并接收AI相似度概率得分和突出显示的部分。
AI图像检测
上传图像以检测它是否是由DALL-E或Midjourney等AI工具生成的。
Humanize
重写AI生成的文本以听起来自然。选择轻度、中度或强度。