谷歌能检测AI生成的内容吗?其系统实际分析的内容
谷歌能以第三方检测器评估段落相同的方式检测AI生成的内容吗?谷歌尚未发布按AI来源标记页面的分类器,但其系统分析的模式能够持续将高质量内容与低效输出区分开来——无论该输出来自人类还是语言模型。了解这些信号的确切内容,以及谷歌的自动化和人工审查流程如何应用它们,为内容团队提供了比优化任何单一概率分数更可靠的目标。
目录
谷歌能自动检测AI生成的内容吗?
谷歌尚未发布为其索引中的页面返回AI概率分数的分类器。它已确认的是其垃圾邮件检测基础设施——称为SpamBrain的机器学习系统——评估网站的大规模模式,这些模式表明内容是为了操纵排名而不是为了服务搜索者。SpamBrain在域级别上的运作程度与页面级别一样多,因此发布数十个具有结构相似性的关键字定向页面的网站可能会吸引算法的注意,即使没有单个页面明显的低质量。没有明确的AI标签并不意味着谷歌的系统无法看到使AI内容易于通过其他方式检测的属性。谷歌的排名模型——包括在大型文本语料库上训练的语言模型——评估语义质量,其级别与AI检测器测量的内容密切相关。在AI概率测试中得分很高的页面通常表现出与谷歌质量评估惩罚的相同属性:广泛覆盖但缺乏深度、没有实体特异性,以及总结现有来源而不添加新见解的措辞。因此,尽管对谷歌能否作为二元分类检测AI内容的直接回答是否——至少不是谷歌公开披露的——但实际答案是其系统测量的信号与其他工具使AI内容可识别的内容有重大重叠。
谷歌已确认其垃圾邮件检测系统针对的是大量内容生成的行为足迹——而不是AI生成文本的语言指纹。
谷歌算法寻找什么技术信号?
谷歌的排名系统应用多个内容评估层,其中几个评估仔细撰写的内容和通用AI输出之间的不同属性。核心信号基于质量而不是来源,但它们与AI检测器在实践中测量的内容密切相关。语义连贯性和主题深度由谷歌的自然语言系统评估,该系统评估页面是否以足够的特异性覆盖主题以满足查询意图——不仅仅是相关术语是否出现在文本中。多次使用'AI生成的内容检测'短语的页面,如果不解决检测准确性如何根据内容类型、字数或写作风格而变化,即使看起来在语法上完整,也会在此评估中失败。命名实体特异性是一个独立的、不同的信号:引用特定工具、研究、作者或日期的页面始终优于使用通用措辞的页面。'多项研究表明AI检测准确性是有限的'不如对具有发表年份和具体发现的命名研究小组的参考那样有分量。生成通用内容的大型语言模型往往避免可能被验证为错误的具体声明——这意味着使它们易于检测的统计均匀性也使它们在这些质量信号上得分较低。
- 主题深度:页面是否超越表面水平的摘要来解决读者在阅读标题后会提出的后续问题?
- 实体特异性:声明是由命名来源、真实数据或具体示例支持的,还是仅由听起来可信但无法验证的陈述组成?
- 作者权威:是否有一位拥有与该主题相关的可见简历的命名作者,或者内容是匿名且无法归属的?
- 原始见解:页面是否包含不会出现在相同查询的当前第一页结果中的数据、观察或分析?
- 结构唯一性:措辞是否在各章节之间差异足够以反映真实的组成,还是多个段落读起来像对同一来源的释义总结?
谷歌的质量评估员如何评估AI生成的文本?
谷歌聘请了数万名签约的搜索质量评估员,他们使用《搜索质量评估员指南》(SQEG)来评估页面。这些评估者不直接控制排名——他们的评估训练和校准自动化系统——但SQEG中的标准揭示了谷歌的算法旨在识别什么。质量评估者使用E-E-A-T框架评估页面:经验、专业知识、权威性和信任度。经验维度对AI内容最相关,直接针对低效AI输出常见的空白:评估者被训练识别页面是否显示对其主题的第一手知识,或者是否作为在没有直接接触主题的情况下汇编的摘要阅读。评估评估如何检测AI生成的图像的页面的评估者被训练询问作者是否实际使用了描述的工具、页面是否包含足够具体的观察以反映实际操作使用,以及建议是否反映当前的工具行为而不是可能在没有尝试任何工具的情况下编写的一般描述。通用AI输出经常在此评估中失败,因为语言模型生成流程的合理听起来的描述,没有直接经验带来的特定错误、边界情况和第一手观察。
- 作者简历是否表明作者对该主题有直接经验——而不仅仅是对该领域的普遍熟悉?
- 内容是否反映特定的、当前的信息,还是它读起来像是一个通用概览,可能在过去三年中的任何时间点编写?
- 是否存在只会出现在直接使用讨论的工具、流程或产品的人的内容中的第一手观察?
- 该页面是否表现出对常见用户错误、边界情况或源于与该主题重复互动的局限性的认识?
- 事实声明是否有可归因的来源——链接的参考文献、命名的研究或来自已识别个人的引用?
SpamBrain实际针对的是什么?
SpamBrain是谷歌的ML驱动的反垃圾邮件系统。它识别通过链接方案、抓取的内容和大规模自动生成的页面等战术试图操纵索引的网站。2022年,谷歌宣布SpamBrain已发展到可以检测使用AI大规模生成的内容——这是首次公开承认AI辅助的大量生成已进入其垃圾邮件检测范围。SpamBrain在行为和结构模式上运作,而不是试图在句子级别识别AI来源。它针对的信号包括短期内新内容发布的高比率、多个页面上措辞的域级重复、针对类似查询的页面之间的结构相似性,以及域的表观权威与出现在其上的新内容量之间的不匹配。这些模式与大规模AI内容生成从外部看起来的样子相匹配。一个在几个月内发布数百个页面的网站,每个页面针对略有不同的关键词集群,没有命名作者且没有入站链接,会产生SpamBrain设计用来标记的结构足迹——不是因为系统分析了每个页面的文本以查找AI来源,而是因为生产行为与它旨在检测的索引操纵模式相匹配。
SpamBrain识别大规模AI内容的生产模式——高体积、结构重复、薄覆盖——而不是单个精心编辑页面中AI生成句子的存在。
谷歌能区分AI和人类写作吗?
在语言学水平上,诚实的答案是不能可靠地区分。关于AI文本检测准确性的研究一直表明,即使是专门构建的分类器在现实条件下也无法区分AI和人类写作,特别是当AI生成的文本经过释义、轻微编辑或由大型有能力的模型生成时。谷歌自身的语言系统——为搜索生成式体验和其他功能提供动力——是与检测器试图识别的文本相同的模型类别。在一个模型的输出上训练的分类器本质上不可靠地识别另一个模型的输出。谷歌可以可靠评估的是质量,质量与将大多数AI内容与大多数精心撰写的内容区分开来的属性相关。没有支持细节的通用措辞、对复杂主题的薄覆盖、没有可识别的作者,以及论证深度缺乏变化都是影响排名的质量失败——所有这些在未经审查的AI生成内容中都不成比例地常见。实际含义是谷歌是否能在任何特定文章中可靠地识别AI撰写的文本的问题不如您的页面是否通过谷歌公开记录的质量信号那么重要。这些信号是可访问的、在谷歌自己的指导中记录的,并在任何想要在发布前审计它们的内容团队的控制范围内。
谷歌是否能可靠地识别AI撰写的文本不如您的页面是否展示了谷歌记录的质量信号重要——这些是影响排名的信号。
发布前应该审查哪些内容信号?
谷歌系统测量的内容信号可以在页面上线前手动审计。此审查不需要解决谷歌是否能检测AI内容——它需要根据谷歌描述为区分高质量和低质量输出的标准检查页面。审计应关注低效AI内容中最常见的缺失属性:原始数据或第一手示例、具有可验证资证的命名作者、不能从第一页搜索结果摘要组装的具体声明,以及深度足够使读者认为该页面是明确资源而不是起点。AI文本检测器在此审查中充当有用的代理——不是因为它们直接预测谷歌的反应,而是因为体段落上的高检测分数是该段落在准备发布前需要更多特定、原始内容的可靠指标。检测器和谷歌的质量系统不测量相同的东西,但它们相关:在AI概率上得分很高的段落往往是在深度和实体特异性上失败的确切段落。
- 命名作者检查:是否有一位命名作者,其简历可见,链接到其凭证或相关主题领域的其他已发表作品?
- 原始内容检查:文章是否包含至少一个在目标查询的当前第一页结果中不可用的特定声明、数据点或观察?
- 深度检查:每个主要部分是否解决读者读完标题后会提出的后续问题——而不仅仅是主题的定义或概述?
- AI检测通过:通过文本检测器运行完整文章,查看标记的正文段落中是否有模糊声明、通用措辞或缺失细节。
- 实体特异性:断言是否由命名来源、真实示例或可验证数据支持——而不仅仅是听起来无支持就可信的陈述?
- 重复检查:确认没有段落意外复制您域中其他页面的措辞或AI工具在草拟过程中总结的来源。
什么流程同时满足谷歌的自动化和人工审查?
由于谷歌的质量审查通过质量评估员计划将自动化信号与人工评估相结合,发布前工作流程需要处理两个层。自动化信号通过满足结构质量标准得到处理——作者署名、原始内容、实体特异性和主题深度。人工评估者层通过确保页面对了解该主题的人阅读起来看起来具有可信度专业知识而得到处理。第二个标准更难操作化,但不是不可能审计。E-E-A-T经验维度特别是一件仔细的读者可以识别的东西:文章是否包含只有直接使用工具或流程的人才会包括的观察?它是否承认局限性和边界情况?作者的观点是否似乎由与该主题的重复互动塑造,还是这篇文章读起来像从最高搜索结果组装的通用摘要?在发布前使用AI文本检测器会捕获最有可能在经验测试中失败的段落——驱动高检测分数的句子通常是最通用和最具体的。用真实示例、实际数据和第一手观察重写这些段落同时解决检测问题和内容质量问题。NotGPT的文本检测突出显示驱动分数的确切句子,因此编辑注意力可以直接针对这些段落,而不必从头开始审查文章。
- 检查页面是否会说服知识渊博的读者作者对该主题有直接经验——而不仅仅是对如何描述它的熟悉。
- 验证声明足够具体以有意义:可以用命名示例和实际数据支持的声明反映真实知识,而不是总结的泛化。
- 运行AI文本检测并将标记的正文段落视为发布前需要添加的第一手示例或原始数据的部分列表。
- 确认文章提供了标题承诺的内容——质量评估员专门经过培训可标记承诺明确答案但提供部分答案的页面。
- 查看元描述和标题标签与文章实际涵盖内容的一致性:标题承诺和文章内容之间的不匹配是面向评估员的质量信号。
使用NotGPT检测AI内容
AI Detected
“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”
Looks Human
“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”
即时检测AI生成的文本和图像。一键将内容人性化。
相关文章
检测功能
AI文本检测
粘贴任何文本并获得AI相似度概率分数以及突出显示的部分。
AI图像检测
上传图像以检测它是否由DALL-E或Midjourney等AI工具生成。
人性化
重写AI生成的文本以听起来自然。选择轻度、中度或强度。