Skip to main content
ai-detectionhiringguidehr

招聘中的AI检测:HR团队在筛选候选人前需要了解的内容

· 9 min read· NotGPT Team

招聘中的AI检测已经从实验性转变为许多公司的日常操作,但HR团队内部的讨论并未总是跟上技术的步伐。大多数团队通过运行简历通过检测工具开始,并很快发现概率分数与招聘决定不同。本指南涵盖了完整的招聘工作流程——简历、求职信、带回家的写作测试和现场面试环境——并阐述了检测可以可靠地告诉您什么,它在哪里失效,如何建立一个经得起考验的政策,以及为什么将分数视为判决会导致比解决方案更多的问题。

什么是招聘中的AI检测,为什么公司采用它?

招聘中的AI检测是指使用文本分析工具——以及越来越多的音频和视频分析工具——来识别候选人提交的材料是否主要由语言模型而不是申请人本身生成。采用是由一个实际问题驱动的:随着AI写作助手在2023年和2024年广泛可用,从事写作密集型行业的招聘团队开始注意到申请数量激增,而写作质量的差异下降。抛光、流畅、关键字优化的求职信读起来彼此相似,这成为了常规而不是例外。对于书面交流是正在评估的核心技能的职位——内容策略、法律工作、新闻、技术文档、赠款写作——无法区分候选人的真实声音和AI生成的声音使筛选过程的一个重要部分变得不可靠。招聘中的AI检测作为一种分流机制出现:不是为了抓住作弊者,而是为了识别哪些申请值得在进入下一个阶段之前进行额外审查。这种框架很重要,因为它决定了如何使用检测结果。将分数视为分流信号的团队往往比将分数视为判决的团队做出更好的招聘决定。该技术是概率性的,而不是法医性的——它产生的是可能性,而不是事实。

"问题不在于人们在使用AI——而在于应聘材料不再是候选人实际能力的有用信号。" ——一家400人媒体公司的人才招聘负责人

AI检测在完整招聘工作流中的位置在哪里?

招聘中的AI检测的大多数早期实现都很狭隘地专注于简历,但更有用的应用涵盖了典型工作流中的多个接触点。每个接触点都有不同的检测可靠性档案和不同的风险等级。简历是最难可靠评估的文件:它们很短(通常少于400个单词)、格式很重、由流派惯例主导——动作动词项目符号、量化成就、平行结构——这些独立地提高AI概率分数,无论作者是谁。一张纸上的简历上的检测分数的统计权重小于较长、结构较少的文本上的分数。求职信提供比简历更好的检测信号,因为它们的格式限制较少,给候选人更多的表达声音和推理的余地。读起来完全是AI生成的求职信——每句话都很流利,但对公司、职位或候选人的实际经验没有具体内容——通常对人类评审者和检测工具的读法相同。带回家的写作任务和作品集提交是招聘中的AI检测最可靠的地方。更长的文本具有特定的提示、特定领域的知识要求和开放式结构,为检测工具提供足够的统计样本以产生更有意义的分数。当候选人提交1000字的业务问题分析,文本分数为92%的AI生成,没有段落级变化时,这比任何简历分数都是更有信息的信号。现场视频和音频环境——候选人使用耳机、实时脚本生成或AI语音合成的AI辅助面试——代表了基于文本的检测无法解决的新兴挑战。音频深度伪造检测是一个独立的技术堆栈,具有自己的准确性档案,在相关资源中详细讨论。

  1. 简历:由于长度短和格式约定重,可靠性低——仅用作软信号
  2. 求职信:中等可靠性——具体性缺陷和通用措辞与分数一起是有意义的
  3. 带回家的写作测试:最高可靠性——更长的文本加开放式结构为检测工具提供充分的统计样本
  4. 作品集提交:与写作测试相似对待;特定领域的内容往往会产生更容易解释的分数
  5. 现场面试:基于文本的AI检测不适用;音频分析工具是具有不同限制的独立技术

HR团队应该筛选每项申请,还是仅限高风险职位?

是否在所有应用中运行招聘中的AI检测或将其限制在特定角色是治理决定,而不仅仅是技术决定。为每个职位筛选每份提交的简历会产生大量边界分数——其中许多是假阳性——人类评审者必须对其进行裁决。对于书面交流本身不是正在评估的技能的高容量职位,该开销可能不值得该信号。仓库运营经理或软件工程师职位,其中技术问题解决推动招聘决定,是招聘人员花费时间在简历AI分数上的服务不足。更具防御性的方法是基于角色的筛选,应用于提交的写作样本本身是您招聘的技能证据的职位。这包括内容和营销职位、法律写作、研究职位、资助学术工作、新闻和通信领导。对于这些角色,提交的写作的真实性直接与招聘问题相关,这为招聘中的AI检测提供了合法的理由。有针对性的、基于角色的应用也降低了法律风险。多个司法管辖区的就业法开始审查在招聘中使用自动化筛选工具,一些监管机构要求在自动化工具影响选择决定时进行披露。针对招聘中的AI检测的狭隘、有记录的用途既更容易维护,又比对漏斗中每份应用的全面筛选更不可能在受保护类中引入系统性差异影响。

对每项申请运行AI检测的全面政策会产生比信号更多的噪音。有针对性的部署——写作样本是正在评估的技能的职位——既更准确又更容易维护。

谁会被错误地标记为假阳性,这对您的招聘流程的成本是什么?

假阳性是招聘中的AI检测最重要的失败模式,面临风险的人群可从技术的工作方式预测。非英语使用者一致地产生提升的AI检测分数,因为第二语言写作往往倾向于更简单的句子结构、更保守的词汇选择和更低的突发性——检测模型将其与AI输出相关联的相同统计特征。在全球招聘环境中,这意味着招聘中的AI检测可以默默地不利于来自国际人才库的候选人,他们完全没有AI协助地写了他们的申请。来自某些教育或专业背景的候选人面临类似的风险。学术和法律写作训练人们使用主题驱动的段落、正式的语言寄存器、受控的词汇和平行结构——所有这些都降低了突发性分数并提高了AI可能性估计。申请合规角色的律师,他们以草拟客户备忘录的方式写求职信,可能会因与AI无关的原因在AI检测器上获得令人惊讶的高分数。假阳性的成本不是抽象的。如果检测信号导致即使一个招聘人员在没有额外审查的情况下降低或驳回合格候选人的申请优先级,您的流程就会引入您招聘团队的判断不会引入的偏见。在规模上——在每个职位发布的数百份申请中——对非英语使用者记录的15-25%假阳性率意味着真实的候选人被排序不正确。在您的招聘中的AI检测政策中明确构建假阳性风险,为边界情况提供记录的升级路径,对于负责任的实现而言不是可选的。

"我们有一位候选人已经用英语专业写作了十五年——总共三种语言——她的求职信得分为78%的AI。她是我们那一年最好的聘用之一。" ——金融服务公司的人力资源主管

AI检测分数对招聘人员的实际含义应该是什么?

候选人提交的AI检测分数高意味着一件事:该文本具有统计属性,类似于检测模型学习与AI生成输出相关联的内容。这并不意味着文本是由AI生成的。这并不意味着候选人缺乏应用声称的技能。这并不意味着他们不诚实行动。实际解释在很大程度上取决于环境。简历上的70%AI可能性分数,该简历也是可疑的关键字密集、没有具体项目、日期或指标的,需要与detailed求职信上的70%分数不同的响应,其中候选人对您公司和角色的具体知识在文本本身中体现。该分数是多个信号中的一个——它与人类评审者对文件的理解并列,而不是上方。具有可靠招聘中的AI检测协议的招聘人员将超过其阈值的分数视为在筛选电话期间提出一个额外问题的提示,而不是拒绝信号。有效的提示包括要求候选人为申请中提到的特定项目介绍您,用自己的话描述他们在前一个角色中面临的挑战,或解释为什么他们对此公司特别感兴趣——由没有生活经验的人在没有生活经验的情况下AI生成申请将比从真正知识写作的人更少具体地回答这些问题。分数使候选池变窄以进行额外审查。人类对话确定接下来会发生什么。

  1. 高分是更接近审查的提示,而不是拒绝标准——将其视为标志,而不是发现
  2. 在筛选电话中提出有针对性的后续问题,而不是仅根据检测分数行动
  3. 针对文件具体性交叉引用分数:写作是否包括特定于公司的细节、命名项目、实际数字?
  4. 将应用的写作记录与候选人在筛选期间如何沟通进行比较——重大不匹配比任何分数更有意义
  5. 通过第二个检测工具运行边界情况,并注意分数是否一致;大不同表示统计模糊性,而不是确认的欺诈
  6. 记录您的流程:记录分数和采取的后续步骤,以便任何不利决定都可追溯到人类判断,而不仅仅是自动分数

当面试欺诈出现时,应该如何处理招聘中的AI检测?

面试欺诈——候选人在现场面试期间使用AI工具实时回答问题——是基于文本的AI检测无法解决的一个日益增长的问题。最常见的形式包括在电话筛选中使用的AI语音合成、通过耳机或视频通话期间分割屏幕设置的实时AI答案生成,以及屏幕共享安排,其中第二个人回答而候选人在摄像机上出现。这些不是假设情景:人员配置机构和技术公司,特别是为工程和数据角色招聘的公司,已记录了自AI工具变得有能力生成合理的实时答案以来现场面试欺诈的有意义的增加。检测面试欺诈需要不同的信号而不是文本分析。面试小组已报告特定的行为标记:候选人看起来从屏幕外阅读某些内容时异常的响应延迟,流畅但不回应问题的特定框架的答案,跟随自己回答时无法跟随澄清问题的能力,以及缺乏自发言语的犹豫、改革和强调变化的声音模式。音频深度伪造检测工具专门为这种环境设计,但需要自己的实现并具有自己的准确性限制。不需要专门技术的结构对策是后续探针:就候选人在同一面试中10分钟前所说的内容提出具体问题。实时AI协助难以在整个面试过程中保持连贯的记忆;真实回答的候选人可以毫无困难地回答这些问题。

为招聘建立坚持的AI检测政策

可维护的招聘中的AI检测计划与责任之间的区别在于文档和相称性。可维护的计划指定哪些角色触发AI检测筛选,什么分数阈值促使后续审查而不是自动操作,哪个团队成员审查边界情况,在不利决定之前需要哪些后续步骤,以及这些决定被记录的地方。不记录这些步骤的计划是一个被拒绝的候选人可以可信地争论自动化工具而不是人类判断做出决定的计划——随着欧盟、伊利诺伊州和纽约的就业监管机构开始对自动化招聘系统施加要求,这是一个越来越危险的立场。相称性意味着将AI检测保持在顾问角色中,而不是决策角色。当可靠地浮现值得第二次查看的申请时,该技术在招聘工作流中赚取其位置。当它替代应做出实际呼叫的人类判断时,它会创建问题。候选人交流值得仔细思考。一些组织选择在其工作发布中披露提交的写作可能会被审查为AI生成的内容;其他组织则不然。对于候选人体验,披露通常更好,并减少了如果他们稍后发现使用检测的候选人被误导的看法。简短、事实性的声明——"提交的写作样本可能使用自动化内容分析进行评估"——足以确立透明度,而不会对分析实际显示的内容做过度承诺。如果您的组织在此工作流中使用NotGPT,它会向评审者提供句子级别的概率亮点以及汇总分数,这使后续审查步骤更具体:您可以看到确切导致整体结果的段落,并相应地制作后续问题。

  1. 定义范围:记录哪些角色和哪些文件类型触发AI检测筛选
  2. 设置阈值:指定什么分数级别提示后续审查——并明确此阈值触发审查,而不是拒绝
  3. 分配审查所有权:命名负责边界情况升级的特定角色并记录他们应用的决策标准
  4. 建立后续协议:在任何基于检测信号的不利行动之前,至少需要一个人类进行的后续步骤(筛选问题、写作提示、现场讨论)
  5. 记录决定:同时记录检测分数和下游人类决定,以便选择或拒绝的理由是可追溯的
  6. 每年重新访问政策:AI检测工具会发生变化,法律要求不断发展,您的假阳性档案应根据实际结果随着时间的推移进行审计
精心构建的招聘中的AI检测政策创建了一个纸迹,显示人类判断做出了决定。检测分数创造了对话;招聘人员关闭了它。

使用NotGPT检测AI内容

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

即时检测AI生成的文本和图像。一键将内容人性化。