Skip to main content
ai-detectionguideinformationalwatermark

Detector de filigrane AI: Ce poate găsi, ce poate dovedi și cum să-l folosești responsabil

· 10 min read· NotGPT Team

Un detector de filigrane AI este un instrument care caută semnale ascunse sau încorporate care indică faptul că o porțiune de text sau o imagine a fost creată de un sistem AI. Conceptul sună simplu — executați o verificare, obțineți un răspuns — dar în practică, filigranele și detecția filigranelor sunt mult mai nuanțate decât un rezultat simplu de reușită/eșec. Unele filigrane sunt semnale invizibile codificate în valori de pixeli; altele sunt modele statistice țesute în distribuții de alegere a cuvintelor; altele sunt certificate criptografice ataşate unui container de fișier. Fiecare tip funcționează diferit, supraviețuiește transformărilor diferite și susține concluzii diferite. Acest ghid acoperă cum funcționează detectoarele de filigrane AI atât pentru text, cât și pentru imagini, ce dovedeşte de fapt un rezultat de detecție pozitiv, unde tehnologia actuală de filigrane cade și cum să abordezi verificarea conținutului în mod care să ţii seama atât de punctele forte, cât și de lacunele reale din aceste instrumente.

Ce este un detector de filigrane AI?

Un detector de filigrane AI este orice instrument sau metodă proiectată pentru a identifica semnale care au fost deliberat sau accidental încorporate în conținutul generat de AI la momentul creării. Cuvântul "filigran" acoperă trei categorii tehnice distincte care sunt adesea confundate. Marcajele de proveniență la nivel de fișier — cel mai notabil Acreditări de conținut C2PA — sunt certificate semnate criptografic stocate în containerul de metadate al unui fișier imagine sau video. Acestea afirmă autoria și înregistrează ce instrument AI a produs conținutul, dar trăiesc în învelișul fișierului și pot fi eliminate de către orice editor de metadate standard. Filigranele la nivel de pixel, din care exemplul cel mai cunoscut este SynthID al Google DeepMind, codifică un semnal detectabil direct în valorile pixelilor unei imagini în timpul generării. Spre deosebire de metadatele fișierului, acestea supraviețuiesc conversiei de format, compresiei JPEG și capturii de ecran, deoarece sunt țesute în conținutul real al imaginii, nu în containerul fișierului. Filigranele de text funcționează diferit: deoarece textul nu poate încorpora semnale în valori de pixeli, filigranarea textului funcționează prin influențarea distribuției de probabilitate a alegerii cuvintelor în timpul generării. Atunci când un model, cum ar fi un mare model de limbaj, generează un token, poate fi biassat pentru a favoriza ușor tokens dintr-o listă de vocabular "verde" desemnată. Pe parcursul sutelor de tokens, acest bias creează un model statistic detectabil — textul obține o scoare mai mare decât așteptată pe frecvența de token verde. Un detector de filigrane AI pentru text verifică dacă o pasaj prezintă acest tip de înclinare distribuțională. Toate cele trei abordări au același scop — permiterea unei terțe părți să verifice originea AI după faptul — dar diferă dramatic în ceea ce supraviețuiește editării, traducerii sau eliminării deliberate.

  1. Proveniență la nivel de fișier (C2PA): certificat criptografic în metadatele fișierului imagine sau video; identifică instrumentul AI care a generat conținutul; trivial eliminabil cu orice editor EXIF
  2. Filigrane la nivel de pixel (SynthID): semnal codificat în valorile pixelilor reali în timpul generării; supraviețuiește conversiei de format, compresiei și capturilor de ecran; nu poate fi eliminat fără a degrada semnificativ imaginea
  3. Filigrane de text (statistice): bias în probabilități de selecție a tokenilor în timpul generării creează o semnătură distribuțională măsurabilă; supraviețuiește editărilor ușoare, dar se degradează cu parafrazare grea sau traducere
  4. Semnături intrinseci ale modelului: artefacte neintenționate din arhitectura de generare — detectoarele AI care nu se bazează pe filigrane analizează acestea în schimb; prezente în toată ieșirea AI, indiferent dacă filigranarea a fost activată

Filigrane de text vs. Filigrane de imagine: Cum diferă?

Mecanica filigranării textului și imaginii diferă atât de semnificativ, încât înțelegerea uneia nu te pregătește automat să raționezi cu privire la cealaltă. Pentru imagini, problema încorporării unui semnal invizibil este o ramură bine studiată a steganografiei digitale. Cercetătorii pot modifica biții cei mai puțin semnificativi ai valorilor pixelilor, schimba componente de frecvență folosind transformata cosinus discretă, sau — după cum face SynthID — ajusta intensitățile relative ale pixelilor în cadrul patch-urilor locale în moduri imperceptibile vederii umane, dar statistic detectabile de detectorul de filigrane antrenat. Deoarece semnalul este distribuit redundant pe milioane de pixeli, persist prin tipurile de manipulare pe care o imagine tipică le poate suferi: redimensionare, corecție de culoare, recodificare JPEG la niveluri rezonabile de calitate și chiar tipărire și scanare din nou. Robustețea SynthID la capturile de ecran este în special demn de remarcat: atunci când faci o captură de ecran a unei imagini cu filigran, surprinzi valorile pixelilor sale în esență neschimbate, deci filigranul supraviețuiește. Pentru text, provocarea este mai mare. Textul este discret: nu există valori individuale la nivel de caracter pentru a schimba subtil, și orice modificare care schimbă modelul statistic schimbă și semnificația. Cea mai credibilă din punct de vedere tehnic abordare a filigranării textului — deschisă în lucrări academice de la UC Santa Barbara și posteriormente referită în declarațiile publice ale Google cu privire la produsele sale de generare de text — inserează o dependență ascunsă în procesul de eșantionare a tokenilor. De fiecare dată când modelul selectează un cuvânt, o funcție hash privată determină dacă acel cuvânt se află în setul "verde" sau "roșu" pentru acea poziție în secvență. Modelul este biassat pentru a selecta tokens verzi. Un detector cu acces la aceeași funcție hash poate apoi puncta orice pasaj pentru proporția tokenului verde și o compara cu distribuția așteptată pentru textul fără filigran. Un scor ridicat de token verde indică faptul că textul poate fi filigranat; un scor aproape de linia de bază așteptată indică faptul că probabil nu este. Problema practică este că această detecție funcționează doar pentru textul generat de un model care avea filigranarea activată — și majoritatea LLM-urilor accesibile public, inclusiv versiunile API ale GPT-4 și Claude, nu aplică filigrane text la ieșirile utilizatorului în mod implicit.

"Filigranarea ieșirilor modelului de limbaj este fezabilă din punct de vedere tehnic, dar necesită ca fiecare furnizor principal să o implementeze în mod consistent — o problemă de coordonare care nu a fost încă rezolvată la scară." — Soheil Feizi, University of Maryland, 2023

Ce poate dovedi de fapt o filigran AI?

Aceasta este întrebarea care este cel mai adesea trecută cu vederea în acoperirea filigranării AI. Un filigran, atunci când este detectat, oferă dovezi că un sistem AI specific a generat conținutul la momentul creării. Nu dovedește că conținutul este dăunător, plagiat sau nepotrivit. Nu dovedește că persoana care a trimis conținutul a folosit AI în mod care să încalce vreo regulă anume. Și critic, absența unui filigran detectabil nu dovedește că conținutul a fost scris sau creat de om. Există mai multe motive pentru care absența nu este exculpant. În primul rând, marea majoritate a conținutului generat de AI în circulație în prezent a fost produs de sisteme care nu au implementat niciodată filigrane sau nu le-au avut active. Un student care a folosit GPT-4 prin interfața standard ChatGPT, sau un generator de imagini fără adoptarea C2PA, a produs conținut fără filigran — deoarece aceste instrumente nu filigraneaza ieșirile. În al doilea rând, filigranele pot fi eliminate. Metadatele la nivel de fișier sunt eliminate de instrumente standard. Filigranele de text se degradează sub parafrazare. Chiar și filigranele la nivel de pixel nu sunt garantate să supraviețuiască prelucrării adverse special concepute pentru a le înfrânge. Un filigran detectat este, prin urmare, semnificativ: este dovadă pozitivă că un sistem AI specific a fost implicat în producția conținutului. Niciun filigran nu este neinformativ: înseamnă că fie sistemul de filigranare nu a fost folosit, filigranul a fost eliminat, fie conținutul a fost genuinul creat de om. Acestea sunt trei situații diferite cu implicații foarte diferite, iar un rezultat detector de filigran AI singur nu poate distinge între ele.

Filigranele AI pot fi eliminate sau înfrânte?

Robustețea unui filigran depinde în mare măsură de ce tip este și cât de sofisticată este încercarea de eliminare. Acreditările C2PA la nivel de fișier pot fi eliminate în secunde de către oricine cu o înțelegere de bază a metadatelor imaginii. Clic dreapta pe o imagine, eliminarea datelor sale EXIF cu un instrument gratuit, convertire între formate fără opțiunea "păstrează metadatele" sau pur și simplu capturare de ecran — oricare dintre acestea produce un fișier fără acreditări C2PA. Aceasta nu este o deficiență în designul C2PA; standardul a fost construit ca un lanț de proveniență pentru medii autentice, nu ca un certificat de utilizare a AI la proba de manipulare. Atunci când acreditările C2PA sunt prezente, prezența lor este semnificativă. Atunci când sunt absente, acea absență nu dovedește nimic cu privire la origine. Filigranele de text sunt mai robuste decât metadatele fișierului, dar mai fragile decât încorporarea la nivel de pixel. Studiile academice pe filigrane bazate pe distribuție de token au descoperit că parafrazarea grea, traducerea într-o altă limbă și înapoi, sau amestecul textului filigranat cu pasajele nefiligranat pot toate reduce semnificativ încrederea în detecție. O analiză din 2023 de la University of Maryland a descoperit că atacurile de parafrazare au redus acuratețea detecției de la aproape certă la doar ușor mai bine decât șansa pentru unele scheme de filigranare. Critic, parafrazarea eficace necesită deja suficiență editare pentru ca ieșirea să difere substanțial de ceea ce a generat modelul — deci atacul are un cost. Filigranele la nivel de pixel, cum ar fi SynthID, sunt categoria cea mai robustă din cele trei. Sunt special inginerate pentru a supraviețui tipurilor de manipulare care apar în mod obișnuit în timpul distribuției imaginii: redimensionare, compresie, gradare de culoare și conversie de format. Eliminarea SynthID dintr-o imagine fără a degrada calitatea vizuală a acesteia până la un punct care să frusteze scopul imaginii este, conform cercetării publicate de Google DeepMind, dificilă din punct de vedere computațional. Cu acestea fiind spuse, niciun filigran nu este incondiționat robust. Reabatterizarea suficient de agresivă, adăugarea de zgomot, sau utilizarea unor instrumente de perturbație adversă special concepute pentru a înfrânge filigrane pixel pot toate reduce încrederea în detecție, deși de obicei cu costul calității imaginii.

  1. Metadate fișier C2PA: eliminabil în secunde cu orice editor EXIF, conversie de format sau captură de ecran; absența acreditărilor nu dovedește nimic cu privire la originea AI
  2. Filigrane distribuție token text: se degradează semnificativ sub parafrazare grea (~50% reducere în încrederea detecției raportată în studii academice); supraviețuiesc editărilor ușoare și reformulării minore
  3. Filigrane la nivel de pixel (SynthID): robuste la compresie JPEG, redimensionare, gradare de culoare și capturi de ecran; înfrângerea necesită prelucrare adversă care în mod tipic degradează calitatea vizuală
  4. Atacuri de traducere pe text: convertirea textului filigranat într-o altă limbă și înapoi reduce semnificativ semnalul filigranului deoarece distribuția vocabularului se resetează
  5. Perturbație pixel adversă: instrumente specializate pot slabi chiar și filigranele de stil SynthID, dar procesarea este computațional scumpă și adesea introduce artefacte vizibile

Ce ratează un detector de filigrane AI?

Orice detector de filigrane AI are o problemă grea de acoperire: poate doar găsi semnale care au fost încorporate de sisteme pe care le cunoaște și care nu au fost ulterior distruse. Aceasta creează trei lacune sistematice pe care le vor întâmpina utilizatorii care se bazează doar pe detecția filigranelor. Prima lacună este acoperirea generatorului. Majoritatea textului AI este generat de modele — versiunile publice ale ChatGPT, Claude, Gemini și altele — care nu încorporează în prezent filigrane text în ieșirile lor standard. Un detector de filigrane AI proiectat în jurul analizei distribuției tokenilor va raporta niciun filigran pe majoritatea textului generat de AI în circulație, nu pentru că textul a fost scris de om, ci pentru că provine din sisteme care nu au implementat niciodată filigranarea. A doua lacună este lacuna editării după generare. Chiar și pentru sisteme care filigraneaza ieșirile lor, orice editare substanțială de om după faptul va degrada semnalul filigranului. Un student care solicită AI un proiect și apoi rescrie două treimi din el manual poate ajunge la text care trece detecția filigranului — deoarece tokenurile filigranat sunt acum o minoritate mică a unui pasaj mai mare. Un detector de filigrane AI măsurând înclinare distribuțională în text complet va vedea un semnal diluat. Aceasta nu este o deficiență în abordarea detecției; este o lectură precisă a conținutului, care cu adevărat este mai editat de om decât generat de AI în acel moment. A treia lacună este conținutul AI produs de modele care deliberat nu filigraneaza ieșirile. Modelele open-source descărcate și rulate local — LLaMA, Mistral, Qwen și altele — produc text și imagini fără filigrane, deoarece utilizatorul controlează inferența și platforma nu poate impune inserția filigranului. Orice conținut produs de aceste instrumente nu va avea filigran, indiferent de cât AI a fost implicat. Aceste lacune sunt motivul pentru care detecția filigranelor AI este cea mai utilă ca un strat al unui proces de verificare multisemnal, nu ca metodă de verificare autonomă.

Cum să verific conținutul AI responsabil folosind detecția filigranelor

Utilizarea responsabilă a unui detector de filigrane AI începe cu înțelegerea a ceea ce instrumentul răspunde de fapt. O verificare de filigran și o verificare de origine AI nu sunt aceeași întrebare, și confundarea lor produce atât încredere falsă, cât și concluzii injuste. Pentru verificarea imaginii, un flux de lucru practic arată astfel: verifică mai întâi Acreditările de conținut C2PA folosind un cititor compatibil cu C2PA. Majoritatea aplicațiilor fotografice standard nu afișează date C2PA, deci ai nevoie de un instrument special conceput pentru a le citi. Instrumentul Content Authenticity al Adobe pe web, sau orice vizualizator cu acceptare C2PA, poate expune aceste acreditări atunci când există. Dacă acreditările sunt prezente și declară generare de AI, acesta este o constatare puternic pozitivă. Dacă nu sunt găsite acreditări, procedează la detecția imaginii AI la nivel de pixel — pasul care măsoară cum arată imaginea, în loc de ceea ce spune containerul fișierului. Pentru verificarea textului, verificările bazate pe filigran sunt în prezent limitate de lacuna de adopție descrisă mai sus. Până când furnizorii principali implementează filigranarea textului consistentă, abordarea mai fiabilă este să folosești un detector care măsoară proprietățile statistice ale textului în sine — perplexitate, explosivitate și modele distribuționale care diferă între scrisul uman și AI — mai degrabă decât să cauți un filigran deliberat încorporat. Acești detectori de semnal intrinsec operează indiferent dacă sistemul generator a implementat filigranarea. Atunci când rezultatele de verificare vor fi folosite pentru a lua decizii cu consecințe — fie academice, legale, profesionale, sau editoriale — documentează metodologia ta explicit. Ce instrument ai folosit? Ce versiune? Ce rezultat a returnat? Dependența unei singure instrumente atât pe o verificare de filigran, cât și pe un detector statistic nu este o practică bună pentru determinări cu mize mari. Referența încrucișată a cel puțin două instrumente independente reduce impactul ratei false positive sau false negative a oricărui instrument individual.

  1. Pentru imagini, începe cu un cititor compatibil cu C2PA pentru a verifica Acreditările de conținut semnate — acreditări prezente declarând generare de AI sunt o constatare rapidă și definitivă
  2. Tratează acreditările absente ca neutre — procedează la detecția imaginii AI la nivel de pixel indiferent de statusul metadatelor
  3. Pentru text, folosește detecția statistică a textului AI (analiza perplexitate/explosivitate) ca verificare primară — mai fiabilă decât detecția filigranelor, având în vedere lacunele actuale de adopție
  4. Referință încrucișată a cel puțin două instrumente independente înainte de a trage o concluzie în contexte cu mize mari
  5. Documentează metodologia de verificare: nume instrumente, versiuni, rezultate și dată — aceasta susține luarea deciziilor defensabile
  6. Aplică încredere proporțională: un pozitiv puternic în mai multe abordări de detecție justifică mai multă încredere decât un rezultat graniță dintr-un singur instrument

Standarde de filigrane, adopție și ce este de fapt implementat azi

Lacuna dintre ceea ce filigranarea AI poate realiza teoretic și ceea ce este în prezent implementat în practică este suficient de semnificativă pentru a afecta cum interpretezi rezultatele detecției. Pe partea de imagine, C2PA are atracție reală. Adobe Firefly, DALL-E 3 și instrumentele de imagine AI ale Microsoft încorporează Acreditări de conținut C2PA în mod implicit. Content Authenticity Initiative are angajamente de la mari organizații de știri, companii de platformă și producători de hardware. Producători de camere, inclusiv Leica și Sony, au livrat semnare C2PA la nivel de hardware, deci fotografiile sunt semnate la capturare, nu după faptul. SynthID este implementat în instrumentele de generare de imagine Gemini ale Google, Google Imagen și s-a extins la video și audio. Pe partea de text, progresul a fost mai lent. OpenAI a explorat filigranarea textului intern și aparent a decis împotriva implementării în produse de consum, parțial din cauza fragilității filigranelor de text sub parafrazare și îngrijorare că scriitorii dezavantajați — vorbitori de limba nematernă, scriitori cu dislexie, cei care au nevoie de instrumente de editare asistate — pot fi marcați disproporționat. Google a menționat expansiunea SynthID la text în unele contexte de cercetare, dar nu a făcut detecția filigranului textului cu fața spre consumator pe scară largă. Rezultatul net este că un detector de filigrane AI verificând semnale C2PA sau SynthID va captura conținut din platforme comerciale majore care au adoptat standardul și va rata conținut din modele open-source, platforme care nu au adoptat filigranare și orice conținut unde filigranele au fost eliminate sau degradate. Aceasta este o realitate a acoperirii, nu o deficiență a conceptului de filigran — adoptarea este un proces continuu și instrumentele implementate azi reflectă unde se află industria acum, nu unde sunt aceștia standarde direcția.

"C2PA oferă baza pentru un web unde media poate purta proveniență verificată — dar valoarea scalează cu cât de mulți creatori și platforme participă." — Content Authenticity Initiative, 2024

Cum NotGPT ajută la verificarea filigranelor AI și originii

NotGPT oferă două instrumente de detecție relevante pentru verificarea originii AI care completează abordările bazate pe filigran prin analizarea proprietăților intrinseci ale conținutului în loc să se bazeze doar pe semnale încorporate. Instrumentul de detecție a imaginii AI analizează imagini încărcate la nivel de pixel, verificând caracteristicile vizuale care deosebesc imaginile generate de AI de fotografii — regularitate de textură, semnături de domeniu de frecvență și modele de coerență semantică. Această analiză funcționează indiferent dacă orice filigran este prezent sau a fost eliminat, ceea ce o face eficace pentru imagini din platforme care nu au încorporat niciodată filigrane și pentru imagini unde metadatele au fost eliminate. Instrumentul de detecție a textului AI măsoară perplexitate, explosivitate și modele distribuționale în textul trimis pentru a estima probabilitatea că pasajul a fost generat de AI. Aceasta este abordarea care acoperă lacuna de adopție în filigranarea textului: în loc să cauți un semnal pe care doar unii generatori îl încorporează, citește amprente statistice pe care le lasă toți LLM-urile actuale în ieșirile lor în diferite grade. Folosind NotGPT alături de o verificare de filigran dedicată — în special un cititor C2PA pentru imagini — te oferă atât semnalul de proveniență (atunci când există), cât și semnalul intrinsec (care există indiferent dacă filigranarea a fost folosită). Nici o abordare singură nu rezolvă problema completă de verificare; împreună, adresează substanțial mai mult din suprafața de detecție.

Detectează Conținut AI cu NotGPT

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Detectează instantaneu text și imagini generate de AI. Umanizează-ți conținutul cu o singură atingere.

Articole Conexe

Capacități de Detectare

🔍

Detecție text AI

Lipiți orice text și primiți o scoare de probabilitate de asemănare AI cu secțiuni evidențiate.

🖼️

Detecție imagine AI

Încărcați o imagine pentru a detecta dacă a fost generată de instrumente AI, cum ar fi DALL-E sau Midjourney.

✍️

Umanizare

Rescriereți textul generat de AI pentru a suna natural. Alegeți intensitate Ușoară, Medie sau Puternică.

Cazuri de Utilizare