Skip to main content
ai-detectionguideinformationalwatermark

Rilevatore di filigrana AI: Cosa può trovare, cosa può provare e come usarlo responsabilmente

· 10 min read· NotGPT Team

Un rilevatore di filigrana AI è uno strumento che cerca segnali nascosti o incorporati che indicano che un pezzo di testo o un'immagine è stata creata da un sistema di intelligenza artificiale. Il concetto sembra diretto – esegui un test, ottieni una risposta – ma in pratica, la filigranatura e il rilevamento della filigrana sono molto più sfumati di un semplice risultato passato/non passato. Alcune filigrane sono segnali invisibili codificati nei valori dei pixel; altre sono modelli statistici intessuti nelle distribuzioni delle scelte di parole; altre ancora sono certificati crittografici allegati a un contenitore di file. Ogni tipo funziona diversamente, sopravvive a diverse trasformazioni e supporta diverse conclusioni. Questa guida copre come funzionano i rilevatori di filigrana AI sia per il testo che per le immagini, cosa dice effettivamente un risultato di rilevamento positivo, dove la tecnologia della filigrana attuale è insufficiente e come affrontare la verifica dei contenuti in modo che tenga conto sia dei punti di forza che delle lacune reali in questi strumenti.

Cos'è un rilevatore di filigrana AI?

Un rilevatore di filigrana AI è qualsiasi strumento o metodo progettato per identificare segnali che sono stati deliberatamente o accidentalmente incorporati nei contenuti generati da IA al momento della creazione. La parola "filigrana" copre tre categorie tecniche distinte che spesso vengono confuse. I marchi di provenienza a livello di file – più prominentemente le credenziali di contenuto C2PA – sono certificati firmati crittograficamente archiviati nel contenitore di metadati di un file di immagine o video. Attestano la paternità e registrano quale strumento di IA ha prodotto il contenuto, ma si trovano nell'involucro del file e possono essere rimossi da qualsiasi editor di metadati standard. Le filigrane a livello di pixel, di cui SynthID di Google DeepMind è l'esempio più noto, codificano un segnale rilevabile direttamente nei valori dei pixel di un'immagine durante la generazione. A differenza dei metadati del file, questi sopravvivono alla conversione di formato, alla compressione JPEG e alla cattura dello schermo perché sono tessuti nel contenuto effettivo dell'immagine piuttosto che nel contenitore del file. Le filigrane di testo funzionano diversamente: poiché il testo non può incorporare segnali nei valori dei pixel, la filigranatura del testo funziona influenzando la distribuzione di probabilità delle scelte di parole durante la generazione. Quando un modello come un grande modello linguistico genera un token, può essere distorto per favorire leggermente i token da un elenco di vocabolario "verde" designato. Su centinaia di token, questo pregiudizio crea uno schema statisticamente rilevabile – il testo ottiene un punteggio più alto del previsto sulla frequenza dei token verdi. Un rilevatore di filigrana AI per il testo verifica se un passaggio mostra questo tipo di distorsione distributiva. I tre approcci hanno lo stesso obiettivo – consentire a una terza parte di verificare l'origine dell'IA dopo il fatto – ma differiscono drammaticamente in quello che sopravvive alla modifica, alla traduzione o ai tentativi di rimozione deliberata.

  1. Provenienza a livello di file (C2PA): certificato crittografico nei metadati del file immagine o video; identifica lo strumento di IA che ha generato il contenuto; facilmente rimovibile con qualsiasi editor EXIF
  2. Filigrane a livello di pixel (SynthID): segnale codificato nei valori effettivi dei pixel durante la generazione; sopravvive alla conversione di formato, alla compressione e alle catture dello schermo; non può essere rimosso senza degradare significativamente l'immagine
  3. Filigrane di testo (statistiche): distorsione nelle probabilità di selezione dei token durante la generazione crea una firma distributiva misurabile; sopravvive a modifiche minori ma si degrada con pesante parafrasi o traduzione
  4. Firme intrinseche del modello: artefatti involontari dell'architettura di generazione stessa – i rilevatori di IA che non si basano su filigrane analizzano questi invece; presenti in tutto l'output dell'IA indipendentemente dal fatto che la filigranatura fosse abilitata

Filigrane di testo vs. filigrane di immagini: Qual è la differenza?

La meccanica della filigranatura del testo e dell'immagine divergono così significativamente che comprendere l'una non ti prepara automaticamente a ragionare sull'altra. Per le immagini, il problema di incorporare un segnale invisibile è un ramo ben studiato della steganografia digitale. I ricercatori possono modificare i bit meno significativi dei valori dei pixel, alterare i componenti di frequenza utilizzando la trasformata coseno discreta, o – come fa SynthID – regolare le intensità relative dei pixel all'interno di patch locali in modi che sono impercettibili alla visione umana ma statisticamente rilevabili dal rilevatore di filigrana addestrato. Poiché il segnale è distribuito ridondantemente su milioni di pixel, persiste attraverso i tipi di manipolazione che un'immagine tipica potrebbe subire: ridimensionamento, correzione del colore, ricodifica JPEG a livelli di qualità ragionevoli e persino stampa e riscan. La robustezza di SynthID alle catture dello schermo è particolarmente notevole: quando catturi uno schermo un'immagine filigranata, catturi essenzialmente i suoi valori di pixel invariati, quindi la filigrana sopravvive. Per il testo, la sfida è più dura. Il testo è discreto: non ci sono valori a livello di carattere individuale da modificare sottilmente, e qualsiasi alterazione che cambi lo schema statistico cambia anche il significato. L'approccio tecnicamente più credibile alla filigranatura del testo – pioneering nel lavoro accademico dell'UC Santa Barbara e successivamente referenziato nelle dichiarazioni pubbliche di Google sui suoi prodotti di generazione di testo – inserisce una dipendenza nascosta nel processo di campionamento dei token. Ogni volta che il modello seleziona una parola, una funzione hash privata determina se quella parola si trova nell'insieme "verde" o "rosso" per quella posizione nella sequenza. Il modello è distorto per selezionare i token verdi. Un rilevatore con accesso alla stessa funzione hash può quindi valutare qualsiasi passaggio per la sua proporzione di token verdi e confrontarla con la distribuzione prevista per il testo senza filigrana. Un alto punteggio di token verdi indica che il testo potrebbe essere filigranato; un punteggio vicino alla linea di base prevista indica che probabilmente non lo è. Il problema pratico è che questo rilevamento funziona solo per il testo generato da un modello che aveva la filigranatura abilitata – e la maggior parte degli LLM pubblicamente accessibili, incluse le versioni API di GPT-4 e Claude, attualmente non applicano filigrane di testo agli output degli utenti per impostazione predefinita.

"La filigranatura degli output dei modelli linguistici è tecnicamente fattibile ma richiede che ogni grande fornitore lo implementi coerentemente – un problema di coordinamento che non è ancora stato risolto su larga scala." — Soheil Feizi, Università del Maryland, 2023

Cosa può effettivamente provare una filigrana AI?

Questa è la domanda che viene ignorata più spesso nella copertura della filigranatura dell'IA. Una filigrana, quando rilevata, fornisce prove che un sistema di IA specifico ha generato il contenuto al momento della creazione. Non prova che il contenuto sia dannoso, plagiato o inappropriato. Non prova che la persona che ha inviato il contenuto ha utilizzato l'IA in modo da violare una particolare regola. E criticamente, l'assenza di una filigrana rilevabile non prova che il contenuto sia stato scritto o creato da un essere umano. Ci sono diversi motivi per cui l'assenza non è esculpatoria. In primo luogo, la stragrande maggioranza dei contenuti generati dall'IA attualmente in circolazione è stata prodotta da sistemi che non hanno mai implementato la filigranatura o non l'avevano attiva. Uno studente che ha utilizzato GPT-4 tramite l'interfaccia standard di ChatGPT, o un generatore di immagini senza adozione di C2PA, ha prodotto contenuti senza filigrana – perché questi strumenti non filigranano i loro output. In secondo luogo, le filigrane possono essere rimosse. I metadati a livello di file vengono rimossi da strumenti standard. Le filigrane di testo si degradano sotto parafrasi. Anche le filigrane a livello di pixel non sono garantite per sopravvivere al trattamento avversariale specificamente progettato per sconfiggerle. In terzo luogo, alcuni strumenti aggiungono filigrane false ai contenuti creati dall'uomo, intenzionalmente per confondere i rilevatori o come artefatto dei pipeline di elaborazione. Una filigrana rilevata è quindi significativa: è una prova positiva che un sistema di IA specifico è stato coinvolto nella produzione del contenuto. Nessuna filigrana è non informativa: significa che nessun sistema di filigranatura è stato utilizzato, la filigrana è stata rimossa, o il contenuto è genuinamente creato dall'uomo. Queste sono tre situazioni diverse con implicazioni molto diverse, e un risultato del rilevatore di filigrana AI da solo non può distinguere tra loro.

Le filigrane AI possono essere rimosse o sconfitte?

La robustezza di una filigrana dipende fortemente dal suo tipo e dalla sofisticatezza del tentativo di rimozione. Le credenziali C2PA a livello di file possono essere rimosse in pochi secondi da chiunque abbia una comprensione di base dei metadati dell'immagine. Fai clic con il pulsante destro su un'immagine, rimuovi i suoi dati EXIF con uno strumento gratuito, converti tra i formati senza l'opzione "conserva metadati" o semplicemente fai uno screenshot – uno di questi produce un file senza credenziali C2PA. Questo non è un difetto nel design di C2PA; lo standard è stato costruito come una catena di provenienza per i media autentici, non come un certificato di utilizzo dell'IA a prova di manomissione. Quando le credenziali C2PA sono presenti, la loro presenza è significativa. Quando sono assenti, tale assenza non prova nulla sull'origine. Le filigrane di testo sono più robuste dei metadati dei file ma più fragili dell'incorporamento a livello di pixel. Gli studi accademici sulle filigrane basate sulla distribuzione dei token hanno scoperto che la pesante parafrasi, la traduzione in un'altra lingua e viceversa, o la miscelazione di testo filigranato con passaggi senza filigrana possono tutti ridurre significativamente la confidenza di rilevamento. Un'analisi del 2023 dell'Università del Maryland ha scoperto che gli attacchi di parafrasi riducevano l'accuratezza di rilevamento da quasi-certo a solo leggermente migliore del caso per alcuni schemi di filigranatura. Fondamentale è che la parafrasi efficace già richiede tanta modifica che l'output differisce sostanzialmente da quello che il modello ha generato – quindi l'attacco ha un costo. Le filigrane a livello di pixel come SynthID sono le più robuste delle tre categorie. Sono specificamente progettate per sopravvivere ai tipi di manipolazione che comunemente si verificano durante la distribuzione di immagini: ridimensionamento, compressione, color grading e conversione di formato. Rimuovere SynthID da un'immagine senza degradare la sua qualità visiva al punto che sconfigge lo scopo dell'immagine è, secondo la ricerca pubblicata di Google DeepMind, difficile dal punto di vista computazionale. Detto questo, nessuna filigrana è incondizionatamente robusta. Il ricampionamento sufficientemente aggressivo, l'aggiunta di rumore o l'uso di strumenti di perturbazione avversariale specificamente progettati per sconfiggere le filigrane dei pixel possono tutti ridurre la confidenza di rilevamento, sebbene solitamente al costo della qualità dell'immagine.

  1. Metadati dei file C2PA: rimovibile in pochi secondi con qualsiasi editor EXIF, conversione di formato o screenshot; l'assenza di credenziali non prova nulla sull'origine dell'IA
  2. Filigrane della distribuzione dei token di testo: si degradano significativamente con parafrasi pesante (riduzione di circa il 50% nella confidenza di rilevamento riportata in studi accademici); sopravvivono a modifiche leggere e riformulazioni minori
  3. Filigrane a livello di pixel (SynthID): robuste alla compressione JPEG, ridimensionamento, color grading e screenshot; la sconfitta richiede l'elaborazione avversariale che tipicamente degrada la qualità visiva
  4. Attacchi di traduzione su testo: la conversione del testo filigranato in un'altra lingua e viceversa riduce sostanzialmente il segnale della filigrana perché la distribuzione del vocabolario si reimposta
  5. Perturbazione avversariale dei pixel: strumenti specializzati possono indebolire anche le filigrane in stile SynthID, ma l'elaborazione è computazionalmente costosa e spesso introduce artefatti visibili

Cosa manca a un rilevatore di filigrana AI?

Qualsiasi rilevatore di filigrana AI ha un problema di copertura difficile: può solo trovare segnali che sono stati incorporati da sistemi che conosce e che non sono stati successivamente distrutti. Questo crea tre lacune sistematiche che gli utenti che si affidano solo al rilevamento della filigrana incontreranno. La prima lacuna è la copertura del generatore. La maggior parte del testo dell'IA viene generato da modelli – le versioni pubbliche di ChatGPT, Claude, Gemini e altri – che attualmente non incorporano filigrane di testo nei loro output standard. Un rilevatore di filigrana AI progettato attorno all'analisi della distribuzione dei token non segnalerà alcuna filigrana sulla maggior parte del testo generato da IA in libertà, non perché il testo è scritto da umani, ma perché proviene da sistemi che non hanno mai implementato la filigranatura. La seconda lacuna è la lacuna di modifica post-generazione. Anche per i sistemi che filigranano i loro output, qualsiasi modifica sostanziale da parte di un umano in seguito degraderà il segnale della filigrana. Uno studente che chiede a un'IA una bozza e poi riscrive a mano due terzi di essa potrebbe finire con un testo che supera il rilevamento della filigrana – perché i token filigranati sono ora una piccola minoranza in un passaggio più grande. Un rilevatore di filigrana AI che misura la distorsione distributiva nel testo completo vedrà un segnale diluito. Questo non è un difetto nell'approccio di rilevamento; è una lettura accurata del contenuto, che è genuinamente più modificato dall'uomo che generato dall'IA a questo punto. La terza lacuna è il contenuto dell'IA prodotto da modelli che deliberatamente non filigranano gli output. I modelli open source scaricati ed eseguiti localmente – LLaMA, Mistral, Qwen e altri – producono testo e immagini senza filigrane, perché l'utente controlla l'inferenza e la piattaforma non può applicare l'inserimento della filigrana. Qualsiasi contenuto prodotto da questi strumenti non avrà filigrana, indipendentemente da quanta IA è coinvolta. Queste lacune sono il motivo per cui il rilevamento della filigrana dell'IA è più utile come uno strato di un processo di verifica multi-segnale, non come metodo di verifica autonomo.

Come verificare responsabilmente il contenuto dell'IA utilizzando il rilevamento della filigrana

L'uso responsabile di un rilevatore di filigrana AI inizia con la comprensione di cosa lo strumento sta effettivamente rispondendo. Un controllo della filigrana e un controllo dell'origine dell'IA non sono la stessa domanda, e confonderli produce sia falsa fiducia che conclusioni ingiuste. Per la verifica dell'immagine, un flusso di lavoro pratico è il seguente: controllare innanzitutto le credenziali di contenuto C2PA utilizzando un lettore compatibile con C2PA. La maggior parte delle applicazioni fotografiche standard non visualizza i dati C2PA, quindi è necessario uno strumento specificamente progettato per leggerli. Lo strumento web Content Authenticity di Adobe, o qualsiasi visualizzatore consapevole di C2PA, può far emergere queste credenziali quando esistono. Se le credenziali sono presenti e dichiarano la generazione dell'IA, è un risultato positivo forte. Se non vengono trovate credenziali, procedi ai rilevatori di immagini dell'IA a livello di pixel – il passaggio che misura l'aspetto dell'immagine piuttosto che ciò che dice il suo contenitore di file. Per la verifica del testo, i controlli basati sulla filigrana sono attualmente limitati dalla lacuna di adozione descritta sopra. Fino a quando i principali fornitori non implementeranno la filigranatura del testo coerente, l'approccio più affidabile è utilizzare un rilevatore che misuri le proprietà statistiche del testo stesso – perplessità, raffiche e modelli distributivi che differiscono tra la scrittura umana e l'IA – piuttosto che cercare una filigrana deliberatamente incorporata. Questi rilevatori di segnale intrinseco operano indipendentemente dal fatto che il sistema generatore abbia implementato la filigranatura. Quando i risultati della verifica verranno utilizzati per prendere decisioni consequenziali – accademiche, legali, professionali o editoriali – documentare esplicitamente la metodologia. Quale strumento hai utilizzato? Quale versione? Quale risultato ha restituito? La dipendenza da un singolo strumento basato su un controllo della filigrana o un rilevatore statistico non è una pratica migliore per determinazioni ad alto rischio. Il confronto incrociato di almeno due strumenti indipendenti riduce l'impatto del tasso di falsi positivi o falsi negativi di qualsiasi singolo strumento.

  1. Per le immagini, inizia con un lettore compatibile con C2PA per verificare le credenziali di contenuto firmate – le credenziali presenti che dichiarano la generazione dell'IA sono un risultato rapido e definitivo
  2. Tratta le credenziali assenti come neutrali – procedi con il rilevamento di immagini AI a livello di pixel indipendentemente dallo stato dei metadati
  3. Per il testo, utilizza il rilevamento di testo AI statistico (analisi di perplessità/raffiche) come controllo principale – più affidabile del rilevamento della filigrana date le attuali lacune di adozione
  4. Verifica incrociata di almeno due strumenti indipendenti prima di trarre una conclusione in contesti ad alto rischio
  5. Documenta la tua metodologia di verifica: nomi degli strumenti, versioni, risultati e data – questo supporta il processo decisionale difendibile
  6. Applica fiducia proporzionata: un forte positivo in più approcci di rilevamento garantisce una fiducia più elevata rispetto a un risultato borderline da un singolo strumento

Standard della filigrana, adozione e cosa è effettivamente distribuito oggi

Il divario tra ciò che la filigranatura dell'IA può teoricamente realizzare e ciò che è attualmente distribuito nella pratica è sufficientemente significativo da influenzare il modo in cui interpreti i risultati del rilevamento. Sul lato delle immagini, C2PA ha un vero slancio. Adobe Firefly, DALL-E 3 e gli strumenti di immagini AI di Microsoft incorporano tutti per impostazione predefinita le credenziali di contenuto C2PA. L'iniziativa Content Authenticity ha impegni da grandi organizzazioni di notizie, società di piattaforme e produttori di hardware. I produttori di fotocamere tra cui Leica e Sony hanno spedito la firma C2PA a livello di hardware in modo che le foto vengono firmate al momento dell'acquisizione, non dopo il fatto. SynthID è distribuito negli strumenti di generazione di immagini Gemini di Google, Google Imagen, e si è espanso a video e audio. Sul lato del testo, i progressi sono stati più lenti. OpenAI ha esplorato la filigranatura del testo internamente e secondo quanto riferito ha deciso contro l'implementazione nei prodotti consumer, in parte a causa della fragilità delle filigrane di testo sotto parafrasi e della preoccupazione che gli scrittori svantaggiati – non nativi, scrittori con dislessia, coloro che necessitano di strumenti di modifica assistita – potrebbe essere etichettato in modo sproporzionato. Google ha menzionato l'espansione di SynthID al testo in alcuni contesti di ricerca ma non ha reso ampiamente disponibile il rilevamento della filigrana di testo rivolto ai consumatori. Il risultato netto è che un rilevatore di filigrana AI che verifica i segnali C2PA o SynthID acquisirà il contenuto dalle grandi piattaforme commerciali che hanno adottato lo standard e mancherà il contenuto dai modelli open source, dalle piattaforme che non hanno adottato la filigranatura e da qualsiasi contenuto in cui le filigrane sono state rimosse o degradate. Questa è una realtà di copertura, non un fallimento del concetto di filigrana – l'adozione è un processo continuo e gli strumenti distribuiti oggi riflettono il punto in cui l'industria è adesso, non dove questi standard si stanno dirigendo.

"C2PA fornisce la base per un web in cui i media possono portare provenienza verificata – ma il valore si ridimensiona in base al numero di creatori e piattaforme che partecipano." — Content Authenticity Initiative, 2024

Come NotGPT aiuta con la verifica della filigrana AI e dell'origine

NotGPT offre due strumenti di rilevamento rilevanti per la verifica dell'origine dell'IA che complementano gli approcci basati sulla filigrana analizzando le proprietà intrinseche del contenuto piuttosto che fare affidamento esclusivamente sui segnali incorporati. Lo strumento di rilevamento delle immagini AI analizza le immagini caricate a livello di pixel, verificando le caratteristiche visive che distinguono le immagini generate dall'IA dalle fotografie – regolarità della trama, firme del dominio di frequenza e modelli di coerenza semantica. Questa analisi viene eseguita indipendentemente dal fatto che una filigrana sia presente o sia stata rimossa, rendendola efficace per le immagini dalle piattaforme che non hanno mai incorporato filigrane e per le immagini in cui i metadati sono stati rimossi. Lo strumento di rilevamento del testo AI misura la perplessità, le raffiche e i modelli distributivi nel testo inviato per stimare la probabilità che il passaggio sia stato generato dall'IA. Questo è l'approccio che colma il divario di adozione nella filigranatura del testo: anziché cercare un segnale che solo alcuni generatori incorporano, legge le impronte digitali statistiche che tutti gli attuali LLM lasciano nei loro output in gradi variabili. L'utilizzo di NotGPT insieme a un controllo della filigrana dedicato – in particolare un lettore C2PA per le immagini – ti fornisce sia il segnale di provenienza (quando esiste) che il segnale intrinseco (che esiste indipendentemente dal fatto che la filigranatura sia stata utilizzata). Nessuno dei due approcci da solo copre il problema completo della verifica; insieme, affrontano sostanzialmente più della superficie di rilevamento.

Rileva Contenuti AI con NotGPT

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Rileva istantaneamente testo e immagini generati dall'AI. Umanizza i tuoi contenuti con un tocco.

Articoli Correlati

Capacità di Rilevamento

🔍

Rilevamento testo AI

Incolla qualsiasi testo e ricevi un punteggio di probabilità di somiglianza AI con sezioni evidenziate.

🖼️

Rilevamento immagine AI

Carica un'immagine per rilevare se è stata generata da strumenti di IA come DALL-E o Midjourney.

✍️

Humanize

Riscrivi il testo generato dall'IA per farlo suonare naturale. Scegli intensità Light, Medium o Strong.

Casi d'Uso