guidedeepfakesai-detection

Tecniche di Rilevamento Deepfake: Una Guida Pratica per Identificare Media Sintetici

Pubblicato il 2026-06-25· 9 min read· NotGPT Team

Le tecniche di rilevamento deepfake sono diventate conoscenza essenziale per giornalisti, ricercatori di sicurezza, educatori e chiunque sia responsabile della verifica di media digitali. I deepfake — video e immagini sintetizzati dall'IA che sostituiscono o manipolano il viso, la voce o il corpo di una persona reale — hanno raggiunto un livello di qualità in cui l'ispezione casuale non li identifica più in modo affidabile. Questa guida copre i metodi principali utilizzati per esporre media sintetici: analisi di artefatti visivi, ispezione nel dominio della frequenza, controlli di coerenza temporale, analisi di segnali biometrici, verifica di metadati e provenienza, e test di sincronizzazione audio-video.

Sommario

01Cosa Rende un Deepfake Diverso da Media Genuino?
02Analisi di Artefatti Visivi: Il Segnale di Rilevamento Più Diretto
03Come l'Analisi nel Dominio della Frequenza Espone i Deepfake?
04Cosa Rivela l'Analisi della Coerenza Temporale?
05Rilevamento di Segnali Biometrici e Fisiologici
06Possono i Metadati e la Provenienza del Contenuto Aiutare a Rilevare i Deepfake?
07Sincronizzazione Audio-Video come Livello di Rilevamento
08Come Dovrebbe Combinare Queste Tecniche nella Pratica?
09Dove si Adattano gli Strumenti di Rilevamento Automatico in un Flusso di Lavoro Deepfake?

Cosa Rende un Deepfake Diverso da Media Genuino?

Un deepfake differisce da un video genuino o da un'immagine in modi spesso invisibili a velocità di riproduzione normale ma statisticamente rilevabili a livello di pixel. La maggior parte dei deepfake sono prodotti da reti generative avversariali (GAN) o modelli di face-swap basati su diffusione che sostituiscono o sintetizzano la regione facciale di una persona e la sovrappongono a un corpo o sfondo esistente. Il processo di generazione introduce due categorie di errori: artefatti locali all'interno della regione facciale sintetizzata e incoerenze globali tra il viso sintetico e il suo contesto circostante. Capire a quale categoria appartiene un segnale è importante perché diverse tecniche di rilevamento deepfake si concentrano su diversi tipi di errori — un classificatore ottimizzato per le impronte digitali di frequenza GAN funziona diversamente su contenuto generato da diffusione rispetto agli output tradizionali di face-swap, e viceversa. La sfida del rilevamento è cambiata nel tempo: i generatori più capaci soppressionano sempre più gli artefatti ovvi che rendevano facili da individuare i deepfake più vecchi, motivo per cui il campo si è spostato verso un'analisi multi-segnale piuttosto che affidarsi a una singola tecnica.

Analisi di Artefatti Visivi: Il Segnale di Rilevamento Più Diretto

Ispezionare un'immagine o un fotogramma video sospetto per artefatti visivi è il punto di partenza per la revisione manuale del deepfake. Gli artefatti che sopravvivono più comunemente alle pipeline di generazione moderna rientrano in categorie prevedibili legate ai modi di fallimento specifici dei modelli di sintesi. Esaminare un fotogramma a zoom 200-400% mentre si controllano sistematicamente le seguenti regioni cattura la maggior parte degli artefatti presenti nei deepfake di generazione attuale.

Fusione del confine facciale — La cucitura dove un viso sintetizzato incontra il collo originale, le orecchie e l'attaccatura dei capelli è l'artefatto visibile più comune nei deepfake di face-swap. Cercare sfumature di colore, bordi morbidi o effetti alone intorno alla mandibola e alle tempie che non corrispondono alla nitidezza della pelle e dei capelli circostanti.
Incoerenze nella regione oculare — I generatori spesso rendono l'iride, la sclera e il bordo della palpebra con fedeltà inferiore rispetto al resto del viso. I segni includono alunni che non sono rotondi o simmetrici, trame dell'iride che si ripetono in modo identico in entrambi gli occhi e riflessi corneali che non corrispondono alle fonti di luce visibili altrove nel fotogramma.
Artefatti dei denti e della bocca — I dettagli dell'interno della bocca sono tra le regioni più difficili che i modelli di sintesi possono rendere in modo convincente. I denti possono fondersi in una singola superficie piatta senza spazi visibili, le linee gengivali possono essere sfocate e la trama della lingua spesso manca della lucentezza visibile nella fotografia ravvicinata genuina.
Regolarità della trama della pelle — La pelle sintetizzata dall'IA tende ad essere più uniforme della pelle reale ad alto ingrandimento. I volti reali mostrano micro-variazioni nella distribuzione dei pori, nella lucentezza della superficie e nella copertura di peli fini che i generatori attuali riproducono in modo incoerente. Confrontare la trama della fronte con la mandibola a zoom completo.
Rendering dei fili di capelli — I singoli fili nell'attaccatura dei capelli e intorno ai ricci sciolti sono computazionalmente costosi da generare correttamente. I deepfake spesso mostrano attaccature che sfumano nello sfondo piuttosto che separarsi in modo netto, e i singoli capelli vicino alla fronte possono sembrare fondersi o fluttuare innaturalmente.
Distorsione della geometria dello sfondo — Le sovrapposizioni di volti sintetici possono distorcere linee rette nello sfondo vicino al confine facciale. I telai delle porte, gli scaffali o i bordi dei muri potrebbero mostrare pieghe o discontinuità sottili nel punto in cui la regione del viso è stata composta sopra il fotogramma originale.

Come l'Analisi nel Dominio della Frequenza Espone i Deepfake?

L'analisi nel dominio della frequenza opera sulla rappresentazione matematica di un'immagine piuttosto che sul suo aspetto visivo, rendendola sensibile agli artefatti che sono invisibili all'ispezione casuale. Ogni immagine può essere scomposta in uno spettro di frequenze spaziali usando una trasformata di Fourier discreta o una tecnica simile. I generatori basati su GAN producono un motivo a scacchiera distintivo nei componenti ad alta frequenza di un'immagine. Questo artefatto ha origine dal processo di upsampling all'interno della rete del generatore — specificamente dalle convoluzioni trasposte che producono picchi spettrali ripetuti a intervalli prevedibili. Questi picchi non sono visibili nel dominio spaziale alla risoluzione di visualizzazione normale, ma appaiono chiaramente quando lo spettro di frequenza viene visualizzato, e i classificatori automatici possono rilevarli indipendentemente dal contenuto dell'immagine. I generatori basati su diffusione, come quelli che alimentano Midjourney e Stable Diffusion, producono una firma spettrale diversa. Il processo di denoising introduce levigatura caratteristica nelle bande di frequenza media che distingue gli output della diffusione dalle fotografie con complessità visiva simile. Questa distinzione è importante per le tecniche di rilevamento deepfake: un classificatore addestrato principalmente sulle impronte digitali GAN potrebbe mostrare una precisione significativamente ridotta su contenuto generato da diffusione. L'analisi nel dominio della frequenza abilita anche il rilevamento di artefatti di splicing nelle immagini composite, dove il profilo spettrale di una regione facciale incollata non corrisponde alle caratteristiche spettrali della fotografia di sfondo su cui è stata composta.

"Uno spettro di frequenza che dovrebbe mostrare rumore del sensore della fotocamera mostra invece picchi strutturati ripetuti a intervalli regolari — quella è la firma del generatore, non quella del fotografo." — Ricercatore di forensica dei media digitali, 2024

Cosa Rivela l'Analisi della Coerenza Temporale?

I deepfake video introducono una classe di artefatti che le immagini statiche non hanno: incoerenze temporali tra i fotogrammi. La testa, il viso e il corpo di una persona in una registrazione genuina si muovono continuamente nello spazio con vincoli fisiologici — il viso che appare nel fotogramma 47 deve connettersi geometricamente e spettralmente ai volti nei fotogrammi 46 e 48. Le tecniche di rilevamento deepfake che operano su più fotogrammi piuttosto che su singole immagini sfruttano la difficoltà del generatore nel mantenere questa coerenza. I modelli di lampeggio fisiologico forniscono un segnale temporale ben studiato. Gli umani lampeggiano in media 15-20 volte al minuto, con ogni lampeggio che segue un profilo di velocità caratteristico: la palpebra si chiude più velocemente di quanto si apra, e entrambe le transizioni seguono una curva approssimativamente sinusoidale. I generatori deepfake iniziali hanno completamente soppresso il lampeggio perché i dati di addestramento erano prevalentemente composti da immagini a viso pieno con occhi aperti. I generatori moderni hanno in gran parte corretto questo, ma le irregolarità nella tempistica del lampeggio e la dinamica asimmetrica del lampeggio tra l'occhio sinistro e destro rimangono marcatori degni di controllo in casi borderline. La coerenza della posa della testa offre un secondo segnale temporale. Il viso in un deepfake è tipicamente generato vicino alla posa frontale e composto sui movimenti della testa della persona target. Quando la persona target si gira bruscamente o si inclina in angoli che espongono caratteristiche del profilo, i modelli di sintesi spesso faticano a mantenere la coerenza visiva — generando volti che si appiattiscono, perdono risoluzione o si distorcono sottilmente quando la testa si muove al di fuori di un inviluppo di visualizzazione frontale. L'analisi della sincronizzazione labiale confronta la forma del labbro, la larghezza dell'apertura e la posizione della lingua rispetto alla traccia audio a livello di fonema. Gli offset temporali superiori a circa 80 millisecondi registrano come disallineamenti statisticamente significativi rispetto alle registrazioni genuine. I strumenti specializzati di rilevamento deepfake ingeriscono sia flussi audio che video e contrassegnano i fotogrammi in cui la configurazione della bocca non corrisponde al suono prodotto.

Rilevamento di Segnali Biometrici e Fisiologici

Oltre alla geometria e al colore, il corpo umano produce segnali fisiologici che i modelli di sintesi attuali riproducono in modo impreciso o per niente. Questi segnali sono incorporati nelle registrazioni video genuine dal processo di acquisizione fisica ma sono assenti o sintetizzati incorrettamente nel contenuto generato dall'IA. La fotopletismografia remota (rPPG) è una delle tecniche di rilevamento deepfake più significative dal punto di vista operativo in questa categoria. Il video reale di un volto umano contiene sottili variazioni di colore ritmiche nella pelle causate da cambiamenti nel volume del sangue corrispondenti al battito cardiaco. Queste oscillazioni hanno un intervallo di ampiezza microsecondo e sono invisibili all'occhio nudo, ma presenti e misurabili nei dati della serie temporale dei pixel dalle regioni della pelle facciale. I generatori deepfake, che si ottimizzano per il realismo spaziale piuttosto che per l'accuratezza fisiologica temporale, non riproducono il segnale di battito cardiaco corretto. I rilevatori che applicano l'analisi rPPG confrontano il segnale estratto da un viso sospetto rispetto alle caratteristiche della frequenza cardiaca previste e contrassegnano il contenuto in cui nessun ciclo fisiologico coerente è presente. Le unità d'azione facciale forniscono un segnale complementare. Il sistema di codifica dell'azione facciale (FACS) definisce l'insieme dei movimenti muscolari che collettivamente producono espressioni facciali umane. Le espressioni reali seguono vincoli motori — il grado in cui i muscoli possono contrarsi, la velocità di attivazione e i modelli in cui più unità d'azione si verificano insieme sono limitati dall'anatomia. I classificatori di deep learning addestrati su dati FACS possono contrassegnare espressioni che superano i range di plausibilità anatomica o che mostrano combinazioni di unità d'azione che non si verificano nelle espressioni facciali umane naturali.

"Il battito cardiaco è nel video che tu possa vederlo o meno. In un viso reale, i pixel respirano. In un deepfake, in genere non lo fanno." — Ricercatore di rilevamento rPPG, 2023

Possono i Metadati e la Provenienza del Contenuto Aiutare a Rilevare i Deepfake?

Gli artefatti tecnici nel file immagine o video stesso — separati dal contenuto visivo e temporale — forniscono una terza categoria di tecniche di rilevamento deepfake che operano indipendentemente dalla qualità visiva. L'ispezione dei metadati è il punto di partenza più veloce e a basso costo. Le fotografie genuine da smartphone e fotocamere digitali contengono dati EXIF inclusi marca e modello del dispositivo, timestamp di acquisizione, coordinate GPS e impostazioni di apertura. Le immagini generate dall'IA in genere non contengono dati EXIF incorporati, o contengono metadati che sono stati aggiunti manualmente in un secondo momento e mancano dei campi specifici del sensore che le fotocamere scrivono automaticamente. I record EXIF mancanti o incompleti non confermano che un'immagine è sintetica — gli screenshot e i caricamenti della piattaforma spesso spogliano i metadati — ma spostano l'ipotesi precedente verso la necessità di un esame più approfondito. I framework di provenienza del contenuto offrono l'approccio più sistematico. La Coalition for Content Provenance and Authenticity (C2PA) ha sviluppato uno standard aperto che lega crittograficamente i metadati di acquisizione ai file multimediali al momento della creazione. Uno strumento fotocamera o software conforme a C2PA scrive un manifesto firmato contenente informazioni su come è stato creato, modificato e pubblicato il contenuto. Un revisore che controlla un file firmato C2PA può verificare la catena di custodia dall'acquisizione alla distribuzione. La limitazione è l'adozione: le protezioni C2PA si applicano solo al contenuto prodotto con strumenti conformi, e la maggior parte dei social media elimina il manifesto al caricamento. SynthID, sviluppato da Google DeepMind, adotta un approccio complementare contrassegnando immagini e audio generati dall'IA al momento della generazione con modelli progettati per sopravvivere alla post-elaborazione moderata — sebbene il rilevamento richieda l'accesso al sistema di verifica di Google e si applica solo al contenuto dai loro strumenti.

Controllare i metadati EXIF utilizzando ExifTool o uno spettatore EXIF online. Annotare la marca della fotocamera specifica, il modello e il timestamp rispetto all'assenza di questi campi, o la presenza solo di campi generici aggiunti dal software che le fotocamere non scrivono.
Verificare le credenziali del contenuto C2PA su contentcredentials.org/verify se il file è stato prodotto da una fotocamera o applicazione conforme. Esaminare il manifesto firmato per la cronologia di creazione e modifica.
Esaminare i metadati del contenitore di file nei file video MP4 e MOV — i parametri di codifica, la casella 'ftyp' e le informazioni del muxer spesso differiscono tra l'output del firmware della fotocamera e le pipeline di generazione sintetica.
Correferenza dei timestamp di caricamento — se un video sostiene di documentare un evento specifico in tempo reale, controllare se i timestamp dei metadati e i tempi di modifica dei file si allineano con il periodo di registrazione dichiarato.
Controllare la coerenza del profilo di codifica — il firmware della fotocamera professionale produce impostazioni codec specifiche, modelli di bitrate e intervalli di fotogrammi chiave. Gli strumenti di generazione di video sintetici potrebbero utilizzare profili di codifica predefiniti o insoliti incoerenti con il dispositivo di acquisizione dichiarato.

Sincronizzazione Audio-Video come Livello di Rilevamento

I deepfake video che sostituiscono il viso di una persona ma mantengono l'audio originale — o sostituiscono l'audio mentre mantengono il viso — creano incoerenze verificabili tra i due flussi. Controllare l'allineamento audio-video è una tecnica di rilevamento affidabile per il contenuto in cui lo scopo è far sembrare a una persona reale di dire qualcosa che non ha detto. L'abbinamento fonema-visema è la tecnica fondamentale. Ogni suono del linguaggio (fonema) produce una forma della bocca visibile caratteristica (visema): una consonante bilabiale come 'b' o 'p' richiede una chiusura labbra stretta, mentre una vocale come 'oh' richiede una configurazione aperta arrotondata. Gli strumenti di rilevamento estraggono previsioni di fonema dalla traccia audio e previsioni di visema dai fotogrammi video, quindi misurano l'allineamento con risoluzione al millisecondo. Gli offset superiori a circa 80 millisecondi — sotto la percezione conscia per la maggior parte degli ascoltatori — registrano come disallineamenti statisticamente significativi rispetto alle registrazioni genuine. L'analisi della coerenza voce-viso confronta le caratteristiche della voce dell'oratore rispetto alle caratteristiche fisiche del viso visibile. L'età dell'oratore, il genere e la struttura fisica lasciano segnali correlati nella voce (attraverso risonanza, frequenza fondamentale e lunghezza del tratto vocale) e nel viso (attraverso struttura ossea e area labiale). Una voce che non corrisponde alle caratteristiche fisiche del viso a cui è attribuita è un secondo segnale, in particolare nel contenuto in cui la voce non può essere verificata rispetto alle registrazioni di riferimento conosciute. Il suono ambientale di sfondo fornisce un'ulteriore opportunità di cross-referenziazione. Le registrazioni esterne genuine in genere contengono rumore ambientale coerente con l'ambiente visivo — rumore stradale, vento, suono della folla con riverbero appropriato per lo spazio. L'audio che è stato affettato o sintetizzato potrebbe avere caratteristiche di riverbero incoerenti con l'ambiente visivo visibile nel fotogramma.

Come Dovrebbe Combinare Queste Tecniche nella Pratica?

Nessuna singola tecnica di rilevamento deepfake è affidabile su tutti i metodi di generazione, i livelli di qualità e le condizioni di post-elaborazione. Un deepfake che passa l'analisi nel dominio della frequenza potrebbe comunque mostrare artefatti di confine facciale; uno che passa l'ispezione visiva potrebbe fallire l'analisi di allineamento audio-video. L'approccio pratico è una revisione stratificata che applica più segnali indipendenti prima di formare un giudizio — l'approccio che i fact-checker professionali e i laboratori di forensica digitale utilizzano quando valutano media contestati. I risultati convergenti da più segnali indipendenti portano sostanzialmente più peso probatorio rispetto a qualsiasi singolo risultato positivo.

Iniziare con l'ispezione di artefatti visivi statici. Mettere in pausa il video in un momento in cui il volto del soggetto è quasi frontale e ingrandire a 200-400%. Controllare sistematicamente le regioni di confine, l'area degli occhi, l'interno della bocca e l'attaccatura dei capelli prima di passare all'analisi dinamica.
Eseguire l'analisi nel dominio della frequenza su fotogrammi chiave. Cercare picchi strutturati a intervalli regolari che indicano un generatore basato su GAN, o levigatura insolita nelle bande di frequenza media che punta verso generazione basata su diffusione.
Procedere attraverso il video a velocità 0,25× e controllare la coerenza temporale durante giri della testa, lampeggi e movimenti rapidi. Queste transizioni espongono i fallimenti della generazione che sono invisibili a velocità di riproduzione normale.
Controllare l'allineamento audio-video in una regione di linguaggio chiaro. Ascoltare gli offset temporali tra audio e movimenti delle labbra e verificare che la configurazione della bocca visibile corrisponda ai fonemi nella traccia audio.
Ispezionare i metadati dei file. Notare se i campi EXIF corrispondono al dispositivo di acquisizione e al timestamp dichiarati, e controllare le credenziali del contenuto C2PA se il canale di distribuzione le supporta.
Eseguire l'immagine o il video attraverso uno strumento automatico di rilevamento dell'IA — come NotGPT per le immagini — come segnale supplementare. Gli strumenti automatici catturano modelli che i revisori umani perdono a velocità di ispezione normale ma generano anche falsi positivi e potrebbero non coprire tecniche di generazione novel.
Consolidare i segnali da tutti i livelli. Una singola anomalia in una dimensione garantisce un ulteriore esame. Le anomalie convergenti in dimensioni indipendenti — artefatti visivi, metadati mancanti e offset temporale di sincronizzazione audio-video — costituiscono prove sostanzialmente più forti dell'origine sintetica.

Dove si Adattano gli Strumenti di Rilevamento Automatico in un Flusso di Lavoro Deepfake?

Gli strumenti automatici di rilevamento di immagini e video AI applicano molte delle tecniche descritte sopra simultaneamente e restituiscono un punteggio di probabilità senza richiedere al revisore di procedere manualmente attraverso ogni segnale. Questo li rende veloci e utili per il triage iniziale — in particolare per i deepfake basati su immagini, dove i classificatori automatici hanno raggiunto una precisione nell'intervallo 85-92% su set di dati di benchmark in condizioni favorevoli. La limitazione pratica degli strumenti automatici è il degrado della precisione con la post-elaborazione. Un'immagine che è stata sottoposta a una pipeline di compressione dei social media, riscreenshotted o sottoposta a filtri pesanti perde una parte dei segnali di frequenza e artefatti su cui i classificatori dipendono. Più trasformazioni un'immagine o un video ha subito, meno in modo affidabile qualsiasi strumento attuale la identifica come sintetica. Gli strumenti automatici sono anche soggetti a lacune di precisione quando un nuovo modello di generatore viene rilasciato. I classificatori di rilevamento sono addestrati su generatori come esistevano durante la raccolta dei dati di addestramento. Quando un generatore principale rilascia una nuova versione del modello con caratteristiche visive diverse, i classificatori addestrati su output precedenti in genere mostrano una precisione ridotta fino a quando il loro stesso addestramento non viene aggiornato — un divario ricorrente in tutta la categoria. L'implicazione pratica è che gli strumenti automatici e l'analisi umana sono complementari piuttosto che sostituibili. Il rilevamento automatico gestisce il volume e cattura modelli invisibili all'ispezione casuale; l'analisi umana applica la conoscenza del dominio sulla fonte dichiarata e effettua la determinazione finale nei casi ad alto rischio.

Rileva Contenuti AI con NotGPT

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

↓Humanize↓

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Rileva istantaneamente testo e immagini generati dall'AI. Umanizza i tuoi contenuti con un tocco.

Scarica su App Store Scarica su Google Play

Capacità di Rilevamento

🔍

Rilevamento Testo AI

Incolla qualsiasi testo e ricevi un punteggio di probabilità di somiglianza con l'IA con sezioni evidenziate.

🖼️

Rilevamento Immagine AI

Carica un'immagine per rilevare se è stata generata da strumenti AI come DALL-E o Midjourney.

✍️

Umanizza

Riscrivi il testo generato dall'IA in modo che suoni naturale. Scegli l'intensità Leggera, Media o Forte.

Casi d'Uso

Giornalisti che verificano filmati video prima della pubblicazione

Le redazioni utilizzano tecniche di rilevamento deepfake stratificate — ispezione di artefatti visivi, controlli di metadati e analisi di allineamento audio-video — come primo passo di triage prima di basare la reportistica su filmati potenzialmente sintetici.

Fact-checker che valutano video politici virali

Le organizzazioni di fact-checking applicano l'analisi nel dominio della frequenza e la revisione della coerenza temporale a video politici ad alto rischio condivisi sui social media, dove i contenuti fabbricati possono diffondersi rapidamente prima che la revisione umana li catturi.

Team di sicurezza che monitorano deepfake di usurpazione di identità di dirigenti

I team di sicurezza aziendale utilizzano l'analisi di segnali biometrici e i controlli di allineamento audio-video per valutare se un video di un dirigente che richiede un trasferimento di fondi corrisponde al profilo fisiologico della persona che sostiene di rappresentare.

Torna al Blog