Skip to main content
ai-detectionguidechatgptinformational

Rilevatore di filigrana ChatGPT: ciò che misura e ciò che manca

· 8 min read· NotGPT Team

Un rilevatore di filigrana ChatGPT è uno strumento progettato per determinare se un testo è stato prodotto da ChatGPT di OpenAI, ma l'etichetta è spesso fuorviante, perché ChatGPT attualmente non incorpora filigrane nel testo che genera per gli utenti standard. OpenAI ha sviluppato e testato internamente un sistema di filigrana basato sulla distribuzione dei token, ma non lo ha implementato nel prodotto consumer. Quello che la maggior parte degli strumenti commercializzati come rilevatore di filigrana ChatGPT misura sono effettivamente le impronte statistiche che il modello linguistico di ChatGPT lascia attraverso il modo in cui seleziona le parole, non un segnale incorporato, ma uno schema distributivo misurabile. Comprendere la differenza tra la rilevazione genuina della filigrana e la rilevazione statistica del testo generato dall'intelligenza artificiale è essenziale per interpretare qualsiasi risultato e sapere quanto peso può avere.

Cos'è un rilevatore di filigrana ChatGPT?

Il termine copre due tecnologie significativamente diverse che sono state combinate in un'unica etichetta nei risultati di ricerca e nel marketing dei prodotti. Nel senso stretto, un rilevatore di filigrana ChatGPT è uno strumento che cerca i segnali deliberatamente incorporati nel testo al momento della generazione, segnali che non sono presenti a meno che il sistema di generazione non li abbia specificamente inseriti. Affinché questo funzioni, ChatGPT dovrebbe prima filigranare i suoi output, cosa che non fa per impostazione predefinita per nessuna interfaccia disponibile pubblicamente. Nel senso più ampio e colloquiale che la maggior parte delle persone intende quando cerca un rilevatore di filigrana ChatGPT, l'obiettivo è semplicemente determinare se un pezzo di testo è stato scritto da ChatGPT. Gli strumenti che appaiono nei risultati di ricerca sotto questa etichetta sono quasi universalmente rilevatori statistici di testo generato dall'intelligenza artificiale, strumenti che misurano proprietà come la prevedibilità del testo, la variazione della lunghezza delle frasi e la distribuzione del vocabolario per stimare la probabilità che un passaggio sia stato generato da una macchina. Questi approcci statistici producono una stima di probabilità, non un verdetto binario, e funzionano leggendo i modelli inerenti al modo in cui i grandi modelli linguistici generano testo piuttosto che rilevando qualsiasi segnale che OpenAI ha intenzionalmente incorporato. La distinzione è importante perché i due approcci hanno diversi punti di forza, diverse modalità di errore e diverse implicazioni quando un risultato è positivo o negativo.

  1. Gli strumenti etichettati come rilevatore di filigrana ChatGPT sono quasi sempre rilevatori statistici di testo generato dall'intelligenza artificiale, non strumenti che trovano segnali incorporati
  2. I rilevatori statistici misurano la perplessità (quanto è prevedibile il testo) e la raffica (quanto varia la complessità delle frasi)
  3. La vera rilevazione della filigrana richiede che il sistema di generazione abbia incorporato un segnale rilevabile durante l'output, cosa che ChatGPT non fa per impostazione predefinita
  4. La rilevazione statistica può produrre falsi positivi nel testo scritto da umani; un vero rilevatore di filigrana (quando la filigrana esiste) non può contrassegnare falsamente il testo che non contiene alcun segnale incorporato

ChatGPT filigrana i suoi output di testo?

Per la stragrande maggioranza degli utenti, la risposta è no. Gli output standard di ChatGPT, che provengano dall'app web consumer, dall'app iOS o Android o dall'API standard, non contengono una filigrana di testo. OpenAI ha confermato pubblicamente di aver esplorato la filigrana del testo e ha assunto Scott Aaronson, un importante scienziato informatico teorico, in parte per ricercare la filigrana dell'output dell'intelligenza artificiale. Aaronson ha pubblicato post di blog nel 2022 descrivendo un approccio crittografico che funziona influenzando quali token il modello campiona durante la generazione, creando una distorsione statisticamente rilevabile in un lungo passaggio. Nonostante questa ricerca, OpenAI ha scelto di non implementare la filigrana del testo nei suoi prodotti consumer. Più rapporti hanno attribuito questa decisione in parte a preoccupazioni di equità: le filigrane del testo basate sulla distribuzione dei token possono degradarsi quando gli utenti apportano modifiche al testo generato, e c'era preoccupazione che i non madrelingua inglesi, gli studenti che utilizzano strumenti di correzione grammaticale e gli scrittori con disabilità che si affidano a assistenza per la modifica sarebbero stati colpiti in modo sproporzionato. Un utente che prende una bozza di ChatGPT e la sottopone a uno strumento di controllo grammaticale o di parafrasi potrebbe finire con un testo che non supera il rilevamento della filigrana mentre un output AI originale non modificato passerebbe, un problema di equità con conseguenze reali in ambienti accademici e professionali. La conseguenza pratica di questa decisione di implementazione è che un rilevatore di filigrana ChatGPT basato su un segnale incorporato non troverà nulla nell'output standard di ChatGPT. Non perché il testo è scritto da un umano, ma perché nessuna filigrana esiste da trovare.

  1. Lo standard ChatGPT (app consumer e API) non incorpora filigrane nel testo generato a partire dall'implementazione attuale
  2. OpenAI ha ricercato la filigrana basata sulla distribuzione dei token con Scott Aaronson ma ha deciso contro l'implementazione nei prodotti consumer
  3. Le preoccupazioni per l'equità nei confronti dei non madrelingua e degli utenti di strumenti di modifica e grammatica hanno contribuito alla decisione contro l'implementazione
  4. Le implementazioni API enterprise o personalizzate che utilizzano modelli OpenAI potrebbero teoricamente abilitare la filigrana a seconda della configurazione, ma questo non è l'impostazione predefinita e non è documentato pubblicamente
  5. L'assenza di una filigrana nel testo ChatGPT standard significa che il rilevamento statistico è l'unico approccio praticamente disponibile per la maggior parte degli utenti

Cosa ha effettivamente scoperto la ricerca interna sulla filigrana di OpenAI?

L'approccio tecnico che OpenAI ha esplorato, e che Aaronson ha descritto pubblicamente nel 2022, è una versione del metodo di filigrana con lista verde/lista rossa che si era sviluppato nella ricerca accademica. Il meccanismo funziona così: prima di generare ogni token, il modello applica una funzione hash pseudocasuale al recente contesto del token, producendo una partizione del vocabolario in un insieme "verde" e un insieme "rosso" per quella posizione nella sequenza. Durante il campionamento, il modello è distorto per favorire i token nell'insieme verde. In tutta una sequenza di diverse centinaia di token, questo crea uno squilibrio statisticamente rilevabile: il testo filigranato mostrerà una proporzione più alta di token della lista verde di quanto ci si aspetterebbe per caso in un passaggio non filigranato. Un rilevatore che contiene la stessa funzione hash può quindi valutare qualsiasi testo candidato misurando la sua frequenza di token verdi e confrontandola con la base di riferimento prevista per l'output non filigranato. Il testo che punteggia significativamente al di sopra di quella base di riferimento è probabilmente filigranato; il testo vicino alla base di riferimento probabilmente non lo è. Aaronson ha confermato nella scrittura pubblica che l'approccio può raggiungere una rilevazione affidabile in passaggi sufficientemente lunghi con bassi tassi di falsi positivi in condizioni normali. La debolezza documentata del metodo è la robustezza alla parafrasi. Un'analisi del 2023 dell'Università del Maryland ha scoperto che la parafrasi sistematica, il cambio di circa un terzo delle parole in un passaggio mantenendo il significato, ha ridotto l'accuratezza del rilevamento da quasi certa a solo leggermente superiore al caso per alcune configurazioni di filigrana. Una preoccupazione separata, notata nella discussione accademica, è che un avversario determinato che conosce la funzione hash della lista verde potrebbe deliberatamente distorcere il suo testo lontano dai token verdi per falsamente eludere il rilevamento. Questi problemi di robustezza e contraddittori, combinati con le preoccupazioni di equità intorno al testo AI leggermente modificato, hanno contribuito alla decisione di OpenAI di non implementare il sistema.

"L'idea di base è generare un 'elenco rosso' di token casualizzato e scoraggiare leggermente l'uso di token della lista rossa di una quantità piccola e regolabile. Dopo la generazione, un rilevatore di filigrana verifica se il testo utilizza una frazione insolitamente piccola di token della lista rossa." — Scott Aaronson, 2022

Come identificano il testo ChatGPT i rilevatori statistici senza filigrana?

Quando non esiste una filigrana incorporata, un rilevatore di filigrana ChatGPT ricorre alla misurazione delle proprietà statistiche intrinseche che differiscono tra il testo scritto da umani e il testo generato da grandi modelli linguistici. Due metriche dominano la metodologia attuale. La perplessità misura quanto sorprendente è il testo rispetto a quello che un modello linguistico prevederebbe: il testo genuinamente scritto da umani tende a ottenere un punteggio più alto sulla perplessità perché gli umani fanno scelte di parole non convenzionali, prendono piega inaspettate nel ragionamento e seguono modelli stilistici idiosincratici. Il testo generato dall'intelligenza artificiale, in particolare da GPT-4, che è addestrato per produrre un output fluido e coerente, tende a selezionare continuazioni più prevedibili ad ogni passaggio, ottenendo una perplessità media inferiore. La raffica misura quanto varia il testo nella complessità delle frasi nel passaggio: gli umani naturalmente alternano tra frasi brevi e dirette e costruzioni lunghe e coinvolte in ritmi che l'analisi statistica può identificare. Gli output di GPT-4 in genere mostrano una raffica inferiore, producendo un registro di lunghezza di frase più coerentemente moderato della maggior parte della scrittura umana. Al di là di questi due metriche primarie, gli output di ChatGPT mostrano anche preferenze di vocabolario caratteristiche. Il modello utilizza determinate frasi di transizione, costruzioni di copertura e modelli strutturali a frequenze che differiscono dalla tipica scrittura umana quando misurate in un corpus. Questi singoli segnali sono probabilistici: nessuna proprietà singola identifica definitivamente il testo di ChatGPT, ma combinati in tutta una sequenza di diverse centinaia di parole, producono una stima di probabilità che i rilevatori attuali possono calcolare con accuratezza significativa su campioni di testo più lunghi. La limitazione fondamentale è che questi stessi segnali appaiono anche nella scrittura umana: alcuni scrittori naturalmente producono prosa a bassa perplessità e bassa raffica che i rilevatori contrassegnano, e un rilevatore che non tiene conto della variazione della scrittura individuale produrrà falsi positivi in quella scrittura.

Una filigrana di testo ChatGPT può essere bypassata?

Poiché gli output standard di ChatGPT non contengono alcuna filigrana incorporata, la domanda pratica su come bypassare un rilevatore di filigrana ChatGPT è davvero una domanda su come sconfiggere il rilevamento statistico, non il rilevamento della filigrana. Il metodo più affidabile è anche il più laborioso: una riscrittura sostanziale. Un passaggio che è stato pesantemente parafrasato, con una significativa ristrutturazione delle frasi, sostituzione del vocabolario e riorganizzazione del flusso logico, otterrà un punteggio diverso sulla perplessità e la raffica perché la modifica umana genuinamente cambia le proprietà statistiche del testo. La ricerca ha scoperto che parafrasare abbastanza il passaggio generato da GPT per ridurre sostanzialmente la fiducia nel rilevamento in genere richiede di cambiare almeno il 30-40% delle parole, il che è uno sforzo significativo piuttosto che un workaround banale. Gli strumenti automatizzati di umanizzazione, software che riscrive il testo dell'intelligenza artificiale specificamente per ridurre i punteggi del rilevatore, funzionano applicando automaticamente la parafrasi. La loro efficacia varia considerevolmente a seconda di quale rilevatore vengono valutati, e gli output di strumenti di umanizzazione possono diventare essi stessi rilevabili quando analizzati per i modelli caratteristici della leggera parafrasi della macchina, che sono diversi ma non estranei ai modelli della generazione di intelligenza artificiale originale. Un punto più fondamentale su questa strutturazione: se un rilevatore di filigrana chatgpt non riesce a distinguere in modo affidabile il testo di intelligenza artificiale pesantemente modificato dalla scrittura umana originale, questo è probabilmente un risultato corretto piuttosto che un fallimento. Il testo che è stato sostanzialmente riscritto da un umano è, in un senso significativo, più scritto da umani dell'output AI originale. La fiducia decrescente del sistema di rilevamento tiene appropriatamente traccia della composizione effettiva del contenuto, un miscuglio di generazione AI e revisione umana che non appartiene alla stessa categoria dell'output AI non modificato.

  1. La parafrasi sistematica (cambio del vocabolario del 30%+ e della struttura della frase) riduce significativamente la fiducia nel rilevamento statistico, ma richiede uno sforzo di riscrittura genuino
  2. Gli strumenti automatizzati di umanizzazione applicano la parafrasi su larga scala ma variano notevolmente nell'efficacia e possono introdurre i loro propri modelli rilevabili
  3. La traduzione in un'altra lingua e di ritorno degrada i segnali statistici ma introduce anche artefatti di traduzione che potrebbero essere identificabili con altri mezzi
  4. Mescolare sezioni generate dall'intelligenza artificiale con testo originale scritto da umani diluisce il segnale proporzionalmente: i rilevatori che misurano il passaggio completo vedono un risultato miscelato che riflette il miscuglio di contenuto effettivo
  5. Nessun singolo metodo sconfigge in modo affidabile tutti i rilevatori simultaneamente; diversi strumenti pesano i segnali diversamente e producono risultati diversi nello stesso input

Cosa rende il testo ChatGPT statisticamente distinguibile dalla scrittura umana?

GPT-4 e le sue versioni precedenti hanno tendenze documentate che, sebbene individualmente sottili, si accumulano in un profilo statistico coerente in lunghi passaggi. Il modello usa eccessivamente determinate frasi di transizione, "è utile notare," "questo può portare a," "inoltre," "in conclusione", a tassi che differiscono dalla scrittura umana quando misurati su scala di corpus. La sua distribuzione della lunghezza delle frasi si raggruppa intorno a lunghezze moderate in modo più coerente della scrittura umana, producendo il modello a bassa raffica che i rilevatori misurano. La struttura del ragionamento di ChatGPT tende anche a seguire un arco riconoscibile: definire la domanda, enumerare le considerazioni in formato parallelo, sintetizzare verso una conclusione, chiudere con una riformulazione. Questa struttura è coerente e utile, ma si ripete tra i argomenti in un modo che differisce dal flusso più organico della maggior parte del testo esplicativo scritto da umani. L'addestramento del modello dall'apprendimento per rinforzo dal feedback umano (RLHF) ha l'effetto aggiuntivo di rendere i suoi output sistematicamente più moderati nella posizione dichiarata, più coperti nel linguaggio e più lucidati nella forma di superficie rispetto alle prime bozze tipiche scritte da umani, tutte proprietà che si presentano nelle statistiche distributive che i rilevatori analizzano. Ognuna di queste tendenze è un segnale debole in sé. L'approccio statistico le prende tutte insieme nel passaggio completo e calcola un punteggio composito. Per il testo breve, una frase o un breve paragrafo, la precisione del rilevatore cala bruscamente perché il rapporto segnale-rumore in un campione piccolo è insufficiente per separare la variazione stilistica individuale dai modelli caratteristici del modello. Per il testo più lungo (generalmente 300 parole e oltre), il segnale composito diventa sostanzialmente più affidabile, motivo per cui quasi tutti i rilevatori attuali includono un requisito di numero di caratteri o parole minimo prima di restituire un risultato ad alta fiducia.

Come usare un rilevatore di filigrana ChatGPT in modo responsabile

Prima di fare affidamento su un risultato del rilevatore di filigrana ChatGPT per prendere una decisione conseguente, vale la pena comprendere precisamente cosa lo strumento misura e cosa significa effettivamente un risultato positivo o negativo. Se lo strumento utilizza il rilevamento statistico, il che è essenzialmente tutto quello che fanno, allora un punteggio di probabilità AI elevato significa che il testo condivide proprietà statistiche con il testo generato da ChatGPT. Non significa che parole specifiche siano state generate da ChatGPT, che l'autore abbia usato ChatGPT in modo che viola la politica, o che il testo debba essere trattato come output AI confermato in un procedimento formale. Un punteggio di probabilità AI basso significa che il testo non mostra il profilo statistico atteso, il che potrebbe significare che è scritto da un umano, o che è stato generato da intelligenza artificiale e poi sostanzialmente modificato, o che è stato prodotto da un modello con caratteristiche statistiche diverse da quelle su cui il rilevatore è stato addestrato. L'affidamento a uno strumento singolo è il modello di abuso più comune. Diversi rilevatori utilizzano dati di addestramento diversi e schemi di ponderazione e possono restituire punteggi sostanzialmente diversi nello stesso input. Il cross-reference di almeno due strumenti indipendenti prima di trarre una conclusione in un contesto ad alta posta è una pratica standard per chiunque faccia questo tipo di verifica professionalmente.

  1. Confermare quale metodo di rilevamento utilizza lo strumento, analisi statistica, rilevamento della filigrana o un ibrido, perché questo determina cosa significa un risultato
  2. Trattare i risultati del rilevamento statistico come stime di probabilità, non verdetti: un punteggio di probabilità AI del 75% non significa che il 75% delle parole sia stato generato dall'intelligenza artificiale
  3. Applicare un peso proporzionato alla lunghezza del campione: i risultati sono più affidabili per testi più lunghi (300+ parole) e meno affidabili per brevi estratti sotto 100 parole
  4. Per decisioni consequenti, cross-reference dei risultati da almeno due strumenti indipendenti per verificare l'accordo prima di trarre qualsiasi conclusione
  5. Documentare la tua metodologia di verifica: quale strumento, quale versione, quale soglia e quale risultato, perché il processo difendibile è più importante di qualsiasi punteggio singolo
  6. Tenere conto del tasso di falsi positivi: alcuni scrittori umani producono costantemente prosa a bassa perplessità che i rilevatori contrassegnano, quindi un risultato positivo da solo non è una prova dell'uso dell'intelligenza artificiale

Come NotGPT rileva il testo ChatGPT quando non esiste una filigrana

Lo strumento NotGPT AI Text Detection è costruito intorno all'approccio statistico, analizzando la perplessità, la raffica e i modelli distributivi nel testo inviato piuttosto che cercare un segnale di filigrana incorporato. Questo design riflette la realtà pratica che la stragrande maggioranza del testo ChatGPT attualmente in circolazione non contiene filigrana: gli output standard del consumer non sono filigranati e il volume sostanziale di contenuti non filigranati esistenti rimarrà in uso indipendentemente da qualsiasi decisione di implementazione futura di OpenAI. Leggendo le proprietà statistiche intrinseche del testo inviato, NotGPT produce un punteggio di probabilità che indica la probabilità dell'intelligenza artificiale in base all'aspetto del testo stesso, non se un segnale è stato incorporato al momento della generazione. Lo strumento evidenzia sezioni del testo inviato che hanno contribuito maggiormente al punteggio, il che aiuta gli utenti a comprendere se il passaggio completo o sezioni specifiche hanno guidato il risultato del rilevamento, un contesto utile per uno scrittore che vuole sapere quali sezioni un revisore esaminerà probabilmente. Per scrittori e redattori che desiderano comprendere come il loro testo si comporterà sotto il rilevamento prima di inviare o pubblicare, lo strumento Umanizzare di NotGPT offre la riscrittura a livelli di intensità regolabile, utile per ridurre le firme statistiche che i rilevatori misurano e per produrre un output che suoni più naturale indipendentemente dalla sua origine.

Rileva Contenuti AI con NotGPT

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Rileva istantaneamente testo e immagini generati dall'AI. Umanizza i tuoi contenuti con un tocco.

Articoli Correlati

Capacità di Rilevamento

🔍

Rilevamento del testo generato dall'intelligenza artificiale

Incolla qualsiasi testo e ricevi un punteggio di probabilità di somiglianza dell'intelligenza artificiale con sezioni evidenziate.

🖼️

Rilevamento di immagini generate dall'intelligenza artificiale

Carica un'immagine per rilevare se è stata generata da strumenti di intelligenza artificiale come DALL-E o Midjourney.

✍️

Umanizzare

Riscrivi il testo generato dall'intelligenza artificiale per suonare naturale. Scegli l'intensità leggera, media o forte.

Casi d'Uso