Skip to main content
ai-detectionguideinformationalwatermark

Detektor znaków wodnych AI: Co może znaleźć, co może udowodnić i jak go odpowiedzialnie używać

· 10 min read· NotGPT Team

Detektor znaków wodnych AI to narzędzie, które szuka ukrytych lub osadzonych sygnałów wskazujących, że fragment tekstu lub obrazu został utworzony przez system AI. Koncepcja brzmi prosto — uruchom sprawdzenie, uzyskaj odpowiedź — ale w praktyce znakowanie wodne i wykrywanie znaków wodnych są znacznie bardziej zawiłe niż prosty wynik pozytywny/negatywny. Niektóre znaki wodne to niewidoczne sygnały kodowane w wartościach pikseli; inne to wzorce statystyczne wplecione w rozkład wyboru słów; jeszcze inne to certyfikaty kryptograficzne dołączone do kontenera pliku. Każdy typ działa inaczej, przetrwaje różne transformacje i wspiera różne wnioski. Ten przewodnik obejmuje sposób działania detektorów znaków wodnych AI zarówno dla tekstu, jak i obrazów, co rzeczywiście oznacza pozytywny wynik detekcji, gdzie obecna technologia znaków wodnych zawodzi i jak podejść do weryfikacji treści w sposób, który uwzględnia zarówno mocne strony, jak i rzeczywiste luki w tych narzędziach.

Co to jest detektor znaków wodnych AI?

Detektor znaków wodnych AI to dowolne narzędzie lub metoda zaprojektowana w celu identyfikacji sygnałów, które zostały celowo lub przypadkowo osadzone w treści generowanej przez AI w momencie jej tworzenia. Słowo "znak wodny" obejmuje trzy różne kategorie techniczne, które są często mylone. Znaki proweniancji na poziomie pliku — najczęściej Poświadczenia Treści C2PA — to kryptograficznie podpisane certyfikaty przechowywane w kontenerze metadanych pliku obrazu lub wideo. Potwierdzają autora i rejestrują, które narzędzie AI wyprodukowało treść, ale znajdują się w opakowaniu pliku i mogą być usunięte przez dowolny standardowy edytor metadanych. Znaki wodne na poziomie piksela, z których najsławniejszym przykładem jest SynthID firmy Google DeepMind, kodują sygnał do wykrycia bezpośrednio w wartościach pikseli obrazu podczas generacji. W przeciwieństwie do metadanych pliku, przetrwają konwersję formatu, kompresję JPEG i przechwytywanie ekranu, ponieważ są wplecione w rzeczywistą treść obrazu, a nie w kontener pliku. Znaki wodne tekstu działają inaczej: ponieważ tekst nie może osadzić sygnałów w wartościach pikseli, znakowanie wodne tekstu działa poprzez wpływanie na rozkład prawdopodobieństwa wyborów słów podczas generacji. Gdy model, taki jak duży model języka, generuje token, może być obciążony, aby nieznacznie faworyzować tokeny z wyznaczonej listy słownika "zielonego". Na przestrzeni setek tokenów to obciążenie tworzy statystycznie wykrywalny wzorzec — tekst uzyskuje wyższy wynik niż oczekiwany na wykrywaniu częstości tokenu zielonego. Detektor znaków wodnych AI dla tekstu sprawdza, czy fragment wykazuje tego rodzaju pochylenie dystrybucyjne. Wszystkie trzy podejścia mają ten sam cel — umożliwić stronie trzeciej weryfikację pochodzenia AI po fakcie — ale dramatycznie różnią się tym, co przetrwaje edytowanie, tłumaczenie lub celowe usuwanie.

  1. Proweniancja na poziomie pliku (C2PA): certyfikat kryptograficzny w metadanych pliku obrazu lub wideo; identyfikuje narzędzie AI, które wygenerowało treść; trywialnie usuwalne za pomocą dowolnego edytora EXIF
  2. Znaki wodne na poziomie piksela (SynthID): sygnał kodowany w rzeczywistych wartościach pikseli podczas generacji; przetrwaje konwersję formatu, kompresję i zrzuty ekranu; nie można usunąć bez znacznego pogorszenia jakości obrazu
  3. Znaki wodne tekstu (statystyczne): obciążenie w prawdopodobieństwach wyboru tokenu podczas generacji tworzy mierzalną sygnaturę dystrybucyjną; przetrwaje drobne edycje, ale pogarsza się wraz z intensywnym parafrazowaniem lub tłumaczeniem
  4. Sygnatury wewnętrzne modelu: niezamierzone artefakty z architektury generacji — detektory AI, które nie polegają na znakach wodnych, analizują je zamiast tego; obecne we wszystkich wynikach AI niezależnie od tego, czy znakowanie wodne było włączone

Znaki wodne tekstu kontra znaki wodne obrazów: Czym się różnią?

Mechanika znakowania tekstu i obrazu różni się tak znacznie, że zrozumienie jednego nie przygotowuje Cię automatycznie do rozumowania na temat drugiego. W przypadku obrazów, problem osadzenia niewidocznego sygnału jest dobrze zbadaną gałęzią steganografii cyfrowej. Badacze mogą modyfikować najmniej znaczące bity wartości pikseli, zmieniać komponenty częstotliwości za pomocą dyskretnej transformacji cosinusa lub — jak robi to SynthID — dostosowywać względne intensywności pikseli w obrębie lokalnych łat w sposób niepostrzegany dla ludzkiego wzroku, ale statystycznie wykrywalny przez wytrenowany detektor znaku wodnego. Ponieważ sygnał jest rozprowadzany redundantnie na milionach pikseli, utrzymuje się dzięki rodzajom manipulacji, którym może ulec typowy obraz: zmiana rozmiaru, korekta kolorów, ponowne kodowanie JPEG przy rozsądnych poziomach jakości, a nawet drukowanie i ponowne skanowanie. Odporność SynthID na zrzuty ekranu jest godna uwagi: gdy zrobisz zrzut ekranu watermarkowanego obrazu, przechwytujesz jego wartości pikseli praktycznie bez zmian, więc znak wodny przetrwaje. W przypadku tekstu wyzwanie jest większe. Tekst jest dyskretny: nie ma poszczególnych wartości na poziomie znaków do subtelnego przesunięcia, a każda zmiana, która zmienia wzorzec statystyczny, zmienia również znaczenie. Najczęściej krytykowany technicznie sposób znakowania tekstu — opracowany w pracach badawczych z UC Santa Barbara i później przywoływany w oficjalnych stwierdzeniach Google na temat produktów generacji tekstu — wprowadza ukrytą zależność w procesie próbkowania tokenów. Za każdym razem, gdy model wybiera słowo, prywatna funkcja skrótu określa, czy to słowo znajduje się w zbiorze "zielonego" lub "czerwonego" dla tej pozycji w sekwencji. Model jest obciążony, aby wybrać tokeny zielone. Detektor mający dostęp do tej samej funkcji skrótu może następnie ocenić dowolny fragment pod kątem jego proporcji tokenów zielonych i porównać go z oczekiwanym rozkładem dla tekstu bez znaku wodnego. Wysoki wynik tokenu zielonego wskazuje, że tekst może być watermarkowany; wynik bliski oczekiwanej linii bazowej wskazuje, że prawdopodobnie nie jest. Praktycznym problemem jest to, że to wykrycie działa tylko dla tekstu wygenerowanego przez model, w którym znakowanie wodne było włączone — a większość publicznie dostępnych LLM, w tym wersje API GPT-4 i Claude, nie stosują domyślnie znaków wodnych tekstu do wyników użytkowników.

"Znakowanie wodne wyników modelu języka jest technicznie możliwe, ale wymaga, aby każdy główny dostawca wdrażał to konsekwentnie — problem koordynacji, który nie został jeszcze rozwiązany na dużą skalę." — Soheil Feizi, University of Maryland, 2023

Co rzeczywiście może udowodnić znak wodny AI?

To pytanie, które najczęściej jest pomijane w relacjonowaniu znakowania wodnego AI. Znak wodny, gdy zostanie wykryty, stanowi dowód, że określony system AI wygenerował treść w momencie jej tworzenia. Nie dowodzi, że treść jest szkodliwa, zaplaygiowana lub nieodpowiednia. Nie dowodzi, że osoba, która przesłała treść, używała AI w sposób naruszający jakąkolwiek konkretną zasadę. A co krytycznie ważne, brak wykrywalnego znaku wodnego nie dowodzi, że treść została napisana lub utworzona przez człowieka. Istnieje kilka powodów, dla których brak nie jest usprawiedliwieniem. Po pierwsze, zdecydowana większość treści generowanej przez AI, którą obecnie rozpowszechnia się, została wytworzana przez systemy, które nigdy nie wdrażały znakowania wodnego lub nie miały go aktywnego. Student, który użył GPT-4 za pośrednictwem standardowego interfejsu ChatGPT, lub generator obrazów bez przyjęcia C2PA, wytworzył treść bez znaku wodnego — ponieważ te narzędzia nie watermarkują swoich wyników. Po drugie, znaki wodne można usunąć. Metadane na poziomie pliku są usuwane przez standardowe narzędzia. Znaki wodne tekstu pogorszą się przy parafrazowaniu. Nawet znaki wodne na poziomie piksela nie mają gwarancji przetrwania przetwarzania poprzez konkurencję specjalnie zaprojektowanej, aby je pokonać. Wykryty znak wodny jest zatem znaczący: jest to pozytywny dowód na to, że w produkcji treści był zaangażowany konkretny system AI. Brak znaku wodnego jest neinformatywny: oznacza to, że albo system znakowania wodnego nie został użyty, znak wodny został usunięty, albo treść jest rzeczywiście utworzona przez człowieka. To są trzy różne sytuacje o bardzo różnych implikacjach, a sam wynik detektora znaku wodnego AI nie może między nimi rozróżniać.

Czy znaki wodne AI można usunąć lub pokonać?

Odporność znaku wodnego zależy w dużej mierze od jego typu i jak wyrafinowany jest atak usuwający. Poświadczenia C2PA na poziomie pliku można usunąć w kilka sekund przez każdego, kto ma podstawową wiedzę o metadanych obrazu. Kliknięcie prawym przyciskiem myszy na obraz, usunięcie danych EXIF za pomocą bezpłatnego narzędzia, konwersja między formatami bez opcji "zachowaj metadane" lub po prostu zrobienie zrzutu ekranu — każde z nich produkuje plik bez poświadczeń C2PA. To nie jest wada w projekcie C2PA; standard został zbudowany jako łańcuch proweniancji dla autentycznych mediów, a nie jako odporny na manipulacje certyfikat użycia AI. Gdy poświadczenia C2PA są obecne, ich obecność jest znacząca. Gdy są nieobecne, ta nieobecność nie dowodzi nic na temat pochodzenia. Znaki wodne tekstu są bardziej odporne niż metadane pliku, ale bardziej kruche niż osadzanie na poziomie piksela. Badania akademickie na znakach wodnych opartych na dystrybucji tokenów wykazały, że intensywne parafrazowanie, tłumaczenie na inny język iz powrotem lub mieszanie watermarkowanego tekstu z watermarkowanym tekstem mogą wszystko znacznie zmniejszyć pewność wykrycia. Analiza z 2023 roku z University of Maryland wykazała, że ataki parafrazowania zmniejszyły dokładność wykrycia z niemal pewności na zaledwie nieco lepszą niż szansa dla niektórych systemów znakowania wodnego. Co ważne, skuteczne parafrazowanie już wymaga wystarczającego edytowania, że wynik znacznie różni się od tego, co model wygenerował — więc atak ma cenę. Znaki wodne na poziomie piksela, takie jak SynthID, są najbardziej odporne z trzech kategorii. Zostały specjalnie zaprojektowane, aby przetrwać rodzaje manipulacji, które zwykle występują podczas dystrybucji obrazu: zmiana rozmiaru, kompresja, korekcja kolorów i konwersja formatu. Usunięcie SynthID z obrazu bez pogorszenia jego jakości wizualnej do stopnia, który udaremnia cel obrazu, jest, zgodnie z opublikowanymi badaniami Google DeepMind, obliczeniowo trudne. To powiedziawszy, żaden znak wodny nie jest bezwarunkowo odporny. Wystarczająco agresywne ponowne próbkowanie, dodanie szumu lub zastosowanie narzędzi zaburzeń konkurencji specjalnie zaprojektowanych do pokonania znaków wodnych pikseli może wszystko zmniejszyć pewność wykrycia, chociaż zwykle kosztem jakości obrazu.

  1. Metadane pliku C2PA: usuwalne w kilka sekund za pomocą dowolnego edytora EXIF, konwersji formatu lub zrzutu ekranu; brak poświadczeń nie dowodzi nic na temat pochodzenia AI
  2. Znaki wodne dystrybucji tokenów tekstu: pogorszają się znacznie przy intensywnym parafrazowaniu (~50% redukcja pewności wykrycia zgłoszona w badaniach akademickich); przetrwają drobne edycje i drobne przeformułowania
  3. Znaki wodne na poziomie piksela (SynthID): odporne na kompresję JPEG, zmianę rozmiaru, korekcję kolorów i zrzuty ekranu; porażka wymaga przetwarzania konkurencji, które zwykle pogarsza jakość wizualną
  4. Ataki tłumaczenia na tekst: konwertowanie watermarkowanego tekstu na inny język iz powrotem zmniejsza sygnał znaku wodnego znacznie, ponieważ rozkład słownika resetuje
  5. Zaburzenie konkurencji piksela: wyspecjalizowane narzędzia mogą osłabić nawet znaki wodne w stylu SynthID, ale przetwarzanie jest obliczeniowo kosztowne i często wprowadza widoczne artefakty

Co pomija detektor znaków wodnych AI?

Każdy detektor znaków wodnych AI ma problem z pokryciem: może znaleźć tylko sygnały, które były osadzone przez systemy, które zna, i które nie zostały następnie zniszczone. To tworzy trzy systematyczne luki, które napotykać będą użytkownicy polegający wyłącznie na wykrywaniu znaków wodnych. Pierwsza luka to pokrycie generatora. Większość tekstu AI jest generowana przez modele — publiczne wersje ChatGPT, Claude, Gemini i inne — które obecnie nie osadzają znaków wodnych tekstu w swoich standardowych wynikach. Detektor znaku wodnego AI zaprojektowany wokół analizy dystrybucji tokenów zgłosi brak znaku wodnego na większości tekstu generowanego przez AI w terenie, nie dlatego, że tekst napisał człowiek, ale dlatego, że pochodzi z systemów, które nigdy nie wdrażały znakowania wodnego. Druga luka to luka edycji po generacji. Nawet w przypadku systemów, które watermarkują swoje wyniki, każde znaczne edytowanie przez człowieka po fakcie zmniejszy sygnał znaku wodnego. Student, który prosi AI o projekt, a następnie przepisy dwie trzecie tego ręcznie, może skończyć się tekstem, który przejdzie wykrywanie znaku wodnego — ponieważ watermarkowane tokeny są teraz mniejszością większej przesyłki. Detektor znaku wodnego AI mierzący pochylenie dystrybucyjne w całym tekście zobaczy rozcieńczony sygnał. To nie jest wada w podejściu detekcji; to dokładna lektura treści, która rzeczywiście jest bardziej edytowana przez człowieka niż wygenerowana przez AI w tym momencie. Trzecia luka to treść AI wytworzana przez modele, które celowo nie watermarkują wyników. Modele open-source pobrane i uruchomione lokalnie — LLaMA, Mistral, Qwen i inne — wytwarzają tekst i obrazy bez znaków wodnych, ponieważ użytkownik kontroluje wnioskowanie i platforma nie może wymusić wstawienia znaku wodnego. Każda treść wytwarzana przez te narzędzia nie będzie miała znaku wodnego, niezależnie od tego, ile AI było zaangażowane. Te luki są powodem, dla którego wykrywanie znaków wodnych AI jest najbardziej przydatne jako jedna warstwa wielosygnałowego procesu weryfikacji, a nie jako autonomiczna metoda weryfikacji.

Jak odpowiedzialnie weryfikować treść AI za pomocą wykrywania znaków wodnych

Odpowiedzialne użycie detektora znaku wodnego AI rozpoczyna się od zrozumienia, na co narzędzie rzeczywiście odpowiada. Sprawdzenie znaku wodnego i sprawdzenie pochodzenia AI to nie jest to samo pytanie, a mylenie ich prowadzi zarówno do fałszywej pewności, jak i niesprawiedliwych wniosków. Do weryfikacji obrazów praktyczny przepływ pracy wygląda tak: najpierw sprawdź Poświadczenia Treści C2PA za pomocą czytnika zgodnego z C2PA. Większość standardowych aplikacji fotograficznych nie wyświetla danych C2PA, więc potrzebujesz narzędzia specjalnie zaprojektowanego do ich czytania. Narzędzie Content Authenticity firmy Adobe w sieci web lub dowolna przeglądarką C2PA może ujawnić te poświadczenia, gdy istnieją. Jeśli poświadczenia są obecne i deklarują generowanie AI, to jest silne pozytywne odkrycie. Jeśli nie znaleziono poświadczeń, przejdź do detencji obrazu AI na poziomie piksela — kroku, który mierzy, co obraz wygląda, a nie co mówi jego kontener pliku. Do weryfikacji tekstu sprawdzenia oparte na znakach wodnych są obecnie ograniczone przez lukę adopcji opisaną powyżej. Dopóki główni dostawcy nie wdrożą konsekwentnego znakowania tekstu wodnego, bardziej niezawodne podejście to użycie detektora, który mierzy właściwości statystyczne samego tekstu — dziwność, wybuchowość i wzorce dystrybucyjne, które różnią się między człowiekiem a pisaniem AI — zamiast szukać celowo osadzonego znaku wodnego. Te detektory sygnału wewnętrznego działają niezależnie od tego, czy system generujący wdrożył znakowanie wodne. Jeśli wyniki weryfikacji będą użyte do podejmowania ważnych decyzji — czy akademickie, prawne, zawodowe lub redakcyjne — udokumentuj swoją metodologię jawnie. Którego narzędzia użyłeś? Która wersja? Jaki wynik zwróciło? Jednoznaczne poleganie na sprawdzeniu znaku wodnego lub detektorze statystycznym nie jest najlepszą praktyką dla wysokiej stawki. Porównanie wielu narzędzi zmniejsza wpływ wskaźnika fałszywie dodatniego lub fałszywie ujemnego u któregokolwiek narzędzia.

  1. W przypadku obrazów zacznij od czytnika zgodnego z C2PA, aby sprawdzić podpisane Poświadczenia Treści — obecne poświadczenia deklarujące generowanie AI to szybkie, ostateczne odkrycie
  2. Traktuj brakujące poświadczenia jako neutralne — przejdź do detencji obrazu AI na poziomie piksela niezależnie od statusu metadanych
  3. W przypadku tekstu użyj statystycznej detencji tekstu AI (analiza dziwności/wybuchowości) jako głównego sprawdzenia — bardziej niezawodny niż wykrywanie znaku wodnego, biorąc pod uwagę obecne luki adopcji
  4. Porównaj co najmniej dwa niezależne narzędzia przed wyciągnięciem wniosku w kontekstach wysokiej stawki
  5. Udokumentuj swoją metodologię weryfikacji: nazwy narzędzi, wersje, wyniki i datę — wspiera to obronę podejmowania decyzji
  6. Zastosuj proporcjonalną pewność: silny pozytyw na wielu podejściach detekcji gwarantuje wyższą pewność niż wynik borderline z jednego narzędzia

Standardy znaków wodnych, adopcja i co jest faktycznie wdrażane dzisiaj

Luka między tym, co znakowanie wodne AI może teoretycznie osiągnąć, a tym, co jest obecnie wdrażane w praktyce, jest wystarczająco znacząca, aby wpłynąć na sposób interpretacji wyników detekcji. Po stronie obrazu C2PA ma rzeczywisty wpływ. Adobe Firefly, DALL-E 3 i narzędzia obrazu AI firmy Microsoft domyślnie osadzają Poświadczenia Treści C2PA. Content Authenticity Initiative posiada zaangażowania od głównych organizacji informacyjnych, firm platformowych i producentów sprzętu. Producenci aparatów fotograficznych, w tym Leica i Sony, wysyłali sprzęt C2PA na poziomie sprzętu, aby zdjęcia były podpisane podczas przechwytywania, a nie po fakcie. SynthID jest wdrażany w narzędziach generacji obrazu Gemini firmy Google, Google Imagen i rozszerzyło się na wideo i audio. Po stronie tekstu postęp był wolniejszy. OpenAI zbadało znakowanie tekstu wewnętrznie i podobno zdecydowało się nie wdrażać go w produktach konsumenckich, częściowo ze względu na kruchość znaków wodnych tekstu przy parafrazowaniu oraz obawę, że pisarze w niekorzystnej sytuacji — osoby mówiące nie w ojczystym języku, pisarze z dysleksją, osoby potrzebujące narzędzi edycji wspomagającej — mogą być nieproporcjonalnie flagowane. Google wspomniało o rozszerzeniu SynthID na tekst w niektórych kontekstach badawczych, ale nie udostępniło szeroko publicznie detekcji znaków wodnych tekstu. Wynik netto jest taki, że detektor znaku wodnego AI sprawdzający sygnały C2PA lub SynthID będzie przechwytywać treść z głównych komercyjnych platform, które przyjęły standard, i będzie brakować treści z modelów open-source, platform, które nie przyjęły znakowania wodnego i wszelkich treści, w których znaki wodne zostały usunięte lub rozcieńczone. To jest rzeczywistość pokrycia, nie brak koncepcji znakowania wodnego — adopcja jest procesem trwającym, a narzędzia wdrażane dzisiaj odzwierciedlają to, gdzie branża jest teraz, a nie gdzie zmierzają te standardy.

"C2PA stanowi podstawę sieci web, w której media mogą mieć zweryfikowaną proweniancję — ale wartość skaluje się ze względu na to, ilu twórców i platform uczestniczy." — Content Authenticity Initiative, 2024

Jak NotGPT pomaga w weryfikacji znaków wodnych AI i pochodzenia

NotGPT oferuje dwa narzędzia detekcji istotne do weryfikacji pochodzenia AI, które uzupełniają podejścia oparte na znakach wodnych poprzez analizę właściwości wewnętrznych treści, zamiast polegania wyłącznie na osadzonych sygnałach. Narzędzie Detencji Obrazu AI analizuje przesłane obrazy na poziomie piksela, sprawdzając cechy wizualne, które rozróżniają obrazy generowane przez AI od fotografii — regularność tekstury, sygnatury domeny częstotliwości i wzorce spójności semantycznej. Ta analiza działa niezależnie od tego, czy jakikolwiek znak wodny jest obecny, czy został usunięty, co czyni go efektywnym dla obrazów z platform, które nigdy nie osadzały znaków wodnych i dla obrazów, w których metadane zostały usunięte. Narzędzie Detencji Tekstu AI mierzy dziwność, wybuchowość i wzorce dystrybucyjne w przesłanym tekście, aby oszacować prawdopodobieństwo, że przesyłka została wygenerowana przez AI. To jest podejście, które obejmuje lukę adopcji w znakach wodnych tekstu: zamiast szukać sygnału, który osadzają tylko niektóre generatory, odczytuje odciski statystyczne, które wszystkie obecne LLM pozostawiają w swoich wynikach w różnym stopniu. Korzystanie z NotGPT wraz ze dedykowanym sprawdzeniem znaku wodnego — w szczególności czytnikiem C2PA dla obrazów — daje ci zarówno sygnał proweniancji (gdy istnieje), jak i sygnał wewnętrzny (który istnieje niezależnie od tego, czy znakowanie wodne było używane). Żadne podejście samodzielnie nie rozwiązuje całego problemu weryfikacji; razem adresują znacznie więcej powierzchni detekcji.

Wykrywaj treści AI z NotGPT

87%

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

Humanize
12%

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Natychmiastowo wykrywaj tekst i obrazy generowane przez AI. Humanizuj swoje treści jednym dotknięciem.

Powiązane Artykuły

Możliwości Wykrywania

🔍

Detencja tekstu AI

Wklej dowolny tekst i otrzymaj wynik prawdopodobieństwa podobności AI z wyróżnionymi sekcjami.

🖼️

Detencja obrazu AI

Prześlij obraz, aby wykryć, czy został wygenerowany przez narzędzia AI, takie jak DALL-E lub Midjourney.

✍️

Humanize

Przepisz tekst generowany przez AI, aby brzmiał naturalnie. Wybierz intensywność Light, Medium lub Strong.

Przypadki Użycia