ai-detectionguidechatgptinformational

Detector de marca de agua de ChatGPT: Lo que mide y lo que se pierde

Publicado el 2026-05-25· 8 min read· NotGPT Team

Un detector de marca de agua de ChatGPT es una herramienta diseñada para determinar si un texto fue producido por ChatGPT de OpenAI — pero la etiqueta es a menudo engañosa, porque ChatGPT actualmente no incrusta marcas de agua en el texto que genera para usuarios estándar. OpenAI desarrolló y probó internamente un sistema de marca de agua basado en distribución de tokens, pero no lo ha implementado en el producto de consumo. Lo que la mayoría de herramientas comercializadas como detector de marca de agua de ChatGPT miden son las huellas dactilares estadísticas que el modelo de lenguaje de ChatGPT deja a través de la forma en que selecciona palabras — no una señal incrustada, sino un patrón de distribución medible. Entender la diferencia entre la detección genuina de marcas de agua y la detección estadística de texto de IA es esencial para interpretar cualquier resultado y saber cuánto peso puede llevar.

Tabla de Contenidos

01¿Qué es un detector de marca de agua de ChatGPT?
02¿Marca ChatGPT sus salidas de texto con marca de agua?
03¿Qué encontró realmente la investigación interna de marca de agua de OpenAI?
04¿Cómo identifican los detectores estadísticos texto de ChatGPT sin marca de agua?
05¿Puede un detector de marca de agua de texto de ChatGPT ser eludido?
06¿Qué hace el texto de ChatGPT estadísticamente distinguible de la escritura humana?
07Cómo usar un detector de marca de agua de ChatGPT responsablemente
08Cómo detecta NotGPT texto de ChatGPT cuando no existe marca de agua

¿Qué es un detector de marca de agua de ChatGPT?

El término cubre dos tecnologías significativamente diferentes que se han colapsado en una única etiqueta en resultados de búsqueda y marketing de productos. En sentido estricto, un detector de marca de agua de ChatGPT es una herramienta que busca señales deliberadamente incrustadas en el texto en el momento de la generación — señales que no están presentes a menos que el sistema generador las haya insertado específicamente. Para que esto funcione, ChatGPT primero tendría que marcar sus salidas, lo cual no hace por defecto para ninguna interfaz disponible públicamente. En el sentido más amplio y coloquial que la mayoría de las personas entienden cuando buscan un detector de marca de agua de ChatGPT, el objetivo es simplemente determinar si un texto fue escrito por ChatGPT. Las herramientas que aparecen en resultados de búsqueda bajo esta etiqueta son casi universalmente detectores estadísticos de texto de IA — herramientas que miden propiedades como la predictibilidad del texto, la variación de la longitud de oraciones y la distribución de vocabulario para estimar la probabilidad de que un pasaje fue generado por máquina. Estos enfoques estadísticos producen una estimación de probabilidad, no un veredicto binario, y funcionan leyendo patrones inherentes en cómo los modelos de lenguaje grande generan texto en lugar de detectar ninguna señal que OpenAI incrustó intencionalmente. La distinción es importante porque los dos enfoques tienen diferentes fortalezas, diferentes modos de fallo y diferentes implicaciones cuando un resultado es positivo o negativo.

Las herramientas etiquetadas como detector de marca de agua de ChatGPT son casi siempre detectores estadísticos de texto de IA — no herramientas que encuentren señales incrustadas
Los detectores estadísticos miden perplejidad (qué tan predecible es el texto) y burstiness (cuánto varía la complejidad de las oraciones)
La detección genuina de marca de agua requiere que el sistema generador haya incrustado una señal detectable durante la generación — ChatGPT no hace esto por defecto
La detección estadística puede producir falsos positivos en texto escrito por humanos; un verdadero detector de marca de agua (cuando existe la marca de agua) no puede marcar falsamente texto que no lleve una señal incrustada

¿Marca ChatGPT sus salidas de texto con marca de agua?

Para la gran mayoría de usuarios, la respuesta es no. Las salidas estándar de ChatGPT — ya sea de la aplicación web de consumo, la aplicación iOS o Android, o la API estándar — no llevan una marca de agua de texto. OpenAI confirmó públicamente haber explorado marcas de agua de texto e contrató a Scott Aaronson, un destacado informático teórico, en parte para investigar la marca de agua de salida de IA. Aaronson publicó artículos de blog en 2022 describiendo un enfoque criptográfico que funciona influyendo en qué tokens el modelo muestrea durante la generación, creando un sesgo estadísticamente detectable en un pasaje largo. A pesar de esta investigación, OpenAI eligió no implementar la marca de agua de texto en sus productos de consumo. Múltiples informes atribuyeron esta decisión en parte a preocupaciones de equidad: las marcas de agua de texto basadas en distribuciones de tokens pueden degradarse cuando los usuarios editan el texto generado, y hubo preocupación de que los no hablantes nativos de inglés, estudiantes que usan herramientas de corrección gramatical y escritores con discapacidades que dependen de asistencia de edición estarían desproporcionadamente afectados. Un usuario que toma un borrador de ChatGPT y lo ejecuta a través de un corrector gramatical o herramienta de parafraseo podría terminar con texto que falla la detección de marca de agua mientras que una salida de IA original sin editar pasaría — un problema de equidad con consecuencias reales en contextos académicos y profesionales. La consecuencia práctica de esta decisión de implementación es que un detector de marca de agua de ChatGPT que se base en una señal incrustada no encontrará nada en la salida estándar de ChatGPT. No porque el texto sea escrito por humanos, sino porque no existe marca de agua para encontrar.

ChatGPT estándar (aplicación de consumo y API) no incrusta marcas de agua en texto generado actualmente
OpenAI investigó marca de agua basada en distribución de tokens con Scott Aaronson pero decidió en contra de implementarla en productos de consumo
Las preocupaciones sobre equidad para hablantes no nativos y usuarios de herramientas de edición y gramática contribuyeron a la decisión en contra de la implementación
Las implementaciones empresariales o de API personalizadas usando modelos OpenAI podrían en teoría habilitar marca de agua dependiendo de la configuración — pero esto no es el estándar y no está documentado públicamente
La ausencia de una marca de agua en texto estándar de ChatGPT significa que la detección estadística es el único enfoque prácticamente disponible para la mayoría de usuarios

¿Qué encontró realmente la investigación interna de marca de agua de OpenAI?

El enfoque técnico que OpenAI exploró — y que Aaronson describió públicamente en 2022 — es una versión del método de marca de agua de lista verde/lista roja que ha estado desarrollándose en la investigación académica. El mecanismo funciona así: antes de generar cada token, el modelo aplica una función hash pseudoaleatoria al contexto de token reciente, produciendo una partición del vocabulario en un conjunto "verde" y un conjunto "rojo" para esa posición en la secuencia. Durante el muestreo, el modelo tiene sesgos hacia tokens en el conjunto verde. En un pasaje de varios cientos de tokens, esto crea un desequilibrio estadísticamente detectable: el texto con marca de agua mostrará una proporción más alta de tokens de lista verde que la esperada por casualidad en un pasaje sin marca de agua. Un detector que tenga la misma función hash puede entonces puntuar cualquier texto candidato midiendo su frecuencia de tokens verdes y comparándola con la línea base esperada para salida sin marca de agua. El texto que puntúa significativamente por encima de esa línea base probablemente tenga marca de agua; el texto cerca de la línea base probablemente no. Aaronson confirmó en escritos públicos que el enfoque puede lograr detección confiable en pasajes suficientemente largos con tasas de falsos positivos bajos en condiciones normales. La debilidad documentada del método es la robustez al parafraseado. Un análisis de 2023 de la Universidad de Maryland encontró que el parafraseado sistemático — cambiando aproximadamente un tercio de las palabras en un pasaje mientras se preserva su significado — redujo la precisión de detección de casi seguro a solo ligeramente por encima del azar para algunas configuraciones de marca de agua. Una preocupación separada, señalada en discusión académica, es que un adversario determinado que conociera la función hash de lista verde podría deliberadamente sesgar su texto lejos de tokens verdes para evadir falsamente la detección. Estos problemas de robustez y adversariales, combinados con las preocupaciones de equidad sobre el texto de IA ligeramente editado, contribuyeron a la decisión de OpenAI de no implementar el sistema.

"La idea básica es generar una 'lista roja' aleatoria de tokens y desalentar suavemente el uso de tokens de lista roja por una cantidad pequeña y ajustable. Después de la generación, un detector de marca de agua verifica si el texto usa una fracción inusualmente pequeña de tokens de lista roja." — Scott Aaronson, 2022

¿Cómo identifican los detectores estadísticos texto de ChatGPT sin marca de agua?

Cuando no existe marca de agua incrustada, un detector de marca de agua de ChatGPT recurre a medir propiedades estadísticas intrínsecas que difieren entre texto escrito por humanos y texto generado por modelos grandes de lenguaje. Dos métricas dominan la metodología actual. Perplejidad mide qué tan sorprendente es el texto relativo a lo que un modelo de lenguaje predecería: el texto genuinamente escrito por humanos tiende a puntuarse más alto en perplejidad porque los humanos hacen elecciones de palabras no convencionales, toman giros inesperados en el razonamiento y siguen patrones estilísticos idiosincráticos. El texto generado por IA — particularmente de GPT-4, que está entrenado para producir salida fluida y coherente — tiende a seleccionar continuaciones más predecibles en cada paso, resultando en perplejidad promedio más baja. Burstiness mide cuánto varía un texto en complejidad de oraciones en el pasaje: los humanos naturalmente alternan entre oraciones cortas y directas y construcciones largas e involucradas en ritmos que el análisis estadístico puede identificar. Las salidas de GPT-4 típicamente muestran menor burstiness, produciendo un registro de longitud de oración más consistentemente moderado que la mayoría de la escritura humana. Más allá de estas dos métricas primarias, las salidas de ChatGPT también muestran preferencias de vocabulario características. El modelo usa ciertas frases de transición, construcciones de cobertura y patrones estructurales a frecuencias que difieren de la escritura típicamente humana cuando se miden en un corpus. Estas señales individuales son probabilísticas — ninguna propiedad identifica definitivamente texto de ChatGPT — pero combinadas en un pasaje de varios cientos de palabras, producen una estimación de probabilidad que los detectores actuales pueden calcular con precisión significativa en muestras de texto más largas. La limitación fundamental es que estas mismas señales aparecen en escritura humana también: algunos escritores naturalmente producen prosa de baja perplejidad y bajo burstiness, y un detector que no responde a variación de escritura individual producirá falsos positivos en esa escritura.

¿Puede un detector de marca de agua de texto de ChatGPT ser eludido?

Ya que las salidas estándar de ChatGPT no llevan marca de agua incrustada, la pregunta práctica de eludir un detector de marca de agua de ChatGPT es realmente una pregunta de derrotar la detección estadística, no la detección de marca de agua. El método más confiable es también el más laboral: reescritura sustancial. Un pasaje que ha sido fuertemente parafraseado — con reestructuración significativa de oraciones, sustitución de vocabulario y reorganización del flujo lógico — puntuará diferente en perplejidad y burstiness porque la edición humana genuinamente cambia las propiedades estadísticas del texto. La investigación ha encontrado que parafrasear lo suficiente de un pasaje generado por GPT para reducir sustancialmente la confianza de detección típicamente requiere cambiar al menos 30 a 40 por ciento de las palabras, que es un esfuerzo significativo más que un workaround trivial. Las herramientas de humanización automatizadas — software que reescribe texto de IA específicamente para reducir puntuaciones de detector — funcionan aplicando parafraseo automáticamente. Su efectividad varía considerablemente dependiendo de contra qué detector se evalúen, y las salidas de herramientas de humanización pueden ellas mismas volverse detectables cuando se analizan para patrones característicos de parafraseo ligero de máquina, que son diferentes de pero no independientes de los patrones de generación de IA original. Un punto más fundamental sobre este marco: si un detector de marca de agua de chatgpt no puede distinguir confiablemente entre texto de IA fuertemente editado y escritura humana original, eso es posiblemente un resultado correcto más que un fracaso. El texto que ha sido sustancialmente reescrito por un humano es, en sentido significativo, más humano-autorado que la salida de IA original. La confianza decreciente del sistema de detección rastrea apropiadamente la composición real del contenido — una mezcla de generación de IA y revisión humana que no pertenece a la misma categoría que salida de IA sin editar.

El parafraseado sistemático (cambiando 30%+ de vocabulario y estructura de oración) reduce significativamente la confianza de detección estadística — pero requiere esfuerzo genuino de reescritura
Las herramientas de humanización automatizadas aplican parafraseo a escala pero varían ampliamente en efectividad e pueden introducir sus propios patrones detectables
La traducción a otro idioma y de vuelta degrada señales estadísticas pero también introduce artefactos de traducción que pueden ser identificables por otros medios
Mezclar secciones generadas por IA con texto humano-escrito original diluye la señal proporcionalmente — detectores midiendo el pasaje completo ven un resultado mezclado que refleja la composición de contenido real
Ningún método único derrota confiablemente todos los detectores simultáneamente; diferentes herramientas ponderan señales diferentemente y producen resultados diferentes en la misma entrada

¿Qué hace el texto de ChatGPT estadísticamente distinguible de la escritura humana?

GPT-4 y sus versiones predecesoras tienen tendencias documentadas que, aunque individualmente sutiles, se acumulan para crear un perfil estadístico consistente en pasajes largos. El modelo usa en exceso ciertas frases de transición — "es digno de notar", "esto puede llevar a", "además", "en conclusión" — a tasas que difieren de la escritura humana cuando se miden a escala de corpus. Su distribución de longitud de oración se agrupa alrededor de longitudes moderadas más consistentemente que la escritura humana, produciendo el patrón de bajo burstiness que los detectores miden. La estructura de razonamiento de ChatGPT también tiende a seguir un arco reconocible: definir la pregunta, enumerar consideraciones en formato paralelo, sintetizar hacia una conclusión, cerrar con una reformulación. Esta estructura es coherente y útil, pero se repite en temas de una manera que difiere del flujo más orgánico de la mayoría del texto explicativo escrito por humanos. El entrenamiento del modelo en aprendizaje de refuerzo de retroalimentación humana (RLHF) tiene el efecto adicional de hacer sus salidas sistemáticamente más moderadas en posición declarada, más cubiertas en lenguaje y más pulidas en forma de superficie que los primeros borradores típicamente humanos — todas las propiedades que aparecen en las estadísticas de distribución que los detectores analizan. Cada una de estas tendencias es una señal débil por sí sola. El enfoque estadístico toma todas juntas en el pasaje completo y calcula una puntuación compuesta. Para texto corto — una oración o párrafo corto — la precisión del detector cae dramáticamente porque la relación señal-ruido en una pequeña muestra es insuficiente para separar variación estilística individual de patrones característicos del modelo. Para texto más largo (típicamente 300 palabras y arriba), la señal compuesta se vuelve sustancialmente más confiable, lo cual es por qué casi todos los detectores actuales incluyen un requisito de conteo mínimo de caracteres o palabras antes de devolver un resultado de alta confianza.

Cómo usar un detector de marca de agua de ChatGPT responsablemente

Antes de confiar en un resultado del detector de marca de agua de ChatGPT para tomar una decisión consecuencial, vale la pena entender precisamente qué está midiendo la herramienta y qué significa realmente un resultado positivo o negativo. Si la herramienta usa detección estadística — que es esencialmente todas — entonces una puntuación de probabilidad de IA alta significa que el texto comparte propiedades estadísticas con texto generado por ChatGPT. No significa que palabras específicas fueron generadas por ChatGPT, que el autor usó ChatGPT de una manera que viola políticas, o que el texto deba ser tratado como salida confirmada de IA en un procedimiento formal. Una puntuación de probabilidad de IA baja significa que el texto no muestra el perfil estadístico esperado — lo cual podría significar que fue escrito por humanos, o que fue generado por IA y luego editado sustancialmente, o que fue producido por un modelo con características estadísticas diferentes a las en que el detector fue entrenado. La dependencia de una sola herramienta es el patrón de mal uso más común. Detectores diferentes usan datos de entrenamiento y esquemas de ponderación diferentes y pueden devolver puntuaciones sustancialmente diferentes en la misma entrada. La referencia cruzada de al menos dos herramientas independientes antes de sacar una conclusión en un contexto de alto riesgo es práctica estándar para cualquiera que haga este tipo de verificación profesionalmente.

Confirma qué método de detección usa la herramienta — análisis estadístico, detección de marca de agua o un híbrido — porque esto determina qué significa un resultado
Trata los resultados de detección estadística como estimaciones de probabilidad, no veredictos — una puntuación de 75% de probabilidad de IA no significa que 75% de las palabras fueron generadas por IA
Aplica peso proporcional a la longitud de muestra: los resultados son más confiables para texto más largo (300+ palabras) y menos confiables para extractos cortos bajo 100 palabras
Para decisiones consecuenciales, haz referencia cruzada de resultados de al menos dos herramientas independientes para verificar acuerdo antes de sacar cualquier conclusión
Documenta tu metodología de verificación — qué herramienta, qué versión, qué umbral, y qué resultado — porque el proceso defendible importa más que cualquier puntuación individual
Cuenta por la tasa de falsos positivos: algunos escritores humanos consistentemente producen prosa de baja perplejidad que los detectores marcan, así que un resultado positivo solo no es prueba de uso de IA

Cómo detecta NotGPT texto de ChatGPT cuando no existe marca de agua

La herramienta de Detección de Texto de IA de NotGPT se construye alrededor del enfoque estadístico — analizando perplejidad, burstiness y patrones de distribución en texto enviado en lugar de buscar una señal de marca de agua incrustada. Este diseño refleja la realidad práctica de que la abrumadora mayoría del texto de ChatGPT actualmente en circulación no lleva marca de agua: las salidas de consumidor estándar no están marcadas con agua, y el volumen sustancial de contenido existente sin marca de agua permanecerá en uso sin importar futuras decisiones de implementación de OpenAI. Al leer las propiedades estadísticas intrínsecas del texto enviado, NotGPT produce una puntuación de probabilidad indicando probabilidad de IA basada en cómo se ve el texto en sí, no en si alguna señal fue incrustada en el momento de generación. La herramienta destaca secciones del texto enviado que más contribuyeron a la puntuación, lo cual ayuda a usuarios entender si el pasaje completo o secciones específicas condujeron el resultado de detección — contexto útil para un escritor que quiere saber qué secciones un revisor probablemente escrutinará más. Para escritores y editores que quieren entender cómo su texto funcionará bajo detección antes de enviar o publicar, la herramienta Humanize de NotGPT ofrece reescritura en niveles de intensidad ajustables — útil para reducir las firmas estadísticas que los detectores miden y para producir salida que se lee más naturalmente independientemente de su origen.

Detecta Contenido de IA con NotGPT

AI Detected

“The implementation of artificial intelligence in modern educational environments presents numerous compelling advantages that merit careful consideration…”

↓Humanize↓

Looks Human

“AI in schools has real upsides worth thinking about — but the trade-offs are just as real and shouldn't be glossed over…”

Detecta al instante texto e imágenes generados por IA. Humaniza tu contenido con un toque.

Descargar en el App Store Consíguelo en Google Play

Capacidades de Detección

🔍

Detección de Texto de IA

Pega cualquier texto y recibe una puntuación de probabilidad de similitud con IA con secciones destacadas.

🖼️

Detección de Imagen de IA

Carga una imagen para detectar si fue generada por herramientas de IA como DALL-E o Midjourney.

✍️

Humanizar

Reescribe texto generado por IA para que suene natural. Elige intensidad Light, Medium o Strong.

Casos de Uso

Profesor evaluando un envío de estudiante para uso de IA

Por qué una marca de agua faltante no autoriza un envío, qué señales estadísticas son realmente confiables para revisión de integridad académica, y cómo interpretar resultados de detector proporcionalmente.

Editor revisando contenido freelance antes de publicación

Cómo usar un detector de marca de agua de ChatGPT junto con detección estadística de IA para examinar artículos enviados, y cómo hacer referencia cruzada de resultados entre herramientas antes de tomar decisiones editoriales.

Escritor revisando su propio texto antes de envío

Cómo entender qué verán las herramientas de detección en tu escritura, interpretar tu propia puntuación, y usar la herramienta Humanize para reducir firmas de IA estadísticas antes de enviar.

Volver al Blog