Datos de precisión
Metodología completa y resultados del benchmark independiente.
Resultados generales
| # | Herramienta | Precisión | Falso pos. | Falso neg. | Latencia | Precio | Punt. |
|---|---|---|---|---|---|---|---|
| #1 | Originality.aioriginality.ai | 7% | 11% | 420ms | De pago | 4.6/5 | |
| #2 | Hive Moderationthehive.ai | 9% | 12% | 340ms | De pago | 4.2/5 | |
| #3 | GPTZerogptzero.me | 10% | 15% | 380ms | Freemium | 4.1/5 | |
| #4 | Writer.comwriter.com | 8% | 18% | 290ms | De pago | 3.9/5 | |
| #5 | Copyleakscopyleaks.com | 12% | 22% | 510ms | Freemium | 3.7/5 | |
| #6 | Sapling AIsapling.ai | 17% | 24% | 610ms | Freemium | 3.2/5 |
Metodología
Corpus
Textos humanos (1.200): 240 muestras por categoría, ensayos académicos, periodismo, marketing, documentación técnica, escritura creativa. Verificados como anteriores a 2022.
Textos de IA (1.200): 300 por modelo, Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3.1 70B. Sin instrucciones para evadir detección.
Métricas
Precisión general = (VP + VN) / 2.400. FPR = FP / 1.200 muestras humanas. FNR = FN / 1.200 muestras de IA. Latencia = mediana de 100 llamadas.
Por categoría
Académica: GPTZero mejor rendimiento; mayor FPR en STEM. Periodismo: más fácil, media 86%. Marketing: más difícil, media 79%. Técnica: mayor FPR; Sapling marcó 31% de documentación humana como IA.
Tasas de evasión
14 humanizadoras contra 6 detectores: 23%-91% de evasión. Originality.ai más resistente: cayó de 91% a 67% con texto humanizado.
Independencia
Sin afiliados ni patrocinios. Acceso a APIs pagado a tarifas estándar. Proveedores no notificados.
Preguntas frecuentes
¿Puede un profesor confiar al 100% en el resultado de un detector?
No. Ningún detector alcanza el 100% de precisión. En nuestro benchmark, la herramienta más precisa logra un 91%, lo que significa que casi 1 de cada 10 textos puede clasificarse incorrectamente. Los detectores deben usarse como herramienta de apoyo, nunca como juez definitivo.
¿Los detectores son igual de precisos en español que en inglés?
Generalmente no. La mayoría de detectores fueron entrenados principalmente con datos en inglés. En nuestras pruebas, la precisión en español es entre 3 y 8 puntos porcentuales inferior a la reportada en inglés. Por eso nuestro benchmark se centra específicamente en texto en español.
¿Qué hacer si un detector marca mi texto original como IA?
Esto se llama falso positivo y ocurre con frecuencia en textos técnicos, científicos o muy estructurados. Se recomienda probar con al menos dos detectores distintos, conservar borradores y notas como evidencia, y comunicar la situación al evaluador con datos concretos sobre las limitaciones de estas herramientas.