Saltar al contenido
detectordeia.co
Benchmark, 2.400 muestras

Datos de precisión

Metodología completa y resultados del benchmark independiente.

Resultados generales

Originality.aioriginality.ai
91%
Hive Moderationthehive.ai
88%
GPTZerogptzero.me
87%
Writer.comwriter.com
84%
Copyleakscopyleaks.com
79%
Sapling AIsapling.ai
76%
#1
Originality.aioriginality.ai
91%
#2
Hive Moderationthehive.ai
88%
#3
GPTZerogptzero.me
87%
#4
Writer.comwriter.com
84%
#5
Copyleakscopyleaks.com
79%
#6
Sapling AIsapling.ai
76%
Benchmark de precisión, 2.400 muestras
#HerramientaPrecisiónFalso pos.Falso neg.LatenciaPrecioPunt.
#1 Originality.aioriginality.ai
91%
7% 11% 420ms De pago 4.6/5
#2 Hive Moderationthehive.ai
88%
9% 12% 340ms De pago 4.2/5
#3 GPTZerogptzero.me
87%
10% 15% 380ms Freemium 4.1/5
#4 Writer.comwriter.com
84%
8% 18% 290ms De pago 3.9/5
#5 Copyleakscopyleaks.com
79%
12% 22% 510ms Freemium 3.7/5
#6 Sapling AIsapling.ai
76%
17% 24% 610ms Freemium 3.2/5

Metodología

Corpus

Textos humanos (1.200): 240 muestras por categoría, ensayos académicos, periodismo, marketing, documentación técnica, escritura creativa. Verificados como anteriores a 2022.

Textos de IA (1.200): 300 por modelo, Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3.1 70B. Sin instrucciones para evadir detección.

Métricas

Precisión general = (VP + VN) / 2.400. FPR = FP / 1.200 muestras humanas. FNR = FN / 1.200 muestras de IA. Latencia = mediana de 100 llamadas.

Por categoría

Académica: GPTZero mejor rendimiento; mayor FPR en STEM. Periodismo: más fácil, media 86%. Marketing: más difícil, media 79%. Técnica: mayor FPR; Sapling marcó 31% de documentación humana como IA.

Tasas de evasión

14 humanizadoras contra 6 detectores: 23%-91% de evasión. Originality.ai más resistente: cayó de 91% a 67% con texto humanizado.

Independencia

Sin afiliados ni patrocinios. Acceso a APIs pagado a tarifas estándar. Proveedores no notificados.

Preguntas frecuentes

¿Puede un profesor confiar al 100% en el resultado de un detector?

No. Ningún detector alcanza el 100% de precisión. En nuestro benchmark, la herramienta más precisa logra un 91%, lo que significa que casi 1 de cada 10 textos puede clasificarse incorrectamente. Los detectores deben usarse como herramienta de apoyo, nunca como juez definitivo.

¿Los detectores son igual de precisos en español que en inglés?

Generalmente no. La mayoría de detectores fueron entrenados principalmente con datos en inglés. En nuestras pruebas, la precisión en español es entre 3 y 8 puntos porcentuales inferior a la reportada en inglés. Por eso nuestro benchmark se centra específicamente en texto en español.

¿Qué hacer si un detector marca mi texto original como IA?

Esto se llama falso positivo y ocurre con frecuencia en textos técnicos, científicos o muy estructurados. Se recomienda probar con al menos dos detectores distintos, conservar borradores y notas como evidencia, y comunicar la situación al evaluador con datos concretos sobre las limitaciones de estas herramientas.