Cabecero de Psicociencia Digital

JSON para el Testeo de Capacidades en modelos de IA generativa

Realizar un testeo exhaustivo de las capacidades de la ventana de contexto y análisis de documentos en modelos de IA generativa es esencial para optimizar flujos de trabajo y asegurarnos de que el modelo puede realizar la tarea que le pedimos minimizando sus alucinaciones y sesgos.


Optimiza tu Flujo de Trabajo

Ruta sin Testeo

Prompt
Sobrecarga
Error

Ruta con Testeo

Testeo
Optimización
Éxito

¿Qué es capaz de hacer este JSON?

Este proceso que aquí te ofrezco identifica, entre otras cuestiones, límites en tokens, palabras y páginas, tipos de archivos con los que puede operar y su peso (MB), permitiendo seleccionar el modelo adecuado para tareas específicas, como análisis de documentos extensos o procesamiento de múltiples archivos. Sin este testeo, se arriesga a sobrecargas que causen respuestas incompletas, pérdida de precisión o fallos en la retención de información central (Lost in the Middle). Además, evalúa la privacidad de datos, facilita comparaciones entre modelos y ofrece diferencias entre versiones gratuitas y de pago.

Solo tienes que descargar el archivo en el botón de abajo, subirlo al modelo que deseas testear y pedirle que ejecute el JSON.

Este Checklist de las capacidades de la ventana de contexto de IA organiza el contenido en cuatro secciones:

  • Capacidad Fundamental: Límites de tokens, equivalencias en palabras, y diferencias entre versiones.
  • Análisis de Documentos Individuales: Tamaño máximo de un documento en tokens/palabras/páginas.
  • Análisis de Múltiples Documentos: Número máximo de archivos, límites combinados, formatos y peso en MB.
  • Eficacia, Rendimiento y Seguridad: Rendimiento cerca del límite, retención de información y políticas de privacidad.
  • Tabla Resumen: Recopila datos cuantitativos clave para comparar versiones.

Todos los modelos reportan degradación cerca del límite de tokens:
Para uso seguro, minimizando errores, se recomienda agotar hasta aproximadamente al 80% de la capacidad del modelo

Limitaciones

Pese a que en general, los distintos modelos de IA (Gemini, Claude, ChatGPT…) responden bien al testeo, al aplicarlo sobre algunos modelos, estos reportan para algunos ítems que no cuentan con detalles técnicos específicos disponibles sobre estos.

Puesto que las capacidades de los modelos de IA generativa son cambiadas con relativa frecuencia por sus operadores, se recomienda aplicar el testeo como mínimo una vez al mes.