Cabecero de Psicociencia Digital

Guía de los principales sesgos algorítmicos en los LLM y cómo mitigarlos

IA

Introducción

La llegada de los Modelos de Lenguaje Grandes (LLM) como Chat GPT o Gemini, ha representado un cambio de paradigma en la adquisición de información, la generación de contenido en incluso en la en la toma de decisiones. Sin embargo, junto con sus impresionantes capacidades, debemos ser conscientes de sus limitaciones y errores, provocados en gran medida por lo que se denominan sesgos algorítmicos.

En los LLM se dan sesgos sociales (estereotipos, representación...), pero también sesgos estadísticos (propios e inherentes al modelo matemático). Los sesgos algorítmicos pueden consistir en desigualdades sistemáticas en el trato o en los resultados entre grupos sociales que emergen del diseño/datos/uso del sistema y se manifiestan en sus salidas, como estereotipos, toxicidad o rendimiento dispar (Gallegos et al., 2024), Existen múltiples familias de sesgos a lo largo del ciclo de vida del LLM, que pueden estar relacionados con los datos, el entrenamiento, la decodificación, la interacción, la evaluación y el despliegue (Schwartz et al., 2023).

Aunque no es técnicamente correcto, se incluye en esta guía el fenómeno de la alucinación, porque se da con una alta frecuencia, puede modular el resto de los sesgos y se trata de una característica inherente a la arquitectura actual de los LLM. Una alucinación se define como la generación de contenido que, aunque plausible, coherente y gramaticalmente correcto, es fácticamente incorrecto, no está fundamentado en los datos de origen proporcionados, o es completamente inventado (Kirk y Zettlemoyer, 2023).

El objetivo de esta guía es servir de ayuda a la hora de identificar y explicar algunos de estos fenómenos, clasificar su impacto y proporcionar estrategias de mitigación (mediante módulos de prompts), a fin de contribuir al uso competente y éticamente responsable de este tipo de modelos de inteligencia artificial.

Clasificación de los sesgos según su impacto

La siguiente clasificación es una agrupación de los tipos de sesgos más estudiados, en tres niveles según su repercusión en la precisión y la seguridad de los LLM; (1) los fenómenos de alta importancia, que son aquellos que pueden generar respuestas incorrectas o peligrosas; (2) los de nivel medio, que afectan la calidad o imparcialidad; y (3) los de bajo impacto, que suelen manifestarse en contextos más específicos, pero conviene conocerlos.

Impacto Sesgos incluidos en esta guía
Alta Alucinaciones, Sesgo de anclaje, Sesgo de autoridad, Sesgo de confirmación, Lost in the middle (sesgo de posición), Sobreconfianza
Media Inercia argumental, Consistencia forzada
Baja Sesgo de simplificación binaria, Confirmación procedimental

Consideración final

Los sesgos algorítmicos y fenómenos de error descritos afectan a la fiabilidad y la ética de los LLM. No todos tienen la misma gravedad, pero es importante conocerlos y mitigarlos de manera proactiva. La combinación de prompt engineering cuidadoso y la alfabetización en IA constituye la estrategia sostenible. Mientras tanto, esperemos que las personas responsables de los modelos futuros incorporen mecanismos nativos para expresar incertidumbre, detectar inconsistencias y ofrecer perspectivas diversas, aumentando su explicabilidad, trazabilidad y fiabilidad sus respuestas.