Logo de Psicociencia Digital

La importancia de los Hiperparámetros de Muestreo
en el uso de LLMs

David Carmona Barrales

1

Fundamentos del Muestreo

Un modelo de lenguaje generativo, en su núcleo, es un predictor de probabilidades. Para cada paso en la generación de texto, calcula una distribución de probabilidad sobre todo su vocabulario para determinar cuál será el siguiente "token" (palabra o sub-palabra). Los hiperparámetros de muestreo actúan sobre esta distribución para influir en cómo se selecciona el siguiente token.

Técnicamente, la temperatura modifica la distribución de probabilidad de los logits (los resultados brutos no normalizados) del modelo antes de aplicar la función Softmax.

2

Los Hiperparámetros Clave

Temperature (El Termostato)

Controla la aleatoriedad. Temperaturas bajas (→0) generan respuestas predecibles y conservadoras. Temperaturas altas (→2) fomentan la creatividad y la diversidad.

Top-p (Nucleus Sampling)

Filtra dinámicamente el conjunto de tokens candidatos basándose en su probabilidad acumulada. Es un método adaptativo para mantener la coherencia.

Top-k (Filtro Fijo)

Limita la selección a los 'k' tokens más probables. Es un método más simple pero menos flexible que Top-p para evitar opciones extrañas.

3

La Interacción Sinergética

La `Temperatura` es el "acelerador de la creatividad": da oportunidad a opciones raras e inesperadas.

El `Top_p` es el "guardarraíl de la coherencia": elimina la "cola larga" de opciones absurdas, sin importar cuán alta sea la temperatura.

La práctica experta consiste en ajustar ambos para lograr un control granular: usar la temperatura para fomentar la diversidad y `top_p` para mantener la calidad y relevancia. Muchos de los modelos actuales de IA no usan o no permiten la modificación del top_k, por lo que aquí nos centramos la combinación de variaciones de T y top_p.

4

Perfiles de Configuración (Pulsa para explorar)

poca creatividad

mucha creatividad

Casos de Uso:

5

Recomendaciones para el uso de los hiperparámetros

Es importante averiguar las peculiaridades de uso de los hiperprámetros por parte de cada modelo de IA (p. e. algunos modelos desaconsejan mezclar T y top_p). Se recomienda consultar los modelos oficiales o preguntar al propio modelo antes de usarlos.

6

¿Se puede usar directamente los hiperparámetros en un prompt?

La respuesta es no. Los LLM no leen los datos de los hiperparámetros como una orden de sistema, sino como texto ordinario; si se escriben en el prompt, el modelo los interpretará como datos o instrucciones narrativas, pero no ajustará su muestreo interno, e incluso podría inducir a errores de interpretación. Para usarlos hay que hacerlo a través de las opciones de configuración vía API, aunque sí se pueden usar en las instrucciones personalizadas de Proyectos o GPTs Personalizados en ChatGPT y usando Visual Studio en el caso de Gemini de Google (sin embargo, los datos numéricos de hiperparámetros en las intrucciones de los Gems no son identificadas como tales en este modelo).

La alternativa, en el caso de prompts o instrucciones de Gems es influir en el estilo de la respuesta para que se comporte como si se hubieran ajustado esos parámetros. Para ello hay que usar instrucciones en lenguaje natural, es decir, "traducir" el efecto técnico del hiperparámetro a una instrucción de comportamiento en lenguaje natural.

7

Transcripción a lenguaje natural para 5 perfiles de configuración (pulsa para ver cada modelo)