Sampling en Modelos de Lenguaje: Fundamentos y Estrategias Avanzadas

El proceso de generación de texto en modelos de Inteligencia Artificial, particularmente en los Grandes Modelos de Lenguaje (LLMs), es intrínsecamente probabilístico. La selección del siguiente token a generar se basa en una distribución de probabilidad derivada del contexto previo. En este artículo, se analizan en profundidad los métodos de sampling empleados en estos modelos, evaluando su impacto en la coherencia, diversidad y control sobre la aleatoriedad del texto generado.

Fundamentos del Sampling en Modelos de Lenguaje

Los modelos de lenguaje generan texto de manera secuencial, token por token. En cada paso, el modelo estima una distribución de probabilidad sobre el vocabulario, lo que permite seleccionar la palabra siguiente. Este proceso involucra tres etapas clave:

1. Cálculo de Logits

El modelo computa un conjunto de logits, que son valores numéricos no normalizados que reflejan la preferencia del modelo por cada token en el vocabulario:

Los logits pueden asumir valores positivos o negativos.
Un logit más alto indica una mayor propensión del modelo a seleccionar el token correspondiente.

2. Normalización con Softmax

Dado que los logits no constituyen una distribución de probabilidad válida, se emplea la función softmax para convertirlos en probabilidades. Esta transformación garantiza que:

Todas las probabilidades sean positivas.
La suma de las probabilidades sea 1.
Se preserve la relación relativa entre los logits originales.

3. Selección del Token

Una vez obtenida la distribución de probabilidad, se emplea una estrategia de sampling para seleccionar el siguiente token. Examinaremos a continuación las técnicas más utilizadas.

Métodos de Sampling en Modelos Generativos

1. Sampling por Temperatura

La temperatura T es un parámetro que controla la aleatoriedad en la selección de tokens. Se aplica dividiendo los logits entre antes de aplicar softmax.

T > 1 suaviza la distribución de probabilidad, permitiendo una mayor exploración y diversidad.
T > 1 acentúa la diferencia entre probabilidades, favoreciendo selecciones deterministas.

Ejemplo Comparativo:

Para ilustrar el efecto de la temperatura en la selección de tokens, consideremos un caso en el que el modelo debe elegir entre cinco palabras: «azul», «rojo», «verde», «el» y «como». A diferentes valores de temperatura:

Con T = 0.5, el modelo se inclina fuertemente hacia la opción más probable, asignando un 65% de probabilidad a «azul» y solo un 2% a «como».
Con T = 1.0, la distribución es más equilibrada, con «azul» al 40% y «como» al 8%.
Con T = 2.0, la selección es más aleatoria, con probabilidades más uniformes: «azul» 25%, «rojo» 22%, «verde» 20%, «el» 17% y «como» 16%.

A medida que la temperatura aumenta, el modelo explora opciones menos probables, lo que incrementa la diversidad pero también puede reducir la coherencia del texto generado.

2. Sampling Top-K

Este método restringe la selección a los K tokens con mayor probabilidad, eliminando aquellos con valores marginales.

Procedimiento:

Se ordenan los tokens según su probabilidad en orden descendente.
Se retienen únicamente los K tokens con mayor probabilidad.
Se normalizan las probabilidades y se realiza sampling dentro de este subconjunto.

Ventajas:

Reduce la generación de texto incoherente al eliminar opciones poco probables.
Mantiene una selección controlada sin eliminar completamente la variabilidad.

Desventaja:

No se adapta dinámicamente a la distribución de probabilidades; si K es pequeño, se puede perder diversidad.

3. Sampling Top-P (Nucleus Sampling)

A diferencia de Top-K, Top-P selecciona un conjunto dinámico de tokens cuya suma acumulativa de probabilidades exceda un umbral P predefinido.