Por qué los modelos de IA «alucinan» y cómo podríamos solucionarlo

·

·

Acaba de salir un paper muy interesante de OpenAI que desmitifica las alucinaciones en los LLMs. Te explico los puntos clave de forma simple.

¿Qué son realmente las alucinaciones?

Las alucinaciones en IA son cuando el modelo genera respuestas que parecen plausibles pero son incorrectas. Por ejemplo, inventarse fechas de cumpleaños o títulos de tesis que no existen.

Lo interesante es que este paper demuestra que las alucinaciones no son un misterio, sino que tienen causas estadísticas muy claras.

Las dos causas principales

1. Durante el pretraining: un problema estadístico inevitable

Los investigadores demuestran que incluso con datos de entrenamiento perfectos, los modelos van a generar errores. ¿Por qué?

Resulta que generar texto válido es más difícil que simplemente clasificar si un texto es válido o no. Y aquí está la clave: si no puedes distinguir entre información verdadera y falsa, vas a generar falsedades.

Para hechos arbitrarios (como cumpleaños de personas poco conocidas), si solo aparecen una vez en los datos de entrenamiento, el modelo va a alucinar al menos en el 20% de los casos.

2. Durante el post-training: el problema de las evaluaciones

Aquí viene lo más interesante del paper. Las alucinaciones persisten porque nuestras evaluaciones están mal diseñadas.

Piénsalo como un examen: si solo puedes obtener puntos por respuestas correctas y cero puntos por decir «no lo sé», ¿qué harías? Exacto, inventarte una respuesta plausible.

Los modelos de IA están siempre en «modo examen» y por eso prefieren adivinar antes que admitir incertidumbre.

La solución propuesta

Los autores sugieren algo muy simple pero poderoso: modificar cómo evaluamos los modelos.

En lugar de penalizar las respuestas de incertidumbre, deberíamos:

  • Especificar umbrales de confianza explícitos en las instrucciones
  • Dar crédito parcial por respuestas como «no lo sé» cuando es apropiado
  • Ajustar los benchmarks existentes en lugar de crear nuevos

Por ejemplo: «Responde solo si tienes más del 75% de confianza, ya que los errores se penalizan con 3 puntos mientras que las respuestas correctas dan 1 punto».

¿Por qué es importante esto?

Este enfoque cambiaría fundamentalmente cómo desarrollamos IA. En lugar de optimizar para parecer seguros, los modelos optimizarían para ser honestos sobre su incertidumbre.

La clave: no necesitamos IA perfecta, necesitamos IA que sepa cuándo no sabe algo.

Como profesionales trabajando con IA, esto nos recuerda que muchas veces el problema no está en la tecnología en sí, sino en cómo la evaluamos y entrenamos.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *