¿El fin de los humanos evaluadores y del Human In The Loop?

¿El fin de los humanos evaluadores y del Human In The Loop?

Justo hace unos días hablábamos de la importancia del humano en el ciclo del entrenamiento de una aplicación que utiliza LLM y, justo ahora se empieza a hablar del nuevo modelo de Meta (aunque el paper es de Agosto).

«Self-Taught Evaluators» es la técnica que han propuesto los investigadores de Meta para la evaluación de modelos de lenguaje, algo clave para seguir mejorando nuestras herramientas de IA.

¿En qué consiste?

El desafío de la evaluación de modelos

Como sabemos, la evaluación de modelos de lenguaje grandes (LLM) depende mucho de evaluadores sólidos en cada etapa del desarrollo, lo que normalmente requiere anotaciones humanas. Sin embargo, este proceso es lento, costoso, y a medida que los modelos avanzan, las anotaciones tienden a quedarse obsoletas.

¿Qué son los Self-Taught Evaluators?

Esta investigación introduce un método iterativo de autoaprendizaje que mejora los evaluadores sin depender tanto de las anotaciones humanas, utilizando datos sintéticos.

Su funcionamiento es como sigue:

  1. Punto de partida: Se parte de un conjunto inicial de instrucciones escritas por humanos y un modelo de lenguaje de referencia.
  2. Selección de instrucciones: Se identifican las más desafiantes y equilibradas con ayuda del modelo.
  3. Generación de pares de respuestas: Se generan dos respuestas por cada instrucción, donde una es claramente mejor que la otra.
  4. Entrenamiento iterativo: El modelo se entrena iterativamente con estos pares, descartando los juicios incorrectos y ajustándose con los correctos.

Resultados

El estudio aplicó este método con Llama-3-70B-Instruct y lograron mejorar la precisión de la evaluación en RewardBench, pasando de 75.4 a 88.7 con votación mayoritaria. ¡Este enfoque logra resultados tan buenos como los de los evaluadores entrenados con datos etiquetados por humanos!

¿Qué significa esto para el futuro?

Este enfoque de «Self-Taught Evaluators» podría cambiar radicalmente cómo evaluamos y desarrollamos los LLM. Al reducir la necesidad de anotaciones humanas, se puede acelerar el progreso en la investigación y desarrollo de estos modelos.


Enlace al Modelo: https://huggingface.co/facebook/Self-taught-evaluator-llama3.1-70B

Enlace al paper: https://arxiv.org/pdf/2408.02666

Deja un comentario

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *