Ha habido una batalla constante entre la IA de código abierto y la propietaria.

La guerra ha sido encarnizada, hasta el punto de que Sam Altman dijo una vez en su visita a la India que los desarrolladores pueden intentar construir IA como ChatGPT, pero que nunca tendrán éxito en este empeño.

Pero se ha demostrado que Sam estaba equivocado.

Un equipo de investigadores ha publicado recientemente un artículo de investigación en ArXiv que muestra cómo se pueden ensamblar múltiples LLM de código abierto para lograr un rendimiento de vanguardia en múltiples puntos de referencia de evaluación de LLM, superando a GPT-4 Omni, el modelo ápice de OpenAI.

Llamaron a este modelo Mezcla de Agentes (MoA).

Demostraron que una Mezcla de Agentes formada únicamente por LLM de código abierto obtuvo un 65,1% en AlpacaEval 2.0, frente al 57,5% de GPT-4 Omni.

Esto es impresionante.

Esto significa que el futuro de la IA ya no está en manos de las grandes tecnológicas que construyen software a puerta cerrada, sino que es más democrático, transparente y colaborativo.

También significa que los desarrolladores ya no pueden centrarse en entrenar un solo modelo en varios billones de fichas, lo que requiere un requisito informático increíblemente costoso de cientos de millones de dólares.

En su lugar, pueden aprovechar la experiencia colaborativa de múltiples LLM con diversos puntos fuertes para obtener resultados impresionantes.

En este artículo profundizamos en el modelo de mezcla de agentes, en qué se diferencia de la mezcla de expertos (MoE) y cómo funciona en distintas configuraciones.

¿Cómo funciona la mezcla de agentes?

El modelo de Mezcla de Agentes (MoA) se basa en un fenómeno denominado « Colaboración de los LLM».

Es cuando un LLM genera mejores respuestas cuando se le dan los resultados de otros LLMs, incluso cuando estos otros LLMs son menos capaces por sí mismos.

LLMs demostrando Colaboratividad a través de la ganancia de rendimiento en el AlpacaEval 2.0 LC tasas de ganancia cuando se les proporciona respuestas de otros modelos (Imagen del trabajo de investigación original)

Aprovechando este fenómeno, el modelo MoA se organiza en múltiples capas, cada una formada por múltiples LLM (agentes).

Cada agente LLM de una capa recibe información de todos los agentes de la capa anterior y genera una salida basada en la información combinada.

Así es como funciona en detalle.

Los agentes LLM de la primera capa reciben una pregunta.

Las respuestas que generan se transmiten a los agentes de la capa siguiente.

Este proceso se repite en cada capa, donde cada capa refina las respuestas generadas por la anterior.

La última capa agrega las respuestas de todos los agentes y da lugar a un único resultado de alta calidad del modelo global.

La estructura del modelo de Mezcla de Agentes con 4 capas MoA que constan de 3 agentes en cada capa (Imagen del trabajo de investigación original)

Consideremos un modelo MoA formado por l capas, en el que cada capa i contiene n LLM (cada una de ellas denominada A(i,n)).

Para una entrada dada x(1), la salida de la capa i-ésima, denominada y(i), puede expresarse de la siguiente manera.

Salida de la capa i-ésima de un modelo de Mezcla de Agentes de l capas (Imagen creada por el autor)

donde:

y(i) es la salida de la capa i-ésima
A(i,j) es el j-ésimo agente LLM de la capa i-ésima
x(i) es la entrada de la capa i-ésima
+ representa la concatenación de textos
⨁ representa la aplicación de la orden de agregar y sintetizar a las salidas (se muestra en la imagen siguiente)

La función de agregar y sintetizar para integrar respuestas de otros modelos (Imagen del trabajo de investigación original)

Sólo se utiliza un agente LLM (A(1,l)) en la última capa (l) y esta salida es la respuesta final del modelo MoA utilizada para la evaluación del modelo.

Funciones de los distintos agentes LLM en la mezcla de agentes

Los LLM utilizados en una capa de MoA pueden ser de dos tipos diferentes:

Proponentes: El papel de estos LLMs es generar diversas respuestas que pueden no puntuar muy alto en las métricas de rendimiento individualmente.
Agregadores: El papel de estos LLM es agrupar las respuestas procedentes de los Proponentes para generar una única respuesta de alta calidad.

Se observó que Qwen1.5 y LLaMA-3 eran eficaces tanto como Proponentes como Agregadores.

Por otro lado, WizardLM y Mixtral-8x22B fueron mejores cuando se utilizaron como Proponentes.

Rendimiento de diferentes LLM como proponentes y agregadores en la prueba AlpacaEval 2.0 (Imagen del trabajo de investigación original)

Espera, pero esto se parece un poco al modelo de mezcla de expertos

Sí. El modelo MoA se inspira en el modelo de mezcla de expertos (MoE). Pero también hay diferencias considerables.

Aprendamos primero qué es el modelo de mezcla de expertos.

Propuesto en 2017, el modelo MoE combina múltiples redes neuronales llamadas Expertos que se especializan en diferentes conjuntos de habilidades (comprensión del lenguaje natural, generación de código, resolución de problemas matemáticos y más).

Un modelo MoE consta de múltiples capas denominadas capas MoE que, a su vez, contienen múltiples redes de expertos.

Estos expertos se activan de forma selectiva en función de la entrada dada, y una red Gating se encarga de esta tarea.

Esta red asigna diferentes pesos a las salidas de los distintos expertos, controlando así su influencia en la salida combinada por la red Gating.

Para una capa MoE, su salida puede expresarse matemáticamente de la siguiente manera.

Output of a Mixture-of-Experts layer (Image created by author)

Donde:

x(i) es la entrada a la i-ésima capa MoE
G(i,j) es la salida de la red de compuerta correspondiente al j-ésimo experto en la i-ésima capa
E(i,j) es la función calculada por el j-ésimo experto en la i-ésima capa.

Aunque parecen muy similares, cuando se comparan con MoE, el modelo MoA

utiliza LLM completos en lugar de subredes en las distintas capas
agrega los resultados de varios agentes mediante un indicador (Aggregate-and-Synthesize prompt) en lugar de una red Gating
elimina la necesidad de ajuste fino y modificación interna de la arquitectura LLM y puede utilizar cualquier LLM por sí solo como parte

Rendimiento del modelo de mezcla de agentes

El modelo MoA construido por los investigadores estaba formado por los siguientes modelos:

La estructura del modelo incluía tres capas con el mismo conjunto de modelos en cada capa.

Qwen1.5-110B-Chat se utilizó como agregador en la última capa.
Junto a ésta se crearon otras dos variantes, a saber

MoA con GPT-4o: Esta variante utilizó GPT-4o como agregador en la capa final.
MoA-Lite: Esta variante utilizaba dos capas en lugar de tres, con Qwen1.5-72B-Chat como agregador en la capa final. Su objetivo era reducir el coste global asociado al uso del modelo.

El rendimiento de estas arquitecturas se evaluó utilizando tres puntos de referencia estándar -

Los resultados se muestran a continuación.

Rendimiento en AlpacaEval 2.0

Durante la evaluación, la métrica 'Win' mide la tasa de preferencia de la respuesta de un modelo comparada con la del GPT-4 (gpt-4-1106-preview), con un evaluador basado en el GPT-4.

Otra métrica -'Length-controlled (LC) Win', garantiza una comparación más justa ajustando la longitud de respuesta de cada modelo para neutralizar el sesgo de longitud.

El modelo MoA logró una impresionante mejora absoluta del 8,2% en LC Win con respecto al GPT-4o. Incluso la variante económica MoA-Lite superó a GPT-4o en un 1,8% en esta métrica.

Rendimiento en la prueba AlpacaEval 2.0 (Imagen del trabajo de investigación original)

Rendimiento en MT-Bench

Este benchmark utiliza tres métricas que puntúan los modelos sobre 10.

Avg: la puntuación media global obtenida por un modelo
1er turno: puntuación de la respuesta inicial
2º turno: puntuación de la respuesta de seguimiento en una conversación.

MoA y MoA-Lite mostraron un rendimiento muy competitivo en comparación con GPT-4o en esta prueba.

Rendimiento en la prueba MT-Bench (Imagen del trabajo de investigación original)

Rendimiento en FLASK

Esta prueba proporciona una evaluación más detallada del rendimiento de los modelos.

MoA sobresalió en muchas métricas de FLASK en comparación con GPT-4o, excepto en Concisión, ya que sus resultados eran más verbosos.

Rendimiento en la prueba FLASK (Imagen del trabajo de investigación original)

Coste y eficiencia computacional

En cuanto a la eficiencia de costes, MoA-Lite igualó el coste de GPT-4o al tiempo que conseguía una alta calidad de respuesta (mayor porcentaje de victorias en la LC).

Por lo demás, MoA fue la mejor configuración para lograr el mayor porcentaje de LC ganadas, independientemente del coste.

Este resultado fue contrario al de GPT-4 Turbo y GPT-4o, que no eran óptimos en cuanto a coste, pero sí más caros que los enfoques MoA con el mismo porcentaje de LC ganadas.

También se descubrió que MoA y MoA-Lite utilizaban sus recursos computacionales de forma más eficaz para lograr altos porcentajes de LC ganadas en comparación con GPT-4 Turbo y GPT-4o.

Gráficos de (a) Tasa de ganancias LC frente a coste y (b) Tasa de ganancias LC frente a tflops. La línea discontinua representa el frente de Pareto que indica el compromiso más eficiente entre rendimiento y uso de recursos. La configuración Single-proposer utiliza el mismo modelo, mientras que la configuración Multi-proposer utiliza diferentes modelos en cada capa MoA para generar las respuestas. (Imagen del trabajo de investigación original)

Fuente