xLAM: Una Nueva Familia de Modelos de Acción para Agentes Autónomos
Introducción
Los agentes autónomos impulsados por grandes modelos de lenguaje (LLMs) han ganado un considerable interés en la investigación. Sin embargo, la comunidad de código abierto enfrenta importantes obstáculos para desarrollar modelos especializados para tareas de agentes, principalmente debido a la disponibilidad limitada de conjuntos de datos de alta calidad y a la falta de protocolos estandarizados en este campo.
Presentación de xLAM
En un nuevo artículo titulado **xLAM: A Family of Large Action Models to Empower AI Agent Systems**, un equipo de Salesforce AI Research presenta la serie xLAM, una colección de modelos de acción de gran tamaño diseñados para mejorar el rendimiento de los LLMs de código abierto para agentes autónomos. Este trabajo tiene como objetivo acelerar la innovación en el campo y hacer que modelos de alto rendimiento para tareas de agentes sean más accesibles.
Diseño de los Modelos xLAM
Los modelos xLAM están optimizados para diversas aplicaciones, con modelos más pequeños (1B y 7B) que son ideales para implementaciones en dispositivos, y modelos más grandes (8x7B y 8x22B) que están orientados a tareas más complejas.
Pipeline de Entrenamiento
El pipeline de entrenamiento para xLAM abarca varias etapas clave, incluyendo:
– **Unificación de datos**
– **Aumento de datos**
– **Verificación de calidad**
– **Síntesis de datos de instrucciones generales**
– **Generación de datos de preferencias**
Proceso de Unificación de Datos
Una característica destacada del pipeline xLAM es su proceso de unificación de datos, que estandariza la información utilizando varios módulos: instrucciones de tareas, herramientas disponibles, pautas de formato, ejemplos con pocos disparos, consultas y pasos. Este formato unificado asegura la compatibilidad en una amplia gama de entornos y tareas, permitiendo que el pipeline se escale y se adapte a diferentes conjuntos de datos.
Estrategia de Aumento de Datos
La estrategia de aumento de datos se centra en incrementar la diversidad del conjunto de datos aplicando diversas transformaciones y generando datos sintéticos para enriquecer el grupo de entrenamiento. El equipo empleó dos técnicas clave de aumento:
1. **Aumento de formato de prompt**: Consiste en crear diferentes estructuras de prompt basadas en el formato de datos unificado.
2. **Aumento de seguimiento de instrucciones**: Mejora la capacidad del modelo para seguir diversas instrucciones, lo que potencia su capacidad general.
Modelos Especializados
Los investigadores también introducen múltiples modelos de agente adaptados a casos de uso específicos. La serie xLAM insignia se basa en los modelos Mixtral Instruct, con el objetivo de ofrecer un rendimiento equilibrado en una amplia gama de tareas de agentes, desde diálogos complejos de múltiples turnos hasta aplicaciones de llamadas a funciones.
Adicionalmente, el equipo desarrolló dos modelos especializados para tareas de llamadas a funciones, **xLAM-7B-fc-r** y **xLAM-1B-fc-r**, basados en **DeepSeek-Coder-7B-instruct-v1.5** y **DeepSeek-Coder-1.3B-instruct**, respectivamente.
Evaluaciones Experimentales
Las evaluaciones experimentales muestran que xLAM logra consistentemente resultados de primer nivel en varios benchmarks para capacidades de agentes. Notablemente, obtuvo la primera posición en la **Berkeley Function-Calling Leaderboard**, superando a modelos líderes como GPT-4 y Claude-3 en tareas de uso de herramientas.
Accesibilidad y Recursos
El código está disponible en el GitHub del proyecto, y el artículo **xLAM: A Family of Large Action Models to Empower AI Agent Systems** se puede encontrar en arXiv. Esta iniciativa no solo promete impulsar la eficacia de los LLM en tareas de agentes, sino que también allana el camino para un futuro más accesible e innovador en el desarrollo de inteligencia artificial autónoma.