RAG en comparación con fine-tuning

Caminos semaforizados cerca del Big Ben y el palacio de Westminster al fondo al atardecer, Londres, Reino Unido.

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

RAG en comparación con fine-tuning

La generación aumentada por recuperación (RAG, por sus siglas en inglés) y el fine-tuning son dos métodos que las empresas pueden utilizar para obtener más valor de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Ambos funcionan adaptando el LLM a los casos de uso específicos, pero las metodologías que los sustentan difieren significativamente.

Aunque la IA generativa ha avanzado mucho desde sus inicios, la tarea de generar respuestas automáticas en tiempo real a las consultas de los usuarios sigue siendo un reto importante. A medida que las empresas se apresuran a incorporar la IA generativa a sus procesos para reducir costes, agilizar los flujos de trabajo y adelantarse a la competencia, a menudo tienen dificultades para conseguir que sus chatbots y otros modelos generen respuestas precisas de forma fiable.

¿Cuál es la diferencia entre RAG y fine-tuning?

La diferencia entre RAG y fine-tuning es que RAG aumenta un modelo de procesamiento del lenguaje natural (PLN, por sus siglas en inglés) conectándolo a la base de datos propiedad de una organización, mientras que el fine-tuning optimiza los modelos de deep learning para tareas específicas del dominio. RAG y fine-tuning tienen el mismo objetivo: mejorar el rendimiento de un modelo para maximizar el valor para la empresa que lo utiliza.

RAG utiliza los datos internos de una organización para aumentar la prompt engineering, mientras que el fine-tuning reentrena un modelo en un conjunto específico de datos externos para mejorar el rendimiento.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

¿Por qué son importantes la RAG y el fine-tuning?

RAG conecta un LLM a almacenes de datos actuales y privados a los que, de otro modo, no podría acceder. Los modelos RAG pueden ofrecer respuestas más precisas con el contexto añadido de los datos internos que sin ellos.

Un modelo afinado suele superar a su modelo base correspondiente, como GPT-3 o GPT-4, cuando se aplica su entrenamiento con datos específicos del dominio. El LLM afinado comprende mejor el dominio específico y su terminología, lo que le permite generar respuestas precisas.

Sin un acceso continuo a nuevos datos, los grandes modelos lingüísticos se estancan. Los LLM modernos son redes neuronales masivas que requieren enormes conjuntos de datos y recursos informáticos para su entrenamiento. Incluso los mayores proveedores de LLM, como Meta, Microsoft y OpenAI, vuelven a entrenar sus modelos periódicamente, lo que hace que cualquier LLM se quede obsoleto casi al instante desde el momento en que se lanza al mercado.

Cuando los modelos no pueden aprender de los nuevos datos, a menudo alucinan o confabulan: un fenómeno que se produce cuando los modelos de IA generativa "inventan" respuestas a preguntas que no pueden responder de forma definitiva. Los modelos de IA generativa utilizan complejos algoritmos estadísticos para predecir las respuestas a las consultas de los usuarios. Si un usuario pregunta algo que la IA no puede encontrar fácilmente en su conjunto de datos de entrenamiento, lo mejor que puede hacer es adivinar.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

¿Qué es la generación aumentada por recuperación (RAG)?

RAG es un método de optimización de LLM introducido por Meta AI en un documento de 2020 titulado "Retrieval-Augmented Generation for Knowledge-Intensive Tasks".[1] Se trata de un marco de arquitectura de datos que conecta un LLM con los datos propiedad de una organización, a menudo almacenados en lakehouses de datos. Estas vastas plataformas de datos son dinámicas y contienen todos los datos que circulan por la organización a través de todos los puntos de contacto, tanto internos como externos.

¿Cómo funciona RAG?

La generación aumentada por recuperación funciona localizando información en fuentes de datos internas que es relevante para la consulta del usuario y, a continuación, utiliza esos datos para generar respuestas más precisas. Se añade un mecanismo de "recuperación" de datos para "aumentar" el LLM ayudándole a "generar" respuestas más pertinentes.

Los modelos RAG generan respuestas mediante un proceso de cuatro etapas:

  1. Consulta: Un usuario envía una consulta, que inicializa el sistema RAG.

  2. Recuperación de información: Complejos algoritmos peinan las bases de conocimiento de la organización en busca de información relevante.

  3. Integración: Los datos recuperados se combinan con la consulta del usuario y se dan al modelo RAG para que responda. Hasta este momento, el LLM no ha procesado la consulta.

  4. Respuesta: Combinando los datos recuperados con su propia formación y los conocimientos almacenados, el LLM genera una respuesta contextualmente precisa.

Al buscar en documentos internos, los sistemas GAR utilizan la búsqueda semántica. a. Las bases de datos vectoriales organizan los datos por similitud, lo que permite realizar búsquedas por significado, en lugar de por palabra clave. Las técnicas de búsqueda semántica permiten a los algoritmos RAG llegar más allá de las palabras clave hasta la intención de una consulta y devolver los datos más relevantes.

Los sistemas GAR requieren una amplia construcción y mantenimiento de la arquitectura de datos. Los ingenieros de datos deben construir las canalizaciones de datos necesarias para conectar los almacenes de lakehouses de su organización con el LLM.

Para conceptualizar la GAR, imaginemos un modelo de IA gen como un cocinero casero aficionado. Conoce los fundamentos de la cocina, pero carece del conocimiento experto (la base de datos patentada de una organización) de un chef formado en una cocina concreta. La GAR es como darle al cocinero casero un libro de recetas de esa cocina. Combinando sus conocimientos generales de cocina con las recetas del libro, el cocinero casero puede crear con facilidad sus platos favoritos de una cocina específica.

El proceso de recuperación de datos RAG

Para utilizar eficazmente la GAR, los ingenieros de datos deben crear sistemas de almacenamiento de datos y canalizaciones que cumplan una serie de criterios importantes.

Almacenamiento de datos empresariales

Para mejorar las funciones del sistema GAR y permitir la recuperación de datos en tiempo real, estos deben organizarse y mantenerse meticulosamente. Unos metadatos actualizados y una redundancia de datos mínima contribuyen a garantizar una consulta eficaz.

Almacenamiento de documentos

Dividir los datos no estructurados, como los documentos, en fragmentos más pequeños puede facilitar una recuperación más eficaz. Este tipo de "fragmentación" de los datos permite a los sistemas GAR proporcionar datos más precisos y reducir costes, ya que solo se incluirá en la consulta del LLM la parte más relevante del documento.

A continuación, los trozos se incrustan (un proceso que convierte el texto en números) en una base de datos vectorial.

Protección de datos

Las canalizaciones de datos deben incluir restricciones de seguridad para impedir que los empleados accedan a los datos más allá del ámbito de sus respectivas funciones. Y a raíz de la legislación histórica sobre privacidad, como el RGPD de la UE, las organizaciones deben aplicar protecciones de datos rigurosas a todos los datos internos. La información de identificación personal nunca debe ponerse a disposición de usuarios no autorizados.

Ajuste de solicitud de información

El sistema RAG combina la consulta del usuario con los datos de origen para crear una instrucción a medida para el LLM. Un proceso continuo de ajuste de instrucciones facilitado por otros modelos de machine learning puede fortalecer la capacidad del sistema RAG para responder preguntas a lo largo del tiempo.

¿Qué es el fine-tuning?

El fine-tuning es el proceso de volver a entrenar un modelo preentrenado con un conjunto de datos de entrenamiento más pequeño y específico para dotarlo de conocimientos propios del dominio. A continuación, el modelo ajusta sus parámetros (las directrices que rigen su comportamiento) y sus incrustaciones para adaptarse mejor al conjunto de datos específico.

¿Cómo funciona el fine-tuning?

El fine-tuning consiste en exponer un modelo a un conjunto de datos de ejemplos etiquetados. El modelo mejora su entrenamiento inicial a medida que actualiza las ponderaciones del modelo en función de los nuevos datos. El fine-tuning es un método de aprendizaje supervisado, lo que significa que los datos utilizados en el entrenamiento están organizados y etiquetados. En cambio, la mayoría de los modelos de base se someten a un aprendizaje no supervisado, en el que los datos no están ordenados: el modelo debe categorizarlos por sí solo.

Imaginando de nuevo un modelo de IA generativa como un cocinero casero, el perfeccionamiento sería un curso de cocina específica. Antes de hacer el curso, el cocinero casero tendría un conocimiento general de los fundamentos de la cocina. Pero después de recibir formación culinaria y adquirir conocimientos específicos, sería mucho más competente a la hora de cocinar ese tipo de comida.

Fine-tuning completo en comparación con fine-tuning con parámetros eficientes

Los modelos pueden completamente afinados, que actualiza todos sus parámetros, o afinados de tal modo que se actualicen solo los parámetros más relevantes. Este último proceso se conoce como ajuste fine-tuning eficiente de parámetros (PEFT, por sus siglas en inglés) y es excelente para hacer que los modelos sean más eficaces en un dominio determinado manteniendo bajos los costes de formación.

El fine-tuning de un modelo es un proceso de cálculo intensivo que requiere varias GPU potentes funcionando en tándem, por no hablar de la memoria necesaria para almacenar el propio LLM. El PEFT permite a los usuarios de LLM volver a entrenar sus modelos en configuraciones de hardware más sencillas y, al mismo tiempo, obtener mejoras de rendimiento comparables en el caso de uso previsto del modelo, como la atención al cliente o el análisis de opiniones. El fine-tuning ayuda especialmente a los modelos a superar el sesgo, es decir, la diferencia entre las predicciones del modelo y los resultados reales.

Fine-tuning en comparación con preentrenamiento continuo

El preentrenamiento tiene lugar al principio del proceso de entrenamiento. Los pesos o parámetros del modelo se inician aleatoriamente y el modelo comienza a entrenarse con su conjunto inicial de datos. El preentrenamiento continuo introduce un modelo entrenado en un nuevo conjunto de datos sin etiquetar en una práctica conocida como aprendizaje por transferencia. El modelo preentrenado "transfiere" lo que ha aprendido hasta el momento a la nueva información externa.

En cambio, el fine-tuning utiliza datos etiquetados para perfeccionar el rendimiento de un modelo en un caso de uso seleccionado. El fine-tuning es excelente para perfeccionar la experiencia de un modelo en tareas específicas, mientras que el preentrenamiento continuo puede profundizar la experiencia de dominio de un modelo.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 “Retrieval-Augmented Generation for Knowledge-Intensive NLP Task”. Lewis et al. 12 de abril de 2021.