Los modelos de lenguaje pequeños (SLM) son modelos de inteligencia artificial (IA) capaces de procesar, comprender y generar contenido de lenguaje natural. Como su nombre indica, los SLM son de menor escala y alcance que los modelos de lenguaje de gran tamaño (LLM).
En términos de tamaño, los parámetros de los SLM oscilan entre unos pocos millones y unos pocos miles de millones, a diferencia de los LLM, que cuentan con cientos de miles de millones o incluso billones de parámetros. Los parámetros son variables internas, como ponderaciones y sesgos, que un modelo aprende durante el entrenamiento. Estos parámetros influyen en el comportamiento y el rendimiento de un modelo de machine learning.
Los modelos de lenguaje pequeños son más compactos y eficientes que sus homólogos de modelos grandes. Como tales, los SLM requieren menos memoria y potencia computacional, lo que los hace ideales para entornos con recursos limitados, como los dispositivos edge y las aplicaciones móviles, o incluso para escenarios en los que la inferencia de IA (cuando un modelo genera una respuesta a la consulta de un usuario) debe hacerse sin conexión, sin una red de datos.
Los LLM sirven como base para los SLM. Al igual que los modelos de lenguaje de gran tamaño, los modelos de lenguaje pequeños emplean una arquitectura basada en redes neuronales conocida como modelo de transformador. Los transformadores se han convertido en fundamentales en el procesamiento del lenguaje natural (PLN) y actúan como bloques de construcción de modelos como el transformador generativo preentrenado (GPT).
He aquí una breve descripción de la arquitectura del transformador:
● Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones que capturan la semántica y la posición de los tokens en la secuencia de entrada.
● Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.
● Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.
Las técnicas de compresión de modelos se aplican para crear un modelo más ágil a partir de uno más grande. Comprimir un modelo implica reducir su tamaño y, al mismo tiempo, conservar la mayor precisión posible. Estos son algunos métodos comunes de compresión de modelos:
● Poda
● Cuantificación
● Factorización de bajo rango
● Destilación de conocimiento
La poda elimina parámetros menos cruciales, redundantes o innecesarios de una red neuronal. Los parámetros que generalmente se podan incluyen las ponderaciones numéricas correspondientes a las conexiones entre neuronas (en este caso, las ponderaciones se establecerán en 0), las propias neuronas o las capas de una red neuronal.
Los modelos podados necesitarán a menudo ser afinados después de la poda para compensar cualquier pérdida de precisión. Y es vital saber cuándo se han podado suficientes parámetros, ya que la poda excesiva puede degradar el rendimiento de un modelo.
La cuantificación convierte los datos de alta precisión en datos menos precisos. Por ejemplo, las ponderaciones y los valores de activación del modelo (un número entre 0 y 1 asignado a las neuronas de una red neuronal) pueden representarse como números enteros de 8 bits en lugar de números de coma flotante de 32 bits. La cuantificación puede aligerar la carga computacional y acelerar la inferencia.
La cuantificación puede incorporarse al entrenamiento del modelo (conocido como entrenamiento consciente de la cuantificación o QAT) o realizarse después del entrenamiento (llamada cuantificación posterior al entrenamiento o PTQ). La PTQ no requiere tanta potencia computacional y datos de entrenamiento como el QAT, pero el QAT puede producir un modelo más preciso.
La factorización de bajo rango descompone una gran matriz de ponderaciones en una matriz más pequeña y de menor rango. Esta aproximación más compacta puede dar lugar a menos parámetros, disminuir el número de cálculos y simplificar las operaciones matriciales complejas.
Sin embargo, la factorización de bajo rango puede ser intensiva desde el punto de vista computacional y más difícil de implementar. Al igual que la poda, la red factorizada requerirá de afinación para recuperar cualquier pérdida de precisión.
La destilación de conocimiento implica transferir los aprendizajes de un "modelo maestro" preentrenado a un "modelo estudiante". El modelo estudiante está entrenado no solo para coincidir con las predicciones del modelo maestro, sino también para imitar su proceso subyacente de razonamiento. Como tal, el conocimiento de un modelo más grande se "destila" esencialmente en uno más pequeño.
La destilación de conocimiento es un enfoque popular para muchos SLM. Normalmente se utiliza el esquema de destilación sin conexión, en el que las ponderaciones del modelo maestro se congelan y no pueden modificarse durante el proceso de destilación.
Aunque los modelos más grandes siguen siendo la tecnología preferida por muchas empresas, los modelos más pequeños están ganando terreno con rapidez. Estos son algunos ejemplos de SLM populares:
● DistilBERT
● Gemma
● GPT-4o mini
● Granite
● Llama
● Ministral
● Phi
DistilBERT es una versión más ligera del modelo fundacional BERT de Google. Utiliza la destilación de conocimiento para hacerlo un 40 % más pequeño y un 60 % más rápido que su predecesor, a la vez que conserva el 97 % de las capacidades de comprensión del lenguaje natural1.
Otras versiones reducidas de BERT incluyen la diminuta con 4,4 millones de parámetros, la mini con 11,3 millones de parámetros, la pequeña con 29,1 millones de parámetros y la mediana con 41,7 millones de parámetros2. Por su parte, MobileBERT está diseñado para dispositivos móviles3.
Gemma está elaborado y destilado a partir de la misma tecnología que el LLM Gemini de Google y está disponible en tamaños de 2, 7 y 9 mil millones de parámetros4. Gemma está disponible a través de Google IA Studio y las plataformas Kaggle y Hugging Face.
Gemini también tiene variantes más ligeras en forma de Gemini 1.5 Flash-8B y Gemini 1.0 Nano diseñadas para funcionar en dispositivos móviles5.
GPT-4o mini forma parte de la familia de modelos de IA GPT-4 de OpenAI , que impulsa el chatbot de IA generativa ChatGPT. GPT-4o mini es una variante más pequeña y rentable de GPT-4o. Tiene capacidades multimodales, acepta entradas de texto e imágenes y produce salidas de texto.
Los usuarios de ChatGPT Free, Plus, Team y Enterprise pueden acceder a GPT-4o mini, que reemplaza a GPT-3.5. Los desarrolladores pueden acceder a GPT-4o mini a través de varias interfaces de programación de aplicaciones (API).
GraniteTM es la serie insignia de modelos fundacionales de LLM de IBM. La colección Granite 3.0 incluye modelos base preentrenados y ajustados con instrucciones con 2000 y 8000 millones de parámetros. Granite 3.0 también cuenta con SLM de mezcla de expertos (MoE ) para una latencia mínima y una variante optimizada para acelerar la velocidad de inferencia del modelo.
Estos modelos de código abierto destacan no solo en tareas específicas del lenguaje, sino también en dominios empresariales como la ciberseguridad, como agentes de IA que utilizan la llamada a herramientas o funciones para realizar tareas de forma autónoma, y en tareas de generación aumentada por recuperación (RAG) que implican recuperar hechos de una base de conocimientos externa para basar los modelos en la información más precisa y actualizada.
Los modelos Granite 3.0 están disponibles para uso comercial en la plataforma IBM watsonx y a través de Google Vertex IA, Hugging Face, NVIDIA (como microservicios NIM), Ollama y Replicate.
Llama es la línea de modelos de lenguaje de código abierto de Meta. Llama 3.2 está disponible en tamaños de 1 y 3 mil millones de parámetros6, incluso más pequeños que la versión anterior de 7 mil millones de parámetros de Llama 27.
Las versiones cuantificadas de estos modelos multilingües de solo texto se han reducido a más de la mitad de su tamaño y son de 2 a 3 veces más rápidas6. Se puede acceder a estos SLM a través de Meta, Hugging Face y Kaggle.
Les Ministraux es un grupo de SLM de Mistral AI. Ministral 3B es el modelo más pequeño de la empresa, con 3 mil millones de parámetros, mientras que Ministral 8B, con 8 mil millones de parámetros, es el sucesor de Mistral 7B, uno de los primeros modelos de IA que lanzó Mistral AI. Se puede acceder a ambos modelos a través de Mistral8.
Ministral 8B supera a Mistral 7B en las referencias que evalúan los conocimientos, el sentido común, las matemáticas y las habilidades multilingües. Para hacer una inferencia rápida, Ministral 8B utiliza la atención por ventana deslizante, un mecanismo dinámico para centrarse en ciertas "ventanas" de tamaño fijo de las secuencias de entrada, lo que permite a las modelos concentrarse solo en unas pocas palabras a la vez8.
Phi es un conjunto de pequeños modelos de lenguaje de Microsoft. Phi-2 tiene 2700 millones de parámetros, mientras que Phi-3-mini tiene 3800 millones9.
Phi-3-mini puede analizar y razonar sobre grandes contenidos de texto debido a su larga ventana de contexto, que es la cantidad máxima de texto que un modelo puede considerar. Según Microsoft, Phi-3-small, su SLM de 7 mil millones de parámetros, estará disponible en el futuro. Se puede acceder a Phi-3-mini en Microsoft Azure IA Studio, Hugging Face y Ollama9.
Los avances en el desarrollo de la IA han dado lugar a enfoques de optimización que maximizan el poder conjunto de los LLM y los SLM:
Patrón de IA híbrida: un modelo de IA híbrida puede hacer que modelos más pequeños se ejecuten en el entorno local y accedan a los LLM de la nube pública cuando se necesita un corpus de datos más grande para responder a una instrucción.
Enrutamiento inteligente: el enrutamiento inteligente puede aplicarse para distribuir de forma más eficiente las cargas de trabajo de la IA. Se puede crear un módulo de enrutamiento que acepte consultas, las evalúe y elija el modelo más adecuado al que dirigir las consultas. Los modelos de lenguaje pequeños pueden gestionar las consultas básicas, mientras que los modelos de lenguaje de gran tamaño pueden abordar las más complicadas.
Más grande no siempre es mejor, y lo que a los SLM les falta en tamaño, lo compensan con estas ventajas:
Accesibilidad: los investigadores, desarrolladores de IA y otras personas pueden explorar y experimentar con modelos de lenguaje sin tener que invertir en múltiples GPU (unidades de procesamiento gráfico) u otros equipos especializados.
Eficiencia: la ligereza de los SLM hace que requieran menos recursos, lo que permite un entrenamiento y una implementación rápidos.
Rendimiento efectivo: esta eficiencia no se produce a costa del rendimiento. Los modelos pequeños pueden tener un rendimiento comparable o incluso mejor que sus equivalentes de modelos grandes. Por ejemplo, GPT-4o mini supera a GPT-3.5 Turbo en comprensión del lenguaje, respuesta a preguntas, razonamiento, razonamiento matemático y referencias de LLM de generación de código10. El rendimiento de GPT-4o mini también está cerca del de su hermano mayor, GPT-4o10.
Mayor control de la privacidad y la seguridad: debido a su menor tamaño, los SLM pueden ser implementados en entornos privados de cloud computing o en entornos locales, lo que permite una mejor protección de los datos y una mejor gestión y mitigación de las amenazas a la ciberseguridad. Esto puede ser especialmente valioso para sectores como el financiero o el sanitario, donde tanto la privacidad como la seguridad son primordiales.
Menor latencia: un menor número de parámetros se traduce en tiempos de procesamiento más cortos, lo que permite a los SLM responder con rapidez. Por ejemplo, Granite 3.0 1B-A400M y Granite 3.0 3B-A800M tienen un recuento total de parámetros de 1000 millones y 3000 millones, respectivamente, mientras que sus recuentos de parámetros activos en la inferencia son 400 millones para el modelo 1B y 800 millones para el modelo 3B. Esto permite que ambos SLM minimicen la latencia y ofrezcan un alto rendimiento de inferencia.
Más sostenibles desde el punto de vista medioambiental: debido a que requieren menos recursos computacionales, los modelos de lenguaje pequeños consumen menos energía, lo que reduce su huella de carbono.
Reducción de costes: las organizaciones pueden ahorrar en gastos de desarrollo, infraestructura y funcionamiento (como la adquisición de enormes cantidades de datos de entrenamiento de alta calidad y el uso de hardware avanzado) que de otro modo serían necesarios para ejecutar modelos masivos.
Al igual que los LLM, los SLM aún tienen que lidiar con los riesgos de la IA. Esto es algo que deben tener en cuenta las empresas que buscan integrar modelos de lenguaje pequeños en sus flujos de trabajo internos o implementarlos comercialmente para aplicaciones específicas.
Sesgo: los modelos más pequeños pueden aprender del sesgo presente en sus contrapartes más grandes, y este efecto dominó puede manifestarse en sus resultados.
Disminución del rendimiento en tareas complejas: dado que los SLM suelen estar afinados en base a tareas específicas, pueden ser menos competentes a la hora de realizar tareas complejas que requieren conocimientos sobre un amplio espectro de temas. Por ejemplo, Microsoft señala que sus "modelos Phi-3 no rinden tan bien en las referencias de conocimiento de hechos, ya que el menor tamaño del modelo da como resultado una menor capacidad para retener hechos"9.
Generalización limitada: los modelos de lenguaje pequeños carecen de la amplia base de conocimientos de sus equivalentes expansivos, por lo que podrían ser más adecuados para tareas lingüísticas específicas.
Alucinaciones: validar los resultados de los SLM es vital para asegurarse de que lo que producen es objetivamente correcto.
Las empresas pueden afinar los SLM mediante conjuntos de datos específicos de un dominio para personalizarlos según sus necesidades concretas. Esta adaptabilidad implica que se pueden emplear modelos de lenguaje pequeños para una gran variedad de aplicaciones del mundo real:
Chatbots: gracias a su baja latencia y a sus capacidades de IA conversacional, los SLM pueden impulsar los chatbots de atención al cliente y responder con rapidez a las consultas en tiempo real. También pueden ser la columna vertebral de los chatbots de IA agentiva, que van más allá de dar respuestas para completar tareas en nombre de un usuario.
Resumen de contenidos: los modelos Llama 3.2 1B y 3B, por ejemplo, pueden utilizarse para resumir conversaciones en un smartphone y crear elementos de acción como eventos del calendario6. Del mismo modo, Gemini Nano puede resumir grabaciones de audio y transcripciones de conversaciones11.
IA generativa: se pueden implementar modelos compactos para completar y generar texto y código de software. Por ejemplo, los modelos granite-3b-code-instruct y granite-8b-code-instruct pueden utilizarse para generar, explicar y traducir código a partir de una instrucción en lenguaje natural.
Traducción de idiomas: muchos modelos de lenguaje pequeños son multilingües y se han entrenado en idiomas distintos del inglés, por lo que pueden traducir entre idiomas de manera rápida. Debido a su capacidad para comprender el contexto, pueden producir traducciones muy precisas que conservan los matices y el significado del texto original.
Mantenimiento predictivo: los modelos ligeros son lo suficientemente pequeños como para implementarse directamente en dispositivos edge locales como sensores o dispositivos de Internet de las cosas (IoT). Esto significa que los fabricantes pueden tratar los SLM como herramientas que recopilan datos de sensores instalados en maquinaria y equipos y analizan esos datos en tiempo real para predecir las necesidades de mantenimiento.
Análisis de sentimiento: además de procesar y comprender el lenguaje, los SLM también son hábiles para ordenar y clasificar grandes volúmenes de texto de manera objetiva. Esto los hace adecuados para analizar textos y calibrar el sentimiento que hay detrás de ellos, lo que ayuda a comprender el feedback de los clientes.
Asistencia a la navegación den vehículos: un modelo tan rápido y compacto como un SLM puede funcionar en los ordenadores de a bordo de un vehículo. Debido a sus capacidades multimodales, los modelos de lenguaje pequeños pueden combinar comandos de voz con clasificación de imágenes, por ejemplo, para identificar obstáculos alrededor de un vehículo. Incluso pueden aprovechar sus capacidades de RAG, recuperando detalles de los códigos o las normas de circulación para ayudar a los conductores a tomar decisiones de conducción más seguras e informadas.
Enlaces externos a ibm.com
1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv. 1 de marzo 2020.
2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models [Los alumnos bien preparados aprenden mejor: sobre la importancia del preentrenamiento de modelos compactos]. arXiv. 25 de septiembre de 2019.
3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices. arXiv. 14 de abril de 2020.
4 Gemma explained: An overview of Gemma model family architectures [Qué es Gemma: un resumen de las arquitecturas de la familia de modelos Gemma]. Google for Developers. 15 de agosto de 2024.
5 Gemini Models [Los modelos Gemini]. Google DeepMind. Consultado el 17 de octubre de 2024.
6 Introducing Llama 3.2 [Presentación de Llama 3.2]. Meta. Consultado el 17 de octubre de 2024.
7 Meta and Microsoft Introduce the Next Generation of Llama. Meta. 18 de julio de 2023.
8 Un Ministral, des Ministraux. Mistral AI. 16 de octubre de 2024
9 Introducing Phi-3: Redefining what's possible with SLMs [Presentación de Phi-3: redefinir lo que es posible con los SLM]. Microsoft. 23 de abril de 2024.
10 GPT-4o mini: advancing cost-efficient intelligence [GPT-4o mini: el avance de la inteligencia rentable]. OpenAI. 18 de julio de 2024.
11 Gemini Nano. Google DeepMind. Consultado el 21 de octubre de 2024.
IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.
Las empresas reconocen que no pueden ampliar la IA generativa con modelos fundacionales en los que no puedan confiar. Descargue el extracto para saber por qué IBM, con sus emblemáticos "modelos Granite", ha sido nombrada "Strong Performer".
Aprenda a impulsar continuamente a los equipos para que mejoren el rendimiento de los modelos y superen a la competencia utilizando las últimas técnicas e infraestructuras de IA.
Explore el valor de los modelos fundacionales de nivel empresarial que proporcionan confianza, rendimiento y beneficios rentables a todos los sectores.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.