Al visitar un país cuyo idioma desconoce, es posible que confíe en un amigo para traducir conversaciones o en una aplicación de traducción para pedir instrucciones. Así pues, no sería necesario que aprendiera todo el idioma, especialmente para viajes cortos.
En el ámbito de los modelos de lenguaje extensos (LLM), las interfaces de programación de aplicaciones (API) actúan como traductores, permitiendo así un intercambio fluido entre los LLM y las aplicaciones de inteligencia artificial (IA). Estas interfaces facilitan la integración de las capacidades de procesamiento de lenguaje natural (PLN) y comprensión de lenguaje natural en los sistemas informáticos.
A través de las API de LLM, las empresas pueden aprovechar los modelos de IA en sus flujos de trabajo. Los minoristas en línea, por ejemplo, pueden conectar su chatbot de atención al cliente a un modelo de lenguaje para obtener respuestas más personalizadas que fomenten interacciones naturales e interesantes. Del mismo modo, las empresas pueden vincular su asistente de programación de IA a un LLM para lograr un análisis y generación de código más sólidos.
Las API de LLM suelen basarse en una arquitectura de solicitud-respuesta que sigue una serie de pasos:
Una aplicación envía una solicitud, generalmente en forma de solicitud de protocolo de transferencia de hipertexto (HTTP), a la API. Antes de la transmisión, la aplicación primero convierte la solicitud al formato de datos requerido por la API (generalmente en JavaScript Object Notation o JSON), que contiene información, como la variante del modelo, la instrucción real y otros parámetros.
Después de que la API recibe la solicitud, la reenvía al LLM para su procesamiento.
El modelo de aprendizaje automático recurre a sus conocimientos de PLN, ya se trate de generación de contenidos, respuesta a preguntas, análisis de opiniones, generación de textos o síntesis de textos, para producir una respuesta que transmite a la API.
La API devuelve esta respuesta a la aplicación.
Para acceder a una API de LLM, los usuarios deberán registrarse con el proveedor de su preferencia y generar las claves de API para la autenticación.
Los precios son un componente importante de las API de LLM. Los proveedores ofrecen diversos precios de venta al público en función de sus modelos.
Para comprender cómo funcionan los precios de las API de LLM, primero deberá comprender el concepto de tokens. Para los modelos de lenguaje, los tokens son representaciones de palabras legibles por máquina. Un token puede ser una letra, un signo de puntuación, parte de una palabra o una palabra completa.
Los tokens son las unidades de texto más pequeñas que un modelo puede captar y procesar como entrada y generar como salida. Sirven de base para fijar los precios. La mayoría de los proveedores utilizan un modelo de precios de pago por uso, que cobra por el acceso a la API de LLM por cada mil o millón de tokens, con precios separados para los tokens de entrada y salida.
Este sistema de precios basado en tokens refleja los costos computacionales y de procesamiento asociados con la ejecución de los LLM. También permite transparencia y flexibilidad, y se adapta a diferentes patrones de uso entre empresas.
La combinación de datos o servicios empresariales con la capa de IA que aportan las API de LLM hace que las aplicaciones del mundo real sean más eficaces. Estos son algunos de los beneficios que pueden ofrecer las API de LLM:
A pesar de estas ganancias, las API de LLM también presentan desafíos:
Las API de LLM ofrecen a las empresas la posibilidad de aprovechar todo el potencial de sus aplicaciones a través de la IA. He aquí cinco técnicas para ayudar a las empresas a utilizar las API de LLM de forma más eficiente:
Seleccione el modelo de lenguaje que mejor se adapte a su caso de uso. Comience con las características básicas y continúe gradualmente con las más avanzadas.
Por ejemplo, si solo busca análisis de opiniones, un modelo más pequeño, antiguo y rentable será suficiente. Sin embargo, si lo que busca son respuestas rápidas en tiempo real, como con los chatbots de atención al cliente y las aplicaciones de traducción, puede optar por un modelo más grande y nuevo. Las tareas más complejas pueden requerir la variante del modelo más nueva y eficaz.
Algunos proveedores incluso suministran API y modelos adaptados para casos de uso específicos. La API de Assistants de OpenAI está destinada a crear asistentes de IA, mientras que Mistral tiene API para tareas de programación y visión artificial. También puede considerar hacer ajuste fino de las API para hacer ajuste fino de un modelo con los datos de entrenamiento de su organización.
El costo de usar las API de LLM puede acumularse rápidamente, así que vigile su uso. La mayoría de los proveedores tienen paneles o herramientas para monitorear el uso de tokens y establecer límites de gasto mensuales para administrar sus costos. Manténgase actualizado sobre los cambios en los precios y los algoritmos que podrían adaptarse mejor a su presupuesto y ofrecer más valor.
Algunos proveedores ofrecen precios más bajos o descuentos en determinados servicios. La API de Gemini de Google, como OpenAI, tiene un precio de venta al público más económico para el almacenamiento en caché de contexto, en el que un conjunto de tokens de entrada se almacenan en una caché para su recuperación mediante solicitudes sucesivas. Esta práctica es útil cuando se pasa contenido repetitivo a un modelo, ya sea una instrucción recurrente de un chatbot, consultas repetidas para un conjunto de datos o arreglos de errores similares para una base de códigos.
Mientras tanto, OpenAI ofrece un descuento para el procesamiento por lotes a través de su API Batch (Anthropic y Mistral tienen API similares). Este procesamiento asíncrono puede ser una opción rentable para enviar grupos de solicitudes sobre grandes conjuntos de datos que no requieren respuestas inmediatas, como resumir documentos extensos o clasificar contenidos.
Benefíciese de los niveles gratuitos de API de LLM. Estos niveles no tienen costo, pero tienen límites de tokens o uso. Para las empresas con un presupuesto ajustado, los niveles de API de LLM gratuitos pueden ser adecuados para probar aplicaciones o crear prototipos.
La seguridad de API es imprescindible para cualquier organización. Estas son algunas formas de proteger las interacciones de API con LLM:
Los tokens generan costos, por lo que minimizar el recuento de tokens de entrada puede ayudar a reducir costos y mejorar el rendimiento. Una forma de minimizar los tokens de entrada es a través de la optimización de tokens, que se basa en gran medida en las tácticas de ingeniería rápida.
A continuación, se muestran algunas estrategias para la optimización de tokens:
Después de aplicar las técnicas de optimización pertinentes, refine continuamente sus instrucciones en función de las salidas del modelo. Verifique esas salidas para asegurarse de que sean correctos y precisos.
Observe sus patrones de uso para ver si están en línea con su presupuesto y si está implementando el modelo más rentable. Emplee soluciones de monitoreo de API para rastrear el rendimiento de la API de LLM de acuerdo con métricas clave, como el tiempo de respuesta, la latencia y las tasas de error, para maximizar la eficacia del modelo elegido.
Las API de LLM son un mercado en crecimiento. Muchos desarrolladores de LLM tienen sus propias API, mientras que otros proveedores de API externos proporcionan acceso a varios modelos de lenguaje extensos.
La empresa independiente de evaluación comparativa Artificial Analysis cuenta con una popular tabla de clasificación de API de LLM (enlace externo a ibm.com) que compara y clasifica diferentes endpoints de API en función de métricas como latencia, velocidad de salida, calidad y precio.
Estas son algunas de las API de LLM más populares:
La empresa de investigación de IA Anthropic tiene API (enlace externo a ibm.com) para su familia Claude de modelos de lenguaje extensos. Estos modelos incluyen Claude 3.5 Sonnet, la última oferta premium de la empresa; Claude 3.5 Haiku, su modelo más rápido y rentable; y Claude 3 Opus, un modelo muy eficaz para tareas complejas. Las API también están disponibles para versiones de modelos anteriores, como Claude 3 Haiku y Claude 3 Sonnet.
Hay tres formas de acceder a la API (enlace externo a ibm.com): Consola web de Anthropic, bibliotecas para desarrolladores en Python y TypeScript en GitHub, y en plataformas asociadas como Amazon Bedrock y Google Cloud Vertex AI.
La empresa de IA, Cohere, proporciona su propia API (enlace externo a ibm.com) para Command R+, su LLM diseñado específicamente para casos de uso empresarial, y Command R, un modelo de IA generativa optimizado para la generación aumentada por recuperación (RAG) y la funcionalidad de IA agéntica. Los desarrolladores pueden acceder a la API (enlace externo a ibm.com) empleando la herramienta de interfaz de línea de comandos de Cohere o a través de las bibliotecas Go, Java, Python y TypeScript en GitHub.
Google ofrece API (enlace externo a ibm.com) para su suite Gemini de modelos de lenguaje extensos. Estos modelos incluyen Gemini 1.5 Flash, su modelo de IA multimodal más rápido; Gemini 1.5 Flash-8B, su modelo más pequeño; Gemini 1.5 Pro, su modelo de nueva generación; y Gemini 1.0 Pro, su modelo de primera generación.
Los desarrolladores pueden acceder a la API de Gemini (enlace externo a ibm.com) en Google AI Studio y Google Cloud Vertex AI. Las bibliotecas de desarrollo de software también están disponibles en diferentes lenguajes de programación.
IBM Granite es la serie insignia de IBM de modelos fundacionales de LLM. Los desarrolladores pueden utilizar API en la plataforma IBM watsonx para acceder a los modelos Granite 3.0, específicamente Granite 3.0 2B Instruct y Granite 3.0 8B Instruct, modelos con ajuste de instrucciones con dos mil millones y ocho mil millones de parámetros. Los modelos de código abierto Granite 3.0 también están disponibles a través de socios de plataforma como Google Vertex AI y Hugging Face.
Llama es la colección de modelos de IA de código abierto de Meta. Se puede acceder a los modelos Llama 3, en particular a las versiones 3.1, a través de las API de los diversos socios del ecosistema de Meta (enlace externo a ibm.com).
Meta también lanzó Llama Stack (enlace externo a ibm.com) para agilizar el desarrollo y el despliegue de aplicaciones de IA creadas sobre los modelos Llama. Llama Stack consiste en un conjunto de API interoperables para agentes, inferencia, memoria y seguridad, entre otras cosas.
Mistral AI tiene diferentes endpoints de API (enlace externo a ibm.com) para sus modelos principales, como Mistral Large, Mistral Small y Ministral, así como modelos gratuitos, entre ellos, Mistral NeMo y Mistral 7B. La empresa también ofrece una API para ajuste fino. Se puede acceder a la API de Mistral a través de su propia plataforma de desarrollo La Plateforme y de plataformas asociadas como IBM watsonx y Microsoft Azure AI.
OpenAI, la empresa detrás de ChatGPT, proporciona API para sus múltiples modelos (enlace externo a ibm.com). Estas API incluyen sus más recientes modelos de transformadores generativos preentrenados (GPT) GPT-4o y GPT-4o mini, y modelos más antiguos de OpenAI GPT, como GPT-4 Turbo y GPT-3.5 Turbo.
Los modelos de generación de texto de OpenAI emplean un endpoint de API de finalización de chat, pero otras API incluyen una API de imágenes para el modelo de imágenes de OpenAI, una API de audio para su modelo de text to speech y una API de tiempo real para aplicaciones de baja latencia. Los desarrolladores pueden acceder a la API de OpenAI a través de la plataforma OpenAI y las bibliotecas de desarrollo de software en varios lenguajes de programación.
Las API de LLM desempeñan un papel vital en la fase de desarrollo de la IA. Al combinar el poder de razonamiento de los LLM con la usabilidad de las interfaces programadas, las API de LLM cierran la brecha entre los LLM y las aplicaciones empresariales. Comprender el funcionamiento interno de las API de LLM y cómo utilizarlas de forma eficiente puede ayudar a las empresas a integrar mejor la IA en sus sistemas.
Descubra IBM® Granite, nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Conozca a detalle los artículos, blogs y tutoriales de IBM Developer para profundizar sus conocimientos sobre LLMs.
Aprenda a impulsar continuamente a los equipos a mejorar el rendimiento del modelo y superar a la competencia mediante el uso de las últimas técnicas e infraestructura de IA.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.