GPT-4o es un modelo de transformador preentrenado generativo multimodal y multilingüe lanzado en mayo de 2024 por el desarrollador de inteligencia artificial (IA) OpenAI. Es el modelo de lenguaje de gran tamaño (LLM) estrella de la familia GPT-4 de modelos de IA, que también incluye GPT-4o mini, GPT-4 Turbo y el GPT-4 original.
La “o” en GPT-4o significa omni y destaca que GPT-4o es un modelo de IA multimodal con capacidades de sonido y visión. Esto significa que puede aceptar conjuntos de datos de instrucción como una mezcla de entrada de texto, audio, imagen y vídeo. GPT-4o también es capaz de generar imágenes. GPT-4o aporta capacidades de entrada y salida multimedia a la misma inteligencia GPT-4 alimentada por transformador que impulsa los demás modelos de su línea.
Revelado en mayo de 2024 como parte de las actualizaciones de primavera de OpenAI, el nuevo modelo de ChatGPT parecía traducir el lenguaje hablado en tiempo real, adaptar las respuestas de audio para incluir contenido emocional y entablar conversaciones realistas.
Tanto GPT-4o como GPT-4o mini admiten ajustes finos, lo que permite a los desarrolladores aplicar estos modelos a casos de uso específicos.
GPT-4o mini es un modelo GPT-4o más pequeño y rentable y el modelo de IA generativa más rápido de la familia de productos OpenAI. A diferencia de los modelos de lenguaje de gran tamaño (LLM) más grandes con decenas o cientos de miles de millones de parámetros, GPT-4o mini es un modelo pequeño y compacto. A pesar de su reducido tamaño, supera a GPT-3.5 Turbo con una velocidad similar y a aproximadamente un 60 % del coste.
Al igual que su hermano mayor, GPT-4o mini tiene capacidades multimodales, admite otros idiomas además del inglés y puede realizar tareas típicas de la IA, como razonamiento, matemáticas y codificación. En el momento de su publicación, GPT-4o mini puede procesar entradas de texto e imágenes. OpenAI afirma que está pendiente la compatibilidad con contenidos de audio y vídeo.
Los desarrolladores pueden acceder a GPT-4o mini a través de interfaces de programación de aplicaciones (API) a un coste de 0,15 USD por millón de tokens de entrada y 0,60 centavos de dólar por millón de tokens de output.
GPT-4o es un modelo emblemático “todo en uno” capaz de procesar entradas y outputs multimodales por sí solo como una única red neuronal. Con modelos anteriores como GPT-4 Turbo y GPT-3.5, los usuarios necesitaban API de OpenAI y otros modelos de apoyo para introducir y generar distintos tipos de contenidos. Aunque GPT-4 Turbo puede procesar instrucciones de imagen, no es capaz de procesar audio sin ayuda de la API.
La naturaleza multimodal de GPT-4 supone el mayor avance en comparación con GPT-4 Turbo y sustenta muchos de sus avances:
Conversaciones de audio en tiempo real
Capacidades de tono de voz
Procesamiento de vídeo integrado
Generación de imágenes
Mayor eficiencia de los tokens
La mayor velocidad y las capacidades multimodales del GPT-4o le permiten entablar una conversación y traducir los idiomas a un ritmo más humano que el GPT-4 Turbo. En una demo de vídeo como parte de su anuncio de lanzamiento1, se mostró cómo ChatGPT-4o traducía en tiempo real entre angloparlantes e hispanohablantes. GPT-4o ofrece soporte de voz para chatbots en más de 50 idiomas.
Gracias a su capacidad para procesar entradas de audio por sí mismo, GPT-4o tiene una latencia (el tiempo que tarda en producir un output desde el momento en que se recibe una entrada) inferior a la de los modelos anteriores. Responde a las entradas de audio en 320 milisegundos, lo que es comparable al tiempo de respuesta humano típico de 210 milisegundos.
Las iteraciones anteriores de GPT-4 requerían varios modelos ensamblados en una canalización para ofrecer un servicio similar, lo que aumentaba su latencia a 5,4 segundos. Antes de GPT-4o, la API Whisper de OpenAI convertía las instrucciones de audio en texto, las pasaba a GPT-4 Turbo y, a continuación, los servicios de conversión de texto a voz (TTS) volvían a convertir las respuestas de GPT en audio.
GPT-4 Turbo también era un modelo más lento en general. En las pruebas de referencia realizadas por la Organización de evaluación de IA Artificial Analysis2, GPT-4o demostró una velocidad de 110 tokens por segundo, aproximadamente tres veces más rápida que GPT-4 Turbo. En la misma prueba, GPT-4o también superó a muchos competidores, incluidos Claude 3 Opus y Gemini 1.5 Pro.
La anterior canalización Whisper-GPT-TTS significaba que al enviar entradas de audio, GPT-4 Turbo solo recibía una transcripción de texto de lo que se decía. La transcripción aísla el contenido hablado por el usuario al tiempo que filtra el ruido de fondo, las identidades de los hablantes y el tono de voz, lo que priva a GPT de datos contextuales sustanciales.
Como modelo multimodal, GPT-4o puede procesar la totalidad de una entrada de audio y responder adecuadamente a este contexto adicional. Su procesamiento del lenguaje natural (PLN) mejorado le permite incluir sentimiento, tono y contenido emocional en su generación de output cuando se utiliza en modo de voz.
GPT-4o gestiona la entrada de imágenes y vídeos, además de texto y audio. GPT-4o puede conectarse a una transmisión de cámara en directo o grabar la pantalla de un usuario y, a continuación, describir lo que ve y responder preguntas. Los usuarios pueden encender las cámaras de sus smartphones y hablar con ChatGPT-4o como lo harían con un amigo o un colega.
Anteriormente, la API Vision de GPT-4 permitía a GPT-4 Turbo analizar contenidos visuales.
Según el comunicado de OpenAI, GPT-4 ofrece capacidades autónomas de generación de imágenes. GPT-4 Turbo solo podía generar imágenes conectándose al modelo DALL-E 3 de OpenAI. GPT-4 Turbo enviaba una instrucción de texto al usuario y DALL-E generaba la imagen.
OpenAI mejoró las capacidades de tokenización de GPT-4 con GPT-4o. La tokenización es el proceso mediante el cual los LLM convierten palabras en datos. Cada token representa una palabra entera o parte de ella y signos de puntuación. Los modelos de IA convierten las palabras en tokens y, a continuación, aplican matemáticas complejas para analizar esos datos.
GPT-4o convierte las lenguas no latinas, como el chino, el hindi y el árabe, en tokens de forma mucho más eficiente que sus predecesores. Dado que OpenAI cobra a los usuarios de la API por token de entrada o salida, la eficiencia mejorada de GPT-4o en alfabetos no latinos lo hace más rentable para casos de uso en esos idiomas.
Además de sus nuevas capacidades multimodales, GPT-4o aporta muchas de las mismas funciones que se han visto en iteraciones anteriores:
Respuesta a preguntas
Análisis y resumen de documentos
Análisis del sentimiento
Análisis de datos
Codificación
Con un corte de conocimientos de octubre de 2023, GPT-4o es el modelo más actual de OpenAI en cuanto a su base de conocimientos. Un corte de conocimiento es el punto en el tiempo en el que concluyen los datos de entrenamiento de un modelo. Los usuarios pueden hacer preguntas a GPT-4o y recibir respuestas, no sin el riesgo de sufrir alucinaciones.
Los usuarios pueden subir archivos y hacer que ChatGPT los analice y resuma. La ventana contextual de 128 000 tokens de GPT-4o le permite procesar grandes conjuntos de datos de entrada, aunque no es tan grande como la de Claude 3.
La ventana de contexto de un LLM representa el número máximo de tokens que puede procesar sin perder de vista el contexto de toda la secuencia de entrada. Una ventana de contexto más amplia permite a los modelos de inteligencia artificial aceptar peticiones más complejas e incluir más información de los usuarios a la hora de generar respuestas.
GPT-4 ya ha demostrado su capacidad real para leer documentos mediante reconocimiento óptico de caracteres (OCR) con la API Vision de GPT-4.
El análisis de sentimiento es el proceso de discernir cómo se siente una persona a partir de sus declaraciones o comportamientos. Los investigadores utilizan modelos de IA para realizar análisis de sentimiento a escala, por ejemplo, al analizar las reseñas de los usuarios. Como modelo multimodal, GPT-4o puede identificar el sentimiento a partir de la entrada de audio.
GPT-4o puede procesar conjuntos de datos complejos y destilar conocimientos procesables, como se ve con las plataformas de análisis de autoservicio. También puede representar datos como tablas y gráficos.
GPT-4o no es el primer LLM que ofrece capacidades de codificación, pero su naturaleza multimodal puede simplificar los flujos de trabajo para los programadores. En lugar de copiar y pegar código en la interfaz de usuario, los usuarios pueden compartir sus pantallas y permitir que GPT-4o analice su código, proporcione feedback y genere fragmentos de código.
Al revelar GPT-4o, OpenAI publicó los resultados de las pruebas de evaluación comparativa de LLM que comparaban su nuevo modelo con la competencia. GPT-4 Turbo, GPT-4 tal y como se lanzó inicialmente, Claude 3 Opus de Anthropic, Llama 3 400B de Meta y Gemini 1.5 Pro y Gemini 1.0 Ultra de Google se probaron junto con GPT-4o en varias pruebas de evaluación comparativa líderes.
Entre las pruebas se incluyó el Massive Multitask Language Understanding (MMLU), que evalúa la base de conocimientos y la capacidad de resolución de problemas, y HumanEval, una prueba de comprobación de código. OpenAI no puso a prueba a GPT-4o frente a los modelos de Google en Graduate-Level Google-Proof Q&A (GPQA), un examen científico que requiere un razonamiento exhaustivo. Tampoco se incluyó Llama 3 400B en Multilingual Grade School Math (MGSM), un examen de matemáticas realizado en 10 idiomas.
GPT-4o obtuvo el primer lugar en cuatro de las seis pruebas, quedando segundo detrás de Claude 3 Opus en MGSM y de GPT-4 Turbo en Discrete Reasoning Over Paragraphs (DROP), que prueba la capacidad de un modelo para razonar a lo largo de varios párrafos.
En general, GPT-4o no ha demostrado un aumento significativo de rendimiento con respecto a GPT-4 Turbo. Sus avances comparativos residen principalmente en sus capacidades multimodales y su mayor velocidad.
OpenAI pone GPT-4o a disposición de los usuarios tanto de forma gratuita como prémium en varias ubicaciones y productos:
ChatGPT Plus, Teams y Enterprise
ChatGPT Free
Aplicaciones de escritorio y móviles
Aplicaciones de IA
Microsoft Azure OpenAI Studio
Los suscriptores a los servicios prémium ChatGPT de OpenAI tienen distintos niveles de acceso a GPT-4o. Los usuarios de ChatGPT Plus pueden enviar hasta 80 mensajes cada 3 horas en GPT-4o, y los usuarios de Teams tienen más acceso. Los usuarios de Enterprise tienen acceso ilimitado a GPT-4o.
Los usuarios del nivel sin coste de ChatGPT pueden interactuar con GPT-4o como modelo por defecto del chatbot mientras la demanda lo permita. Cuando un usuario de la versión sin coste alcanza su límite, vuelve a GPT-4o mini3.
OpenAI lanzó una aplicación de escritorio para macOS junto con GPT-4o que integra el nuevo modelo con el MacBook del usuario. Las aplicaciones móviles ChatGPT de OpenAI también otorgan acceso a GPT-4o según el nivel de suscripción del usuario.
Los usuarios de ChatGPT Plus, Teams y Enterprise pueden crear GPT personalizados a través de los cuales ellos y otras personas pueden utilizar versiones especializadas de GPT-4o adaptadas a casos de uso específicos. Los desarrolladores también pueden conectarse a GPT-4o a través de API para crear otras herramientas de IA.
GPT-4o y GPT-4o mini están disponibles en Azure OpenAI Studio de Microsoft, parte de la plataforma de IA empresarial Azure de Microsoft. En el momento de la publicación, Copilot continúa ofreciendo GPT-4 Turbo, aunque Microsoft anunció en mayo de 20244 que su servicio de IA pronto sería compatible con GPT-4o.
Para mitigar el uso potencial en estafas de vishing, deepfakes y otros tipos de fraude de audio, OpenAI limitó GPT-4o a cuatro voces preestablecidas en el lanzamiento. Pero como ocurre con cualquier versión de IA generativa, GPT-4o es un modelo imperfecto. Entre los riesgos de su uso se incluyen:
OpenAI clasificó a GPT-4o como modelo de riesgo medio en su escala interna. Los modelos se evalúan en función de cuatro métricas de amenazas: ciberseguridad, CBRN (amenazas químicas, biológicas, radiológicas y nucleares), persuasión y autonomía del modelo. OpenAI evalúa los modelos en función del grado en que pueden utilizarse para avanzar en cada campo de amenaza.
Una vez evaluados, los modelos reciben una puntuación que va de baja a crítica en cada campo, y luego se les asigna una puntuación general correspondiente a su clasificación de amenaza más alta después de considerar cualquier medida de mitigación.
El GPT-4o obtuvo una puntuación baja en tres de las cuatro categorías, con una puntuación media en la de persuasión. Esto significa que "puede crear contenido (potencialmente interactivo) con una eficacia persuasiva comparable a la del contenido típico escrito por humanos".5 Esto significa que, teóricamente, los ciberdelincuentes podrían utilizarlo para crear artículos de desinformación y contenidos en las redes sociales.
1. Hello GPT-4o. OpenAI. 13 de mayo de 2024.
2. GPT-4o: Quality, Performance & Price Analysis. Artificial Analysis. 2024.
3. Using ChatGPT's Free Tier - FAQ [Uso del nivel gratuito de ChatGPT: preguntas frecuentes]. OpenAI. 2024.
4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o. CNET. 24 de mayo de 2024.
5. Preparedness Framework (Beta). OpenAI. 18 de diciembre de 2023.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.