¿Qué es GPT-4o?

Autores

Staff writer

Staff Editor, AI Models

IBM Think

¿Qué es GPT-4o?

GPT-4o es un modelo de transformador preentrenado generativo multimodal y multilingüe lanzado en mayo de 2024 por el desarrollador de inteligencia artificial (IA) OpenAI. Es el modelo de lenguaje de gran tamaño (LLM) estrella de la familia GPT-4 de modelos de IA, que también incluye GPT-4o mini, GPT-4 Turbo y el GPT-4 original.

La “o” en GPT-4o significa omni y destaca que GPT-4o es un modelo de IA multimodal con capacidades de sonido y visión. Esto significa que puede aceptar conjuntos de datos de instrucción como una mezcla de entrada de texto, audio, imagen y vídeo. GPT-4o también es capaz de generar imágenes. GPT-4o aporta capacidades de entrada y salida multimedia a la misma inteligencia GPT-4 alimentada por transformador que impulsa los demás modelos de su línea.

Revelado en mayo de 2024 como parte de las actualizaciones de primavera de OpenAI, el nuevo modelo de ChatGPT parecía traducir el lenguaje hablado en tiempo real, adaptar las respuestas de audio para incluir contenido emocional y entablar conversaciones realistas.

Tanto GPT-4o como GPT-4o mini admiten ajustes finos, lo que permite a los desarrolladores aplicar estos modelos a casos de uso específicos.

¿Qué es GPT-4o mini?

GPT-4o mini es un modelo GPT-4o más pequeño y rentable y el modelo de IA generativa más rápido de la familia de productos OpenAI. A diferencia de los modelos de lenguaje de gran tamaño (LLM) más grandes con decenas o cientos de miles de millones de parámetros, GPT-4o mini es un modelo pequeño y compacto. A pesar de su reducido tamaño, supera a GPT-3.5 Turbo con una velocidad similar y a aproximadamente un 60 % del coste.

Al igual que su hermano mayor, GPT-4o mini tiene capacidades multimodales, admite otros idiomas además del inglés y puede realizar tareas típicas de la IA, como razonamiento, matemáticas y codificación. En el momento de su publicación, GPT-4o mini puede procesar entradas de texto e imágenes. OpenAI afirma que está pendiente la compatibilidad con contenidos de audio y vídeo.

Los desarrolladores pueden acceder a GPT-4o mini a través de interfaces de programación de aplicaciones (API) a un coste de 0,15 USD por millón de tokens de entrada y 0,60 centavos de dólar por millón de tokens de output.

¿En qué se diferencia GPT-4o de GPT-4 Turbo?

GPT-4o es un modelo emblemático “todo en uno” capaz de procesar entradas y outputs multimodales por sí solo como una única red neuronal. Con modelos anteriores como GPT-4 Turbo y GPT-3.5, los usuarios necesitaban API de OpenAI y otros modelos de apoyo para introducir y generar distintos tipos de contenidos. Aunque GPT-4 Turbo puede procesar instrucciones de imagen, no es capaz de procesar audio sin ayuda de la API.

La naturaleza multimodal de GPT-4 supone el mayor avance en comparación con GPT-4 Turbo y sustenta muchos de sus avances:

Conversaciones de audio en tiempo real

Capacidades de tono de voz

Procesamiento de vídeo integrado

Generación de imágenes

Mayor eficiencia de los tokens

Conversaciones de audio en tiempo real

La mayor velocidad y las capacidades multimodales del GPT-4o le permiten entablar una conversación y traducir los idiomas a un ritmo más humano que el GPT-4 Turbo. En una demo de vídeo como parte de su anuncio de lanzamiento¹, se mostró cómo ChatGPT-4o traducía en tiempo real entre angloparlantes e hispanohablantes. GPT-4o ofrece soporte de voz para chatbots en más de 50 idiomas.

Gracias a su capacidad para procesar entradas de audio por sí mismo, GPT-4o tiene una latencia (el tiempo que tarda en producir un output desde el momento en que se recibe una entrada) inferior a la de los modelos anteriores. Responde a las entradas de audio en 320 milisegundos, lo que es comparable al tiempo de respuesta humano típico de 210 milisegundos.

Las iteraciones anteriores de GPT-4 requerían varios modelos ensamblados en una canalización para ofrecer un servicio similar, lo que aumentaba su latencia a 5,4 segundos. Antes de GPT-4o, la API Whisper de OpenAI convertía las instrucciones de audio en texto, las pasaba a GPT-4 Turbo y, a continuación, los servicios de conversión de texto a voz (TTS) volvían a convertir las respuestas de GPT en audio.

GPT-4 Turbo también era un modelo más lento en general. En las pruebas de referencia realizadas por la Organización de evaluación de IA Artificial Analysis², GPT-4o demostró una velocidad de 110 tokens por segundo, aproximadamente tres veces más rápida que GPT-4 Turbo. En la misma prueba, GPT-4o también superó a muchos competidores, incluidos Claude 3 Opus y Gemini 1.5 Pro.

Capacidades de tono de voz

La anterior canalización Whisper-GPT-TTS significaba que al enviar entradas de audio, GPT-4 Turbo solo recibía una transcripción de texto de lo que se decía. La transcripción aísla el contenido hablado por el usuario al tiempo que filtra el ruido de fondo, las identidades de los hablantes y el tono de voz, lo que priva a GPT de datos contextuales sustanciales.

Como modelo multimodal, GPT-4o puede procesar la totalidad de una entrada de audio y responder adecuadamente a este contexto adicional. Su procesamiento del lenguaje natural (PLN) mejorado le permite incluir sentimiento, tono y contenido emocional en su generación de output cuando se utiliza en modo de voz.

Procesamiento de vídeo integrado

GPT-4o gestiona la entrada de imágenes y vídeos, además de texto y audio. GPT-4o puede conectarse a una transmisión de cámara en directo o grabar la pantalla de un usuario y, a continuación, describir lo que ve y responder preguntas. Los usuarios pueden encender las cámaras de sus smartphones y hablar con ChatGPT-4o como lo harían con un amigo o un colega.

Anteriormente, la API Vision de GPT-4 permitía a GPT-4 Turbo analizar contenidos visuales.

Generación de imágenes

Según el comunicado de OpenAI, GPT-4 ofrece capacidades autónomas de generación de imágenes. GPT-4 Turbo solo podía generar imágenes conectándose al modelo DALL-E 3 de OpenAI. GPT-4 Turbo enviaba una instrucción de texto al usuario y DALL-E generaba la imagen.

Mayor eficiencia de los tokens

OpenAI mejoró las capacidades de tokenización de GPT-4 con GPT-4o. La tokenización es el proceso mediante el cual los LLM convierten palabras en datos. Cada token representa una palabra entera o parte de ella y signos de puntuación. Los modelos de IA convierten las palabras en tokens y, a continuación, aplican matemáticas complejas para analizar esos datos.

GPT-4o convierte las lenguas no latinas, como el chino, el hindi y el árabe, en tokens de forma mucho más eficiente que sus predecesores. Dado que OpenAI cobra a los usuarios de la API por token de entrada o salida, la eficiencia mejorada de GPT-4o en alfabetos no latinos lo hace más rentable para casos de uso en esos idiomas.

¿Qué más puede hacer GPT-4o?

Además de sus nuevas capacidades multimodales, GPT-4o aporta muchas de las mismas funciones que se han visto en iteraciones anteriores:

Respuesta a preguntas

Análisis y resumen de documentos

Análisis del sentimiento

Análisis de datos

Codificación

Respuesta a preguntas

Con un corte de conocimientos de octubre de 2023, GPT-4o es el modelo más actual de OpenAI en cuanto a su base de conocimientos. Un corte de conocimiento es el punto en el tiempo en el que concluyen los datos de entrenamiento de un modelo. Los usuarios pueden hacer preguntas a GPT-4o y recibir respuestas, no sin el riesgo de sufrir alucinaciones.

Análisis y resumen de documentos

Los usuarios pueden subir archivos y hacer que ChatGPT los analice y resuma. La ventana contextual de 128 000 tokens de GPT-4o le permite procesar grandes conjuntos de datos de entrada, aunque no es tan grande como la de Claude 3.

La ventana de contexto de un LLM representa el número máximo de tokens que puede procesar sin perder de vista el contexto de toda la secuencia de entrada. Una ventana de contexto más amplia permite a los modelos de inteligencia artificial aceptar peticiones más complejas e incluir más información de los usuarios a la hora de generar respuestas.

GPT-4 ya ha demostrado su capacidad real para leer documentos mediante reconocimiento óptico de caracteres (OCR) con la API Vision de GPT-4.

Análisis de sentimiento

El análisis de sentimiento es el proceso de discernir cómo se siente una persona a partir de sus declaraciones o comportamientos. Los investigadores utilizan modelos de IA para realizar análisis de sentimiento a escala, por ejemplo, al analizar las reseñas de los usuarios. Como modelo multimodal, GPT-4o puede identificar el sentimiento a partir de la entrada de audio.

Análisis de datos

GPT-4o puede procesar conjuntos de datos complejos y destilar conocimientos procesables, como se ve con las plataformas de análisis de autoservicio. También puede representar datos como tablas y gráficos.

Codificación

GPT-4o no es el primer LLM que ofrece capacidades de codificación, pero su naturaleza multimodal puede simplificar los flujos de trabajo para los programadores. En lugar de copiar y pegar código en la interfaz de usuario, los usuarios pueden compartir sus pantallas y permitir que GPT-4o analice su código, proporcione feedback y genere fragmentos de código.

¿Cómo funciona el GPT-4o?

Al revelar GPT-4o, OpenAI publicó los resultados de las pruebas de evaluación comparativa de LLM que comparaban su nuevo modelo con la competencia. GPT-4 Turbo, GPT-4 tal y como se lanzó inicialmente, Claude 3 Opus de Anthropic, Llama 3 400B de Meta y Gemini 1.5 Pro y Gemini 1.0 Ultra de Google se probaron junto con GPT-4o en varias pruebas de evaluación comparativa líderes.

Entre las pruebas se incluyó el Massive Multitask Language Understanding (MMLU), que evalúa la base de conocimientos y la capacidad de resolución de problemas, y HumanEval, una prueba de comprobación de código. OpenAI no puso a prueba a GPT-4o frente a los modelos de Google en Graduate-Level Google-Proof Q&A (GPQA), un examen científico que requiere un razonamiento exhaustivo. Tampoco se incluyó Llama 3 400B en Multilingual Grade School Math (MGSM), un examen de matemáticas realizado en 10 idiomas.

GPT-4o obtuvo el primer lugar en cuatro de las seis pruebas, quedando segundo detrás de Claude 3 Opus en MGSM y de GPT-4 Turbo en Discrete Reasoning Over Paragraphs (DROP), que prueba la capacidad de un modelo para razonar a lo largo de varios párrafos.

En general, GPT-4o no ha demostrado un aumento significativo de rendimiento con respecto a GPT-4 Turbo. Sus avances comparativos residen principalmente en sus capacidades multimodales y su mayor velocidad.

¿Cómo puede la gente acceder a GPT-4o?

OpenAI pone GPT-4o a disposición de los usuarios tanto de forma gratuita como prémium en varias ubicaciones y productos:

ChatGPT Plus, Teams y Enterprise

ChatGPT Free

Aplicaciones de escritorio y móviles

Aplicaciones de IA

Microsoft Azure OpenAI Studio

ChatGPT Plus, Teams y Enterprise

Los suscriptores a los servicios prémium ChatGPT de OpenAI tienen distintos niveles de acceso a GPT-4o. Los usuarios de ChatGPT Plus pueden enviar hasta 80 mensajes cada 3 horas en GPT-4o, y los usuarios de Teams tienen más acceso. Los usuarios de Enterprise tienen acceso ilimitado a GPT-4o.

ChatGPT Free

Los usuarios del nivel sin coste de ChatGPT pueden interactuar con GPT-4o como modelo por defecto del chatbot mientras la demanda lo permita. Cuando un usuario de la versión sin coste alcanza su límite, vuelve a GPT-4o mini³.

Aplicaciones de escritorio y móviles

OpenAI lanzó una aplicación de escritorio para macOS junto con GPT-4o que integra el nuevo modelo con el MacBook del usuario. Las aplicaciones móviles ChatGPT de OpenAI también otorgan acceso a GPT-4o según el nivel de suscripción del usuario.

Aplicaciones de IA

Los usuarios de ChatGPT Plus, Teams y Enterprise pueden crear GPT personalizados a través de los cuales ellos y otras personas pueden utilizar versiones especializadas de GPT-4o adaptadas a casos de uso específicos. Los desarrolladores también pueden conectarse a GPT-4o a través de API para crear otras herramientas de IA.

Microsoft Azure OpenAI Studio

GPT-4o y GPT-4o mini están disponibles en Azure OpenAI Studio de Microsoft, parte de la plataforma de IA empresarial Azure de Microsoft. En el momento de la publicación, Copilot continúa ofreciendo GPT-4 Turbo, aunque Microsoft anunció en mayo de 2024⁴ que su servicio de IA pronto sería compatible con GPT-4o.

¿Cuáles son los riesgos de usar GPT-4o?

Para mitigar el uso potencial en estafas de vishing, deepfakes y otros tipos de fraude de audio, OpenAI limitó GPT-4o a cuatro voces preestablecidas en el lanzamiento. Pero como ocurre con cualquier versión de IA generativa, GPT-4o es un modelo imperfecto. Entre los riesgos de su uso se incluyen:

Alucinaciones: como todos los modelos de IA generativa, GPT-4o puede alucinar cuando detecta patrones en sus datos que no existen, lo que hace que presente información incorrecta como objetiva. Nunca es aconsejable utilizar contenido generado por IA sin antes examinarlo o verificarlo.

Vulneraciones de datos: OpenAI continúa almacenando entradas proporcionadas por los usuarios y entrenando sus modelos con ellas. Los usuarios que introduzcan datos protegidos en ChatGPT podrían encontrarse con que estos aparecen en las respuestas del modelo a otros usuarios.

Violaciones de propiedad intelectual: OpenAI entrena sus modelos con datos disponibles en internet, incluido material protegido por derechos de autor, como artículos de noticias. Los modelos pueden generar de manera involuntaria contenido protegido por derechos de autor como parte de una respuesta.

OpenAI clasificó a GPT-4o como modelo de riesgo medio en su escala interna. Los modelos se evalúan en función de cuatro métricas de amenazas: ciberseguridad, CBRN (amenazas químicas, biológicas, radiológicas y nucleares), persuasión y autonomía del modelo. OpenAI evalúa los modelos en función del grado en que pueden utilizarse para avanzar en cada campo de amenaza.

Una vez evaluados, los modelos reciben una puntuación que va de baja a crítica en cada campo, y luego se les asigna una puntuación general correspondiente a su clasificación de amenaza más alta después de considerar cualquier medida de mitigación.

El GPT-4o obtuvo una puntuación baja en tres de las cuatro categorías, con una puntuación media en la de persuasión. Esto significa que "puede crear contenido (potencialmente interactivo) con una eficacia persuasiva comparable a la del contenido típico escrito por humanos".⁵ Esto significa que, teóricamente, los ciberdelincuentes podrían utilizarlo para crear artículos de desinformación y contenidos en las redes sociales.

Notas a pie de página

1. Hello GPT-4o. OpenAI. 13 de mayo de 2024.

2. GPT-4o: Quality, Performance & Price Analysis. Artificial Analysis. 2024.

3. Using ChatGPT's Free Tier - FAQ [Uso del nivel gratuito de ChatGPT: preguntas frecuentes]. OpenAI. 2024.

4. Microsoft’s Copilot Embraces the Power of OpenAI's New GPT-4o. CNET. 24 de mayo de 2024.

5. Preparedness  Framework  (Beta). OpenAI. 18 de diciembre de 2023.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

¿Qué es GPT-4o?

Autores

¿Qué es GPT-4o?

¿Qué es GPT-4o mini?

¿En qué se diferencia GPT-4o de GPT-4 Turbo?

Conversaciones de audio en tiempo real

Capacidades de tono de voz

Procesamiento de vídeo integrado

Generación de imágenes

Mayor eficiencia de los tokens

¿Qué más puede hacer GPT-4o?

Respuesta a preguntas

Análisis y resumen de documentos

Análisis de sentimiento

Análisis de datos

Codificación

¿Cómo funciona el GPT-4o?

¿Cómo puede la gente acceder a GPT-4o?

ChatGPT Plus, Teams y Enterprise

ChatGPT Free

Aplicaciones de escritorio y móviles

Aplicaciones de IA

Microsoft Azure OpenAI Studio

¿Cuáles son los riesgos de usar GPT-4o?

Notas a pie de página

Recursos