¿Qué es Google Gemini?

Una fotografía en blanco y negro del Centro Espacial Goddard lleno de personas y equipamiento.

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es Google Gemini?

Gemini es el modelo de lenguaje grande (LLM) de Google. En términos más generales, es una familia de modelos de IA multimodal diseñados para procesar múltiples modalidades o tipos de datos, incluidos audio, imágenes, código de software, texto y video.

Gemini es también el modelo que impulsa el chatbot de IA generativa (gen AI) de Google (anteriormente Bard) del mismo nombre, al igual que Claude de Anthropic lleva el nombre tanto del chatbot de IA como de la familia de LLM detrás de él. Las aplicaciones Gemini, tanto en la web como en dispositivos móviles, actúan como una interfaz de chatbot para los modelos subyacentes.

Google está integrando gradualmente el chatbot Gemini en su suite de tecnologías. Por ejemplo, Gemini es el asistente de inteligencia artificial (IA) predeterminado en los últimos teléfonos Google Pixel 9 y Pixel 9 Pro, que reemplaza al Asistente de Google. En Google Workspace, Gemini está disponible en el panel lateral de Documentos para ayudar a escribir y editar contenido, y en el panel lateral de Gmail para ayudar a redactar correos electrónicos, sugerir respuestas y buscar información en la bandeja de entrada de un usuario.

Otras aplicaciones de Google también están incorporando Gemini. Google Maps, por ejemplo, se basa en las capacidades del modelo Gemini para proporcionar resúmenes de lugares y áreas.

Las últimas noticias tecnológicas, respaldadas por los insights de expertos

Manténgase al día sobre las tendencias más importantes e intrigantes de la industria sobre IA, automatización, datos y más con el boletín Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

¿Cómo funciona Google Gemini?

Gemini ha sido entrenado en un corpus masivo de conjuntos de datos multilingües y multimodales. Emplea un modelo transformador, una arquitectura de redes neuronales que el propio Google introdujo en 2017.1

Esta es una breve descripción de cómo funcionan los modelos transformadores:

  • Los codificadores transforman las secuencias de entrada en representaciones numéricas llamadas incrustaciones, que capturan la semántica y la posición de los tokens en la secuencia de entrada.

  • Un mecanismo de autoatención permite a los transformadores "centrar su atención" en los tokens más importantes de la secuencia de entrada, independientemente de su posición.

  • Los decodificadores utilizan este mecanismo de autoatención y las incrustaciones de los codificadores para generar la secuencia de salida estadísticamente más probable.

A diferencia de los modelos de transformadores generativos preentrenados (GPT) que solo toman instrucciones basadas en texto o modelos de difusión utilizados para la generación de imágenes que toman instrucciones tanto de texto como de imagen, Google Gemini admite secuencias intercaladas de audio, imagen, texto y video como entradas y puede producir texto intercalado y salidas de imágenes.2

Versiones del modelo de IA Gemini

La familia Gemini de modelos de IA multimodal viene en múltiples variantes. Cada variante está optimizada para diferentes dispositivos y tareas.

El modelo de primera generación de Gemini, 1.0, viene en Nano y Ultra. El modelo de próxima generación, 1.5, viene en Pro y Flash.

Se puede desarrollar y experimentar con las características de IA de Gemini a través de la API de Gemini en las plataformas de desarrollo de IA Google AI Studio y Google Cloud Vertex AI en la nube. Por ahora, solo están disponibles Gemini 1.5 Pro y Gemini 1.5 Flash.

Gemini 1.0 Nano

Gemini 1.0 Nano es la versión más pequeña de la familia 1.0 diseñada para operar en dispositivos móviles, incluso sin una red de datos. Puede realizar tareas en el dispositivo, como describir imágenes, sugerir respuestas a mensajes de chat, resumir texto y transcribir voz.

Gemini Nano está disponible en dispositivos Android a partir de Pixel 8 Pro. Más allá de sus límites solo para dispositivos móviles, Google está incorporando Gemini Nano en su cliente de escritorio Chrome.

Gemini 1.0 Ultra

Gemini 1.0 Ultra es la versión más grande de la familia 1.0 con capacidades analíticas avanzadas. Está diseñado para tareas muy complejas, como programación, razonamiento matemático y razonamiento multimodal. La ventana de contexto (el número de tokens que un modelo puede procesar a la vez) de Gemini Nano y Gemini Ultra es de 32.000 tokens.2

Gemini 1.5 Pro

Gemini 1.5 Pro es un modelo multimodal de tamaño mediano con una ventana de contexto de hasta 2 millones de tokens. Esta ventana de contexto larga permite a Gemini Pro procesar información a mayor escala: desde horas de audio y video hasta miles de líneas de código o cientos de páginas de documentos.3

Además de una arquitectura transformadora, Gemini 1.5 Pro aplica una arquitectura Mixture of Experts (MoE). Los modelos MoE se dividen en redes neuronales "expertas" más pequeñas, cada una especializada en un determinado dominio o tipo de datos. El modelo aprende a activar selectivamente solo a los expertos más relevantes según el tipo de entrada. Esto da como resultado un rendimiento más rápido al tiempo que reduce los costos computacionales.4

Gemini 1.5 Flash

Gemini 1.5 Flash es una versión ligera de Gemini Pro. Se entrenó utilizando una técnica de machine learning (ML) llamada knowledge distillation, en la que los insights de Gemini 1.5 Pro se transfirieron a Gemini 1.5 Flash, que es más compacto. También cuenta con una ventana de contexto larga de hasta 1 millón de tokens, pero tiene una latencia más baja que lo hace más rápido y eficiente.3

Una breve historia de Google Gemini

Google ha sido pionero en la arquitectura LLM y se basa en su sólida investigación para desarrollar sus propios modelos de IA.

  • 2017: los investigadores de Google presentan la arquitectura transformadora, que sustenta muchos de los LLM actuales.

  • 2020: la empresa presenta el chatbot Meena, un agente conversacional basado en redes neuronales con 2 600 000 000 parámetros.5

  • 2021: Google presenta LaMDA (Language Model for Dialogue Applications), su LLM conversacional.6

  • 2022: se lanza PaLM (Pathways Language Model), con capacidades más avanzadas en comparación con LaMDA.7

  • 2023: Bard comienza durante el primer trimestre del año, respaldado por una versión ligera y optimizada de LaMDA.8 En el segundo trimestre, se lanzó PaLM 2, con habilidades mejoradas de programación, multilingüe y razonamiento, y Bard lo adoptó.9 Google anuncia Gemini 1.0 en el último trimestre del año.

  • 2024: Google cambia el nombre de Bard a Gemini y actualiza sus modelos de IA multimodal a la versión 1.5.

La palabra "Géminis" significa "gemelos" en latín y es tanto un signo del zodiaco como una constelación. Era un nombre adecuado dado que el modelo Gemini es una creación de Google DeepMind, una fusión de fuerzas entre los equipos de DeepMind y Google Brain. La compañía también se inspiró en el Proyecto Gemini de la NASA, una nave espacial de dos personas que es parte integral del éxito de la misión Apolo.10

Rendimiento de Gemini

Gemini Ultra supera a modelos similares en varios puntos de referencia de LLM. Supera a Claude 2, GPT-4 y Llama 2 en puntos de referencia como GSM8K para razonamiento matemático, HumanEval para generación de código y MMLU para comprensión de lenguaje natural.2

En particular, Gemini Ultra superó incluso el rendimiento de expertos humanos en MMLU. Sin embargo, GPT-4 aún funciona mejor que Gemini Ultra en el punto de referencia HellaSwag para el razonamiento de sentido común y la inferencia de lenguaje natural.2

Google también evaluó las capacidades multimodales de Gemini Ultra. Obtuvo mejores resultados que otros modelos en comprensión de documentos, comprensión de imágenes y puntos de referencia de reconocimiento automático de voz. Y a pesar de superar a los LLM en los puntos de referencia de traducción automática de voz, subtítulos de video en inglés, comprensión y razonamiento multimodal y respuesta a preguntas en video, el rendimiento de Gemini Ultra en estas áreas puede mejorar.2

Mientras tanto, el rendimiento tanto de Gemini 1.5 Flash como de Gemini 1.5 Pro es comparable o incluso supera a Gemini 1.0 Ultra.11 A medida que aumenta su ventana de contexto, Gemini 1.5 Pro mantiene un alto nivel de rendimiento.4

Casos de uso de Gemini

Google Gemini aún se encuentra en sus primeras etapas, pero este modelo de IA altamente capaz tiene el potencial de implementarse en una amplia gama de aplicaciones:

  • Programación avanzada

  • Comprensión de imágenes y textos

  • Traducción de idiomas

  • Análisis de malware

  • Expertos en IA personalizados

  • Agentes universales de IA

  • Asistentes de voz

Programación avanzada

El modelo de IA de Gemini puede funcionar en lenguajes de programación como C++, Java y Python para comprender, explicar y generar código. Google utilizó versiones ajustadas de Gemini Pro como modelos fundacionales para desarrollar AlphaCode2, un sistema de generación de código que puede resolver problemas de programación competitivos con elementos de informática teórica y matemáticas complejas.

Comprensión de imágenes y textos

Gemini se puede utilizar para extraer texto de imágenes e imágenes de pie de foto. Puede analizar imágenes como gráficos, diagramas y figuras sin la ayuda de herramientas de reconocimiento óptico de caracteres (OCR) que convierten imágenes de texto en un formato legible por máquina.

Traducción de idiomas

Debido a sus capacidades multilingües, los modelos de IA de Google se pueden utilizar para traducir diferentes idiomas. En la aplicación de videoconferencia Meet, por ejemplo, los usuarios pueden activar los subtítulos traducidos para traducir hacia y desde idiomas específicos.

Análisis de malware

Tanto Gemini 1.5 Pro como Gemini 1.5 Flash se pueden emplear para el análisis de malware. Gemini Pro puede determinar con precisión si un archivo o fragmento de código es malicioso y puede generar un informe detallado de sus hallazgos.12 Mientras tanto, Gemini Flash puede realizar una disección rápida y a gran escala de malware.13

Expertos en IA personalizados

Google lanzó recientemente una nueva característica llamada Gems que permite a los usuarios personalizar el chatbot Gemini para crear "expertos" de IA personalizados en cualquier tarea o tema. Algunos ejemplos de Gems prefabricados incluyen un entrenador de aprendizaje para ayudar a desglosar temas complejos y hacerlos más fáciles de entender, un compañero de lluvia de ideas para ofrecer ideas nuevas para el próximo video y un editor de redacción para proporcionar retroalimentación sobre gramática y estructura.

Los Gems vienen con una suscripción Gemini Advanced, que utiliza el modelo Gemini 1.5 Pro.

Agentes de IA universales

A través del Proyecto Astra, Google se basa en sus modelos Gemini para crear un agente de IA universal que pueda procesar, recordar y comprender información multimodal en tiempo real. Para mejorar la recuperación y la eficiencia, Project Astra aprovecha el almacenamiento en caché, la codificación continua de fotogramas de video y el acoplamiento de entrada de voz y video en una línea de tiempo de eventos.14

En una de las demostraciones de Google, el asistente de IA Gemini pudo explicar las partes de un orador, reconocer el vecindario en el que se encontraba una persona y recordar dónde ponía sus anteojos.14

Asistentes de voz

Con Gemini Live, los usuarios pueden tener un diálogo con el chatbot Gemini que se siente más natural y conversacional. Ofrece respuestas más intuitivas y puede adaptarse al estilo conversacional de una persona.

Riesgos de Gemini

Al igual que otros LLM, Google Gemini continúa lidiando con los riesgos de la IA. Se recomienda precaución, especialmente para las personas que tengan la intención de utilizar Gemini y las organizaciones que estén considerando el modelo para uso comercial o integración en sus flujos de trabajo.

Sesgo: en febrero de 2024, Google decidió pausar la capacidad del chatbot Gemini para crear imágenes de personas debido a su representación inexacta de figuras históricas, borrando una historia de prejuicios raciales.15

Alucinaciones: al momento de escribir este artículo, los resultados de búsqueda general de IA respaldados por Gemini todavía producen ocasionalmente resultados incorrectos.

Violaciones de propiedad intelectual: Google fue multado por los reguladores en Francia, señalando que el chatbot de IA de la empresa fue entrenado en noticias y contenido sin el conocimiento o consentimiento de los editores en el país.16

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas de pie de página

1 Transformer: A Novel Neural Network Architecture for Language Understanding, Google Research, 31 de agosto de 2017.

2 Gemini: A Family of Highly Capable Multimodal Models, Google DeepMind, consultado el 16 de septiembre de 2024.

3 Gemini Models, Google DeepMind, consultado el 16 de septiembre de 2024.

Our next-generation model: Gemini 1.5, blog.google, 15 de febrero de 2024

5 Towards a Conversational Agent that Can Chat About…Anything, Google Research, 28 de enero de 2020.

6 LaMDA: nuestra tecnología de conversación innovadora, Google, 18 de mayo de 2021.

7 Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance, Google Research, 4 de abril de 2022.

8 Pruebe Bard y Compartir sus feedback, Google, 21 de marzo de 2023.

9 Introducing PaLM 2, Google, 10 de mayo de 2023.

10 How Google's AI model Gemini got its name, Google, 15 de mayo de 2024.

11 Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context, Google DeepMind, consultado el 16 de septiembre de 2024.

12 From Assistant to Analyst: The Power of Gemini 1.5 Pro for Malware Analysis, Google Cloud, 30 de abril de 2024.

13 Scaling Up Malware Analysis with Gemini 1.5 Flash, Google Cloud, 16 de julio de 2024.

14 Project Astra, Google DeepMind, consultado el 16 de septiembre de 2024.

15 Google chief admits 'biased' AI tool's photo diversity offended users, The Guardian, 28 de febrero de 2024.

16 Google multado con 250 millones de euros en Francia por incumplimiento del acuerdo de propiedad intelectual, The Guardian, 20 de marzo de 2024.