Introducción a Gemini: El modelo multimodal de Google para IA

Gemini es el modelo fundado y creado por Google, diseñado desde su concepción como una tecnología multimodal. Esta capacidad le permite comprender y operar con información en diferentes formatos, incluyendo texto, imagen, audio, vídeo y código de programación.

Este modelo de fundación reemplaza al PaLM2 en el chatbot de IA de la compañía, y está disponible inicialmente en inglés. Su disponibilidad inicial es en dispositivos Android, específicamente en el Pixel 8 Pro, y se expandirá a todo el ecosistema a través de una API.

Google planea extender el uso de Gemini a otros productos y servicios como Google Search, Chrome, Duet AI y Google Ads.

IA multimodal de Google

Según Google, Gemini es el modelo más hábil y flexible desarrollado por la empresa para aplicaciones de inteligencia artificial en múltiples escalas. Funciona desde el procesamiento en data centers hasta recursos de IA en dispositivos móviles.

Una característica distintiva de Gemini en comparación con otros LLMs es su entrenamiento multimodal desde la base. Mientras que otras soluciones desarrollaron soporte para diferentes formatos por separado, Gemini integró estas capacidades desde el principio.

Esta característica permite a Gemini comprender mejor los comandos combinados de texto y medios, y responder a preguntas complejas. El modelo es capaz de discernir los componentes de una consulta y analizar grandes volúmenes de datos, lo que le permite resumir o desglosar documentos extensos.

Gemini en tres tamaños

Para atender demandas de diferentes escalas, Gemini está disponible en tres tamaños:

Gemini Nano

El Nano es la versión más compacta y eficiente del modelo, diseñada para funcionar en tablets y celulares. Tiene dos variantes: Nano-1, con capacidad para procesar 18 mil millones de parámetros, y Nano-2, con 325 mil millones de parámetros.

Esta diferenciación permite su aplicación en dispositivos con distintos niveles de memoria.

gemini-3-diferentes-modelos-ultra-pro-nano

El Gemini Nano se lanzó en formato de prueba con una nueva plataforma AICore para el Pixel 8 Pro. Ofrece recursos de IA como resumir páginas web a través de Google Assistant y aplicar soluciones inteligentes en Google Photos.

Otros modelos con Android 14 recibirán Nano en el futuro gracias a una API que permitirá a los desarrolladores incluir recursos de IA en sus aplicaciones.

Gemini Pro

La versión intermedia del modelo ya alimenta a Bard (en inglés) y se espera que se utilice en otros servicios conectados a internet, como Chrome y Google Search. Según Google, Gemini Pro es eficiente para realizar tareas creativas, producir texto y resumir contenidos.

Gemini Ultra

Gemini Ultra es la versión más potente, con un mayor conjunto de parámetros y la capacidad de ejecutar tareas altamente complejas. Google afirma que el rendimiento de Gemini Ultra supera los resultados actuales en 30 de los 32 benchmarks académicos utilizados en la investigación y desarrollo de Grandes Modelos de Lenguaje (LLMs).

Esta versión aún no está disponible en ningún producto y se lanzará en 2024.

¿Cómo usar Gemini en Bard?

El modelo de lenguaje de Google puede probarse a través de Bard configurando el idioma en inglés en tu cuenta de Google y actualizando la página de la herramienta.