Saltar al contenido principal
diciembre 12, 2024

Gemini 2.0 ya está aquí y promete poder hacer (casi) cualquier cosa

Google ha aprovechado los últimos días del año para lanzar su modelo de inteligencia artificial más esperado: Gemini 2.0. Se trata de su modelo de IA de próxima generación, que promete ser un gran paso adelante en cuanto a inteligencia y capacidades.

Si el modelo anterior se centraba en la multimodalidad, la versión 2.0 se sustenta en los agentes de IA, los cuales son capaces de actuar de forma más autónoma y resolver problemas complejos con menor intervención humana. Con esto, Google se posiciona a la cabeza de la carrera por conseguir los modelos de IA más avanzados del mercado. ¡Te contamos todos los detalles!

Introducción a Gemini 2.0

Con motivo del lanzamiento de Gemini 2.0, Sundar Pichai, CEO de Google y Alphabet, compartía lo siguiente: “La información es el núcleo del progreso humano. Por eso, durante más de 26 años nos hemos centrado en nuestra misión de organizar la información del mundo y hacerla accesible y útil. Y es por eso que seguimos ampliando las fronteras de la IA para organizar esa información en cada entrada y hacerla accesible a través de cualquier salida, de modo que pueda ser realmente útil para ti. (…) En la actualidad, millones de desarrolladores desarrollan con Gemini, lo que nos ayuda a reinventar todos nuestros productos (incluidos los 7 que cuentan con 2 mil millones de usuarios) y a crear otros nuevos. En el último año, hemos invertido en el desarrollo de modelos más ágiles, es decir, capaces de comprender mejor el mundo que te rodea, anticiparse y actuar en tu nombre, bajo tu supervisión. Hoy estamos entusiasmados por lanzar nuestra próxima era de modelos diseñados para esta nueva era de agentes: presentamos Gemini 2.0, nuestro modelo más capaz hasta el momento. Con nuevos avances en multimodalidad (como salida de audio e imagen nativa) y uso de herramientas nativas, nos permitirá crear nuevos agentes de IA que nos acerquen a nuestra visión de un asistente universal (…)”.

En este vídeo podéis ver un resumen de las nuevas capacidades del modelo:

Gemini 2.0 Flash

El primer modelo lanzado por la compañía es Gemini 2.0 Flash, el modelo más pequeño y menos potente, aunque incluso más bueno como el modelo Pro Actual. Según Demis Hassabis, CEO de Google DeepMind, este modelo es más versátil y capaz que modelos anteriores y puede generar imágenes y audio multilingüe de forma nativa: “Flash supera incluso a 1.5 Pro en pruebas de referencia clave, con el doble de velocidad y también viene con nuevas capacidades. Además de admitir entradas multimodales como imágenes, vídeo y audio, Flash 2.0 admite ahora salidas multimodales, como imágenes generadas de forma nativa mezcladas con texto y audio multilingüe sintetizado a partir de texto (TTS). También está integrado de forma nativa con herramientas como la Búsqueda de Google o la ejecución de código, así como funciones de terceros definidas por el usuario”

Este modelo ya está disponible como modelo experimental a través de la API de Gemini, con entrada multimodal y salida de texto, y conversión de texto a voz y generación de imágenes nativas.

Estará disponible de forma generalizada en enero, junto con más tamaños de modelos.

Agentes de IA para Gemini 2.0

La mayor novedad de Gemini 2.0 reside en los agentes de IA. Ahora incluye capacidades de acción de la interfaz de usuario nativa, junto con otras mejoras como el razonamiento multimodal, la comprensión de contextos largos, el seguimiento y la planificación de instrucciones complejas, la llamada a funciones compuestas, el uso de herramientas nativas y la mejora de la latencia.

Estos agentes de IA tendrán una gran influencia durante los próximos años, y Google está explorando este campo con varios prototipos que pueden ayudar a las personas a realizar tareas como nunca se había podido.

Aún está en sus primeras fases de desarrollo, pero uno de los ejemplos es la actualización del Proyecto Astra, un prototipo que explora las capacidades futuras de una asistente universal de IA.

También encontramos el Proyecto Mariner, que explora el futuro de la interacción entre humanos y agentes, empezando por el navegador. O Jules, un agente de código impulsado por IA que ayuda a los desarrolladores en sus tareas, integrado directamente en un flujo de trabajo de GitHub.

Proyecto Astra

Hace unos meses, Google lanzaba este proyecto, el cual presentaron como una evolución de los asistentes virtuales, y que puede analizar nuestro entorno para numerosas acciones, como encontrar objetos perdidos o describir situaciones.

Con la llegada de Gemini 2.0, el Proyecto Astra también ha recibido mejoras:

  • Mejores diálogos: ahora tiene la capacidad de conversar en varios idiomas, así como una mejor comprensión de los acentos o palabras menos comunes.
  • Nuevo uso de herramientas: ahora puede utilizar el motor de búsqueda, Google Lens o Maps.
  • Mejor memoria: ahora tiene hasta 10 minutos de memoria durante la sesión y puede recordar otras conversaciones que haya tenido con él en el pasado gracias a su personalización.
  • Latencia mejorada: gracias a las nuevas funciones de streaming y a la comprensión nativa del audio, el agente de IA puede entender el lenguaje con una latencia similar a la de una conversación humana.

Proyecto Mariner

Como mencionábamos brevemente más arriba, el Proyecto Mariner es un prototipo de investigación construido con Gemini 2.0 que explora el futuro de la interacción entre humanos y agentes.

Es capaz de comprender y razonar, a través de la información de la pantalla del navegador, sobre píxeles, texto, código, imágenes o formularios, para después utilizar esta información a través de una extensión de Chrome que completa las tareas por ti.

Aún está en una fase temprana, pero los resultados están siendo muy prometedores.

Aquí entra el reto de construirlo de forma segura y responsable, por ello, solo puede escribir, desplazarse o hacer clic en la pestaña activa del navegador y pide al usuario una confirmación final antes de realizar ciertas acciones sensibles.

Con todos estos avances, Google y DeepMind también han puesto énfasis en su compromiso con la seguridad y la responsabilidad a la hora de desarrollar con agentes de IA. Por ello, están adoptando un enfoque explorativo y gradual a la hora de desarrollar los productos, probando múltiples prototipos, insistiendo en la integración y formación en seguridad, trabajando con testers de confianza y expertos externos y realizando exhaustivas evaluaciones de riesgos y de seguridad y garantía.

 

Sin duda, Gemini 2.0 y los nuevos prototipos abren una gran puerta a una nueva generación de modelos de IA más inteligentes y autónomos, y que estamos deseando explorar y descubrir. Muy pronto os compartiremos demos utilizando esta nueva versión.

Elena Canorea
Autor
Elena Canorea
Communications Lead