Saltar al contenido principal
marzo 25, 2025

Gemini Robotics: Una nueva era de robots con IA

Introducción

En marzo de 2025, Google DeepMind presentó Gemini Robotics, una tecnología revolucionaria que revolucionará la forma en que los robots interactúan con los humanos tanto en entornos industriales como domésticos.

Hasta ahora, los robots utilizados habitualmente en las fábricas se han diseñado centrándose principalmente en la eficiencia de las tareas, ejecutando trabajos específicos de la forma más rápida y precisa posible. Estas máquinas funcionan de forma muy parecida a los componentes mecánicos de un coche, donde cada acción está cuidadosamente programada y optimizada para ser eficiente. Sin embargo, los robots industriales tradicionales asumen un entorno estático, lo que significa que no supervisan ni se adaptan a los cambios que se producen a su alrededor. Son incapaces de detectar obstáculos, como una persona que se cruza en su camino, y por eso suelen estar encerrados en jaulas de seguridad para evitar accidentes.

Gemini Robotics pretende cambiar este paradigma integrando IA avanzada, lo que permite a los robots percibir, adaptarse e interactuar dinámicamente con su entorno, haciéndolos más seguros y versátiles para aplicaciones del mundo real.

Sin embargo, la naturaleza del trabajo está cambiando rápidamente. Por ejemplo, en la industria del automóvil, los modelos de vehículos evolucionan en ciclos cada vez más cortos. Esto significa que las cadenas de producción deben adaptarse rápidamente, lo que hace que las máquinas altamente especializadas sean menos rentables a largo plazo.

Además, surgen retos cuando los robots tienen que compartir un espacio de trabajo con otros robots similares. Cuando se confía en un enfoque básico basado en listas de tareas predefinidas y soluciones rígidas, la coordinación y la eficiencia pueden convertirse en grandes obstáculos.

En una fábrica, las máquinas no son las únicas que trabajan. No todas las tareas pueden automatizarse por completo debido a limitaciones de costes o a la necesidad de flexibilidad. Aquí es donde entra en juego el concepto de Cobots (robots colaborativos). Un Cobot es un tipo de robot diseñado específicamente para trabajar junto a humanos en un espacio de trabajo compartido, en lugar de funcionar de forma autónoma o aislada como los robots industriales tradicionales.

Sin embargo, el diseño de Cobots plantea nuevos retos, sobre todo a la hora de garantizar la seguridad humana. Estos robots deben ser capaces de detectar colisiones tanto con humanos como con otras máquinas de su entorno. Por ello, deben ajustar dinámicamente sus movimientos en función de las condiciones en tiempo real. Por ejemplo, es habitual que un Cobot reduzca su velocidad de trabajo cuando un humano se acerca demasiado, minimizando así el riesgo de contacto accidental.

En qué se diferencia Gemini Robotics de los enfoques anteriores

Google DeepMind pretende aprovechar sus modelos de IA más avanzados, como Gemini 2.0, para ayudar a los robots a comprender mejor el mundo físico. El objetivo es desarrollar robots generalistas capaces de ejecutar diversas tareas con la misma programación, al tiempo que garantizan la seguridad cuando trabajan junto a humanos en entornos dinámicos.

Según DeepMind, Gemini Robotics ha sido probado en una amplia gama de tareas y ha demostrado la capacidad de afrontar retos que nunca había encontrado durante el entrenamiento. Por ejemplo, los robots anteriores, entrenados únicamente para apilar bloques, tendrían problemas si se les pidiera que colocaran objetos en un frigorífico. En cambio, Gemini Robotics aprovecha las amplias capacidades de razonamiento de Gemini 2.0, lo que le permite procesar instrucciones novedosas. En las evaluaciones técnicas, duplicó con creces su rendimiento en una prueba de generalización exhaustiva, superando a otros modelos de última generación en la adaptación a nuevas situaciones.

Otro elemento diferenciador clave es la interactividad en tiempo real. Basado en un potente modelo lingüístico, Gemini puede entender instrucciones dadas en lenguaje cotidiano e incluso seguir una conversación. Si un usuario interrumpe a un robot en mitad de una tarea y le dice: «En realidad, coloca ese artículo en el estante superior», el sistema Gemini puede adaptarse sobre la marcha. Supervisa continuamente tanto el entorno como las instrucciones, lo que garantiza que no ejecute ciegamente un plan si cambian las condiciones.

Los robots anteriores solían ser inflexibles una vez iniciada una tarea, cualquier cambio inesperado podía provocar el fracaso (por ejemplo, un robot de limpieza podía chocar repetidamente con una silla que se había movido después de haber trazado el mapa de la habitación). En cambio, la IA de Gemini aporta una adaptabilidad similar a la humana, siempre está «pensando» y replanificando cuando es necesario. Esta adaptabilidad es posible porque el modelo no se limita a reaccionar por reflejo, sino que razona activamente las situaciones gracias a la profunda comprensión contextual y basada en intenciones de Gemini 2.0.

El secreto bajo la superficie

En los últimos años, los modelos de IA han pasado de procesar simplemente entradas de texto y generar respuestas basadas en texto a arquitecturas más avanzadas capaces de manejar múltiples tipos de entradas y salidas dentro del mismo modelo.

Google DeepMind ha aprovechado esta evolución utilizando Gemini 2.0 como base para un nuevo modelo de IA que puede procesar varios tipos de datos de entrada, incluidos texto (lenguaje natural), imágenes, audio y vídeo. Este modelo va más allá de la IA tradicional al generar resultados de acción que pueden ser ejecutados directamente por un robot. Se trata de un modelo de Visión-Lenguaje-Acción (VLA) que sirve de «cerebro» a los robots y les permite interpretar órdenes complejas y realizar tareas en entornos humanos.

Una innovación crucial de este sistema es la integración de una capa de razonamiento intermedia entre la entrada y la salida. Esta capa está diseñada para analizar el espacio físico y aplicar protocolos de seguridad, garantizando que cada acción se evalúa en tiempo real antes de su ejecución. El aspecto más innovador de esta tecnología es que sus resultados se generan como un flujo continuo, que se ajusta dinámicamente en función de los datos de entrada en tiempo real.

Este concepto es increíblemente poderoso y representa el avance clave del éxito de esta nueva tecnología, que permite a los robots adaptarse sobre la marcha y operar con mayor seguridad y eficacia en entornos impredecibles.

Gemini Robotics: Lo más destacado

Google DeepMind destaca tres capacidades fundamentales que definen los avances de Gemini Robotics: generalidad, interactividad y destreza.

Generalidad: Adaptarse a lo inesperado

La generalidad se refiere a la capacidad de un robot para adaptarse a situaciones nuevas e imprevistas. Gemini Robotics aprovecha el amplio conocimiento del mundo integrado en el modelo Gemini para manejar objetos nuevos, instrucciones diversas y entornos desconocidos. Esta capacidad es crucial para que los robots vayan más allá de las tareas altamente específicas y preprogramadas y operen con eficacia en el dinámico mundo real. Google informa de que Gemini Robotics ha demostrado una mejora significativa en este campo, duplicando con creces su rendimiento en una prueba de generalización exhaustiva en comparación con otros modelos líderes de visión-lenguaje-acción. Este énfasis en la generalidad indica una tendencia más amplia de la robótica hacia la creación de máquinas más versátiles. A diferencia de los robots industriales tradicionales, diseñados para acciones muy específicas y repetitivas, Gemini Robotics aspira a crear robots que puedan adaptarse y utilizarse más fácilmente en una amplia variedad de tareas y entornos.

Interactividad: Comprender y responder con naturalidad

La interactividad describe la capacidad del robot para entender y responder a órdenes y cambios en su entorno de forma fluida e intuitiva. Gemini Robotics puede entender y responder al lenguaje cotidiano y conversacional y reaccionar ante cambios repentinos en las instrucciones o en su entorno, a menudo continuando las tareas sin necesidad de más información. Esto incluye la capacidad de entender y responder a instrucciones en lenguaje natural en varios idiomas. Además, si a un robot se le cae un objeto o alguien del entorno mueve algo, el sistema puede replanificar sus acciones y ajustarse en consecuencia sin necesidad de reprogramación explícita. Este nivel de adaptabilidad en tiempo real es crucial para que los robots sean realmente útiles en entornos dinámicos y centrados en el ser humano. Las avanzadas capacidades de comprensión del lenguaje derivadas de Gemini 2.0 contribuyen directamente a esta interacción sin fisuras. En lugar de tener que aprender comandos robóticos específicos, los usuarios pueden comunicarse con los robots equipados con Gemini utilizando un lenguaje natural, lo que hace que la tecnología sea más accesible y fomenta una colaboración más intuitiva entre humanos y robots.

Destreza: Dominar la motricidad fina

La destreza se refiere a la capacidad del robot para realizar tareas complejas que requieren una motricidad fina y una manipulación precisa. Gemini Robotics ha demostrado avances significativos en este campo, permitiendo a los robots realizar tareas como doblar papiroflexia, empaquetar una fiambrera o preparar una ensalada. Entre las demostraciones de esta capacidad se incluyen robots que recogen frutas y aperitivos, colocan vasos en estuches, se atan los cordones de los zapatos e incluso intentan encestar un balón de baloncesto. Muchas tareas cotidianas que los humanos realizan sin esfuerzo dependen de un alto grado de destreza, y los avances en este campo amplían significativamente la utilidad potencial de los robots en escenarios del mundo real. Aunque los robots han destacado tradicionalmente en tareas que implican movimientos grandes y repetitivos, la manipulación fina ha sido un reto persistente. Los avances de Gemini Robotics en materia de destreza abren posibilidades para que los robots ayuden en tareas más matizadas y orientadas al ser humano.

Familia de modelos robóticos Gemini

Google DeepMind ha presentado dos modelos de IA en el marco de la iniciativa Gemini Robotics:

  • Gemini Robotics: Gemini Robotics es el modelo general de IA para robótica construido sobre Gemini 2.0 de DeepMind. Amplía las capacidades multimodales del modelo base, texto, visión y audio, añadiendo el control robótico como un nuevo resultado. Esto significa que, en lugar de limitarse a procesar y responder a la información en el ámbito digital (como hace Gemini 2.0 con el texto y las imágenes), Gemini Robotics puede generar acciones motoras y controlar sistemas robóticos en entornos reales.
  • Gemini Robotics-ER: Gemini Robotics-ER es un modelo especializado para el razonamiento corporal que funciona junto con el modelo Gemini Robotics o lo mejora. Se centra en la conciencia espacial, las interacciones con objetos y el razonamiento basado en la física.

Tabla comparativa:

Adopción empresarial

Los avances aportados por Gemini Robotics abren un amplio abanico de aplicaciones reales en múltiples sectores. Entre ellas se incluye el desarrollo de robots de uso general más capaces y robots humanoides de nueva generación diseñados para ayudar en el hogar, el lugar de trabajo y más allá.

Una colaboración clave en este esfuerzo es la asociación de Google DeepMind con Apptronik, una empresa de robótica, para integrar Gemini Robotics en su robot humanoide Apollo para la automatización logística. Esta asociación pone de relieve la aplicación práctica de Gemini Robotics en el avance de los robots humanoides para tareas del mundo real.

Además, Gemini Robotics-ER está siendo evaluada actualmente por un selecto grupo de socios de confianza, entre los que se encuentran Agile Robots, Agility Robotics, Boston Dynamics y Enchanted Tools. Este gran interés de la industria subraya el potencial de la tecnología y su validación por parte de empresas líderes en robótica.

Las aplicaciones potenciales abarcan un amplio espectro de tareas, desde tareas domésticas cotidianas como la preparación de comidas hasta operaciones industriales complejas como la automatización de almacenes. Además, Gemini Robotics podría desempeñar un papel crucial en el cuidado de ancianos y la asistencia médica, proporcionando apoyo a los profesionales sanitarios.

Estas colaboraciones entre Google DeepMind y diversas empresas de robótica son cruciales para traducir la investigación puntera en IA en soluciones prácticas para el mundo real. También facilitan la mejora continua mediante la recopilación de valiosos comentarios para seguir perfeccionando y mejorando la tecnología.

En resumen

Gemini Robotics ha tenido un impacto significativo al demostrar que un único modelo de IA puede dotar a los robots de una amplia gama de capacidades, desde la comprensión de órdenes humanas hasta la adaptación a nuevas tareas y la manipulación de objetos con precisión. A diferencia de enfoques anteriores, Gemini Robotics está diseñado para ser más general, integrado y adaptable, introduciendo tecnologías revolucionarias que podrían dar forma al futuro de la IA robótica.

Las aplicaciones potenciales son inmensas y abarcan desde la automatización empresarial y la eficiencia industrial hasta la asistencia personal en la vida cotidiana. Sin embargo, transformar este prototipo en una realidad ampliamente adoptada exigirá superar retos de seguridad, integración empresarial y consideraciones éticas. Los próximos años serán una fase de pruebas crucial para Gemini Robotics, que determinará si puede pasar con éxito de ser un avance experimental a una solución generalizada.

Si todo va bien, este momento podría recordarse como el punto de inflexión en el que los robots dejaron atrás la cadena de montaje y empezaron a ayudar sin problemas en el mundo real, un mundo que por fin pueden comprender. Con Gemini Robotics, la visión de robots inteligentes y útiles ya no se limita a la ciencia ficción, sino que se está convirtiendo en una realidad tangible, dando paso a una nueva era en la que la inteligencia artificial y la robótica trabajan juntas para mejorar el potencial humano.

 

Fuentes

Gemini Robotics – Google DeepMind

Gemini Robotics brings AI into the physical world – Google DeepMind

storage.googleapis.com/deepmind-media/gemini-robotics/gemini_robotics_report.pdf

Javier Cantón
Autor
Javier Cantón
Plain Concepts Research