Generación de assets 3D usando IA
Imagina crear assets 3D utilizando IA. En este artículo, repasamos los primeros modelos de IA que lo hacen posible y comparamos los modelos comerciales y de código abierto.
La IA generativa está produciendo una notable revolución tecnológica en la era actual. Desde la presentación del innovador documento Transformer por parte de investigadores de Google en 2017, la comunidad tecnológica ha reconocido el potencial transformador de la IA. Sin embargo, no fue hasta la publicación del ahora famoso ChatGPT de OpenAI, el 30 de noviembre de 2022, cuando el mundo comenzó realmente a comprender el profundo impacto que la IA tendrá en nuestro futuro. Como resultado, el número de empresas y laboratorios tecnológicos que invierten en IA no ha dejado de aumentar año tras año.
Primero surgieron los grandes modelos lingüísticos (LLM), los cuales sentaron las bases para el desarrollo de modelos multimodales más complejos desarrollados más tarde. Un área en el que esta evolución está teniendo un impacto significativo es el área audiovisual. En los últimos años se han introducido modelos multimodales capaces de combinar texto e imágenes, conocidos como Vision-Language Models (VLM). La revolución audiovisual cobró impulso con el anuncio de CLIP y DALL-E por OpenAI en 2021. DALL-E, que utilizaba una variante de la arquitectura GPT-3 para generar imágenes, marcó un momento crucial. El año 2022 fue testigo de una oleada de avances en IA, con empresas como MidJourney y Stability AI, que lanzaron sus propios modelos de IA para la generación de imágenes.
Tras el éxito de los modelos de generación de imágenes, surgieron los primeros modelos de IA para la creación de audio y música, como AudioML y MusicML de Google Research. En 2023, herramientas como Suno y Udio dieron un paso más allá, convirtiéndose en la vanguardia de la creación de audio basada en IA, capaz de generar bandas sonoras complejas y música de diversos géneros.
En febrero de 2024, OpenAI anunció SORA, un nuevo modelo de generación de vídeo que, si bien no era el primero de su clase, representaba un importante salto hacia adelante en este campo. El año 2024 ha sido especialmente fructífero para la IA, con el lanzamiento de diversas herramientas de generación de vídeo como Runway, Dream Machine y Kling, entre otras.
A medida que la generación de vídeo se hace cada vez más viable, la próxima frontera parece ser la generación de assets 3D mediante IA. Este año se han presentado los primeros modelos de IA para la creación de activos 3D: TripoAI, Meshy, Genie y CSM.
TripoAI, Meshy y CSM ofrecen servicios web para usuarios, así como una API REST para que los desarrolladores integren estos servicios en herramientas de terceros. Estas plataformas suelen funcionar con un sistema basado en créditos, en el que los usuarios compran créditos que se consumen con cada generación. En cambio, Genie, desarrollada por Luma Labs, se lanzó en versión alfa y actualmente es de uso gratuito.
La siguiente tabla ofrece una comparación de los servicios de IA anteriormente comentados de generación de assets 3D:
Estos modelos de IA permiten generar assets 3D a partir de texto o imágenes, produciendo tanto piezas geométricas como texturas. Sin embargo, la calidad y la fidelidad de los resultados varían de un modelo a otro. Además, algunos de estos modelos ofrecen funciones adicionales, como la generación de texturas PBR o rigging automático y animación de los modelos 3D generados.
Para evaluar las capacidades de estos modelos de IA, desde el equipo de Plain Concepts Research se ha creado una batería de pruebas para compararlos, que se describe a continuación.
En primer lugar, comparamos los modelos comerciales de IA para la generación de assets 3D utilizando una entrada de texto.
Tag | Prompt |
Person | A person in a black official suit, red tie, highly detailed, ultra-realistic, A-pose |
Animal | Realistic horse |
Object | Gorgeous chair with blue cloth and wooden armrests |
Food | Photorealistic, high-quality hamburger with detailed textures |
Fantasy | Noisy goblin |
En la segunda prueba, comparamos los modelos de IA utilizando una imagen de entrada. Las imágenes para esta prueba se generaron con Flux (el nuevo modelo de IA para la generación de imágenes presentado por Black Forest Lab.
Nota. Genie (el modelo de IA de Luma Labs) no aparece en la comparación porque actualmente carece de la función de generación de 3D desde una imagen de entrada.
Por otro lado, también existen modelos de IA de código abierto que pueden ejecutarse en máquinas locales. Algunos de los más notables son TripoSR, CRM, InstantMesh o SF3D. Estos modelos son especialmente valiosos porque te permiten experimentar, perfeccionarlos y evolucionarlos, e integrarlos en tus herramientas sin depender de servicios externos.
Para evaluar estos modelos, vamos a utilizar la misma batería de pruebas utilizada anteriormente con los modelos comerciales.
Por otro lado, Meta ha presentado recientemente un nuevo modelo de generación 3D llamado Assets3DGen, que promete resultados de gran calidad. Este modelo admite la generación de assets 3D usando texto o imágenes como entrada, así como la generación de materiales complejos PBR. Aunque Meta anunció que el proyecto es de código abierto, el código fuente aún no se ha hecho público, por lo que no hemos podido incluirlo en nuestra prueba comparativa por el momento. Estaremos atentos a las actualizaciones en los próximos meses, pero mientras tanto, compartimos el vídeo del anuncio del nuevo modelo Assets3DGen por parte de Meta.
Por último, como parte de nuestro compromiso de trabajar con tecnología punta y ofrecer a nuestros clientes las mejores soluciones, el equipo de Plain Concepts Research está desarrollando una herramienta experimental para generar assets 3D utilizando modelos de IA. Esta herramienta se basa en los servicios de TripoAI y Evergine (un potente motor gráfico industrial desarrollado por Plain Concepts). El resultado es DonatelloAI, una herramienta que permite a los usuarios:
- Generación de assets 3D a partir de una entrada de texto.
- Generación de assets 3D a partir de una imagen o boceto.
- AutoRigging y animación de los modelos generados.
- Estilización.
- Optimización de modelos y exportación a múltiples formatos GLTF, USDZ, FBX, OBJ, STL
- Galería de modelos generados.
- Composición de grandes escenas usando los modelos generados.
Esta herramienta experimental está disponible en el siguiente repositorio, y cualquiera puede probarla en su máquina local descargándola desde aquí.
Para finalizar, esto es sólo el principio. Dentro de unos años, los creativos tendrán acceso a nuevas y potentes herramientas que les permitirán superar los límites actuales. En Plain Concepts, estamos encantados de colaborar con empresas del sector audiovisual en este viaje hacia el próximo salto adelante.