Investigadores del MIT mejoran la creación de modelos 3D realistas con IA generativa

Avances en inteligencia artificial permiten la creación de modelos tridimensionales más precisos y detallados, optimizando procesos en diseño y producción

Por OpenAI

Más artículos de este autor

miércoles 11 de diciembre de 2024, 17:08h

Escucha la noticia

Investigadores del MIT han desarrollado una nueva técnica que mejora la creación de modelos 3D realistas utilizando inteligencia artificial generativa. A diferencia de los métodos anteriores, que a menudo producían formas borrosas o caricaturescas, este enfoque optimiza el proceso sin necesidad de un costoso reentrenamiento. La técnica, conocida como Score Distillation, combina modelos de generación de imágenes 2D para crear representaciones tridimensionales más nítidas y de alta calidad. Este avance puede facilitar el diseño en áreas como la realidad virtual y el cine, permitiendo a los creadores generar objetos 3D realistas de manera más eficiente. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

La creación de modelos 3D realistas para aplicaciones como la realidad virtual, el cine y el diseño ingenieril ha sido tradicionalmente un proceso arduo que requiere numerosos intentos manuales. Aunque los modelos de inteligencia artificial generativa para imágenes han revolucionado los procesos artísticos al permitir a los creadores producir imágenes 2D vívidas a partir de indicaciones textuales, estos modelos no están diseñados para generar formas en 3D.

Para abordar esta limitación, un equipo de investigadores del MIT ha desarrollado una técnica innovadora llamada Score Distillation. Esta metodología utiliza modelos de generación de imágenes en 2D para crear formas tridimensionales, aunque los resultados iniciales tienden a ser borrosos o con un estilo caricaturesco.

Mejoras significativas en la calidad

Los científicos del MIT han investigado las relaciones y diferencias entre los algoritmos empleados para generar imágenes 2D y formas 3D, identificando así la causa principal de la baja calidad en los modelos tridimensionales. A partir de este análisis, han implementado una solución sencilla a Score Distillation que permite obtener formas 3D nítidas y de alta calidad, comparables a las mejores imágenes generadas por modelos en 2D.

Otras técnicas intentan resolver este problema mediante el reentrenamiento o ajuste fino del modelo de IA generativa, lo cual puede resultar costoso y consumir mucho tiempo. En contraste, la técnica desarrollada por los investigadores del MIT logra una calidad comparable o superior sin necesidad de entrenamiento adicional ni procesamiento posterior complejo.

Un avance hacia el futuro

Además, al identificar la raíz del problema, los investigadores han mejorado la comprensión matemática detrás de Score Distillation y técnicas relacionadas, lo que allana el camino para futuros trabajos que busquen optimizar aún más el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que sean rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del estudio sobre esta técnica.

Lukoianov cuenta con la colaboración de Haitz Sáez de Ocáriz Borde, estudiante graduado en la Universidad de Oxford; Kristjan Greenewald, científico investigador en el MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, científico en el Instituto de Investigación Toyota; Timur Bagautdinov, investigador en Meta; así como los autores principales Vincent Sitzmann y Justin Solomon, profesores asistentes en EECS en MIT. Este trabajo será presentado en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

De imágenes 2D a formas 3D

Los modelos de difusión, como DALL-E, son un tipo de modelo generativo capaz de producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, se añade ruido a las imágenes y luego se enseña al modelo a revertir el proceso eliminando dicho ruido. Este proceso aprendido permite crear imágenes basadas en indicaciones textuales proporcionadas por el usuario.

No obstante, los modelos de difusión presentan dificultades al intentar generar directamente formas 3D realistas debido a la escasez de datos tridimensionales disponibles para su entrenamiento. Para sortear esta limitación, se desarrolló en 2022 una técnica conocida como Score Distillation Sampling (SDS), que utiliza un modelo de difusión preentrenado para combinar imágenes 2D en una representación tridimensional.

Resolviendo el cuello de botella

A pesar del potencial prometedor del SDS, las formas 3D producidas frecuentemente resultan borrosas o sobresaturadas. “Esto ha sido un cuello de botella durante un tiempo. Sabemos que el modelo subyacente es capaz de hacer algo mejor, pero no se comprendía por qué esto sucedía con las formas 3D”, comenta Lukoianov.

Los investigadores del MIT examinaron detenidamente los pasos del SDS y descubrieron un desajuste entre una fórmula clave utilizada en el proceso y su contraparte en los modelos de difusión 2D. Esta fórmula indica cómo actualizar la representación aleatoria añadiendo o eliminando ruido gradualmente para asemejarla más a la imagen deseada.

Una solución aproximada

En lugar de intentar resolver esta compleja fórmula con precisión, los investigadores probaron técnicas aproximadas hasta identificar la más efectiva. En lugar de muestrear aleatoriamente el término ruidoso, su técnica infiere el término faltante a partir del renderizado actual del objeto 3D.

Implicaciones futuras

Finalmente, lograron utilizar un modelo preentrenado estándar para crear formas 3D suaves y realistas sin necesidad del costoso reentrenamiento. Los objetos tridimensionales resultantes son igualmente nítidos comparados con aquellos producidos mediante otros métodos basados en soluciones ad hoc.

Aunque su método depende del modelo preentrenado utilizado —lo que significa que hereda sus sesgos y limitaciones— mejorar este modelo subyacente podría potenciar significativamente su proceso. Además de estudiar cómo resolver eficazmente la fórmula identificada, los investigadores están interesados en explorar cómo estos hallazgos podrían enriquecer las técnicas actuales de edición fotográfica.

Este trabajo cuenta con financiamiento parcial por parte del Instituto Toyota Research Institute, la Fundación Nacional de Ciencias (NSF) estadounidense, la Agencia de Ciencia y Tecnología Defensa de Singapur (DST), entre otros patrocinadores relevantes.

Inteligencia Artificial