Investigadores del MIT han desarrollado una nueva técnica que mejora la creación de modelos 3D realistas utilizando inteligencia artificial generativa. A diferencia de los métodos anteriores, que a menudo producían formas borrosas o caricaturescas, este enfoque optimiza el proceso sin necesidad de un costoso reentrenamiento. La técnica, conocida como Score Distillation, combina modelos de generación de imágenes 2D para crear representaciones tridimensionales más nítidas y de alta calidad. Este avance puede facilitar el diseño en áreas como la realidad virtual y el cine, permitiendo a los creadores generar objetos 3D realistas de manera más eficiente. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
La creación de modelos 3D realistas para aplicaciones como la realidad virtual, el cine y el diseño ingenieril ha sido tradicionalmente un proceso arduo que requiere numerosos intentos manuales. Aunque los modelos de inteligencia artificial generativa para imágenes han revolucionado los procesos artísticos al permitir a los creadores producir imágenes 2D vívidas a partir de indicaciones textuales, estos modelos no están diseñados para generar formas en 3D.
Para abordar esta limitación, un equipo de investigadores del MIT ha desarrollado una técnica innovadora llamada Score Distillation. Esta metodología utiliza modelos de generación de imágenes en 2D para crear formas tridimensionales, aunque los resultados iniciales tienden a ser borrosos o con un estilo caricaturesco.
Los científicos del MIT han investigado las relaciones y diferencias entre los algoritmos empleados para generar imágenes 2D y formas 3D, identificando así la causa principal de la baja calidad en los modelos tridimensionales. A partir de este análisis, han implementado una solución sencilla a Score Distillation que permite obtener formas 3D nítidas y de alta calidad, comparables a las mejores imágenes generadas por modelos en 2D.
Otras técnicas intentan resolver este problema mediante el reentrenamiento o ajuste fino del modelo de IA generativa, lo cual puede resultar costoso y consumir mucho tiempo. En contraste, la técnica desarrollada por los investigadores del MIT logra una calidad comparable o superior sin necesidad de entrenamiento adicional ni procesamiento posterior complejo.
Además, al identificar la raíz del problema, los investigadores han mejorado la comprensión matemática detrás de Score Distillation y técnicas relacionadas, lo que allana el camino para futuros trabajos que busquen optimizar aún más el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que sean rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del estudio sobre esta técnica.
Lukoianov cuenta con la colaboración de Haitz Sáez de Ocáriz Borde, estudiante graduado en la Universidad de Oxford; Kristjan Greenewald, científico investigador en el MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, científico en el Instituto de Investigación Toyota; Timur Bagautdinov, investigador en Meta; así como los autores principales Vincent Sitzmann y Justin Solomon, profesores asistentes en EECS en MIT. Este trabajo será presentado en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Los modelos de difusión, como DALL-E, son un tipo de modelo generativo capaz de producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, se añade ruido a las imágenes y luego se enseña al modelo a revertir el proceso eliminando dicho ruido. Este proceso aprendido permite crear imágenes basadas en indicaciones textuales proporcionadas por el usuario.
No obstante, los modelos de difusión presentan dificultades al intentar generar directamente formas 3D realistas debido a la escasez de datos tridimensionales disponibles para su entrenamiento. Para sortear esta limitación, se desarrolló en 2022 una técnica conocida como Score Distillation Sampling (SDS), que utiliza un modelo de difusión preentrenado para combinar imágenes 2D en una representación tridimensional.
A pesar del potencial prometedor del SDS, las formas 3D producidas frecuentemente resultan borrosas o sobresaturadas. “Esto ha sido un cuello de botella durante un tiempo. Sabemos que el modelo subyacente es capaz de hacer algo mejor, pero no se comprendía por qué esto sucedía con las formas 3D”, comenta Lukoianov.
Los investigadores del MIT examinaron detenidamente los pasos del SDS y descubrieron un desajuste entre una fórmula clave utilizada en el proceso y su contraparte en los modelos de difusión 2D. Esta fórmula indica cómo actualizar la representación aleatoria añadiendo o eliminando ruido gradualmente para asemejarla más a la imagen deseada.
En lugar de intentar resolver esta compleja fórmula con precisión, los investigadores probaron técnicas aproximadas hasta identificar la más efectiva. En lugar de muestrear aleatoriamente el término ruidoso, su técnica infiere el término faltante a partir del renderizado actual del objeto 3D.