DATOS

Investigadores del MIT mejoran la creación de modelos 3D realistas con inteligencia artificial

Innovación tecnológica en modelado 3D

Nuevas técnicas de inteligencia artificial permiten optimizar la creación de modelos tridimensionales, facilitando su uso en diversas aplicaciones creativas y tecnológicas

OpenAI | Miércoles 11 de diciembre de 2024

Investigadores del MIT han desarrollado una nueva técnica para crear modelos 3D realistas utilizando inteligencia artificial generativa. A diferencia de los modelos existentes que generan imágenes 2D, esta innovación permite superar las limitaciones en la creación de formas tridimensionales, que a menudo resultan borrosas o poco detalladas. La técnica, llamada Score Distillation, mejora la calidad de los objetos 3D generados sin necesidad de un entrenamiento costoso y prolongado. Este avance no solo optimiza el proceso creativo en campos como la realidad virtual y el diseño cinematográfico, sino que también proporciona una comprensión matemática más profunda de los métodos utilizados. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.



La creación de modelos 3D realistas para aplicaciones en realidad virtual, cine y diseño de ingeniería ha sido tradicionalmente un proceso arduo que requiere numerosos intentos manuales. Aunque los modelos de inteligencia artificial generativa han facilitado la producción de imágenes 2D vívidas a partir de indicaciones textuales, estos no están diseñados para generar formas tridimensionales. Para abordar esta limitación, se ha desarrollado una técnica innovadora conocida como Score Distillation, que utiliza modelos de generación de imágenes 2D para crear figuras 3D; sin embargo, sus resultados suelen ser borrosos o con un aspecto caricaturesco.

Investigadores del Instituto Tecnológico de Massachusetts (MIT) han analizado las relaciones y diferencias entre los algoritmos que generan imágenes 2D y aquellos que producen formas 3D, identificando las causas detrás de la inferior calidad de los modelos tridimensionales. A partir de este análisis, han propuesto una solución sencilla para mejorar Score Distillation, lo que permite la generación de formas 3D nítidas y de alta calidad, comparables a las mejores imágenes 2D generadas por modelos avanzados.

Una alternativa más eficiente

Otras metodologías intentan resolver este problema mediante el reentrenamiento o ajuste fino del modelo de IA generativa, lo cual puede resultar costoso y consumir mucho tiempo. En contraste, la técnica desarrollada por los investigadores del MIT logra una calidad en las formas 3D equivalente o superior a estos enfoques sin requerir entrenamiento adicional ni procesos complejos posteriores.

Además, al identificar la raíz del problema, los investigadores han mejorado la comprensión matemática de Score Distillation y técnicas afines, lo que permitirá futuros avances en el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que son más rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del artículo sobre esta técnica. “A largo plazo, nuestro trabajo puede facilitar el proceso para ser un copiloto para diseñadores, haciendo más sencillo crear formas 3D más realistas”.

De imágenes 2D a formas 3D

Los modelos de difusión, como DALL-E, son un tipo de modelo generativo capaz de producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores añaden ruido a las imágenes y luego enseñan al modelo a revertir el proceso eliminando dicho ruido. Este proceso aprendido se utiliza para generar imágenes basadas en indicaciones textuales proporcionadas por el usuario.

No obstante, los modelos de difusión tienen un rendimiento deficiente al generar directamente formas 3D realistas debido a la escasez de datos tridimensionales disponibles para su entrenamiento. Para sortear este obstáculo, se desarrolló en 2022 una técnica llamada Score Distillation Sampling (SDS), que emplea un modelo de difusión preentrenado para combinar imágenes 2D en una representación tridimensional.

Mejoras significativas en la calidad

Dicha técnica comienza con una representación aleatoria en 3D, renderiza una vista 2D del objeto deseado desde un ángulo aleatorio, añade ruido a esa imagen y luego utiliza un modelo de difusión para eliminar el ruido antes de optimizar la representación tridimensional aleatoria hasta que coincida con la imagen denoised. Este procedimiento se repite hasta obtener el objeto tridimensional deseado; sin embargo, las formas producidas tienden a ser borrosas o sobresaturadas.

TEMAS RELACIONADOS:


Noticias relacionadas