www.mil21.es
Investigadores del MIT mejoran la creación de modelos 3D realistas con inteligencia artificial
Ampliar

Investigadores del MIT mejoran la creación de modelos 3D realistas con inteligencia artificial

Nuevas técnicas de inteligencia artificial permiten optimizar la creación de modelos tridimensionales, facilitando su uso en diversas aplicaciones creativas y tecnológicas

miércoles 11 de diciembre de 2024, 17:05h

Escucha la noticia

Investigadores del MIT han desarrollado una nueva técnica para crear modelos 3D realistas utilizando inteligencia artificial generativa. A diferencia de los modelos existentes que generan imágenes 2D, esta innovación permite superar las limitaciones en la creación de formas tridimensionales, que a menudo resultan borrosas o poco detalladas. La técnica, llamada Score Distillation, mejora la calidad de los objetos 3D generados sin necesidad de un entrenamiento costoso y prolongado. Este avance no solo optimiza el proceso creativo en campos como la realidad virtual y el diseño cinematográfico, sino que también proporciona una comprensión matemática más profunda de los métodos utilizados. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

La creación de modelos 3D realistas para aplicaciones en realidad virtual, cine y diseño de ingeniería ha sido tradicionalmente un proceso arduo que requiere numerosos intentos manuales. Aunque los modelos de inteligencia artificial generativa han facilitado la producción de imágenes 2D vívidas a partir de indicaciones textuales, estos no están diseñados para generar formas tridimensionales. Para abordar esta limitación, se ha desarrollado una técnica innovadora conocida como Score Distillation, que utiliza modelos de generación de imágenes 2D para crear figuras 3D; sin embargo, sus resultados suelen ser borrosos o con un aspecto caricaturesco.

Investigadores del Instituto Tecnológico de Massachusetts (MIT) han analizado las relaciones y diferencias entre los algoritmos que generan imágenes 2D y aquellos que producen formas 3D, identificando las causas detrás de la inferior calidad de los modelos tridimensionales. A partir de este análisis, han propuesto una solución sencilla para mejorar Score Distillation, lo que permite la generación de formas 3D nítidas y de alta calidad, comparables a las mejores imágenes 2D generadas por modelos avanzados.

Una alternativa más eficiente

Otras metodologías intentan resolver este problema mediante el reentrenamiento o ajuste fino del modelo de IA generativa, lo cual puede resultar costoso y consumir mucho tiempo. En contraste, la técnica desarrollada por los investigadores del MIT logra una calidad en las formas 3D equivalente o superior a estos enfoques sin requerir entrenamiento adicional ni procesos complejos posteriores.

Además, al identificar la raíz del problema, los investigadores han mejorado la comprensión matemática de Score Distillation y técnicas afines, lo que permitirá futuros avances en el rendimiento. “Ahora sabemos hacia dónde debemos dirigirnos, lo que nos permite encontrar soluciones más eficientes que son más rápidas y de mayor calidad”, afirma Artem Lukoianov, estudiante graduado en ingeniería eléctrica y ciencias computacionales (EECS) y autor principal del artículo sobre esta técnica. “A largo plazo, nuestro trabajo puede facilitar el proceso para ser un copiloto para diseñadores, haciendo más sencillo crear formas 3D más realistas”.

De imágenes 2D a formas 3D

Los modelos de difusión, como DALL-E, son un tipo de modelo generativo capaz de producir imágenes realistas a partir de ruido aleatorio. Para entrenar estos modelos, los investigadores añaden ruido a las imágenes y luego enseñan al modelo a revertir el proceso eliminando dicho ruido. Este proceso aprendido se utiliza para generar imágenes basadas en indicaciones textuales proporcionadas por el usuario.

No obstante, los modelos de difusión tienen un rendimiento deficiente al generar directamente formas 3D realistas debido a la escasez de datos tridimensionales disponibles para su entrenamiento. Para sortear este obstáculo, se desarrolló en 2022 una técnica llamada Score Distillation Sampling (SDS), que emplea un modelo de difusión preentrenado para combinar imágenes 2D en una representación tridimensional.

Mejoras significativas en la calidad

Dicha técnica comienza con una representación aleatoria en 3D, renderiza una vista 2D del objeto deseado desde un ángulo aleatorio, añade ruido a esa imagen y luego utiliza un modelo de difusión para eliminar el ruido antes de optimizar la representación tridimensional aleatoria hasta que coincida con la imagen denoised. Este procedimiento se repite hasta obtener el objeto tridimensional deseado; sin embargo, las formas producidas tienden a ser borrosas o sobresaturadas.

Los investigadores del MIT examinaron los pasos del SDS e identificaron una discrepancia entre una fórmula clave utilizada en el proceso y su contraparte en los modelos de difusión 2D. Esta fórmula indica al modelo cómo actualizar la representación aleatoria mediante la adición y eliminación gradual del ruido para asemejarse más a la imagen deseada.

Un enfoque aproximado eficaz

En lugar de intentar resolver esta complicada fórmula con precisión, los investigadores probaron técnicas aproximativas hasta encontrar la más efectiva. En vez de muestrear aleatoriamente el término del ruido, su técnica infería el término faltante a partir del renderizado actual en 3D.

"Al hacerlo así", explica Lukoianov, "como predice el análisis en el artículo, genera formas tridimensionales que lucen nítidas y realistas". Además, aumentaron la resolución del renderizado e hicieron ajustes en algunos parámetros del modelo para mejorar aún más la calidad.

Finalmente lograron utilizar un modelo preentrenado estándar para crear figuras tridimensionales suaves y realistas sin necesidad de reentrenamientos costosos. Los objetos generados son igualmente nítidos comparados con aquellos producidos por otros métodos basados en soluciones improvisadas.

Perspectivas futuras

"Intentar experimentar ciegamente con diferentes parámetros puede funcionar algunas veces y otras no; pero no sabes por qué sucede", añade Lukoianov. "Sabemos cuál es la ecuación que debemos resolver. Ahora podemos pensar en maneras más eficientes para hacerlo". Sin embargo, dado que su método depende de un modelo preentrenado en difusión, hereda sesgos y limitaciones inherentes a ese modelo original.

A medida que buscan mejorar esta base subyacente para potenciar su proceso, también están interesados en explorar cómo estas nuevas percepciones podrían beneficiar técnicas relacionadas con la edición de imágenes.

El trabajo realizado por Artem Lukoianov cuenta con financiación del Centro Conjunto de Investigación Toyota–CSAIL. La investigación liderada por Vincent Sitzmann recibe apoyo por parte de diversas instituciones como la Fundación Nacional Científica estadounidense y agencias gubernamentales singapurenses. Por su parte, Justin Solomon cuenta con financiamiento parcial del Ejército estadounidense entre otras entidades.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios