Meta ha anunciado el lanzamiento de SceneScript, un modelo de Inteligencia Artificial (IA) que permite generar diseños de escenas en tres dimensiones (3D), a fin de que los dispositivos de realidad aumentada (RA) comprendan la geometría de los espacios físicos.
La compañía ha reconocido en un comunicado que lo ideal es que un visor combine IA contextualizada con una pantalla que permita a los usuarios acceder a información en tiempo real cuando la necesite.
Sin embargo, es consciente de que, para alcanzar este objetivo con unas gafas de RA, el sistema debe poder omprender el diseño de su entorno físico y cómo se forma el mundo en tres dimensiones.
Así, ha comentado que los cascos de realidad mixta como Meta Quest 3 crean una representación virtual de espacios físicos basada en datos visuales sin procesar tanto de cámaras como de sensores 3D. Estos datos se convierte en información que describe características del entorno, como paredes, techos o puertas.
Esto se debe a que estos sistemas se basan en reglas predefinidas para convertir los datos sin procesar en formas no concretas. Por ello, “ese enfoque heurístico a menudo puede conducir a errores, especialmente en espacios con geometrías únicas o irregulares”, según el fabricante.
Para poner solución a esta carencia, Reality Labs Research ha creado SceneScript, un modelo enfocado a generar diseños de escenas 3D que, en lugar de utilizar reglas codificadas para convertir datos visuales sin procesar en una aproximación de los elementos de un espacio, está entrenado para inferir directamente la geometría de una habitación mediante el aprendizaje automático de un extremo a otro.
Esto da como resultado una representación de escenas físicas que es compacta -porque reduce los requisitos de memoria-, completa -con una geometría nítida- e inerpretable, esto es, que sus representaciones se pueden leer fácilmente.
En cuanto al modo de entrenamiento de SceneScript, Meta ha indicado que los modelos de lenguaje grande (LLM, por sus siglas en inglés) como Llama funcionan empleando una técnica de predicción del siguiente token de lenguaje.
Por su parte, SceneScript aprovecha el concepto de predicción del próximo token pero, en lugar de predecir el siguiente token de lenguaje, lo aplica a la arquitectura, con elementos como muros puertas.
Así, al entregarle una gran cantidad de datos de entrenamiento, el modelo SceneScript aprende cómo codificarlos en una representación de la escena, que luego puede descodificar en un lenguaje que describa el diseño de un espacio. Por ejemplo, de una habitación.
A la hora de crear este modelo, el equipo de desarrollo descubrió que no se podía aplicar el mismo modo de entrenamiento a SceneScript que en el resto de LLM, que dependen de grandes cantidades de datos cuyas fuentes de texto están disponibles públicamente en la web.
Por el momento no existe un repositorio de información tan amplio para espacios físicos a la escala necesaria para entrenar este nuevo modelo, por lo que creó un conjunto de datos sintéticos de entornos ineriores llamado Aria Synthetic Environments.
Se trata de un repositorio que comprende datos de 100.000 entornos interiores únicos, cada uno de ellos descrito empleando el lenguaje de SceneScript y combinado con un vídeo simulado que recorre cada escena.
Meta cree que SceneScript podría desbloquear casos de uso clave tanto para visores de realidad mixta (RM) como para futuras gafas de RA, así como generar los mapas necesarios para proporcionar la navegación paso a paso a las personas con discapacidad, entre otros casos de uso.
Debido a que tmabién brinda a los LLM el vocabulario necesario para razonar sobre espacios físicos, podria desbloquear el potencial de los asistentes digitales de próxima generación, proporcionándoles el contexto del mundo físico necesario para responder a consultas más complejas.
Sé el primero en comentar en"SceneScript es el nuevo modelo de IA de Meta para la reconstrucción de escenas y espacios en 3D"