Microsoft ha presentado VASA-1, un nuevo modelo de inteligencia artificial (basado en el framework VASA) capaz, partiendo de una sola imagen y una clip de audio, de crear un avatar realista en forma de video.
VASA-1 puede ser utilizado también para aplicaciones en tiempo real, tanto que un video con un avatar generado por el modelo podría ser utilizado, por ejemplo, para una conversación en videollamada con Teams, FaceTime u otras tecnologías de transmisión en vivo. Según Microsoft, la latencia es de tan solo 170 milisegundos.

VASA-1 requiere que el usuario tome una foto, comparable a una foto de carnet, y registre una pista de audio para crear un video animado de manera realista que se reproduce en sincronía labial con el archivo de audio proporcionado.
Los investigadores de Microsoft explican que los modelos de inteligencia artificial anteriores se han especializado principalmente en la sincronización labial, mientras que las expresiones faciales, las emociones, los movimientos de la cabeza y otros detalles han sido descuidados.
VASA-1 debería ofrecer todo esto y por lo tanto ser capaz de crear rostros animados realistas. Los investigadores lo demuestran con una selección de breves videos en el sitio web del proyecto.
Según Microsoft, VASA-1 puede producir videos con una resolución de 512 x 512 píxeles y 45 FPS en procesamiento offline o en modo online a 40 FPS casi en tiempo real con un retraso inicial de solo 170 ms. Los investigadores utilizaron una PC de escritorio con una NVIDIA GeForce RTX 4090 para sus demostraciones.
La duración del video generado depende de la pista de audio insertada, pero gracias a la baja latencia también puede ser importado en tiempo real para una transmisión en vivo. En lugar de su propio rostro, los participantes ven entonces un avatar generado por VASA-1.
VASA-1 ofrece al usuario una serie de controles para establecer, por ejemplo, la dirección de los ojos, la orientación de la cabeza, el estado de ánimo del avatar creado o la distancia de la cabeza de la cámara virtual. VASA-1 también puede crear personajes animados o dar vida a personajes como la Gioconda, aunque el modelo no haya sido entrenado con datos apropiados. También se pueden animar idiomas diferentes al inglés con la sincronización labial.
Los investigadores de Microsoft subrayan que , aunque el modelo de IA no ha sido creado para engañar a otras personas, definitivamente podría ser utilizado con ese propósito, por ejemplo, imitando a otra persona utilizando una foto. A excepción de la Gioconda, los videos demostrativos de Microsoft han utilizado solo imágenes generadas por la inteligencia artificial utilizando StyleGAN2 y DALL·E 3.
Actualmente VASA-1 presenta limitaciones en la generación de videos ya que es necesario animar partes del torso a partir del cuello. También pueden surgir problemas con el cabello o la ropa y a veces las texturas pueden ser generadas de manera incorrecta.
