MIT: una nueva IA identifica y aísla los instrumentos de los vídeos

La inteligencia artificial es uno de los campos en los que más avances se están llevando a cabo de manera reciente y donde las empresas destinan cada vez más recursos. Entre ellos, el internacionalmente reconocido Instituto Tecnológico de Massachusetts (MIT), que ahora da a conocer PixelPlayer, una nueva herramienta desarrollada por su laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) que permite identificar los instrumentos de una canción en vídeo para poder elegir cuál de ellos se quiere escuchar e incluso variar el volumen de manera individual según interese a partir de una única grabación.

"Los músicos aficionados y profesionales pueden pasar horas viendo un mismo clip de YouTube para descubrir exactamente cómo tocar ciertas partes de sus canciones favoritas. Pero, ¿y si hubiera una manera de reproducir un video y aislar el único instrumento que desea escuchar?", comienzan expresando desde el MIT. No hay duda de que, aunque básico, este es un ejemplo perfecto de cómo esta nueva tecnología podría aplicarse al día a día de las personas en el estudio de la música.

Para mostrar más en detalle el funcionamiento, desde el Instituto comparten un vídeo (sobre estas líneas) que muestra diferentes ejemplos de reconocimiento y aislamiento de instrumentos, así como la facultad de poder interactuar con el nivel de sonido de unos y otros.

Los primeros pasos

A pesar de que esta inteligencia artificial ofrece resultados notables tras lo que ha sido un breve entrenamiento de 60 horas de visualización de vídeos musicales, aún queda mucho por mejorar para que pueda expandir su campo de trabajo. En el futuro, por ejemplo, se espera que sirva para una edición de sonido para productores musicales y empresas de la industria.

Esta inteligencia artificial puede «ver» a través de las paredes

El principal aporte de PixelPlayer es que puede identificar en qué parte del vídeo se encuentra cada sonido, pudiendo realizar la selección como se muestra en la grabación. Esto es algo que ha sorprendido incluso a los propios investigadores y que supone un avance respecto a las herramientas que se habían desarrollado hasta el momento.

PixelPlayer utiliza métodos de "aprendizaje profundo", lo que significa que encuentra patrones en los datos utilizando las llamadas "redes neuronales" que se han entrenado en vídeos existentes. Específicamente, una red neuronal analiza las imágenes del vídeo, una analiza el audio y un tercer "sintetizador" asocia píxeles específicos con ondas de sonido específicas para separar los diferentes sonidos.