Una IA está estudiando Reddit 24 horas al día

Los comentarios en la webs y en los medios son una de las mayores problemáticas a la hora de poner en marcha sistemas de automatización. La sutileza y la variedad del lenguaje (y ya no hablemos de la diferencia de idiomas) hace muy complicado crear una solución universal que entienda los matices del lenguaje y actúe en consecuencia. Por ello, un grupo de investigadores están utilizando la mayor comunidad de comentarios en Internet para entrenar a su inteligencia artificial e intentar que esta aprenda cómo nos comunicamos en Internet.

Este grupo de investigadores, de OpenAI, una organización sin ánimos de lucro, está utilizando un tipo de superordenador de la mano de Nvidia programado con una serie de algoritmos para jugar a varios juegos de ordenador, y ahora, gracias al salto de potencia que les ofrece la nueva tecnología, están utilizando este superordenador para analizar millones de cadenas de mensajes de Reddit con el fin de alimentar su sistema de aprendizaje profundo basándose en un conocimiento, en términos de probabilidad, del contenido posible de una conversación.

La idea es que esta IA sea capaz de entender con suficiente profundidad los elementos subyacentes a una conversación en la red, para que en un futuro sea capaz de mantener una conversación que sea indistinguible de la de un humano. De hecho, gracias a los nuevos chips de Nvidia, en OpenAI están siendo capaces de analizar muchísimos más fragmentos de texto de Reddit, aunque se ha encontrado con una problemática aún mayor.

El problema a solucionar es que la máquina sea capaz de entender el contexto del contenidoEl idioma sigue siendo el principal problema, puesto que tanto el concepto como los condicionantes de los interlocutores afectan al sentido del mensaje, por lo que la IA, en según qué comunidades de Reddit, tiene más dificultad a la hora de entender el contexto de un mensaje (escrito en el mismo idioma) cuando intervienen términos que, dentro de la comunidad, tienen un contexto diferente.

A pesar de que progresa adecuadamente, sigue siendo un problema muy complejo para esta inteligencia artificial, e incluso aplicando técnicas de aprendizaje profundo al problema, se necesita muchísimo tiempo para que una máquina automatice el sentido de cada término en su contexto.

Con esto en mente, y por si Reddit no fuera suficiente, los investigadores están analizando si sería más sencillo para la maquina entender el contexto del uso del lenguaje mediante la interacción con las personas y con el mundo real, puesto que los modelos basado en los datos Reddit, a pesar de que reduce enormemente el tiempo invertido en el aprendizaje, no son más que grupos estancos dentro de comunidades más o menos cerradas con su propias reglas.