Microsoft, Telegram, Facebook, Slack… muchas plataformas de comunicación y mensajería se suman a la fiebre de lo que la prensa ha denominado como “los bots”, rudimentarias interfaces de conversación que nos ayudan con tareas simples.

Detrás de todo esto no se esconde nada más que una guerra de plataformas. Encubierta tras mensajes para pedir pizzas, y oculto tras recordatorios de visitas al oculista hay una batalla por nuestra atención. Hoy en día, Apple y Google son los dueños de dos grandes plataformas que controlan la vida de casi tres mil millones de personas.

En vez de apps que sirven para hacer solo una cosa, y la hacen bien, tendremos una conversación con un bot que haga solo una cosa, y la haga bien

Esta década de dominio del smartphone ha dejado a muchos otros grandes actores a merced de los dueños de las plataformas, y no quieren que se repita. Bueno, quieren que se repita, pero con ellos controlando las nuevas plataformas. En vez de apps que sirvan para hacer una cosa, y la hagan bien, tendremos una conversación con un bot que haga una cosa, y la haga bien. ¿Qué diferencia hay? ¿Cuál es la ventaja entre darle a un botón en nuestra pantalla de inicio y pulsar el avatar de un bot en nuestra lista de conversaciones? Hoy en día ninguna.

La gran ventaja de una aplicación monotarea es que presenta una interfaz visual con pistas para que el usuario rápidamente entienda —si está bien diseñada— cómo conseguir alcanzar lo que quiere. Cuando abrimos una aplicación para pedir comida online vemos una lista de restaurantes, luego vemos las fotos de la comida, y por último vemos un botón de pagar. Todo bastante sencillo, y no ha habido mucha mejora en este aspecto en los últimos 25 años más allá de cambiar el cursor del ratón por nuestro dedo. Las interfaces gráficas han reinado a placer en escritorio, web y móvil.

El nuevo paradigma son las interfaces conversacionales. Métodos para conseguir nuestro objetivo mediante la palabra y la conversación común. En Hipertextual hemos hablado largo y tendido de este tema con la serie “Hablando con robots”.

Pero las conversaciones como interfaz tienen grandes problemas que solucionar antes de que se hagan populares o estén listas para reemplazar a nuestras aplicaciones más utilizadas.

La primera es que la interfaz gráfica surge de la necesidad de aplicar significado más preciso que lo que nuestros idiomas permiten. No decimos a Photoshop: “Selecciona el cuadrado derecho de color blanco, pero el pequeño, no el grande. Ese cuadrado lo mueves 30 píxeles a la derecha, y luego lo haces un 20% más transparente”. En una interfaz gráfica son dos clicks. Además de más rápido es una labor mental mucho menos intensa. Las interfaces gráficas tienen una gran eficacia en tareas complicadas.

Otro problema con las interfaces conversacionales es que son poco intuitivas. Normalmente y de la forma que la mayoría están diseñadas nos encontramos con una pantalla en blanco a la que no sabemos qué decir, o cómo iniciar una conversación. Similar a cuando estábamos en un sistema operativo de línea de comandos como MS-DOS: ¿Cómo sé qué puedo hacer aquí? No queremos leer un manual de instrucciones para pedir una pizza.

La solución actual pasa por dar una lista de opciones básicas de inicio, pero eso las convierte en una interfaz gráfica, o al menos híbrida. Además de ello, los bots actuales requieren un nivel de exactitud más compleja de lo esperado. Tenemos que decir las cosas de una forma muy concreta, o de una lista de formas, y ya. No hay un entendimiento total de la conversación, de las jergas o miles de variaciones en las que cada persona habla. Hoy en día decir “Quiero ver vídeos de osos polares” te llevará a una búsqueda de Google por “osos polares” y no a YouTube. “Enviar un mensaje a Juana” abrirá la aplicación de mensajes en vez de la que use a diario para hablar con Juana. Hay una montaña, casi una cordillera, por ascender todavía. Pero al menos nos hemos puesto las botas para escalarla. No se puede pedir "Dame una pizza de Pepperoni", porque si no sabemos escribir pepperoni o no hacemos el pedido en el orden correco, nos quedamos sin pizza. Una conversación debe ser más natural, fluida, que vaya y venga.

Los bots no pueden ser solo de texto, se necesita la voz como método alternativo

Esto nos lleva a problema hermano del anterior. Necesitaremos que estas conversaciones puedan ser llevadas a cabo con nuestra voz normal. Necesitamos despegarnos de las pantallas y poder mantener conversaciones humanas tradicionales para conseguir lo que queremos de la máquina. Si nos vamos a comunicar con listas de opciones, o teniendo que ir a presionar un botón, no estamos avanzando mucho. Básicamente tendremos centralita que nos piden "pulse 2 para darse de alta" cuando realmente lo que queremos es hablar con una persona.

Sólo cuando no importe qué dispositivo escuche nuestra conversación y se eliminen los trámites de instalación o agregación, veremos el futuro

El tercer punto en contra de las plataformas de conversación es que no están universalizadas y centralizadas. No puedes comprar un smartphone o un smartwatch y decir “quiero una pizza familiar de jamón y queso, y que llegue a las 8 de la noche”. Primero tienes que instalar una plataforma, agregar el “bot”, etc.

Este es el mismo problema que tienen las aplicaciones hoy en día, y como tal, elimina el cambio de paradigma de la ecuación. Sólo será un cambio real cuando al comprar un smartphone podemos tener esa conversación de salida. Y eso solo ocurrirá cuando Google Now o Siri se conviertan en un agregado liberado de estas plataformas.

Hoy en día Cortana está en millones de PC con Windows, y Alexa de Amazon está en miles de Echo en Estados Unidos. Pero ambas están muy integradas en sus respectivas plataformas: Cortana con Bing, y Alexa con Amazon. Sólo cuando no importe qué dispositivo escuche nuestra conversación —un iPhone, una tablet Android, un PC con Windows, etc— y que se eliminen los trámites de instalación o agregación, veremos el futuro.

Dejo fuera comentarios sobre quienes son los dueños de las plataformas, y cómo estaríamos cambiando la dictadura amable de Google y Apple por la de Microsoft o Facebook, porque es irrelevante. Apple añadirá esta funcionalidad a iMessage y Siri, Google seguirá expandiendo las capacidades de Google Now, Facebook y Microsoft ampliarán cada vez más lo que hacen.