Hace diez años que nos conocimos. Diez años en los que hemos conversado casi a diario. Pero no nos conocemos demasiado, siempre hablamos de lo mismo. Supongo que es, en parte, culpa mía. Sólo le pregunto por el tiempo, por cómo ha quedado el Barça o que si, por favor, me puede avisar cuando hayan pasado 8 minutos y los huevos estén cocidos como a mí me gusta.

He intentado poner de mi parte, de verdad. A veces pregunto cosas que se pueden responder en una palabra y me manda a buscarlo en Google. O que repita lo que le he preguntado porque no me ha entendido. También me suele poner como excusa que no puede hacer esto o lo otro pero que, muy amablemente, me abrirá la aplicación oportuna si así lo deseo. Es un poco pasivo-agresiva.

En diez años conmigo, puedo decir abiertamente que no ha aprendido absolutamente nada de mí. Sólo me ayuda a poner temporizadores y a leerme la previsión meteorológica. Algo que aprecio, pero pienso que, para autodenominarse «asistente inteligente», es un poco tonta.

iPhone 13

Ni Apple sabe qué quiere de Siri

Estoy hablando de Siri, el asistente virtual de Apple, que se estrenó hace 10 años generando una gran sensación a los consumidores y a la prensa. La compañía nos prometió interactuar con la tecnología a través de la voz tras revolucionar la industria con la pantalla multitáctil del iPhone. Promesas que, en retrospectiva, cayeron en saco roto.

«El problema con las interfaces controladas por voz es que la sintaxis de las ordenes ha de ser muy simple», dijo el ejecutivo de Apple Philip Schiller en la presentación de Siri. «Lo que queremos es hablar a la tecnología de forma natural y que nos entienda. Gracias a Siri, tu teléfono te entenderá y te ayudará a conseguir lo que quieres». Una década más tarde, la relación que tienen los usuarios con Siri sigue siendo más cercana al problema que querían solucionar que a lo que prometieron ofrecer.

Y no es porque la acogida fuese mala. La primera versión de Siri fue sorprendentemente buena, y nos hizo sentir que sería un gran avance en cuanto a nuestra relación con la tecnología. La tecnología «invisible» que buscamos. Pero los avances han ido llegando con cuentagotas, y éstos a veces no son tan siquiera descubiertos porque los usuarios ya asumieron que Siri sólo será más rápida y eficiente que ellos mismos con sus dedos a la hora de crear recordatorios, poner alarmas y preguntar si lloverá mañana.

Parte de Siri murió con Jobs

Apple nunca ha tenido claro ni qué es Siri ni lo que quiere que sea. No llega a ser un asistente cada vez más capaz gracias a los algoritmos de aprendizaje automático ni ofrece una forma más sencilla de hacer cosas complicadas o tediosas con el móvil mediante un simple comando de voz. Porque si pensamos en un asistente personal humano, le contrataríamos para esto, para que nos ayude de verdad ahorrándonos quebraderos de cabeza o tiempo.

Que la visión sobre lo que es Siri y lo que será en el futuro se perdió por el camino es algo que confirma uno de sus cofundadores, Dag Kittlaus, quien afirmó que «Steve, Scott Forstall y los fundadores de Siri tenían un plan que tristemente murió por el camino». El reconocimiento de voz y la naturalidad con la que Siri responde ha ido mejorando paulatinamente, y de forma sustancial, con el paso de los años, pero no sus posibilidades. Éste es el principal fallo, Siri entiende, pero no ejecuta satisfactoriamente. Se sabe la teoría, pero suele suspender en la práctica.

En retrospectiva, es evidente que Apple fue incapaz de aprovechar su status de pionera y dar un uso apropiado a su enorme base de usuarios activos. El elenco de tareas básicas que pueden ser ejecutadas con Siri, y que fascinaron a prensa y consumidores —alarmas, notas, recordatorios…—, nunca ha sido expandido sustancialmente. Éstas debieron ser el primer paso en el desarrollo de una tecnología capaz de no sólo escuchar y entender lo que dice el usuario, sino ayudarlo a ejecutar tareas complejas a través de una simple frase.

Google Home

Sus rivales lo aprovecharon

La competencia se aprovechó del lento progreso de Siri, y pronto concibieron alternativas que fueron superando las capacidades del asistente de Apple con una mejor comprensión del lenguaje, más funciones y una integración con servicios y aplicaciones de terceros superior.

Assistant de Google, enfocado desde el principio a ser lo más humano posible, es el que mejor entiende lo que solicita el usuario y el más capaz a la hora dar respuestas concretas a preguntas que, hasta hace poco, sólo podían entender otros seres humanos debido a la necesaria interpretación de contexto y abstracciones de nuestro lenguaje. Assistant es un nexo entre el mundo del tratamiento masivo de datos mediante inteligencia artificial y lo humano. Esta unión permite que ordenes complejas se puedan solicitar de forma sencilla. Digamos que es el ratón y el teclado para el uso de herramientas informáticas cada vez más abstractas, poderosas y complejas.

Amazon por su parte, aunque no tenga al asistente más inteligente, ni la mayor base de usuarios, dispone del mayor ecosistema dentro del hogar. Además de su línea de altavoces Echo, la compañía ha realizado un gran esfuerzo para que miles de dispositivos de terceros sean compatibles con Alexa o que su asistente esté integrado en ellos y en expandir sus skills o habilidades con el mayor número de aplicaciones y servicios posibles. Es la baza de Amazon: hardware barato, universal y conectado.

Siri todavía está en tierra de nadie. Hecho sorprendente si tenemos en cuenta los avances en algoritmos de inteligencia artificial y diseño de chips para el uso de redes neuronales que ha logrado Apple en los últimos años. Tal vez naciera de forma prematura. Quedó en el limbo entre lo que podía ser hace una década y lo que podría o debería ser hoy.

Los asistentes virtuales todavía andan a gatas

Es injusto, no obstante, destapar exclusivamente las vergüenzas de Siri cuando, en realidad, todos los asistentes virtuales siguen estando muy verdes. La comprensión de frases simples funciona en un elevado porcentaje de las veces, pero es muy difícil hilar conversaciones con éstos. Es como hablar con una persona con memoria de pez. No es consciente de lo que se está hablando. Se han realizado avances al respecto, pero todavía son insuficientes. Y es que el lenguaje natural —y sus entresijos— es una de las aptitudes más difíciles de replicar por las máquinas.

El siguiente punto, más allá de la comprensión, son las propias habilidades de los asistentes virtuales. Que ciertas tareas se puedan realizar y otras no, genera frustración y desanima al consumidor. Éste, además, no se entera cuando Alexa, por ejemplo, incorpora una nueva habilidad a su repertorio.

Para las tecnológicas hay dos claros desafíos en cuanto al uso y descubrimiento de las dotes de los asistentes:

  1. Disponibilidad: el número de habilidades crece muy rápido en Alexa y Assistant, es imposible comunicar al consumidor todas las que hay y las que se incorporan cada semana.
  2. El consumidor no está seguro de qué puede o no puede hacer. Esto provoca que se sobrestime el poder del asistente o que se subestime. La expectación del usuario y la capacidad de éste rara vez coinciden en el mismo punto.

Estas dos situaciones generan un bucle en el que el usuario queda anclado en el uso de dos o tres ordenes que conoce y sabe que siempre funcionan como se muestra en las siguientes figuras extraídas de un estudio de Telefónica sobre los asistentes virtuales.

Incluso en el grupo de usuarios más habituados a los asistentes virtuales de voz, el uso de éstos suele quedar limitado a tres tareas como máximo. / Telefónica

Los diferentes desafios que abordar

Porque el consumidor quiere las cosas rápido y bien. Si te montas en el coche no tienes ganas de reformular tu orden varias veces. Tampoco si estás cargado con las bolsas de la compra hasta arriba. Cuando usas la voz para interactuar con la tecnología es porque, habitualmente, necesitas que sea así. Lo cual nos lleva al tercer problema de los asistentes virtuales, que no ofrecen intimidad.

Pese a lo que crean las compañías, la tecnología voice first siempre quedará reservada a dispositivos donde el empleo de otras interfaces, como una pantalla táctil o un mando a distancia, sean imposibles de usar o menos convenientes. Por mucho que convivamos con la tecnología y muchos sean capaces de bailar de forma ridícula frente a millones de personas en TikTok, no podemos obviar lo incómodo que resulta hablar a un móvil o reloj en público.

El éxito del ordenador personal primero y del smartphone ahora es, en parte, que son dispositivos personales e íntimos. Quien mejor nos conoce es nuestro teléfono. Que sea beneficioso o no para nosotros mismos y para la sociedad es un debate que se escapa de la finalidad de este artículo. Pero hemos de asumir esta realidad y entender el por qué. Tal vez Facebook y Google sepan casi todo sobre nosotros, pero nadie nos juzga directamente o se entromete en qué hacemos o qué buscamos. Algo que sí ocurriría si utilizásemos nuestros móviles sólo con la voz. Es incómodo, y por eso el reconocimiento de lenguaje natural también debería poder ser utilizado por escrito de forma más fácil. Por ejemplo, dentro del spotlight de iOS directamente para ejecutar tareas complejas que requieran múltiples acciones.

Accesibilidad para quién más los necesita

Curiosamente, los asistentes por voz no están desarrollados de forma tan eficaz para las personas a las que más beneficios podrían aportar: las personas mayores, mucho más acostumbradas a pedir las cosas hablando en lugar de interactuando mediante una pantalla. La cuestión es que su dicción es a veces lenta y entrecortada, y los asistentes, al no saber interpretar bien el contexto y quien les habla, actúan antes de que estos usuarios finalicen la orden. Falta, de nuevo, realizar progresos notables en cuanto a reconocimiento de voz para personas mayores o con dificultades en el habla.

En resumen, los asistentes virtuales todavía necesitan estas mejoras:

  1. Contexto y perfil del consumidor
  2. Realizar tareas sin iniciar búsquedas en la web y enseñar al usuario qué puede hacer.
  3. Posibilidad de interactuar con éstas de forma íntima más fácilmente.
  4. Comprensión de la dicción de persona mayores y usuarios con dificultades en la dicción.
iPhone 13 Pro
CUPERTINO, CALIFORNIA - September 14, 2021: Apple CEO Tim Cook showcases the advanced camera system on the new iPhone 13 Pro during a special event at Apple Park. (Photo by Brooks Kraft/Apple Inc.)

Entonces, ¿qué debería ser Siri y el resto de asistentes?

Para que Siri sea realmente útil y protagonista en nuestra relación con el iPhone necesita comenzar a escuchar de verdad. Tiene que escuchar a su jefe, el usuario, para aprender de él y satisfacer sus necesidades cada vez mejor. Ella sólo es capaz de escuchar e interpretar frases aisladas, las traduce en órdenes simples y las intenta ejecutar. Si no encuentra el cómo, suele presuponer, erróneamente, que se pretende realizar una búsqueda web. Supone, pero no se cerciora mediante la respuesta del usuario, por lo que no puede aprender para desempeñar la acción correctamente la próxima ocasión.

¿El resultado? Que pese a estar 10 años conmigo, Siri sigue sin entenderme ni hacer lo que yo le pido.

Siri necesita que se le diga, como a una persona, si lo ha hecho bien o mal. También debe ofrecer, en caso de duda, qué es lo que puede hacer. Por ejemplo: ¿abro tus menciones de Twitter o busco menciones en Twitter? Esto generaría menos frustración en el usuario y Siri aprendería.

Obviamente, esto no se podía realizar hace una década. Pero ahora sí podría comenzarse a implantar gracias a que Apple tiene chips dedicados de redes neuronales para trabajar con algoritmos de inteligencia artificial de forma local y privada dentro del iPhone. ¿Por qué no utilizarlos poco a poco de forma más ambiciosa para hacer a Siri cada vez más humana? Que Siri aprenda como un niño, como una persona que nos quiere ayudar, que no sabe muy bien cómo todavía, pero con predisposición a trabajar y a aprender.

Comunión entre el software y el hardware

Tanto Apple como Google, que controlan software, hardware —el Pixel 6 contará con un chip fabricado por la propia compañía— y servicios podrían comenzar a emplear este aprendizaje «paralelo» con la ayuda del usuario.

Los asistentes tienen que ser proactivos además y poder realizar al consumidor sugerencias como lo hace una persona que nos atiende en una tienda o en un restaurante. No sólo con tarjetas informativas, sino extendiendo la conversación una vez que se le ha preguntado u ordenado hacer algo. Sería una forma de obtener más información sobre nosotros para aprender y de incrementar nuestra satisfacción. Claro está, no puede rebasar el límite que haría que nos sintiéramos incómodos. Siri y derivados tienen que aprender dotes sociales también, algo harto complicado para una máquina, más habilidosa con los números que con la palabra. Aquí el timming lo es todo, pero sería muy conveniente que los asistentes nos sugirieran acciones complementarias o alternativas, y que tomase nota de nuestras decisiones para servirnos mejor en futuras ocasiones.

Entender es sólo el primer paso, hay que atender al segundo también

El último, y más importante punto es el de la integración con el sistema operativo y las aplicaciones. De nada sirve que el asistente converse como un humano si sólo se queda sobre la superficie de las capacidades que nos ofrecen los teléfonos inteligentes. Es más, el escenario idílico sería que Siri nos permitiese realizar acciones múltiples y complicadas de realizar para el usuario con un simple comando de voz explicando el resultado que queremos obtener. Es algo que Apple ya plantea con su aplicación de atajos Shortcuts, pero su utilización resulta todavía compleja para el consumidor estándar y limitada para el avanzado.

¿Por qué no usar la voz a la hora de editar una fotografía? Sería fantástico ir guiando a Siri y que la fotografía fuese cambiando mientras vamos probando diferentes ajustes como si hablásemos con un fotógrafo profesional. Lo mismo al extraer información de una hoja de cálculo u operar con varios ficheros a la vez. Por aquí debería estar el camino de los asistentes que trabajan a través del lenguaje natural. No podemos esperar que sigan avanzando siguiendo el patrón creado en 2011.

Los asistentes en la próxima década

Si la próxima década es la del metaverso y la de la adopción masiva de gafas de realidad virtual y aumentada, los asistentes virtuales habrán, obligatoriamente, de mejorar sustancialmente su comprensión del contexto de la conversación y su interacción con el usuario. Porque si no, generarán frustración e impactará negativamente en el juicio que el consumidor tendrá sobre estas nuevas tecnologías.

Las diferentes inteligencias artificiales del mercado cada vez entienden mejor qué queremos, pero en realidad siguen sin comprender del todo una frase y, mucho menos, una conversación. Sólo traducen palabras a comandos simplificados que ellas pueden llegar a tratar. Éste es el gran desafío al que se enfrentan todas las grandes tecnológicas. Pero en cuanto logren acercarse a imitar nuestro lenguaje verbal, algo que nos define como seres humanos, ¿qué impedirá que pasen de asistentes a niñeras, profesores o, incluso, amigos?

Es curioso que la tarea más complicada posible para una máquina sea la de entendernos. Aunque para ser justos con ellas, ¿acaso logramos si quiera entendernos a nosotros mismos?