especiales

‘Hola, Alexa’: la historia de las voces que susurran a las máquinas

Los lingüistas computacionales eran prácticamente desconocidos hace algunos años. Ahora, en cambio, es una de las carreras más prometedoras por la llegada de los asistentes de voz. Estas personas son las que les enseñan a hablar, pero ¿cuáles son los retos de su día a día?

Por y – Feb 10, 2020 - 8:00 (CET)

Cuando estaba en el instituto, Leticia Martín-Fuertes estaba convencida de que quería estudiar informática. Escogió el bachillerato tecnológico y, antes de entrar en la universidad, dio un giro de 180 grados y empezó a estudiar filología clásica. “Con lo lista que tú eres, cómo vas a estudiar eso”, le decían. Pero Leticia continuó y, durante la carrera, descubrió un sector que parecía hecho para ella. Mezclaba las dos cosas que le gustaban, la lingüística y la informática. Era el inicio de a lo que se acabaría dedicando, aunque era algo casi desconocido para muchas personas: la lingüística computacional. Ahora, trabaja para Google enseñando a hablar a los asistentes de voz y a que entiendan nuestro idioma.

Este trabajo es una de las ramas más conocidas e incipientes del sector por el auge de los asistentes de voz. Cuando decimos frases como “OK Google, enciende las luces”, el aparato nos entiende perfectamente y ejecuta lo que le pedimos. Pero ¿cómo se enseña a asistentes como Alexa, Siri o Google Assistant?

“Una parte de nuestro trabajo es que la máquina nos comprenda cuando le hablamos. Que sea capaz de que a partir de lo que le dices, enlazarlo con lo que llamamos un intent, que es una intención del usuario, lo que quiere hacer”, explicó en entrevista con Hipertextual.

Cada día se agregan nuevos intents para localizar las necesidad de los usuarios y acercarlos cada vez más a la vida diaria de cualquier persona. Un ejemplo de estos intents puede ser “Apaga las luces”. A pesar de que la mayoría de intenciones de los usuarios ya están registradas y se agregan cada día nuevas, todavía existen retos. Hablar con un asistente de voz no es como mantener una conversación entre personas, a pesar de que la tecnología está avanzando cada día en este sector.

Si en una charla hay malentendidos y ambigüedades, con un asistente de voz no es diferente. “Si queremos pedirle que pague la factura de la luz y le decimos ‘Vamos a pagar la luz’, seguramente entienda “a-pagar la luz”, ejemplificó Martín-Fuertes. También pueden ser un reto las diferentes jergas según el país hispanohablante en el que se encuentre el usuario. No es lo mismo una nevera que un refrigerador, sobre todo si estás en España o en México. Por lo tanto, los lingüistas computacionales tienen que anticiparse y enseñar a la máquina todos los sinónimos posibles de una misma palabra, aun con el peligro de que un término sea demasiado ambiguo.

Sin embargo, las empresas han logrado mejorar en la identificación de los diferentes acentos y ayudar a que eso no se convierta en un problema para el usuario. Al respecto, los lingüistas de Alexa, el asistente de voz de Amazon, explicaron para Hipertextual que la gente de Londres pronuncia las palabras de una manera muy diferente a la de Glasgow, y lo mismo ocurre en España. “Necesitábamos que Alexa fuera capaz de entender un gran número de acentos de toda España. Un cliente de Córdoba va a pronunciar las cosas de forma muy diferente a un cliente de Santiago de Compostela. El equipo ha trabajado increíblemente duro para perfeccionar su comprensión”.

Pero ¿qué hay detrás de estos logros?

La lingüística computacional es una de las piezas clave que contribuyen al desarrollo de la inteligencia artificial, que hace tiempo dejó de ser parte de la ciencia ficción para convertirse en una tecnología de uso cotidiano. Estos sistemas funcionan mediante el análisis de grandes cantidades de datos, de los que extraen patrones que les permiten tomar las decisiones para las que fueron programados. Lorena Fernández, ingeniera y directora de identidad digital en la Universidad de Deusto (Bilbao), piensa en ellos como si fueran estudiantes de colegio.

Aprenden la información del libro de texto que se les entrega, pero también es importante el profesorado, que les dice qué entra en el examen y qué parámetros son importantes”.

Este símil revela las claves del aprendizaje que llevan a cabo las máquinas, en el que la información con la que se entrenan y la definición de cuáles son los parámetros más importantes dan forma a una manera concreta de “pensar”. Pero aunque pueda parecer que se trata de un proceso infalible, en el que no tienen cabida los errores, esto no es así.

'A las mujeres las entiendo menos'

Tras dos años viviendo en Australia, Louise Kennedy decidió dar el paso y solicitar por fin la residencia permanente en el país que durante ese tiempo le había permitido dedicarse al trabajo de sus sueños: veterinaria equina. Para optar a este tipo de visa, Louise tenía que superar un test de nivel de inglés, algo que, en principio, no iba a suponer un problema para una irlandesa con dos títulos obtenidos en inglés como ella. O eso creía.

Tras acreditar sin dificultades sus capacidades en lectura y redacción, la joven veterinaria no alcanzó la puntuación exigida por el gobierno en el test de fluidez oral, obteniendo 74 de los 79 puntos necesarios para aprobar el examen. Pero, ¿por qué no pudo convencer Louise a las autoridades pertinentes de su capacidad para hablar correctamente su propia lengua?

Para llevar a cabo su examen, Louise confió en Pearson, una de las cinco empresas acreditadas oficialmente para la realización de las pruebas de acceso a la visa permanente, pero la única que emplea un software de reconocimiento de voz para el examen oral. El problema es que el software reconoce con más facilidad la voz masculina que la femenina. Un claro sesgo tecnológico que le ha costado a Louise la posibilidad de acceder a la residencia permanente en Australia, obligándola a solicitar otra visa más cara para poder quedarse en el país con su marido y su hijo.

Las inteligencias artificiales desarrollan sus parámetros de normalidad a partir de los datos que obtienen de la sociedad, algo que conduce necesariamente a la reproducción de sus prejuicios e inclinaciones, salvo que se realice un esfuerzo deliberado por corregirlos. Lorena Fernández considera que “la razón subyacente de todo esto es que las bases de datos tienen más datos de hombres blancos y menos datos de voces femeninas o minoritarias”. Afirma que es un error conceder a la tecnología “ese aura de neutralidad con la que parece que van a tomar mejores decisiones que una persona, creer que no van a incurrir en intencionalidades ni sesgos”.

Está claro que la tecnología no es completamente neutral, pero ¿tiene sentido que las máquinas lo sean? Aurora Martínez Rey, doctora en Informática, sostiene que "desarrollar una tecnología ‘inteligente’ para que no actúe cuando se ha programado para ello, no tiene el menor sentido". Por su parte, Fernández afirma que "no existe la neutralidad", pero que, en todo caso, debería diferenciarse entre la intencionada y no intencionada. La presencia de sesgos no intencionados en la tecnología es más habitual de lo que imaginamos y en ocasiones, como la de Louise, las consecuencias de estos fallos pueden ir más allá de un malentendido con Siri.

Luke Porter / Unsplash

Si, como sucede en los libros de texto de los colegios a los que hacía referencia Fernández, las bases de datos están llenas de voces masculinas, pero cuentan con pocos ejemplos de voces de mujeres, el algoritmo de aprendizaje estará mejor entrenado para reconocer y entender las voces de los primeros que las de las segundas. Con el fin de mitigar los sesgos en los asistentes de voz, y en la inteligencia artificial en general, es imprescindible incorporar la diversidad desde el principio. "La palabra clave aquí es la interseccionalidad", declara Fernández. Algo que implica contar con bases de datos que reflejen la diversidad social de género, de raza, de clase, etc., pero también determinar correctamente los parámetros importantes para la toma de decisiones.

El lenguaje define nuestra manera de pensar y constituye el billete que nos permite la entrada en la sociedad por medio de la comunicación. Para Carolina Arrieta, doctora en Lingüística Aplicada y profesora de la UDIMA, "la lengua es el testimonio de la sociedad y a la vez hace incidencia en ella", por lo que es necesario que las máquinas aprendan a comunicarse de la manera más completa posible. Teniendo en cuenta la neutralidad de la gramática, para Arrieta lo importante "es la incidencia del lenguaje en la sociedad y de la sociedad en el lenguaje", es decir, el impacto que el lenguaje tiene en las personas. Además de la inclusión de diversidad, ella apuesta por "no olvidar nunca el trabajo humano, que es fundamental para ayudar a las máquinas a interpretar los datos".

La chica de Australia fue una de las personas víctimas de unas máquinas sesgadas y limitadas. A pesar de que comentábamos anteriormente la opinión de una de las expertas sobre la falsa neutralidad, algunas tecnológicas han tomado medidas para intentar que el lenguaje de los asistentes de voz no esté marcado por un género determinado. En el caso de Google, los lingüistas computacionales tienen la directriz específica de no dirigirse al usuario ni como hombre ni como mujer. "En lugar de ‘Bienvenido’, intentamos darle la vuelta y decir ‘Te doy la bienvenida’. Esto se hace para que no se asuma ningún género", explicó Leticia Martín-Fuentes.

La trabajadora de Google añadió que está a favor de las soluciones como incluir en el vocabulario una "e" para no definir el género de la persona. En un futuro, si la gente lo va utilizando cada vez más, continuó, es posible que se extienda y que se pueda cambiar la gramática, aunque por ahora sigue siendo un lenguaje de nicho.

Al respecto, Carmen Torrijos, lingüista computacional en el Instituto de Ingeniería del Conocimiento (IIC), relató que cada conjunto de palabras que se le enseña a una máquina -llamado "corpus"- se revisa por varias personas. Por lo tanto, tiene que haber un consenso sobre el contenido que se enseñará. “Queremos que aprenda bien y no que aprenda sesgado porque si no los resultados también estarán sesgados. Por eso tenemos mucho cuidado con lo que introducimos en los modelos, para que sea representativo, general y haya consenso sobre lo que se está aprendiendo, para tener un modelo universal”, dijo en entrevista con Hipertextual en las oficinas del IIC.

Por ello, añadió que puede llegar el día en el que haya que incluir un lenguaje mucho más inclusivo aunque, para entonces, tendría que haber un consenso mucho mayor a nivel social.

El español, como dictan los cánones

Pero el debate no acaba aquí. ¿Deberíamos enseñar a las máquinas el español según la RAE o también una forma más coloquial y generalmente más utilizada?

Los expertos consultados por Hipertextual coincidieron en que en la mayoría enseña a las máquinas un lenguaje lo más neutro posible. En primer lugar, porque esta decisión va acorde con el objetivo de un asistente de voz y, en palabras de Martín-Fuertes, no es recomendable que su manera de hablar llame mucho la atención porque podría despistar al usuario. Por su parte, Luis Alfonso Ureña, experto en Lenguajes y Sistemas Informáticos en la Universidad de Jaén, abogó por hacer un uso correcto de la lengua. "Si hacemos malas producciones de un término y las asumimos en sistemas de este tipo, se puede propagar un mal uso de giros y expresiones", subrayó en entrevista.

Jonas Leupe/ Unsplash

Según Lorena Fernández, son "estos softwares los que tienen que estar al servicio de la sociedad y es la sociedad la que tiene que ser la fuente de aprendizaje", aunque insiste en que hay que hacerlo sin dejar de lado las reglas gramaticales. Por su parte, Carolina Arrieta sostiene que "el contexto lo es todo". Para ella, la gramática se debe aprender con precisión, pero el plano léxico admite una mayor flexibilidad. "La RAE no es prescriptiva, (...) es un registro de la lengua española” y las máquinas deben conocer los usos sociales del lenguaje, aunque sean incorrectos o discriminatorios. “Deben saberlo, pero tienen que conocer que su uso está penalizado socialmente".

Para la RAE este debate no es desconocido y ha decidido tomar sus propias medidas para fomentar un buen uso del lenguaje. A finales de 2019 impulsó, junto con Telefónica, el proyecto Lengua Española e Inteligencia Artificial (LEIA) centrado en el ámbito de la inteligencia artificial y las tecnologías actuales.

En el proyecto colaboran empresas como Google, Amazon, Microsoft, Twitter y Facebook. Los socios tecnológicos han firmado también una declaración de intenciones a través de la cual se han comprometido a utilizar materiales de la RAE como sus diccionarios, gramática u ortografía en el desarrollo de sus asistentes de voz, chatbots y otros recursos, según la información facilitada por Telefónica.

"Se está haciendo un servicio al público y por eso se tiene en cuenta que no se cometan faltas y que no haya un slang concreto, porque a nivel social tienes un compromiso", explicó Nerea Suárez, lingüista computacional en el área de inteligencia artificial de Aura, el asistente de voz de Telefónica.

En Google han llegado a lo que algunos podrían considerar un término medio. Consiste en enseñar a hablar a los asistentes de voz en un español “neutro” y “formal” pero, por el contrario, los lingüistas les están empezando a enseñar todo tipo de vocabulario para que puedan entender también un lenguaje más coloquial. Por ejemplo, algunos usuarios establecen rutinas para que cuando digan "Buenos días" o "Buenas noches" el asistente les configure alarmas o les proporcione información sobre el tiempo, la hora, etc. En lugar de "Buenas noches", el asistente también podría entender otras frases como "Me voy al sobre". A pesar de que se está empezando a enseñar a los asistentes de voz un lenguaje más coloquial, estas prácticas no están generalizadas en todas las empresas tecnológicas.

En lo que sí se han esforzado algunas como Amazon es en intentar que Alexa hable como si fuera de España. “Hemos trabajado duro para entrenarla en fonética regional para que pueda pronunciar con precisión los nombres de lugares, personas y eventos importantes en todas las regiones del país”, explicaron los portavoces del asistente.

Un ejemplo de la fonética es, por ejemplo, la manera en la que los españoles pronunciamos el inglés. Si le pedimos a Alexa que nos reproduzca una canción de nuestra lista de reproducción cuyo título está en inglés, necesitará entender cómo los nativos pronuncian estas canciones y los nombres de artistas extranjeros.

Y todavía más: "Alexa necesita saber las cosas que más le importan a los clientes españoles, y tener la personalidad y el conocimiento de un local". Eso implica conocer sus vacaciones, ciudades, figuras clave, si tiene celebridades favoritas, libros, poemas.

"Tiene un enorme depósito de chistes cursis, conoce sus dichos y conoce su información futbolística como La Liga, la Europa League, la Champions League y otros eventos deportivos importantes", explicó Amazon a Hipertextual.

Franck V / Unsplash

¿Las mujeres son de letras y los hombres de ciencias?

Un sector que junta dos carreras completamente opuestas, una de letras, la otra de ciencias. Que mezcla varias técnicas de trabajo y un equipo con diferentes perfiles y conocimientos. Esto es precisamente lo que no se enseña en las escuelas y que provoca que la mayoría de lingüistas computacionales sean, al menos principio, autodidactas. Como Carmen Torrijos, quien estudió una carrera de humanidades y no fue hasta tiempo después que supo acerca de este sector. “No sirve mucho que tengamos un plan nacional de tecnologías del lenguaje si no hay un plan de universidades que ofrezcan formación para lingüistas computacionales. Cuando yo empecé no había formación reglada, y no fue hace tantos años”, explicó.

El mismo problema sucede a la inversa porque no se les enseña tampoco esta alternativa a los ingenieros que podrían especializarse en el procesamiento del lenguaje. En cualquier empresa especializada en lingüística computacional, estos dos perfiles tan opuestos trabajan juntos todos los días. Torrijos puso de relieve la importancia del trabajo en equipo para que donde uno no llegue, lo haga el otro. Estos equipos son mixtos aunque, la mayoría de lingüistas son mujeres y de ingenieros son hombres. En los dos casos, es clave la mezcla de conocimientos, aunque no es un proceso fácil.

A pesar de que estamos en pleno siglo XXI, para algunas personas los tópicos siguen siendo los mismos que los del siglo pasado. Leticia Martín-Fuertes tuvo que escuchar cómo muchas personas de su entorno le decían que ella era demasiado lista para estudiar filología clásica y que podía aspirar a una carrera de ciencias. Y, muchas otras que acabaron estudiando lo mismo que Martín-Fuertes, que fue contratada por Adecco para Google, tuvieron que integrarse luego en un mundo completamente tecnológico y, en su mayoría, de hombres.

A veces te entran complejos porque no te enteras de nada, pero no eres tú, es que esto es muy difícil. No tienes formación y estás aprendiendo desde dentro”, explicó Torrijos.

Más allá del shock cultural que sufre un humanista cuando se mete en un mundo tecnológico, la lingüista del IIC valoró que al final es una situación que te enriquece porque se ven las cosas de una manera diferente.

Algunas personas pueden pensar que la de los lingüistas computacionales es una carrera poco conocida. Pero ha llegado para quedarse. En un momento en el que los logros tecnológicos están a la orden del día y en los que la comunicación con las máquinas, sobre todo con asistentes de voz, forma cada vez más parte de nuestra vida diaria, este sector es uno de los más innovadores y prometedores.

En este sentido, Antonio Rodríguez de las Heras, catedrático en la Universidad Carlos III de Madrid y director honorífico del Instituto de Cultura y Tecnología de esta universidad, ve en la tecnología una oportunidad para trascender nuestro yo actual. “El ser humano deja en sus creaciones artificiales sus capacidades naturales”. En su opinión, “el artefacto amplifica esa capacidad vertida en lo artificial”. Lo que les estamos transmitiendo a las máquinas, al fin y al cabo, no es otra cosa que nuestro legado. Sin embargo, en ellas tenemos también la capacidad de corregirnos. “[Las máquinas] se presentan ante nosotros como espejos, ciertamente borrosos, pero en los que podemos reconocernos”, y este reconocimiento nos va a llevar a reconsiderar nuestros valores y qué partes de nosotros les queremos transmitir.

“Al llegar hoy al umbral de creaciones artificiales tan potentes como la inteligencia artificial nos encontramos con un reto que supera con mucho cualquier otro al que los artefactos hayan abocado a sus creadores, (...) nos encontramos ante el desafío de decidir cómo queremos ser”. La cuestión es, ¿vamos a dejar pasar esta oportunidad?