Cómo CAPTCHA y ReCAPTCHA mejoraron a Google

¿Quién no ha tenido que traducir esas letras onduladas para demostrar que no es un robot? Estas letras cuasi ilegibles nos han dejado mucho más beneficios de lo que podríamos haber imaginado.

Quizás el más trascendental es que permitieron digitalizar toda la hemeroteca del The New York Times y los libros en Google Books. Más recientemente, Google Maps las usa para corregir direcciones y señales, pues ayuda a entender los letreros de puertas, tiendas o coches en calles. Sin embargo, como casi todas las cosas en sus inicios, aún tenía un largo camino por recorrer antes de convertirse en lo que llegaría a ser.

El CAPTCHA original, ese que te pide que escribas en un recuadro las letras distorsionadas que aparecen en una imagen con un sombreado oscuro o a veces junto con una secuencia de números o ambas, fue inventado en 1997 por dos grupos que la desarrollaron en paralelo. Esto, como era de esperarse, suscitó cierta controversia.

Por un lado, Mark D. Lillibridge, Martín Abadi, Krishna Bharat y Andrei Broder, lo hicieron para AltaVista con el fin de evitar que robots agregaran su URL a su motor de búsqueda web, pero su patente era de 1998. Por otro lado, Eran Reshef, Gili Raanan y Eilon Solan, quienes trabajaban para Sanctum en Application Security Firewall, se quedaron con la autoría debido a que hicieron la solicitud de la patente en 1997.

El término fue acuñado hasta el 2003 por el guatemalteco Luis von Ahn, el venezolano Manuel Blum y el estadounidense Nicholas J. Hopper de la Universidad de Carnegie Mellon junto con John Langford de IBM. Las siglas en inglés CAPTCHA se traducen a prueba de Turing completamente automática y pública para diferenciar ordenadores de humanos.

En un principio, el sistema de verificación humana era comúnmente utilizado antes de enviar un correo electrónico, publicar un comentario, comprar un boleto de avión en línea o incluso para ingresar a un sitio web. Pero probablemente era más fácil para un ordenador, o los mismos bots contra los cuales protegía, que para una persona poder distinguir entre una "i", una "l" o "L" en aquél entonces. Por eso los CAPTCHA originales pasaron a la historia como esa colección de letras aplastadas, estiradas, garabateadas, corrugadas o con manchas de color, que te hacían creer que tal vez lo que necesitabas eran unas gafas con mayor aumento.

Con el tiempo, los piratas informáticos consiguieron que sus bots burlaran la entonces avanzada tecnología del CAPTCHA. Así que las ya de por sí engorrosas letras tuvieron que irse haciendo cada vez aún más intrincadas.

Entonces, von Ahn y su equipo se pusieron nuevamente manos a la obra, esta vez junto con la ayuda de Ben Maurer, Colin McMillen y David Abraham, para desarrollar la siguiente fase de este sistema de verificación que nació en el 2009: el reCAPTCHA, el cual funciona de la misma manera que su antecesor, pero añade una segunda palabra que parece sacada de un libro antiguo y que usualmente es mucho más fácil de leer que la otra. La prueba de fuego fue que un escáner computarizado no consiguió leerlo correctamente.

Esta segunda palabra no hizo más fácil descifrar el CAPTCHA. De acuerdo con Von Ahn, una persona tarda en promedio nueve segundos en resolver un reCAPTCHA con una tasa de éxito del 92%, mientras que la tasa de éxito era del 97% en el 2000. Sin embargo, una de las mejoras es que conforme el sistema de verificación detectaba que menos bots intentaban acceder, las letras se iban distorsionando menos.

reCAPTCHA y la digitalización de textos

Que reCAPTCHA usara palabras que parecían sacadas de un libro no fue mera coincidencia, ya que comenzaba el auge de la digitalización de textos. En el proceso para escanear y digitalizar libros y otros materiales impresos, aproximadamente un 20% de las palabras parecían intrínsecamente distorsionadas, siendo ilegibles para los programas de reconocimiento óptico de caracteres (OCR, por sus siglas en inglés). Entonces, reCAPTCHA entró en acción.

El sistema de verificación humana aprovecha dicha falla en el proceso de digitalización, pues cada imagen se construye utilizando una de estas palabras intrínsecamente distorsionadas como punto de partida. La imagen se distorsiona aún más añadiendo líneas y deformaciones aleatorias. Finalmente, reCAPTCHA junta esta imagen con otra imagen de la palabra distorsionada también tomada de algún material impreso. El resultado final es un CAPTCHA que, aunque legible y descifrable por humanos, es más complejo y más difícil de leer para los ordenadores.

via GIPHY

El tiempo humano colectivo y la energía mental empleada por millones de usuarios cibernéticos para resolver y escribir CAPTCHA fue conceptualizado por von Ahn como computación humana. Tan solo en el primer año luego del lanzamiento de reCAPTCHA, fue usada para descifrar y transcribir correctamente más de 440 millones de palabras, aproximadamente el equivalente a 17.600 libros, con una precisión del 99.1%.

La adquisición de reCAPTCHA por Google

En septiembre de 2009, el gigante tecnológico adquirió reCAPTCHA con el objetivo de digitalizar todos los libros disponibles en su biblioteca: Google Books. Asimismo, como mencionamos al principio, uso el sistema para digitalizar toda la hemeroteca del The New York Times.

En 2014, Google creó un algoritmo capaz de resolver sus propios CAPTCHAS con una precisión del 99.8% y lo utilizó para analizar automáticamente los signos y números de casa fotografiados por las cámaras de Street View. Es así como logró que las imágenes encajaran con mayor precisión con las locaciones en Google Maps. Sin embargo, el nuevo sistema de análisis sólo consiguió identificar un 90% de los textos y un 96% de los números en las imágenes obtenidas.

Así que Google desarrolló el No CAPTCHA reCAPTCHA, el cual analiza el comportamiento de las personas en línea antes de llegar al punto de control de seguridad que emplea el sistema de verificación humana. Mientras tú navegas una página, este algoritmo invisible monitorea cómo interactúas con el contenido para determinar si eres un humano o un robot. En vez de pedirte que escribas las palabras en la imagen mostrada, simplemente te pide responder dentro de una casilla: "No soy un robot".

via GIPHY

Si el programa cree que eres un humano, al marcar la casilla te permite continuar, pero si sospecha que se trata de un spambot, marcar la casilla no será suficiente. En estos casos, se abrirá un nuevo desafío, como identificar a todos los gatitos en una matriz de fotografías.

Sin duda, No CAPTCHA reCAPTCHA será superado eventualmente por los hackers detrás de los spambots. Pero no hay nada de que preocuparse, todo apunta a que en el futuro Google tendrá un nuevo método de verificación que lo más probable tenga que ver con la inteligencia artificial, como el deep learning. ¿Cómo crees que derive la evolución del sistema de verificación humano? Estamos ansiosos por descubrirlo.