Google asaltó nuestras vidas hace tan poco tiempo que, creo, aún no tenemos suficiente perspectiva histórica para evaluar las consecuencias. Eso sí, tenemos números duros que dan cuenta de la pisada gigantesca de la empresa, como sus miles de servidores web basados en Linux, sus petabytes de información indexada, sus gastos energéticos, etc. Sin embargo, poco se habla de su aportación a la ciencia. Pero, ¿cómo medirla? En la práctica tenemos varias métricas. En lo que respecta a este post usaré un parámetro cuantitativo: el número de artículos científicos, o papers, publicados por área. Y aquí los tienen:

  1. Algoritmos y teoría: 221 artículos
  2. Aprendizaje de máquina: 180 artículos
  3. Procesamiento de lenguaje natural: 140 artículos
  4. Sistemas distribuidos y cómputación paralela: 141 artículos
  5. Percepción de máquina: 116 artículos
  6. Seguridad, Criptografía y Privacidad: 112 artículos
  7. Inteligencia artificial y minería de datos: 97 artículos
  8. Interacción Hombre-Máquina y Visualización: 96 artículos
  9. Obtención de información: 75 artículos
  10. Ingeniería de software: 61 artículos

Para quienes no lo sepan, cuando un artículo científico es aceptado y publicado (en revistas científicas, journals, conferencias, entre otros medios), es porque ha pasado por el escrutinio riguroso de varios árbitros expertos en el tema. Y antes siquiera de ser enviado, el artículo involucra meses de investigación de uno o más personas de uno o más grupos de investigación, según la dificultad. En particular, esos números corresponden a la investigación de los _googlers_ a la fecha.

Más allá de los números, ¿qué tipo de conocimiento genera Google? Uno pensaría que está dirigido a sistemas distribuidos y web. Y es cierto a decir por sus productos. Pero el conocimiento de base es, por mucho, algorítmico. Algoritmos para hacer de todo encima de Internet y la Web. Entre ellos algunos vinculados directamente con la publicidad en línea, con todo y sesudos modelos matemáticos, que pongo aquí sólo para ejemplificar:

Adapting Online Advertising Techniques to Television Incremental Clicks Impact Of Search Advertising * Advertising and Traffic: Learning from online video data

Aunque con un punto de vista más general, son cuatro las grandes áreas de conocimiento que sostienen Google: Inteligencia artificial, ingeniería de software, seguridad y sistemas distribuidos. Desde mi punto de vista, Google vive de la inteligencia artificial, área a la que pertenece su algoritmo fundacional, el PageRank. Así que es natural encontrar esa cantidad de papers sobre aprendizaje y percepción de maquina, seguramente aplicados a sus bots, y los de procesamiento de lenguaje natural que sugieren que Google tiene como prioridad expandir hacia allá su interfaz de búsqueda con voz, nuestra voz.

Google, como cualquier gran empresa de tecnología que se precie de serlo, genera conocimiento a lo largo del tiempo. Lo llevan haciendo así los gigantes IBM y Bell Labs desde el siglo pasado. Este es el total de artículos de aquellas y otras áreas repartidos por año:

  • 2011, 183
  • 2010, 257
  • 2009, 303
  • 2008, 251
  • 2007, 209
  • 2006, 130
  • 2005, 56
  • 2004, 17
  • 2003, 13
  • 2002, 5
  • 2001, 5
  • 2000, 3
  • 1999, 2
  • 1998, 3

Ciertamente, su producción científica aumentó con escala exponencial, aunque, por alguna razón, bajo un poco los últimos dos años (a tomar en cuenta que faltan datos de 2011). Como sea, no hay visos de que la maquinaría de la gran G se detenga, por el contrario, se nota bien afinada por docenas de doctores en ciencias en cada piso de su Googleplex.

Google contrata genios de vez en cuando para dirigir su grupos de investigación. Y es un ejemplo de que el capital más importante está en el conocimiento generado y el potencial, que está por venir. Quién sabe, tal vez en menos de 10 años Google tendrá su primer Nobel. Habrá que verlo. En tanto, espero que lo datos referidos aquí nos ayuden a dimensionar mejor sus aportaciones a la ciencia.