La inmensa cantidad de información disponible en las más disímiles bases de datos hoy en día parecen poner en peligro el método científico y sus hipótesis. Es lo que plantea Chris Anderson , editor de la revista Wired , en un artículo motivo de portada y publicado en julio pasado. Es de tal interés que Félix Tapia lo tradujo y lo colocó en su blog desde donde lo extraemos.
Pulsa aquí para ir al artículo original en inglés.
El final de la teoría
¿Podrá la inundación de información hacer obsoleto al método científico?
Wired 16.07.2008
"Todos los modelos son incorrectos, pero algunos son útiles"
Así lo proclamó el estadístico George Box hace 30 años, y estaba en lo cierto. ¿Pero qué opción teníamos? Solo los modelos, desde ecuaciones cosmológicas a teorías de la conducta humana, parecían ser capaces de explicar en forma consistente, aunque imperfecta, el mundo a nuestro alrededor. Hasta ahora. Las compañías actuales como Google, las cuales han crecido en una era de información masiva y abundante, no tienen que conformarse con modelos incorrectos. De hecho, no tienen que conformarse con modelo alguno.
Hace sesenta años, las computadoras digitales hicieron la información legible. Hace veinte años, el Internet la hizo accesible. Hace diez años, los primeros motores de búsqueda eslabonados (crawlers) transfomaron la información en una sola base de datos. Ahora Google y otras compañías semejantes están atravezando la era de mayores computos y mediciones de la historia, tratando este enorme cuerpo de información masiva como un laboratorio de la condición humana. Son los niños de la era de los petabytes.
La era de los petabytes es diferente porque más es diferente. Los kilobytes fueron almacenados en diskettes. Los megabytes fueron almacenados en discos duros. Los terabytes fueron almacenados en discos en serie. Los petabytes se almacenan en 'la nube'. Mientras nos movíamos a lo largo de esa progresión, fuimos de la analogía de la carpeta, a la analogía del gabinete de archivos, a la analogía de la biblioteca, y de ahí - bueno - dede los petabytes se nos acabaron las analogías de organización.
En la escala del petabyte, la información no es una cuestión taxonómica o de orden de tres o cuatro dimensiones sino de estadísticas agnósticas dimensionales. Lo cual requiere de un acercamiento totalmente distinto, uno que permita perder la atadura al concepto de datos como algo finito que se puede visualizar en su totalidad. Esta nueva visión, forza a ver la información, primero matemáticamente para luego colocarla en su debido contexto. Por ejemplo, Google conquistó el mundo publicitario con nada mas que matemática aplicada. No pretendió conocer la cultura y las convenciones del mundo de la publicidad, sólo asumió que mejores datos, con mejores herramientas analíticas, permitiría el éxito. Y Google estaba en lo correcto.
La filosofía fundacional de Google, es que no conocemos porque una página web es mejor que otra: si las estadísticas de enlaces a la página dice que muy visitada, eso es suficiente. No se requiere de semántica o análisis causal. Por eso Google puede traducir idiomas sin necesidad de 'conocerlos'(dado un mismo cuerpo de datos,Google puede traducir Klingon al Farsi tan fácilmente como puede traducir francés al alemán). Y por lo mismo, puede enlazar anuncios publicitarios con el contenido de una página o blog sin tener noción de de los anuncios o los contenidos.
El Director de investigación de Google Peter Norvig, hablando en marzo en la Conferencia O'Reilly de Tecnología Emergente ofreció una puesta al día de la frase de George Box: "Todos los modelos son incorrectos, y amenudo se puede tener éxito sin ellos".
Este es un mundo donde las cantidades masivas de datos y las matemáticas aplicadas substituyen cualquier otra herramienta. En esta dirección están todas las teorías de la conducta humana, desde la lingüística hasta la sociología. Olvídense de taxonomía, ontología, y psicología. ¿Quién sabe porqué la gente hace lo qué hacen? El punto es que lo hacen, y podemos seguirlo y medirlo con fidelidad sin precedentes. Con suficientes datos, los números hablan por sí mismos.
Pero el principal blanco aquí no es la publicidad, sino la ciencia. El método científico se construye alrededor de hipótesis comprobables. Estos modelos, en general, son sistemas visualizados en las mentes de los científicos. Los modelos son evaluados , y los experimentos confirman o desaprueban a los modelos teóricos de cómo el mundo funciona. Ésta es la manera como la ciencia ha trabajado por centenares de años.
Los científicos están entrenados para reconocer que correlación no es causalidad, que ningunas conclusiones puden derivarse en base a la correlación entre X y Y (podría apenas ser una coincidencia). En lugar, se debe entender los mecanismos subyacentes que conectan a los dos. Una vez que tienes un modelo, puedes conectar los conjuntos de datos con confianza. La información sin un modelo es apenas ruido.
Pero tomen en cuenta, con datos masivos, esta aproximación a la ciencia - la de hipotizar, modelar, probar - se está haciendo obsoleta. Considere la física: Los modelos newtonianos eran aproximaciones crudas de la verdad (incorrecta en el nivel atómico, pero aún útil). Hace cien años, la mecánica cuántica basada en las estadísticas ofrecieron un cuadro mejor - pero la mecánica cuántica es otro modelo más, y como tal, también tiene fallas, sin duda una caricatura de una realidad subyacente más compleja. La razón por la cual la física ha derivado en especulación teórica sobre modelos unificados magnificos n-dimensionales en las últimas décadas (la "bella historia" de la fase de una disciplina hambrienta de información) es que nosotros no sabemos como hacer experimentos que desaprueben nuestras hipótesis - las energías son muy altas, los aceleradores muy costosos, y así sucesivamente.
Ahora la biología está apuntando en la misma dirección. Los modelos que nos enseñaron en la escuela sobre genes "dominantes" y "recesivos" dirigiendo un proceso mendeliano estricto han resultado ser una simplificación de la realidad incluso mayor de la planteada por las leyes de Newton. El descubrimiento de las interacciones gen-proteína y de otros aspectos de la epigenética ha desafiado la visión del ADN como destino e incluso introdujo evidencia que el ambiente puede influenciar rasgos no heredables, algo que era considerado como una imposibilidad genética.
En fin, cuanto más aprendemos sobre la biología, más lejos estamos de un modelo que la pueda explicar.
Existe ahora una mejor vía. Los petabytes permiten que digamos: "La correlación es suficiente". Podemos dejar de buscar modelos. Podemos analizar los datos sin hipótesis y enfocarnos en lo que muestran los datos. Podemos colocar los números en las mas grandes redes de computación que el mundo haya visto y dejar que los algoritmos estadísticos encuentran los patrones, donde la ciencia no puede.
El mejor ejemplo práctico de esto es el gene de la escopeta (shotgun gene) secuenciado por J. Craig Venter. Lo cual se consiguió por los secuenciadores y los superordenadores de alta velocidad que analizan estadísticamente los datos que se presentan. Venter fue de ordenar organismos individuales a ordenar ecosistemas enteros. En 2003, comenzó a ordenar el océano, retrazando el viaje del Capitán Cook y en 2005 comenzó a ordenar el aire. En el proceso, descubrió millares de especies previamente desconocidas de bacterias y de otras formas de vida.
Si las palabras "descubra una nueva especie" recuerda a Darwin y los dibujos de los pinzones, usted puede estar varado en la vieja manera de hacer ciencia. Venter no puede decir casi nada sobre la especie que encontró. Él no conoce su apariencia , cómo viven, o nada sobre su morfología. Él ni siquiera tiene su genoma entero. Todo lo que tiene es una señal estadística - una secuencia única que, siendo diferente a cualquier otra secuencia en la base de datos, debe representar una nueva especie.
Esta secuencia se pudiese correlacionar con otras secuencias que se asemejen a especies de las que conocemos más. En ese caso, Venter puede hacer algunas conjeturas acerca de los animales - que ellos convierten luz solar en energía en una forma particular, o que ellos descendieron de un antepasado común. Pero además de eso, no tiene un mejor modelo de esta especie que el que Google tiene de tu página de MySpace. Es solo información. Apesar de analizarla con recursos de computación de la calidad de Google, Venter ha avanzado más la biología que cualquier persona de su generación.
Esta clase de pensamiento está lista para convertirse en la corriente dominante. En febrero, el National Science Foundation anunció el Cluster Exploratory, un programa que financia investigación diseñada para funcionar en una plataforma computacional distribuida de gran escala desarrollada por Google e IBM conjuntamente con seis universidades piloto. El grupo (cluster) consistirá de 1.600 procesadores, varios terabytes de memoria, y centenares de terabyte de almacenamiento, además del software, incluyendo el Tivoli de IBM y las versiones de fuente abierta de Google File System and MapReduce. Los proyectos Early CLuE incluirán las simulaciones del cerebro y el sistema nervioso y otra investigación biológica que está entre el wetware y el software.
Aprender a utilizar una "computadora" de esta escala puede ser desafiante. Pero la oportunidad es grande: La nueva disponibilidad de enormes cantidades de datos, junto con las herramientas estadísticas para analizar estos números, ofrece una nueva manera de comprender el mundo. La correlación reemplaza la causalidad, y la ciencia puede avanzar incluso sin modelos coherentes, teorías unificadas, o realmente sin ninguna explicación mecánista.
No existe razón para aferrarse a nuestras viejas maneras. Ya es tiempo de preguntar: ¿Qué puede la ciencia aprender de Google?
Chris Anderson (canderson@wired.com) es Editor en Jefe de la revista Wired.
Ilustración: Marian Bantjes
Traducción: FJ Tapia