El problema del azar

En los días pasados no he tenido el tiempo suficiente para escibir, a pesar de que he encontrado infinidad de temas interesates sobre los que comentar. Es más había pensado escribir un extenso post detallando la gran cantidad de señales que indican un inminente cambio de dirección en los mercados. Pero en parte me parece que ha sido mejor así, he tenido tiempo de encontrar cosas mucho más interesantes aún.

La primera de esas cosas ha sido el video de una conferencia de Nassim Taleb en FORA.tv, sobre la impredictibilidad de los eventos importantes y la humana necesidad de explicar los eventos luego de que estos ocurren. Como consecuencia de ver ese video y de no escribir sobre cosas que sé, sino pensar sobre las implicaciones del mismo y sobre la importacia de las cosas que no sé, es que para clarificar mis ideas comienzo a escribir el presente post.

Una de las críticas más importantes que hace Taleb al "establishment" de la ciencia es que en lugar de almacenar "hechos" lo que hace es almacenar "teorías", que no son más que visiones simplificadas y resumidas de la realidad, obtenidas la mayor parte de las veces a través de la "inducción". O para ser más especifíco, de la extrapolación de una regla basado en un conjunto finito de datos, de los cuales se han extraído convenientemente los valores extremos que pudieran hacer difícil la formulación de dicha regla.

El problema básico como explica Nassim en una entrevista dada a Charlie Rose, en agosto del 2007, es que psicológicamente los humanos no estamos preparados para lidiar con la complejidad del mundo que nos rodea. Además propone que a diferencia de como nos vemos a nosotros mismos como humanos, estamos hechos por selección natural para "hacer cosas" y no para "entender cosas". Sin embargo debido a que tenemos un profundo temor por la incertidumbre hemos invertido la forma natural en que debemos operar, por ello hemos creado este conjunto de "conocimientos" que luego tratamos de "aplicar".

Contradictoriamente, la idea que nos propone Nassim, es obtenida por "inducción" también. Pero eso no le resta validez, por el contrario es como un momento de inspiración, de esos que nos han permitido pasar de un nivel a otro. Básicamente la idea que nos propone Nassim tiene consecuencias en un mundo de Exabytes.

Dejenme explicarles mi conclusión, en el mundo pre-digital o el mundo de la escasez, almacenar y transmitir información a lo largo del tiempo era costoso. Por lo tanto con la finalidad de ahorrar recursos, sólo almacenábamos y transmitíamos de una generación a otra aquellos que era "relevante", mejor dicho sólo se almacenaba y transmitían los "casos de éxito", aunque hubieran miles de millones de "casos de fracaso", por simple economía del mundo pre-digital, todos los errores se olvidaban por pura eficiencia. Nuestros cerebros operan de esa manera también, ya que somos criatura analógicas.

Sin embargo nos encontramos ahora al principio de la era digital, la escasez de medios para almacenar y transmtir información es cosa del pasado, lo irrelevante, lo cotidiano puede ahora ser almacenado y compartido con el mundo entero si queremos. Una prueba de ello son las redes sociales que nos ofrecen petabytes de "irrelevancia".

Por favor,  no me tomen a mal, uso el término "irrelevancia" no en un sentido despectivo, sino en un sentido descriptivo del impacto que tiene en la sociedad en su conjunto esta información. Por ejemplo el día de mañana el Sr. Juan Pérez puede decidir subir fotos de la vecina en ropa interior a Facebook, y esto tan sólo afectará a lo mucho la vida de un puñado de personas. En contraste la famosa fórmula de Einstein E=mc2 es relevante porque afectó y afecta la vida de millones.

Nassim nos habla de dos dominios "Mediocristán" y "Extremistán", el primero dominado por la ley de los grandes números, el segundo dominado por las excepciones, describiendolo como el dominio en el cual un cambio en una pequeña parte del conjunto, produce un gran impacto en el conjunto. Bajo esa premisa Nassim dice que somos buenos haciendo predicciones en "Mediocristán", pero al querer extender esos modelos a "Extremistán", fallamos terriblemente.

Me parece que Nassim está absolutamente en lo correcto con respecto a eso y muestra a los científicos sociales (especialmente, aunque también refleja a la comunidad científica en general) como aquella persona buscando algo cerca de un poste de alumbrado público y al cuál un amigo se le acerca preguntándole: "¿Se te ha perdido algo?". A lo cual el sujeto que estaba buscando responde que busca su billetera, entonces el amigo pregunta: "¿Dónde se te cayó?". Entonces el sujeto señala un lugar oscuro más alla del alcance de la luz proporcionada por la lámpara. A lo cuál sorprendido el amigo cuestiona: "Entonces, ¿por qué estas buscando aquí?". El afligido sujeto responde: "Es que aquí hay más luz".

Los ingléses tienen un refrán que refleja lo mismo que la historia anterior: "Para aquel cuya única herramienta es un martillo, todo problema es un clavo". Estamos en la era digital usando herramientas de análisis de la era analógica.

El problema de la dicotomía Mediocristán/Extremistán, no parece tan insoluble si en lugar de continuar extendiendo nuestros modelos analógicos pasamos a modelos digitales. Pero ¿qué es un modelo digital?. Pues bien un modelo digital lo veo como un conjunto de datos en el orden los Exabytes o superior que son analizados estadísticamente en búsqueda de patrones cause/efecto.

Como dice Nassim, la historia de la ciencia y del hombre en general, es la historia del descubrimiento fortuito, de una sucesión de "Cisnes Negros". Hechos difíciles de predecir antes de que ocurrieran, pero que una vez ocurridos cambián completamente el mundo (hay un antes y un después), pero que luego de que pasan tratamos de buscarles una explicación racional y justificar su inevitabilidad.

En una gran población que juega a la lotería, debe haber al menos un ganador. El método científico hasta ahora, al menos para los economístas, consistía en explicar por qué ese ganador había tendido éxito, ignorando el hecho de que millones habían perdido. En un programa de PBS sobre las subprime llamado "Crisis y Credibilidad" uno de los involucrados en la crisis de las subprime dice que si bien es cierto los métodos usados para hacer las evaluaciones de riesgo eran "metodológicamente" correctos, estaban aplicados a un conjunto muy pequeño de datos. La clásica historia de buscar en donde hay luz y no donde está el objeto perdido.

Nuestra memoria es débil y limitada, producto de la selección natural y orientada a resolver problemas inmediatos (salir corriendo si vemos un leon). En la era digital la memoria puede crecer tanto como lo deseemos no sólo en capacidad, sino también en tiempo. A más data pongamos en el modelo, más precisas serán las predicciones.

Podemos predecir el clima de mañana o de la próxima semana porque tenemos un conjunto de datos de los últimos 100 años que nos permiten ser precisos respecto a los próximos 5 días. El problema es que usemos esos 100 años de datos para predecir el clima de los próximos 1000 años.

Ahora pongamonos las botas al revés cada vez que deseemos responder una pregunta sobre el futuro, no usemos la data existente para responderla. Hagámonos la pregunta, ¿cuánta data necesito colectar, para responder satisfactoriamente esta pregunta?

Básicamente por limitaciones económicas en el mundo pre-digital debíamos de usar el método inductivo, dado el alto costo del alamacenamiento y transmisión de todos los "hechos". En el mundo digital debemos de ir hacia una metodología deductiva, en la cuál debemos formular un conjunto de de reglas de inferencia que verifiquemos experimentalmente es cierta (el algoritmo, a más simple mucho más fácil de verificar su certeza) y luego aplicarlo a un universo de datos creciente en el tiempo.

La idea anterior no es nueva y tampoco es mía. Google ha tenido el éxito que tiene en el mercado de las búsquedas porque ha aplicado esta simple estrategia. Inventó un algoritmo (muy simple) que le permitía dar un cierto ranking a las páginas basado en una serie de palabras claves y enlaces entrantes. Pero adicionalmente alimentó una gran base datos (el universo de datos disponible) sobre la cual corría su algoritmo. A más grande sea la base de datos de Google, más difícil será derrotarlo y ellos lo saben, de alli el gran esfuerzo de la compañía por mantener esa base datos creciendo contínuamente.

Mi conclusión es que a lo que llamamos azar, no es más que a nuestra incapacidad de entender a la realidad en toda su complejidad. La mejor respuesta a esta sensación de frustación no es volvernos religiosos o aceptarla estóicamente. La mejor respuesta es continuar la recolección, almacenamiento y transmisión de datos a lo largo del tiempo, perfeccionando los algoritmos con los nuevos datos y esperando que los hombres del mañana tengan el suficiente universo de datos disponibles para hacer una proyección más ajustada a la realidad.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.