Periodismo de datos. Guía para el periodista curioso

Para todos los periodistas que alguna vez han pensado que son malos para las matemáticas. ¿Y si resulta que estaban equivocados?

Introducción

Este es un texto sobre uso de datos estadísticos en periodismo, pero no es particularmente práctico. Es un texto para curiosos, para aquellos que se cuestionan las cosas. Algunas de las ideas que se discuten acá son muy antiguas, otras han surgido en las últimas décadas, y muchas de ellas se han combinado para crear lo que es el periodismo de datos del siglo veintiuno.

Vamos a rastrear de dónde vienen los datos, qué hacen los periodistas con ellos y dónde se van después, y tratar de entender sus posibilidades y limitaciones. Vamos a ver algunos de los aspectos más matemáticos de la estadística, pero también la dificultad de censar las razas y la psicología cognitiva en las probabilidades. El periodismo de datos es lo más interdisciplinario que hay, lo que puede hacer difícil ensamblar todas las piezas que se necesitan. Este es un intento.

Hay pocas ecuaciones y nada de código en este texto, y no parto de la base de que ustedes saben de matemáticas. Pero sí estoy suponiendo que quieren saber, así que desarrollaré algunas ideas centrales a partir de cero. O tal vez hayan estudiado algo técnico y recién estén dedicándose al periodismo, en cuyo caso espero que este texto les ayude a entender cómo se aplican sus habilidades. Este es un marco de referencia, un conjunto de grandes ideas que los periodistas pueden robar de otros campos. Quiero darles un punto de apoyo para entrar en el análisis estadístico en todo su esplendor nerd, pero igualmente quiero mostrar cómo la etnografía puede ayudarles a interpretar las cifras sobre delincuencia, por ejemplo.

Vamos a dirigir la mirada a los datos de una manera mucho más cercana de lo que pueden estar acostumbrados. Consideren el siguiente gráfico de la tasa de desempleo en Estados Unidos en los últimos diez años. Hay todo un mundo debajo de la superficie de esta imagen.

1-compressor

Fuente: Oficina de Estadísticas del Trabajo de Estados Unidos (US Bureau of Labor Statistics).

Queda claro que mucha gente perdió su empleo después de la crisis financiera de 2008. Pueden leer esta gráfica y decir: la tasa de desempleo aumentó en un 5%. Es una manera muy común y muy razonable de hablar acerca de estos datos, exactamente el tipo de frase que debiera aparecer rápidamente en sus cabezas al ver esta imagen. Pero nosotros vamos a mirar más profundamente. ¿De dónde provienen estos números? ¿Qué es lo que realmente quieren decir? ¿Qué puede decir el periodista sobre estos datos a la luz de la historia reciente? ¿Qué debe hacer el público después de verlos? ¿Por qué creemos en gráficas como esta? ¿Debemos hacerlo? ¿De qué manera una gráfica de desempleo sería mejor, o diferente, de ir a preguntarle a la gente sobre sus vidas tras la crisis económica?

¿Qué es lo que realmente hacen los datos por nosotros en este caso?

Este libro pretende acercar la tradición cuantitativa al periodismo. Los datos estadísticos no se componen solo de números, pero sí es cierto que los números fueron la primera forma que adquirieron. Los primeros sistemas de escritura nacieron para fines contables, para llevar registro de los bienes que se transaban o vendían, mucho antes de que se sofisticaran lo suficiente para registrar el lenguaje (Schmandt-Besserat, 2009). En ese tiempo las reglas de la suma y resta deben haber parecido increíblemente esotéricas (¡en base 60 al principio!), y saber de antemano cuántas piedras se necesitarían para una construcción de cierto tamaño debe haber sido considerado un poderoso truco. No hay duda de que los números, como las palabras, son una especie de magia práctica, y el conteo es la base del trabajo estadístico hasta nuestros días. Pero ustedes ya saben contar, así que hablaremos más que nada de las ideas que se desarrollaron en la época de la Ilustración y que en el siglo veinte se refinaron y expandieron masivamente gracias a la estadística moderna y los computadores.

Para dotar de sentido a las cosas vamos a alejarnos un poco de la estadística. He estado saqueando cosas de otras disciplinas como la psicología, la etnografía y en general las ciencias sociales, y también del análisis de la inteligencia y la neurobiología de la visión, y uniendo piezas para utilizar los datos de la forma más cuidadosa y eficaz en mi trabajo periodístico. Así he llegado a organizar mi discurso en tres partes, que se refieren al proceso en que se crean las notas periodísticas, el producto central del periodismo: la cuantificación es lo que hace los datos, el periodista los analiza, y luego el resultado es comunicado al público.

En periodismo, una nota o una historia es una narración que no solo es cierta sino también interesante y relevante para el público objetivo. El periodismo de datos es diferente del análisis estadístico puro —si es que algo así existe— porque nosotros necesitamos que la cultura, el derecho y la política nos digan qué datos importan y de qué manera. Una base de datos sobre adquisiciones de un municipio puede decirnos que tal concejal ha estado favoreciendo a su hermano con lucrativos contratos, pero esto es interesante solo si entendemos que este tipo de asuntos es corrupción y hemos decidido castigarlos. Un periodista deportivo podría encontrar historias totalmente diferentes en los mismos datos; por ejemplo, si el municipio va a construir o no el estadio que había propuesto. Los datos por sí solos no determinan la noticia. Pero esta debe ser cierta, y ojalá también rigurosa e imparcial. Y lo que eso significa exactamente no siempre es obvio. La relación entre una noticia, los datos, la cultura y la verdad es uno de los problemas centrales del periodismo del siglo veintiuno (y ocurre lo mismo con la relación entre noticia y ciencia, un asunto muy complicado).

El proceso de cuantificación, análisis y comunicación es un ciclo. Después de comunicar un resultado podríamos darnos cuenta de que queremos hacer un análisis diferente de los mismos datos, o de datos completamente distintos. Y podríamos acabar repitiendo este proceso muchas veces antes de que se publique algo, explorando los datos y comunicándolos primero a nosotros mismos y a nuestros colegas para ver si hay una noticia allí, y para darle forma. O bien esos tres pasos podrían ocurrir para cada una de muchas historias en una larga serie, con una retroalimentación del público que dirija el curso del reportaje. Hasta que en algún punto el público comienza a actuar en base a lo que le hemos comunicado. De lo contrario, el periodismo no tendría ningún efecto.

Los datos no son algo que exista en la naturaleza, solo surgen con la cuantificación. ¿Qué es lo que se cuenta, y cómo? Existen al menos seis formas en las que el gobierno de Estados Unidos cuenta a los desempleados, por ejemplo, lo que da lugar a conjuntos de datos etiquetados desde U1 hasta U6.[1] La tasa oficial de desempleo es conocida como U3. Pero la U3 no cuenta a las personas que renunciaron a buscar un trabajo, como sí lo hace U4, o a las que tienen un trabajo de medio tiempo porque no encuentran un trabajo de jornada completa, como lo hace U6. Y esto no dice nada de cómo estos datos se tabulan realmente. Nadie anda por ahí preguntándole a cada ciudadano acerca de su estatus laboral cada mes que pasa. Los números oficiales no son conteos «brutos» sino que deben derivarse de otros datos, en un vasto y sofisticado proceso de estimación permanente basado en un muestreo aleatorio. Las cifras de desempleo, al ser estimaciones, tienen un error estadístico mucho más grande que el que generalmente suponemos, por lo que la mayoría de las notas periodísticas sobre alzas o bajas en las tasas en el corto plazo son irrelevantes (Stray, 2016).

Existe una relación compleja entre la idea que transmiten las palabras «tasa de desempleo» y el proceso que produce un conjunto particular de cifras. Normalmente todo queda entre bastidores, detrás de la gráfica. Lo mismo ocurre con cualquier otro grupo de datos. Los datos se crean. Es un registro, un documento, un objeto que chorrea significado y circunstancias. Una máquina registró un número en algún momento por algún medio, o una persona determinada en un día específico hizo un juicio acerca de que algún aspecto de este mundo era esto y no lo otro, y marcó un 0 o un 1. Incluso antes que eso, alguien tuvo que decidir que cierta información merecía ser registrada, tuvo que concebir las categorías y los significados y modos de medición, y tuvo que crear todo el aparato de producción de datos.[2]

La producción de datos es un proceso complicado que involucra a seres humanos, máquinas, ideas y la realidad. Es social, físico, y específico de un tiempo y un lugar. A todo el proceso lo llamaré «cuantificación», concepto que aquí incluye todo, desde soñar qué debe ser contabilizado hasta conectar los sensores de medición.

Si la cuantificación convierte el mundo en datos, el análisis nos revela el significado de esos datos. Aquí es donde el periodismo se apoya más fuertemente en la estadística matemática tradicional. Si ustedes encuentran que la estadística es difícil de aprender, no es su culpa. Se la ha enseñado muy mal (Cobb, 2007). Sin embargo, las ideas subyacentes son hermosas y sensatas. Sus principios fundacionales conducen a ciertas reglas que guían nuestra búsqueda de la verdad, y nosotros queremos esas reglas. Los errores aritméticos o la causalidad confusa de un reportero son difíciles de perdonar. El periodismo puede requerir un conocimiento técnico profundo y específico; no es lugar para gente que quiere evitar las matemáticas.

Supongamos que quieren saber si la tasa de desempleo se ve afectada por, digamos, la política tributaria. Pueden comparar las tasas de desempleo de países con diferente carga tributaria. La lógica aquí es sólida, pero una comparación simple sería incorrecta. Muchas cosas pueden afectar la tasa de desempleo —y de hecho lo hacen—, de modo que es difícil aislar solo el efecto de los impuestos. Aun así, es posible construir modelos estadísticos que ayudan a adivinar cuál hubiese sido la tasa de desempleo si todos los otros factores fueran los mismos en todos los países. Pero estamos hablando de mundos imaginarios, derivados de la realidad mediante la fuerza de la lógica. Es delicado, no siempre posible, y no siempre justificable aun cuando sea formalmente posible. En todo caso, tenemos cientos de años que nos sirven de guía para ayudarnos.

Los periodistas no son economistas, claro. En realidad no son especialistas en nada, máxime si todo lo que han estudiado y practicado ha sido periodismo. Ya tenemos economistas, epidemiólogos, criminólogos, meteorólogos. Sin embargo, los periodistas necesitan comprender los métodos de cualquier campo que tocan, o serán incapaces de distinguir el buen trabajo del malo. No sabrán qué análisis vale la pena repetir. Peor, no entenderán qué datos son importantes. Y, cada vez más, estarán intentando realizar sus propios análisis solo para descubrir que el conocimiento que necesitan no existe aún. Los periodistas no son científicos, pero necesitan comprender lo que la ciencia sabe acerca de la evidencia y la inferencia.

Hay pocas ecuaciones de verdad en este texto, pero la verdad es que es un texto técnico. Aunque trato de omitir los detalles formales, uso un lenguaje estadístico convencional y trato de describir fielmente los conceptos. Cada vez que vean una palabra subrayada significa que deberían buscar su significado en otra parte. Cada término técnico es una puerta a mundos enteros de conocimiento especializado. Espero brindarles una mirada de alto nivel acerca de cómo se articula la teoría estadística, para que sepan qué es lo que están intentando hacer y dónde buscar las piezas adecuadas.

Después del análisis viene la comunicación. Ello es lo que diferencia el periodismo de la erudición o la ciencia, o de cualquier campo que produce conocimiento pero no siente la compulsión de contarle al público sobre ese conocimiento de una manera comprensible. El periodismo se orienta por entero hacia el público, potencialmente millones de personas.

La comunicación depende de la cultura humana y de la cognición. Una nota periodística incluye una infografía sobre desempleo porque para comunicar es mejor eso que una tabla de números, y es así porque el ojo humano y el cerebro procesan la información visual de una determinada manera. El sistema visual está en sintonía con la orientación de las líneas, lo que permite percibir tendencias sin un esfuerzo consciente. ¡Este hecho notable es el que hace posible la visualización de los datos! Sí, y muestra que los periodistas que trabajan con datos necesitan entender la cognición cuantitativa si quieren comunicar eficazmente.

A partir de la experiencia y de experimentos se sabe mucho acerca de cómo la mente trabaja con los datos. Los números puros son difíciles de interpretar sin comparaciones, lo que lleva a toda clase de fórmulas de estandarización. La variación tiende a reducirse a estereotipos, y la incerteza tiende a ser ignorada en la medida en que buscamos patrones y simplificaciones. El riesgo es personal y subjetivo, pero existen maneras sensatas de comparar y comunicar las probabilidades.

Pero, más que estas preocupaciones técnicas, la cuestión es qué es lo que se dice de quién. Se supone que el periodismo devuelve a la sociedad una imagen de sí misma, pero ¿quién es «nosotros» en los datos? Algunas personas son excluidas de todos los conteos, y una sorprendente diversidad se sintetiza en algo que se ve uniforme. La tasa de desempleo reduce cada voz a un solo bit: ¿está usted buscando trabajo, sí o no? Un gran conjunto de datos de las redes sociales debería comunicarnos profundas verdades acerca de la sociedad en que vivimos, pero no puede decirnos nada sobre las personas que no postean, o las cosas sobre las que no postean. La omnisciencia suena fantástica, pero los datos son un mapa y no el territorio.

Y luego está el público. Lo que alguien entiende cuando mira los datos depende de lo que ya cree. Si ustedes mismos no están desempleados, tendrán que confiar en alguna imagen de «persona cesante» para darle significado a la idea de tasa de desempleo. Esa imagen puede ser positiva o negativa, puede ser justificada o falsa, pero tienen que completar la idea del desempleo con algo que le dé algún sentido a la estadística. Los datos pueden demoler o reforzar estereotipos, por lo que es importante que el periodista sea consciente de que están en juego. Por esa razón es que no es suficiente presentar los datos «con precisión». Nos tenemos que preguntar qué es lo que el receptor va a terminar creyendo sobre el mundo, y sobre las personas representadas en los datos. A menudo la mejor forma de comunicar los datos es conectándolos con historias de vida individuales, que representan lo que se dice en los datos.

Pero aún no hemos terminado. Queremos acción. Al final alguien tiene que actuar a partir de lo que ha sabido, si es que el periodismo significa algo, y la acción es una perspectiva poderosamente esclarecedora. Conocer la tasa de desempleo es interesante, pero mucho mejor es saber que es plausible que un plan específico cree puestos de trabajo. Este tipo de investigación profunda por lo general lo realizan especialistas, pero los periodistas tienen que entender lo suficiente para actuar como comunicadores y como controles independientes para verificar la información. Como profesional de los medios, un periodista tiene tanto el poder como la responsabilidad de decidir lo que vale la pena repetir y lo que no.

Los datos no pueden decirnos qué hacer, pero a veces pueden hablarnos de las consecuencias. El siglo veinte fue testigo de grandes avances en nuestra comprensión de la causalidad y la predicción. Pero la predicción es muy difícil. La mayoría de las cosas no se pueden predecir bien, por razones tan fundamentales como la falta de datos, la aleatoriedad intrínseca, el libre albedrío o el efecto mariposa. Estos son límites severos para lo que podemos saber acerca del futuro. Sin embargo, donde la predicción es posible, existe evidencia convincente de que los datos estadísticos son esenciales. Los métodos puramente cualitativos, no importa cuán sofisticados sean, simplemente no parecen ser tan exactos. Los métodos estadísticos son esenciales para el periodismo que se pregunta qué ocurrirá, qué es lo que debería hacerse, o cuál es la mejor manera de hacerlo.

Esto no quiere decir que basta con ejecutar las fórmulas y listo. Hemos visto ese sueño en el pasado, y es una ilusión. A nivel individual, el antiguo deseo de la cuantificación universal puede ser una fuente de inspiración matemática; Leibniz soñaba con un lenguaje inequívoco de «carácter universal». Tres siglos después, el fracaso del paradigma de la lógica simbólica en la inteligencia artificial finalmente mostró que es un sueño prácticamente irrealizable, aunque el ejercicio fue enormemente productivo. En el nivel de la sociedad el deseo de una cuantificación universal tampoco ha funcionado: las visiones tecnocráticas totalitarias han sido consistentemente desastrosas para la gente que debe padecerlas. Un orden social completamente cuantificado es un insulto a la libertad, y hay buenas razones para sospechar que tales sistemas siempre terminan derrotados por su propia rigidez (Scott, 1998). Las preguntas y reflexiones acerca de la acción pueden afinar y refinar el trabajo de los datos, pero la acción real —tomar una opción y actuar— requiere conocimiento práctico, sabiduría y creatividad. Valerse de la estadística en periodismo, como en todo ámbito en el fondo, siempre tendrá un componente de destrezas personales.

Todo esto está implícito en cada utilización de los datos en el periodismo. Siempre hay algo bajo la superficie de una gráfica de desempleo en las noticias, por no mencionar las deslumbrantes visualizaciones que los periodistas crean actualmente. El periodismo depende de lo que hayamos decidido cuantificar, de las técnicas usadas para interpretar esas cuantificaciones, de cómo decidimos mostrar los resultados y de qué pasa después. Y luego el mundo cambia, y volvemos a reportear para dar cuenta de esos cambios.

Cuantificación

Las herramientas de modelación matemática que usamos a la vez expanden y limitan nuestra capacidad de concebir el mundo. David Hestenes

Antes de 1970 no había hispanos viviendo en Estados Unidos. Al menos, no según el censo. Y no podía haberlos porque el formulario del censo no incluía las opciones «hispano» o «latino» ni nada parecido.

De hecho, había cerca de nueve millones de hispanos viviendo en el país en 1970 (Gratton y Guttman, 2000). De muchas maneras, la carencia de datos censales los hicieron invisibles. No podría decirse con certeza dónde vivían. Habría sido difícil saber cómo se comparaban la salud, educación y el ingreso de las familias hispanas con otras familias, mucho menos ver formas de minimizar las brechas. Imposible saber cuántas personas podrían haberse visto beneficiadas, tampoco.

La cuantificación es el proceso que crea los datos. Solo es posible medir lo que se puede concebir. Ese es el primer desafío de la cuantificación. El siguiente es medir, y saber que se hizo con precisión. Los datos solo son útiles porque representan el mundo, pero ese vínculo puede ser frágil. En algún momento, una persona o una máquina contó o midió o categorizó, y registró el resultado. Todo el proceso tiene que funcionar bien, y nuestra comprensión de cómo funciona todo exactamente debe ser correcta, o los datos no tendrán ningún significado.

A veces no es fácil de hacer. Parece bastante claro cómo contar el número de autos vendidos o la cantidad de trigo exportado, porque en estos casos «contar» da la idea de algo objetivo y definido. Pero los periodistas se interesan en muchas otras cosas en las que la relación correcta entre las palabras, los números y el mundo es bastante menos clara.

¿Son los tiroteos masivos más o menos comunes hoy que hace diez años? ¿Qué fracción de la población es hispana? ¿Cuánta gente sufre de depresión? Estas parecen preguntas que una cuantificación puede responder, pero «tiroteo masivo», «hispano» y «depresión» no son asuntos fáciles de cuantificar. ¿Quién exactamente cuenta como depresivo? ¿Y cómo se determina el números de personas deprimidas en todo el país?

La cuantificación es un problema en tierra de nadie. Los estadísticos y los informáticos no suelen destinar mucho tiempo a preguntarse de dónde surgieron los datos. De hecho, sus métodos son potentes precisamente porque son abstractos. Los físicos e ingenieros fueron los primeros en pensar seriamente acerca de la cuantificación, y han desarrollado cuidadosos procesos de medición durante siglos. Incluso en estas disciplinas duras existen muchas opciones para escoger acerca de qué es lo que se mide, pero estos campos por lo general se ocupan de cantidades que pueden ser expresadas en unidades físicas. La econometría amplió los horizontes, pero son los psicólogos y los cientistas sociales quienes han pensado más profundamente acerca de la cuantificación de las personas y las sociedades, que es el tipo de cuantificación más interesante pero también más problemático para los periodistas.[3]

Intentaré transmitir una idea de los problemas de la cuantificación con dos ejemplos: registrar la raza de una persona en una base de datos, y estimar la tasa de desempleo mensual. El primero es una parábola acerca de la dificultad de las categorías. El segundo es un recorrido a través de las hermosas ideas del muestreo aleatorio y de la cuantificación de la incerteza, tan centrales en el trabajo estadístico moderno. Pero antes de llegar allí tenemos que hablar de qué es lo que hace a algo «cuantitativo».

Las cantidades en el lenguaje cotidiano

La cantidad es una idea antigua, tan antigua que aparece en el núcleo duro de cada idioma humano. Palabras como «menos» y «todos» son evidentemente cuantitativas, y conducen a conceptos más complejos como «tendencia» y «significativo». El pensamiento cuantitativo comienza con el reconocimiento de cuándo se está hablando sobre cantidades y cuándo no. Identifica las ideas cuantitativas en esta frase del artículo «Anti-Intellectualism is Killing America», publicado en Psychology Today:

En un país donde un miembro del Congreso dice a una multitud que la evolución y el Big Bang son «mentiras que vienen directamente de la boca del infierno», donde el presidente de un comité senatorial en temas ambientales trae una bola de nieve a la cámara como evidencia de que el cambio climático es un engaño, donde casi uno de cada tres ciudadanos no sabe cómo se llama el Vicepresidente, es indiscutible que se ha abandonado el pensamiento crítico como valor cultural (Niose, 2015).

Esto es crítica cultural pura, y podríamos tomarla de muchas maneras. Podríamos leerlo como una queja, una petición, una afirmación, una provocación, una lista de ejemplos, o cualquier otro tipo de expresión. Tal vez es arte. Pero el periodismo generalmente se entiende como «no ficción», por lo que vamos a llevar esto a su valor nominal y preguntarnos si es cierto o no.

Yo veo una afirmación empírica y cuantitativa en el corazón de la frase «se ha abandonado el pensamiento crítico como valor cultural». Es empírica porque habla de algo que está pasando en el mundo, algo que tiene consecuencias observables. Y es cuantitativa porque «abandonado» habla de una comparación de la cantidad de algo en dos momentos diferentes. Algo que nunca se ha tenido no puede ser abandonado.

En al menos dos puntos en el tiempo necesitamos decidir si el pensamiento crítico es un valor cultural. Este es el momento de la cuantificación. «Abandonado» podría tener un dejo a todo o nada, pero probablemente es mucho más razonable definir tonalidades de gris basadas en el número de personas e instituciones que encarnan el valor del pensamiento crítico; o quizás tiene sentido mirar cuántos actos de pensamiento crítico están ocurriendo. Por supuesto que el pensamiento crítico no es una cosa fácil de identificar, pero si elegimos de una vez cualquier definición estamos literalmente decidiendo qué cosas «cuentan» como pensamiento crítico. El siguiente paso es definir un plan concreto para contabilizar esas cosas. Si no podemos o no vamos a hacerlo en la práctica, no hay manera de probar cuantitativamente esta afirmación contra la realidad. No es que entonces no significará nada, es solamente que su significado no podrá ser evaluado comparando las palabras con el mundo en un esquema sí/no.

De una forma u otra, poner a prueba la afirmación sobre el abandono del pensamiento crítico como valor cultural exige que computemos algo en dos momentos y busquemos una caída en las cifras. Seguramente habrá disputas sobre qué es lo que se debería contabilizar, si se hizo correctamente y cuál debe ser el umbral numérico que signifique «abandonado». Pero si se se está dispuesto a tomar algunas decisiones, se puede salir y encontrar hechos relevantes. Esto es lo que tenemos:

  • un miembro del Congreso le dice a una multitud que la evolución y el Big Bang son «mentiras que vienen directamente de la boca del infierno»
  • el presidente de un comité senatorial sobre medio ambiente lleva una bola de nieve a la Cámara como evidencia de que el cambio climático es un engaño.
  • casi uno de tres ciudadanos no sabe el nombre del Vicepresidente.

Incluso si estos fueran todos buenos ejemplos del fracaso del «pensamiento crítico», no serían prueba suficiente para la idea de que el pensamiento crítico ha sido abandonado. El problema es que el autor está tratando de decir algo acerca de un grupo muy grande de personas. Estos ejemplos necesitan ser representativos. ¿Son estos fracasos del pensamiento crítico típicos de toda la sociedad? Parece igualmente fácil pensar en contraejemplos. Sí, alguien llevó una bola de nieve al Congreso para argumentar en contra del cambio climático, pero también la Oficina de Protección Ambiental ha decidido comenzar a regular el dióxido de carbono como contaminante. Esa es una evidencia en contra de la representatividad de los ejemplos del autor, y podrían desenterrarse millones de ejemplos más de cada lado. Ahí es donde el registro de datos se pone interesante: porque es una manera sistemática de captar la totalidad de algo, que puede conducirnos a aseveraciones mucho más sólidas.

Esa es la lógica tras los consejos del historiador George Kitson Clark para hacer generalizaciones: «No trate de adivinar; trate de contar. Y si no puede contar, admita que está adivinando».

El hecho de que «uno de cada tres ciudadanos no sabe el nombre del Vicepresidente» está más cerca de la clase de evidencia que necesitamos. Esta afirmación generaliza de una forma que los ejemplos individuales no pueden hacerlo, porque hace una aseveración acerca de todos los ciudadanos estadounidenses. No importa cuántas personas yo puedo nombrar que sí conocen al Vicepresidente, porque sabemos (contando) que hay cien millones que no saben quién es. Sin embargo, esto solo aborda un punto en el tiempo. ¿Eran mejor las cosas antes? ¿Hubo algún momento en la historia en que más de dos tercios de la población podían nombrar al Vicepresidente? No lo sabemos.

En resumen, la evidencia en esta oración no es la adecuada. La palabra «abandonado» encarna conceptos cuantitativos que no están siendo manejados de forma adecuada. Necesitamos algo probado o medido o contabilizado en toda la cultura en dos momentos diferentes en el tiempo, y no lo tenemos. No es que eso implique que el texto es malo; al lector podría interesarle pensar acerca del valor del pensamiento crítico; podría ser emocionalmente resonante; podría llamar la atención sobre ejemplos importantes. Incluso podría ser persuasivo. Si es bueno o no dependerá de qué es lo queramos hacer. Pero, en términos de afirmaciones empíricas y de la evidencia proporcionada por ellas, es un argumento débil. No respeta la estructura cuantitativa del lenguaje que usa.

Muchas palabras tienen aspectos cuantitativos: «todo», «ninguno» y «algunos» son tan explícitamente cuantitativas que en matemática se conocen como cuantificadores. Las comparaciones como «más» y «menos» hablan claramente de un conteo, pero palabras más sofisticadas como «mejor» y «peor» también implican un recuento o una medición de al menos dos cosas. Hay palabras que comparan puntos en el tiempo, como «tendencia», «progreso» y «abandonado». Hay palabras que implican magnitudes, como «pocos», «gigantesco» y «escaso». Una serie de filósofos griegos, mucho antes de Jesucristo, mostraron que el significado de «si», «entonces», «y», «o» y «no» se puede captar simbólicamente como lógica proposicional. Sin duda, todas estas palabras tienen significados y resonancias mucho más allá de las matemáticas, pero pierden su sentido central si se ignora la base cuantitativa.

Aquí estamos desarticulando el lenguaje realmente, y sería interminable si uno tuviera que comprobar cada frase que lee. Además, existen otras formas de relacionarse con una nota periodística. Pero es un recordatorio que todo periodista debería tener en su caja de herramientas y traspasarlo a los lectores cuando sea de utilidad. La relación entre las palabras y los números es de una importancia fundamental en la búsqueda de la verdad. Te dice cuándo deberías estar cuantificando algo.

Cuantificar la raza

En 2004, el gobierno del estado de Florida elaboró una lista de los delincuentes que no cumplían los requisitos para votar. Lo hizo buscando correspondencias de nombres entre una base de datos de electores registrados y una de antecedentes penales. Los tribunales ordenaron que la lista se publicara y poco después el Sarasota Herald Tribune descubrió que casi no había hispanos en la lista (Davis y Doig, 2004).

Parecía imposible. Los hispanos eran más del 17% de la población pero solamente un décimo del 1% de esa lista; aparecían solo 61 hispanos entre 47.763 nombres. En ese tiempo, los electores hispanos de Florida eran en su mayoría cubanos que apoyaban al Partido Republicano. Si no estaban en la lista, podrían legítimamente votar. Hubo acusaciones de fraude motivado por razones políticas.

Una búsqueda más exhaustiva reveló que en realidad no fue una maniobra política sino un problema con los datos. En la base de los votantes del Estado, hispano es una «raza». En la base de datos de antecedentes penales, hispano es una «etnia». La misma información, concebida de dos maneras, fue registrada en dos campos diferentes en dos sistemas distintos. Con el fin de evitar falsas coincidencias basadas solo en el nombre, el gobierno había optado por parear en base a nombre, fecha de nacimiento y raza, pero no «etnia». Así, los delincuentes hispanos nunca podrían corresponder a los votantes hispanos (Waite, 2013).

¿Cuál de los esquemas es el correcto? ¿Es hispano una raza o una etnia? Esto suena como una pregunta cultural, social o incluso filosófica, pero en este contexto en realidad es una pregunta acerca del proceso de contabilización. Después de todo, estas bases de datos son objetos concretos, creados por seres humanos. En algún momento hubo una decisión sobre si cada persona era o no era hispana, y este valor fue registrado ya fuera en la columna «raza» o «etnia».

¿Cómo se asigna una categoría racial a cada persona y, o más aun, cómo se decide a qué corresponden esas categorías? Ese es un problema que el Censo de Estados Unidos resolvió, para bien o para mal, hace más de doscientos años. El Artículo I, Sección 2 de la Constitución de 1787 establece el censo y divide a las personas en tres categorías: «personas libres», «indígenas que no pagan impuestos» y «otras personas», que en realidad quería decir «esclavos». Si bien estaban alineadas con la raza, estas categorías también eran políticas porque el censo se creó para repartir los representantes y los impuestos entre todos los estados. Los indígenas no contaban ni para ser representados ni para pagar impuestos, mientras que los esclavos contaban solo como las tres quintas partes de una persona, una solución de compromiso entre los estados esclavistas y los no esclavistas que formaron el país. Parece una locura ahora, pero así es la historia, y un recordatorio de que el censo no es un conteo «objetivo» sino un proceso burocrático que genera datos para propósitos específicos. Preguntarse por qué se recopilaban los datos no responde la pregunta de cómo eran recopilados, pero a menudo es un gran indicio.

Durante el siguiente siglo fue posible contar a una persona de muchas maneras. La categoría de «persona de color libre» apareció en 1820. Nadie era interracial, de acuerdo con los datos, hasta que en 1850 el censo añadió la categoría «mulato». El censo de 1890 se amplió al origen étnico y a los matices de negro cuando se preguntaba si se era «blanco, negro, mulato, cuarterón, morisco, chino, japonés o indígena».

Desde luego que era posible ver personas de todos esos tipos por las calles en ese entonces, pero no en las estadísticas oficiales hasta estas incorporaciones. Las categorías se agregaban para describir mejor una realidad que ya podía percibirse por otros medios. Lo que no hace de las categorías una realidad. Había una enorme cantidad de personas que no encajaban en ninguna de estas categorías, como los irlandeses, que sufrieron un intenso racismo en los Estados Unidos del siglo XIX.

Pero una lista de razas no nos dice cómo se determinaba la raza de una persona en realidad. En la práctica, un agente del censo visitaba cada casa y marcaba una casilla. Durante décadas, se les decía que consideraran a alguien como negro si tenía algún grado de ascendencia negra, haciéndose eco de la «regla de una gota». A continuación puede verse cómo se suponía que debía ser considerada la raza en el censo de 1940:

2-compressor

Instrucciones para recoger información sobre raza y sexo en el censo de 1940.[4]

No queda claro cómo se suponía que los censistas determinaran una ascendencia genética que se remonta por generaciones, o cómo aplicaban esta regla en la práctica, o incluso si acaso leían las instrucciones; lo que significa que no sabemos muy bien cómo interpretar las categorías raciales de esa época. Si el método de recolección es poco claro, también lo son los datos.

Después las cosas cambiaron. A mediados del siglo XX hubo una enorme modificación en el modo de considerar la raza, pero no a causa de ideales sociales o filosóficos sino por precisión estadística. Un análisis minucioso de los datos del censo de 1940 arrojó que los datos estaban bajos en un 3,6%, lo que significaba que millones de personas no habían sido empadronadas. Se suponía que el censo era un simple conteo, pero esta subestimación masiva demostró que el conteo es cualquier cosa menos simple. Y algunas personas fueron más subestimadas que otras: en los resultados del censo faltaba un 13% de «no blancos».

Claramente hubo un sesgo racial en el proceso de empadronamiento. Pronto se descubrió que los encuestadores tenían dificultades para identificar a los indios americanos en las zonas urbanas donde se mezclaban con poblaciones en su mayoría blancas. Prueba de que mirar a alguien no siempre proporcionaba una impresión certera de su raza. Para abordar este problema el censo de 1960 usó un enfoque diferente: simplemente se les preguntó a las personas de qué raza eran.

Si la autoidentificación parece la manera obvia de determinar la raza, es porque ahora la entendemos como un entrelazamiento de la identidad, la cultura y la biología, un asunto tanto social como genético. Pero esa es una idea de fines del siglo XX. Los funcionarios del censo en los años cincuenta no la entendían de esta manera; simplemente querían un conteo más riguroso y dieron por hecho que una persona sabía de qué raza era.

Hay algo sobre la autoidentificación que parece un paso adelante en la codificación de la raza, una mejor forma de hacerla visible en el conjunto de la sociedad. Es un enfoque más digno. Pero tiene sus limitaciones, y serias. No son los datos que se necesitan si lo que se quiere es estudiar las enfermedades genéticas ligadas a la raza o cómo la gente trata a los extranjeros de diferente manera según el color de piel. Podemos pensar en la raza de muchas formas, pero los datos disponibles no tienen la obligación de coincidir con nuestras ideas. Si se quiere saber qué es lo que realmente miden lo único que importa es cómo se obtuvieron. Por consiguiente, los censos hasta 1950 contaban algo diferente de los censos desde 1960 en adelante, aun cuando ambos lo llamaban «raza». ¿De qué manera es diferente? Eso depende de la pregunta que se quiera hacer a los datos.

Mientras tanto, los hispanos habían comenzado a constituir una fracción significativa de la población estadounidense, y finalmente «hispano» apareció en los formularios del censo de 1970. Antes no decía nada acerca de cuántos hispanos vivían en el país, dónde vivían, qué ingresos tenían y ninguna de las variables que hoy se consideran de rutina.

Las cosas cambiaron nuevamente en 1977 con un nuevo conjunto de directrices del gobierno federal, la tristemente conocida Instrucción 15 de la Oficina de Administración y Presupuesto, que recomendaba dividir la raza en cuatro categorías: «indio americano o nativo de Alaska», «asiático o de las islas del Pacífico», «negro» y «blanco». Además decía que «se prefiere recoger los datos sobre raza y origen étnico por separado», y definía el origen étnico como «origen hispano» u «origen no hispano». La lógica aquí es que los hispanos pueden ser de cualquier raza, como los afrocubanos. Lo cual es genial, salvo que cerca de un tercio de todos los hispanos consideran que «hispano» es una raza, o al menos marcan «otra raza» en sus formularios censales y escriben «hispano» o «mexicano» o «latino» (López y Krogstad, 2014).

Así es como la base de datos de antecedentes penales de Florida llegó a codificar a los hispanos de manera diferente de la base de datos de los votantes registrados en el estado. La lista de los delincuentes codificó la raza según los estándares federales, de modo que la raza solo podía ser blanco, negro, asiático, indio americano o desconocido. Lo hispano fue codificado como un origen étnico, en un campo diferente. Mientras tanto, el registro electoral codificó hispano como una raza. Una simple comparación del campo «raza» fracasó, porque la raza no es algo simple de cuantificar.

Si el sistema federal de categorización racial parece un poco arbitrario, es porque efectivamente lo es. Hasta sus creadores sabían que no debía tomarse demasiado en serio cuando escribieron: «Estas clasificaciones no deben interpretarse como auténticamente científicas o antropológicas».[5] No obstante, todos los datos sobre raza del gobierno federal incluyen estas cuatro categorías principales hasta hoy. Pero muchos organismos además recogen información más detallada sobre subcategorías raciales. Desde hace tiempo el censo incluye una lista creciente de razas asiáticas, y desde 1910 ha sido posible anotar cualquier raza que se quiera. El último cambio importante en la materia vino el año 2000. Ahora se permite marcar varias razas en el formulario, además de varias opciones posibles para la etnia hispana. El formulario de 2010 lucía así:

3

En el censo de 2010, el 2,9% de la población se identificó con dos o más razas. Esto significa que nueve millones de personas están expresando un tipo de identidad racial que era invisible antes de que decidiéramos cuantificarlo.

El problema de qué información recoger

La cuantificación siempre supone considerar opciones complejas, incluso en las ciencias duras. Si bien la fricción es una fuerza básica de la física clásica, se trata de microinteracciones entre superficies que no comprendemos exactamente cómo funcionan. Un texto de física del colegio te dirá que por lo general la describimos con dos cifras: el coeficiente de fricción estática, que es cuánto tenemos que empujar para comenzar a deslizarnos, y el coeficiente de fricción cinética, que es cuánto tenemos que empujar para mantenernos deslizando. Pero mediciones más sofisticadas muestran que la fricción es en realidad una fuerza bastante más compleja: también depende de la velocidad, e incluso de cuán rápido nos deslizábamos antes (Wojewoda y otros, 2008). Si trabajas con fricción debes escoger cómo cuantificarla.

La raza es aun más difícil de cuantificar, así como muchos aspectos del ámbito social. Es muy fácil olvidar esta complejidad cuando estás mirando las filas y columnas ordenadas de datos. Hace algunos años trabajé en una nota sobre violencia con armas de fuego. En ese momento había una gran polémica pública por los incidentes de «tiroteos masivos», y sobre si iban o no en aumento. Pero, ¿qué es un «tiroteo masivo»? Pareciera que un simple homicidio no cuenta, así que ¿cuánta gente debe ser ejecutada de una sola vez para ser «masivo»? Es necesario responder esta pregunta antes de poder responder si tales incidentes son más o menos comunes que antes. Finalmente opté por cuatro personas como el umbral mínimo para un tiroteo masivo, porque ese era el número de referencia en los datos que yo tenía, sus creadores escogieron cuatro porque así es como el FBI cuenta los «asesinatos colectivos», aunque no son exactamente lo mismo que «tiroteos masivos». En respuesta al interés por estos eventos el FBI liberó después su propio conjunto de datos sobre incidentes con «tiradores activos», los que definió como «individuos que participan activamente en matar o atentar contra la vida de las personas en áreas pobladas (excluyendo tiroteos relacionados con violencia derivada de las pandillas y la droga)».

Todo esto es algo arbitrario, y aquí no existe la respuesta «correcta». Lo que debe considerarse depende de qué es lo que importa, es decir, de la historia que se intenta contar. Y después de mirar los datos puede pasar que quieras considerar otra cosa. La historia inicial puede resultar poco interesante, arbitraria o simplemente mala.

Se pone aun más complicado. Imagina que haces el seguimiento de la prevalencia de enfermedades mentales como «depresión» o «trastorno límite de personalidad (borderline)», que son los nombres cortos para ideas que están en desarrollo sobre ciertas enfermedades. Los complejos criterios de diagnóstico para estas condiciones, que solían estar impresos en gruesos manuales, definen un proceso de cuantificación. O piensa en el policía que debe registrar si un determinado incidente es «acoso sexual» o no. Es fácil imaginar que no todos los policías tendrán la misma idea de qué es lo que significa acoso sexual, y eso puede derivar en datos extremadamente difíciles de interpretar, y para qué decir arbitrarios. Pequeñas diferencias en la técnica de la cuantificación pueden transformarse en el foco de profundos debates, y de hecho lo hacen.

Aun así, encontramos alguna manera de contar y medir y categorizar. Un proceso de cuantificación formaliza este acto e intenta aplicarlo de manera consistente en muchas situaciones. Esa es la esencia de las unidades estándar como los metros y kilogramos. Pero, lo siento, muchos elementos vitales no tienen medidas estándar. ¿Cómo cuantificamos conceptos abstractos como «rendimiento escolar» o «calidad de vida» o «inteligencia»? En la práctica, terminamos sustituyéndolos por representaciones mucho más simples. Tenemos «puntajes de prueba» en vez de «rendimiento escolar», e «ingresos» en vez de «calidad de vida», mientras que la «inteligencia» todavía hoy se mide con una batería de pruebas que evalúan muchas y diferentes habilidades cognitivas. En ciencia experimental esto se llama «operacionalizar una variable», un nombre sofisticado para decir que se escoge una definición que es tanto analíticamente útil como suficientemente práctica para producir datos.

Si quieren preguntar algo que solo los métodos cuantitativos pueden responder, casi no tienen más alternativa que hacer este cambio desde un concepto complejo a una medición replicable. Pero la cuantificación también puede forzarnos a ser claros. Tratar de contar bien podría llevarnos a descubrir que hemos estado usando ciertas palabras un montón de tiempo sin entender realmente lo que significan; ¿realmente sabemos qué significa «inteligencia»? Finalmente una cuantificación de algo puede convertirse en la definición de ese algo, como lo hizo en su momento el test de coeficiente intelectual (CI). Podría ser una mejora que aclarara las cosas, o bien una percepción reduccionista, o ambas. En cualquier caso, es una opción que debe ser tomada conscientemente.

Por lo general hay un objetivo, un propósito para el levantamiento de los datos, y se pueden preguntar si cualquier método de cuantificación sirve a tal propósito en particular. Los diferentes métodos de cuantificación sirven para diferentes historias.

Muestreo y error de cuantificación

Es recomendable observar con escepticismo cualquier titular que diga que el número de puestos de trabajo en Estados Unidos ha variado en menos de 105.000 desde el mes pasado, porque la estimación de crecimiento mensual del empleo tiene un margen de error cercano a 105.000.[6]

El New York Times lo explicó con una gráfica interactiva donde se muestra cómo la incerteza en las cifras de empleo puede inducirnos a un error grave.

4The New York Times, 2014 (Irwin y Quealy, 2014).

Aquí, el crecimiento del empleo es consistente en 150.000 nuevos puestos de trabajo cada mes, pero las cifras entregadas muestran una tendencia al alza solo por casualidad. La tasa de desempleo calculada por la Oficina de Estadísticas del Trabajo incluye una buena cantidad de error debido al muestreo aleatorio, hasta 105.000 puestos por arriba o por debajo del valor real. Al pulsar play se animaba el gráfico de la derecha y pasaba por infinitos escenarios posibles con el mismo rango de error. Si esperabas un minuto podrías ver casos con la tendencia que quisieras. Por estos estos errores aleatorios las variaciones mensuales suelen tener menor significación de la que pensamos. Las tendencias de largo plazo son mucho más confiables.

Las encuestas políticas también tienen un error inherente. Si un candidato va delante de otro por 47% contra 45%, pero el margen de error es 5%, existe una buena probabilidad de que otra encuesta idéntica muestre a los candidatos en posiciones opuestas. Prácticamente cualquier tipo de sondeo de opinión pública tendrá un error intrínseco, y por eso una fuente respetable informará el margen de error junto con los resultados. El error de una medición es necesario para entender qué significa esa medición.

Tal vez hayan visto fórmulas para calcular el margen de error para una muestra aleatoria, pero en vez de repetir esas ecuaciones quisiera explicar por qué usamos muestras aleatorias y cómo estas conducen al error de cuantificación. Expresar cuánto error hay puede parecer obvio ahora, pero fue una innovación clave en la historia de la estadística. Hay una muestra aleatoria en el Antiguo Testamento: «El resto del pueblo echó a suertes de manera que uno de cada diez fuera a vivir a Jerusalén» (Nehemías, 11:1.). No debe haber pasado mucho tiempo antes de que alguien pensara en que cada uno de los elegidos contara por diez; pero trascurrieron milenios antes de que nadie fuera capaz de estimar la precisión de este proceso.

El muestreo es básicamente un recurso para ahorrar mano de obra. Las cifras de desempleo se publican mensualmente, pero nadie va a tocar tu puerta doce veces al año para preguntarte si tiene trabajo o no. La tasa de desempleo se calcula a partir de las respuestas a dos encuestas: la Current Establishment Survey, que muestrea los negocios, y la Current Population Survey, que muestrea los hogares. Las personas elegidas aleatoriamente cada mes son 150.000 (en realidad, 60.000 hogares), y a cada una se le asigna una de tres categorías: «empleado», «desempleado» o «no pertenece a la fuerza laboral».[7] La fracción de personas «desempleadas» entre los encuestados representa entonces la fracción de desempleados en todo el país.

Si esto no te parece que sea audaz, probablemente nunca has pensado en lo que una encuesta afirma ser capaz de hacer. Extrapolar de 150.000 personas a 300 millones de personas significa recoger información de una persona por cada dos mil, la que habla entonces por las otras 1.999. Es como preguntarle solo a una persona en cada barrio si tiene trabajo o no.

La clave para que esto funcione es la aleatoriedad, porque hace extremadamente improbable la sobrerrepresentación de un grupo por sobre los demás. En rigor es posible que todas las personas que respondan una encuesta telefónica aleatoria puedan estar desempleadas, por casualidad, lo que daría una mala estimación, pero eso ocurre muy rara vez, casi nunca en la práctica, y además, ¿de qué otra manera seleccionamos a la gente? Podríamos hacerlo por números de teléfono consecutivos, pero así solo obtendríamos respuestas de un área determinada. O podríamos hacerlo a través de nuestras propias listas de contactos, pero eso parece aun menos representativo. El azar no está sujeto al sesgo de la selección, precisamente porque no tiene relación con ninguna otra cosa. Es más, aunque cualquier muestreo nos va a entregar una estimación que está errada en alguna fracción, el valor más común será el valor verdadero. Además, es el azar lo que nos permite deducir cuál es el error. En lugar de deducirlo de una sola encuesta, lo que desconocemos, podemos deducirlo del proceso de muestreo a lo largo de muchas encuestas diferentes. Es como decir que no podemos saber cuál será el próximo número del dado antes de lanzarlo, pero existe una probabilidad de uno en seis de que sea un cinco.

Simplifiquemos el problema e imaginemos que hay solo 50 personas en todo el país, y ustedes han calculado la tasa de desempleo encuestando a 5. Podrían haber llegado a muchos conjuntos de cinco personas en su muestreo, pero finalmente el número de posibilidades es finito. Aquí hay algunos de ellos y las diferentes estimaciones de la tasa de desempleo que cada uno le entregaría:

5

Imaginen un dibujo de cada posible conjunto de nombres de las 50 personas. Al final tendrán «50 entre 5» diferentes patrones de muestras, número que normalmente se escribe así:

6

Se puede obtener un número real para esto usando la función «choose» o «combinatoria» de una calculadora científica o del lenguaje de programación, y es 2.118.760, o sea más de dos millones. Existen muchísimas maneras de escoger al azar 5 cosas de un universo de 50 posibles, y un número inmensamente mayor de formas de escoger 150.000 personas de un total de 300 millones, pero aun así podemos contar con fórmulas sencillas.

Podemos agrupar todos estos patrones de muestreo en seis montones, de acuerdo con el número de personas que en cada muestra se presentaba como desempleada, de cero a cinco. Esto agrupa nuestras respuestas en tasas de desempleo de 0/5, 1/5, 2/5, 3/5, 4/5 y 5/5, que es lo mismo que 0%, 20%, 40%, 60%, 80% y 100%. Debido a que cada posible muestra —cada conjunto de 5 nombres— es igualmente probable, el tamaño de cada montón te dice tus posibilidades de conseguir una estimación final con ese número de personas desempleadas. Esta es la idea clave que nos permitirá cuantificar la frecuencia con la que esperamos que nuestra estimación del desempleo sea incorrecta, y por cuánto.

En realidad no se necesitan pilas de dibujos para calcular el error de una estimación del desempleo, porque podemos calcular directamente el número de muestras de cada tipo. Por ejemplo, podemos calcular cuántas muestras incluyen exactamente una persona sin trabajo. Aquí hay 50 personas, 20 de las cuales no tienen trabajo. La cantidad de formas de elegir a 5 personas entre 50 de modo que exactamente una esté desempleada es igual al número de formas de escoger un desempleado entre 20, multiplicado por el número de formas de escoger cuatro desempleados entre 30. Esto se escribe, usando la notación estándar para «combinatoria»:

7

Algunos reconocerán una similitud con la función de distribución binomial B(50,0.4), la fórmula desarrollada por Bernoulli en algún momento de la década de 1680.[8]

Esta fórmula hace posible computar el número de maneras de obtener una muestra con cualquier número determinado de personas desempleadas. Dividiendo el número de posibles muestras para cada nivel de desempleo por el total de los 2.118.760 de casos posibles nos da la probabilidad de ver cada posible estimación de desempleo.

Estimación de desempleoNúmero de muestrasProbabilidad de obtener esta respuesta
0 %142.5060,07
20 %548.1000,26
40 %771.4000,36
60 %495.9000,23
80 %145.3500.07
100 %15.5040,01

Para que esto sea más fácil de visualizar podemos trazar las cifras del siguiente modo:

8-compressor

Este gráfico muestra una distribución de muestras, lo que significa que podríamos esperar ver cada respuesta en estas proporciones si repetimos el proceso de muestreo aleatorio muchas veces. Como habíamos esperado, las respuestas más cercanas a la verdad ocurren con mayor frecuencia que aquellas que se alejan, y la respuesta más común es la correcta. Existe una probabilidad de 0,36, o del 36%, de que terminemos con exactamente la respuesta correcta a partir de nuestra pequeña encuesta.

Esta distribución nos dice todo lo que podemos saber acerca del posible error en el valor de nuestra muestra. Pero a menudo vamos a querer un resumen más comprensible, y una manera de resumir una distribución del error es decir con qué frecuencia vamos a llegar a una cierta distancia de la respuesta correcta. Digamos que queremos saber la frecuencia con la que podemos esperar obtener ya sea la verdadera respuesta de 40%, o las respuestas incorrectas más cercanas del 20% y 60%. Esto requiere que se sumen las probabilidades de obtener 20%, 40% o 60%, lo que corresponde a ver una, dos o tres personas desempleadas en nuestra muestra. Hay una probabilidad de 0,26 + 0,36 + 0,23 = 0,85 de que veremos cualquiera de estas tres respuestas.

Entre las 2.118.760 muestras diferentes de 5 personas que podríamos sacar de una población de 50 en total, nos encontramos con que 1.815.400, el 85%, contienen una, dos o tres personas sin trabajo. Dicho de otra manera, el 85% de todas las muestras contiene entre 20% y 60% de desempleados.[9] Esto se conoce como un intervalo de confianza del 85%. Debido a que este intervalo cubre un rango de 40%, y nuestra mejor estimación está justo en el medio, se dice que la estimación tiene un margen de error del 20%. El margen de error es siempre la mitad del valor del rango que cubre el intervalo de confianza.

9-compressor

Necesitamos dar un paso más. Hasta ahora hemos estado hablando de las posibles muestras que podríamos conseguir para una tasa real de desempleo del 40% y de la frecuencia con que vamos a terminar con cada número estimado. Pero en la realidad ¡nunca llegamos a conocer la verdadera tasa de desempleo! Solo tendremos una muestra, y esto nos da una única estimación sujeta a errores. Entonces, en lugar de preguntarnos con qué frecuencia la estimación está dentro del margen de error del valor real, la pregunta que realmente debemos hacernos es con qué frecuencia el valor real se encontrará dentro del margen de error de la estimación.

Para ello partimos con la tasa de desempleo estimada, es decir, la tasa de desempleo en la muestra real que tenemos. Suponemos que esta es la tasa real y construimos un margen de error usando el proceso descrito. Si la estimación está dentro del 20% del valor real, entonces se deduce que el verdadero valor está dentro del 20% de la estimación. Esto no es perfectamente exacto, porque el margen de error varía en amplitud dependiendo del valor real, así que el margen de error estimado no será del todo correcto si la estimación no es muy buena. Se pueden trabajar fórmulas más precisas pero este simple método de sustituir la estimación por el valor real, muy usado en la práctica, nos da una aproximación cercana para tamaños de encuestas prácticos.

Y eso es todo. Hemos calculado el margen de error en nuestra estimación del desempleo. Existen muchas maneras de expresar nuestro resultado, pero todas tienen el mismo significado:

  • El intervalo de confianza del 85% es entre 20% y 60%.
  • 17 veces de 20, la respuesta es un 40% con un margen de error del 20%.
  • Tenemos una certeza del 85% de que la respuesta correcta está entre el 20% y el 60%.
  • La respuesta es 40% ± 20% a un 85% de confianza.

Nótese que siempre usamos dos valores para medir la incerteza: un margen de error y la probabilidad de que la respuesta correcta caiga dentro de ese margen de error.[10] El rango de valores más o menos el margen de error, en este caso el 20% al 60%, es lo que se llama el intervalo de confianza del 85%. La cifra del 85% en sí misma se llama el nivel de confianza. Cualquiera sea el lenguaje que usemos, hemos cuantificado el error en nuestra encuesta en dos valores: un rango de error y la frecuencia con que podemos ver algo específico dentro de ese rango.

10-compressor

Si 40% ± 20% a un nivel de confianza del 85% es una respuesta lo suficientemente precisa, nos habremos ahorrado trabajo en un factor de 10 al encuestar a solo 5 personas de una muestra de 50. Si no lo es, podemos encuestar a más personas. Para comparar las distribuciones de error de diferentes números de muestras, es útil mantener el nivel de confianza constante. La Oficina de Estadísticas Laborales de Estados Unidos informa el margen de error en las cifras de desempleo en el nivel del 90%, por lo que también lo haremos así. Asimismo, haremos los cálculos como si estuviéramos tomando una muestra de la población de un país real, que es mucho mayor que 50 personas.

La precisión mejora a medida que se encuesta a más personas. Mientras mayor es la muestra —llegamos a 100 en la última imagen de la gráfica anterior—, el margen de error se hace más estrecho (para un nivel de confianza específico) y la distribución de las posibles respuestas rápidamente se acerca a la clásica curva en forma de campana, la distribución normal. Es más, en muestras grandes el error intrínseco depende principalmente del tamaño de la muestra, no del tamaño de la población. Esto significa que la estimación de las opiniones de cien millones de personas apenas lleva más trabajo que la estimación de las opiniones de un millón. En el momento en que la encuesta suma mil personas el margen de error baja a 3 puntos porcentuales al 90% de nivel de confianza.

Así es como conocemos el error en nuestras estimaciones mensuales de desempleo. La Encuesta de Población Actual toma una muestra de 150 mil personas de la población total de 300 millones. La Oficina de Estadísticas Laborales ha hecho los cálculos y ha determinado que el 90% de las veces se llegará a una tasa que no excederá los 300 mil desempleados de la verdadera tasa de desempleo, lo que corresponde a una diferencia de 0,2% en la tasa de desempleo nacional.[11] Los 300.000 es el margen de error y el 90% es el nivel de confianza.

Si un intervalo de confianza del 90% suena como que hay una probabilidad del 10% de desastre, podemos compensar entre el error estimado y el riesgo de caer fuera de ese error: es igualmente cierto decir que el 99% de las veces las cifras de desempleo tendrán una precisión de hasta ± 0,3 puntos porcentuales. Esto es lo mismo informado de manera diferente; solo estamos ampliando la línea roja en los gráficos anteriores hasta cubrir el 99% de los posibles resultados.

Aquí hay una intrincada ventaja que es de alto impacto: a cambio de un poco de imprecisión (el margen de error) y un poco de riesgo (el nivel de confianza) hemos reducido en dos mil veces el trabajo necesario para calcular la tasa de desempleo. Esto sigue sorprendiéndome. Es hermoso y no es evidente y le tomó milenios a la humanidad darse cuenta.

El problema del error de medición

En la práctica, nada se puede medir a la perfección. Una muestra aleatoria tiene un margen de error derivado del muestreo, pero toda cuantificación conlleva un error por una razón u otra. El largo de una mesa no se puede medir de manera más fina que las marcas de la huincha de medir que se use, y la misma huincha de medir fue fabricada con una precisión finita. Todo sensor físico hace ruido, tiene una resolución limitada, problemas de calibración y otras incontables variaciones. Los seres humanos nunca son completamente consistentes en sus categorizaciones, y el mundo está lleno de casos especiales. Nunca he visto una base de datos que no tenga una cierta cantidad de entradas alteradas, o faltantes o simplemente sin sentido, que eran el resultado de fallas en los cada vez más complejos flujos de trabajo en la generación de los datos. El error se arrastra, y los datos nunca coinciden exactamente con la descripción en el casillero. Cualquiera que trabaje con datos se ha tenido que meter esto en la cabeza.

Incluso los recuentos simples colapsan cuando tienes que contar muchas cosas. Todos hemos tenido la sensación de que las grandes cifras de población son de alguna manera ficticias. ¿Existen realmente 536.348 personas en tu ciudad de origen, como dice el letrero «Bienvenido a… »? Si el letrero dice 540.000 sabremos tratarla como una cifra aproximada; sin embargo, con demasiada frecuencia estamos dispuestos a imaginar que hasta el último dígito es preciso.

Hay dificultades análogas con el conteo de personas en una protesta, el número de drogadictos en la ciudad o el de estrellas en la galaxia. Incluso contar la cantidad de nombres distintos en una gran base de datos puede requerir complejos algoritmos de estimación, dadas las limitaciones del almacenamiento repartido y de la memoria finita (Durand y Flajolet, 2003). Las grandes cuantificaciones son por lo general estimaciones y difieren del valor verdadero en una pequeña cantidad.

Pero obtenemos un beneficio enorme si podemos decir algo acerca de la exactitud de nuestros datos. Nuestra respuesta a la pregunta «¿qué tan larga es la mesa?» podría ser «52 pulgadas, a la octava más cercana de una pulgada».

Los datos confiables incluyen la medición del error, es decir cuánto se espera que la información reportada difiera de la realidad que representa. Existen muchas maneras estándar de reportar la exactitud de diferentes tipos de datos. Las cifras podrían ser «precisas al cuarto de libra más próximo» o usar notaciones más técnicas como ± e ideas como error estándar o intervalo de confianza. Para una gran base de datos podríamos informar o estimar el número de entradas incorrectas. El censo moderno tiene una segunda fase para estimar la cobertura y por consiguiente el error. En muchos campos se considera que el trabajo es de mala calidad si se informa una cifra sin entregar alguna idea sobre su precisión. Tal vez debiéramos decir lo mismo sobre el periodismo.

La idea del error de medición es la idea de la incerteza cuantificada, y se trata de uno de los grandes logros del pensamiento moderno porque saber cuánto es lo que no sabemos tiene un gran valor. No todos los datos vienen con los errores de medición adjuntos, a veces es necesario leer la letra chica para saberlo, o llamar a alguien y preguntar. Pero si no sabes y no puedes deducir de manera razonable las fuentes y las magnitudes del error posible, entonces no sabes realmente lo que significan esos datos.

Cuantificación es representación

El mundo es muy rico y complejo. ¿No se pierde algo vital al intentar reducirlo a datos? Por supuesto que sí. Toda cuantificación pierde algo de información. Tiene que hacerlo. Ese es el sentido de la abstracción: descartar los suficientes detalles para que sea posible usar herramientas de deducción poderosas para fines generales. La mayoría de las características de tres manzanas reales se dejan a un lado cuando se pasa a «tres manzanas» registradas en una base de datos. No sabemos nada acerca del color y el tamaño de las manzanas, o de por qué están allí, y quizás una de ellas está medio podrida. Si escogemos «manzana» como nuestra única unidad de representación simbólica, cerramos los ojos a todo lo demás.

Pero en el periodismo todo el tiempo desechamos información cuando seleccionamos con quién hablamos, qué incluimos o excluimos de una noticia, y qué es lo que al final escogemos para contar. La cuantificación representa el mundo a través de la creación sistemática de datos, una forma limitada pero potente de reunir y resumir la información.

Afortunadamente, la cuantificación no es misteriosa ni arreglada por naturaleza. Siempre es un proceso diseñado. Si existe alguna forma razonable de cuantificar lo que nos importa, un maravilloso universo de técnicas de análisis, representación y predicción se abre ante nuestros ojos. Contabilizar es un proceso que tiene sus límites, pero hay muchas cosas que se pueden conocer mejor si se las cuenta.

ANÁLISIS

Es perfectamente posible que varias explicaciones se mantengan, en cuyo caso uno intenta probando y probando hasta que una u otra reúne una cantidad convincente de apoyo. Sherlock Holmes

Se ha dicho que los datos hablan por sí solos. Eso no tiene sentido.

Es verdad que ir y observar por lo general es mejor que sentarse y pensar. Esa es la idea central del empirismo y el sentido que tiene la recolección de datos. Y es verdad que los datos pueden ser reveladores y profundos. A veces miramos un gráfico y decimos ¡ajá! y sentimos que entendemos el mundo un poquito mejor. En ese momento tienes la sensación de que los datos están hablando, que cuentan una historia clara. Pero los datos no cuentan ninguna historia, eres tú el que lo hace. Tú el que encontraste un tema que conecta los datos con el mundo. ¿Tienes razón o no? Idealmente, tu noticia ha sido cuidadosamente corroborada por muchas fuentes. Pero si se van a usar datos como pruebas, es necesario entender qué dicen y qué no.

Este capítulo trata de cómo extraer de los datos su verdadero significado. Hay reglas matemáticas que dicen que dos más dos nunca son cinco. Hay fórmulas que encapsulan la lógica de trabajar con causas y probabilidades. Hay principios básicos de la investigación, como probar las suposiciones. Y hay limitaciones fundamentales al conocimiento, los casos en que debemos admitir que no podemos saber las respuestas, al menos no con los datos que contamos. Esto no significa que haya una sola respuesta correcta en cada caso. Todo análisis de datos es en realidad una interpretación de datos, y depende de una combinación de los datos con algo más, como hechos sabidos o conocimientos culturales. Los datos, por sí mismos, no tienen ningún significado. Imagina una hoja de cálculo que no tenga nombres en las columnas. Serían solo números, indescifrables e inútiles.

11

El necesario contexto puede entrar en escena de muchas maneras. Los datos no se pueden entender sin saber algo del proceso de cuantificación que los arrojó. El trabajo estadístico por lo general requiere de supuestos ligados al saber común: el consumo total de repollo crespo no puede ser más que una pequeña fracción del consumo total de alimentos, por ejemplo, y las tasas de cáncer más bajas siempre son mejores. Pero la cultura y el individuo –en este caso el periodista– también son parte del contexto que crea los significados. Cada sociedad tiene preocupaciones particulares que dan forma a lo que es de interés periodístico, mientras que cada periodista en particular tienen pálpitos e intereses específicos. De hecho, el contexto viene antes que los datos; nos dice cuáles son relevantes, e incluso qué temas son relevantes.

El contexto es donde entra la subjetividad en la interpretación de datos. El New York Times lo ilustró con dos interpretaciones diferentes de los mismos datos sobre el desempleo, al describir cómo un demócrata y un republicano podrían ver las cosas.

12-compressor

13-compressor

Diferentes formas en que demócratas (azul) y republicanos (rojo) podrían interpretar los mismos datos sobre la tasa de desempleo (Bostock y otros, 2012).

Pero no solo los políticos tienen diferentes perspectivas. Los periodistas pueden discordar en la interpretación de un simple número, y de hecho lo hacen.

sin-titulo-compressor

Titulares del 22 de octubre de 2013 (Fallows, 2013).

Ambos titulares son correctos. La diferencia depende de si 148.000 amerita o no un «solamente». ¿Es un número grande o pequeño? También podría ser una cuestión de expectativas: tal vez The Wall Street Journal esperaba ver un incremento mayor. Esta subjetividad puede parecer desalentadora. En ciencias, la «subjetividad» a veces se usa como un insulto. Las cosas subjetivas son personales, dependen de quién habla, tal vez es un asunto de gustos. ¿No se suponía que los datos son objetivos? ¿No se suponía que evitan la arbitrariedad de la opinión y nos acercan a la verdad?

La interpretación de los datos puede no ser lógica matemática, pero tampoco es nihilista. Nuestras interpretaciones deben ser fieles a la realidad. En el mundo real una política pública modificó los índices de delincuencia, sí o no. La brecha salarial es un número específico y no otro. Minuciosas mediciones muestran que el cambio climático se debe a la actividad humana a través de mecanismos específicos, o no. Todas son afirmaciones cuantitativas que suponen opciones de cuantificación, a veces opciones controvertidas. Pero una vez que eliges un método para contar, la realidad te hará llegar a un número en particular, y, desde luego, ese es el objetivo. Al igual que los científicos, el periodista no puede inventar los datos, ni ignorar las pruebas o condonar los errores lógicos. Igualmente importante es saber que no se sabe, cuando no se puede responder una pregunta a partir de los datos disponibles.

Sin embargo, las limitaciones de la verdad dejan un margen muy amplio para la interpretación. Se pueden escribir muchas historias a partir del mismo conjunto de hechos, o se puede decidir que hechos completamente diferentes son relevantes. La subjetividad está en el corazón del periodismo, porque no existe ninguna teoría objetiva que nos diga cuáles historias reales son las mejores. Ahora, «subjetivo» no significa necesariamente «personal». Compartimos una cultura, la gente no vive aislada sino en redes, y el periodismo requiere una amplia dosis de conocimiento de la sociedad. En especial, los periodistas necesitan comprender el conocimiento común y los valores del público, aunque solo sea para desafiarlos. Por supuesto que ese público nunca es uniforme y habrá diferentes preocupaciones, experiencias y perspectivas. Cada vez que se pregunten «¿cuál es la historia aquí?» estarán incorporando al público a su trabajo.

Encontrar una historia que contar en los datos será siempre un acto de creación cultural. ¡Pero tienen que ser ciertas! Así que el resto de este capítulo es una introducción a tres grandes ideas que pueden ayudar a extraer la verdad de los datos. La primera es el efecto del azar, la aleatoriedad o el ruido, que puede ocultar la relación real entre las variables o crear la apariencia de una conexión donde esta no existe. La segunda es la naturaleza de la causa y las situaciones en que podemos o no atribuir causalidad a partir de los datos. Y la tercera y principal es considerar que siempre puede haber múltiples explicaciones para los mismos datos, en lugar de limitarse a aceptar la primera explicación que tenga sentido.

Mi objetivo es presentar bien la lógica del proceso de análisis estadístico en su conjunto. Para cualquier problema en particular se necesitarán herramientas técnicas específicas, pero las opciones se deben guiar por un marco de referencia más vasto.

¿Funcionó la norma?

En 2008, la ciudad de Newcastle en el estado australiano de Nueva Gales del Sur estaba abrumada con la cantidad de agresiones cometidas por personas en estado de ebriedad. Los tribunales estatales impusieron una hora de cierre más temprana para los bares en el distrito financiero: cero alcohol después de las tres de la mañana. Dieciocho meses después, te piden escribir una nota acerca de si este cambio en la norma funcionó o no. Aquí están los datos:

15-compressor

Cantidad de agresiones nocturnas registradas por la policía en cada cuadrante del distrito financiero de Newcastle, Nueva Gales del Sur, donde la hora de cierre se restringió a las 3 am (elaborado a partir de Kypri y otros, 2010).

Nuestras primeras preguntas tienen que ser sobre la fuente de los datos, el proceso de cuantificación. ¿Quién registró esto y cómo? Desde luego, la policía sabía que se estaba probando un nuevo horario de cierre; ¿tuvo esto alguna influencia para que registrara los incidentes de manera diferente? Incluso una reducción real de las agresiones no significa que sea una política correcta; tal vez había otra forma de reducir la violencia sin acortar las veladas, o tal vez había una forma de reducir mucho más la violencia.

El primer paso en el análisis de datos es ver el marco de referencia: las suposiciones acerca de cómo se recogieron los datos y qué significan.

Pero vamos a suponer que todas estas preguntas ya se formularon y estamos abocados a la cuestión de si la nueva norma provocó una caída de las agresiones. En principio, hay una respuesta correcta. Afuera, en el mundo real, el horario de cierre más temprano tuvo algún efecto en el número de agresiones nocturnas, algo entre «nada en absoluto» y tal vez «se redujeron a la mitad». Nuestra tarea es estimar cuantitativamente este efecto con la mayor precisión posible (y no mayor precisión que esa).

Los datos que tenemos son muy claros. Tenemos algo así como siete años de datos trimestrales sobre el número de agresiones en el distrito financiero antes de que la nueva hora de cierre entrara en vigor, y dieciocho meses después de esa fecha. Después del cambio de política, el promedio de incidentes es bastante menor, una caída desde algo así como unas 100 agresiones por trimestre a unas 60 por trimestre. De manera que la norma sí parece haber funcionado. Pero vamos a explicar al detalle la lógica de lo que estamos diciendo aquí. Si no somos capaces de expresar la base de nuestro análisis en un lenguaje sencillo, no técnico, probablemente no estamos entendiendo lo que hacemos. Nuestro argumento es el siguiente:

  1. El rango del número de incidentes disminuyó a principios de 2008.
  2. El horario de cierre más temprano entró en vigor en la misma época.
  3. Por lo tanto, el horario de cierre más temprano causó que disminuyera el número de incidentes.

¿Estamos en lo correcto? No necesariamente: no sabemos si el horario de cierre más temprano fue la causa de la caída en las agresiones. La evidencia que tenemos es circunstancial, y cualquier otro relato que pudiéramos armar para explicar los datos podría resultar ser el verdadero. Ese es el mensaje central de este capítulo, y la habilidad clave para tener la razón: considerar otras explicaciones.

Existen otras explicaciones comunes que siempre vale la pena considerar.

Primero, el azar. La pura suerte podría estar engañándonos. El número real de agresiones en el trimestre lo determinan factores circunstanciales que no podemos esperar conocer. ¿Quién puede decir por qué alguien dio un puñetazo? Y tenemos solamente seis momentos en los que se recolectó la información desde que comenzó la nueva norma; ¿podríamos estar viendo solo el número de la suerte en el dado?

Segundo, la correlación. La disminución podría incluso estar relacionada con el nuevo horario de cierre, sin que este sea la causa. Tal vez la policía intensificó las patrullas para hacer cumplir la nueva ley, y es esta mayor presencia policial la que está reduciendo las agresiones, no el nuevo horario de cierre en sí mismo.

Tercero, todo lo demás. La causa pudo ser algo que nunca nos ha ocurrido. Quizás hubo un cambio en otro tipo de política que tuvo un efecto en la vida nocturna. Quizás la delincuencia estaba cayendo en todo el país al mismo tiempo.

Así que vamos a hacer frente a estas tesis de una en una. Para llegar allí, necesitamos dar una vuelta por algunas de las ideas fundamentales del análisis estadístico.

Tener en cuenta el azar

Es muy tentador interpretar algo como significativo cuando podría ser fácilmente una coincidencia, en especial cuando de esa coincidencia puede salir una buena historia, pero siempre hay que tomar en cuenta la mera casualidad como una explicación para los datos. Para distinguir el azar de los otros factores podemos estimar la probabilidad de la simple coincidencia.

Nuestros datos acerca de las agresiones nocturnas muestran una variación generosa. Antes del cambio en el horario la cantidad de agresiones iba desde aproximadamente 60 a 130. Decimos que esta variación es aleatoria, es decir, no podemos conocer las circunstancias que causan una pelea en particular en una noche específica, y es precisamente esta aleatoriedad la que complica nuestro análisis.[12] Mientras menos datos tenemos, más cuenta el azar como un factor y más fácil es ser engañados. Supongamos que solo teníamos dos cuartos de la información después de la modificación horaria:

16-compressor

Cantidad de agresiones nocturnas con solo dos registros de información posteriores a la restricción horaria de las 3 am (elaborado a partir de Kypri y otros, 2010)

Si nos limitamos solo a estos datos, podríamos concluir que el nuevo horario de cierre no tuvo ningún efecto. Los nuevos puntos de información están más o menos en línea con los datos de los cuatro trimestres anteriores. Si acaso, da la impresión de que hubo una tendencia hacia la baja en la cantidad de agresiones un año antes de que la política entrara en vigor. Pero después de haber visto los datos adicionales sabemos que los dos puntos más nuevos están en la parte alta de un nuevo rango más bajo. Es la casualidad lo que hace que estos datos incompletos den a entender que nada ha pasado.

Si podemos ser engañados por dos puntos de medición al azar, ¿podemos ser engañados por seis? Ciertamente, pero es menos probable. ¿Cuánto menos?

Toma un tiempo construir una intuición sobre los efectos del azar. De tanto trabajar con datos y modelos, finalmente uno tiene una idea de cómo se presenta o no la aleatoriedad, y de cuánta información se necesita para sentirse seguro acerca de nuestras conclusiones. Vale la pena grabarse esa sensación. De todos modos, la gran ventaja de la teoría estadística es la capacidad de cuantificar el azar. ¿Cuáles son las probabilidades de que solo sea una coincidencia? No se trata de una pregunta retórica. Lo que queremos es una respuesta numérica.

Cuantificando mundos posibles

Probablemente usen todo el tiempo palabras como «posibilidades», «azar», «frecuencia» y «probabilidad» para referirse a eventos inciertos. Pero antes de que podamos seguir avanzando necesitamos precisar qué significan. Es imprescindible manejar las nociones básicas si no queremos que las personas inteligentes de nuestra audiencia se burlen de nosotros, y si queremos ser capaces de calcular bien. Estas ideas simples no son menos profundas por ser antiguas, y en realidad no son tan antiguas, solo surgieron a fines del siglo diecisiete.[13] Por último, si ya las han visto antes, creo que puedo ofrecerles una nueva perspectiva.

La estadística cuenta mundos posibles. La probabilidad es un modo de razonar acerca de eventos que no podemos observar. Quizás no podemos ver lo que pasa por problemas prácticos: ¿cuál es la temperatura en el centro del Sol? Sin embargo, muy a menudo vamos a usar la probabilidad para hablar de mundos potenciales: ¿qué pasaría si escogemos esta política o esta otra?[14] La idea central de la probabilidad es que en muchas de estas situaciones sabemos algo, lo que es mejor que nada. Tal vez no sabemos qué número arrojará el dado, pero sabemos que todas las posibilidades existen en la misma proporción. O podrías saber que tu amiga suele pedir tarta de arándanos cuando salen a comer, y menos frecuentemente pie de limón. Es posible usar números para expresar estas ideas. Una probabilidad de 0 significa «imposible» mientras que una probabilidad de 1 significa «seguro», y todas las probabilidades tienen que sumar 1.

Las probabilidades son como un porcentaje en el sentido de que son proporciones, no totales, y cuando alguien dice «porcentaje de probabilidad» por lo general se refiere a la probabilidad multiplicada por 100. Pero es más intuitivo pensar en las probabilidades como frecuencias, que son los totales reales de diferentes resultados. Supongan que en las próximas cinco citas con su amiga ustedes esperan que pida dos tartas de arándanos y tres pies de limón. Esto no ha ocurrido todavía, así que no estamos hablando de postres reales sino de los postres que esperamos; la probabilidad es un lenguaje para hablar acerca de nuestra incerteza.

17-compressor

Los totales aquí son frecuencias. Las probabilidades son solo la proporción de un tipo de evento en relación a todos los eventos.

18-compressor

La probabilidad de que algo pase generalmente se escribe p(suceso). En este caso p(tarta) = 0,4, pero, tal como una variable en una ecuación, ustedes pueden saber o no saber el valor de p(suceso). Puede representar un número que alguien ya ha medido o calculado antes, o puede ser lo que ustedes están tratando de descubrir.

Las posibilidades son una manera ligeramente diferente de hablar sobre la misma proporción.

19-compressor

Las posibilidades se definen como el número de eventos que estamos contando dividido por el número de eventos que no estamos contando. En las apuestas, las posibilidades son el número de veces que ganas dividido por el número de veces que no ganas. Las posibilidades de la tarta aquí son de 2/3 o 0,66, pero por lo general reportamos las posibilidades dando el numerador y el denominador de forma separada: las posibilidades son 2 de 3. Se pueden convertir en probabilidad dividiendo el primer número por la suma de los dos: una posibilidad de 2 de 3 corresponde a una probabilidad de 2 / (2+3). La posibilidad de 1 en 1 es lo mismo que una probabilidad de 1 / (1+1) = 1/2, o una chance de 50/50.

Aunque ambas, «posibilidad» y «probabilidad», son mediciones numéricas del azar, son fórmulas diferentes y si las confunden obtendrán una respuesta equivocada. No sean ese periodista (También son bienvenidos a corregir a las personas cuando usan erróneamente estos términos, pero recuerden: los pedantes mueren solos.)

Se pueden hacer cosas muy ingeniosas con simples probabilidades. ¿Cuántas tartas de arándano esperas que pida tu amiga en las próximas veinte cenas? Esto es p(tarta) x 20 = 0,4 x 20 = 8. Digamos que 0,4 es el promedio de tartas que ella pide por cena. Naturalmente que aquí existe el azar; en la realidad ella pide o cero o una tarta cada vez, y en el transcurso de veinte comidas podría pedir 7 o 9 o 17 tartas, pero 8 será el número más común. (Como hay solo dos opciones de postre, se obtiene una distribución binomial, al igual que la distribución del muestreo del capítulo anterior).

Muchas veces tendremos que considerar la frecuencia con que se producen varios eventos juntos. ¿Cuál es la probabilidad de que tu amiga pida tarta en las próximas dos cenas? Dibujemos cada posible combinación de la primera y la segunda cita.

20

En la primera cena ella ordena tarta 2 de cada 5 veces. Después de cada una de ellas, ella ordena tarta nuevamente 2 de 5 veces. Por lo tanto, hay 2 x 2 = 4 mundos posibles donde se obtienen 2 órdenes de tarta seguidas. Puesto que hay 25 posibilidades en total, la probabilidad es de 4/25 o 0,16.

O simplemente podríamos multiplicar p(tarta) x p(tarta) = 0,4 x 0,4 = 0,16. La definición de probabilidad divide el número total de casos de modo que las probabilidades sean siempre entre 0 y 1, lo que nos ayuda a evitar la tediosa tarea de contar los casos directamente cuando todo lo que queremos es la proporción final. La multiplicación es la forma de calcular la probabilidad de que el evento A y el evento B ocurran ambos cuando los eventos en cuestión son independientes, esto es, uno no afecta el otro. Si esto es real o no es una pregunta que tus datos no pueden responder. A una moneda no le importa si salió cara o sello la última vez, aunque tal vez tu amiga se canse de comer tanta tarta de arándanos seguida.

Podemos aplicar la regla de la multiplicación a nuestros datos sobre las agresiones en Nueva Gales del Sur. Supongan que podemos calcular la probabilidad de que veremos un trimestre con ochenta o menos agresiones solo por casualidad, incluso si el horario de cierre más temprano no tuvo ningún efecto. Llamamos a esto p(bajo). Entonces la probabilidad de que veamos dos trimestres bajos seguidos es p(bajo) x p(bajo), la probabilidad de ver tres trimestres bajos seguidos es p(bajo) x p(bajo) x p(bajo), y así sucesivamente.

En la práctica no se calculan las probabilidades dibujando árboles, así como no se calcula el margen de error haciendo dibujos de muestras. Aun así, me gusta pensar en términos de árboles de posibilidades, porque deja claro lo que estamos haciendo con la aritmética de las probabilidades. Cada rama es un curso posible a través de la historia, y asignamos probabilidades contando las ramas de distinto tipo. Toda la estadística se basa en la idea de contar posibilidades.

Argumentar a partir de las posibilidades

Podemos utilizar la lógica de cuantificar casos para calcular la probabilidad de que un evento improbable ocurra por casualidad. En el invierno de 1976, Estados Unidos se embarcó en un programa de vacunación nacional contra la gripe en respuesta a los temores de una epidemia del virus H1N1 (gripe porcina). Millones de personas hicieron fila en todo el país para ser vacunadas. Pero después algunas se enfermaron, e incluso hubo muertos. El New York Times escribió un editorial:

Es desconcertante que tres personas de edad avanzada, todas vacunadas dentro de la misma hora en una clínica de Pittsburgh, murieran pocas horas después. Esta tragedia pudo haber ocurrido por casualidad, pero el hecho es que es extremadamente improbable que la ocurrencia de estas muertes en un grupo tan peculiar de personas haya sido solo por coincidencia.

Pero, ¿es en realidad «extremadamente improbable?». Nate Silver ha estimado las posibilidades:

Si bien esta lógica es superficialmente convincente, adolece de un error estadístico común. La falacia es que, aunque las posibilidades de que tres adultos mayores determinados mueran el mismo día, después de haber sido vacunados en la misma clínica, son sin duda bastante bajas, las posibilidades de que un grupo de tres adultos mayores muera en alguna clínica un día cualquiera son mucho mayores.

Suponiendo que alrededor del 40% de los estadounidenses de edad avanzada fueron vacunados dentro de los primeros once días del programa, entonces cerca de 9 millones de personas mayores de 65 años recibieron la vacuna los primeros días de octubre de 1976. Suponiendo que había 5.000 clínicas en todo el país, esto daría 164 vacunas por clínica por día. Una persona de 65 años o más tiene una chance aproximada de 1 en 7.000 de morir en un día determinado; las posibilidades de que al menos tres de esas personas mueran en el mismo día de un grupo de 164 pacientes son de hecho muy inciertas, cerca de 480.000 a 1 en contra. Sin embargo, en nuestras suposiciones había 55.000 oportunidades para que ocurriera este evento «extremadamente improbable»: cinco mil clínicas multiplicadas por 11 días. La posibilidad de que ocurriera esta coincidencia en algún lugar de Estados Unidos, por lo tanto, es mucho mayor, de solo 8 a 1 en contra aproximadamente (Silver, 2012).

Esto es un bocado. No ayuda que Silver transita entre probabilidades («1 en 7.000») y posibilidades («480.000 a 1»). Pero esto es solo un poco de aritmética de las probabilidades. La única parte que no es simple multiplicación es «las posibilidades de que al menos tres de esas personas mueran». En la práctica, tu calculadora tendrá algún botón que resuelva este tipo de problemas de conteo. La idea fundamental aquí es que puedes multiplicar la probabilidad de que tres personas mueran el mismo día en la misma ciudad por el número de oportunidades en que esto podría ocurrir, para calcular con qué frecuencia debería ocurrir.

Desde luego, solo puede ser una estimación aproximada; hay un montón de supuestos aquí, tales como la idea de que las tasas de mortalidad no varían según el lugar y la hora. Pero el objetivo de este ejercicio no es determinar los decimales. Nos estamos preguntando si debemos creer o no que la casualidad es una buena explicación para ver tres muertes en el mismo día posteriores a una vacunación, y para eso solo necesitamos una estimación del orden de magnitud. Las estimaciones aproximadas pueden ser increíblemente útiles para comprobar nuestro trabajo de reporteo, y por eso hay un tesoro de saber popular práctico dedicado a ellas (Mahajan, 2010).

La posibilidad de «8 a 1 en contra» es una probabilidad de 1/9, o una chance del 11% de que veamos a tres personas de la misma clínica morir el mismo día. ¿Es particularmente baja esta probabilidad? Esta pregunta es difícil de responderse por sí misma. Mientras menos probable es que algo pueda ocurrir por casualidad, más probable es que algo diferente del azar sea la explicación correcta. Esta sensata idea surgió en el siglo diecisiete cuando los primeros estadísticos modernos se cuestionaban acerca de los juegos de azar. Si lanzas una moneda 10 veces y te sale cara 10 veces, ¿significa eso que la moneda está manipulada, o simplemente tienes mucha suerte? Lo menos probable es obtener 10 caras seguidas de una moneda común y corriente; lo más probable es que la moneda sea falsa. Este principio sigue siendo fundamental para el esclarecimiento de la causa y el azar.

Las monedas y los naipes están intrínsecamente ligados a las matemáticas. Las muertes al azar son una especie de lotería, donde se pueden multiplicar juntas las probabilidades de las partes. Puede ser un poco más difícil ver cómo calcular las probabilidades en casos más complejos. La clave está en encontrar alguna forma de cuantificar la aleatoriedad en el problema. Uno de los primeros y más famosos ejemplos de razonamiento que tiene en cuenta el azar es una historia relacionada con una firma falsa, millones de dólares y una despiadada contienda en la aristocracia estadounidense.

En 1865, Sylvia Ann Howland, de Massachussets, murió dejando una fortuna de dos millones veinticinco mil dólares, que al día de hoy serían algo así como cincuenta millones de dólares. Pero el testamento fue impugnado, hubo una demanda y el demandante alegó que la firma estaba calcada de otro documento. Con el fin de apoyar este argumento, el matemático Benjamin Peirce fue contratado para demostrar que la firma original no podía coincidir tanto con la firma en disputa por mera casualidad. Las firmas se veían así:

21-compressor

Una firma genuina y dos posibles falsificaciones en el caso Howland (Meier y Zabell, 1980).

Para calcular la probabilidad de que estas dos firmas coincidieran por casualidad, Peirce primero calculó con qué frecuencia un solo trazo coincidiría entre dos firmas auténticas. Recolectó 42 firmas de otros documentos, todas genuinas. Luego, dio instrucciones a su hijo Charles Sanders Peirce para que superpusiera cada uno de los 861 posibles pares de estas 42 firmas y contara cuántos de los 30 trazos orientados hacia abajo se alineaban en posición y longitud. Charles descubrió que el mismo trazo coincidía en las dos firmas solo en un quinto de las veces. Este es el paso clave en la cuantificación de la variación aleatoria, el que Peirce llevó a cabo contando el número de coincidencias entre firmas producidas de manera espontánea.

Pero cada trazo de cada letra coincidía exactamente entre la firma original y la firma en disputa. El viejo Peirce quería mostrar cuán improbable era que esto pudiera suceder por casualidad, de modo que supuso que cada trazo había sido ejecutado de forma independiente, lo que le permitió usar la regla de multiplicación de probabilidades. Puesto que hay 30 trazos hacia abajo en la firma y una probabilidad de 1 en 5 de cualquier coincidencia en un solo trazo, alegó que las posiciones de los trazos de dos firmas genuinas coincidirán por casualidad solo una vez en 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 x 5 veces, es decir una vez en 530. Es un número increíblemente pequeño, un 0,0000000000000000001% de probabilidad de una coincidencia aleatoria. De acuerdo con este cálculo, si ustedes firman como la señora Howland mil millones de veces, nunca verán la misma firma dos veces; una en mil millones sería el equivalente a 0,0000001 puntos porcentuales de probabilidad. Un análisis moderno que no supone la independencia de cada uno de los trazos entrega una probabilidad de varios órdenes de magnitud más esperable, pero todavía muy improbable.[15]

Parecía mucho más probable que la firma fuera falsificada por Hetty Robinson, la sobrina de Sylvia Ann Howland que estaba disputando la herencia. Robinson tuvo acceso a los documentos originales y se dispuso a ganar millones de dólares trazando la firma de la señora Howland en una página adicional, lo que explica las revisiones del testamento. Tengo que admitir que me decepciona que el caso se resolviera finalmente por otros motivos, lo que hace esta joya analítica jurídicamente irrelevante. Pero el evento fue un hito en el uso práctico de la estadística. Por entonces se aplicaba sobre todo a la física y a las apuestas, nunca a nada tan cualitativo como una firma. El truco aquí fue encontrar una manera útil de cuantificar las variaciones de un caso a otro. Luego Charles Sanders Peirce se convirtió en uno de los científicos y filósofos más famosos del siglo diecinueve, contribuyendo a la invención del experimento controlado aleatorio y al enfoque filosófico conocido como pragmatismo (Hacking, 1998).

La probabilidad de que puedas ver datos como los que ya tienes por pura casualidad se conoce como el valor p en estadística, y existe una teoría muy popular sobre verificación estadística basada en él. Primero, es necesario que elijas una prueba que defina si algún dato es «como el que tú tienes». Peirce decía que un par de firmas son «como» las dos firmas en el testamento si la totalidad de los 30 trazos coinciden. Después, tiene que imaginarse que produce interminables datos aleatorios, como si escribiera garabatos de firmas sin cesar o como si tuviera monos golpeando las teclas de una máquina de escribir. Como no se podía conseguir que la fallecida señora Howland firmara de nuevo, Peirce comparó todas las combinaciones de todas sus firmas auténticas que se conocían. El valor p cuenta la frecuencia con que estos datos aleatorios pasan la prueba de verse como los datos que uno ya tiene, y que sospecha que no son aleatorios.

Hay una convención que dice que nuestros datos son estadísticamente significativos si es que p <0,05, es decir, si hay un 5% de probabilidad (o menos) de que veamos datos como los nuestros solo por casualidad. Los científicos han usado esta chance del 5% de ver nuestros datos aleatoriamente como el umbral mínimo razonable para argumentar que una coincidencia particular es poco probable que sea pura suerte, sin embargo prefieren un umbral del 1% o 0,1% debido a la solidez del argumento que este implica (Dallal, 2012). Pero advierto: ¡ningún procedimiento matemático puede convertir la incerteza en verdad! Solo podemos encontrar diferentes formas de hablar de la fuerza de la evidencia. El umbral correcto para declarar que algo es «significativo» depende de cuántos falsos negativos y falsos positivos puedo aguantar, pero un umbral de 5% de estos riesgos relativos es una definición estándar que ayuda a las personas a comunicar los resultados de sus análisis.

Utilicemos este estándar de p< 0,05 para evaluar si la vacuna contra la gripe de 1976 fue peligrosa o no. Por esta norma, una probabilidad del 11% de que tres personas murieran aleatoriamente el mismo día es evidencia en contra de un problema con la vacuna; podría decirse que la ocurrencia de estas muertes no es estadísticamente significativa. Es decir, porque existe una probabilidad superior al 5% de que veamos datos como los nuestros (tres personas fallecidas) incluso si la vacuna es buena, no es una buena apuesta suponer que estas muertes las causó una vacuna tóxica. Ahora bien, esto no significa que hay un 11% de probabilidad de que la vacuna sea segura. No hemos dicho absolutamente nada todavía acerca de la vacuna; hasta ahora solo hemos hablado de las probabilidades de la muerte natural.

La pregunta que debemos hacernos en realidad es comparativa: ¿qué es más probable, que la vacuna sea dañina o que las tres muertes fueron casualidad? ¿Y qué tanto más probable? ¿Existe una probabilidad mayor o menor al 11% de que la vacuna sea tóxica y nadie lo haya percibido en los testeos? En el caso del testamento de la señora Howland, encontramos una posibilidad minúscula de que dos firmas puedan terminar siendo idénticas por accidente. Pero ¿cuáles son las posibilidades de que la sobrina de Sylvia Howland falsificara el testamento? Una teoría más completa de la estadística pone a prueba varias alternativas.

Inferencia estadística

Existe un método general de considerar el azar que constituye la base del razonamiento estadístico moderno. La inferencia es el proceso de combinar el conocimiento existente para obtener nuevas conclusiones, algo que hacemos todos los días. La inferencia estadística añade el elemento de la incerteza, donde tanto nuestra información como nuestras conclusiones tienen algo de azaroso.

La lógica proposicional de los griegos nos dio una plantilla para la deducción cuando todas las variables son exactamente verdaderas o falsas: «Si llueve, el pasto se mojará. El pasto no está mojado. Por lo tanto no llovió hoy día». La teoría de la inferencia estadística la expande a la información incierta y a las respuestas inciertas: «Había un 40% de probabilidad de lluvia hoy. Es difícil decirlo solo mirando desde mi ventana, pero estoy un 70% seguro de que el pasto está seco. ¿Cuál es la probabilidad de que haya llovido hoy?».

La teoría moderna más completa sobre ello se conoce como estadística bayesiana, por sus raíces en el teorema que el reverendo inglés Thomas Bayes enunció en 1763. Sin embargo, el método práctico solo fue plenamente desarrollado en el siglo veinte con el advenimiento de la informática moderna. Si nunca han visto este tipo de cosas antes, es poco probable que esta pequeña introducción los prepare para hacer sus propios análisis. No podemos abarcar toda la estadística bayesiana en unas pocas páginas, (y en todo caso hay libros sobre eso),[16] así que voy a referirme a solo un método bayesiano específico, una manera general de responder a las preguntas de selección múltiple cuando la respuesta está oscurecida por el azar. Mi propósito es mostrar la lógica básica del proceso, y demostrar que es de sentido común. ¡No permitan que la estadística sea un misterio para ustedes!

La estadística bayesiana funciona preguntándonos: ¿qué hipotético mundo es más probable que produzca los datos que tenemos? Y ¿cuánto más probable es que lo haga que las otras alternativas? Los «mundos» posibles son capturados por los modelos estadísticos, pequeñas simulaciones de realidades hipotéticas que producen datos falsos. Luego comparamos los datos falsos con los datos reales para decidir cuál es el modelo que más se asemeja a la realidad.

Con el método de selección múltiple en este capítulo pueden responder preguntas como «¿qué tan probable es que el promedio de agresiones por trimestre de verdad disminuyera después de la modificación horaria para el cierre de los bares?» O bien, «si esta encuesta muestra a Núñez ganando a Jones por 3% pero el margen de error es de 2%, ¿cuál es la probabilidad de que Núñez realmente sea el que lidera la encuesta?». O también: «¿Podría ser que la tendencia al alza de la temperatura global del siglo veinte sea solo una casualidad, desde una perspectiva histórica?».

Vamos a trabajar con un pequeño ejemplo que tiene la misma forma que nuestra cuestión de las agresiones versus la política de hora de cierre de los bares. Supongamos que hay una intersección peligrosa en la ciudad. No hace mucho se produjeron ¡nueve accidentes en un año! Pero eso fue antes de que el municipio instalara un semáforo. Desde que este comenzó a funcionar ha habido mucho menos accidentes.

22-compressor

Los datos de un accidente sin duda implican muchas circunstancias que en apariencia ocurren al azar. Tal vez un conductor con el corazón roto se distrajo con una canción que le recordó a su ex. Una mariposa bate sus alas, etc.[17] No obstante, es evidente que hubo menos accidentes después de la instalación del semáforo. Pero ¿fue eso lo que redujo los accidentes? Podríamos sospechar que un semáforo apropiado reducirá los accidentes a la mitad, pero tenemos que considerar esta posibilidad como una conjetura, de modo que decimos que es una hipótesis hasta que encontremos una manera de probarla. Vamos a comparar las siguientes hipótesis:

  1. El semáforo fue eficaz en la reducción de los accidentes a la mitad.
  2. El semáforo no hizo nada, lo que significa que la disminución observada es solo cuestión de suerte.

Lo que necesitamos a continuación es un modelo estadístico para cada hipótesis. Un modelo es una versión de juguete del mundo que utilizamos para el razonamiento. Incorpora todos nuestros conocimientos y suposiciones, encapsulando lo que ya pudiéramos saber acerca de nuestro problema. Nate Silver usó un modelo simple, basado en las posibilidades de que una persona cualquiera muera un día cualquiera, para estimar las probabilidades de que tres personas mueran el mismo día en cualquiera de 5 mil clínicas. Peirce creó un modelo basado en las posiciones de los trazos de 42 firmas que se sabía eran auténticas. Un modelo es por definición una falsificación. No es tan sofisticado como la realidad. Pero puede ser útil si se representa la realidad de manera correcta. La creación de un modelo es una suerte de fase de la cuantificación, donde codificamos nuestras creencias sobre el mundo en lenguaje matemático.

Para nuestro propósito, un modelo es una manera de generar datos falsos, historias que nunca sucedieron. Vamos a necesitar dos supuestos para construir un modelo simple de nuestra intersección. Vamos a suponer que cada día pasa el mismo número de autos, y ese número lo vamos a elegir basados en los datos históricos que tenemos. Además, vamos a suponer que existe un porcentaje de probabilidad de que cada auto tenga un accidente, y de nuevo utilizaremos los datos históricos anteriores a la instalación del semáforo para adivinar el porcentaje adecuado.

Con estos dos números en la mano podemos imaginar que escribimos un pequeño código para simular la intersección. En la medida en que cada vehículo simulado entra en la intersección simulada podemos lanzar una moneda al aire para determinar si consideramos un accidente o no. Calibramos la «moneda» para que los autos se estrellen en el porcentaje apropiado. Es un modelo razonable si estamos dispuestos a asumir que los accidentes automovilísticos son independientes: podría haber habido un accidente en esta intersección hace un año o una hora atrás pero eso no cambia la probabilidad de que ustedes estén a punto de tener un accidente.[18]

Con la creación de una simulación para producir la misma tasa promedio de accidentes que vimos antes de la instalación del semáforo, hemos construido un modelo de la intersección sin el semáforo que esperamos coincida con la realidad. Podemos usar este modelo para tener una idea de la gama de escenarios que el azar puede producir corriendo la simulación muchas veces, como esto:

23-compressor

Los dos primeros años en cada una de estas tablas corresponden a los datos originales, antes del semáforo. Los últimos tres años han sido generados por simulación. En algunas de estas historias alternativas el número de accidentes disminuyó en relación con los años anteriores a la instalación de la luz, y en otras el patrón iba en aumento o era mixto, todo por mera casualidad. Con el fin de comparar los modelos, en primer lugar hay que elegir una definición más precisa para «disminución». Así es que vamos a decir que los accidentes «disminuyeron» si todos los años posteriores a la instalación del semáforo muestran menos accidentes que cualquiera de los años previos, tal como los datos reales de la verdadera intersección. Es un criterio un tanto arbitrario, pero nuestra elección determina exactamente qué hipótesis es la que estamos probando. Así como nuestra simulación expresa el mundo en código, nuestro criterio de prueba expresa la hipótesis matemáticamente. De acuerdo a nuestra prueba elegida, los escenarios 4, 6 y 7 muestran una disminución en la tasa de accidentes. Una vez más, estamos contando las ramas de un árbol de posibilidades.

El número clave es la frecuencia con la que vemos el efecto sin la supuesta causa, tal como en los casos de las muertes con la vacuna o el testamento de Howland. Ninguna de estas historias alternativas incluye un semáforo; sin embargo, vemos una disminución después del segundo año en 3/9 de los casos, lo cual es una probabilidad de 0,33. Esto hace que la teoría de la «disminución por casualidad» sea bastante plausible. Una probabilidad de 0,33 significa 33% de posibilidades de ocurrir, lo cual puede no parecer «alto» en comparación con algo que pasa el 90% de las veces, pero si ustedes están tirando los dados verán que cualquier cosa que ocurra el 33% de las veces es un montón.

Esto no hace que la hipótesis de la «disminución por casualidad» sea verdadera. O falsa. Especialmente, no significa que la teoría de la disminución por casualidad tenga un 33% de probabilidad de ser cierta. Nosotros supusimos que la «disminución por casualidad» era verdadera cuando construimos la simulación. En lenguaje de probabilidad condicional, hemos calculado p(datos ∣ hipótesis), que se lee «la probabilidad de los datos dadas las hipótesis». Lo que realmente queremos saber es p(hipótesis ∣ datos), es decir la probabilidad de que la hipótesis sea verdadera dados los datos. La distinción es retorcida, lo reconozco, pero la clave es mantener un registro de qué camino sigue la deducción.

Como vimos en la sección anterior, lo más probable es que nuestros datos fueron producidos por el azar, lo menos probable es que se generaran por alguna otra cosa. Pero para terminar nuestro análisis necesitamos una comparación. Todavía no hemos dicho nada acerca de la evidencia en favor de la teoría de que «el semáforo funcionó».

En primer lugar, necesitamos un modelo de un semáforo en funcionamiento. Si creemos que un semáforo en funcionamiento debería reducir el número de accidentes a la mitad en una intersección como esta, entonces podemos cambiar nuestra simulación para producir un 50% menos de accidentes. Este es un número arbitrario; un análisis más sofisticado probará y comparará muchos posibles valores numéricos para la reducción de accidentes. Aquí está el resultado de simular muchas veces un semáforo 50% más efectivo:

24-compressor

Una vez más, cada uno de estos gráficos es una historia alternativa simulada. Los primeros dos años de datos en cada gráfico son nuestros datos reales y los últimos tres años son simulados. Esta vez la simulación produce en promedio la mitad de los accidentes para los últimos tres años, debido a que esa es la efectividad que creemos que el semáforo debe tener. Según nuestro criterio de que cada año posterior a la instalación del semáforo debe ser menor a cada año anterior, hay una reducción de los accidentes en las simulaciones 1, 2, 4, 5, 6, 7 y 9. Es decir en 7 de 9 escenarios hay una disminución, o bien una probabilidad de 7/9 = 0,78 de que veamos una caída como la que vimos en la realidad, si es que el semáforo redujo el número total de accidentes a la mitad.

Esta es una buena demostración para la hipótesis «el semáforo redujo los accidentes a la mitad». Pero la probabilidad de ver estos datos por casualidad es de 0,33, lo que también es bastante bueno. No es una situación como la del testamento de la señora Howland, donde las probabilidades de una hipótesis eran minúsculas (firma idéntica por casualidad) mientras que las probabilidades de la otra hipótesis eran buenas (firma falsificada para obtener millones de dólares).

Finalmente, llegamos a una comparación numérica de las dos hipótesis a la luz de los efectos del azar. La cifra clave es la ratio de probabilidades de que cada modelo genere datos como los que se observan en la realidad. Esto se conoce como el cociente de probabilidad o factor de Bayes, y se puede pensar en él como las posibilidades a favor de un modelo en comparación con otro. A la idea clave de comparar varios modelos le dieron cuerpo figuras como R. A. Fisher (Hald, 1999) y Harold Jeffreys (Kass y Raftery, 1995) a principios del siglo veinte.

La probabilidad de que la hipótesis «el semáforo redujo los accidentes a la mitad» pudo generar nuestros datos decrecientes es 0,78, mientras que la probabilidad de que la hipótesis «la disminución por casualidad» explique los datos es de 0,33, de modo que el factor de Bayes es 0,78/0,33 = 2,3. Esto quiere decir que las posibilidades de que el modelo «el semáforo funcionó» haya generado los datos observados en comparación con el modelo «disminución por casualidad» es de 2,3 a 1 a favor. Esto no convierte en verdadera la historia de «el semáforo redujo los accidentes a la mitad». Pero sin duda parece más probable.

En todo caso estas posibilidades de 2,3 a 1 son mediocres. La conversión a una probabilidad da 2,3/(2,3+1)=70% de probabilidad de que el semáforo haya sido la causa. O sea que si doy la noticia de que el semáforo sí funcionó hay un 30% de probabilidades de que esté equivocado. En otras situaciones podría tener un 90% o un 99%, o incluso un 99,9% de probabilidades de hacer una suposición correcta. Pero no puede haber una escala fija para evaluar las probabilidades, porque depende de lo que está en juego. ¿Será lo suficientemente buena la probabilidad de 2,3 a 1 como para escribir una nota que podría parecer ingenua más adelante? ¿Y si esa nota hubiese convencido al municipio de gastar millones en semáforos que no funcionaron? ¿Qué pasaría si mi texto hubiese convencido al municipio de no gastar millones en semáforos que sí funcionaban y que podrían haber salvado vidas?

Aun así, «el semáforo funcionó» es una mejor historia que «la disminución por casualidad». Una mejor que cualquiera sería «el semáforo probablemente funcionó». Los periodistas, como la mayoría de las personas, tienden a sentirse incómodos con los valores de probabilidad intermedios. Un 0% o un 100% es fácil de entender. Una posibilidad de 50/50 también lo es: básicamente no se sabe nada sobre cuál alternativa es mejor. Es más difícil saber qué hacer con la probabilidad de 70/30 de nuestras 2,3 a 1 posibilidades. Pero si eso es lo máximo que se puede saber, es eso lo que tenemos que decir.

En el trabajo real también tenemos que mirar más que los datos de un solo semáforo. Deberíamos hablar con otras fuentes, mirar otros conjuntos de datos, recoger todo tipo de información sobre el problema. Afortunadamente, hay una manera natural de incorporar otros conocimientos en la forma de una probabilidad a priori, o sea la probabilidad de que el semáforo funcionó dadas todas las otras evidencias excepto nuestros datos. Esto se ve en la derivación matemática del método, que dice que necesitamos multiplicar nuestro factor Bayes de 2,3 a 1 por la probabilidad a priori para obtener una estimación final.

Quizás los datos de eficacia de los semáforos de otras ciudades muestran que estos generalmente reducen los accidentes pero parecen fallar alrededor de una quinta parte del tiempo, de tal modo que escogemos una probabilidad a priori de 4 a 1. Al multiplicarla por 2,3 a 1 se fortalecen las posibilidades finales de 9 a 1. La lógica aquí es: los semáforos en otras ciudades parecen funcionar, y este también parece funcionar, por lo que la totalidad de la evidencia es más fuerte que los datos de este único semáforo.

O tal vez han hablado con un experto que les dice que los semáforos por lo general solo funcionan en grandes y complejas intersecciones de autopistas, no en la pequeña y tranquila intersección residencial que estamos mirando, así que escogemos una probabilidad a priori de 1 a 5, que también puede ser expresada como 0,2 a 1. En este caso, ni siquiera nuestros muy plausibles datos pueden superar esta fuerte evidencia negativa, y la probabilidad final es 2,3 x 0,2 = 0,46 a 1, lo que quiere decir que hay más del doble de posibilidades de que el semáforo no funcionara. La lógica aquí es: la mayoría de los semáforos en este tipo de intersección no funciona, y esto debilita la evidencia de este único semáforo, lo que nos lleva a creer que la disminución observada es más probable que se deba solo a la casualidad y no lo contrario.

Multiplicar por la probabilidad a priori es matemáticamente correcto, sin embargo a menudo es poco claro cómo asignar las probabilidades a la evidencia disponible. Si la alcaldesa de Detroit te dice que le tiene fe a los semáforos en su ciudad, ¿qué dice esto acerca de las probabilidades de los semáforos que funcionan versus los que no funcionan como un valor numérico? No hay escape del juicio. Pero incluso las estimaciones a grandes rasgos pueden combinarse útilmente de esta manera. Por lo menos, la existencia de la probabilidad a priori en las fórmulas estadísticas nos recuerdan amablemente que debemos consultar todas las demás fuentes.

Hay mucho más que decir acerca de este método de comparar la probabilidad de que diferentes modelos generen nuestros datos. El método aquí solo se aplica a las preguntas de selección múltiple, mientras que el trabajo real suele estimar un parámetro: ¿cuánto redujo los accidentes el semáforo? Y apenas hemos tocado el tema de los modelos, especialmente la preocupante posibilidad de que todos nuestros modelos son representaciones tan pobres de la realidad que los cálculos no tienen sentido.[19] Pero la lógica fundamental de comparar cuán a menudo las diferentes posibilidades producirían los datos observados nos permite atravesar los más complejos análisis. Espero que este ejemplo dé una idea de cómo un único marco unificador se ha utilizado para resolver problemas en medicina, criptografía, balística, seguros, y en casi todas las demás actividades humanas (McGrayne, 2011). La estadística bayesiana es extraordinaria y encuentro que su gran éxito es increíble, poco probable, y casi demasiado bueno para ser cierto. Siempre se puede empezar desde el marco general y avanzar hacia los detalles del problema. A veces esto requiere más trabajo, pero peor es quedarse mirando las ecuaciones y preguntarse si son relevantes o no.

¿Qué habría pasado de todos modos?

Supongamos que hemos descartado a la suerte como una explicación para nuestros datos. Supongamos que hemos deducido que algo en los datos de las agresiones realmente cambió en el periodo en que la nueva política entró en vigor. La atribución de este cambio a los nuevos horarios de cierre es harina de otro costal.

Sería fácil determinar los verdaderos efectos de la nueva política si supiéramos cuántos asaltos hubieran ocurrido si esa norma nunca hubiese entrado en vigor. Decir que A es la causa de B es decir que B no habría sido posible sin A. Pero solo tenemos los datos posteriores al cambio. Cada afirmación acerca de una causa es realmente una afirmación acerca de la forma en que el mundo habría sido sin esa causa, una declaración hipotética. Por eso la causalidad es tan complicada: requiere razonar acerca de mundos imaginarios, al menos hasta que se invente la máquina del tiempo. Porque solo con una máquina del tiempo podríamos evitar que el nuevo horario de cierre entre en vigor y luego esperar para recoger datos equivalentes en ese universo divergente. A falta de ello utilizaremos un modelo, una forma de describir las historias alternativas que no podemos observar directamente.

Si tuviéramos dos copias exactas del distrito financiero de Newcastle en Australia, podríamos cambiar la política en un distrito y no en el otro, y comparar los resultados. Esta es la lógica detrás de los experimentos controlados donde se da una nueva droga a un grupo de tratamiento y no al grupo de control. Los periodistas no suelen diseñar experimentos, y en todo caso nunca existen dos estados idénticos para experimentar. Pero podríamos hacer comparaciones con ciudades o barrios semejantes.

Precisamente este tipo de comparación arroja grandes dudas sobre un intento por reducir la violencia armada en Richmond, Virginia, a fines de la década de 1990. El proyecto Exile apuntaba a reducir el número de homicidios con un aumento de la pena por posesión ilegal de armas. La pena mínima se incrementó de cinco a diez años al desplazar todos esos casos desde los tribunales del estado a las cortes federales.

A primera vista, esta medida funcionó.

25-compressor

Homicidios con arma de fuego por cada 100.000 residentes en Richmond, Virginia, antes y después del proyecto Exile (adaptado de Raphael y Ludwig, 2003).

Los homicidios por arma de fuego —la mayoría, por amplio margen— disminuyeron después de que el proyecto entró en vigor, y tanto el presidente George W. Bush como el New York Times y la NRA (la Asociación Nacional del Rifle) alabaron la política. Pero la evidencia a favor de las penas más severas en Richmond no es ni de cerca tan fuerte como lo es para el horario de cierre más temprano en el distrito financiero del Newcastle australiano. En primer lugar, los datos son muy escasos. Solo existen tres puntos de datos después de que se estableció el programa, en 1997, 1998 y 1999. Además, la cantidad de homicidios con arma de fuego de hecho se incrementó drásticamente el año 1997, aun cuando los infractores a la ley de posesión de armas fueron juzgados en los tribunales federales desde febrero de 1997. Sin embargo, 1998 y 1999 sí muestran sólidos descensos, finalizando con los niveles más bajos de toda la década.

Vamos a poner sobre la mesa por un momento la cuestión del azar; con solo tres puntos de datos, la suerte se convierte en una preocupación real. Supongamos que creemos que la disminución es real y permanente, y no solo algo que ocurre por accidente debido a la variación natural. Todavía tenemos el problema de atribuir la causa al proyecto Exile y no a otra cosa. Realmente lo que necesitamos es otro Richmond idéntico para mostrarnos la historia alternativa donde el proyecto nunca tuvo lugar.

No tenemos otro Richmond, pero existen muchas otras ciudades. Si esas ciudades son lo suficientemente similares en la forma correcta, es posible que se aproximen a la historia perdida donde Richmond nunca tuvo un programa como Exile. A continuación están los datos de la tasa de homicidios de otras ciudades que son similares de varias maneras, pero en ninguna de las cuales se implementó ese programa.

26-compressor

Homicidios con arma de fuego por 100.000 residentes en Richmond, Virginia, antes y después del proyecto Exile, comparados con otras ciudades (Raphael y Ludwig, 2003).

Prácticamente todas las ciudades de Estados Unidos experimentaron una caída en la violencia con armas de fuego a finales de la década de 1990. De hecho, los crímenes violentos de todo tipo disminuyeron en todo el país durante esa década. Nadie sabe la razón, aunque hay muchas teorías (Levitt, 2004). Ahora resulta evidente que no era necesario cambiar las normas de posesión ilegal de armas para ver una caída en los delitos con armas de fuego a finales de los noventa.

Tal vez todavía puede argumentarse que Richmond tuvo una caída mayor. Pero también tenía más delitos y una gran alza en 1997. Proporcionalmente, como variación porcentual, la disminución en Richmond estuvo bastante en línea con las otras ciudades. Esto se puede ver si se trazan los datos en una escala logarítmica.

27-compressor

Homicidios con arma de fuego por 100.000 residentes en Richmond, Virginia, y otras ciudades, en una escala logarítmica (Raphael y Ludwig, 2003).

Cada escalón vertical en una escala logarítmica corresponde a un aumento por un factor constante, lo que significa que estamos comparando cambios porcentuales en lugar de números absolutos. Cuando comparamos de esta manera, Richmond no parece particularmente mejor que otros tipos de ciudades. La mayoría de las ciudades experimentaron una caída en la violencia armada de aproximadamente el mismo porcentaje que Richmond, que aparece en esta tabla con una pendiente decreciente de forma similar. Esto es una evidencia de que no haber hecho nada habría sido igualmente eficaz.

Aquí se puede debatir acerca de si considerar el porcentaje o los números absolutos es la manera correcta de comparar una disminución en la delincuencia entre ciudades. También se puede intentar construir análisis más elaborados mostrando que si bien los homicidios en Richmond hubieran disminuido de todos modos, el proyecto Exile los hizo caer más aún. Estamos lejos de tener la última palabra, pero también vamos más allá del simple argumento de que el proyecto fue la causa de la caída observada.

Y, por supuesto, podemos salirnos completamente de este encuadre y preguntarnos si el aumento de las penas es realmente la forma en que nosotros como sociedad queremos lidiar con un tipo de crimen que involucra y afecta principalmente a los grupos más desfavorecidos. Como siempre, los datos nunca constituyen toda la historia.

Volvamos a Newcastle, en Nueva Gales del Sur: ¿será que la política del cambio en la hora de cierre de los bares sufre del mismo problema «habría ocurrido de todos modos»? Una vez más, teóricamente la prueba perfecta requeriría una copia idéntica del distrito; pero tenemos datos de la localidad adyacente de Hamilton, que no tuvo una restricción en el horario de cierre.

28-compressor

Número de agresiones por cuadrante en el distrito financiero de Newcastle, en Nueva Gales de Sur, donde el horario de cierre fue restringido a las 3 am, y en el área vecina de Hamilton, donde no lo fue (Kypri y otros, 2010).

Por supuesto, no hubo una clara reducción de las agresiones en Hamilton. La principal debilidad de este tipo de comparación es que Hamilton no coincide exactamente con el área donde se cambió el horario de cierre. Tiene menos bares y una tasa mucho más baja de agresiones. Aun así, estos datos comparativos proporcionan una pequeña verificación preliminar. Es necesario excluir la posibilidad de que alguna otra cosa ocurriera en el mismo periodo de tiempo y haya provocado la disminución en las tasas de agresiones en general. Eso es lo que parece haber ocurrido con los homicidios en las ciudades estadounidenses a fines de los noventa. La otra razón para mirar los datos de la localidad adyacente es asegurarse de que el crimen se redujo realmente, y no que se desplazó a áreas cercanas.

Cualquier adjudicación de una causa es implícitamente una afirmación de datos de un mundo que nunca llegamos a ver: un mundo en el que la causa nunca ocurrió. Vale la pena pensar sobre cómo aproximarnos a este mundo a través de comparaciones o modelos. No basta con mirar los aumentos o disminuciones. Como dicen los investigadores del proyecto Exile:

Una de las lecciones más grandes de nuestro análisis sobre el proyecto Exile en Richmond es la evidente tendencia de la opinión pública a juzgar como un fracaso cualquier intervención de la justicia penal implementada durante un periodo de incremento de la delincuencia, mientras que esos esfuerzos se juzgan como un éxito cuando el ciclo de la delincuencia está en su punto más bajo (Raphael y Ludwig, 2003).

Y eso no es justo. La comparación correcta no es «sube o baja» sino «¿qué hubiera ocurrido de todos modos?» Esto se aplica igualmente a la pregunta de si la sopa de pollo cura los resfríos y a la pregunta de si el endurecimiento de las penas disuade a los delincuentes.

Modelos causales

Por lo general y por desgracia las causas no se pueden ver directamente en los datos. Observen el siguiente gráfico de mortalidad versus índice de tabaquismo en diferentes ocupaciones:

29Tasa de mortalidad normalizada versus índice de tabaquismo para diferentes ocupaciones en el Reino Unido, 1970-1972.[20]

Hay una clara asociación entre el tabaquismo y la mortalidad, una correlación. Parece natural decir que es una prueba de que fumar contribuye a una muerte temprana. Pero ¿qué hay del siguiente gráfico?:

30-compressor

Correlación entre el consumo anual de chocolate per cápita y el número de ganadores del Premio Nobel, en distintos países (Messerli, 2012).

Si el gráfico anterior muestra que el tabaquismo es causa de muerte prematura, entonces este gráfico muestra que comer chocolate aumenta las posibilidades de ganar un premio Nobel. ¿No? Pero entonces, ¿por qué creemos que la primera correlación es causal y la segunda no? Tiene que haber algún otro factor aquí; nuestro razonamiento debe estar incluyendo algo distinto de solo los datos. A continuación, un caso más ambiguo todavía:

31-compressor

Tasa de desempleo trimestral en Estados Unidos versus la inversión como porcentaje del PIB, 1990-2010, según John Taylor (Mankiw, 2011).

¿Cómo podríamos describir este gráfico? Un intento: cuando aumenta la inversión, el desempleo baja. Pero decirlo de esta manera hace que suene como si incrementar la inversión sea la causa de que el desempleo baje, y eso no es necesariamente cierto. También podríamos decir que cuando el desempleo baja, la inversión aumenta, lo que implica una causa en la otra dirección. Tal vez podríamos decir: inversión y desempleo se mueven juntos, en direcciones opuestas. Eso es todo lo que en realidad sabemos de estos datos; sin embargo, no parece natural escribir sobre una asociación entre dos variables sin decir nada acerca de la relación causal entre ellas. Estamos programados para ver causas.

La diferencia en nuestras intuiciones sobre estos tres gráficos tiene que ver con el hecho de si conocemos o no una historia que explique cómo se relaciona la causa con el efecto. Probablemente ustedes pueden imaginarse cómo la inversión llevará al empleo, o quizás cómo el empleo conducirá a la inversión. Probablemente han oído que fumar causa cáncer. Pero no hay una historia obvia que conecte el comer chocolate con ganar un premio Nobel.

Aquí estamos lidiando con una correlación, un patrón de dos variables en el cual si una cambia la otra también cambia. Existen varias definiciones matemáticas de una correlación, pero para nuestros propósitos la concepción más sencilla está perfectamente bien. Los diagramas de dispersión son una manera común de comparar dos variables, pero cualquier cosa que muestre dos variables puede revelar una correlación. Una de esas variables podría ser implícitamente el periodo de ocurrencia de un evento, como en los ejemplos de la delincuencia donde vimos la correlación entre un cambio en la política pública y la cantidad de agresiones de borrachos o los asesinatos con arma de fuego. A continuación hay otro tipo de correlación, a partir del análisis de hombres que escriben su primer mensaje a mujeres en el sitio web de citas amorosas OKCupid (Rudder, 2009):

32-compressor

Estos datos parecen mostrar que la inclusión de la palabra «awesome» [estupenda, genial, impresionante] en un primer mensaje causará un índice de respuestas superior a la media, mientras que incluir la palabra «sexy» será la causa de una probabilidad mucho menor de respuesta. Pero eso no es lo que los datos realmente dicen. Es solo una idea que salta a la mente, porque es fácil imaginar por qué las mujeres ignorarían un primer mensaje de un extraño que las llama «sexy».

Como de costumbre, nuestras narraciones sobre los datos pueden o no reflejar la realidad, y el método para probar que sí lo hacen es imaginar de qué otra manera podría haber sido. Afortunadamente, no hay muchas maneras en que dos variables pueden llegar a correlacionarse.

33-compressor

Estos pequeños gráficos son modelos causales. Como todos los modelos estadísticos, no son la realidad, sino una manera de hablar y de pensar la realidad. Cada círculo es una variable, algo que es o puede ser cuantificado. Cada pequeña flecha quiere decir «causa». Qué exactamente es una «causa» es motivo de debate desde tiempos de Aristóteles, pero en este contexto se define en términos de posibles intervenciones: X causa Y significa que hay alguna cosa específica que ustedes podrían hacer en el mundo para forzar a la variable X a tomar un valor específico, y si lo hacen el resultado de Y cambiaría en un sentido probabilístico.

Estas causas no son definitivas. Decir que fumar causa cáncer significa que si pudieran forzar a alguien a fumar, esa persona tendría más probabilidades de contraer cáncer. No significa que va a tener cáncer, sino que aumenta la probabilidad. Las flechas en este diagrama son causas probabilísticas difusas. En vez de «causa» piensen en «cambia la distribución de».

Este nivel de abstracción nos permite hablar acerca de la causa de una manera muy general. Toda correlación de dos variables cualquiera es el resultado de uno de estos patrones causales, o más probablemente, una combinación de ellos. Por lo general, los datos por sí solos no pueden decir qué patrón produjo una correlación dada.[21] Por ejemplo, X causa Y y Y causa X aparecen de la misma manera en los datos. Tenemos que utilizar otra información para averiguar la estructura causal correcta.

Podría no haber ninguna relación causal entre X y Y, solo una coincidencia. Como hemos visto, la coincidencia puede ser cuantificada mediante la estimación de la probabilidad de que el azar haya generado los datos. En el caso de OKCupid podríamos preguntarnos: ¿con qué frecuencia una palabra elegida al azar tiene una tasa de respuesta por encima —o por debajo— de la media tan grande como las palabras usadas en este caso? Si representamos gráficamente las tasas de respuesta de un montón de palabras, podemos encontrar que estas palabras en particular no son en absoluto especiales; esta gráfica solo podría estar mostrando algunas palabras particularmente entretenidas que tienen fluctuaciones bastante comunes en la tasa de respuesta. Si se puede elegir con pinzas la evidencia, es posible probar cualquier cosa.

También puede ser que Y causa X, pero no en este caso. La respuesta no puede causar el mensaje inicial porque las causas tiene que llegar antes que sus efectos. En otros casos la causalidad podría fluir en la otra dirección, o las variables podrían afectarse mutuamente en un circuito de retroalimentación permanente. El alto desempleo podría ser tanto causa como efecto de la baja inversión. Si las ciudades con más armas de fuego se asocian con una mayor criminalidad, podría ser que el acceso a las armas cause los delitos, o bien podría ser que vivir en un lugar peligroso haga que las personas quieran comprar un arma. O bien la asociación podría haber ocurrido meramente por casualidad. En la realidad, probablemente es una combinación de todos estos efectos. Los datos que tenemos son el resultado de la suma de personas que usan las armas que ya tienen y de personas que compran armas debido a la alta tasa de delincuencia, además de toda una gama de factores aleatorios.

34-compressor

También podría darse el caso de que algún otro factor Z sea la causa de X e Y. Por ejemplo, puede haber algo que haga que un hombre escriba acerca de la apariencia de una mujer y haga que una mujer responda con menos frecuencia. Esta es la posibilidad que más a menudo es descuidada en los análisis informales de datos, pero puede haber numerosos factores que podrían influir tanto en el uso del lenguaje como en la tasa de respuesta.

Como el atractivo. Tal vez las mujeres atractivas acaparan muchos más mensajes que la media, demasiados como para querer contestarlos todos, por lo que su tasa de respuesta general es menor. Si creemos que «el atractivo» es una noción coherente y real que podría medirse de alguna manera útil —quizás pidiendo a mucha gente que califique una fotografía—, entonces es razonable hablar de él como una variable. Esto nos deja dos hipótesis plausibles.

35-compressor

No hay forma de distinguir estas dos hipótesis de los datos anteriores, porque ambas producirían las mismas correlaciones.

La tercera variable en esta estructura de tres vías se denomina factor de confusión (confounder) y aparecen frecuentemente en los análisis del mundo real. La clave es buscar otra variable que sea la causa de las dos variables que se ven correlacionadas. Por ejemplo, el crecimiento económico global podría por un lado reducir el desempleo y por otro aumentar la inversión. Un país rico podría por un lado importar muchísimo chocolate —un bien de lujo— y por otro financiar investigaciones avanzadas. La reducción del índice de delincuencia después de que cambiara la hora de cierre de los bares podría deberse a que la policía comenzó a patrullar para hacer cumplir el nuevo horario.

Pero, de nuevo, tener una profesión estresante podría hacer que fumes y a la vez reducir tu expectativa de vida. La industria tabacalera desde hace décadas ha atacado, entre otros argumentos, la asociación que se hace entre tabaquismo y enfermedad precisamente sobre esta base de posibles factores de confusión (Milberger y otros, 2006). A mediados de los años sesenta, un estadístico recibió fondos de la industria del tabaco «para tratar de reducir la correlación entre fumar y las enfermedades mediante la introducción de variables adicionales» (Gelman, 2012). Aunque suene repugnante, debemos tomar en serio la posibilidad lógica de una correlación espuria. En última instancia, la prueba del daño por el hábito de fumar también se basa en otros tipos de evidencia no correlativa, como los experimentos con animales.

Las variables de confusión son comunes en la práctica. El café podría causar cáncer pero entonces, nuevamente, puede haber un tipo de persona que fuma y bebe café (Mann y Wood, 2012). La falta de sueño puede causar malas notas en la escuela, o la pobreza puede causar ambos: mal dormir y bajo rendimiento (Pagel y otros, 2007). Las circunstancias de la variable de confusión pueden no haber sido medidas en los datos que tenemos, e incluso pueden no ser algo medible directamente. Solo las encontramos al pensar en el contexto más amplio de los datos.

Una vez que se ha encontrado una variable de confusión, puede ser posible eliminar sus efectos, proceso que se denomina control de una variable. Por ejemplo, pueden investigar la relación entre fumar y cáncer mientras controlan la variable del estrés en las diferentes ocupaciones. Esto solo funciona si su modelo causal es muy preciso. De nuevo, es una manera de preguntarnos sobre una situación hipotética: ¿cuál sería la relación entre empleo e inversión si el crecimiento no los impulsara a ambos? O ¿cuánto ganarían las mujeres si trabajaran el mismo número de horas que los hombres? Razonar sobre mundos imaginarios siempre es complicado.

He usado imágenes de manera informal para hablar de estructuras causales, pero en realidad son parte de una bien fundada teoría matemática de la causalidad desarrollada a fines del siglo veinte por Judea Pearl y otros (Pearl, 2009). Estas imágenes se llaman modelos en grafo, porque son gráficos en el sentido matemático de nodos y aristas. Pueden usarse para describir estructuras causales mucho más complejas, con más variables, como el siguiente modelo de uno de mis libros de estadística favoritos:

36-compressor

Kaplan, 2012.

En esta red inventada tenemos datos de las variables de color rosado pero no de la variable gris. En general, habrá muchos factores que intervienen y que no se pueden medir, así como causas desconocidas que puede que nunca hayamos pensado. Simplemente no conocemos la estructura causal correcta del mundo, pero al menos se pueden dibujar pequeñas imágenes de las posibilidades que podemos imaginar.

La mejor manera de descifrar la causalidad es hacer un experimento. Después de todo la causalidad se define en términos de intervenciones, y un experimento tiene todo que ver con intervenir. En el caso de las citas online, podríamos seleccionar a muchos hombres y al azar decirle a cada uno que incluya o excluya ciertas palabras en su primer mensaje a una mujer, y luego registrar el índice de respuesta para cada palabra. Esto es diferente de los datos que ya tenemos por una razón crucial. En este experimento los hombres no deciden qué palabras usar (¡hemos intervenido!). No pueden basar su decisión en la apariencia de la mujer, y por ende en nada acerca de sí mismos o de la mujer a quien están escribiendo. Esto elimina de un plumazo el efecto de muchas potenciales variables de confusión.

Este tipo de experimento es una generalización de la idea de tener casos comparables. Repetimos muchas veces un escenario, con y sin la causa hipotética, y vemos si el efecto aparece con más frecuencia cuando la causa está presente. John Stuart Mill escribió acerca de este «método de la diferencia» en su libro de 1843 A System of Logic:

Si una instancia en la que se produce el fenómeno que se investiga y una instancia en la que este no se produce tienen todas las circunstancias en común salvo una, y esta ocurre solo en la primera instancia, la circunstancia en la que solo las dos instancias difieren es el efecto, o la causa, o una parte necesaria de la causa, del fenómeno (Mill, 1843)

Mill entendió que no siempre sería posible distinguir «X causa Y» de «Y causa X» de los datos solamente («es el efecto, o la causa»). Los experimentos son una salida, porque fijamos el valor de X y vemos lo que sucede con Y. La complicación es que no sabemos lo que habría sucedido a Y si no hubiésemos fijado X. ¿Cuántos no fumadores hubieran contraído cáncer de pulmón de todos modos? Esta es la razón por la que los experimentos modernos usan un grupo de control para comparar. Para asegurarnos que los dos grupos sean idénticos («todas las circunstancias en común salvo una»), podemos asignar personas al azar entre ambos. Este diseño básico fue formalizado a finales del siglo diecinueve y es conocido como experimento aleatorio controlado.

Pero, nuevamente, los periodistas no suelen hacer experimentos. A veces podemos evaluar los experimentos de otras personas, pero por lo general nos vemos reducidos a tratar con datos observacionales. Esto hace que la causa sea un tema especialmente complicado. Los modelos causales —nuestros pequeños diagramas con flechas— son una manera de expresar las posibles relaciones causales entre las variables. Esto puede aclarar nuestro pensamiento y ojalá nos conduzca a idear modos de comprobar nuestras historias con la realidad.

La verdad por descarte

En 2011, la Associated Press reveló que el Departamento de Policía de Nueva York (NYPD) había estado monitoreando 53 mezquitas de la ciudad con métodos que incluían informantes y vigilancia con videocámaras (Apuzzo y Goldman, 2011). En 2012, el NYPD liberó una enorme base de datos de cientos de miles de cacheos rutinarios en los que la policía detuvo a personas en la calle, sin causa alguna, para comprobar si llevaban armas o drogas. Un periodista analizó estos datos y halló que un 15% sobre la media de estos incidentes ocurría a menos de cien metros de ciertas mezquitas de Nueva York.[22]

37Una muestra de los datos acerca de los controles rutinarios de la policía de Nueva York.

Esto podría significar que la NYPD se dirige deliberadamente a los musulmanes en la calle. Pero hay muchas otras maneras en que se podrían haber generado los datos. Hagamos una lista de algunas posibilidades:

  • La policía deliberadamente está parando a los musulmanes cerca de las mezquitas.
  • Es pura casualidad.
  • Las mezquitas podrían estar en zonas más densamente pobladas.
  • Las horas de patrullaje podrían coincidir con las horas de oración, por alguna razón.
  • Es posible que haya más policías asignados a la zona debido a las tasas de delincuencia más altas.
  • Los datos podrían ser erróneos.
  • Podríamos malinterpretar la forma en que se recogieron los datos.

Este es el problema central del análisis de datos: estos por sí solos no pueden decirnos si una historia es verdadera, porque puede haber muchas otras historias que producen los mismos datos. En principio, todo análisis científico es un proceso de dos pasos: idear una serie de hipótesis, y luego elegir la que está mejor apoyada por la evidencia. En el trabajo periodístico, un relato extraído de los datos es moralmente equivalente a una hipótesis.

Para ser exactos, ni los científicos ni los periodistas trabajan realmente así. Muchas personas han señalado que la interacción entre inventar ideas y probarlas es mucho más compleja que este pequeño esbozo (Kitcher, 1993). En el trabajo real uno va y viene, mejorando las ideas, reuniendo más información, consiguiendo finalmente una entrevista con una fuente esencial, probando teorías, poniéndose al día con el trabajo de otros, tropezando con destellos de creatividad, tomando mucho café, discutiendo con los críticos, retornando a la mesa de dibujo, cambiando de opinión, girando la manivela hacia adelante. No debemos considerar esta idea de crear y luego probar las hipótesis como una descripción literal de nuestro proceso de búsqueda de la verdad; solo describe un tipo de argumento. Captura la lógica fundamental de por qué debemos creer que algo es cierto, no necesariamente los pasos que en realidad nos condujeron a creerlo.

Elaborar relatos/hipótesis razonables es un proceso creativo que ha de basarse en un conocimiento de un trasfondo específico. Peirce llamaba a este proceso de generación de hipótesis abducción y se dio cuenta de que seguía ciertas reglas: los relatos deben explicar los datos, y no deben contradecir hechos conocidos. Aparte de eso, las posibilidades están abiertas. Sin embargo, hay una serie de cosas que en cualquier relato necesitamos comprobar. Nuestra lista de hipótesis debe incluir problemas de definición, problemas de cuantificación, errores en los datos, el azar, y tantas otras variables de confusión como podamos imaginar. La regla básica es esta: es necesario imaginarlo antes de poder probar que es cierto.

¿Será que el acoso de la policía de Nueva York a los musulmanes está produciendo nuestros datos? La verdad puede ser cualquiera de las posibilidades anteriores, alguna combinación de ellas, o algo que ni siquiera está en la lista.

Si ustedes tienen variables bien cuantificadas y buenos modelos, existen soluciones estadísticas para el problema de escoger entre hipótesis en competencia. Gran parte de la labor estadística de los últimos cien años se ha dedicado solo a este tipo de comprobación de hipótesis, como vimos en el capítulo sobre inferencia. Estas son herramientas poderosas, pero la mayoría de los problemas en periodismo no cuentan con evidencia tan claramente cuantificada. No sé cómo expresar todas las hipótesis anteriores de detención por sospecha en el mismo lenguaje simbólico, ni cómo hacer estimaciones de probabilidad razonables para cada posibilidad. ¿Cuál es la probabilidad de que hayamos entendido mal el formato de los datos? En la práctica, la solución es volver a revisar el formato en lugar de tratar de calcular una probabilidad de error.

Hay excepciones, casos altamente estructurados donde se puede aplicar todo el poder del testeo de hipótesis estadísticas, como las predicciones electorales. Incluso en esos casos, tengan cuidado: ¿han incluido todas las formas en que la elección podría ser manipulada? El mundo siempre encontrará maneras de sorprender a un modelo.

Finalmente, no hay un lenguaje más poderoso que el lenguaje humano, y no hay razonamiento más poderoso que el razonamiento humano general. Eso no significa que se puedan mirar los datos e intuir la respuesta. Hay muchos métodos entre la intuición y la estadística.

Un buen análisis de datos tiene más que ver con descartar muchas interpretaciones falsas que con tratar de probar que una única interpretación es correcta. Esto puede parecer decepcionante —¿puede ser que no haya ninguna certeza?—, sin embargo es una de las grandes novedades de la filosofía de la ciencia. Fue articulada mejor que nadie por Karl Popper en la década de 1930. Su idea central era que la falsificación es una práctica mucho más robusta que la verificación.

Existen muchas razones por las que demostrar que una historia está errada es un mejor objetivo que probar que es correcta. Si siempre buscas solamente evidencias que confirman su relato, es posible que solo encuentres eso. La no confirmación es más potente que la confirmación en el sentido de que las pruebas adicionales que confirman no hacen que un relato confirmado sea más verdadero, pero si un solo hecho contundente lo contradice no hay evidencia capaz de rescatarlo. Y sabemos, a partir de una serie de experimentos emblemáticos de la psicología cognitiva de la década de 1970, que existen sesgos en la cognición humana que nos llevan a rechazar, desacreditar y olvidarnos selectivamente de la información que no encaja con lo que ya creemos (Kahneman, 2013).

Es útil cuestionar nuestras expectativas. Porque lo que es seguro es que nuestros críticos lo harán. Además, la falsificación es una forma de aclarar el contenido práctico de una hipótesis. ¿Hay alguna manera, al menos en principio, de que nuestra hipótesis pueda estar equivocada? Si dice algo sobre el mundo, debería ser posible ir y ver si el mundo es realmente así. No me refiero a nada cósmico con esto. «El cambio de turno de la policía ocurre en el horario de las oraciones vespertinas» es una hipótesis perfecta que se podría probar, por ejemplo, consiguiendo una copia del horario de la comisaría.

38

La contribución de Carl Sagan.[23]

La idea de producir hipótesis que compitan y luego refutarlas aparece de muchas formas, en muchos lugares. Aristóteles escribió sobre la idea de las diferentes causas posibles para el mismo evento. Peirce, ciertamente, entendió el principio en 1868 cuando usó su modelo para las firmas con el objeto de descartar el azar como una explicación. Sir Arthur Conan Doyle tenía a Sherlock Holmes hablando de la búsqueda de la verdad testeando alternativas en 1926, en la cita que abre este capítulo. Un texto de la CIA sobre análisis de inteligencia de la década de 1980 contiene una descripción particularmente fácil de leer de un método práctico, claramente vinculado con la teoría de los sesgos cognitivos (Heuer, 1999).

En resumen, el método es así: al comienzo del trabajo de análisis de los datos, hay que imaginar todo tipo de interpretaciones posibles, toda suerte de historias. Los datos disponibles descartarán algunas de ellas, ya sea por razones obvias o mediante pruebas estadísticas. De las que sobreviven deben escoger una. Para hacerlo, necesitan más información. El conjunto restante de hipótesis les dirá qué información necesitan para descartar cada una de ellas, sea otro conjunto de datos o una conversación con una fuente bien informada.

Cada una de las hipótesis del control preventivo de la policía sugiere una técnica investigativa diferente. Podemos examinar los efectos del azar estadísticamente, tal vez mediante el conteo de controles preventivos en radios de 100 metros ubicados en lugares escogidos al azar de entre los datos, no centrados en absoluto en las mezquitas. Pero más o menos una hipótesis por medio debe ser testeada contra la información que no está en los datos de las detenciones por sospecha de la policía. Podríamos querer agregar otros datos al análisis; por ejemplo, correlacionar las ubicaciones de las mezquitas con la densidad de población. O podríamos necesitar conversar con un policía que nos pueda explicar cómo se asignan los patrullajes. El objetivo aquí no es probar ninguna hipótesis en particular, sino poner a prueba cada una de ellas mediante la búsqueda de evidencia en su contra.

Buscamos información que falsee una de nuestras hipótesis, pero la realidad puede no cooperar. La siguiente mejor cosa es la información que prefiere una hipótesis sobre otra: evidencia que no descarta pero que es diferencial. También podemos encontrar que una combinación de hipótesis queda mejor: la policía de Nueva York podría estar parando intencionalmente a los musulmanes para un control preventivo en la calle, y además las mezquitas podrían estar en áreas más densamente pobladas. Esa es una nueva hipótesis.

El método de las hipótesis en competencia no tiene por qué implicar datos necesariamente. Se puede aplicar la idea de descartar hipótesis a cualquier tipo de trabajo investigativo, usando cualquier combinación de fuentes, ya sea de datos o no. El concepto de triangulación en las ciencias sociales capta la idea de que una hipótesis verdadera debe ser apoyada por muchos tipos de pruebas, incluyendo las cualitativas y los argumentos teóricos. Esta también es una idea clásica. Aquí, nuevamente, Peirce dice:

La filosofía tiene el deber de imitar los exitosos métodos de las ciencias, tanto como para proceder solamente a partir de premisas tangibles que pueden ser sometidas a un cuidadoso escrutinio, y confiar más bien en la multitud y variedad de sus argumentos que en la fuerza probatoria de uno cualquiera. Su razonamiento no debe formar una cadena que no es más fuerte que su eslabón más débil, sino un cable cuyas fibras pueden ser siempre muy delgadas, siempre y cuando sean suficientemente numerosas y estén íntimamente ligadas (Peirce, 1868).

Lo que vemos en los datos no puede contradecir lo que se ve en la calle, de modo que siempre necesitamos observar la calle. Las conclusiones de nuestro trabajo con los datos se deben apoyar en el trabajo cualitativo, así como en cualquier trabajo periodístico no queremos depender de una sola fuente. El relato que queda finalmente es aquel que sobrevive a nuestros mejores intentos por desacreditarlo.

COMUNICACIÓN

El sello de un ser humano civilizado es la capacidad de mirar una columna de números, y llorar. Atribuido a Bertrand Russell.[24]

La cuantificación produce los datos, el análisis les da sentido. Pero eso no cuenta como periodismo a menos que ustedes puedan comunicar lo que han sabido. Esta necesidad da forma a la nota periodística en todo el proceso, incluyendo la cuantificación y el análisis.

En periodismo por lo general necesitamos suponer que el público tiene poca familiaridad con el sujeto del relato o bien con los conceptos cuantitativos en general. Y después de la lectura, finalmente el lector[25] debe hacer algo con la información, si no nuestro trabajo no tiene ningún efecto. Esto relaciona al periodismo con la predicción.

La mayoría de las personas no están acostumbradas a interpretar datos, y no se les puede culpar. La visualización de los datos puede ser útil porque transfiere una parte del trabajo cognitivo de comprender los datos al sistema visual del ser humano, que es tremendamente poderoso. Aun así, los conceptos fundantes del trabajo con datos son sutiles y en ocasiones poco naturales. Los matices del muestreo, las probabilidades, la causalidad son ajenos a la experiencia cotidiana. Más aun, los números no son un medio particularmente empático. Para la mayor parte de la gente, hasta la estadística más escandalosa está desconectada de la experiencia cotidiana. Los periodistas pueden superar esta distancia usando ejemplos, metáforas o narraciones para relacionar los números con la gente. El periodismo es una tarea profundamente humana, sin importar los métodos.

En definitiva, un periodista es responsable de las ideas que terminan en la cabeza de sus lectores. Para honrar esa responsabilidad debe hacer dos cosas: asegurarse de que los datos y el relato representan claramente y con exactitud la realidad, y asegurarse de que esta rigurosa representación es con la que el lector se queda.

Percepción

Rápido, ¿cuál de estas formas es diferente?

39-compressor

Bueno, esa fue fácil. ¿Qué tal esta?

40-compressor

Ahora, intenten con esta otra imagen. ¿Cuál forma es diferente de todas las otras aquí?

41-compressor

Las dos primeras fueron fáciles, pero esta última resultó un poco más difícil, ¿cierto? Estos ejemplos ilustran una capacidad visual llamada efecto pop-out, que nos permite hallar algo en un mar de objetos similares sin la necesidad de pensar en ello. El objeto que es diferente simplemente «salta» a la vista. Salvo que algunas veces funciona mejor que otras. Probablemente se demoraron unos segundos más en encontrar la única barrita vertical luminosa en la última imagen.

El efecto pop-out a veces funciona y otras no, porque tenemos hardware en el sistema visual que puede realizar complejas tareas de procesamiento por debajo del nivel de la conciencia. Bajo las circunstancias apropiadas, el color, la orientación, la forma, la textura, el movimiento, la profundidad, el parpadeo y muchos otros atributos visuales pueden provocar el pop-out. Pero si el problema es demasiado complejo para nuestro hardware visual altamente especializado, no tendremos más opción que realizar una «búsqueda visual», escaneando cada objeto, como en ¿Dónde está Wally?

Nuestro sistema visual puede realizar toda clase de trucos, como comparaciones.

42-compressor

No es necesario pensar para saber cuál objeto es el más grande, o el que está más inclinado hacia abajo, o si los círculos son de diferentes colores. Esta es la base de toda la visualización de datos: estamos confiando en las capacidades del sistema visual humano —veloces e inconscientes— para comunicar los datos rápidamente. Con una visualización bien diseñada, no es necesario pensar en una tendencia para verla.

Los investigadores de visualización de datos han identificado muchas características importantes del ojo y el cerebro humano (Munzner, 2009). Existen diferentes «canales» visuales que podemos usar para decodificar los datos, como posición, tamaño, color, orientación, forma, textura, movimiento, profundidad y una docena más; y a partir de experimentos conocemos la eficacia de estos canales para diferentes tipos de representación. Por ejemplo, se sabe que la posición es el canal visual más rápido y preciso para comparar cantidades, mientras que el color funciona muy bien para los datos categorizados, no así para las variables continuas. Hemos medido cómo el contraste percibido cambia dependiendo del contexto, y hemos explorado cómo el ruido y el desorden pueden ralentizar las tareas visuales. Hemos desvelado cómo las imágenes se graban en la memoria de corto plazo. Con una imagen delante tuyo no necesitas almacenar las relaciones entre los elementos en tu memoria de trabajo, porque basta con que mires y veas. Esto libera tu pensamiento para ideas más finas acerca del contenido.

Nuestro sistema de procesamiento visual es tan veloz y sofisticado que quizás no deberíamos pensar en él como cognición. En realidad es percepción. Parece como si uno «solo viera» los rasgos importantes de la visualización. Pero por supuesto no es así. Los científicos han mapeado exactamente lo que vemos y no vemos, y también se puede entrenar el ojo con el tiempo, como cuando aprendemos a reconocer letras y luego palabras.

Tener en cuenta nuestras capacidades visuales nos conduce a importantes opciones de diseño. Nuestra capacidad inconsciente de comparar longitudes es la razón por la que generalmente debemos empezar el eje Y en cero. De lo contrario, las longitudes relativas no se corresponderán con los valores relativos, y vamos a percibir relaciones incorrectas. Hacer caso omiso de la percepción visual cuando creamos visualizaciones de datos es como ignorar los significados consensuales de las palabras cuando escribimos.

Pero no es solo la visión lo que necesitamos para comprender. El estudio de la comunicación de datos no es posible sin estudiar la percepción humana de las cantidades. El modo como se perciba nuestra narración depende de todo, desde la visión a la cognición y de esta a las creencias que el público ya tiene.

Representación

La mayor parte de lo que conocemos viene a través de algún medio de comunicación, alguna forma de representación de segunda mano. Mucho se ha dicho acerca de quién y qué se representa en el periodismo, y cómo se presenta a ciertas personas e ideas. Añadir datos no cambia la naturaleza básica de estos temas, pero son un tipo de información diferente que se presta para diferentes tipos de comunicación.

Tiendo a pensar en la información como que viene en dos sabores: ejemplos y estadísticas. La historia de una persona que busca trabajo es un ejemplo, mientras que la tasa de desempleo es una estadística. Además, la gente habla de anécdotas versus datos, o casos de estudio versus encuestas, o narrativa versus números, o tal vez algo cualitativo versus cuantitativo. No todos estos pares hablan exactamente de lo mismo, pero todos capturan algún tipo de diferencia. No creo que estos modos de información se opongan, o incluso que el límite sea realmente tan claro. (¿Cómo llamaríamos a las etnografías de una muestra aleatoria de personas?) Pero sí veo dos patrones muy generales en la manera de recopilar la información.

43-compressor

Se puede recoger una pequeña cantidad de información específica de muchas personas y resumirla con estadísticas. O se puede obtener abundante información no concluyente de apenas algunas personas y presentar cada una como un ejemplo significativo. En este sentido, las estadísticas y los ejemplos son formas complementarias, y ambas pueden usarse para representar a un grupo más amplio de personas. Es decir, para inferir información que no obtuvimos directamente; detalles adicionales sobre las vidas de más personas. Toda representación es una generalización.

Consideren el desempleo nuevamente. Una encuesta hace algunas preguntas a mucha gente, de modo que podemos contabilizar cuántas personas no tienen trabajo. También podemos encontrar patrones de conexión entre el estatus de empleo y la ubicación, la educación, la edad, y así sucesivamente. Para ver bien estos patrones, sin sesgos, debemos ya sea contar a cada una de las personas o hacer un muestreo aleatorio. O sea, una muestra aleatoria es una muestra representativa. Pero, además, necesitamos entender la vida de las personas individuales, o nunca podremos entender cómo estas fuerzas sociales se despliegan en la práctica. Quizás sabemos que las personas de cierto estrato social presentan una tasa de desempleo más alta, pero ¿cómo es esto realmente? ¿Qué pasa en la vida de una persona cuando está buscando trabajo? ¿Qué escuchó en su última entrevista de trabajo? La tasa de desempleo no puede responder esta clase de preguntas, pero las historias de personas en particular sí pueden.

En el mejor de los casos, una nota periodística combina números y narrativa. Los datos representan a muchas personas de una manera estrecha pero significativa, mientras que las historias relatan las experiencias profundas de solo algunas, y estos diferentes tipos de información juntos describen una realidad unificada.

Pero esto es solo lo que está en el papel.

Los ejemplos superan a las estadísticas

Asumir la responsabilidad por la impresión con la que se queda el lector requiere una comprensión de cómo las personas integran los diferentes tipos de información. Y es así: generalmente, los ejemplos son mucho más convincentes que las estadísticas; incluso cuando no deberían serlo.

Estados Unidos ha visto una disminución a lo largo de dos décadas en las tasas de crímenes violentos. Esto se mantiene para todo tipo de crímenes violentos y en todos los lugares.

44-compressor

Durante el mismo periodo de tiempo, ha existido una percepción muy extendida de que la delincuencia está empeorando (McCarthy, 2014).

45-compressor

La cantidad de personas que cree que la delincuencia es peor este año que el anterior se ha mantenido en alrededor de 60-80% durante décadas, incluso cuando el número de personas que han sido víctimas de un crimen violento ha caído en un factor de tres. Gallup incluso ha llegado a decir que «las percepciones de la delincuencia siguen separadas de la realidad, (…)en los últimos años las estadísticas nacionales de delincuencia no han tenido una relevancia significativa en la percepción del público sobre la delincuencia» (McCarthy, 2014).

¿Cómo puede ser? Hay una gran cantidad de datos sobre la delincuencia en Estados Unidos, la mayoría disponibles para cualquiera, y los índices de criminalidad se han repetido sin cesar en las noticias. Seguramente es una percepción errónea fácilmente corregible. (Y definitivamente es una percepción errónea. Si bien hay todo tipo de problemas en el conteo de los delitos, se cree que los índices de delitos violentos son el tipo de datos de delincuencia más exactos porque la gravedad de incidentes como homicidios los hace más difíciles de esconder y fáciles de contabilizar).

No sé con certeza por qué la percepción está tan lejos de la realidad en este caso —creo que en realidad nadie lo sabe—, pero el patrón se ajusta a lo que hemos visto en los experimentos.

No fue hasta la década de 1970 que los investigadores exploraron seriamente la percepción humana de la información estadística. Al final de esa década, Hamill, Wilson y Nisbett se hicieron una simple pregunta: ¿de qué manera la información estadística cambia la percepción de una anécdota? (Hamill y otros, 1980). Estos investigadores querían ver si la gente desestimaría un ejemplo extremo si se le presentaran estadísticas que mostraran que era extremo. De tal manera que le mostraron a más de cien personas un artículo del New Yorker acerca de una beneficiaria de la seguridad social:

El artículo proporcionaba una descripción detallada de la historia y la vida actual de una mujer de 43 años, obesa, amigable, irresponsable, sin oficio, que había vivido los últimos dieciséis años en Nueva York, trece de los cuales había subsistido gracias a la seguridad social. La mujer había emigrado de Puerto Rico tras un breve e infeliz matrimonio adolescente del que nacieron tres hijos. Su vida en Nueva York era una sucesión interminable de parejas e hijos aproximadamente cada dieciocho meses, y la dependencia de la seguridad social era total. Ella y su familia vivían el día a día, comiendo cortes de carne de buena calidad y jugando a la lotería los días inmediatamente posteriores al día en que le llegaba el cheque del sistema de bienestar, y comiendo porotos y pidiendo plata prestada los días previos a su llegada. Su vivienda era un departamento decadente, maloliente e invadido por las cucarachas… (Hamill y otros, 1980).

Esta era una persona real, pero no un caso típico, porque casi nadie permanece trece años en el sistema de seguridad social. Un grupo de lectores también vio la información estadística que mostraba lo siguiente:

Las estadísticas del Departamento de Bienestar Social del estado de Nueva York muestran que la estadía promedio en el sistema para los beneficiarios entre los 40 y 55 años es de dos años. Y el 90% de estas personas están fuera de los listados del sistema al cabo de cuatro años (Hamill y otros, 1980).

A otro grupo de lectores se le entregó información estadística falsa que hacía ver los trece años como un período normal de estadía en la seguridad social:

Las estadísticas del Departamento de Bienestar Social del estado de Nueva York muestran que la estadía promedio bajo los beneficios del sistema para los beneficiarios entre los 40 y 55 años es de 15 años. Por otra parte, el 90% de estas personas está fuera de los listados del sistema al cabo de ocho años (Hamill y otros, 1980).

Entonces, a todos se les entregó un breve cuestionario con preguntas acerca de su percepción sobre los beneficiarios de la seguridad social, tales como:

¿Cuánto esfuerzo ponen los beneficiarios del sistema de bienestar por mejorar su situación? (1= ninguno; 5= muchísimo) (Hamill y otros, 1980)

Como es de esperar, la mayor parte de los lectores se quedó con una impresión más bien negativa de los beneficiarios del bienestar social, mucho más negativa que un grupo de control que no leyó el artículo del New Yorker. Sin embargo, no hubo una diferencia significativa en las opiniones de aquellos que leyeron la estadística real versus la versión falsa, y ninguna diferencia cuando las estadísticas fueron presentadas antes o después de la nota periodística.

La descripción de la mujer en su miserable departamento es tan vívida, tan real, tan fácil de conectar con nuestras propias experiencias y estereotipos culturales, que supera a los datos. No es que las personas no recordaran el tiempo promedio de estadía en la seguridad social; fueron interrogados sobre eso, también. La información estadística simplemente no figuró en la forma como las personas se formaron sus impresiones.

Desde luego, no culpo a los lectores; nunca conviene culpar a los lectores. Tampoco estoy convencido de que yo sería diferente. Pienso que no es suficientemente claro que esta mujer era atípica, los ejemplos vívidos son persuasivos, y los lectores no tenían por qué ser especialmente cuidadosos. En vez de hacerme dudar de la inteligencia humana, veo este ejemplo solo como una lección acerca de cómo mejorar la comunicación.

Ha habido otros experimentos en el mismo sentido, y por lo general muestran que los ejemplos triunfan sobre las estadísticas cuando se trata de comunicación. En un estudio se pidió a las personas que se imaginaran viviendo con un dolor producido por angina de pecho y que tenían que optar entre dos posibles curas. Se les dijo que la tasa de recuperación de la angioplastia con balón era de un 50%, y la de una cirugía de bypass era de de un 75%. Además leyeron historias de personas que se sometieron a diferentes cirugías. En algunos casos la cirugía tuvo éxito en sanar la angina de pecho y en otros no, pero estos ejemplos no contenían ninguna información que pudiera ser de utilidad para la elección de una cirugía u otra. Aun así, la gente optó por la cirugía de bypass con una frecuencia dos veces mayor cuando las anécdotas la favorecían, ignorando por completo las probabilidades indicadas de una cura (Fagerlin y otros, 2005).

Lo que nos lleva de vuelta a la información sobre la delincuencia. En las grandes ciudades, no todos los asesinatos se convierten necesariamente en noticia. En diferentes momentos y lugares el número de homicidios reportados ha variado entre el 30% y el 70% del total (Stray, 2016). Los delitos que se reportan siempre son los más graves. Un análisis de contenido ha mostrado que la cobertura periodística es sesgada hacia las víctimas que son jóvenes, mujeres, blancos y famosos, así como con los delitos que son particularmente espantosos o de índole sexual. Pero estos ejemplos son la materia desde la que se forman nuestras percepciones. Y es suficiente para hacer llorar a un investigador de los medios:

En conjunto, los resultados indican que la transmisión de las noticias sigue la ley de los opuestos; las características de los delitos, los criminales y las víctimas representados en los medios son, en muchos aspectos, el polo opuesto del patrón sugerido por las estadísticas oficiales sobre delincuencia (Pollack y Kubrin, 2007).

No solo es sesgada la información de los delitos en un sentido estadístico, sino que la preponderancia sicológica de los ejemplos significa que los lectores terminan creyendo casi lo contrario a la verdad. Este es un tipo de sesgo mediático que rara vez es discutido o criticado.

Si quieren que el lector se quede con una idea justa y representativa de lo que significan los datos en el mundo real, entonces sus ejemplos deben ser corrientes. Deben ser típicos. Esto va en contra de la fascinación del periodismo por los casos atípicos. Se dice que «hombre muerde a un perro» es una noticia, pero «perro muerde a hombre» no lo es. No obstante, si queremos comunicar lo que dicen las estadísticas sobre mordeduras, debemos considerar ir con «perro muerde a hombre» para nuestros ejemplos ilustrativos.

Mis reportajes favoritos se basan tanto en estadísticas como en ejemplos, y usan información complementaria para crear una imagen completa y convincente. Pero recuerden que por lo general los ejemplos son más convincentes que las estadísticas presentadas como números. Los casos individuales son mucho más comprensibles, más detallados y vívidos, y ellos darán forma a la percepción. La mala noticia es que los ejemplos mal elegidos pueden crear o reforzar estereotipos errados.

Pero esto también significa que los ejemplos bien escogidos aportan claridad, precisión y vida a una historia, como todo buen narrador sabe.

¿Quién está en los datos?

Los datos acerca de las personas afectan las vidas de las personas. Los planificadores urbanos, los empresarios, los críticos sociales, la policía, todo tipo de gente usa en su trabajo representaciones de la sociedad basadas en datos. Por eso la representación es tan importante. Cambiar la manera como una persona es percibida, o si esta es percibida o no de alguna manera, puede tener enormes efectos.

La «bondad» de una representación depende de qué es lo que quieran hacer con ella —la historia que están contando—, pero en muchos casos parece más justo contar a cada persona por igual. Hay aquí un buen alineamiento entre democracia y estadística, porque la forma más simple de generar datos es contar cada ítem exactamente de la misma manera. Las muestras aleatorias también son muy populares pero solo son un método práctico para acercarse a este ideal. Este argumento matemático-moral sobre la representatividad de los datos casi nunca se explicita, pero está tan incorporado en nuestra forma de pensar acerca de los datos que por lo general solo decimos que estos son «representativos» de algún grupo de personas cuando se aproximan a un conteo simple.

Los datos con que ustedes cuentan pueden desviarse de este ideal de manera importante.

Los periodistas han estado intentando mostrar al público un retrato de sí mismo durante mucho tiempo. Cuando se lee un artículo sobre la deuda de los estudiantes que cita a unos pocos, estos estudiantes los representan a todos. La entrevista del reportero de un noticiero televisivo incorpora al auditor en el relato al presentar las opiniones de personas que son «iguales a él». Desde luego, nunca funciona realmente de esta manera; los reporteros solo entrevistan a un reducido número de personas escogidas no muy al azar, y los equipos de televisión tienden a filmar a quien les sea más fácil poner frente a la cámara.

Cuando Osama bin Laden fue asesinado en 2011, la Associated Press quiso recoger reacciones en todo el mundo. Los reporteros corrieron a tomar cualquier cámara que tuvieran a mano y a hacer la misma pregunta pauteada a muchas personas. Pero ¿qué personas? En la práctica, todo dependerá de factores como cuáles periodistas son los que están más interesados en el proyecto, a quiénes ya conoce el reportero, quién es más fácil de encontrar y quién es más probable que hable un idioma que el periodista entienda. El proyecto estaba pensado para captar la respuesta global a un evento histórico, pero no es claro qué voces en realidad están representadas. Una muestra global, aleatoria, en un video mostrado en las noticias de último minuto sería todo un desafío, pero quizás se podría tratar de conseguir una cierta gama de países, edad, raza, género, etc.

Las redes sociales parecen ofrecer una salida, porque representan a muchas más personas. No cabe duda de que un análisis grueso de ellas puede constituir un gran avance comparado con un puñado de fuentes torpemente elegidas. Pero tampoco son realmente representativas, no como debe ser una muestra aleatoria. Vean la ciudad de Nueva York, según lo revelado por tuiteos georreferenciados (Ríos, 2013):

46-compressor-min-min-min

Este mapa me parece hermoso y revelador. No es un mapa geográfico o de fronteras políticas, sino un mapa de las personas. Me encanta como traza las principales rutas de tránsito, por ejemplo. Pero es un mapa de ciertos tipos de personas, de acuerdo a lo que sé comparándolo con un mapa de densidad demográfica. Hay grandes áreas despobladas en Brooklyn, donde vive mucha gente, y Soho definitivamente no es tan denso como el Midtown. Además, solo un pequeño porcentaje de tuiteos son georreferenciados. ¿Qué clase de persona usa esta función?

No todo el mundo está en Twitter, no todo el mundo está tuiteando, y son menos aun los que están hablando sobre lo que ustedes escribieron. Estos datos tienen un sesgo hacia ciertos tipos de personas, y no sabemos bien qué clase de personas son. Con seguridad hay información muy útil que se puede conseguir de las redes sociales, pero no es el mismo tipo de información que se puede obtener de una muestra aleatoria. Si esto es un problema o no depende de su tema. Los usuarios de Twitter tienden a ser personas pudientes y urbanas, de modo que si esa es la población que les interesa están en buen pie. Si no es así, puede que no haya mucho que decir de un análisis de Twitter. Cualquier representación de la opinión pública creada a partir de datos de las redes sociales —una nube de palabras más frecuentes o cualquier otra cosa— será sesgada de una manera desconocida. Es decir, los resultados serán sesgados respecto de una muestra al azar, y lo peor es que no sabrán de qué manera son sesgados.

La forma en que eligen sus datos también puede crear problemas de representatividad. Aquí se ve una visualización de Moritz Stefaner que fue pensada para mostrar la «visósfera», las personas que conforman la comunidad de visualización de datos.

47-compressorExtracto de la visósfera (Stefaner, 2011).

Desde luego que no es realmente una visualización de todos los involucrados. Para crear esta imagen, Stefaner comenzó con «una selección subjetiva de “cuentas semilla”», es decir las cuentas de Twitter de dieciocho personas que él sabía que estaban involucradas en la visualización de datos. Las 1.645 personas incluidas en la imagen son todas seguidoras o son seguidas por al menos cinco de estas cuentas.

El resultado es una representación muy interesante de algunas personas involucradas en la disciplina, pero ciertamente no todas ellas. ¿Por qué estas dieciocho cuentas? ¿Por qué no incluir personas con cuatro enlaces en lugar de cinco? Parte del problema es que no existe una definición universalmente aceptada de quién está «dentro» de la comunidad, pero incluso si la hubiera es dudoso que el análisis de la red de Twitter fuera la manera de encontrarlos a todos. Esta lámina excluye casi por completo a la comunidad de visualización científica, por ejemplo, y son cientos de personas que han estado haciendo visualizaciones durante décadas.

Stefaner sabe que existen problemas de esta índole, y lo dice en la descripción de esta imagen. No hay nada malo en todo esto. Pero si fuera para ser presentada como periodismo, ¿necesitarían los lectores analizar la letra chica para lograr una comprensión precisa?

Comunicar la incerteza

La incerteza es un tema recurrente en el trabajo con datos. En cierto modo resulta familiar, porque todos nos hemos sentido inseguros. Pero creo que la mayoría de las personas no son naturalmente sensibles a las mediciones cuantitativas de la incerteza. Sospecho que la mejor forma de hacerse una idea de ella es jugar con simulaciones de elementos probabilísticos, pero nuestros lectores no van a hacer eso, así que debemos encontrar otras maneras de comunicar.

Ya nos hemos encontrado muchas veces con la incerteza cuantificada. La manera más simple de presentarla es dar un rango: 312 ± 7 kilómetros, por ejemplo. El margen de error de una muestra es una medida más sofisticada que incluye la frecuencia con que esperamos que ese error caiga dentro del rango: los resultados de tal encuesta fueron de 68% a favor, con una precisión dentro del 3%, 19 veces de 20. Las probabilidades también son un tipo de incerteza: analizamos los datos del semáforo y encontramos que las probabilidades eran 2 a 1 a favor del modelo con un semáforo que sí funciona.

Estas clases de números pueden ser difíciles de captar intuitivamente, sin embargo la incerteza en un resultado es parte crucial de ese resultado. Cuando los datos son inciertos o conducen a conclusiones inciertas, sería una mentira omitir esa incerteza, o comunicarla mal.

Hay muchas maneras de comunicar la incerteza. Podemos mostrarla en una visualización indicando el rango de valores posibles:

48-compressor

Margen esperado de triunfo en las elecciones de 2014 según FiveThirtyEight.

Esta imagen de las elecciones legislativas de 2014 muestra cómo el margen de error sobre el margen de triunfo fue variando en el curso del tiempo. Aclara algo que de otra forma no es obvio: las encuestas mostraron una ventaja constante durante meses; sin embargo, fue solo al final de la carrera que el triunfo resultó particularmente claro. A lo largo de septiembre [las fechas que empiezan en 9], las probabilidades eran cercanas a 60/40, estrechándose sustancialmente solo en la segunda mitad de octubre [las fechas que empiezan en 10].

El área gris es el rango de valores en el que se espera que el resultado caiga el 90% de las veces, es decir el intervalo de confianza del 90%. La forma más fácil de calcular este rango es simular una gran cantidad de elecciones usando un modelo que genera resultados aleatorios de acuerdo a la incerteza conocida de los datos de la encuesta, y luego encontrar los percentiles 5 y 95 para cortar los valores extremos de las partes inferior y superior. La cifra del 90% es arbitraria, en realidad solo una convención, pero proporciona un equilibrio razonable. Si mostramos el rango completo del 100% de los datos, el área gris se expandiría para incluir todos los escenarios posibles por la casualidad o accidentales. Si mostramos solamente el 50% central, entonces los lectores podrían quedarse con una impresión excesivamente acotada de la incerteza, porque el resultado verdadero caería fuera del área gris la mitad del tiempo (suponiendo un modelo de predicción debidamente calibrado).

También podemos mostrar la incerteza presentando los resultados de simulaciones con la aleatoriedad incorporada. El New York Times construyó una ruleta para explicar las incertezas en sus predicciones para las elecciones de 2014. Cada estado de Estados Unidos está representado por una rueda dividida en segmentos de color de acuerdo con las probabilidades vigentes en ese momento de que cada partido ganara allí. Cuando el usuario hace clic en el botón de «girar» [el que dice spin again en la figura], todas las ruedas giran y se detienen en posiciones aleatorias, produciendo un recuento final de los escaños en el senado.

49-compressor

Ilustración de las incertezas en el resultado de la carrera senatorial de 2014. Cada vez que el usuario presiona «gire nuevamente», las ruedas giran y se detienen en una posición aleatoria. The New York Times.

Esta visualización se basa en la misma lógica que se utilizó para analizar los datos del semáforo en el capítulo anterior; usa muchas simulaciones de candidaturas para mostrar cómo los efectos del azar dan forma a los datos que vemos. La comprensión de cómo una realidad subyacente conduce a los datos observados nos ayuda a determinar cuál es la realidad cuando intentamos interpretar los datos.

Estos dos ejemplos implican números con algún error probabilístico, pero a veces lo que necesitamos comunicar es solo una probabilidad en sí misma. Los seres humanos no tenemos una percepción lineal de las probabilidades numéricas, así como de muchas otras percepciones (como el brillo, que se percibe en una escala logarítmica). Daniel Kahneman y Amos Tversky fueron pioneros en la medición de la percepción de probabilidad a fines de los años setenta, con un experimento que daba a elegir a la gente entre dos apuestas, con probabilidades y premios determinados. Así demostraron que las personas se desvían de manera predecible a partir de la mejor estrategia para valorar una apuesta de acuerdo a sus ganancias medias, lo que se obtiene multiplicando la probabilidad de ganar por el premio. En estos experimentos, las personas actuaban como si las pequeñas probabilidades fueran mucho más altas y las grandes probabilidades fueran mucho más bajas (Weber, 1994). Es decir, la gente apostaba mucho cuando las probabilidades de ganar eran bajas, y muy poco cuando eran altas, ¡incluso conociendo las probabilidades exactas!

50-compressor

Si así es como en general los seres humanos abordan las probabilidades, debemos esperar que la gente exagere la probabilidad de eventos muy excepcionales (como los accidentes aéreos) mientras subestima la probabilidad de eventos muy comunes (como las enfermedades cardíacas). Es un problema, especialmente cuando se comunican cifras de baja probabilidad, como las de riesgos infrecuentes. La probabilidad de ser alcanzado por un rayo en toda la vida es de alrededor de 0,0001.[26] No es inmediatamente obvio lo que esto significa, pero la gráfica anterior sugiere que los lectores tenderán a percibir que ser alcanzado por un rayo es mucho más probable de lo que realmente es.

Todo tipo de cosas afectan la percepción de la probabilidad de algún evento. Si este es muy malo, es posible que lo percibamos como más común (Harris y Corner, 2011). También nos imaginaremos que es más frecuente si tenemos ejemplos conocidos en mente, un efecto cognitivo conocido como heurística de la disponibilidad. Así, morir en un ataque terrorista puede parecer tan probable como ser alcanzado por un rayo, aunque una estimación conservadora dirá que el rayo es al menos diez veces más probable. Comunicar al público los números reales no cambia esta percepción, ¡porque su percepción no se basa en números!

Una forma de comunicar una probabilidad es interpretar su frecuencia, es decir, el conteo de un número de cosas entre un número más grande. Cuando decimos que la probabilidad en la vida de ser golpeado por un rayo es de 0,0001 queremos decir que 1 de cada 10.000 personas será alcanzada por un rayo. Esta es una forma mucho más intuitiva de pensar acerca de las probabilidades para la mayoría de las personas. Puede ser más probable que conduzca a un razonamiento correcto en el diagnóstico de enfermedades o cuando se hacen otro tipo de inferencias a partir de evidencias inciertas (Hoffrage y otros, 2002). Las frecuencias funcionan particularmente bien si se puede comparar el denominador con unidades de población que son familiares. Digamos que hay 10.000 personas en una pequeña ciudad; en una ciudad de un millón de personas, 100 serán alcanzadas por un rayo. Diez mil es probablemente mucho más que el número de personas que ustedes conocerán en toda su vida, lo que significa que es probable que no conozcan a nadie que haya sido o vaya a ser alcanzado por un rayo.

Las comparaciones son otra forma útil de comunicar una probabilidad. La probabilidad de ser alcanzado por un rayo es 0,0001, pero la probabilidad de morir en un accidente automovilístico es de 0,002, o sea veinte veces más probable. Nuevamente, pensar en términos de personas ayuda: entre diez mil personas, una será alcanzada por un rayo, pero veinte morirán en un accidente de auto. Obtengan sus mediciones en unidades de personas siempre que sea posible; es una unidad que todo el mundo comprende. Y funciona especialmente bien como una visualización con pequeños íconos de personas:

Alcanzado por un rayo: K

Muerto por accidente automovilístico: KKKKKKKKKKKKKKKKKKKK (eran caras, pero no salieron)

La relación de las probabilidades de que ocurra algo en un caso con respecto a otro se llama razón de probabilidad, y es una cifra estándar que se usa para comparar dos grupos. Aquí, la razón de probabilidad del accidente de auto versus el rayo es (20/9980)/(1/9999) » 20. A menudo se piensa que dos grupos tienen diferentes riesgos o posibilidades de algo, como la probabilidad de las enfermedades cardíacas para aquellos que realizan ejercicio físico versus quienes no lo realizan, o la probabilidad de entrar a la universidad para quienes fueron a diferentes colegios o liceos. La razón de probabilidad comunica claramente la relación entre dos probabilidades, pero esconde la magnitud total de cada una. Sin duda, prohibir un químico tóxico puede reducir a la mitad la probabilidad de un cierto tipo de cáncer, pero si solo se espera que dos personas tengan ese cáncer entonces no es una intervención de salud pública muy significativa. Mientras que una pequeña mejora en las probabilidades de tener cáncer de pulmón puede salvar miles de vidas.

Es posible comunicar dos probabilidades al mismo tiempo, la absoluta y la relativa. Aquí se presentan de nuevo tabaquismo versus mortalidad, esta vez por edad:

51-compressor

Curvas de sobrevida para fumadores y no fumadores, en Stubbornmule.net.

Todo lo que necesitan saber está allí, pero es un poco difícil de interpretar. Veamos: el 60% de los no fumadores vivirá hasta los 80 años, mientras que entre los fumadores solo lo hará el 25%. Averiguar lo que significan estos datos requiere enredarse demasiado con el gráfico y pensar en números. Comparen con la visualización:

52-compressor

Curvas de sobrevida para fumadores y no fumadores. Stubbornmule.net.

Esta visualización usa todos los principios que hemos discutido. Representa las probabilidades como personas y compara las probabilidades tanto entre fumadores y no fumadores como entre diferentes edades. Nadie puede saber si va a morir por ser fumador, pero visualizaciones como estas convierten las incertezas en algo personal.

Hay un montón de trucos y técnicas de comunicación cuantitativa para escoger, y las visualizaciones que he mostrado tampoco son la última palabra en diseño. Sin embargo, el principio más importante para comunicar la incerteza es este: comuníquenla. Por un respeto básico por el lector y por las dificultades del conocimiento, no permitan que alguien lea su nota y se quede con una idea inexacta del riesgo, o demasiado seguro acerca de algo que en realidad es muy sutil.

Predicción

La predicción es importante porque la acción es importante. ¿De qué sirve el periodismo que no ayuda a decidir qué hacer?

La predicción tiene estrechos vínculos con las ideas acerca del futuro y con la verdad. La refutación es uno de los métodos más sólidos de búsqueda de la verdad, y es la predicción lo que nos permite comparar nuestras ideas con el mundo para ver si se sostienen. La predicción está en el centro del testeo de hipótesis, y por lo tanto en el centro de la ciencia. Los periodistas piensan constantemente en el futuro, y a veces publican sus predicciones: un candidato determinado ganará la elección; el Presidente vetará el proyecto de ley si no es revisado; esta guerra tendrá una duración de al menos cinco años. O bien dejan que sus fuentes hagan las predicciones: el analista dice que los precios de las viviendas seguirán aumentando; un nuevo estudio dice que muchas personas serán forzadas a desplazarse si el nivel del mar sigue subiendo. Pero apoyarse en expertos no exime al periodista de diseminar malas predicciones que no ha cuestionado, y resulta que los expertos a menudo se equivocan en sus predicciones.

La obra clave aquí es el libro de Philip Tetlock Expert Political Judgement (2005). A partir de 1984, Tetlock y sus colegas pidieron 82.361 predicciones a 285 personas cuya profesión contemplaba «comentar u ofrecer asesoría sobre tendencias políticas y económicas». Tetlock hizo preguntas muy concretas que se podían calificar con sí o no: «¿Será Gorbachov derrocado por un golpe de Estado?» o «¿Se separará Québec de Canadá?». Pues bien, durante veinte años, consistentemente, y en muchos temas diferentes, la precisión de los expertos no fue mejor que la simple suposición. Como Tetlock dijo: «Un chimpancé lanzando dardos lo haría igual de bien. En lo que se refiere al futuro, nuestros expertos políticos, financieros y económicos casi siempre inventan más que predicen».

Sospecho que esto es decepcionante para mucha gente. Tal vez, pensarán, Tetlock no apuntó a los verdaderos expertos, o las preguntas eran demasiado difíciles. Por desgracia, la metodología parece sólida y hay una gran cantidad de datos que la apoyan. La conclusión parece inevitable: todos somos malos en la predicción de nuestro futuro social y político, y ni la experiencia ni los años de educación ayudan.

Lo que sí ayuda es hacer el seguimiento de nuestras predicciones. Esta es quizás la mayor contribución del trabajo de Tetlock: «Si bien no hay nada raro en que los expertos tengan un papel destacado en los debates, es inhabitual llevarles la cuenta, monitorear su desempeño y contrastarlo con estándares explícitos de precisión y rigor». La manera más sencilla de hacerlo es simplemente anotar cada predicción que se haga y llegado el momento, marcarla como correcta o incorrecta. Por lo menos, esto les obligará a ser claros. Como en una apuesta, los términos deben ser inequívocos desde el principio.

Un análisis más sofisticado toma en cuenta tanto lo que ustedes predicen como lo seguros que están del resultado. De todas las predicciones que ustedes dijeron que eran 70% seguras, alrededor del 70% se deben cumplir. Si realizan un seguimiento tanto de sus predicciones como de su confianza, a la larga pueden producir un cuadro que compare su confianza con la realidad. Como dice Tetlock, «los observadores están perfectamente calibrados cuando existe una correspondencia exacta entre las probabilidades subjetiva y objetiva».

53-compressor

La probabilidad subjetiva es cuán confiado dice alguien estar en su predicción, mientras que la frecuencia objetiva es cuán a menudo las predicciones a ese nivel de confianza resultan ciertas. En estos datos, cuando los expertos le asignaron a un evento un 60% de probabilidad de ocurrir, sus predicciones se cumplieron el 40% de las veces. En general, este cuadro muestra el mismo patrón general hallado en otros estudios de percepción de la probabilidad: los eventos excepcionales son percibidos como muy probables, mientras que se piensa que los eventos comunes son excesivamente raros. También muestra que el conocimiento experto ayuda, pero solo hasta cierto punto. Los diletantes (aficionados que tienen solo un interés casual en el tema) lo hicieron tan bien como los expertos, y a los estudiantes que se les dieron solo tres párrafos de la información lo hicieron solo levemente peor.

La lección general aquí no es que la gente es estúpida, sino que predecir el futuro es muy difícil y que tendemos a ser demasiado confiados. Otra línea clave de investigación muestra que los modelos estadísticos son una de las mejores maneras de mejorar nuestras predicciones.

En 1954, el sicólogo clínico Paul Meehl publicó un librito llamado Clinical Versus Statistical Prediction. Su tema era la predicción del comportamiento humano: preguntas tales como ¿qué notas obtendrá este alumno?, ¿va a renunciar este empleado?, o ¿cuánto tiempo permanecerá en el hospital este paciente? Esta clase de preguntas tiene una gran importancia práctica; es en base a tales predicciones que los delincuentes son liberados bajo libertad condicional y las becas se otorgan a estudiantes prometedores.

Meehl dice que solo hay dos maneras de combinar la información para hacer una predicción: el juicio humano o los modelos estadísticos. Desde luego, se necesita el juicio humano para construir un modelo estadístico, y también podemos convertir el juicio en un número al hacer preguntas como «en una escala de 1 a 5, ¿qué tan seriamente se toma sus tareas este estudiante?» Pero tiene que haber algún método final mediante el cual toda la información disponible se sintetice en una predicción, y ese procedimiento será mecánico o humano. Y resulta que los métodos estadísticos simples son casi siempre mejores que los seres humanos en la combinación de información para predecir el comportamiento.

Sesenta años atrás, Meehl examinó diecinueve estudios que comparaban la predicción clínica y la estadística, y solo uno favoreció al sicólogo entrenado por sobre simples estimaciones actuariales (McNemar, 1955). Es muy impresionante, y más si se tiene en cuenta que los seres humanos tenían acceso a todo tipo de información que no estaba disponible para los modelos estadísticos, incluidas las entrevistas en profundidad. Desde entonces, la evidencia solo ha aumentado en favor de la estadística. Más recientemente, una revisión de 136 estudios que comparan los dos métodos mostró que la predicción estadística era tan buena o mejor que la predicción clínica cerca del 90% del tiempo; y mucho mejor en aproximadamente un 40% del tiempo. Esto se mantiene si miramos muchos tipos de predicciones en campos como la medicina, los negocios y la justicia penal (Grove y otros, 2000).

Eso no quiere decir que los modelos estadísticos funcionen particularmente bien, solo mejor que los seres humanos. Algunas cosas son muy difíciles de predecir, tal vez la mayoría de ellas, y simplemente plantear una suposición basándose en una probabilidad general puede ser tan bueno (o tan malo) como un análisis exhaustivo del caso. Pero para hacerlo tienen que conocer las probabilidades, y los seres humanos no somos particularmente buenos en recolectar y usar la información de frecuencias de forma intuitiva.

De hecho, los modelos estadísticos en cuestión son generalmente fórmulas simples, nada más que multiplicar cada variable de entrada por una cierta ponderación que indica su relevancia, y a continuación sumar todas las variables juntas. En un estudio, se predijeron las calificaciones universitarias solo a partir de la suma ponderada del percentil de las notas del colegio de cada estudiante y su puntaje de SAT [el examen de admisión universitaria]. Las ponderaciones se calcularon por regresión a partir de los últimos años de datos, lo que hacía de ello una extrapolación directa desde el pasado hacia el futuro. Sin embargo, la fórmula funcionó tan bien como los evaluadores profesionales que tenían acceso a todos los materiales de admisión y habían entrevistado personalmente a cada estudiante. Los dos métodos de predicción fallaron de diferentes maneras, y esas diferencias podrían importar, pero ambos tuvieron un rendimiento promedio similarmente mediocre.

La idea de que predictores mecánicos simplistas estén a la par del juicio humano experto o lo superen ha ofendido a muchas personas, y todavía no se toma tan en serio como quizás debería ser. Pero ¿por qué debería ser ofensivo? Meehl (1986) explicó el resultado de esta manera:

Todos sabemos que el cerebro humano tiene limitaciones para ponderar y hacer cómputos. Cuando usted paga en el supermercado no mide al ojo la pila de compras y le dice al cajero, «bueno, a mí me parece que son como 17.000 pesos, ¿qué le parece a usted?». El cajero simplemente suma.

Desde luego los modelos estadísticos que se usan para la predicción no se eligen a sí mismos. Alguien tiene que imaginar qué factores podrían ser relevantes, y se requiere mucha pericia y trabajo en el diseño y calibración de un modelo estadístico. Además, estos siempre pueden fallar. Enfrentado a un fraude, por ejemplo, un modelo de predicción electoral colapsará, y un modelo de rendimiento académico no puede saber lo que significará una muerte en la familia del estudiante. Por otra parte, siempre pueden surgir nuevos conocimientos que conducen a mejores modelos. Pero, en general, un modelo validado es más preciso que las conjeturas humanas, incluso cuando la persona tiene acceso a una gran cantidad de información adicional.

Pienso que hay tres lecciones para el periodismo en todo esto. Primero, la predicción es realmente difícil, y entre los que se dedican a ella casi nadie lo hace mejor que el azar. Segundo, vale la pena usar el mejor método disponible para combinar la información, y ese método suele ser una simple predicción estadística. Tercero, si realmente les importa hacer buenas predicciones, lo mejor que pueden hacer es realizar un seguimiento de su precisión.

Sin embargo, la mayoría de los periodistas casi no piensan en la responsabilidad que conllevan sus predicciones o las de otros que ellos repiten. ¿Cuántos comentaristas lanzan afirmaciones acerca de lo que el Congreso hará o no hará? ¿Cuántos reporteros del ámbito financiero repiten las conjeturas de los analistas sin jamás haber chequeado cuáles son los que aciertan con mayor frecuencia? Es muy difícil conocer el futuro, pero los estándares de precisión periodística aplican para las descripciones del futuro tanto como aplican para las descripciones del presente, si no más. En el caso de las predicciones es especialmente importante ser claro sobre la incerteza y sus limitaciones.

Creo que el periodismo debe ayudar a las personas a actuar, y eso requiere tomar en serio el acto de predecir.

Un paso más allá

Estoy consciente de que los aspectos teóricos que he tocado en este artículo se distancian de alguna manera del trabajo diario en el periodismo de datos. Necesitarán habilidades prácticas como trabajar con planillas de cálculo, limpiar datos, codificar visualizaciones y pedir explicaciones a funcionarios públicos, y yo no he dicho nada sobre ninguna de estas destrezas. Lo siento. Sin embargo, todo este trabajo está guiado por antiguos y profundos principios. Los periodistas están rezagados respecto del pensamiento cuantitativo. Es una pena, porque a veces los números pueden acercarnos a la verdad.

Espero que tengan una mejor idea de las limitaciones de los datos y de las formas en que los analizamos y comunicamos. Hay mucho más que aprender, un montón de conceptos técnicos que son relevantes para el trabajo con datos. Les he hablado de la estadística bayesiana y los sesgos cognitivos, que están a la vanguardia de la práctica contemporánea en muchos campos, pero este texto no tiene la profundidad y el detalle necesario para aprender a hacer análisis estadístico. Nadie podría hacerlo a partir de lo que he escrito. La buena noticia es que no tienen que aprender todo lo que estudian los estadísticos; para eso están sus colaboradores y mentores. La primera responsabilidad de un periodista es el relato de los hechos, y luego el dominio técnico llega con la experiencia de muchos problemas resueltos.

Saberlo todo no convierte a un técnico en profesional, pero sí estar dispuesto a descubrirlo. He usado lenguaje matemático común en un esfuerzo por ayudarles a encontrar más información; con un motor de búsqueda, saber el verdadero nombre de algo les da la capacidad de evocarlo cuando quieran. Así que no se sorprendan cuando no sepan algo. Si son como yo, les saldrá el código incorrecto la primera vez, incluso si saben lo que están haciendo; pero nunca duden que hay una lógica subyacente a toda ecuación y a toda línea de código. Estas cosas no son mágicas; aunque los lenguajes simbólicos de los datos pueden ser intimidantes, aquí no hay nada oscuro.

Mi consejo es buscar siempre el sentido subyacente de las cosas, la explicación sencilla. Aunque sea difícil de encontrar. Cuando haces una pregunta como «¿por qué una encuesta tiene una distribución del error en forma de campana?», podrías perderte en respuestas que parecen presuponer que ya lo sabes, o pruebas inescrutables, o explicaciones que en realidad no explican nada, pero ¡no pierdan la esperanza! Sigan buscando hasta que encuentren una respuesta que tenga sentido.

Pero un técnico no es un periodista. ¿Qué van a ser capaces de hacer con toda esta comprensión y capacidad? Al igual que con cualquier medio, puede tomar un tiempo encontrar su propia voz en el periodismo de datos. Claro, pueden hacer el análisis y la visualización y todo lo demás, pero ¿qué es lo que están diciendo? ¿Qué preguntas están formulando? ¿Qué es eso tan importante, tan urgente que debe atraer la atención y robarle el tiempo a una audiencia de desconocidos para contárselo?

No conozco ninguna manera de descubrir lo que se quiere decir que no sea decirlo. Solo hay que escribir. E informar, codificar y visualizar, pero sea lo que sea que hagan, pongan su trabajo a disposición del mundo. Y enseguida hagan el siguiente. Como decía Steve Jobs, los verdaderos artistas despachan.

Si profundizan su estudio del funcionamiento de los datos van a descubrir mundos enteros, revisitar miles de años de inspiraciones y volver a experimentar cada pequeña epifanía como suya propia. Llegarán poco a poco a una de las fronteras más emocionantes del pensamiento humano, y se unirán a profesionales de muchos otros campos que transforman su trabajo a través de los datos. El análisis cuantitativo ahora impregna todos los aspectos del funcionamiento de la sociedad, desde la salud a las finanzas y la política. Es imposible comprender el mundo moderno sin el manejo de los datos. Y si realmente los manejan comenzarán a ver historias que los demás, literalmente, no se imaginan. Necesitamos que esas historias sean contadas. Ese es, quizás, el mejor argumento posible para aprender más.

Citas

[1] «Tabla A-15: Medidas alternativas de infrautilización laboral», US Bureau of Labor Statistics, www.bls.gov/news.release/empsit.t15.htm.

[2] Pueden ver una discusión clásica sobre la creación de categorías en Sorting Things Out: Classification and Its Consequences, de Geoffrey C. Bowker y Susan Leigh Star (2000).

[3] Para una lista fantástica de razones para la dificultad de la cuantificación en psicología, ver Meehl, 2013.

[4] 452. Columna 9. Sexo. Escriba «H» para hombre y «M» para mujer.

  1. Columna 10. Color o raza. Escriba «B» para blanco; «Neg» para negro; «In» para indígena; «Chi» para chino; «Jp» para japonés; «Fil» para filipino; «Hin» para hindú; y «Cor» para coreano. Para personas de cualquier otra raza, escriba la raza con la palabra completa.
  2. Mexicanos. Los mexicanos deben ser considerados como blancos a menos que pertenezcan a la raza indígena o cualquier otra raza no blanca.
  3. Negros. Una persona de sangre mixta blanca y negra debe ser informada como negra, no importando cuán pequeño sea el porcentaje de sangre negra. Tanto las personas negras como los mulatos deben ser informados como negros, sin distinción. Una persona de sangre mixta indígena y negra debe ser informada como negra, a menos que la sangre indígena predomine de manera definitiva y esa persona sea universalmente aceptada en la comunidad como indígena.
  4. Indígenas. Una persona de sangre mixta blanca e india debe ser informada como india si está enrolada en una Oficina Indígena o en la nómina de una reserva; o si no está enrolada y la proporción de sangre india es una cuarta parte o más; o si es reconocida como indígena en la comunidad donde vive (ver párrafo 455 sobre mezcla de indígena y negro).
  5. Razas mixtas. Cualquier mixtura de blanco y no blanco debe ser reportada según el progenitor no blanco. Las mezclas de razas no blancas deben ser reportadas según la raza del padre, excepto en el caso de indígena y negro, que ha de ser informado como negro.

Sixteenth Decennial Census of the United States: Instructions to Enumerators, Population and Agriculture. 1940, Department of Commerce – Bureau of the Census. Disponible en www.census.gov/history/pdf/1940instructions.pdf.

[5] «Directive Nº 15. Race and Ethnic Standards for Federal Statistics and Administrative Reporting (as adopted on May 12, 1977)», Office of Management and Budget. Disponible en http://wonder.cdc.gov/wonder/help/populations/bridged-race/directive15.html.

[6] Ver «Employment Situation Technical Note», US Bureau of Labor Statistics, 2015. Disponible en www.bls.gov/news.release/empsit.tn.htm.

[7] Ver «How the Government Measures Unemployment», US Bureau of Labor Statistics. Disponible en www.bls.gov/cps/cps_htgm.htm.

[8] Similitud, y no una copia exacta, porque Bernoulli consideraba inicialmente el muestreo «con reemplazo», donde cada persona podría elegirse más de una vez. Esto es así posiblemente porque el muestreo con reemplazo es matemáticamente más simple, y Bernoulli trabajaba con fórmulas aproximadas que se vuelven más exactas en la medida en que aumenta el número de muestras, en lugar de los inmensos números que intervienen en el cálculo directo del número de posibilidades, los que requieren de computadores.

[9] Estoy en deuda con Mark Hansen por la redacción de estos dos enunciados clave.

[10] Antes de que me tapen de correos odiosos: sí, es incorrecto decir que hay un 90% de posibilidades de que el valor real caiga dentro de un intervalo de confianza del 90%. Las contorsiones de los estadísticos de frecuencias nos obligan a decir en cambio que nuestro método de construcción del intervalo de confianza incluirá el valor verdadero para el 90% de las muestras posibles, pero no sabemos nada en absoluto de esta muestra en particular. La distinción es sutil pero real. También es generalmente irrelevante para este tipo de cálculo del margen de error de una muestra, donde el intervalo de confianza es numéricamente muy cercano al intervalo de credibilidad bayesiano, el que de hecho contiene el valor real con una probabilidad del 90%.

[11] « How the Government Measures Unemployment», US Bureau of Labor Statistics, 2015. Disponible en www.bls.gov/cps/cps_htgm.htm.

[12] Si algo es o no «realmente» aleatorio es una cuestión metafísica. Tal vez el universo es totalmente determinista y todo está destinado de antemano. O quizás más datos o mejores conocimientos revelarían conexiones sutiles. Pero desde un punto de vista práctico, solo nos importa si estas fluctuaciones son aleatorias para nosotros. Aleatoriedad, azar, ruido: siempre hay algo en los datos que no sigue un patrón discernible, causado por factores que no podemos explicar. Esto no quiere decir que aquellos factores sean inexplicables. Puede haber tendencias o patrones que no estamos viendo, o datos adicionales que podrían explicar lo que parece casualidad. Por ejemplo, podríamos descubrir que el número de agresiones lo motiva el clima. Pero hasta que descubramos esta relación no tenemos la capacidad de predecir o explicar las variaciones en la tasa de agresiones, de manera que no nos queda más opción que tratarlas como aleatorias.

[13] Un magnífico relato sobre estas ideas es la obra de Ian Hacking The Emergence of Probability (2006).

[14] Si bien las matemáticas terminan en lo mismo, hay una distinción útil entre algo que debemos tratar como aleatorio porque no sabemos la respuesta correcta (incerteza epistémica) y algo que tiene una aleatoriedad intrínseca en su curso futuro (incerteza aleatoria). La diferencia es importante en el manejo del riesgo, donde nuestra incerteza podría reducirse si investigamos más, o al contrario podríamos estar ante los límites fundamentales de la predicción.

[15] El sencillo argumento de Peirce supone una independencia estadística completa entre las posiciones de cada trazo en la firma. Esto es ambiguo porque si mueves una letra al firmar el resto de las letras probablemente también tendrán que moverse. Un análisis más cuidadoso muestra que una coincidencia exacta entre firmas es mucho más probable que 1 en 530 pero aun así es algo extraordinariamente poco probable de suceder por casualidad.

[16] Para una introducción a la estadística bayesiana aplicada, recomiendo Statistical Rethinking, de Richard McElreath (2016), o sus maravillosos videos de conferencias.

[17] Me refiero al efecto mariposa, la idea de que las perturbaciones provocadas por el aletear de una mariposa podrían finalmente convertirse en un huracán. En términos más generales, es la idea de que regularmente pequeños disturbios se magnifican y derivan en grandes cambios. Al precoz teórico del caos Edward Lorenz se le ocurrió la analogía de la mariposa mientras estudiaba la predicción del tiempo meteorológico a principios de los sesenta. En la práctica, este efecto de amplificación de la incertidumbre quiere decir que habrá variaciones aleatorias en nuestros datos, debido a circunstancias específicas e irrepetibles que no podemos tener la esperanza de poder comprender.

[18] Este tipo de modelo de eventos independientes se llama distribución de Poisson, en honor al matemático francés Siméon-Denis Poisson. Pero lo bueno de usar una simulación de nuestra intersección es que no es necesario conocer la fórmula matemática para la distribución de Poisson. Simplemente lanzar monedas independientes da el mismo resultado. La simulación es una forma revolucionaria de hacer estadísticas ya que convierte matemáticas difíciles en códigos sencillos.

[19] Tal vez las dos hipótesis son erróneas y sucedió algo completamente distinto. Tal vez los modelos, que son códigos, no son buenas representaciones de sus hipótesis, que a su vez son ideas que se expresan en el lenguaje. Quizás mis datos son el resultado de un semáforo que sí funciona y además de algo de suerte. Quizás la intersección fue reconstruida después del segundo año con carriles más anchos y un nuevo semáforo. Tal vez la burocracia que levanta los datos cambió la definición de «accidente» para excluir las pequeñas colisiones. O tal vez ustedes hicieron mal los cálculos.

[20] «The Registrar General’s Decennial Supplement for England and Wales, 1970-1972», London, Her Majesty’s Stationary Office, 1978. Disponible en: http://lib.stat.cmu.edu/DASL/Datafiles/SmokingandCancer.html.

[21] Pero a veces es posible saber cuál de las dos variables es la causa y cuál el efecto, solo mirando los datos, aprovechando el hecho de que el ruido en la causa se manifiesta en el efecto pero no viceversa (ver Mooij y otros, 2014).

[22] Michael Keller, información personal.

[23] Encontré esto circulando en internet y no pude descubrir quién lo hizo. Todo mi aprecio al autor desconocido.

[24] Probablemente no fue Russell quien lo dijo primero; según el sitio Quote Investigator, hay toda una historia con las citas erróneas de una frase similar. El texto original de Russell en el capítulo «The Aims of Education» de Education and Good Life es:

The next stage in the development of a desirable form of sensitiviness is sympathy. There is a purely physical sympathy: a very young child will cry because a brother or sister is crying. This, I suppose, affords the basis for the further developments. The two enlargements that are needed are: first, to feel sympathy even when the sufferer is not an object of special affection; secondly, to feel it when the suffering is merely known to be ocurring, not sensibly present. The second of these enlargements depends mainly upon intelligence. It may only go so far as sympathy with suffering which is portrayed vividly and touchingly, as in a good novel; it may, on the other hand, go so far as to enable a man to be moved emotionally by statistics. This capacity for abstract sympathy is as rare as it is important.

[25] Usaré lector como nombre genérico para referirme al consumidor de prensa. Mis disculpas a los reporteros que trabajan en otros formatos.

[26] Una en doce mil según la NOAA [Oficina de Administración Oceánica y Atmosférica de Estados Unidos], basada en las medias de 2004-2013.

Agradecimientos

Gracias al Tow Center for Digital Journalism por la beca de investigación para este trabajo. Estoy en deuda con Mark Hansen por leer no solo uno sino dos largos borradores y proporcionarme una vasta retroalimentación. Andrew Gelman tuvo la amabilidad de revisar el capítulo «Análisis» y verdaderamente determinó mi pensamiento en relación con la causalidad. Kenneth Prewitt leyó el material sobre censo y raza con ojo experto, así que cualquier error restante es responsabilidad mía. Estoy en deuda con los directores de investigación Taylor Owen y Claire Wardle por sus pacientes esfuerzos al guiarme durante casi dos años. Estoy profundamente agradecido de Emily Bell por su apoyo a lo largo de los años, y la fantástica oportunidad de enseñar en Columbia. Mi más cálido agradecimiento público a los alumnos de mi curso Fronteras del Periodismo Computacional, quienes me enseñaron lo que es enseñar y a veces me educaron con su trabajo. Su influencia en mí ha sido mayor de la que piensan. Y gracias a Sara por ayudarme a encontrar el título para este libro. Marzo de 2016.

Bibliografía

APUZZO, Matt, y Adam Goldman (2011), «Documents show NY police watched devout Muslims», Associated Press, 6 de septiembre http://www.ap.org/Content/AP-In-The-News/2011/Documents-show-NY-police-watched-devout-Muslims

BOSTOCK, Mike, y otros (2012), «One Report, Diverging Perspectives», The New York Times, 5 de octubre www.nytimes.com/interactive/2012/10/05/business/economy/one-report-diverging-perspectives.html

COBB, George W. (2007), «The Introductory Statistics Course: A Ptolemaic Curriculum», Technology Innovations in Statistics Education 1(1) http://escholarship.org/uc/item/6hb3k0nz

DALAL, Gerard E. (2012), «Why P=0,05?», www.jerrydallal.com/LHSP/p05.htm

DAVIS, Chris, y Matthew Doig (2004), «State scraps felon voter list», Herald Tribune, 11 de julio http://www.heraldtribune.com/article/20040712/NEWS/407110366

DOYLE, sir Arthur Conan (1927), «The Adventure of the Blanched Soldier», en The Case-Book of Sherlock Holmes.

DURAND, Marianne, y Philippe Flajolet (2003), «Loglog Counting of Large Cardinalities», en Giuseppe Di Battista y Uri Zwick, eds., Algorithms–ESA 2003: 11th Annual European Symposium, Berlín, Springer.

FAGERLIN, Angela, Catharine Wang y Peter A. Ubel (2005), «Reducing the influence of anecdotal reasoning on people’s health care decisions: Is a picture worth a thousand statistics?», Medical Decision Making 25: 398-405.

FALLOWS, James (2013), «Why to Get More Than 1 Newspaper, iPad Edition», The Atlantic, 22 de octubre www.theatlantic.com/national/archive/2013/10/why-to-get-more-than-1-newspaper-ipad-edition/280772/

GELMAN, Andrew (2012), «Statistics for Cigarette Sellers», Chance 25 (3): 43-46. www.stat.columbia.edu/~gelman/research/published/ChanceEthics4.pdf

GRATTON, Brian, y Myron P. Guttman (2000), «Hispanics in the United States, 1850-1990: Estimates of Population Size and National Origin», Historical Methods 33 (3): 137-153.

GROVE, William M., y otros (2000), «Clinical Versus Mechanical Prediction: A Meta-Analysis», Psychological Assessment 12(1): 19-30.

HACKING, Ian (1988), «Telepathy: Origins of Randomization in Experimental Design», Isis 79(3), septiembre: 427-451 www.jstor.org/stable/234674

—————- (2006), The Emergence of Probability: A Philosophical Study of Early Ideas about Probability, Induction and Statisticakl Inference, segunda edición, Cambridge University Press.

HALD, Anders (1999), «On the History of Maximun Likelihood in Relation to Inverse Probability and Least Squares», Statistical Science 14(2), mayo: 214-222 www.jstor.org/stable/2676741

HAMILL, Ruth, Timothy DeCamp Wilson y Richard E. Nisbett (1980), «Insensitivity to Sample Bias: Generalizing from Atypical Cases», Journal of Personality and Social Psychology 39(4), octubre: 578-589 www.researchgate.net/publication/232493795_Insensitivity_to_Sample_Bias_Generalizing_from_Atypical_Cases

HARRIS, Adam J. L., y Adam Corner (2011), «Communicating Environmental Risks: Clarifying the Severity Effect in Interpretations of Verbal Probability Expressions», Journal of Experimental Psychology Learning Memory and Cognition 37(6): 1571-1578 www.ucl.ac.uk/lagnado-lab/publications/harris/HarrisCornerJEPLMC.pdf

HESTENES, David (2003), «Oersted Medal Lecture 2002: Reforming the Mathematical Language of Physics», American Journal of Physics 71(2) http://dx.doi.org/10.1119/1.1522700

HEUER Jr., Richards J. (1999), The Psychology of Intelligence Analysis, CSI Publications https://www.cia.gov/library/center-for-the-study-of-intelligence/csi-publications/books-and-monographs/psychology-of-intelligence-analysis/art1.html

HOFFRAGE, Ulrich, y otros (2002), «Representation Facilitates Reasoning: What Natural Frequencies Are and What They Are Not», Cognition 84(3): 343-352 www.sciencedirect.com/science/article/pii/S0010027702000501

IRWIN, Neil, y Kevin Quealy (2014), «How Not to Be Misled by the Jobs Report», The New York Times, 1 de mayo www.nytimes.com/2014/05/02/upshot/how-not-to-be-misled-by-the-jobs-report.html?_r=0

KAHNEMAN, Daniel (2013), Thinking, Fast and Slow, Nueva York, Farrar, Straus and Giroux (Pensar rápido, pensar despacio, Barcelona, Debate, 2015).

KAPLAN, Daniel T. (2012), Statistical Modeling: A Fresh Approach, segunda edición, Project Mosaic.

KASS, Robert E., y Adrian E. Raftery (1995), «Bayes Factors», Journal of the American Statistical Association 90(430), junio: 773-795 www.jstor.org/stable/2291091

KITCHER, Philip (1993), The Advancement of Science: Science without Legend, Objectivity without Illusions, Oxford, Oxford University Press.

KITSON CLARK, G. (2013), The Making of Victorian England, edición revisada, Nueva York, Routledge.

KYPRI, Kypros, y otros (2010), «Effects of Restricting Pub Closing Times on Night-time Assaults in an Australian City», Addiction 106(2), febrero: 303-310 onlinelibrary.wiley.com/enhanced/doi/10.1111/j.1360-0443.2010.03125.x

LEVITT, Steven D. (2004), «Understanding Why Crime Fell in the 1990s: Four Factors That Explain the Decline and Six That Do Not», Journal of Economic Perspectives 18(1): 163-190 https://www.aeaweb.org/articles?id=10.1257/089533004773563485

LOPEZ, Mark Hugo, y Jens Manuel Krogstad (2014), «“Mexican”, “Hispanic”, “Latin American” top list of race write-ins on the 2010 census», Pew Research Center, 4 de abril www.pewresearch.org/fact-tank/2014/04/04/mexican-hispanic-and-latin-american-top-list-of-race-write-ins-on-the-2010-census/

MAHAJAN, Sanjoy (2010), Street-Fighting Mathematics: The Art of Educated Guessing and Opportunistic Problem Solving, Cambridge, Massachussetts, The MIT Press.

MANKIW, Greg (2011), «A Striking Scatterplot», en www.gregmankiw.blogspot.com/2011/03/striking-scatterplot.html

MANN, Bikaramjit, y Evan Wood (2012), «Confounding in Observational Studies Explained», The Open Emidemiology Journal 5: 18-20 www.benthamopen.com/contents/pdf/TOEPIJ/TOEPIJ-5-18.pdf

McCARTHY, Justin (2014), «Most Americans Still See Crime Up Over Last Year», Gallup (Politics), 21 de noviembre www.gallup.com/poll/179546/americans-crime-last-year.aspx

McGRAYNE, Sharon Bertsch (2011), The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines and Emerged Triumphant from Two Centuries of Controversy, New Haven, Yale University Press.

McNEMAR, Quinn (1955), «Review of Clinical Versus Statistical Prediction: A Theoretical Analysis and a Review of the Evidence, by Paul Meehl», The American Journal of Psychology 69(3).

MEEHL, Paul E. (2013), Clinical versus Statistical Prediction: A Theoretical Analysis and a Review of the Evidence, nueva edición, Vermont, Echo Point Books & Media.

(1986), «Causes and Effects of My Disturbing Little Book», Journal of Personality Assessment 50(3): 370-375.

MEIER, Paul, y Sandy Zabell (1980), «Benjamin Pierce and the Howland will», Journal of the American Statistical Association 75(371): 497-506.

MESSERLI, Franz H. (2012), «Chocolate Consumption, Cognitive Function, and Nobel Laureates», New England Journal of Medicine 367, 18 de octubre: 1562-1564 www.nejm.org/doi/full/10.1056/NEJMon1211064

MILBERGER, Sharon, y otros (2006), «Tobacco manufacturers’ defence against plaintiffs’ claims of cancer causation: throwing mud at the wall and hoping some of it will stick», Tobacco Control 15(Suppl 4): iv17-iv26 http://doi.org/10.1136/tc.2006.016956

MILL, John Stuart (1843), A System of Logic, Ratiocinative and Inductive, vol. 1, John W. Parker, 455. https://books.google.cl/books?id=y4MEAAAAQAAJ&source=gbs_navlinks_s

MOOIJ, Joris M., y otros (2014), «Distinguishing cause from effect using observational data: methods and benchmarks» www.arxiv.org/abs/1412.3773

MUNZNER, Tamara (2009), «Visualization», en Peter Shirley y Steve Marschner, Fundamentals of Computer Graphics, tercera edición, AK Peters, 675-707 http://www.cs.ubc.ca/labs/imager/tr/2009/VisChapter

NIOSE, David (2015), «Anti-intellectualism Is Killing America», Psychology Today, 23 de junio https://www.psychologytoday.com/blog/our-humanity-naturally/201506/anti-intellectualism-is-killing-america

PAGEL, James F., Natalie Forister y Carol Kwiatkowki (2007), «Adolescent Sleep Disturbance and School Performance: The Confounding Variable of Socioeconomics», Journal of Clinical Sleep Medicine 3(1): 19-23.

PEARL, Judea (2009), Causality: Models, Reasoning, and Inference, segunda edición, Cambridge, Cambridge University Press.

PEIRCE, Charles Sanders (1868), «Some Consequences of Four Incapacities», Journal of Speculative Philosophy 2: 140-157.

POLLACK, Jessica M., y Charis E. Kubrin (2007), «Crime in the News: How Crimes, Offenders and Victims Are Portrayed in the Media», Journal of Criminal Justice and Popular Culture 14(1): 59-83.

RAPHAEL, Steven, y Jens Ludwig (2003), «Prison Sentence Enhancements: The Case of Project Exile», en Jens Ludwig y Philip J. Cook, eds., Evaluating Gun Policy: Effects on Crime and Violence, Washington, Brookings Institution Press, 251-286. http://home.uchicago.edu/ludwigj/papers/Exile_chapter_2003.pdf

RÍOS, Miguel (2013), «The Geography of Tweets», Twitter, 31 de mayo https://blog.twitter.com/2013/the-geography-of-tweets

RUDDER, Christian (2009), «Exactly What to Say In a First Message», OKCupid, 14 de septiembre http://blog.okcupid.com/index.php/online-dating-advice-exactly-what-to-say-in-a-first-message/

SCHMANDT-BESSERAT, Denise (2009), «Tokens and Writing: The Cognitive Development», SCRIPTA 1: 145-154 https://sites.utexas.edu/dsb/tokens/tokens-and-writing-the-cognitive-development/

SCOTT, James C. (1998), Seeing Like a State: How Certain Schemes to Improve the Human Condition Have Failed, New Haven, Yale University Press.

SILVER, Nate (2015), The Signal and the Noise: Why So Many Predictions Fail-But Some Don’t, Nueva York, Penguin.

STEFANER, Moritz (2011), «The VIZoSPHERE», en blog Well-Formed Data, 25 de julio http://well-formed-data.net/archives/642/the-vizosphere

STRAY, Jonathan (2016), «Ethics in Data Journalism: Margin of Error in Bureau of Labor Statistics Reports», Data Driven Journalism, 15 de enero http://datadrivenjournalism.net/news_and_analysis/ethics_in_data_journalism_margin_of_error_in_bureau_of_labor_statistics_rep

TETLOCK, Philip E. (2005), Expert Political Judgment: How Good Is It? How Can We Know?, Nueva Jersey, Princeton University Press.

WAITE, Matt (2013), «Handling Data About Race and Ethnicity», OpenNews Source, 20 de junio https://source.opennews.org/en-US/learning/handling-data-about-race-and-ethnicity/

WEBER, Elke U. (1994), «From Subjective Probabilities to Decision Weights: The Effect of Asymmetric Loss Function on the Evaluation of Uncertain Outcomes and Events», Psychological Bulletin 115(2), marzo: 228-242.

WOJEWODA, Jerzy, y otros (2008), «Hysteretic Effects of Dry Friction: Modelling and Experimental Studies», Philosophical Transactions of The Royal Society A 366: 747-765 http://rsta.royalsocietypublishing.org/content/roypta/366/1866/747.full.pdf