La Gripe y las Variables Ocultas

By Blai5 | 24 enero 2020

Hace muchos-muchos años un excelente profesor en gestión de datos nos aleccionaba sobre las sutiles diferencias entre las variables relacionadas y los riesgos de atribuirles sistemáticamente causa-efecto.

El ejemplo práctico que nos planteó me sigue pareciendo útil. Nos pidió que imaginásemos una tabla temporal que reflejara la primeras nevadas en los Alpes y, del otro lado, la aparición de la gripe en cualquier punto del hemisferio norte.

Nos preguntó si nos parecía factible que hubiese una fuerte relación y coincidencia entre ambos acontecimientos. Todos estábamos de acuerdo en que era muy probable que ambas variables tuvieran una fuerte correlación temporal. Y también que esa relación tuviera un importante histórico que la avalase.

«Así pues –concluyó– ¿podríamos decir que la aparición de la gripe en cualquier parte del mundo y las primeras nevadas en los Alpes están relacionadas?«

En ese punto, toda la clase quedó callada. No nos atrevíamos a decir que sí, porque era un absurdo. Una nevada en Suiza no puede causar ningún efecto sobre la salud de la población en China o Siberia. Tampoco nos atrevíamos a decir que no, porque acabábamos de admitir que existía una relación evidente entre ambos hechos.

«Así pues –concluyó– ¿podríamos decir que la aparición de la gripe en cualquier parte del mundo y las primeras nevadas en los Alpes están relacionadas?»

Evidentemente, había una «variable oculta» común, que era «el frío», factor desencadenante de las dos anteriores.

Pero, lo importante es que este tipo de especulaciones entre variables relacionadas son una de las más habituales «trampas» de aspecto matemático-científico que sirven, en el mejor de los casos, para distraernos con algún titular llamativo o, en el peor, para confundirnos.

Quédense con el ejemplo, por favor. Y con el concepto de las «variables ocultas», causantes reales de algunas relaciones aparentemente sorprendentes, pero que pueden ser ambas simultáneamente EFECTO y, ninguna de ellas, CAUSA de la otra.

Obama, la reelección y los Redskins

By Blai5 | 14 enero 2020

En 2012 Obama se enfrentaba a su reelección. Su opositor era el senador republicano Mitt Ronmey. Pero eso poco importaba porque la reelección de Obama dependía de lo que hicieran los Washington Redskins, que así se llamaba el equipo de futbol americano de la capital. Así de fácil y así de claro.

Para empezar, este hallazgo se lo debo a un artículo publicado por Julio Embid en el desaparecido blog Zona Roja. Tal como lo leía, me daba cuenta de lo bien que me vendría como ejemplo para diferenciar entre CAUSALIDAD y CASUALIDAD, también en el campo del trading.

Estamos muy acostumbrados a ver como cualquier patrón parecido entre dos índices o valores acaba [sin mucha más justificación que la supuesta similitud gráfica] deviniendo en un “indicador referencia” o en un “indicador adelantado”, el uno del otro.

Déjenme que les explique con este ejemplo tan adecuado hasta qué punto esa práctica puede estar [y está, en muchos casos] completamente injustificada.

Pensaba en lo bien que me vendría como ejemplo para diferenciar entre CAUSALIDAD y CASUALIDAD.

Según explicaba en aquel artículo Julio Embid en el año 2000 un tipo llamado Steve Hirt descubrió que el resultado del último partido de los Redskins y el de las elecciones estaban relacionados. Resultaba que según las últimas 18 elecciones presidenciales de los EE.UU. (desde la Segunda Guerra Mundial), cuando los Redskins ganaban el partido del domingo anterior a las elecciones, ganaba las elecciones el partido que gobernaba en ese momento, y cuando eso no pasaba, ganaba el partido de la oposición.

Eso había pasado en todas las elecciones desde 1940 con la sola excepción de 2004, cuando Bush Jr. le ganó a Kerry y a pesar que Washington perdió contra Green Bay. A pesar de ello, Bush Jr. revalidó mandato.

Una sola excepción a la regla tras 68 años y 18 elecciones parece bastante fiable, ¿no les parece? Pues así se “fabrican” [y hasta con menos] algunos de los más “fiables” indicadores adelantados o correlacionados con los que nos convencen de entrar aquí o allá o girar una posición. Sigo y acabo con este ejemplo [aunque les aseguro que tengo más…, quizás para otro día].

Aquellas elecciones a la Presidencia de los EE.UU. tuvieron lugar el martes 6 de noviembre de 2012. Los Redskins jugarán en casa frente a los Carolina Panthers que aquel año estaban siendo uno de los peores equipos del campeonato con 1 victoria y 5 derrotas.

Pero déjeme ir un poco más allá. Según la encuesta Gallup, Obama superaba a su oponente republicano por un escuálido 50% a 44%. Sin embargo, en Las Vegas, las apuestas estaban marcadas en un 60/40.

Al final, Obama ganó su reelección y su derecho a un segundo mandato con un 51% del voto popular por un 47% de su oponente.

Y aquí es dónde los amables lectores se preguntarán, ¿y qué hicieron los Redskins? Pues perdieron ante Carolina 13 – 21. Así que la «norma», el «indicador avanzado», falló otra vez.

Este artículo originalmente lo escribí en 2012. Imagino que al lector (como a mí mismo) le picará la curiosidad de saber que ha ocurrido en convocatorias posteriores.

De hecho, hasta el momento en que redacté este artículo, sólo había habido una convocatoria electoral más, que fue el 8/11/2016 con la elección de Trump (Rep = Cambio). Sin embargo nos encontramos ante un problema porque, el partido anterior a la fecha de las elecciones los Redskins lo empataron a 27 ante Cincinnati, un resultado (el del empate) muy extraño en la NFL. Así que nos quedamos sin poder evaluar si la extraña relación entre ambos acontecimientos se mantenía o quedaba definitivamente rota.

Y queda [mejor que nunca] demostrado que una CASUALIDAD (o muchas seguidas) no debería ser tomada por indicador de nada, por mucho que CASUALMENTE se repita una y otra vez, como TANTAS VECES pretenden hacernos creer. Esa era la moraleja.

SEAN CRÍTICOS, POR FAVOR.