Cuidado con la estadística

EL MAL USO DE LA ESTADÍSTICA
El ser humano tiene un excesivo propósito de buscar explicaciones. Y es que el hombre ha triunfado como especie gracias a que somos muy buenos buscando causas. Hemos descubierto causas, y las hemos descubierto donde las hay —por ejemplo hemos descubierto que la luna causa las mareas y eso nos permite predecirlas—, pero otras veces tratamos de buscarlas donde no las hay.
Y de eso trata el artículo de hoy. De cómo a toda costa tratamos de dar explicaciones a las cosas.
"Un estudio sobre la incidencia de cáncer de riñón en la década de los 80 en los Estados Unidos muestra que de los 3.141 condados, aquellos donde la enfermedad fue más infrecuente, eran condados rurales, de baja población, tradicionalmente republicanos y situados en el centro o sur del país" Claro. Es la zona rural. Aire fresco, puro, no hay tanta contaminación, buenos alimentos... enseguida ponemos la explicación. Sin embargo, el mismo estudio muestra que de los 3.141 condados, aquellos en los que la enfermedad era más frecuente son condados rurales, de baja población, tradicionalmente republicanos y situados en el centro o sur del país.
Si a alguien le enseñaran este resultado y no el anterior, pensaría: "Claro, están ahí en la zona rural, la atención médica es mala, además estos republicanos tienen más tabaquismo..." Lo que es evidente es que las dos explicaciones no pueden ser simultáneamente ciertas. O la zona rural es buena para el cáncer de riñón o no lo es, pero no podemos aceptar las dos explicaciones. Uno se quedará de un lado u otro dependiendo de la idea que tenga de lo rural.
Si la idea que tenemos del campo en Estados Unidos son montañas rocosas, arroyos de agua cristalina, etcétera, creeremos lo primero; pero si en cambio nuestra idea del ambiente rural en Estados Unidos son aquellos ranchos donde las familias hacen whisky clandestino y salen con escopeta de doble cañón, nos decantaremos por lo segundo. ¿Y cómo se explican tales resultados? Porque las zonas rurales o bien son positivas para la enfermedad o bien son negativas, ¿no? ¿Cómo explicamos estos resultados contradictorios? ¿Y si estamos buscando explicaciones donde no las hay? Pues eso es lo que realmente está pasando.
Aunque el estudio indicaba que los condados en los que la enfermedad fue más infrecuente eran los condados rurales, de baja población, tradicionalmente republicanos y situados en el centro o sur del país, el dato realmente relevante ha sido el único en el que no nos hemos fijado: que eran de baja población.
Y es que cuando una observación se aparta mucho de la media es porque hay pocos casos. Si os digo que tiro mil monedas, no me vais a creer si os digo que me han salido 999 caras. Por la misma razón, si os digo que he tirado monedas y todas me han salido caras, es porque he tirado pocas (ley de los pequeños números).
En el ejemplo ocurre lo mismo. Los condados con alta población tienden más a acercarse a la incidencia media de cáncer de riñón, mientras que si queremos encontrar condados con índices sorprendentes (sorprendentemente altos o sorprendentemente bajos) los encontraremos en condados con baja población.
Por llevarlo a un extremo, imaginemos que tuviéramos un condado con solo 3 habitantes. Si se diera la fatalidad de que una sola persona contrajera cáncer de riñón, la proporción sería altísima, puesto que es uno entre muy pocos.
Si en cambio, tuviéramos la buena fortuna de que nadie lo contrajera, tendríamos una incidencia del 0%. Los resultados más asombrosos (los que más se desvían de la media) se obtienen siempre en poblaciones pequeñas.
Probablemente el cáncer de riñón tuviera una distribución aleatoria a lo largo del país (y nos hemos empeñamos en buscar causas), pero un mal uso de la estadística nos conduce a conclusiones erróneas.
Así que ya sabéis lectores americanos del Iralabarri, podéis seguir veraneando en vuestra casa de campo y seguir votando a quien queráis, que vuestros riñones estarán a salvo.