(Esta anotación se publica simultáneamente en Naukas)
Me encuentro en Twitter con el siguiente gráfico despropósito de CBS News:
donde se hace referencia al porcentaje de estadounidenses que dice haber probado la marihuana. Evidentemente, los porcentajes no suman 100 % porque se refieren a una misma población en tres instantes temporales diferentes. Evidentemente, digo, si uno lee todo el texto y se para a digerir lo que está viendo, por lo que mostrar una gráfica pierde toda su razón de ser.
Gráficas horribles como esta constituyen, desafortunadamente, la tónica generalizada en los medios de comunicación, con mención especial para la televisión. Pero esta en concreto me ha llamado especialmente la atención porque, paradójicamente, la torpeza en la representación esconde un despropósito mucho mayor que tiene que ver con los datos (o su ausencia, más bien).
Desconozco si CBSN quería decirnos simplemente que mucha gente apoya la legalización de la marihuana, como reza el titular. Si es así, no entiendo qué tiene que ver el porcentaje de gente que la ha probado y, en todo caso, el dato de hoy en día sería más que suficiente. Por el contrario, la elección de la pregunta y los datos históricos sugieren más bien que el número de fumetas se ha disparado peligrosamente (crecimiento de 9 puntos en 19 años y ¡8 puntos en el último año!). Pero independientemente de su intención, la representación de una serie temporal debe hacerse de la siguiente manera:
Además, cuando hablamos de porcentajes, lo ideal es comprimir el eje hasta mostrar la referencia del 0 %:
Desatinos aparte, se agradece que CBSN especifique el margen de error, que es del +/- 4 % (con un nivel de confianza del 95 %, asumo, por lo que podemos inferir que el número de encuestados se sitúa entre 500 y 1000 personas). Una última mejora, por tanto, pasaría por añadir dicho margen de error:
Ahora tenemos una buena gráfica, pero el problema de fondo persiste: estamos haciendo periodismo de datos sin datos. ¿Qué hay entre 1997 y 2016? No lo sabemos (y no sabemos si lo saben), y por tanto no hay manera de interpretar el aparente crecimiento del último año. Podemos hacer, no obstante, el ejercicio de inventarnos unos cuantos datos, aunque sea de manera chabacana, y ver cómo podría cambiar el cuento:
Simplemente he cogido la media de los datos de 1997 y hoy y he generado valores según una normal de desviación adecuada al margen de error. Como resultado, el efecto de crecimiento acelerado desaparece. En definitiva, parece claro que ha habido un incremento desde el año 1997, pero poco o nada podemos decir del incremento del último año.