Also available in English – Virus, Statistics and Videogames
Mi sembra che il modo in cui vengono utilizzati i numeri relativi al Corona Virus in questa fase di isteria collettiva non aiuti a capire il fenomeno.
Si moltiplicano animazioni e “infografiche” sulla diffusione dei contagi, sul numero dei decessi o sulla velocità di propagazione del virus, ma difficilmente sono resi noti i criteri utilizzati per produrre questi materiali e, a volte, viene il sospetto che alcuni di questi siano realizzati senza una reale conoscenza di base di come funziona la statistica.
Prevengo una (facile) obiezione: è vero, sono un giurista e non uno statistico quindi non ho titolo per parlare con competenza scientifica dell’argomento.
E’ vero, e infatti non intendo farlo. Mi limiterò ad applicare quello che di matematica ho imparato fra liceo e università e quanto di statistica ho studiato collaborando all’edizione italiana del classico di Darrell Huff, How to lie with statistics, curato e tradotto da Giancarlo Livraghi (che da grande uomo di advertising conosceva perfettamente il tema) e dal prof. Riccardo Puglisi (che da economista, è altrettanto versato in materia).
Non offro “verità”, dunque, ma solo dubbi in cerca di risposte.
In primo luogo: unificare le varie categorie di deceduti rende il campione squilibrato e calcolare il tasso di mortalità su una popolazione indifferenziata fornisce un risultato inattendibile. Per stabilire il tasso della letalità del virus si dovrebbe quantomeno differenziare chi aveva altre patologie sulle cui conseguenze si e’ “innestato” il virus, da chi era malato di altro ma non lo sapeva, da chi si trovava in condizioni particolari che hanno favorito l’espansione del virus (immunodepressione da iperattività sportiva, per esempio). Questo articolo va nella direzione giusta, anche se permane il problema metodologico di come si usano le statistiche.
In secondo luogo: un conto è analizzare un campione statisticamente valido, un conto è analizzare un campione squilibrato. In altri termini: se cerco i tifosi di una squadra di calcio nella curva dei suoi sostenitori, avrò un risultato evidentemente diverso da quello che otterrei se utilizzassi un campione basato – a seconda del livello della squadra – su base cittadina o nazionale. Anche i campioni squilibrati possono servire, ma bisogna avere chiari i limiti della conoscenza che generano.
In terzo luogo (e in conseguenza): anche trasformare i valori assoluti di morti e contagi in vari Paesi in percentuali senza adottare dei pesi è metodologicamente sbagliato. Dire – come fa Il Giornale – che il tasso di mortalità è del 4% su 3.858 casi induce una generalizzazione scorretta se si compara il rapporto “rozzo” fra numero di casi e decessi.
Inoltre, e concludendo: fino a quando non ci sono numeri abbastanza grandi per ottenere una significatività statistica, bisognerebbe avere molta cautela nel diffonderli. Se 7 persone su dieci o 490.000 su 700.000 danno una certa risposta a un questionario, in entrambi i casi possiamo dire che il 70% degli intervistati si è pronunciato in un determinato modo. Ma (ferma restando la necessità di un campione statisticamente valido) è evidente la diversità del valore delle risposte in un caso e nell’altro. Sarebbe utile sapere, per esempio, se i numeri utilizzati in uno studio come questo siano ancora troppo bassi per essere statisticamente validi oppure no. Nel primo caso sarebbero solo una “fotografia”, nel secondo caso potrebber avere valore più generale.
Rileggere Darrell Huff ( disponibile anche in Italiano), dunque, potrebbe non essere una cattiva idea.
Possibly Related Posts:
- Chi ci protegge dal dossieraggio tecnologico?
- Webscraping e Dataset AI: se il fine è di interesse pubblico non c’è violazione di copyright
- Perché Apple ha ritirato la causa contro la società israeliana dietro lo spyware Pegasus?
- Le sanzioni UE ad Apple e Google aprono un altro fronte nella guerra contro Big Tech (e incrinano quello interno)
- La rottura tra Stati e big tech non è mai stata così forte