martedì 28 marzo 2017

La statistica del "pollo" e i suoi inganni

Come si legge sul sito ufficiale Mathematics and Statistics Awareness Month, il mese di aprile segna un momento importante per aumentare la comprensione e l'apprezzamento di "matematica e statistica", tema a cui è dedicato quest'anno.
La matematica e le statistiche sono infatti considerati importanti motori dell'innovazione nel nostro mondo tecnologico, in cui i nuovi sistemi e le nuove metodologie continuano a diventare sempre più complesse.
Ma il mese di aprile in USA oltre che alla matematica è dedicato anche alla poesia, National Poetry Month, e da qui prendo spunto per il mio post.

Proprio alla Statistica infatti è indirizzato un fine sonetto di Trilussa, alias Carlo Alberto Salustri (Trilussa è l'anagramma del suo cognome) intitolato proprio "La Statistica" (Roma, 26 ottobre 1861):



Anche se ai tempi di Trilussa mangiare pollo era considerata “una cosa da ricchi” mentre oggi la "statistica del pollo" potrebbe essere settimanle, non cambia certo il significato del fine ragionamento.
Un modo semplice, con stile e fine umorismo, ma chiaro e indiscutibile, per sottolineare come la statistica, con la sua più “proverbiale” osservazione a proposito della media non rispecchi la realtà.
Quella per cui se qualcuno mangia un pollo, e qualcun altro no, in media hanno mangiato mezzo pollo, senza contare che l’osservazione non è così ovvia come possa sembrare.

Tutto questo per introdurre un tema che mi sta molto a cuore proprio a proposito della statistica classica e delle sue "medie".
Siamo sicuri che oggi, con una più evoluta cultura della statistica, non si possa cadere in errore? 
La cosa non è così semplice o ovvia e i dati e le rilevazioni possono essere sia generati che interpretati in modi diversi, spesso portando a risultati intenzionalmente ingannevoli o sbadatamente deformanti.
Va tenuto infatti sempre presente (ma spesso sfugge all'attenzione) che la “media” è un dato poco significativo se non sappiamo a che cosa si riferisce, su quale base è calcolata, con quale criterio è definita. 
La media, comunque calcolata, rimane un concetto astratto e una delle poche certezze assolute della statistica è che ciò che è “medio” non esiste, perché ogni cosa si colloca necessariamente sopra o sotto il dato “medio”. 
E non è solo una questione di aritmetica e in ogni caso è importante diffidare di ogni concetto “standardizzato”, anche quando non è espresso in forma di media numerica.
E sempre più spesso accade che un dato statistico (come anche una notizia o un’opinione), arbitrariamente o incautamente pubblicata, sia ripresa acriticamente e abbia un’enorme diffusione senza che venga fatta alcuna verifica sull’attendibilità della sua origine. 
Talvolta una “bufala” può sopravvivere per millenni.
Disegno di Irving Geis da "How To Lie With Statistics" di Darrell Huff 
- New York, Norton - 1954

Anche se parrebbe esagerato affermare che la diffusione di una notizia possa essere inversamente proporzionale alla sua credibilità, sta di fatto, soprattutto ultimamente con la diffusione delle informazioni su internet, che molte cose considerate “vere” non hanno alcun fondamento se non il fatto che sono così diffuse da sembrarlo. 
E accade inevitabilmente con dati e statistiche come con ogni altro genere di informazioni.
Il problema non sta tanto nell’esistenza degli errori, che sono sempre possibili, quanto nella diffusa abitudine di accettare dati sballati e incoerenti come se fossero “certezze” indiscutibili e di ripeterli ad infinitum senza mai verificarne la credibilità.
E ciò purtroppo accade non solo per statistiche riguardanti sondaggi o previsioni meteo, ma anche per temi molto più delicati legati ad esempio all'informazione medica, alla prevenzione e alla cura di malattie.
Deformazioni consapevoli e stupidaggini involontarie le cui conseguenze sarebbero comiche se non fossero invece drammatiche e pericolose.

Le statistiche sono uno strumento di notevole utilità solo se usate bene!
Il problema non è la "statistica" e i procedimenti matematici da cui deriva, strumenti essenziali della ricerca scientifica, quanto l'uso, l'interpretazione o la deformazione dei dati che vengono rilevati e, molto importante come punto di partenza delle indagini stesse, la scelta del campione.
Scelta del campione che si rivela fondamentale volendo generalizzare dati rilevati su un numero finito di soggetti. E' facile capire che più basso o poco significativo è il nunero dei soggetti del campione più alta sarà la possibilità di errore o di manipolazione dei dati stessi nella valutazione generalizzata.

Non volendo addentrarmi nei metodi di rilevazioni statistiche ormai più comunemente adottati, vorrei invece sottolineare l'importanza di un approccio scientifico di personale specificatamente preparato, ma nello stesso tempo consapevole della non assoluta certezza nell'interpretazione dei dati stessi.
Insomma bisogna essere accorti, forse dubbiosi, ma mai certi!
Forse anche "ammirati", ma non fiduciosi, come Alice nel Paese delle Meraviglie?


Illustratione (1865), di John Tenniel, del romanzo di Lewis Carroll, "Alice nel Paese delle Meraviglie"
Alice, la Lepre Marzolina e il Cappellaio Matto 
Davanti alla casa, sotto un albero, c'era una tavola alla quale sedevano la Lepre Marzolina e il Cappellaio 
a prendere il tè; in mezzo a loro era seduto un Ghiro che dormiva profondamente e gli altri due lo usavano 
come cuscino per appoggiarvi il gomito, mentre facevano conversazione al di sopra della sua testa.

Charles Lutwidge Dodgson, che sotto lo pseudonimo di Lewis Carroll scrisse le celebri quanto un po' ambigue e inquietanti favole di Alice, era oltre che un illustre fotografo britannico, anche un matematico e un logico, e questa è una sua osservazione in proposito:

"Se vuoi ispirare fiducia, dai molti dati statistici. Non importa che siano esatti, neppure che siano comprensibili. Basta che siano in quantità sufficiente".

Insomma una quantità sufficiente per trarre in inganno e questo mi ricorda anche un testo “piacevolmente sovversivo”, come lo definì l’Atlantic Monthly al tempo della sua prima pubblicazione, poi diventato il testo di riferimento per gli studi su come dati e statistiche possano essere intenzionalmente ingannevoli o involontariamente devianti.
Si tratta di un libro scritto da Darrell Huff (con le illustrazioni di Irving Geis) dal titolo originale "How to lie with statistics" (testo completo in inglese quiuscito in USA nel lontanissimo 1954, ma pubblicato in Italia, da Monti & Ambrosini Editori su licenza di Pollinger Ltd, solo nel 2007 (traduzione a cura di Giancarlo Livraghi e Riccardo Puglisi) con il titolo "Mentire con le Statistiche" e riproduce le illustrazioni originali di Irving Geis, alla cui simpatica immediatezza e ironia si deve certamente parte del successo del libro. 


Disegno di Irving Geis da "How To Lie With Statistics" di Darrell Huff 
- New York, Norton - 1954

Fu scritto, non da un matematico ma da un giornalista preparato, per tutte le persone che desiderassero capire meglio il significato di numeri, dati e deduzioni da cui siamo continuamente inondati e confusi, ma nel 2004, in occasione del cinquantesimo anniversario della prima edizione, il prestigioso Institute of Mathematical Statistics  dedicò al libro di Huff una sezione speciale della sua rivista. 
Un testo scientificamente preciso e sicuramente ancora molto attuale, di facile lettura, ironico e divertente, ma nello stesso tempo molto serio nella sostanza che cercava anche di porre fine all'apparente oggettività dei numeri e alla conseguente disinformazione selvaggia.
Ne ho riletto tempo fa l'edizione italiana e direi con molto interesse e piacere, anche perché arricchita da annotazioni e commenti, introduzioni e appendici dei traduttori che spiegano metodologie sviluppate nel frattempo, citando anche esempi italiani (o comunque “non americani”) tanto che alcuni di questi si percepiscono come davvero "illuminanti".
Illuminanti come una famosa osservazione di Platone

"Sappiamo bene che queste argomentazioni basate sulle probabilità sono imposture, e se non abbiamo molta cautela nel loro uso possono essere ingannevoli"

Certo bisogna fare una netta distinzione fra la matematica, che in questo caso coinvolge essenzialmente il calcolo delle probabilità, e il modo in cui si raccolgono, s'interpretano e si elaborano i dati. 
Anche se esistono metodi precisi per determinare il “margine di errore”, questo gioco forza non può mai essere zero, ed è proprio per  per questo si potrebbe definire la statistica la "scienza dell’inesattezza", in grado di dirci con precisione qual è il margine di errore in ogni dato. 
Perciò, come sosteneva Platone, nessuna statistica può essere “esatta”, anche se questa esigenza filosofica non deve togliere il merito alle statistiche di essere utili e, sempre nei limiti dell’inevitabile incertezza, credibili.
Come è auspicabile e nella sua stessa natura, ogni scienza ha il dovere di dubitare di se stessa e ogni teoria deve essere considerata valida fino al momento in cui nuovi sviluppi sperimentali o metodologici la possano mettere in discussione.


Disegno di Irving Geis da "How To Lie With Statistics" di Darrell Huff 
- New York, Norton - 1954


Comunque sta di fatto che le statistiche sono manipolabili e sempre in tutto il loro sviluppo, dall’impostazione iniziale (scelta del campione) fino alle interpretazioni conclusive (inferenze e generalizzazioni), anche se le deformazioni a volte non sono necessariamente intenzionali ma dovute a superficialità di valutazione o a errori di impostazione. 
Errori non “voluti”, ma che ugualmente risultano devianti, e che, diffusi come presunte certezze, hanno la pretesa di “dimostrare” tutto e il contrario di tutto.
Una frase famosa attribuita da Mark Twain a Benjamin Disraeli, I conte di Beaconsfield, politico e scrittore britannico nel periodo Vittoriano, ma mai riscontrata nei suoi lavori, riassume molto bene la valenza che possono avere alcune statistiche:

"There are three kinds of lies: lies, damned lies, and statistics" 
("Ci sono tre specie di bugie: le bugie, le sfacciate bugie, e le statistiche")

Non sempre si tratta di “bugie” e una statistica può essere “falsa” non per distorsione intenzionale, ma per un errore di metodo o di interpretazione. 
Anche quando la significatività, da un punto di vista matematico, è seria (anche se spesso non lo è) ci possono essere molti fattori che rendono discutibile il risultato. Basta una piccola differenza nel modo in cui si pone una domanda o come si raccolgono e si interpretano i dati, per poter appunto “dimostrare” tutto e il contrario di tutto. 



Da un'illustrazione della Bibbia di Gustave Doré

Eppure inizialmente la statistica aveva scopi assolutamente nobili e la parola statistica deriva dalla parola "Stato" ed è una scienza nata proprio per poter governare bene uno stato. 
Infatti, la necessità di effettuare rilevazioni statistiche fu avvertita quando gli antichi popoli cominciarono a darsi una organizzazione sociale, una struttura economica, un ordinamento militare. 
Uno tra i più antichi rilevamenti di dati di cui si abbia notizia, è quello svolto da Mosè nel deserto del Sinai, durante il ritorno in Israele del popolo ebraico.²
Fu Dio a chiedere a Mosè di contare tutti i maschi delle 12 tribù di Israele che avevano un'età superiore ai 20 anni, per sapere quanti erano gli uomini sui quali si poteva contare per costruire l'esercito d'Israele e questo censimento è documentato nella Bibbia, proprio nel Libro dei Numeri.
E i numeri costituiscono le basi della statistica, anche se capire se abbiano un significato e cosa se ne possa dedurre è tutt’altro che facile. 
Insomma ci possiamo “fidare” delle statistiche solo se sappiamo che cosa sono e come funzionano e il problema non è tanto lo strumento matematico, ma l’uso che se ne fa.
Si può usare un coltello per tagliare frutta, verdura o salumi, ma anche per ferire o uccidere. 
La Statistica, al pari di un coltello, può essere quindi usata in vari modi. Seri e utili quando si tratta di individuare i problemi e i metodi per risolverli, o le risorse che è opportuno sostenere e valorizzare. Inutili o catastrofici e pericolosi quando viene utilizzata per sostenere teorie o demolire quelle non condivise, pro campagne elettorali o contro avversari e schieramenti politici.


"How To Lie With Statistics" di Darrell Huff  con i disegni di Irving Geis da 
- New York, Norton - 1954


E come affermava, in un'intervista nel marzo 2013 di Filomena Maggino, Giancarlo Livraghi, uno dei due traduttori del libro:

"L’inondazione di numeri con cui ci affliggono continuamente i mezzi di cosiddetta informazione, basata su statistiche mal capite o su dati del tutto immaginari, rischia di far annegare nel marasma anche quelle valutazioni che meriterebbero di essere seriamente approfondite......per quanto riguarda le statistiche, sarebbe importante diffondere come cultura di base la capacità di capirne il significato. Potrebbe bastare una estesa adozione del libro di Darrell Huff nelle scuole medio-superiori, e renderlo testo obbligatorio per la qualificazione al mestiere di giornalista".

Aggiungendo anche che purtroppo questo libro irriverente e divulgativo è apprezzata molto più dagli “addetti ai lavori” che dal pubblico cui sarebbe invece destinato: 

"Il pregiudizio, che sembra difficilmente superabile, è che la statistica sia un argomento comunque ostico, difficile, poco interessante per chi non è direttamente coinvolto. 
Superare questa barriera dovrebbe essere invece un impegno, consapevole e ostinato, da parte di tutto il sistema didattico e culturale, e uno strumento adatto allo scopo, sarebbe proprio il libro di Darrell Huff".

Un libro che rappresenta un antidoto sicuro nei confronti dell’uso spesso impreciso, talora sconsiderato, quasi sempre pericoloso, che della statistica fanno pubblicitari, giornalisti e politici a volte con il solo scopo di fare del sensazionalismo, a volte per promuovere interessi economici, politici o personali.
Gli stessi divulgatori spesso non hanno una percezione corretta dei numeri che stanno usando, ma non possono resistere, come l’autore ci mostra, dall’impiegarli per gonfiare, sensazionalizzare e sovrasemplificare.
Darrel Huff non rivolge una critica alla scienza statistica in sé, la cui utilità e importanza non è messa in questione, ma alle sue distorsioni, talvolta inconsce, che ci conducono a dare un significato diverso da quello contenuto (oppure assente) nei dati presentati. 
E'quindi soprattutto un libro che educa alla comprensione della statistica ma che insegna anche ad essere scettici non solo sull'accettazione dei dati ma anche sull'interpretazione che noi stessi potremmo darne. 
In statistica bisogna essere scettici su tutto, anche sulla propria analisi perché 
"Non ci sono fatti, solo interpretazioni" (Friedrich Nietzsche) 

Concludo questo post aggiungendo alcune citazioni che riguardano la statistica e che sono state inserita nel libro "Mentire con le Statistiche" dagli stessi traduttori Giancarlo Livraghi e Riccardo Puglisi.


"Mentire con le statistiche" edizione italiana di "How to lie with statistics" 

Citazioni sulla Statistica

63 statistiche su 100 sono inventate. Compresa questa.
Scott Adams

Come altre tecniche occulte di divinazione, il metodo statistico ha un gergo deliberatamente inventato per rendere oscuri i suoi metodi ai non addetti.
G. O. Ashley

Siccome un bambino su sette è cinese, noi ci siamo fermati a sei.
Marie-Lyse Aston

Il meteorologo non sbaglia mai. Se c’è l’80 % di probabilità di pioggia, e non piove, vuol dire che siamo nel 20 %.
Saul Barron

Oggi, più che mai, le persone colte hanno il dovere di seminare dubbi, non di raccogliere certezze.
Norberto Bobbio

Il sondaggio è il gioco di parole delle cifre.
Albert Brie

Le previsioni sono estremamente difficili. Specialmente sul futuro.
Niels Bohr

Le statistiche dicono che uno su quattro soffre di qualche malattia mentale. Pensa ai tuoi tre migliori amici. Se stanno bene, vuol dire che sei tu.
Rita Mae Brown

Posso dimostrare di tutto con le statistiche – fuorché la verità.
George Canning

Se vuoi ispirare fiducia, dai molti dati statistici. Non importa che siano esatti, neppure che siano comprensibili. Basta che siano in quantità sufficiente.
Lewis Carroll (Charles Lutwidge Dodgson)

La radice della maggioranza degli illeciti statistici è l’abbandono ella neutralità matematica e l’introduzione di ipotesi di causalità che non hanno basi scientifiche. Ciò equivale a praticare scienza tramite prestidigitazione: la velocità delle statistiche è tale da ingannare la mente.
Bruce Charlton

State attenti, la statistica è sempre la terza forma di menzogna.
Jacques Chirac

Le sole statistiche di cui ci possiamo fidare sono quelle che noi abbiamo falsificato.
Winston Churchill

Ci sono tre generi di bugie: le bugie, le maledette bugie e le statistiche.
Attribuita a Benjamin Disraeli

Mentre una singola persona è un intrico incomprensibile, nell’aggregato diventa una certezza matematica. O così dicono le statistiche.
Arthur Conan Doyle

Lo statistico è uno che fa un calcolo giusto partendo da premesse dubbie per arrivare a un risultato sbagliato.
Jean Delacour

Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa.
Gregg Easterbrook

Un’altra fra le ostinate bende sugli occhi è la nuova scienza della statistica.
Ralph Waldo Emerson

Quando le regole della matematica si riferiscono alla realtà non sono certe – e quando sono certe non si riferiscono alla realtà.
Albert Einstein

La statistica: l’unica scienza che permette a esperti diversi, usando gli stessi numeri, di trarne diverse conclusioni.
Evan Esar

Certo, certissimo, anzi probabile.
Ennio Flaiano

La statistica è la prima delle scienze inesatte.
Edmond de Goncourt

Tutte le statistiche del mondo non possono misurare il calore di un sorriso.
Chris Hart

Nella vita reale non c’è alcun uomo medio.
Aldous Huxley

I numeri precisi sono sempre falsi.
Samuel Johnson

Statistiche: la teoria matematica dell’ignoranza.
Morris Kline

La teoria delle probabilità in fondo non è altro che buon senso ridotto a calcolo.
Simon de Laplace

Nei tempi antichi non c’erano le statistiche, perciò era necessario ripiegare sulle menzogne.
Stephen Leacock

Oggi i giornali hanno pubblicato una nuova statistica. A quanto pare tre persone su quattro sono il 75 % della popolazione.
David Letterman

Non possiamo nutrire gli affamati con le statistiche.
David Lloyd George

Le statistiche sono come i bikini. Ciò che rivelano è suggestivo, ma ciò che nascondono è più importante.
Aaron Levenstein

L’esattezza non è la verità.
Henry Matisse

L’umano medio ha una mammella e un testicolo.
Des McHale

Non ci sono fatti, solo interpretazioni.
Friedrich Nietzsche

I fatti sono ostinati, ma le statistiche sono più flessibili.
Laurence Peter

Credo che il calcolo delle probabilità sia l’unica branca della matematica in cui buoni autori ottengono spesso risultati completamente sbagliati.
Charles Pierce

Sappiamo bene che queste argomentazioni basate sulle probabilità sono imposture, e se non abbiamo molta cautela nel loro uso possono essere ingannevoli.
Platone

In ogni statistica, l’inesattezza dei numeri è compensata dalla precisione dei decimali.
Alfred Sauvy

La morte di una persona è una tragedia, la morte di milioni è una statistica.
Josif Stalin

Le statistiche sono come un lampione. Le possianmo usare per fare luce, ma non come l’ubriaco, che ci si appoggia.
Mark Twain

Il dubbio non è piacevole, ma la certezza è ridicola.
Voltaire

Non fidatevi di ciò che le statistiche dicono prima di avere attentamente considerato ciò che non dicono.
William Watt

Satana si diletta con le statistiche quanto con citazioni delle sacre scritture.
Herbert George Wells

È meglio essere sempre un po’ improbabili.
Oscar Wilde

Senza deviazione dalla norma il progresso non è possibile.
Frank Zappa



Note

¹Alice nel paese delle meraviglie, pubblicato nel 1865, era nato nel 1862 come manoscritto illustrato da Dodgson stesso per una delle sue giovanissime amiche, Alice Liddell, figlia del decano di Christ Church.
La successiva pubblicazione del 1865 fu illustrata dalle incisioni di John Tenniel, il più famoso disegnatore vittoriano, che potè consultare l'autore sul modo di interpretare le sue creature fantastiche.
²Origini della Statistica "Storia della Statistica - I momenti decisivi" di Maria Pia Perelli D’Argenzio