Responsabile: Prof. Giulio Magli - Delegato per i rapporti con la scuola: Prof. Marco Bramanti

Il problema dell’inferenza statistica

 

La fitta corrispondenza tra Jacob Bernoulli e Gottfried Wilhelm Leibniz, che si sviluppa tra l'aprile del 1703 e l'aprile del 1705, ha posto le basi non solo per la prima formalizzazione matematica del concetto di probabilità, ma anche per la contemporanea prima esplicitazione del problema dell'inferenza statistica. Ovvero, come sviluppare un'argomentazione induttiva che permetta di stimare le caratteristiche rilevanti di una popolazione a partire dall'osservazione di una sua parte. In termini più generali, come catturare per mezzo della matematica il processo di apprendimento dall'esperienza. 

Oggi, in molti settori, dall'economia all'ingegneria, dalla medicina alle scienze sociali, l'analisi e la comprensione dei fenomeni empirici sono sempre più guidate dalla disponibilità di grandi quantità di dati. Per questo, ancor più che in passato, è importante conoscere il pensiero matematico fondativo sul quale sono costruiti i metodi dell'inferenza statistica. Questi metodi permettono di stimare caratteristiche generali di una popolazione a partire dall'osservazione di una sua parte, di quantificare l'incertezza delle stime, di confermare o smentire ipotesi sulla base di osservazioni empiriche e di prendere decisioni in situazioni di incertezza. 

In queste lezioni seguirò un filo narrativo storico che, a partire da Jacob Bernoulli, introdurrà alcune idee fondative dell'inferenza statistica e i matematici che le hanno introdotte, utilizzando una formalizzazione matematica accessibile anche agli studenti delle scuole superiori. 

L'obiettivo del corso è quello di introdurre al pensiero matematico sviluppato negli ultimi tre secoli, finalizzato a costruire un quadro teorico e metodologico per interpretare correttamente i dati, garantendo che le conclusioni tratte siano valide e affidabili, anche nell'era dei big data. 

Si precisa che la comprensione delle lezioni del corso non richiede prerequisiti che vadano oltre i primi elementi del calcolo delle probabilità insegnato a scuola. Naturalmente, ogni lezione è necessaria alla comprensione delle successive. 

Destinatari

Insegnanti di matematica di scuole secondarie di secondo grado, o altri insegnanti interessati all’argomento.

Struttura del corso, piano delle lezioni e docente

Tre incontri di 3 ore l'uno (orario 14.30-17.30) tenuti dal prof. Piercesare Secchi, docente di statistica del Dipartimento di Matematica. 

Lezione 1. Mercoledì 23/10/24. Agli albori dell’inferenza statistica.

Lezione 2. Mercoledì 30/10/24. La formalizzazione del problema inferenziale: distribuzione a priori, distribuzione a posteriori

Lezione 3. Mercoledì 06/11/24.  L’inferenza statistica nella sua maturità. La versione frequentista: test e intervalli di confidenza. La versione neo-Bayesiana: scambiabilità e teorema di rappresentazione.

Le lezioni si terranno in presenza, nella nuova aula del Laboratorio Effediesse (Dipartimento di Matematica del Politecnico, Edificio 14, 4° piano, Via Bonardi 9) e saranno trasmesse anche in streaming su Zoom

Si raccomanda per tutti coloro per cui è possibile di partecipare in presenza. 

Si sottolinea che NON SARANNO MESSE A DISPOSIZIONE REGISTRAZIONI DELLE LEZIONI: anche per chi intende seguire in streaming, il corso può essere seguito esclusivamente in diretta. 

Modalità di adesione e attestato di partecipazione

La quota di iscrizione (indipendentemente dal fatto che il docente segua le lezioni in presenza o in streaming) sarà di 85 euro, pagabili anche con carta docente.

Le iscrizioni sono già aperte e chiuderanno venerdì 18 ottobre. Per iscriversi è necessario compilare il form a questa pagina. Alla stessa pagina sono indicate le modalità di pagamento della quota. 

Un attestato di partecipazione sarà rilasciato agli iscritti che saranno stati effettivamente presenti (in presenza o in streaming, purché con webcam accesa).

Programma dettagliato delle lezioni

Lezione 1. Mercoledì 23/10/24. Agli albori dell’inferenza statistica.

In questa lezione si prenderà contatto con l’essenza del problema “inverso” che caratterizza l’inferenza statistica. Rimanendo aderenti al carteggio tra Jacob Bernoulli (1654 – 1705) e Gottfried Wilhelm Leibniz (1646 – 1716), inizieremo col considerare qualche semplice esempio con urne e palline di due colori diversi. Quando la composizione dell’urna è nota, è facile calcolare la probabilità che un certo numero di estrazioni con restituzione di palline dall’urna fornisca un determinato risultato (problema diretto). Ma se la composizione dell’urna è ignota, come possiamo stimarla osservando i risultati ottenuti da successive estrazioni con restituzione dall’urna (problema inverso)? Come quantificare l’incertezza relativa alla stima della composizione dell’urna calcolata a partire dalle osservazioni? È solo un gioco, oppure risolvere questo problema permette di costruire un modello di impatto applicativo, sia ai tempi di Bernoulli che ai giorni nostri?

  • Ars Conjectandi (1714) e la prima legge dei grandi numeri di Jacob Bernoulli
  • Un breve excursus su: variabili aleatorie, la loro distribuzione, media e varianza, la variabile media campionaria, il concetto di indipendenza e di identica distribuzione
  • La disuguaglianza di Chebyshev (1867)
  • La dimostrazione della Legge (debole) dei Grandi Numeri basata sulla disuguaglianza di Chebyshev
  • La Legge dei Grandi Numeri, che pur ha dimostrato, lascia insoddisfatto Jacob Bernoulli. Quante estrazioni dall’urna devono essere fatte per avere la certezza “morale” che la media campionaria stimi con un grado di precisione dato la vera composizione dell’urna?
  • Abraham de Moivre (1657 – 1754) e il Teorema Centrale del Limite 
  • Come De Moivre avrebbe potuto affrontare il problema di Bernoulli.

Lezione 2. Mercoledì 30/10/24. La formalizzazione del problema inferenziale: distribuzione a priori, distribuzione a posteriori

Il problema inferenziale è colto in tutto il suo rigore matematico da Pierre Simon Laplace (1749-1827) nel saggio Mèmoire sur la probabilité des causes par les évènements del 1774. In questo lavoro Laplace formalizza il procedimento matematico di inferenza distinguendo tra “probabilità delle cause”, ovvero la probabilità che la composizione dell’urna appartenga ad un certo intervallo di valori, e probabilità “degli avvenimenti”, ovvero probabilità di osservare un certo numero di palline di un dato colore a seguito di un numero dato di estrazioni con restituzione, e propone una soluzione al problema della stima della probabilità delle cause, noti gli avvenimenti, che si fonda su un Principio. La soluzione offerta da Laplace è in realtà un caso particolare di applicazione del Teorema formulato da Thomas Bayes (1702-1761), pubblicato nel 1763, ma verosimilmente ignoto a Laplace. In effetti, la soluzione al problema inferenziale avanzata da Laplace coincide con quella ottenibile utilizzando il Teorema di Bayes, quando si assuma che la distribuzione “a priori” della composizione dell’urna (o delle cause, nella terminologia di Laplace) sia uniforme; assunzione che verrà giustificata per mezzo di un secondo principio, quello di Ragion Insufficiente. Nel corso del 1800 l’applicazione dogmatica del principio di Ragion Insufficiente porta a difficoltà modellistiche e filosofiche che finiranno col minare la credibilità del paradigma induttivo di Bayes-Laplace, soprattutto in ambito applicativo. Una nuova prospettiva si apre con Ronald Fisher (1890-1962) e l’analisi della verosimiglianza.

  • La formulazione del problema inferenziale secondo Laplace
  • Il principio di Laplace e la sua applicazione alla stima della distribuzione della composizione dell’urna
  • Il principio di Ragion Insufficiente per giustificare la distribuzione uniforme delle cause
  • Thomas Bayes e il Teorema che porta il suo nome
  • Probabilità condizionate, probabilità a priori e probabilità a posteriori
  • La distribuzione a priori e quella a posteriori della composizione dell’urna
  • Ronald Fisher e la verosimiglianza
  • La distribuzione di fiducia.

Lezione 3. Mercoledì 06/11/24.  L’inferenza statistica nella sua maturità. La versione frequentista: test e intervalli di confidenza. La versione neo-Bayesiana: scambiabilità e teorema di rappresentazione.

L’argomento fiduciale proposto da Fisher incontra molti problemi di natura epistemologica e applicativa ancorché esso generi un algoritmo che associa ad ogni risultato di estrazioni con restituzione dall’urna un intervallo di valori per la sua composizione, ritenuti altamente verosimili. Negli anni ‘20 e ‘30 dello scorso secolo, Jerzi Neyman (1894-1981) ed Egon Pearson (1895-1980) giustificano, secondo un approccio diverso da quello di Fisher, la costruzione di questi intervalli, che nella pratica corrente dell’analisi statistica sono chiamati intervalli di confidenza. L’approccio di Neyman e Pearson al problema inferenziale si focalizza sulle proprietà frequentiste degli intervalli di confidenza e permette, inoltre, di collegare il problema della stima della composizione dell’urna, e la valutazione dell’incertezza della stima, con quello della verifica di ipotesi relative ai suoi valori. Negli stessi decenni Bruno de Finetti (1906- 1985) riformula il problema inferenziale a partire dal concetto di scambiabilità dei risultati prodotti dalle estrazioni dall’urna: il suo Teorema di Rappresentazione rifonda il paradigma di Bayes-Laplace secondo una prospettiva per la quale solo ciò che è osservabile può essere valutato in termini probabilistici.

  • Intervalli di confidenza e prova delle ipotesi secondo Neyman e Pearson
  • Breve excursus sull’interpretazione degli intervalli di confidenza
  • De Finetti e la scambiabilità
  • Il Teorema di rappresentazione e le sue conseguenze inferenziali
  • Fine della storia?

 

 

Marco Bramanti