Statistiche del test t dello studente

T-test dello studente, in statistica, un metodo per testare ipotesi sulla media di un piccolo campione prelevato da una popolazione normalmente distribuita quando la deviazione standard della popolazione è sconosciuta.

Nel 1908 William Sealy Gosset, un inglese che pubblicava sotto lo pseudonimo di Student, sviluppò il test t e la distribuzione t. La distribuzione t è una famiglia di curve in cui il numero di gradi di libertà (il numero di osservazioni indipendenti nel campione meno uno) specifica una curva particolare. All'aumentare della dimensione del campione (e quindi dei gradi di libertà), la distribuzione t si avvicina alla forma a campana della distribuzione normale standard. In pratica, per i test che coinvolgono la media di un campione di dimensioni superiori a 30, viene normalmente applicata la distribuzione normale.

Di solito è prima di tutto formulare un'ipotesi nulla, che afferma che non esiste alcuna differenza effettiva tra la media campionaria osservata e la media ipotizzata o dichiarata della popolazione, vale a dire che qualsiasi differenza misurata è dovuta solo al caso. In uno studio agricolo, ad esempio, l'ipotesi nulla potrebbe essere che un'applicazione di fertilizzanti non abbia avuto alcun effetto sulla resa delle colture e che verrebbe condotto un esperimento per verificare se ha aumentato il raccolto. In generale, un test t può essere a due facciate (anche chiamato a due code), affermando semplicemente che i mezzi non sono equivalenti, o unilaterale, specificando se la media osservata è più grande o più piccola della media ipotizzata. Viene quindi calcolata la statistica di prova t. Se la statistica t osservata è più estrema del valore critico determinato dalla distribuzione di riferimento appropriata, l'ipotesi nulla viene respinta. La distribuzione di riferimento appropriata per la statistica t è la distribuzione t. Il valore critico dipende dal livello di significatività del test (la probabilità di rifiutare erroneamente l'ipotesi nulla).

Ad esempio, supponiamo che un ricercatore desideri verificare l'ipotesi che un campione di dimensione n = 25 con media x = 79 e deviazione standard s = 10 sia stato estratto a caso da una popolazione con media μ = 75 e deviazione standard sconosciuta. Usando la formula per la statistica t, la t calcolata è uguale a 2. Per una prova su due lati con un livello comune di significatività α = 0,05, i valori critici dalla distribuzione t su 24 gradi di libertà sono −2,064 e 2,064. La t calcolata non supera questi valori, quindi l'ipotesi nulla non può essere respinta con una sicurezza del 95 percento. (Il livello di confidenza è 1 - α.)

Una seconda applicazione della distribuzione t verifica l'ipotesi che due campioni casuali indipendenti abbiano la stessa media. La distribuzione t può anche essere usata per costruire intervalli di confidenza per la media reale di una popolazione (la prima applicazione) o per la differenza tra due medie campionarie (la seconda applicazione). Vedi anche la stima degli intervalli.