Vai al contenuto

"Statisticamente significativo" vs "Praticamente significativo".

Gente,

Quando abbiamo seguito le elezioni dello scorso autunno, abbiamo spesso sentito dire che un certo sondaggio era o non era statisticamente significativo. Ad esempio, il candidato A è in vantaggio sul candidato B in un sondaggio su 1.000 persone per 51 a 49%, ma i risultati non sono statisticamente significativi perché il numero di persone che hanno partecipato al sondaggio non è stato sufficiente. margine di errore (MOE) era di poco superiore al 3%. Esempi come questo danno meritatamente un senso di importanza alla significatività statistica. Tuttavia, con campioni di dimensioni molto grandi, questa significatività può essere fuorviante. Ho già scritto su questo argomento, ma vale la pena ripeterlo, soprattutto con un esempio quantitativo.

Per questo esempio, analizziamo alcuni dati del settore SMT. Supponiamo che un ingegnere voglia valutare 3 paste saldanti in base alle loro prestazioni per efficienza di trasferimento (TE). Il valore target è il 100%. La pasta 1 ha un TE del 98%, la pasta 2 ha un TE del 97% e la pasta 3 ha un TE dell'86%. I dati relativi a tutte le paste hanno una deviazione standard del 20%. Sfortunatamente, la sua azienda non ha ancora acquistato un moderno SPI (ispezione della pasta saldante) Il dispositivo di misurazione volumetrica deve misurare tutti i volumi di deposito della pasta saldante con un microscopio. Quindi, misura solo venti campioni per ogni pasta. Con i dati di cui sopra e 20 campioni ciascuno, può eseguire alcuni calcoli statistici e dimostrare, con una confidenza del 95%, che non c'è una differenza statisticamente significativa in TE tra le paste 1 e 2, ma che entrambe le paste sono superiori alla pasta 3.

Tuttavia, un mese dopo la sua azienda acquista uno strumento SPI. Lo strumento è in grado di scansionare i depositi di pasta saldante così rapidamente che la signora scansiona 20.000 depositi per ciascuna delle tre paste. È confortante che l'SPI produca esattamente gli stessi risultati, cioè la pasta 1 ha un TE del 98%, il TE della pasta 2 è del 97% e la pasta 3 ha un TE pari all'86%. Tutte le paste presentano comunque una deviazione standard del 20%.

Quindi, abbiamo gli stessi risultati, giusto? Beh, no. Naturalmente le paste 1 e 2 continuano a battere la pasta 3, ma in questo caso la pasta 1 è ora statisticamente superiore alla pasta 2. Infatti, anche se la pasta 2 avesse un TE del 97,67%, la pasta 1 sarebbe statisticamente superiore alla pasta 2 con una confidenza del 95%.

Cosa provoca questo cambiamento? È legato alla dimensione del campione. L'intervallo di confidenza del 95% della media (CIM) è determinato, in parte, dalla deviazione standard divisa per la radice quadrata della dimensione del campione. Questo termine è chiamato errore standard della media (SEM).

All'aumentare della dimensione del campione, il SEM si riduce. La Figura 1 mostra un confronto tra i valori di distribuzioni di campionamento delle medie per la pasta 1 e 2 quando la dimensione del campione è 20; la Figura 2 la mostra quando la dimensione del campione è 20.000. Gli intervalli di confidenza della media per ciascuna distribuzione sono rappresentati da linee con punte di freccia. Si noti che, per una dimensione del campione di 20, nella Figura 1, le CIM si sovrappongono fortemente, suggerendo che non vi è alcuna differenza statistica. Nella Figura 2, invece, le CIM sono ampiamente separate, suggerendo che queste due distribuzioni sono fortemente diverse dal punto di vista statistico.

Figura 1. La distribuzione campionaria delle medie per i campioni 1 e 2 con una dimensione campionaria di 20 unità. Gli intervalli di confidenza al 95% delle medie (CIM) sono mostrati dalle linee frecciate. Si noti che i CIM si sovrappongono, suggerendo una differenza statistica.

Figura 2. La distribuzione campionaria delle medie per i campioni 1 e 2 con una dimensione campionaria di 20.000 unità. Gli intervalli di confidenza al 95% delle medie (CIM) sono mostrati dalle linee frecciate. Si noti che i CIM non si sovrappongono, suggerendo una forte differenza statistica.

Dove ci porta questa situazione?

È chiaro che se un campione di 20.000 unità ci permette di affermare che esiste una differenza statisticamente significativa tra un TE medio del 98% e uno del 97,67%, dobbiamo metterne in dubbio il valore. A titolo di esempio, supponiamo che la direzione abbia stabilito che il TE è il parametro più critico nell'acquisto di una pasta saldante. Supponiamo anche che la pasta 1 abbia un TE del 98% e che la pasta 2 abbia un TE del 97,67%, statisticamente diverso. Tuttavia, la pasta 1 ha una risposta molto scarsa alla pausa. Supponiamo anche che tutte le altre metriche di prestazione siano uguali. In questo caso, direi che i TE delle paste 1 e 2 non sono "praticamente significativamente" diversi e dovrebbero essere considerati uguali. Se si aggiunge la superiore risposta alla pausa della pasta 2, questa dovrebbe essere la vincitrice.

Come si determina la "significatività pratica"? Varia da caso a caso, ma direi che, con TE, una differenza compresa tra il 2 e il 5% non è praticamente significativa. Nella maggior parte dei casi, l'ingegneria dovrebbe determinare la "significatività pratica" con alcuni esperimenti. Tuttavia, con strumenti moderni come i dispositivi SPI, che possono misurare migliaia di punti dati, vedo che la necessità di comprendere la dicotomia differenza statistica e pratica diventa sempre più comune.

Questa situazione mi è apparsa più reale quando ho analizzato di recente alcuni dati di TE con campioni di oltre 20.000 unità.

Salute,

Dr. Ron