Pessoal,
Quando acompanhámos as eleições do outono passado, ouvimos muitas vezes dizer que uma determinada sondagem era ou não era estatisticamente significativo. Por exemplo, o candidato A liderou o candidato B numa sondagem de 1.000 pessoas por 51 a 49%, mas os resultados não foram estatisticamente significativos porque o margem de erro (MOE) foi um pouco mais de 3%. Exemplos como este dão merecidamente à significância estatística um sentido de importância. No entanto, com amostras muito grandes, esta significância pode ser enganadora. Já escrevi no meu blogue sobre este tema, mas vale a pena repeti-lo, especialmente com um exemplo quantitativo.
Para este exemplo, vamos analisar alguns dados da indústria SMT. Suponhamos que um engenheiro pretende avaliar 3 pastas de soldadura quanto ao seu desempenho para eficiência de transferência (TE). O valor-alvo é 100%. A pasta 1 tem um TE de 98%, o TE da pasta 2 é de 97% e a pasta 3 tem um TE igual a 86%. Os dados de todas as pastas têm um desvio padrão de 20%. Infelizmente, a sua empresa ainda não adquiriu um moderno SPI (inspeção da pasta de solda) Se o dispositivo de medição de volume for do tipo "P", ela tem de medir todos os volumes de depósito de pasta de solda com um microscópio. Assim, ela mede apenas vinte amostras de cada pasta. Com os dados acima e 20 amostras de cada pasta, ela pode efetuar alguns cálculos estatísticos e mostrar, com 95% de confiança, que não existe uma diferença estatisticamente significativa no TE entre as pastas 1 e 2, mas que ambas as pastas são superiores à pasta 3.
No entanto, um mês depois, a sua empresa adquire uma ferramenta SPI. A ferramenta pode analisar os depósitos de pasta de solda tão rapidamente que ela analisa 20.000 depósitos para cada uma das 3 pastas. É reconfortante que a SPI produza exatamente os mesmos resultados, ou seja, a pasta 1 tem um TE de 98%, o TE da pasta 2 é de 97% e a pasta 3 tem um TE igual a 86%. Todas as pastas apresentam ainda um desvio padrão de 20%.
Então, temos os mesmos resultados, certo? Bem, não. É claro que as pastas 1 e 2 ainda vencem a pasta 3, mas, neste caso, a pasta 1 é agora estatisticamente superior à pasta 2. De facto, mesmo que a pasta 2 tivesse um TE de 97,67%, a pasta 1 seria estatisticamente superior à pasta 2 com 95% de confiança.
O que é que provoca esta alteração? Está relacionada com a dimensão da amostra. O intervalo de confiança de 95% da média (CIM) é determinado, em parte, pelo desvio padrão dividido pela raiz quadrada do tamanho da amostra. Este termo é designado por erro padrão da média (SEM).
À medida que a dimensão da amostra aumenta, o SEM torna-se mais pequeno. A Figura 1 mostra uma comparação dos distribuições amostrais das médias para as pastas 1 e 2 quando o tamanho da amostra é 20; a Figura 2 mostra-o quando o tamanho da amostra é 20.000. Os intervalos de confiança da média para cada distribuição são apresentados por linhas com cabeças de seta. Note-se que, para uma dimensão de amostra de 20, na Figura 1, as CIMs sobrepõem-se fortemente, sugerindo que não existe diferença estatística. Enquanto que, na Figura 2, as CIMs estão amplamente separadas, sugerindo que estas duas distribuições são fortemente diferentes em termos estatísticos.

Figura 1. A distribuição amostral das médias para as pastas 1 e 2 com uma dimensão de amostra de 20. Os intervalos de confiança de 95% das médias (CIMs) são mostrados pelas linhas com setas. Note-se que os CIMs se sobrepõem, o que sugere uma diferença estatística.

Figura 2. A distribuição amostral das médias para as pastas 1 e 2 com um tamanho de amostra de 20.000. Os intervalos de confiança de 95% das médias (CIMs) são mostrados pelas linhas com setas. Note-se que os CIMs não se sobrepõem, o que sugere uma forte diferença estatística.
Onde é que esta situação nos deixa?
É evidente que se uma amostra de 20.000 pessoas nos permite dizer que existe uma diferença estatisticamente significativa entre um ET médio de 98% e um de 97,67%, temos de questionar o seu valor. Como exemplo, suponhamos que a direção determinou que o TE é o parâmetro mais crítico na compra de uma pasta de solda. Suponhamos também que a pasta 1 tem o TE de 98% e a pasta 2 tem o TE de 97,67%, estatisticamente diferente. No entanto, a pasta 1 tem uma resposta muito fraca à pausa. Vamos também supor que todos os outros parâmetros de desempenho são iguais. Neste caso, eu diria que os TEs das pastas 1 e 2 não são "praticamente significativamente" diferentes e devem ser considerados iguais. Se acrescentarmos a resposta superior ao desempenho de pausa da pasta 2, esta deverá ser a vencedora.
Como se determina a "importância prática"? Varia de caso para caso, mas eu diria que, com a TE, uma diferença no intervalo de 2 a 5% não é praticamente significativa. Na maioria dos casos, a engenharia deve determinar o "significado prático" com algumas experiências. No entanto, com ferramentas modernas como os dispositivos SPI, que podem medir milhares de pontos de dados, vejo a necessidade de compreender a dicotomia estatística e diferença prática a tornar-se cada vez mais comum.
Esta situação tornou-se mais real para mim quando analisei recentemente alguns dados de ET com amostras superiores a 20 000.
Saúde,
Dr. Ron
