Ir al contenido

"Estadísticamente significativo" frente a "Prácticamente significativo"

Amigos,

Cuando seguíamos las elecciones del pasado otoño, a menudo oíamos que una determinada encuesta era o no era estadísticamente significativo. Por ejemplo, el candidato A aventajó al candidato B en una encuesta realizada a 1.000 personas por 51 a 49%, pero los resultados no fueron estadísticamente significativos porque el margen de error (MOE) fue algo superior al 3%. Ejemplos como éste dan merecidamente a la significación estadística un sentido de importancia. Sin embargo, con muestras muy grandes, esta importancia puede ser engañosa. Ya he escrito antes sobre este tema, pero merece la pena repetirlo, especialmente con un ejemplo cuantitativo.

Para este ejemplo, veamos algunos datos de la industria SMT. Supongamos que un ingeniero desea evaluar el rendimiento de 3 pastas de soldadura para eficacia de la transferencia (TE). El valor objetivo es 100%. La pasta 1 tiene un TE del 98%, el TE de la pasta 2 es del 97% y la pasta 3 tiene un TE igual al 86%. Los datos de todas las pastas tienen una desviación estándar del 20%. Desgraciadamente, su empresa aún no ha adquirido un moderno SPI (inspección de pasta de soldadura) Por lo tanto, sólo mide veinte muestras de cada pasta. Por tanto, sólo mide veinte muestras de cada pasta. Con los datos anteriores y 20 muestras de cada una, puede realizar algunos cálculos estadísticos y demostrar, con una confianza del 95%, que no existe una diferencia estadísticamente significativa en el TE entre las pastas 1 y 2, pero que ambas pastas son superiores a la pasta 3.

Sin embargo, un mes más tarde su empresa adquiere una herramienta SPI. Puede escanear depósitos de pasta de soldadura tan rápidamente que escanea 20.000 depósitos de cada una de las 3 pastas. Es reconfortante que el SPI produzca exactamente los mismos resultados, es decir, la pasta 1 tiene un TE del 98%, el TE de la pasta 2 es del 97%, y la pasta 3 tiene un TE igual al 86%. Todas las pastas siguen mostrando una desviación estándar del 20%.

Entonces, tenemos los mismos resultados, ¿verdad? Pues no. Por supuesto, las pastas 1 y 2 siguen superando a la pasta 3, pero, en este caso, la pasta 1 es ahora estadísticamente superior a la pasta 2. De hecho, aunque la pasta 2 tuviera un TE del 97,67%, la pasta 1 sería estadísticamente superior a la pasta 2 con un 95% de confianza.

¿Cuál es la causa de este cambio? Está relacionado con el tamaño de la muestra. El intervalo de confianza del 95% de la media (CIM) viene determinado, en parte, por la desviación típica dividida por la raíz cuadrada del tamaño de la muestra. Este término se denomina error estándar de la media (SEM).

A medida que aumenta el tamaño de la muestra, el SEM disminuye. La figura 1 muestra una comparación del distribuciones muestrales de las medias para las pastas 1 y 2 cuando el tamaño de la muestra es 20; la Figura 2 lo muestra cuando el tamaño de la muestra es 20.000. Los intervalos de confianza de la media de cada distribución se muestran mediante líneas con cabezas de flecha. Obsérvese que, para un tamaño de muestra de 20, en la Figura 1, los CIM se solapan fuertemente, lo que sugiere que no hay diferencia estadística. En cambio, en la figura 2, los CIM están muy separados, lo que sugiere que estas dos distribuciones son muy diferentes desde el punto de vista estadístico.

Figura 1 Distribución muestral de las medias de las pastas 1 y 2 con una muestra de 20 ejemplares. Las líneas de flecha muestran los intervalos de confianza del 95% de las medias (CIM). Obsérvese que los CIM se solapan, lo que sugiere una diferencia estadística.

Figura 2. Distribución muestral de las medias de las pastas 1 y 2 con un tamaño de muestra de 20.000. Distribución muestral de las medias de las pastas 1 y 2 con una muestra de 20.000 ejemplares. Las líneas de flecha muestran los intervalos de confianza del 95% de las medias (CIM). Obsérvese que los CIM no se solapan, lo que sugiere una fuerte diferencia estadística.

¿Dónde nos deja esta situación?

Evidentemente, si una muestra de 20.000 nos permite afirmar que existe una diferencia estadísticamente significativa entre un ET medio del 98% y otro del 97,67%, debemos cuestionar su valor. Como ejemplo, supongamos que la dirección ha determinado que el TE es el parámetro más crítico a la hora de comprar una pasta de soldadura. Supongamos también que la pasta 1 tiene un ET del 98% y la pasta 2 tiene un ET estadísticamente diferente del 97,67%. Sin embargo, la pasta 1 tiene una respuesta muy pobre a la pausa. Supongamos también que todas las demás métricas de rendimiento son iguales. En este caso, yo diría que los TE de las pastas 1 y 2 no son "prácticamente significativamente" diferentes y deberían considerarse iguales. Si añadimos que la respuesta a la pausa de la pasta 2 es superior, debería ser la ganadora.

¿Cómo se determina la "importancia práctica"? Variará de un caso a otro, pero yo diría que, con TE, una diferencia en el rango del 2 al 5% no es prácticamente significativa. En la mayoría de los casos, la ingeniería debería determinar la "importancia práctica" con algunos experimentos. Sin embargo, con herramientas modernas como los dispositivos SPI, que pueden medir miles de puntos de datos, veo cada vez más frecuente la necesidad de comprender la dicotomía entre diferencia estadística y diferencia práctica.

Esta situación se me hizo más real al analizar recientemente algunos datos de TE con tamaños de muestra superiores a 20.000.

Salud,

Dr. Ron