Bỏ qua nội dung

“Có ý nghĩa thống kê” so với “Có ý nghĩa thực tế”

Mọi người ơi,

Khi theo dõi cuộc bầu cử vào mùa thu năm ngoái, chúng ta thường nghe nói rằng một cuộc thăm dò nào đó đã hoặc không có ý nghĩa thống kê. Ví dụ, ứng cử viên A dẫn trước ứng cử viên B trong cuộc thăm dò ý kiến 1.000 người với tỷ lệ 51% so với 49%, nhưng kết quả không có ý nghĩa thống kê vì biên độ sai số (MOE) là hơn 3% một chút. Những ví dụ như thế này xứng đáng mang lại ý nghĩa thống kê quan trọng. Tuy nhiên, với quy mô mẫu rất lớn, ý nghĩa này có thể gây hiểu lầm. Tôi đã viết blog về chủ đề này trước đây , nhưng cần phải nhắc lại, đặc biệt là với một ví dụ định lượng.

Đối với ví dụ này, chúng ta hãy xem xét một số dữ liệu từ ngành công nghiệp SMT. Giả sử một kỹ sư muốn đánh giá 3 loại kem hàn về hiệu suất của chúng hiệu quả chuyển giao (TE). Giá trị mục tiêu là 100%. Dán 1 có TE là 98%, TE của dán 2 là 97% và dán 3 có TE bằng 86%. Dữ liệu về tất cả các loại dán có độ lệch chuẩn là 20%. Thật không may, công ty của cô ấy vẫn chưa mua một SPI (kiểm tra kem hàn) loại thiết bị đo thể tích, vì vậy cô ấy phải đo tất cả thể tích lắng đọng kem hàn bằng kính hiển vi. Vì vậy, cô ấy chỉ đo hai mươi mẫu cho mỗi loại kem hàn. Với dữ liệu trên và 20 mẫu cho mỗi loại, cô ấy có thể thực hiện một số phép tính thống kê và cho thấy, với độ tin cậy 95%, rằng không có sự khác biệt đáng kể về mặt thống kê về TE giữa kem hàn 1 và 2, nhưng cả hai loại kem hàn đều tốt hơn kem hàn 3.

Tuy nhiên, một tháng sau, công ty của cô ấy mua một công cụ SPI. Nó có thể quét các lớp keo hàn nhanh đến mức cô ấy quét được 20.000 lớp keo cho mỗi loại trong số 3 loại keo. Thật an ủi khi SPI tạo ra kết quả chính xác như nhau, tức là keo 1 có TE là 98%, TE của keo 2 là 97% và keo 3 có TE bằng 86%. Tất cả các loại keo vẫn hiển thị độ lệch chuẩn là 20%.

Vậy, chúng ta có cùng kết quả đúng không? Vâng, không. Tất nhiên, paste 1 và 2 vẫn đánh bại paste 3, nhưng trong trường hợp này, paste 1 hiện vượt trội hơn paste 2 về mặt thống kê. Trên thực tế, ngay cả khi paste 2 có TE là 97,67%, paste 1 sẽ vượt trội hơn paste 2 về mặt thống kê với độ tin cậy 95%.

Nguyên nhân nào gây ra sự thay đổi này? Nó liên quan đến quy mô mẫu. Khoảng tin cậy 95% của trung bình (CIM) được xác định, một phần, bởi độ lệch chuẩn chia cho căn bậc hai của quy mô mẫu. Thuật ngữ này được gọi là sai số chuẩn của giá trị trung bình (SEM).

Khi kích thước mẫu tăng lên, SEM trở nên nhỏ hơn. Hình 1 cho thấy sự so sánh của phân phối mẫu của các phương tiện đối với paste 1 và 2 khi kích thước mẫu là 20; Hình 2 cho thấy khi kích thước mẫu là 20.000. Khoảng tin cậy của giá trị trung bình cho mỗi phân phối được thể hiện bằng các đường có đầu mũi tên. Lưu ý rằng, đối với kích thước mẫu là 20, trong Hình 1, các CIM chồng chéo mạnh, cho thấy không có sự khác biệt về mặt thống kê. Trong khi đó, trong Hình 2, các CIM cách xa nhau, cho thấy hai phân phối này khác biệt mạnh về mặt thống kê.

Hình 1. Phân phối mẫu của các giá trị trung bình cho bột nhão 1 và 2 với quy mô mẫu là 20. Khoảng tin cậy 95% của các giá trị trung bình (CIM) được thể hiện bằng các đường mũi tên. Lưu ý rằng các CIM chồng chéo nhau, cho thấy sự khác biệt phi thống kê.

Hình 2. Phân phối mẫu của các giá trị trung bình cho bột nhão 1 và 2 với quy mô mẫu là 20.000. Khoảng tin cậy 95% của các giá trị trung bình (CIM) được thể hiện bằng các đường mũi tên. Lưu ý rằng các CIM không chồng chéo, cho thấy sự khác biệt thống kê mạnh.

Tình hình này đưa chúng ta tới đâu?

Rõ ràng nếu quy mô mẫu là 20.000 cho phép chúng ta nói rằng có sự khác biệt có ý nghĩa thống kê giữa TE trung bình là 98% và TE trung bình là 97,67%, chúng ta phải đặt câu hỏi về giá trị của nó. Ví dụ, giả sử rằng ban quản lý đã xác định rằng TE là thông số quan trọng nhất khi mua kem hàn. Chúng ta cũng giả sử rằng kem hàn 1 có TE là 98% và kem hàn 2 có TE là 97,67% khác biệt về mặt thống kê. Tuy nhiên, kem hàn 1 có phản ứng rất kém với trạng thái tạm dừng. Chúng ta cũng giả sử tất cả các số liệu hiệu suất khác đều giống nhau. Trong trường hợp này, tôi cho rằng TE của kem hàn 1 và 2 không khác biệt "thực tế đáng kể" và nên được coi là giống nhau. Việc thêm phản ứng vượt trội với hiệu suất tạm dừng của kem hàn 2 sẽ khiến nó trở thành người chiến thắng.

“Ý nghĩa thực tế” được xác định như thế nào? Nó sẽ thay đổi tùy từng trường hợp, nhưng tôi cho rằng, với TE, sự khác biệt trong phạm vi từ 2 đến 5% không có ý nghĩa thực tế. Trong hầu hết các trường hợp, kỹ thuật nên xác định “ý nghĩa thực tế” bằng một số thí nghiệm. Tuy nhiên, với các công cụ hiện đại như thiết bị SPI, có thể đo hàng nghìn điểm dữ liệu, tôi có thể thấy nhu cầu hiểu được sự phân đôi khác biệt về mặt thống kê và thực tế đang ngày càng trở nên phổ biến.

Tình huống này trở nên thực tế hơn với tôi khi gần đây tôi vừa phân tích một số dữ liệu TE với quy mô mẫu trên 20.000.

Chúc mừng,

Tiến sĩ Ron