“Statistically Significant” vs “Practically Significant”

"统计意义 "与 "实际意义"

乡亲们

在关注去年秋天的选举时，我们经常会听说某项民意调查是或不是有统计学意义.例如，在一项 1000 人的民意调查中，候选人 A 以 51% 对 49% 领先于候选人 B，但结果在统计上并不显著，因为误差率略高于 3%。像这样的例子理所应当地赋予统计意义以重要性。然而，在样本量非常大的情况下，这种显著性可能会产生误导。我曾在博客中讨论过这个话题，但有必要再重复一遍，尤其是用一个量化的例子来说明。

在这个例子中，我们来看看 SMT 行业的一些数据。假设一位工程师想评估三种焊膏在以下方面的性能传输效率 (TE）。目标值为 100%。浆糊 1 的 TE 值为 98%，浆糊 2 的 TE 值为 97%，浆糊 3 的 TE 值为 86%。所有浆糊的数据标准偏差为 20%。不幸的是，她的公司还没有购买现代化的 SPI（焊膏检测）由于没有体积测量装置，她必须用显微镜测量所有焊膏的沉积体积。因此，她只能测量每种焊膏的 20 个样品。根据上述数据和每种焊膏 20 个样品，她可以进行一些统计计算，并以 95% 的置信度表明，焊膏 1 和焊膏 2 在 TE 方面没有显著的统计学差异，但这两种焊膏都优于焊膏 3。

然而，一个月后，她的公司购买了一台 SPI 工具。它可以快速扫描焊膏沉积物，她为 3 种焊膏各扫描了 2 万个沉积物。令人欣慰的是，SPI 得出的结果完全相同，即焊膏 1 的 TE 为 98%，焊膏 2 的 TE 为 97%，焊膏 3 的 TE 为 86%。所有浆糊的标准偏差仍为 20%。

那么，我们的结果是一样的吗？当然不是。当然，浆糊 1 和 2 仍然胜过浆糊 3，但是，在这种情况下，浆糊 1 现在在统计上优于浆糊 2。事实上，即使浆糊 2 的 TE 值为 97.67%，在 95% 的置信度下，浆糊 1 也会在统计上优于浆糊 2。

是什么导致了这种变化？这与样本量有关。 平均值的 95%置信区间(CIM) 部分由标准差除以样本量的平方根决定。这个项称为均值标准误差 (SEM).

随着样本量的增加，SEM 也会变小。图 1 显示了均值的抽样分布当样本量为 20 时，图 1 和图 2 显示的是粘贴 1 和粘贴 2 的平均值；当样本量为 20,000 时，图 2 显示的是粘贴 1 和粘贴 2 的平均值。每个分布的平均值置信区间用带箭头的线表示。请注意，在图 1 中，当样本量为 20 时，CIM 高度重合，表明没有统计差异。而在图 2 中，CIMs 相距甚远，表明这两种分布在统计上有很大差异。

图 1.样本数为 20 的样本 1 和 2 的均值的抽样分布。均值的 95% 置信区间（CIMs）由箭头线表示。请注意，CIMs 重叠在一起，表明存在统计差异。

图 2.样本数为 20,000 的样本 1 和 2 的均值的抽样分布。均值的 95% 置信区间（CIMs）由箭头线表示。请注意，CIMs 没有重叠，这表明统计差异很大。

这种情况让我们何去何从？

显然，如果 20,000 个样本的数量可以让我们说平均 TE 值为 98% 和 97.67% 之间存在统计学意义上的显著差异，我们就必须质疑其价值。举个例子，假设管理层认为 TE 是购买焊膏时最关键的参数。又假设焊膏 1 的 TE 值为 98%，而焊膏 2 的 TE 值为 97.67%，两者在统计上存在差异。但是，焊膏 1 对停顿的反应很差。我们还假设所有其他性能指标都相同。在这种情况下，我认为浆糊 1 和 2 的 TE 没有 "实际显著 "差异，应视为相同。如果再加上浆糊 2 对暂停的响应性能更优越，那么它就会胜出。

如何确定 "实际意义"？具体情况因人而异，但我认为，对于 TE 来说，2% 到 5%的差异并不具有实际意义。在大多数情况下，工程设计人员应通过一些实验来确定 "实际意义"。不过，由于 SPI 设备等现代工具可以测量数千个数据点，我认为理解统计和实际差异二分法的必要性变得越来越普遍。

最近，我分析了一些样本量超过 20,000 的 TE 数据，这种情况对我来说变得更加真实。

干杯

罗恩博士

铟泰公司团队

我们的博客团队包括工程师、研究员、产品专家和行业领袖。我们分享焊接材料、电子组装、热管理和先进制造方面的专业知识。我们的博客提供见解、技术知识和解决方案，以激励专业人士，展示产品创新、发展趋势和最佳实践，帮助读者在竞争激烈的行业中脱颖而出。

"统计意义 "与 "实际意义"

铟泰公司 团队

相关文章

参加 10 月 20-24 日的 SMTAI 2024 展会

与我一起参加 SMTAI 2023

实现 DDR4/DDR5 内存细间距可靠性的 Durafuse LT

铟泰公司团队