跳至内容

"统计意义 "与 "实际意义"

乡亲们

在关注去年秋天的选举时,我们经常会听说某项民意调查是或不是 有统计学意义.例如,在一项 1000 人的民意调查中,候选人 A 以 51% 对 49% 领先于候选人 B,但结果在统计上并不显著,因为 误差率 略高于 3%。像这样的例子理所应当地赋予统计意义以重要性。然而,在样本量非常大的情况下,这种显著性可能会产生误导。我曾在博客中讨论过这个话题,但有必要再重复一遍,尤其是用一个量化的例子来说明。

在这个例子中,我们来看看 SMT 行业的一些数据。假设一位工程师想评估三种焊膏在以下方面的性能 传输效率 (TE)。目标值为 100%。浆糊 1 的 TE 值为 98%,浆糊 2 的 TE 值为 97%,浆糊 3 的 TE 值为 86%。所有浆糊的数据标准偏差为 20%。不幸的是,她的公司还没有购买现代化的 SPI(焊膏检测) 由于没有体积测量装置,她必须用显微镜测量所有焊膏的沉积体积。因此,她只能测量每种焊膏的 20 个样品。根据上述数据和每种焊膏 20 个样品,她可以进行一些统计计算,并以 95% 的置信度表明,焊膏 1 和焊膏 2 在 TE 方面没有显著的统计学差异,但这两种焊膏都优于焊膏 3。

然而,一个月后,她的公司购买了一台 SPI 工具。它可以快速扫描焊膏沉积物,她为 3 种焊膏各扫描了 2 万个沉积物。令人欣慰的是,SPI 得出的结果完全相同,即焊膏 1 的 TE 为 98%,焊膏 2 的 TE 为 97%,焊膏 3 的 TE 为 86%。所有浆糊的标准偏差仍为 20%。

那么,我们的结果是一样的吗?当然不是。当然,浆糊 1 和 2 仍然胜过浆糊 3,但是,在这种情况下,浆糊 1 现在在统计上优于浆糊 2。事实上,即使浆糊 2 的 TE 值为 97.67%,在 95% 的置信度下,浆糊 1 也会在统计上优于浆糊 2。

是什么导致了这种变化?这与样本量有关。 平均值的 95%置信区间(CIM) 部分由标准差除以样本量的平方根决定。这个项称为 均值标准误差 (SEM).

随着样本量的增加,SEM 也会变小。图 1 显示了 均值的抽样分布 当样本量为 20 时,图 1 和图 2 显示的是粘贴 1 和粘贴 2 的平均值;当样本量为 20,000 时,图 2 显示的是粘贴 1 和粘贴 2 的平均值。每个分布的平均值置信区间用带箭头的线表示。请注意,在图 1 中,当样本量为 20 时,CIM 高度重合,表明没有统计差异。而在图 2 中,CIMs 相距甚远,表明这两种分布在统计上有很大差异。

图 1.样本数为 20 的样本 1 和 2 的均值的抽样分布。均值的 95% 置信区间(CIMs)由箭头线表示。请注意,CIMs 重叠在一起,表明存在统计差异。

图 2.样本数为 20,000 的样本 1 和 2 的均值的抽样分布。均值的 95% 置信区间(CIMs)由箭头线表示。请注意,CIMs 没有重叠,这表明统计差异很大。

这种情况让我们何去何从?

显然,如果 20,000 个样本的数量可以让我们说平均 TE 值为 98% 和 97.67% 之间存在统计学意义上的显著差异,我们就必须质疑其价值。举个例子,假设管理层认为 TE 是购买焊膏时最关键的参数。又假设焊膏 1 的 TE 值为 98%,而焊膏 2 的 TE 值为 97.67%,两者在统计上存在差异。但是,焊膏 1 对停顿的反应很差。我们还假设所有其他性能指标都相同。在这种情况下,我认为浆糊 1 和 2 的 TE 没有 "实际显著 "差异,应视为相同。如果再加上浆糊 2 对暂停的响应性能更优越,那么它就会胜出。

如何确定 "实际意义"?具体情况因人而异,但我认为,对于 TE 来说,2% 到 5%的差异并不具有实际意义。在大多数情况下,工程设计人员应通过一些实验来确定 "实际意义"。不过,由于 SPI 设备等现代工具可以测量数千个数据点,我认为理解统计和实际差异二分法的必要性变得越来越普遍。

最近,我分析了一些样本量超过 20,000 的 TE 数据,这种情况对我来说变得更加真实。

干杯

罗恩博士