가장 최근 블로그 주제는 다음과 관련이 있습니다.웨이브 납땜기 부품에 관한 것이지만 통계학도 제가 관심을 갖고 있는 분야입니다. 두 개 이상의 데이터 세트를 비교하여 서로 관련이 없거나 통계적으로 유의미한지 파악해야 했던 적이 있으신가요? 저는 최근에 두 대의 서로 다른 SMT 조립 기계의 변수를 비교하여 이 문제를 직접 해결해야 했습니다.
대학에서 통계학 수업을 들은 후 처음으로 통계를 사용해야 했기 때문에 몇 가지 사항을 숙지해야 했습니다. 분석을 시작할 때 어떤 테스트를 수행해야 하는지 명확하지 않았습니다. 두 기계가 정확히 동일한 변수를 측정한다고 가정했을 때, 유일한 차이점은 기계뿐이었습니다. 저는 어떤 기계가 더 정확한지 알고 싶었습니다. 또는 두 결과 세트 사이에 통계적으로 유의미한 차이가 있는지 알고 싶었습니다. 먼저 "통계적으로 유의미한"의 정의부터 살펴보겠습니다. 에 따르면 Google에따르면 통계적으로 유의미함의 정의는 다음과 같습니다. "결과 또는 관계가 단순한 우연이 아닌 다른 원인에 의해 발생할 가능성으로, 통계적 가설 테스트는 전통적으로 결과가 통계적으로 유의미한지 여부를 판단하는 데 사용됩니다."
몇 가지 조사 끝에 분산 분석(ANOVA) 테스트 또는 분산 테스트 중 하나를 사용할 수 있다는 것을 알게 되었습니다. 독립 변수는 두 개의 그룹만 있어야 하는 반면, t-test는 단일 변수를 사용하여 두 그룹 간의 차이를 살펴봅니다. 분산 분석은 두 개 이상의 데이터 그룹 간의 차이의 유의성을 테스트합니다. 독립 변수는 두 개 이상의 범주를 가져야 합니다. 분산 분석은 그룹 간에 차이가 있는지 여부만 판단할 뿐, 어떤 그룹이 다른지는 알려주지 않습니다. 이상하게도 두 개의 독립 변수에 대해 분산분석을 수행하면 t-test를 사용하는 것과 동일한 결과가 생성됩니다. 다음은 제 데이터가 어떻게 보이는지 보여주는 스냅샷입니다:
JMP 소프트웨어를 사용하고 '평균/ANOVA/풀링된 t'를 켜면 이제 데이터가 다음과 같이 보입니다:
에 따르면 JMP 지원 페이지에 따르면 "Prob > F 값은 중간값을 제외한 모든 매개변수가 0일 때 관측된 값만큼 큰 F 비율을 얻을 확률을 측정합니다. Prob > F 값이 작으면 관찰된비율의 가능성이 낮음을 나타냅니다. 이러한 값은 모델에 적어도 하나의 유의미한 효과가 있다는 증거로 간주됩니다." 이 데이터는 설명에 부합하므로 결과를 확인하기 위해 보조 검정인 투키-크레이머 테스트를 사용했습니다. 이 테스트를 선택하면 데이터의 이미지가 다음과 같이 약간 변경됩니다:
이 테스트를 처음 사용했을 때 저는 원이 무엇을 나타내는지 완전히 이해하지 못했습니다. 제가 찾은 가장 포괄적인 그래픽은 다음과 같습니다.
원이 전혀 겹치지 않기 때문에 결과가 크게 달라집니다.
투키-크래머 분석을 선택하면 최빈값 차이 또는 LSD 임계값 매트릭스가 나타납니다. 아래에 표시되어 있습니다:
행렬을 읽는 방법은 A와 B를 비교할 때 양수가 있으면 한 쌍의 평균이 크게 다르다는 것을 나타냅니다.
때때로 저는 저의 표준 프로그램인 플럭서, 예열기등 제가 인디엄 코퍼레이션에서 수행한 다른 주제나 실험에 대해 논의하는 포스팅을 가끔씩 올릴 예정입니다. 질문, 우려 사항 또는 재미있는 사실이 있으면 언제든지 저에게 연락해 주세요. (저는 재미있는 사실을 좋아합니다!!!) 저는 항상 새로운 아이디어와 개념에 열려 있습니다.







