Skip to content

Test d'hypothèse pour deux échantillons

Le professeur Patty Coleman était dans son bureau à l'université Ivy, réfléchissant à une évidence. Son mari Rob et elle travaillaient tous deux à l'université Ivy, mais ils n'avaient pas les moyens d'y envoyer leurs fils jumeaux. Ils gagnaient suffisamment d'argent pour ne pas pouvoir bénéficier d'une aide financière, mais pas assez pour payer les frais de scolarité de près de 100 000 dollars par an à Ivy, surtout pour deux enfants. Heureusement, l'université du Vermont, dans l'État où ils vivaient, était beaucoup plus abordable. Leurs deux fils se spécialisaient en génie des matériaux et prévoyaient de poursuivre leurs études en troisième cycle. Patty s'étonnait que la plupart des parents ne sachent pas que les études supérieures en ingénierie ou en sciences étaient gratuites et que les étudiants recevaient même un salaire.

Patty fut tirée de ses pensées conflictuelles par la sonnerie du téléphone.

« Patty Coleman, comment puis-je vous aider ? » répondit-elle joyeusement.

« Professeur Patty, c'est Maggie. Le logiciel Excel® développé par Wen Cao a remporté un franc succès. Cependant, nous avons maintenant besoin de comparer deux échantillons. Auriez-vous un autre étudiant qui pourrait nous aider ? » demanda Maggie.

« Maggie, je suis ravie d'avoir de tes nouvelles. Il se trouve justement que Mary Fritch a besoin d'une nouvelle recrue. Je vais lui demander de te contacter », répondit Patty. « Au fait, est-ce que j'ai bien vu un petit ventre rond la dernière fois que nous nous sommes vues ? », ajouta-t-elle d'un ton taquin.

« Oui, dit Maggie, je rougis, tu es le premier à l'avoir remarqué. »

Avec l'aide de Patty, Mary a pris rendez-vous avec l'équipe de Maggie pour discuter du problème.

« Pouvez-vous expliquer ce que vous essayez de faire ? » a demandé Mary à l'équipe via Zoom.

«Nous devons comparer deux échantillons de données sur l'efficacité du transfert. Nous avons trouvé que la moyenne de l'échantillon 1 était de 95,26 et celle de l'échantillon 2 de 100,6 », a répondu Mike Thomas.

« Il semble évident que l'échantillon 2 est meilleur, mais l'est-il statistiquement ? Nous avons essayé de trouver un moyen d'utiliser l'outil à échantillon unique que Wen Cao nous a fourni, mais il était peu pratique et nous avons remis en question sa validité », a expliqué Sharon Fox.

« J'ai cherché dans un livre de statistiques comment effectuer un test d'hypothèse à deux échantillons et nous avons pu démontrer que l'échantillon 2 était meilleur, mais cela nous a pris une éternité. Nous avons utilisé des calculatrices et avons commis de nombreuses erreurs de saisie », a ajouté Pete Singer.

« D'accord, dit Mary, je pense pouvoir vous aider. Donnez-moi quelques jours et je devrais pouvoir créer un tableur Excel® pour effectuer les calculs. »

L'équipe a envoyé les données à Mary, qui, en quelques jours, a pu créer une feuille de calcul Excel® permettant d'effectuer un test d'hypothèse à deux échantillons. Le lendemain, Mary se trouvait dans une salle de conférence chez Benson Electronics pour une réunion avec l'équipe.

Elle a montré le programme Excel® sur un écran d'ordinateur. Voir figure 1.

Figure 1. Feuille de calcul Excel® de Mary pour effectuer un test d'hypothèse sur deux ensembles de données.

« J'ai pris les deux ensembles de données que vous m'avez fournis et j'ai créé cette feuille de calcul Excel® pour les analyser », commença Mary.

« Remarquez que les deux ensembles de données sont entrés dans les colonnes A et B, tandis que le niveau de confiance se trouve dans la cellule D2. J'ai supposé que nous ne voulions pas que la différence proposée soit autre que 0, mais si nous voulions tester une différence, nous l'entrerions dans G2. J'ai conservé la mise en forme développée par Wen. Les cellules bleues contenant des chiffres blancs correspondent aux données saisies, tandis que les cellules grises contenant des chiffres noirs correspondent aux résultats. À partir de la cellule I2, notez que la moyenne de l'échantillon 1 est statistiquement inférieure à celle de l'échantillon 2 avec un niveau de confiance de 95 %, comme prévu », a résumé Mary.

« Pouvez-vous expliquer certaines des autres cellules grises ? Plus précisément les cellules D10 à D15 ? » demanda Steve Baker.

“D10 and D11 are the standard error of the mean for each sample. D12 is the pooled standard deviation, whereas D13 is the pooled “t score”. These terms are explained in Montgomery’s Statistics and Probability for Engineers.[i]

« Je vois que l'intervalle de confiance de la moyenne pour chaque échantillon est indiqué dans les cellules G6 à I7 », a déclaré Sam Burns.

Quelques questions et commentaires supplémentaires ont été échangés, puis la réunion a pris fin.

Les ingénieurs de Benson Electronics disposent désormais d'un logiciel permettant d'effectuer des tests d'hypothèse pour un ou deux échantillons. Mais que se passe-t-il s'ils ont trois échantillons ou plus ?

Utilisation de l'analyse de variance pour analyser les données relatives à la miction

Ivy University Professor Patty Coleman had never been to SMTA Pan Pacific, and she had decided to take the plunge. She was surprised that airfare from the East was only in the $600 range, but admittedly it was a long trip. However, the thought of taking a break from New England’s harsh winter for a week was enticing. The conference was on Big Island, Hawaii, this year. It seemed the volcano Kilaeua was active, and the island had excellent astronomy tours. So, she was excited about the prospects. Suddenly her iPhone buzzed. It was a text from Maggie Benson.

« Professeur Patty, les deux feuilles de calcul Excel® développées par vos étudiants pour tester les hypothèses nous ont été extrêmement utiles, mais nous devons maintenant analyser quatre échantillons. Ces échantillons proviennent d'expériences que nous avons menées afin de minimiser les pertes. Je crois me souvenir que l'analyse de variance (ANOVA) est utilisée pour ce type de données. Pouvez-vous nous aider à nouveau ? »

Il est étrange que cela semble toujours fonctionner, mais l'une de ses étudiantes, Megan Williams, avait besoin d'un projet pour son diplôme, le timing était donc parfait. Cependant, la création de cet outil logiciel Excel® a pris beaucoup plus de temps que prévu. Après plusieurs réunions avec l'équipe de Benson Electronics, Megan a finalement obtenu un outil logiciel fini.

“This took a little longer to develop than I thought it would. One of the challenges was that I needed a metric called the “Tukey Number,” which doesn’t exist online or in Excel®, so I had to create a table for it,” Megan explained. “I then took the voiding data you sent and analyzed it,” she continued. See Figure 2.

Figure 2. Résultats de l'analyse ANOVA de Megan à partir d'Excel®.

« Les données sont saisies dans les colonnes A à D. Les résultats apparaissent dans les cellules grises. Comme vous pouvez le constater, les moyennes se trouvent dans les cellules G3 à G6. L'échantillon 1 est nettement inférieur, les échantillons 2 et 3 sont à peu près identiques et l'échantillon 4 est nettement supérieur. Vous pouvez voir dans les cellules G9 à H14 que toutes les différences sont significatives, à l'exception des échantillons 2 et 3. Y a-t-il des questions ? » demanda Megan.

« Quel est le niveau de confiance ? » demanda Sam Johnston.

« C'est une bonne question. Il est de 95 %. Le nombre de Tukey, que j'ai mentionné précédemment, est difficile à trouver pour d'autres niveaux de confiance, donc à ce stade, seuls les niveaux de confiance de 95 % peuvent être calculés », a déclaré Megan. « J'ai également utilisé Excel® pour calculer les boîtes à moustaches des données. » Voir la figure 3.

Figure 3. Boîtes à moustaches des données.

Les boîtes à moustaches permettent une bonne visualisation des données, mais ne donnent pas une idée de la signification statistique calculée.

La réunion fut levée et l'équipe de Benson Electronics disposait désormais d'outils statistiques pour analyser les données de un, deux, trois, quatre, cinq et six échantillons.

Si vous souhaitez obtenir une copie de l'un de ces outils logiciels, envoyez-moi un message à l'adresse [email protected].

Santé,

Dr. Ron


[i] Statistiques et probabilités pour ingénieurs, Montgomery Douglas C., J Wiley and Sons,4e édition PPF 354, 2007.