11.3 : Test d'adéquation de l'ajustement

Last updated
Save as PDF

Page ID: 191500

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Dans ce type de test d'hypothèse, vous déterminez si les données « correspondent » à une distribution particulière ou non. Par exemple, vous pouvez penser que vos données inconnues correspondent à une distribution binomiale. Vous utilisez un test du Khi deux (ce qui signifie que la distribution du test d'hypothèse est le Khi deux) pour déterminer s'il y a un ajustement ou non. Les hypothèses nulles et alternatives pour ce test peuvent être écrites en phrases ou peuvent être énoncées sous forme d'équations ou d'inégalités.

La statistique de test pour un test de qualité d'ajustement est la suivante :

\[\sum_{k} \frac{(O-E)^{2}}{E}\nonumber\]

où :

\(O\)= valeurs observées (données)
\(E\)= valeurs attendues (d'après la théorie)
\(k\)= le nombre de cellules de données ou de catégories différentes

Les valeurs observées sont les valeurs de données et les valeurs attendues sont les valeurs que vous vous attendez à obtenir si l'hypothèse nulle était vraie. Il n'y a pas de termes de forme\(\frac{(O-E)^{2}}{E}\).

Le nombre de degrés de liberté est\(df\) = (nombre de catégories — 1).

Le test de qualité de l'ajustement se fait presque toujours dans la droite. Si les valeurs observées et les valeurs attendues correspondantes ne sont pas proches l'une de l'autre, la statistique du test peut devenir très importante et se situer tout à l'extrémité droite de la courbe du Khi deux.

REMARQUE

Le nombre de valeurs attendues à l'intérieur de chaque cellule doit être d'au moins cinq pour pouvoir utiliser ce test.

Exemple\(\PageIndex{4}\)

L'absentéisme des étudiants dans les cours de mathématiques est une préoccupation majeure pour les professeurs de mathématiques, car l'absence de cours semble augmenter le taux de décrochage. Supposons qu'une étude ait été réalisée pour déterminer si le taux réel d'absentéisme des étudiants correspond à la perception du corps professoral. La faculté s'attendait à ce qu'un groupe de 100 étudiants manque les cours, selon le tableau\(\PageIndex{1}\).

\ (\ PageIndex {1} \) « >

Tableau\(\PageIndex{1}\)
Nombre d'absences par trimestre	Nombre d'élèves prévu
0—2	50
3 à 5	30
6—8	12
9-11	6
12 ans et plus	2

Une enquête aléatoire a ensuite été réalisée dans tous les cours de mathématiques afin de déterminer le nombre réel (observé) d'absences dans un cours. Le graphique du tableau\(\PageIndex{2}\) présente les résultats de cette enquête.

\ (\ PageIndex {2} \) « >

Tableau\(\PageIndex{2}\)
Nombre d'absences par trimestre	Nombre réel d'étudiants
0—2	35
3 à 5	40
6—8	20
9-11	1
12 ans et plus	4

Déterminez les hypothèses nulles et alternatives nécessaires pour effectuer un test de qualité d'ajustement.

\(\bf{H_a}\): L'absentéisme des étudiants correspond à la perception des professeurs

L'hypothèse alternative est à l'opposé de l'hypothèse nulle.

\(\bf{H_a}\): L'absentéisme des étudiants ne correspond pas à la perception des professeurs.

a. Pouvez-vous utiliser les informations telles qu'elles apparaissent dans les tableaux pour effectuer le test de qualité de l'ajustement ?

Réponse

Solution 11.4

a. Non Notez que le nombre d'absences attendu pour l'entrée « 12+ » est inférieur à cinq (il est de deux). Combinez ce groupe avec le groupe « 9-11 » pour créer de nouveaux tableaux dans lesquels le nombre d'étudiants pour chaque entrée est d'au moins cinq. Les nouveaux résultats sont présentés sous forme de tableau\(\PageIndex{3}\) et de tableau\(\PageIndex{4}\).

\ (\ PageIndex {3} \) « >

Nombre d'absences par trimestre	Nombre d'élèves prévu
0—2	50
3 à 5	30
6—8	12
9 ans et plus	8

Tableau 11.3

\ (\ PageIndex {4} \) « >

Tableau\(\PageIndex{4}\)
Nombre d'absences par trimestre	Nombre réel d'étudiants
0—2	35
3 à 5	40
6—8	20
9 ans et plus	5

b. Quel est le nombre de degrés de liberté (\(df\)) ?

Réponse

Solution 11.4

b. Chacun des nouveaux tableaux comporte quatre « cellules » ou catégories.

\(d f=\text { number of cells }-1=4-1=3\)

Exercice\(\PageIndex{4}\)

Un directeur d'usine doit comprendre combien de produits sont défectueux par rapport au nombre de produits fabriqués. Le nombre de défauts attendus est indiqué dans le tableau\(\PageIndex{5}\).

\ (\ PageIndex {5} \) « >

Tableau\(\PageIndex{5}\)
Nombre produit	Numéro défectueux
0 à 100	5
101 À 200	6
201—300	7
301 à 400	8
401 à 500	10

Un échantillon aléatoire a été prélevé afin de déterminer le nombre réel de défauts. Le\(\PageIndex{6}\) tableau présente les résultats de l'enquête.

\ (\ PageIndex {6} \) « >

Tableau\(\PageIndex{6}\)
Nombre produit	Numéro défectueux
0 à 100	5
101 À 200	7
201—300	8
301 à 400	9
401 à 500	11

Énoncez les hypothèses nulles et alternatives nécessaires pour effectuer un test d'adéquation, et indiquez les degrés de liberté.

Exemple\(\PageIndex{5}\)

Les employeurs veulent savoir quels jours de la semaine les employés sont absents au cours d'une semaine de travail de cinq jours. La plupart des employeurs aimeraient croire que les employés sont absents de la même manière pendant la semaine. Supposons qu'on demande à un échantillon aléatoire de 60 gestionnaires quel jour de la semaine ils ont enregistré le plus grand nombre d'absences d'employés. Les résultats ont été distribués comme dans le tableau\(\PageIndex{7}\). Pour l'ensemble des employés, les jours où le nombre d'absences est le plus élevé se produisent-ils à la même fréquence au cours d'une semaine de travail de cinq jours ? Test à un seuil de signification de 5 %.

\ (\ PageIndex {7} \) Jour de la semaine Les employés étaient les plus absents « >

Tableau\(\PageIndex{7}\) Jour de la semaine Les employés étaient les plus absents
	Lundi	mardi	Mercredi	jeudi	Vendredi
Nombre d'absences	15	12	9	9	15

Réponse

Solution 11.5

Les hypothèses nulles et alternatives sont les suivantes :

\(H_0\): Les jours d'absence se produisent à des fréquences égales, c'est-à-dire qu'ils suivent une distribution uniforme.
\(H_a\): Les jours absents se produisent à des fréquences inégales, c'est-à-dire qu'ils ne correspondent pas à une distribution uniforme.

Si les jours d'absence se produisent à la même fréquence, alors, sur 60 jours d'absence (le total dans l'échantillon :\(15 + 12 + 9 + 9 + 15 = 60\)), il y aura 12 absences le lundi, 12 le mardi, 12 le mercredi, 12 le jeudi et 12 le vendredi. Ces nombres sont les valeurs attendues (\(E\)). Les valeurs du tableau sont les valeurs ou les données observées (\(O\)).

Cette fois, calculez la statistique du test \ chi2 à la main. Créez un graphique avec les titres suivants et remplissez les colonnes :

Valeurs attendues (\(E\))\((12, 12, 12, 12, 12)\)
Valeurs observées (\(O\))\((15, 12, 9, 9, 15)\)
\((O – E)\)
\((O – E)^2\)
\(\frac{(O-E)^{2}}{E}\)

Maintenant, ajoutez (additionnez) la dernière colonne. La somme est de trois. Il s'agit de la statistique du\(\chi^2\) test.

Les statistiques de test calculées sont de 3 et la valeur critique de la\(\chi^2\) distribution à 4 degrés de liberté (niveau de confiance de 0,05) est de 9,48. Cette valeur se trouve dans le\(\chi^2\) tableau à la colonne 0,05 de la ligne 4 des degrés de liberté.

\(\text{The degrees of freedom are the number of cells }– 1 = 5 – 1 = 4\)

Ensuite, complétez un graphique comme celui-ci avec l'étiquetage et l'ombrage appropriés. (Vous devez ombrer la queue droite.)

Il s'agit d'une courbe du Khi deux non symétrique vide pour la statistique de test des jours de la semaine absents.

\[\bf{\chi}_{c}^{2}=\sum_{k} \frac{(O-E)^{2}}{E}=3\nonumber\]

La décision est de ne pas rejeter l'hypothèse nulle car la valeur calculée de la statistique de test ne se situe pas à la fin de la distribution.

Conclusion : À un seuil de signification de 5 %, les données de l'échantillon ne permettent pas de conclure que les jours d'absence ne se produisent pas à la même fréquence.

Exercice\(\PageIndex{5}\)

Les enseignants veulent savoir quel soir de la semaine leurs élèves font la plupart de leurs devoirs. La plupart des enseignants pensent que les élèves font leurs devoirs de la même manière tout au long de Supposons qu'on demande à un échantillon aléatoire de 56 élèves quel soir de la semaine ils ont fait le plus de devoirs. Les résultats ont été distribués comme dans le tableau\(\PageIndex{8}\).

\ (\ PageIndex {8} \) « >

Tableau\(\PageIndex{8}\)
	dimanche	Lundi	mardi	Mercredi	jeudi	Vendredi	Samedi
Nombre d'élèves	11	8	10	7	10	5	5

Parmi les étudiants, est-ce que les nuits où le plus grand nombre d'étudiants font la majorité de leurs devoirs se déroulent à la même fréquence au cours de la semaine ? Quel type de test d'hypothèse devriez-vous utiliser ?

Exemple\(\PageIndex{6}\)

Une étude indique que le nombre de téléviseurs que possèdent les familles américaines est réparti (il s'agit de la distribution donnée pour la population américaine) comme indiqué dans le tableau\(\PageIndex{9}\).

\ (\ PageIndex {9} \) « >

Tableau\(\PageIndex{9}\)
Nombre de télévisions	Pourcentage
0	10
1	16
2	55
3	11
4+	8

Le tableau contient les pourcentages attendus (\(E\)).

Un échantillon aléatoire de 600 familles de l'extrême ouest des États-Unis a permis d'obtenir les données du tableau\(\PageIndex{10}\).

\ (\ PageIndex {10} \) « >

Tableau\(\PageIndex{10}\)
Nombre de télévisions	Fréquence
	Total = 600
0	66
1	119
2	340
3	60
4+	15

Le tableau contient les valeurs de fréquence observées (\(O\)).

Au seuil de signification de 1 %, apparaît-il que la distribution « nombre de téléviseurs » des familles de l'extrême ouest des États-Unis est différente de la distribution pour l'ensemble de la population américaine ?

Réponse

Solution 11.6

Ce problème vous demande de vérifier si la répartition des familles de l'extrême ouest des États-Unis correspond à la répartition des familles américaines. Ce test est toujours rectiligne.

Le premier tableau contient les pourcentages attendus. Pour obtenir les fréquences attendues (E), multipliez le pourcentage par 600. Les fréquences attendues sont présentées dans le tableau\(\PageIndex{11}\).

\ (\ PageIndex {11} \) « >

Tableau\(\PageIndex{11}\)
Nombre de télévisions	Pourcentage	Fréquence prévue
0	10	(0,10) (600) = 60
1	16	(0,16) (600) = 96
2	55	(0,5) (600) = 330
3	11	(0,11) (600) = 66
plus de 3	8	(0,08) (600) = 48

Par conséquent, les fréquences attendues sont 60, 96, 330, 66 et 48.

\(H_0\): La répartition du « nombre de téléviseurs » des familles de l'extrême ouest des États-Unis est la même que la répartition du « nombre de téléviseurs » de la population américaine.

\(H_a\): La répartition du « nombre de téléviseurs » des familles de l'extrême ouest des États-Unis est différente de la répartition du « nombre de téléviseurs » de la population américaine.

Distribution pour le test :\(\chi_{4}^{2} \text { where } d f=(\text { the number of cells })-1=5-1=4\).

Calculez la statistique du test :\(\chi^2 = 29.65\)

Graphique :

Il s'agit d'une courbe du Khi deux non symétrique avec des valeurs de 0, 4 et 29,65 étiquetées sur l'axe horizontal. La valeur 4 coïncide avec le sommet de la courbe. Une ligne verticale ascendante s'étend de 29,65 à la courbe, et la région située à droite de cette ligne est ombrée. La zone ombrée est égale à la valeur de p. — Figurine\(\PageIndex{6}\)

Le graphique du Khi montre la distribution et marque la valeur critique avec quatre degrés de liberté à un niveau de confiance de 99 %, α = 0,01, 13,277. Le graphique indique également la statistique de test calculée du chi carré de 29,65. En comparant la statistique du test à la valeur critique, comme nous l'avons fait avec tous les autres tests d'hypothèse, nous arrivons à la conclusion.

Prenez une décision : étant donné que la statistique du test se situe à la fin de la distribution, nous ne pouvons pas accepter l'hypothèse nulle.

Cela signifie que vous rejetez l'idée selon laquelle la répartition des États de l'extrême ouest est la même que celle de la population américaine dans son ensemble.

Conclusion : Au seuil de signification de 1 %, les données permettent de conclure que la distribution du « nombre de téléviseurs » pour l'extrême ouest des États-Unis est différente de la distribution du « nombre de téléviseurs » pour l'ensemble de la population américaine.

Exercice\(\PageIndex{6}\)

Le pourcentage attendu du nombre d'animaux de compagnie que les élèves ont chez eux est réparti (il s'agit de la distribution donnée pour la population étudiante des États-Unis) comme indiqué dans le tableau\(\PageIndex{12}\).

\ (\ PageIndex {12} \) « >

Tableau\(\PageIndex{12}\)
Nombre d'animaux	Pourcentage
0	18
1	25
2	30
3	18
4+	9

Un échantillon aléatoire de 1 000 étudiants de l'est des États-Unis a permis d'obtenir les données du tableau\(\PageIndex{13}\).

\ (\ PageIndex {13} \) « >

Tableau\(\PageIndex{13}\)
Nombre d'animaux	Fréquence
0	210
1	240
2	320
3	140
4+	90

Au seuil de signification de 1 %, semble-t-il que la distribution « nombre d'animaux de compagnie » des élèves de l'est des États-Unis est différente de celle de l'ensemble de la population étudiante des États-Unis ?

Exemple\(\PageIndex{7}\)

Supposons que vous retourniez deux pièces 100 fois. Les résultats sont\(20 HH, 27 HT, 30 TH\), et\(23 TT\). Les pièces sont-elles justes ? Test à un seuil de signification de 5 %.

Réponse

Solution 11.7

Ce problème peut être défini comme un problème d'adéquation de l'ajustement. L'espace d'échantillonnage pour retourner deux pièces équitables est\(\{HH, HT, TH, TT\}\). Sur 100 flips, vous pouvez vous attendre à 25\(HH, 25 HT, 25 TH\), et\(25 TT\). Il s'agit de la distribution attendue à partir de la distribution de probabilité binomiale. La question : « Les pièces sont-elles justes ? » revient à dire : « La distribution des pièces\((20 HH, 27 HT, 30 TH, 23 TT)\) correspond-elle à la distribution attendue ? »

Variable aléatoire : Let\(X\) = le nombre de têtes lors d'un seul lancer des deux pièces. X prend les valeurs 0, 1, 2. (Il y a 0, 1 ou 2 têtes dans le lancer de deux pièces.) Par conséquent, le nombre de cellules est de trois. Puisque\(X\) = le nombre de têtes, les fréquences observées sont de 20 (pour deux têtes), 57 (pour une tête) et 23 (pour zéro tête ou les deux queues). Les fréquences attendues sont 25 (pour deux têtes), 50 (pour une tête) et 25 (pour zéro tête ou les deux queues). Ce test est rectiligne.

\(\bf{H_0}\): Les pièces sont justes.

\(\bf{H_a}\): Les pièces ne sont pas justes.

Distribution pour le test :\(\chi_2^2\) où\(df = 3 – 1 = 2\).

Calculez la statistique du test :\(\chi^2 = 2.14\).

Graphique :

Il s'agit d'une courbe du Khi deux non symétrique avec des valeurs de 0 et 2,14 marquées sur l'axe horizontal. Une ligne verticale ascendante s'étend de 2,14 à la courbe et la région située à droite de cette ligne est ombrée. La zone ombrée est égale à la valeur de p. — Figurine\(\PageIndex{7}\)

Le graphique du Khi montre la distribution et marque la valeur critique avec deux degrés de liberté à un niveau de confiance de 95 %\(\alpha = 0.05\), 5,991. Le graphique indique également la statistique de\(\chi^2\) test calculée de 2,14. En comparant la statistique du test à la valeur critique, comme nous l'avons fait avec tous les autres tests d'hypothèse, nous arrivons à la conclusion.

Conclusion : Les preuves sont insuffisantes pour conclure que les pièces ne sont pas équitables : nous ne pouvons pas rejeter l'hypothèse nulle selon laquelle les pièces sont équitables.