11.4 : Test d'indépendance
- Page ID
- 191522
Les tests d'indépendance impliquent l'utilisation d'un tableau de contingence des valeurs (données) observées. La statistique d'un test d'indépendance est similaire à celle d'un test d'adéquation :
\[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]
où :
- \(O\)= valeurs observées
- \(E\)= valeurs attendues
- \(i\)= le nombre de lignes du tableau
- \(j\)= le nombre de colonnes du tableau
Il y a des\(i \cdot j\) termes du formulaire\(\frac{(O-E)^{2}}{E}\).
Un test d'indépendance permet de déterminer si deux facteurs sont indépendants ou non. Vous avez découvert le terme indépendance pour la première fois dans le tableau 3.1 plus haut. À titre de critique, considérez l'exemple suivant.
Remarque
La valeur attendue à l'intérieur de chaque cellule doit être d'au moins cinq pour que vous puissiez utiliser ce test.
Exemple 11.8
Supposons\(A\) = un excès de vitesse au cours de la dernière année et\(B\) = un utilisateur de téléphone portable au volant. Si\(A\) et\(B\) sont indépendants,\(P(A \cap B)=P(A) P(B) . A \cap B\) c'est le cas où un conducteur a été victime d'une infraction pour excès de vitesse l'année dernière et a également utilisé un téléphone portable au volant. Supposons que 755 personnes aient été interrogées dans le cadre d'une étude sur les conducteurs qui ont été victimes d'infractions pour excès de vitesse au cours de la dernière année et qui ont utilisé un téléphone portable au volant. Sur les 755 véhicules, 70 avaient commis une infraction pour excès de vitesse et 685 ne l'ont pas fait ; 305 ont utilisé un téléphone portable au volant et 450 ne l'ont pas fait.
Soit y = nombre attendu de conducteurs qui ont utilisé un téléphone portable au volant et qui ont été victimes d'infractions pour excès de vitesse.
Si\(A\) et\(B\) sont indépendants, alors\(P(A \cap B)=P(A) P(B)\). Par substitution,
\[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]
Résolvez pour\(y\) :\(y=\frac{(70)(305)}{755}=28.3\)
Environ 28 personnes de l'échantillon devraient utiliser un téléphone portable au volant et se voir infliger des infractions pour excès de vitesse.
Dans un test d'indépendance, nous énonçons les hypothèses nulles et alternatives avec des mots. Comme le tableau de contingence comprend deux facteurs, l'hypothèse nulle indique que les facteurs sont indépendants et l'hypothèse alternative indique qu'ils ne sont pas indépendants (dépendants). Si nous faisons un test d'indépendance à l'aide de l'exemple, l'hypothèse nulle est la suivante :
\(H_0\): Le fait d'utiliser un téléphone portable au volant et d'être victime d'une infraction pour excès de vitesse sont des événements indépendants ; en d'autres termes, ils n'ont aucun effet l'un sur l'autre.
Si l'hypothèse nulle était vraie, on s'attendrait à ce qu'environ 28 personnes utilisent un téléphone portable au volant et se voient infliger une infraction pour excès de vitesse.
Le test d'indépendance est toujours rectiligne en raison du calcul de la statistique du test. Si les valeurs attendues et observées ne sont pas proches l'une de l'autre, la statistique du test est très grande et se situe à l'extrémité droite de la courbe du Khi deux, comme c'est le cas pour un ajustement parfait.
Le nombre de degrés de liberté pour le test d'indépendance est le suivant :
\(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)
La formule suivante permet de calculer le nombre attendu (E) :
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]
Exercice 11.8
Un échantillon de 300 étudiants est prélevé. Parmi les étudiants interrogés, 50 étaient des étudiants en musique, tandis que 250 ne l'étaient pas. Quatre-vingt-dix-sept des 300 personnes interrogées figuraient sur la liste d'honneur, alors que 203 ne l'étaient pas. Si nous supposons qu'être étudiant en musique et figurer sur le tableau d'honneur sont des événements indépendants, quel est le nombre attendu d'étudiants en musique qui figurent également sur le tableau d'honneur ?
Exemple 11.9
Un groupe de bénévoles fournit de une à neuf heures par semaine aux personnes âgées handicapées. Le programme recrute parmi les étudiants des collèges communautaires, les étudiants de quatre ans et les non-étudiants. Le tableau 11.14 présente un échantillon des bénévoles adultes et le nombre d'heures qu'ils font du bénévolat par semaine.
Type de volontaire | 1 à 3 heures | 4 à 6 heures | 7 à 9 heures | Total des lignes |
---|---|---|---|---|
Les étudiants des collèges communautaires | 111 | 96 | 48 | 255 |
Des étudiants de quatre ans | 96 | 133 | 61 | 290 |
Non-étudiants | 91 | 150 | 53 | 294 |
Total de la colonne | 298 | 379 | 162 | 839 |
Le nombre d'heures de bénévolat est-il indépendant du type de bénévole ?
- Réponse
-
Solution 11.9
Le tableau observé et la question posée à la fin du problème : « Le nombre d'heures de bénévolat est-il indépendant du type de bénévole ? » Je vous dis que c'est un test d'indépendance. Les deux facteurs sont le nombre d'heures de bénévolat et le type de bénévole. Ce test est toujours à droite.
\(H_0\): Le nombre d'heures de bénévolat est indépendant du type de bénévole.
\(H_a\): Le nombre d'heures de bénévolat dépend du type de bénévole.
Les résultats attendus sont présentés dans le tableau 11.15.
Le tableau contient les valeurs (E) attendues (données). Type de volontaire 1 à 3 heures 4-6 heures 7-9 heures Les étudiants des collèges communautaires 90,57 115,19 49,24 Des étudiants de quatre ans 103,00 131,00 56,00 Non-étudiants 104,42 132,81 56,77 Tableau 11.15 Nombre d'heures travaillées par semaine par type de bénévole (prévu) Par exemple, le calcul de la fréquence attendue pour la cellule en haut à gauche est
\[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]
Calculez la statistique du test :\(\chi^2 = 12.99\) (calculatrice ou ordinateur)
Distribution pour le test :\(\chi_4^2\)
\(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)
Graphique :
Le graphique du Khi montre la distribution et marque la valeur critique avec quatre degrés de liberté à un niveau de confiance de 95 %\(\alpha = 0.05\), 9,488. Le graphique indique également la statistique de\(\chi_{c}^{2}\) test calculée de 12,99. En comparant la statistique du test à la valeur critique, comme nous l'avons fait avec tous les autres tests d'hypothèse, nous arrivons à la conclusion.
Prenez une décision : étant donné que la statistique de test calculée se trouve à la fin, nous ne pouvons pas accepter H 0. Cela signifie que les facteurs ne sont pas indépendants.
Conclusion : À un seuil de signification de 5 %, les données permettent de conclure que le nombre d'heures de bénévolat et le type de bénévole dépendent l'un de l'autre.
Pour l'exemple du Tableau 11.15, s'il y avait eu un autre type de bénévole, les adolescents, quels seraient les degrés de liberté ?
Exercice 11.9
Le Bureau of Labor Statistics recueille des données sur l'emploi aux États-Unis. Un échantillon est prélevé pour calculer le nombre de citoyens américains travaillant dans l'un des nombreux secteurs industriels au fil du temps. Le tableau 11.16 présente les résultats :
Secteur industriel | 2000 | 2010 | 2020 | Totale |
---|---|---|---|---|
Salaires et traitements non agricoles | 13 243 | 13 044 | 15 018 | 41 305 |
Production de biens, à l'exclusion de l'agriculture | 2 457 | 1 771 | 1 950 | 6 178 |
Fourniture de services | 10 786 | 11 273 | 13 068 | 35 127 |
Agriculture, sylviculture, pêche et chasse | 240 | 214 | 201 | 655 |
Travailleur indépendant non agricole et travailleur familial non rémunéré | 931 | 894 | 972 | 2 797 |
Emplois secondaires rémunérés et rémunérés dans l'agriculture et les industries domestiques privées | 14 | 11 | 11 | 36 |
Emplois secondaires en tant que travailleur indépendant ou travailleur familial non rémunéré | 196 | 144 | 152 | 492 |
Total | 27 867 | 27 351 | 31 372 | 86 590 |
Nous voulons savoir si la variation du nombre d'emplois est indépendante de la variation en années. Indiquez les hypothèses nulles et alternatives ainsi que les degrés de liberté.
Exemple 11.10
Le collège De Anza s'intéresse à la relation entre le niveau d'anxiété et la nécessité de réussir à l'école. Un échantillon aléatoire de 400 élèves a passé un test qui mesurait le niveau d'anxiété et le besoin de réussir à l'école. Le tableau 11.17 présente les résultats. De Anza College veut savoir si le niveau d'anxiété et le besoin de réussir à l'école sont des événements indépendants.
Nécessité de réussir à l'école | Anxiété élevée |
Anxiété moyennement élevée |
Anxiété moyenne |
Anxiété moyennement faible |
Faible anxiété |
Total des lignes |
---|---|---|---|---|---|---|
Besoin élevé | 35 | 42 | 53 | 15 | 10 | 155 |
Besoin moyen | 18 | 48 | 63 | 33 | 31 | 193 |
Faible besoin | 4 | 5 | 11 | 15 | 17 | 52 |
Total de la colonne | 57 | 95 | 127 | 63 | 58 | 400 |
a. Combien d'élèves présentant un niveau d'anxiété élevé devraient avoir un besoin important pour réussir à l'école ?
- Réponse
-
Solution 11.10
a. Le total de la colonne correspondant à un niveau d'anxiété élevé est de 57. Le nombre total de lignes correspondant aux besoins élevés pour réussir à l'école est de 155. La taille de l'échantillon ou le total interrogé est de 400.
\[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]
Le nombre attendu d'élèves présentant un niveau d'anxiété élevé et un grand besoin de réussir à l'école est d'environ 22.
b. Si les deux variables sont indépendantes, combien d'élèves pensez-vous avoir un faible besoin de réussir à l'école et un niveau d'anxiété moyen-faible ?
- Réponse
-
Solution 11.10
b. Le total de la colonne pour un niveau d'anxiété moyen-faible est de 63. Le nombre total de lignes correspondant à un faible besoin de réussite scolaire est de 52. La taille de l'échantillon ou le total interrogé est de 400.
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________
- Réponse
-
Solution 11.10
c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)
d. Le nombre attendu d'élèves qui ont un niveau d'anxiété moyen-faible et qui ont peu besoin de réussir à l'école est d'environ ________.
- Réponse
-
Solution 11.10
d. 8