Skip to main content
Global

11.4 : Test d'indépendance

  • Page ID
    191522
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Les tests d'indépendance impliquent l'utilisation d'un tableau de contingence des valeurs (données) observées. La statistique d'un test d'indépendance est similaire à celle d'un test d'adéquation :

    \[\sum_{(i \cdot j)} \frac{(O-E)^{2}}{E}\nonumber\]

    où :

    • \(O\)= valeurs observées
    • \(E\)= valeurs attendues
    • \(i\)= le nombre de lignes du tableau
    • \(j\)= le nombre de colonnes du tableau

    Il y a des\(i \cdot j\) termes du formulaire\(\frac{(O-E)^{2}}{E}\).

    Un test d'indépendance permet de déterminer si deux facteurs sont indépendants ou non. Vous avez découvert le terme indépendance pour la première fois dans le tableau 3.1 plus haut. À titre de critique, considérez l'exemple suivant.

    Remarque

    La valeur attendue à l'intérieur de chaque cellule doit être d'au moins cinq pour que vous puissiez utiliser ce test.

    Exemple 11.8

    Supposons\(A\) = un excès de vitesse au cours de la dernière année et\(B\) = un utilisateur de téléphone portable au volant. Si\(A\) et\(B\) sont indépendants,\(P(A \cap B)=P(A) P(B) . A \cap B\) c'est le cas où un conducteur a été victime d'une infraction pour excès de vitesse l'année dernière et a également utilisé un téléphone portable au volant. Supposons que 755 personnes aient été interrogées dans le cadre d'une étude sur les conducteurs qui ont été victimes d'infractions pour excès de vitesse au cours de la dernière année et qui ont utilisé un téléphone portable au volant. Sur les 755 véhicules, 70 avaient commis une infraction pour excès de vitesse et 685 ne l'ont pas fait ; 305 ont utilisé un téléphone portable au volant et 450 ne l'ont pas fait.

    Soit y = nombre attendu de conducteurs qui ont utilisé un téléphone portable au volant et qui ont été victimes d'infractions pour excès de vitesse.

    Si\(A\) et\(B\) sont indépendants, alors\(P(A \cap B)=P(A) P(B)\). Par substitution,

    \[\frac{y}{755}=\left(\frac{70}{755}\right)\left(\frac{305}{755}\right)\nonumber\]

    Résolvez pour\(y\) :\(y=\frac{(70)(305)}{755}=28.3\)

    Environ 28 personnes de l'échantillon devraient utiliser un téléphone portable au volant et se voir infliger des infractions pour excès de vitesse.

    Dans un test d'indépendance, nous énonçons les hypothèses nulles et alternatives avec des mots. Comme le tableau de contingence comprend deux facteurs, l'hypothèse nulle indique que les facteurs sont indépendants et l'hypothèse alternative indique qu'ils ne sont pas indépendants (dépendants). Si nous faisons un test d'indépendance à l'aide de l'exemple, l'hypothèse nulle est la suivante :

    \(H_0\): Le fait d'utiliser un téléphone portable au volant et d'être victime d'une infraction pour excès de vitesse sont des événements indépendants ; en d'autres termes, ils n'ont aucun effet l'un sur l'autre.

    Si l'hypothèse nulle était vraie, on s'attendrait à ce qu'environ 28 personnes utilisent un téléphone portable au volant et se voient infliger une infraction pour excès de vitesse.

    Le test d'indépendance est toujours rectiligne en raison du calcul de la statistique du test. Si les valeurs attendues et observées ne sont pas proches l'une de l'autre, la statistique du test est très grande et se situe à l'extrémité droite de la courbe du Khi deux, comme c'est le cas pour un ajustement parfait.

    Le nombre de degrés de liberté pour le test d'indépendance est le suivant :

    \(d f=(\text { number of columns }-1)(\text { number of rows }-1)\)

    La formule suivante permet de calculer le nombre attendu (E) :

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}\nonumber\]

    Exercice 11.8

    Un échantillon de 300 étudiants est prélevé. Parmi les étudiants interrogés, 50 étaient des étudiants en musique, tandis que 250 ne l'étaient pas. Quatre-vingt-dix-sept des 300 personnes interrogées figuraient sur la liste d'honneur, alors que 203 ne l'étaient pas. Si nous supposons qu'être étudiant en musique et figurer sur le tableau d'honneur sont des événements indépendants, quel est le nombre attendu d'étudiants en musique qui figurent également sur le tableau d'honneur ?

    Exemple 11.9

    Un groupe de bénévoles fournit de une à neuf heures par semaine aux personnes âgées handicapées. Le programme recrute parmi les étudiants des collèges communautaires, les étudiants de quatre ans et les non-étudiants. Le tableau 11.14 présente un échantillon des bénévoles adultes et le nombre d'heures qu'ils font du bénévolat par semaine.

    Le tableau contient les valeurs (O) observées (données).
    Type de volontaire 1 à 3 heures 4 à 6 heures 7 à 9 heures Total des lignes
    Les étudiants des collèges communautaires 111 96 48 255
    Des étudiants de quatre ans 96 133 61 290
    Non-étudiants 91 150 53 294
    Total de la colonne 298 379 162 839
    Tableau 11.14 Nombre d'heures travaillées par semaine par type de bénévole (observé)

    Le nombre d'heures de bénévolat est-il indépendant du type de bénévole ?

    Réponse

    Solution 11.9

    Le tableau observé et la question posée à la fin du problème : « Le nombre d'heures de bénévolat est-il indépendant du type de bénévole ? » Je vous dis que c'est un test d'indépendance. Les deux facteurs sont le nombre d'heures de bénévolat et le type de bénévole. Ce test est toujours à droite.

    \(H_0\): Le nombre d'heures de bénévolat est indépendant du type de bénévole.

    \(H_a\): Le nombre d'heures de bénévolat dépend du type de bénévole.

    Les résultats attendus sont présentés dans le tableau 11.15.

    Le tableau contient les valeurs (E) attendues (données).
    Type de volontaire 1 à 3 heures 4-6 heures 7-9 heures
    Les étudiants des collèges communautaires 90,57 115,19 49,24
    Des étudiants de quatre ans 103,00 131,00 56,00
    Non-étudiants 104,42 132,81 56,77
    Tableau 11.15 Nombre d'heures travaillées par semaine par type de bénévole (prévu)

    Par exemple, le calcul de la fréquence attendue pour la cellule en haut à gauche est

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total number surveyed }}=\frac{(255)(298)}{839}=90.57\nonumber\]

    Calculez la statistique du test :\(\chi^2 = 12.99\) (calculatrice ou ordinateur)

    Distribution pour le test :\(\chi_4^2\)

    \(d f=(3 \text { columns }-1)(3 \text { rows }-1)=(2)(2)=4\)

    Graphique :

    Courbe du Khi non symétrique avec des valeurs de 0 et 12,99 sur l'axe des abscisses représentant la statistique du test du nombre d'heures travaillées par des volontaires de différents types. Une ligne verticale ascendante s'étend de 12,99 à la courbe et l'aire située à droite de celle-ci est égale à la valeur de p.

    Graphique 11.8

    Le graphique du Khi montre la distribution et marque la valeur critique avec quatre degrés de liberté à un niveau de confiance de 95 %\(\alpha = 0.05\), 9,488. Le graphique indique également la statistique de\(\chi_{c}^{2}\) test calculée de 12,99. En comparant la statistique du test à la valeur critique, comme nous l'avons fait avec tous les autres tests d'hypothèse, nous arrivons à la conclusion.

    Prenez une décision : étant donné que la statistique de test calculée se trouve à la fin, nous ne pouvons pas accepter H 0. Cela signifie que les facteurs ne sont pas indépendants.

    Conclusion : À un seuil de signification de 5 %, les données permettent de conclure que le nombre d'heures de bénévolat et le type de bénévole dépendent l'un de l'autre.

    Pour l'exemple du Tableau 11.15, s'il y avait eu un autre type de bénévole, les adolescents, quels seraient les degrés de liberté ?

    Exercice 11.9

    Le Bureau of Labor Statistics recueille des données sur l'emploi aux États-Unis. Un échantillon est prélevé pour calculer le nombre de citoyens américains travaillant dans l'un des nombreux secteurs industriels au fil du temps. Le tableau 11.16 présente les résultats :

    Secteur industriel 2000 2010 2020 Totale
    Salaires et traitements non agricoles 13 243 13 044 15 018 41 305
    Production de biens, à l'exclusion de l'agriculture 2 457 1 771 1 950 6 178
    Fourniture de services 10 786 11 273 13 068 35 127
    Agriculture, sylviculture, pêche et chasse 240 214 201 655
    Travailleur indépendant non agricole et travailleur familial non rémunéré 931 894 972 2 797
    Emplois secondaires rémunérés et rémunérés dans l'agriculture et les industries domestiques privées 14 11 11 36
    Emplois secondaires en tant que travailleur indépendant ou travailleur familial non rémunéré 196 144 152 492
    Total 27 867 27 351 31 372 86 590
    Tableau 11.16

    Nous voulons savoir si la variation du nombre d'emplois est indépendante de la variation en années. Indiquez les hypothèses nulles et alternatives ainsi que les degrés de liberté.

    Exemple 11.10

    Le collège De Anza s'intéresse à la relation entre le niveau d'anxiété et la nécessité de réussir à l'école. Un échantillon aléatoire de 400 élèves a passé un test qui mesurait le niveau d'anxiété et le besoin de réussir à l'école. Le tableau 11.17 présente les résultats. De Anza College veut savoir si le niveau d'anxiété et le besoin de réussir à l'école sont des événements indépendants.

    Nécessité de réussir à l'école
    Anxiété élevée

    Anxiété moyennement élevée

    Anxiété moyenne

    Anxiété moyennement faible
    Faible
    anxiété
    Total des lignes
    Besoin élevé 35 42 53 15 10 155
    Besoin moyen 18 48 63 33 31 193
    Faible besoin 4 5 11 15 17 52
    Total de la colonne 57 95 127 63 58 400
    Tableau 11.17 Nécessité de réussir à l'école et niveau d'anxiété

    a. Combien d'élèves présentant un niveau d'anxiété élevé devraient avoir un besoin important pour réussir à l'école ?

    Réponse

    Solution 11.10

    a. Le total de la colonne correspondant à un niveau d'anxiété élevé est de 57. Le nombre total de lignes correspondant aux besoins élevés pour réussir à l'école est de 155. La taille de l'échantillon ou le total interrogé est de 400.

    \[E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\frac{155 \cdot 57}{400}=22.09\nonumber\]

    Le nombre attendu d'élèves présentant un niveau d'anxiété élevé et un grand besoin de réussir à l'école est d'environ 22.

    b. Si les deux variables sont indépendantes, combien d'élèves pensez-vous avoir un faible besoin de réussir à l'école et un niveau d'anxiété moyen-faible ?

    Réponse

    Solution 11.10

    b. Le total de la colonne pour un niveau d'anxiété moyen-faible est de 63. Le nombre total de lignes correspondant à un faible besoin de réussite scolaire est de 52. La taille de l'échantillon ou le total interrogé est de 400.

    c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=\) ________

    Réponse

    Solution 11.10

    c.\(E=\frac{(\text { row total })(\text { column total })}{\text { total surveyed }}=8.19\)

    d. Le nombre attendu d'élèves qui ont un niveau d'anxiété moyen-faible et qui ont peu besoin de réussir à l'école est d'environ ________.

    Réponse

    Solution 11.10

    d. 8