Skip to main content
Global

9.3 : Distribution requise pour les tests d'hypothèses

  • Page ID
    191820
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Nous avons discuté plus tôt des distributions d'échantillonnage. Des distributions particulières sont associées à des tests d'hypothèses. Nous effectuerons des tests d'hypothèses sur la moyenne d'une population en utilisant une distribution normale ou une\(t\) distribution de Student. (N'oubliez pas d'utiliser une\(t\) distribution de Student lorsque l'écart type de la population est inconnu et que la taille de l'échantillon est petite, où la petite est considérée comme étant inférieure à 30 observations.) Nous effectuons des tests sur une proportion de population en utilisant une distribution normale lorsque nous pouvons supposer que la distribution est distribuée normalement. Nous considérons que cela est vrai si la proportion de l'échantillon\(p^{\prime}\) multipliée par la taille de l'échantillon est supérieure à 5 et\(1-p^{\prime}\) si la taille de l'échantillon est également supérieure à 5. Il s'agit de la même règle empirique que nous avons utilisée lors de l'élaboration de la formule de l'intervalle de confiance pour une proportion de la population.

    Test d'hypothèse pour la moyenne

    En revenant à la formule de normalisation, nous pouvons obtenir la statistique de test pour tester des hypothèses concernant les moyennes.

    \[Z_{c}=\frac{\overline{x}-\mu_{0}}{\sigma / \sqrt{n}}\nonumber\]

    La formule de normalisation ne peut pas être résolue telle qu'elle est parce que nous n'avons\(\mu\) pas de moyenne de population. Cependant, si nous substituons la valeur hypothétisée de la moyenne,\(\mu_0\) dans la formule ci-dessus, nous pouvons calculer une\(Z\) valeur. Il s'agit de la statistique de test d'un test d'hypothèse pour une moyenne. Elle est présentée à la Figure 9.3. Nous interprétons cette\(Z\) valeur comme la probabilité associée qu'un échantillon ayant une moyenne d'échantillon de\(\overline X\) puisse provenir d'une distribution avec une moyenne de population de\(H_0\) et nous appelons cette\(Z\) valeur\(Z_c\) « calculée ». Les figures 9.3 et 9.4 illustrent ce processus.

    Graphique 9.3

    Dans la Figure 9.3, deux des trois résultats possibles sont présentés. \(\overline X_1\)et\(\overline X_3\) se situent à la fin de la distribution hypothétisée de\(H_0\). Notez que l'axe horizontal dans le panneau supérieur est étiqueté « s ».\(\overline X\) Il s'agit de la même distribution théorique\(\overline X\) de « s », la distribution d'échantillonnage, que le théorème de la limite centrale indique qu'elle est normalement distribuée. C'est pourquoi nous pouvons le dessiner avec cette forme. L'axe horizontal du panneau inférieur est étiqueté\(Z\) et correspond à la distribution normale standard. \(Z_{\frac{\alpha}{2}}\)et\(-Z_{\frac{\alpha}{2}}\), appelées valeurs critiques, sont marquées dans le panneau inférieur comme les\(Z\) valeurs associées à la probabilité que l'analyste a définie comme niveau de signification dans le test, (\(\alpha\)). Les probabilités figurant dans la queue des deux panels sont donc les mêmes.

    Notez que pour chacun d'eux,\(\overline X\) il existe un associé\(Z_c\), appelé calculé\(Z\), qui provient de la résolution de l'équation ci-dessus. Ce calcul n'\(Z\)est rien d'autre que le nombre d'écarts types entre la moyenne hypothétisée et la moyenne de l'échantillon. Si la moyenne de l'échantillon est inférieure à « trop » d'écarts types par rapport à la moyenne hypothétisée, nous concluons que la moyenne de l'échantillon n'a pas pu provenir de la distribution avec la moyenne hypothétisée, compte tenu du niveau de signification requis prédéfini. Cela aurait pu provenir de\(H_0\), mais cela est jugé trop improbable. Dans la Figure 9.3,\(\overline X_1\) les deux\(\overline X_3\) se situent à la fin de la distribution. Ils sont jugés « trop éloignés » de la valeur hypothétisée de la moyenne compte tenu du niveau alpha choisi. Si, en fait, cet échantillon signifie qu'il provient de la queue\(H_0\), mais qu'il vient de la queue, nous avons commis une erreur de type I : nous avons rejeté une valeur nulle valide. Notre seul vrai réconfort est que nous connaissons la probabilité de commettre une telle erreur, \ alpha, et que nous pouvons contrôler la taille de\(\alpha\).

    La figure 9.4 montre la troisième possibilité pour la localisation de la moyenne de l'échantillon,\(\overline x\). Ici, la moyenne de l'échantillon se situe entre les deux valeurs critiques. C'est-à-dire, dans la limite de la probabilité\((1-\alpha)\) et nous ne pouvons pas rejeter l'hypothèse nulle.

    Graphique 9.4

    Cela nous donne la règle de décision pour tester une hypothèse pour un test bilatéral :

    Règle de décision : test à deux vitesses
    Si\(\left|\mathrm{Z}_{c}\right|<\mathrm{Z}_{\frac{\alpha}{2}}\) : alors ne PAS REJETER\(H_0\)
    Si\(\left|\mathrm{Z}_{c}\right|>\mathrm{Z}_{\frac{\alpha}{2}}\) : alors REJETER\(H_0\)
    Tableau 9.3

    Cette règle sera toujours la même, quelles que soient les hypothèses que nous testons ou les formules que nous utilisons pour effectuer le test. La seule modification sera de remplacer le\(Z_c\) symbole approprié pour la statistique de test pour le paramètre testé. En énonçant la règle de décision d'une autre manière : s'il est peu probable que la moyenne de l'échantillon provienne de la distribution avec la moyenne hypothétisée, nous ne pouvons pas accepter l'hypothèse nulle. Nous définissons ici le terme « improbable » comme une probabilité inférieure à alpha.

    Approche des valeurs P

    Une autre règle de décision peut être développée en calculant la probabilité qu'une moyenne d'échantillon puisse être trouvée qui donnerait une statistique de test plus grande que la statistique de test obtenue à partir des données de l'échantillon actuel, en supposant que l'hypothèse nulle est vraie. Ici, les notions de « probable » et d' « improbable » sont définies par la probabilité de tirer un échantillon avec une moyenne provenant d'une population dont la moyenne hypothétisée est supérieure ou inférieure à celle trouvée dans les données de l'échantillon. En termes simples, l'approche\(p\) -value compare le seuil de signification souhaité à la\(p\) valeur -qui est la probabilité de tirer une moyenne d'échantillon plus éloignée de la valeur hypothétisée que de la moyenne réelle de l'échantillon.\(\alpha\) Une\(p\) valeur élevée calculée à partir des données indique que nous ne devons pas rejeter l'hypothèse nulle. Plus la\(p\) valeur -est faible, plus le résultat est improbable et plus les preuves sont solides à l'encontre de l'hypothèse nulle. Nous rejetterions l'hypothèse nulle si les preuves s'y opposent fortement. La relation entre la règle de décision consistant à comparer les statistiques de test calculées\(Z_c\), et la valeur critique\(Z_\alpha\), et à utiliser la\(p\) valeur -est visible dans la Figure 9.5.

    Graphique 9.5

    La valeur calculée de la statistique de test se trouve\(Z_c\) dans cet exemple et est indiquée sur le graphique inférieur de la distribution normale standard car il s'agit d'une\(Z\) valeur. Dans ce cas, la valeur calculée se situe dans la queue et nous ne pouvons donc pas accepter l'hypothèse nulle, l'association\(\overline X\) étant trop élevée pour croire qu'elle provient d'une distribution avec une moyenne de\(\mu_0\) avec un niveau de signification de \ alpha.

    Si nous utilisons la règle de décision\(p\) -value, nous avons besoin d'une étape supplémentaire. Nous devons trouver dans le tableau normal standard la probabilité associée à la statistique de test calculée,\(Z_c\). Nous comparons ensuite cela au \ alpha associé au niveau de confiance que nous avons sélectionné. Dans la Figure 9.5, nous voyons que la\(p\) valeur -est inférieure à \ alpha et que nous ne pouvons donc pas accepter la valeur nulle. Nous savons que la\(p\) valeur est inférieure à \ alpha car la zone située sous la\(p\) valeur -est plus petite que\(\alpha/ 2\). Il est important de noter que deux chercheurs choisis au hasard dans la même population peuvent trouver deux\(p\) valeurs différentes à partir de leurs échantillons. Cela se produit parce que la\(p\) valeur -est calculée comme la probabilité dans la queue au-delà de la moyenne de l'échantillon en supposant que l'hypothèse nulle est correcte. Comme les moyennes de l'échantillon seront probablement différentes, cela créera deux\(p\) valeurs différentes. Néanmoins, les conclusions relatives à l'hypothèse nulle devraient être différentes avec uniquement le niveau de probabilité de\(\alpha\).

    Voici une méthode systématique pour décider si vous ne pouvez pas accepter ou rejeter une hypothèse nulle si vous utilisez la\(\bf{p}\) valeur -et un prédéfini ou préconçu \ (\ bf {\ alpha} \) (le « niveau de signification »). Un préréglage\(\alpha\) est la probabilité d'une erreur de type I (rejet de l'hypothèse nulle lorsque l'hypothèse nulle est vraie). Il peut vous être donné ou non au début du problème. Dans tous les cas, la valeur de\(\alpha\) est la décision de l'analyste. Lorsque vous décidez de rejeter ou de ne pas rejeter\(H_0\), procédez comme suit :

    • Si\(\alpha > p\) -value, ne peut pas être accepté\(H_0\). Les résultats des données de l'échantillon sont significatifs. Il existe suffisamment de preuves pour conclure qu'il\(H_0\) s'agit d'une croyance incorrecte et que l'hypothèse alternative, Ha, est peut-être correcte.
    • Si\(\alpha \leq p\) -value, impossible de rejeter\(H_0\). Les résultats des données de l'échantillon ne sont pas significatifs. Il n'existe pas de preuves suffisantes pour conclure que l'hypothèse alternative, Ha, est peut-être correcte. Dans ce cas, le statu quo est maintenu.
    • Lorsque vous « ne pouvez pas rejeter\(H_0\) », cela ne signifie pas que vous devez croire que\(H_0\) c'est vrai. Cela signifie simplement que les données de l'échantillon n'ont pas fourni de preuves suffisantes pour semer un doute sérieux quant à la véracité de\(H_0\). N'oubliez pas que le statu quo est nul et qu'il faut une forte probabilité pour renverser le statu quo. Ce biais en faveur de l'hypothèse nulle est à l'origine de l'affirmation « tyrannie du statu quo » lorsqu'il est question de la vérification des hypothèses et de la méthode scientifique.

    Les deux règles de décision aboutiront à la même décision et c'est une question de préférence qui sera utilisée.

    Tests unilatéraux et bilatéraux

    La discussion de la Figure 9.3 à la Figure 9.5 était basée sur l'hypothèse nulle et alternative présentée dans la Figure 9.3. Ce test a été appelé test bilatéral parce que l'hypothèse alternative permettait que la moyenne puisse provenir d'une population plus grande ou plus petite que la moyenne hypothétisée dans l'hypothèse nulle. Cela peut être vu par l'énoncé de l'hypothèse alternative\(\mu \neq 100\), comme dans cet exemple.

    Il se peut que l'analyste n'ait aucune inquiétude quant au fait que la valeur soit « trop » élevée ou « trop » basse par rapport à la valeur hypothétisée. Si tel est le cas, il s'agit d'un test unilatéral et toute la probabilité alpha est placée dans une seule queue et non divisée\(\alpha /2\) comme dans le cas ci-dessus d'un test bilatéral. Tout test d'une réclamation sera un test unilatéral. Par exemple, un constructeur automobile affirme que son modèle 17B permet une consommation d'essence supérieure à 25 miles par gallon. L'hypothèse nulle et alternative serait la suivante :

    • \(H_0: \mu \leq 25\)
    • \(H_a: \mu > 25\)

    L'affirmation se trouverait dans l'hypothèse alternative. La charge de la preuve dans les tests d'hypothèses est assumée à titre subsidiaire. Cela est dû au fait que le fait de ne pas rejeter le zéro, le statu quo, doit être accompli avec 90 ou 95 pour cent d'importance qu'il ne peut pas être maintenu. Autrement dit, nous voulons n'avoir qu'une probabilité de 5 à 10 pour cent de commettre une erreur de type I, de rejeter un bon zéro, de renverser le statu quo.

    Il s'agit d'un test unilatéral et toute la probabilité alpha est placée dans une seule queue et n'est pas divisée en deux,\(\alpha /2\) comme dans le cas ci-dessus d'un test bilatéral.

    La figure 9.6 montre les deux cas possibles et la forme de l'hypothèse nulle et alternative qui les sous-tend.

    Graphique 9.6

    \(\mu_0\) est la valeur hypothétisée de la moyenne de la population.

    Taille de l'échantillon Statistique de test
    < 30
    (\(\sigma\)inconnu)
    \(t_{c}=\frac{\overline{X}-\mu_{0}}{s / \sqrt{n}}\)
    < 30
    (\(\sigma\)connu)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{\sigma / \sqrt{n}}\)
    > 30
    (\(\sigma\)inconnu)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{s / \sqrt{n}}\)
    > 30
    (\(\sigma\)connu)
    \(Z_{c}=\frac{\overline{X}-\mu_{0}}{\sigma / \sqrt{n}}\)
    Tableau 9.4 Statistiques des tests pour le test des moyennes, de la taille variable de l'échantillon, de l'écart type de la population connu ou inconnu

    Effets de la taille de l'échantillon sur les statistiques des tests

    En établissant les intervalles de confiance pour la moyenne d'un échantillon, nous avons constaté que, le plus souvent, nous n'avions pas l'écart type de la population\(\sigma\). Si la taille de l'échantillon était inférieure à 30, nous pourrions simplement remplacer l'estimation\(\sigma\) ponctuelle par l'écart type de l'échantillon et utiliser la\(t\) distribution de l'étudiant pour corriger ce manque d'information.\(s\)

    Lorsque nous testons des hypothèses, nous sommes confrontés au même problème et la solution est exactement la même. À savoir : si l'écart type de la population est inconnu et que la taille de l'échantillon est inférieure à 30\(s\), remplacez l'estimation ponctuelle de l'écart type de la population dans la formule de la statistique du test et utilisez la\(t\) distribution de l'étudiant.\(\sigma\) Toutes les formules et tous les chiffres ci-dessus restent inchangés, à l'exception de cette substitution et de la modification de la\(Z\) distribution en fonction de la distribution t de l'étudiant sur le graphique. N'oubliez pas que la distribution t de l'étudiant ne peut être calculée qu'en connaissant les degrés de liberté appropriés au problème. Dans ce cas, les degrés de liberté sont calculés comme précédemment avec des intervalles de confiance :\(df = (n-1)\). La valeur de t calculée est comparée à la valeur de t associée au niveau de confiance prédéfini requis pour le test, qui\(t_{\alpha, df}\) se trouve dans les tables t de l'étudiant. Si nous ne le savons pas\(\sigma\), mais que la taille de l'échantillon est de 30 personnes ou plus, nous nous contentons\(s\) de remplacer\(\sigma\) et d'utiliser la distribution normale.

    Le tableau 9.4 résume ces règles.

    Une approche systématique pour tester une hypothèse

    Une approche systématique de la vérification d'hypothèses suit les étapes suivantes et dans cet ordre. Ce modèle fonctionnera pour toutes les hypothèses que vous testerez.

    • Définissez l'hypothèse nulle et alternative. Il s'agit généralement de la partie la plus difficile du processus. Ici, la question posée est passée en revue. Quel paramètre est testé, moyenne, proportion, différences de moyennes, etc. S'agit-il d'un test unilatéral ou bilatéral ? N'oubliez pas que si quelqu'un fait une réclamation, il s'agira toujours d'un test unilatéral.
    • Déterminez le niveau de signification requis pour ce cas particulier et déterminez la valeur critique. Ils peuvent être trouvés dans le tableau statistique approprié. Les niveaux de confiance typiques des entreprises sont de 80, 90, 95, 98 et 99. Cependant, le niveau de signification est une décision politique et doit être basé sur le risque de commettre une erreur de type I, en rejetant une bonne valeur nulle. Réfléchissez aux conséquences d'une erreur de type I.

      Ensuite, sur la base des hypothèses et de la taille de l'échantillon, sélectionnez la statistique de test appropriée et trouvez la valeur critique pertinente :\(Z_\alpha\),\(t_\alpha\), etc. Il est toujours très utile de tracer la distribution de probabilité pertinente et de marquer la valeur critique. Assurez-vous de faire correspondre le graphique à l'hypothèse, surtout s'il s'agit d'un test unilatéral.

    • Prélevez un ou plusieurs échantillons et calculez les paramètres pertinents : moyenne de l'échantillon, écart type ou proportion. En utilisant la formule de la statistique de test ci-dessus à l'étape 2, calculez maintenant la statistique de test pour ce cas particulier en utilisant les paramètres que vous venez de calculer.
    • Comparez la statistique de test calculée et la valeur critique. Les inscrire sur le graphique donnera une bonne image visuelle de la situation. Il n'y a plus que deux situations :
      1. La statistique du test se trouve à la fin : Impossible d'accepter la valeur nulle, la probabilité que la moyenne (proportion) de cet échantillon provienne de la distribution hypothétisée est trop faible pour croire qu'il s'agit de la véritable base de ces données d'échantillon.
      2. La statistique du test n'est pas incomplète : Impossible de rejeter la valeur nulle, les données de l'échantillon sont compatibles avec le paramètre de population hypothétisé.
    • Parvenez à une conclusion. Il est préférable d'articuler la conclusion de deux manières différentes. Tout d'abord, une conclusion statistique formelle telle que « Avec un niveau de signification de 5 %, nous ne pouvons pas accepter les hypothèses nulles selon lesquelles la moyenne de la population est égale à XX (unités de mesure) ». Le deuxième énoncé de la conclusion est moins formel et indique l'action, ou l'absence d'action, requise. Si la conclusion officielle était la suivante, alors la conclusion informelle pourrait être la suivante : « La machine est en panne et nous devons l'arrêter et demander des réparations ».

    Toutes les hypothèses testées passeront par le même processus. Les seules modifications concernent les formules pertinentes et celles-ci sont déterminées par l'hypothèse requise pour répondre à la question initiale.