Skip to main content
Global

8.4 : Calcul de la taille de l'échantillon n- Variables aléatoires continues et binaires

  • Page ID
    191378
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Variables aléatoires continues

    En général, nous n'avons aucun contrôle sur la taille de l'échantillon d'un ensemble de données. Toutefois, si nous sommes en mesure de définir la taille de l'échantillon, comme dans le cas d'une enquête, il est très utile de connaître la taille de l'échantillon pour fournir le plus d'informations. L'échantillonnage peut être très coûteux en temps et en produit. Les enquêtes téléphoniques simples coûteront environ 30$ chacune, par exemple, et certains échantillons nécessitent la destruction du produit.

    Si nous revenons à notre formule de normalisation pour la distribution d'échantillonnage pour les moyennes, nous pouvons voir qu'il est possible de la résoudre pour n. Si nous le faisons, nous avons\((\overline{X}-\mu)\) dans le dénominateur.

    \[n=\frac{Z_{\alpha}^{2} \sigma^{2}}{(\overline{X}-\mu)^{2}}=\frac{Z_{\alpha}^{2} \sigma^{2}}{e^{2}}\nonumber\]

    Comme nous n'avons pas encore prélevé d'échantillon, nous ne connaissons aucune des variables de la formule, si ce n'est que nous pouvons\(Z_{\alpha}\) régler le niveau de confiance que nous souhaitons, tout comme nous l'avons fait pour déterminer les intervalles de confiance. Si nous fixons une erreur acceptable, ou tolérance, prédéterminée pour la différence entre\(\overline{X}\) et\(\mu\), appelée e dans la formule, nous sommes beaucoup plus avancés dans la résolution de la taille de l'échantillon\(n\). Nous ne connaissons toujours pas l'écart type de la population,\(\sigma\). Dans la pratique, une enquête préliminaire est généralement réalisée, ce qui permet d'affiner le questionnaire et de fournir un échantillon d'écart type qui peut être utilisé. Dans d'autres cas, des informations antérieures provenant d'autres enquêtes peuvent être utilisées\(\sigma\) dans la formule. Bien que rudimentaire, cette méthode de détermination de la taille de l'échantillon peut contribuer à réduire les coûts de manière significative. Ce sont les données réellement recueillies qui détermineront les inférences concernant la population. Il convient donc de faire preuve de prudence quant à la taille de l'échantillon, ce qui nécessite des niveaux de confiance élevés et de faibles erreurs d'échantillonnage.

    Variables aléatoires binaires

    Ce qui a été fait dans les cas de recherche de la moyenne d'une distribution peut également être effectué lors de l'échantillonnage afin de déterminer le paramètre de population\(p\) pour les proportions. La manipulation de la formule de normalisation des proportions donne :

    \[n=\frac{Z_{\alpha}^{2} \mathrm{pq}}{e^{2}}\nonumber\]

    \(e=\left(p^{\prime}-p\right)\) et est l'erreur d'échantillonnage ou la tolérance acceptable pour cette application. Cela sera mesuré en points de pourcentage.

    Dans ce cas, l'objet même de notre recherche se trouve dans la formule\(p\), et bien sûr\(q\) parce que\(q =1-p\). Ce résultat se produit parce que la distribution binomiale est une distribution à un seul paramètre. Si nous le savons\(p\), nous connaissons la moyenne et l'écart type. Cela\(p\) apparaît donc dans l'écart type de la distribution d'échantillonnage, d'où nous avons obtenu cette formule. Si, par souci de prudence, nous substituons 0,5 à\(p\) la taille d'échantillon la plus grande requise, qui fournira le niveau de confiance spécifié\(Z \alpha\) et la tolérance que nous avons sélectionnés. Cela est vrai en raison de toutes les combinaisons de deux fractions qui s'additionnent à une, le plus grand multiple se produit lorsque chacune est égale à 0,5. En l'absence d'autres informations concernant le paramètre de population\(p\), il s'agit d'une pratique courante. Cela peut entraîner un suréchantillonnage, mais certainement pas un sous-échantillonnage. Il s'agit donc d'une approche prudente.

    Il existe un compromis intéressant entre le niveau de confiance et la taille de l'échantillon qui apparaît ici lorsque l'on considère le coût de l'échantillonnage. Le tableau\(\PageIndex{1}\) indique la taille d'échantillon appropriée à différents niveaux de confiance et à différents niveaux d'erreur acceptable, ou de tolérance.

    \ (\ PageIndex {1} \) « >
    Taille d'échantillon requise (90 %) Taille d'échantillon requise (95 %) Niveau de tolérance
    1691 2401 2 %
    752 1067 3 %
    271 384 5 %
    68 96 10 %
    Tableau\(\PageIndex{1}\)

    Ce tableau est conçu pour montrer la taille maximale de l'échantillon requise à différents niveaux de confiance sur la base d'une hypothèse\(p= 0.5\) et\(q=0.5\) comme indiqué ci-dessus.

    L'erreur acceptable, appelée tolérance dans le tableau, est mesurée en valeurs positives ou négatives à partir de la proportion réelle. Par exemple, une erreur acceptable de 5 % signifie que si la proportion de l'échantillon était de 26 %, la conclusion serait que la proportion réelle de la population se situe entre 21 et 31 % avec un niveau de confiance de 90 % si un échantillon de 271 personnes avait été prélevé. De même, si l'erreur acceptable était fixée à 2 %, la proportion de la population se situerait entre 24 et 28 % avec un niveau de confiance de 90 %, mais nécessiterait une augmentation de la taille de l'échantillon de 271 à 1 691. Si nous souhaitions un niveau de confiance plus élevé, nous aurions besoin d'un échantillon plus important. Pour passer d'un niveau de confiance de 90 % à un niveau de 95 % avec une tolérance de plus ou moins 5 %, il faut modifier la taille de l'échantillon de 271 à 384. La taille d'échantillon très courante souvent signalée dans les enquêtes politiques est de 384. Les résultats de l'enquête indiquent fréquemment que les résultats sont bons avec un niveau de « précision » de plus ou moins 5 %.

    Exemple\(\PageIndex{9}\)

    Supposons qu'une entreprise de téléphonie mobile souhaite déterminer le pourcentage actuel de clients âgés de 50 ans et plus qui utilisent la messagerie texte sur leur téléphone portable. Combien de clients âgés de 50 ans et plus l'entreprise devrait-elle sonder pour être sûre à 90 % que la proportion estimée (échantillon) se situe à moins de trois points de pourcentage de la proportion réelle de clients âgés de 50 ans et plus qui utilisent la messagerie texte sur leur téléphone portable.

    Réponse

    Solution 8.9

    D'après le problème, nous savons que l'erreur acceptable est de 0,03 (3 % = 0,03) et\(z_{\frac{\alpha}{2}} Z_{0.05}=1.645\) que le niveau de confiance est de 90 %.\(e\) L'erreur acceptable,\(e\), est la différence entre la proportion réelle de la population p et la proportion d'échantillon que nous attendons de l'échantillon.

    Cependant, pour le trouver\(n\), nous devons connaître la proportion estimée (échantillon)\(p^{\prime}\). N'oubliez pas cela\(q^{\prime} = 1 – p^{\prime}\). Mais nous ne le savons pas\(p^{\prime}\) encore. Comme nous les multiplions\(p^{\prime}\) et\(q^{\prime}\) que nous les associons, nous les faisons tous deux égaux à 0,5 afin d'\(p^{\prime}q^{\prime} = (0.5)(0.5) = 0.25\)obtenir le produit le plus gros possible. (Essayez d'autres produits :\((0.6)(0.4) = 0.24; (0.3)(0.7) = 0.21; (0.2)(0.8) = 0.16\) et ainsi de suite). Le produit le plus grand possible nous donne le plus grand n. Cela nous donne un échantillon suffisamment grand pour que nous puissions être sûrs à 90 % que nous nous situons à moins de trois points de pourcentage de la proportion réelle de la population. Pour calculer la taille de l'échantillon n, utilisez la formule et effectuez les substitutions.

    \(n=\frac{z^{2} p^{\prime} q^{\prime}}{e^{2}} \text { gives } n=\frac{1.645^{2}(0.5)(0.5)}{0.03^{2}}=751.7\)

    Arrondissez la réponse à la valeur supérieure suivante. La taille de l'échantillon doit être de 752 clients de téléphonie mobile âgés de 50 ans et plus afin d'être sûr à 90 % que la proportion estimée (échantillon) se situe à moins de trois points de pourcentage de la proportion réelle de tous les clients de 50 ans et plus qui utilisent la messagerie texte sur leur téléphone portable.

    Exercice\(\PageIndex{9}\)

    Supposons qu'une société de marketing Internet souhaite déterminer le pourcentage actuel de clients qui cliquent sur des publicités sur leurs smartphones. Combien de clients l'entreprise doit-elle sonder pour être sûre à 90 % que la proportion estimée se situe à moins de cinq points de pourcentage de la proportion réelle de clients qui cliquent sur des publicités sur leurs smartphones ?