1.2 : Données, échantillonnage et variation des données et de l'échantillonnage
- Page ID
- 191436
Les données peuvent provenir d'une population ou d'un échantillon. Des lettres minuscules similaires à\(x\) ou sont\(y\) généralement utilisées pour représenter les valeurs des données. La plupart des données peuvent être classées dans les catégories suivantes :
- qualitatif
- quantitatif
Les données qualitatives sont le résultat de la catégorisation ou de la description des attributs d'une population. Les données qualitatives sont également souvent appelées données catégorielles. La couleur des cheveux, le groupe sanguin, le groupe ethnique, la voiture qu'une personne conduit et la rue dans laquelle elle vit sont des exemples de données qualitatives (catégorielles). Les données qualitatives (catégorielles) sont généralement décrites par des mots ou des lettres. Par exemple, la couleur des cheveux peut être noire, marron foncé, marron clair, blonde, grise ou rouge. Le groupe sanguin peut être AB+, O- ou B+. Les chercheurs préfèrent souvent utiliser des données quantitatives plutôt que des données qualitatives (catégorielles), car elles se prêtent plus facilement à l'analyse mathématique. Par exemple, cela n'a aucun sens de trouver une couleur de cheveux ou un groupe sanguin moyens.
Les données quantitatives sont toujours des chiffres. Les données quantitatives sont le résultat du comptage ou de la mesure des attributs d'une population. La somme d'argent, le pouls, le poids, le nombre de personnes vivant dans votre ville et le nombre d'étudiants qui prennent des statistiques sont des exemples de données quantitatives. Les données quantitatives peuvent être discrètes ou continues.
Toutes les données résultant du comptage sont appelées données discrètes quantitatives. Ces données ne prennent que certaines valeurs numériques. Si vous comptez le nombre d'appels téléphoniques que vous recevez pour chaque jour de la semaine, vous pouvez obtenir des valeurs telles que zéro, un, deux ou trois.
Les données qui ne sont pas uniquement constituées de nombres de comptage, mais qui peuvent inclure des fractions, des décimales ou des nombres irrationnels, sont appelées données continues quantitatives. Les données continues sont souvent le résultat de mesures telles que les longueurs, les poids ou les temps. Une liste des durées en minutes de tous les appels téléphoniques que vous passez au cours d'une semaine, avec des chiffres tels que 2,4, 7,5 ou 11,0, serait une donnée quantitative continue.
Exemple\(\PageIndex{1}\): DATA SAMPLE OF QUANTITATIVE DISCRETE DATA
Les données sont le nombre de livres que les élèves transportent dans leur sac à dos. Vous échantillonnez cinq étudiants. Deux élèves portent trois livres, un étudiant porte quatre livres, un étudiant porte deux livres et un étudiant porte un livre. Le nombre de livres (trois, quatre, deux et un) est une donnée quantitative discrète.
Exercice\(\PageIndex{1}\)
Les données sont le nombre de machines dans un gymnase. Vous goûtez à cinq gymnases. Une salle de sport dispose de 12 machines, une salle de sport de 15 machines, une salle de sport de dix machines, une salle de sport de 22 machines et l'autre de 20 machines. De quel type de données s'agit-il ?
Exemple\(\PageIndex{2}\): DATA SAMPLE OF QUANTITATIVE CONTINUOUS DATA
Les données sont les poids des sacs à dos contenant des livres. Vous échantillonnez les cinq mêmes étudiants. Les poids (en livres) de leurs sacs à dos sont de 6,2, 7, 6,8, 9,1, 4,3. Notez que les sacs à dos contenant trois livres peuvent avoir des poids différents. Les pondérations sont des données quantitatives continues.
Exercice\(\PageIndex{2}\)
Les données sont les surfaces de pelouses en pieds carrés. Vous échantillonnez cinq maisons. Les surfaces des pelouses sont de 144 pieds carrés, 160 pieds carrés, 190 pieds carrés, 180 pieds carrés et 210 pieds carrés. De quel type de données s'agit-il ?
Exemple\(\PageIndex{3}\)
Vous vous rendez au supermarché et achetez trois boîtes de soupe (19 onces) de bisque de tomates, 14,1 onces de lentilles et 19 onces de mariage à l'italienne), deux paquets de noix (noix et cacahuètes), quatre sortes de légumes différents (brocoli, chou-fleur, épinards et carottes) et deux desserts (16 onces de crème glacée à la pistache et 32 onces de biscuits aux pépites de chocolat).
Nommez des ensembles de données quantitatifs discrets, quantitatifs continus et qualitatifs (catégoriels).
- Réponse
-
Une solution possible :
- Les trois boîtes de soupe, les deux paquets de noix, les quatre sortes de légumes et les deux desserts sont des données quantitatives discrètes parce qu'on les compte.
- Les poids des soupes (19 onces, 14,1 onces, 19 onces) sont des données quantitatives continues car vous mesurez les poids aussi précisément que possible.
- Les types de soupes, de noix, de légumes et de desserts sont des données qualitatives (catégorielles) parce qu'ils sont catégoriques.
Essayez d'identifier des ensembles de données supplémentaires dans cet exemple.
Exemple\(\PageIndex{4}\)
Les données sont les couleurs des sacs à dos. Encore une fois, vous échantillonnez les cinq mêmes étudiants. Un étudiant a un sac à dos rouge, deux étudiants ont un sac à dos noir, un étudiant a un sac à dos vert et un étudiant a un sac à dos gris. Les couleurs rouge, noir, noir, vert et gris sont des données qualitatives (catégorielles).
Exercice\(\PageIndex{4}\)
Les données sont les couleurs des maisons. Vous échantillonnez cinq maisons. Les couleurs des maisons sont le blanc, le jaune, le blanc, le rouge et le blanc. De quel type de données s'agit-il ?
Vous pouvez collecter des données sous forme de chiffres et les signaler de manière catégorique. Par exemple, les résultats du quiz de chaque étudiant sont enregistrés tout au long du trimestre. À la fin du trimestre, les résultats du questionnaire sont indiqués sous la forme A, B, C, D ou F
Exemple\(\PageIndex{5}\)
Travaillez en collaboration pour déterminer le type de données approprié (quantitatives ou qualitatives). Indiquez si les données quantitatives sont continues ou discrètes. Conseil : Les données discrètes commencent souvent par les mots « le nombre de ».
- le nombre de paires de chaussures que vous possédez
- le type de voiture que vous conduisez
- la distance entre votre domicile et l'épicerie la plus proche
- le nombre de cours que vous suivez par année scolaire
- le type de calculatrice que vous utilisez
- poids des lutteurs de sumo
- nombre de bonnes réponses à un questionnaire
- Scores de QI (Cela peut susciter des discussions.)
- Réponse
-
Les éléments a, d et g sont quantitatifs discrets ; les éléments c, f et h sont quantitatifs continus ; les éléments b et e sont qualitatifs ou catégoriques.
Exercice\(\PageIndex{5}\)
Déterminez le type de données correct (quantitatif ou qualitatif) pour le nombre de voitures dans un parc de stationnement. Indiquez si les données quantitatives sont continues ou discrètes.
Exemple\(\PageIndex{6}\)
Une professeure de statistiques recueille des informations sur la classification de ses étudiants en première année, en deuxième année, en junior ou en senior. Les données qu'elle recueille sont résumées dans le diagramme circulaire Figure 1.2. Quel type de données montre ce graphique ?
- Réponse
-
Ce diagramme circulaire montre les étudiants pour chaque année, sous forme de données qualitatives (ou catégorielles).
Exercice\(\PageIndex{6}\)
Le registraire de l'Université d'État tient un registre du nombre d'heures de crédit que les étudiants effectuent chaque semestre. Les données qu'il collecte sont résumées dans l'histogramme. Les limites des classes sont de 10 à moins de 13, de 13 à moins de 16, de 16 à moins de 19, de 19 à moins de 22 et de 22 à moins de 25.
Quel type de données montre ce graphique ?
Discussion sur les données
Les tableaux ci-dessous comparent le nombre d'étudiants à temps partiel et à temps plein inscrits au De Anza College et au Foothill College pour le trimestre du printemps 2010. Les tableaux affichent les nombres (fréquences) et les pourcentages ou les proportions (fréquences relatives). Les colonnes de pourcentage facilitent la comparaison des mêmes catégories dans les collèges. L'affichage des pourcentages et des chiffres est souvent utile, mais cela est particulièrement important lorsque vous comparez des ensembles de données qui n'ont pas les mêmes totaux, tels que le total des inscriptions pour les deux universités dans cet exemple. Remarquez à quel point le pourcentage d'étudiants à temps partiel au Foothill College est beaucoup plus élevé que celui du De Anza College.
Collège De Anza | Collège Foothill | |||||
---|---|---|---|---|---|---|
Numéro | Pourcentage | Numéro | Pourcentage | |||
Temps plein | 9 200 | 40,9 % | Temps plein | 4 059 | 28,6 % | |
Temps partiel | 13 296 | 59,1 % | Temps partiel | 10 124 | 71,4 % | |
Totale | 22 496 | 100 % | Totale | 14 183 | 100 % |
Les tableaux constituent un bon moyen d'organiser et d'afficher les données. Mais les graphiques peuvent être encore plus utiles pour comprendre les données. Il n'existe pas de règles strictes concernant les graphiques à utiliser. Les deux graphiques utilisés pour afficher des données qualitatives (catégorielles) sont les diagrammes à secteurs et les graphiques à barres.
- Dans un graphique circulaire, les catégories de données sont représentées par des coins dans un cercle et leur taille est proportionnelle au pourcentage d'individus dans chaque catégorie.
- Dans un graphique à barres, la longueur de la barre de chaque catégorie est proportionnelle au nombre ou au pourcentage de personnes dans chaque catégorie. Les barres peuvent être verticales ou horizontales.
- Un graphique de Pareto se compose de barres triées par ordre de taille de catégorie (de la plus grande à la plus petite).
Regardez la Figure 1.5 et déterminez le graphique (secteur ou barre) qui, selon vous, affiche le mieux les comparaisons.
Il est conseillé d'examiner divers graphiques pour déterminer lequel est le plus utile pour afficher les données. Nous pouvons faire des choix différents quant à ce que nous pensons être le « meilleur » graphique en fonction des données et du contexte. Notre choix dépend également de la raison pour laquelle nous utilisons les données.
Pourcents totalisant plus (ou moins) de 100 %
Parfois, les pourcentages totalisent plus de 100 % (ou moins de 100 %). Dans le graphique, les pourcentages totalisent plus de 100 %, car les étudiants peuvent appartenir à plus d'une catégorie. Un diagramme à barres est approprié pour comparer la taille relative des catégories. Un graphique circulaire ne peut pas être utilisé. Il ne pouvait pas non plus être utilisé si les pourcentages s'additionnaient à moins de 100 %.
Caractéristique/catégorie | Pourcentage |
---|---|
étudiants à temps plein | 40,9 % |
Les étudiants qui ont l'intention d'être transférés dans un établissement d'enseignement de 4 ans | 48,6 % |
Les étudiants de moins de 25 ans | 61,0 % |
TOTAL | 150,5 % |
Omission de catégories/données manquantes
Le tableau indique l'origine ethnique des élèves, mais il manque la catégorie « Autre/Inconnu ». Cette catégorie comprend les personnes qui ont estimé ne pas appartenir à aucune des catégories ethniques ou qui ont refusé de répondre. Notez que les fréquences ne correspondent pas au nombre total d'étudiants. Dans ce cas, créez un graphique à barres et non un diagramme circulaire.
Fréquence | Pourcentage | |
---|---|---|
Asiatique | 8 794 | 36,1 % |
noir | 1 412 | 5,8 % |
Philippin | 1 298 | 5,3 % |
hispanique | 4 180 | 17,1 % |
Amérindien | 146 | 0,6 % |
Insulaire du Pacifique | 236 | 1,0 % |
blanc | 5 978 | 24,5 % |
TOTAL | 22 044 sur 24 382 | 90,4 % sur 100 % |
Le graphique suivant est identique au graphique précédent, mais le pourcentage « Autre/Inconnu » (9,6 %) a été inclus. La catégorie « Autre/Inconnu » est importante par rapport à certaines autres catégories (Amérindiens, 0,6 %, habitants des îles du Pacifique 1,0 %). Il est important de le savoir lorsque nous réfléchissons à ce que les données nous disent.
Ce graphique à barres particulier de la Figure 1.9 est un graphique de Pareto. Le diagramme de Pareto présente les barres triées de la plus grande à la plus petite et est plus facile à lire et à interpréter.
Graphiques à secteurs : aucune donnée manquante
La catégorie « Autre/Inconnu » est incluse dans les diagrammes à secteurs suivants (puisque la somme des pourcentages doit être égale à 100 %). Le graphique de la Figure 1.10.
Prélèvement
La collecte d'informations sur l'ensemble d'une population coûte souvent trop cher ou est pratiquement impossible. Nous utilisons plutôt un échantillon de la population. Un échantillon doit présenter les mêmes caractéristiques que la population qu'il représente. La plupart des statisticiens utilisent diverses méthodes d'échantillonnage aléatoire pour tenter d'atteindre cet objectif. Cette section décrit certaines des méthodes les plus courantes. Il existe différentes méthodes d'échantillonnage aléatoire. Dans chaque forme d'échantillonnage aléatoire, chaque membre d'une population a initialement les mêmes chances d'être sélectionné pour l'échantillon. Chaque méthode présente des avantages et des inconvénients. La méthode la plus simple à décrire est appelée échantillon aléatoire simple. Tout groupe de n individus est également susceptible d'être choisi comme tout autre groupe d'\(n\)individus si la technique d'échantillonnage aléatoire simple est utilisée. En d'autres termes, chaque échantillon de même taille a les mêmes chances d'être sélectionné.
Outre le simple échantillonnage aléatoire, il existe d'autres formes d'échantillonnage qui impliquent un processus aléatoire pour obtenir l'échantillon. Les autres méthodes d'échantillonnage aléatoire bien connues sont l'échantillon stratifié, l'échantillon en grappes et l'échantillon systématique.
Pour choisir un échantillon stratifié, divisez la population en groupes appelés strates, puis prenez un nombre proportionnel pour chaque strate. Par exemple, vous pouvez stratifier (regrouper) la population de votre université par département, puis choisir un échantillon aléatoire simple proportionné dans chaque strate (chaque département) pour obtenir un échantillon aléatoire stratifié. Pour choisir un échantillon aléatoire simple dans chaque département, numérotez chaque membre du premier département, numérotez chaque membre du second département et faites de même pour les autres départements. Utilisez ensuite un échantillonnage aléatoire simple pour choisir des nombres proportionnels dans le premier département et faites de même pour chacun des départements restants. Ces chiffres choisis dans le premier département, choisis dans le second département, etc. représentent les membres qui constituent l'échantillon stratifié.
Pour choisir un échantillon en grappes, divisez la population en groupes (groupes), puis sélectionnez certains groupes de manière aléatoire. Tous les membres de ces clusters font partie de l'échantillon de clusters. Par exemple, si vous échantillonnez au hasard quatre départements parmi la population de votre collège, les quatre départements constituent l'échantillon en grappes. Divisez votre corps professoral par département. Les départements sont les clusters. Numérotez chaque département, puis choisissez quatre numéros différents à l'aide d'un simple échantillonnage aléatoire. Tous les membres des quatre départements avec ces chiffres constituent l'échantillon groupé.
Pour choisir un échantillon systématique, sélectionnez un point de départ au hasard et prenez\(n^{th}\) toutes les données d'une liste de la population. Supposons, par exemple, que vous deviez effectuer un sondage téléphonique. Votre annuaire téléphonique contient 20 000 annonces de résidence. Vous devez choisir 400 noms pour l'échantillon. Numérotez la population de 1 à 20 000, puis utilisez un échantillon aléatoire simple pour sélectionner un chiffre qui représente le prénom de l'échantillon. Choisissez ensuite tous les 50 noms par la suite jusqu'à obtenir un total de 400 noms (vous devrez peut-être revenir au début de votre liste téléphonique). L'échantillonnage systématique est souvent choisi parce qu'il s'agit d'une méthode simple.
L'échantillonnage de commodité est un type d'échantillonnage non aléatoire. L'échantillonnage pratique implique l'utilisation de résultats facilement disponibles. Par exemple, un magasin de logiciels informatiques mène une étude de marketing en interrogeant des clients potentiels qui se trouvent dans le magasin en train de parcourir les logiciels disponibles. Les résultats de l'échantillonnage de commodité peuvent être très bons dans certains cas et très biaisés (favoriser certains résultats) dans d'autres.
Les données d'échantillonnage doivent être effectuées avec beaucoup de soin. Collecter des données de manière imprudente peut avoir des résultats dévastateurs. Les enquêtes envoyées par la poste aux ménages puis renvoyées peuvent être très biaisées (elles peuvent favoriser un certain groupe). Il est préférable que la personne qui mène l'enquête sélectionne les répondants de l'échantillon.
Un véritable échantillonnage aléatoire est effectué avec remplacement. C'est-à-dire qu'une fois qu'un membre est sélectionné, ce membre revient dans la population et peut donc être choisi plus d'une fois. Toutefois, pour des raisons pratiques, dans la plupart des populations, un échantillonnage aléatoire simple est effectué sans remplacement. Les enquêtes sont généralement effectuées sans remplacement. C'est-à-dire qu'un membre de la population ne peut être choisi qu'une seule fois. La plupart des échantillons sont prélevés auprès de grandes populations et l'échantillon a tendance à être petit par rapport à la population. Comme c'est le cas, l'échantillonnage sans remplacement est à peu près le même que l'échantillonnage avec remplacement, car la probabilité de prélever la même personne plus d'une fois avec remplacement est très faible.
Sur une population universitaire de 10 000 personnes, supposons que vous souhaitiez prélever un échantillon de 1 000 au hasard pour une enquête. Pour tout échantillon particulier de 1 000, si vous prélevez avec un échantillon de remplacement,
- les chances de choisir la première personne sont de 1 000 sur 10 000 (0,1000) ;
- la probabilité de choisir une deuxième personne différente pour cet échantillon est de 999 sur 10 000 (0,0999) ;
- la probabilité de choisir à nouveau la même personne est de 1 sur 10 000 (très faible).
Si vous prélevez des échantillons sans les remplacer,
- la probabilité de choisir la première personne pour un échantillon donné est de 1 000 sur 10 000 (0,1000) ;
- la probabilité de choisir une deuxième personne différente est de 999 sur 9 999 (0,0999) ;
- vous ne remplacez pas la première personne avant de choisir la personne suivante.
Comparez les fractions 999/10 000 et 999/9 999. Pour plus de précision, placez les réponses décimales à quatre décimales. À quatre décimales, ces nombres sont équivalents (0,0999).
L'échantillonnage sans remplacement au lieu d'un échantillonnage avec remplacement devient un problème mathématique uniquement lorsque la population est petite. Par exemple, si la population est de 25 personnes, que l'échantillon est de dix et que vous prélevez un échantillon en remplaçant un échantillon en particulier, alors la probabilité de choisir la première personne est de dix sur 25, et la probabilité de choisir une deuxième personne différente est de neuf sur 25 (vous remplacez la première personne).
Si vous prélevez un échantillon sans le remplacer, la probabilité de choisir la première personne est de dix sur 25, et la probabilité de choisir la deuxième personne (qui est différente) est de neuf sur 24 (vous ne remplacez pas la première personne).
Comparez les fractions 9/25 et 9/24. À quatre décimales, 9/25 = 0,3600 et 9/24 = 0,3750. À quatre décimales, ces nombres ne sont pas équivalents.
Lorsque vous analysez des données, il est important de prendre conscience des erreurs d'échantillonnage et des erreurs non liées à l'échantillonnage. Le processus d'échantillonnage lui-même provoque des erreurs d'échantillonnage. Par exemple, il se peut que l'échantillon ne soit pas assez grand. Des facteurs non liés au processus d'échantillonnage entraînent des erreurs non liées à l'échantillonnage. Un dispositif de comptage défectueux peut provoquer une erreur non liée à l'échantillonnage.
En réalité, un échantillon ne sera jamais exactement représentatif de la population, de sorte qu'il y aura toujours une erreur d'échantillonnage. En règle générale, plus l'échantillon est grand, plus l'erreur d'échantillonnage est faible.
En statistique, un biais d'échantillonnage est créé lorsqu'un échantillon est prélevé auprès d'une population et que certains membres de la population ne sont pas aussi susceptibles d'être sélectionnés que d'autres (n'oubliez pas que chaque membre de la population doit avoir la même probabilité d'être sélectionné). Lorsqu'un biais d'échantillonnage se produit, des conclusions incorrectes peuvent être tirées au sujet de la population étudiée.
Évaluation critique
Nous devons évaluer de manière critique les études statistiques que nous lisons et les analyser avant d'en accepter les résultats. Les problèmes courants à prendre en compte sont les suivants :
- Problèmes liés aux échantillons : Un échantillon doit être représentatif de la population. Un échantillon qui n'est pas représentatif de la population est biaisé. Les échantillons biaisés qui ne sont pas représentatifs de la population donnent des résultats inexacts et non valides.
- Échantillons auto-sélectionnés : les réponses fournies uniquement par les personnes qui choisissent de répondre, telles que les enquêtes téléphoniques, ne sont souvent pas fiables.
- Problèmes liés à la taille de l'échantillon : Les échantillons trop petits peuvent ne pas être fiables. Des échantillons plus grands sont préférables, si possible. Dans certaines situations, le fait de disposer de petits échantillons est inévitable et peut tout de même être utilisé pour tirer des conclusions. Exemples : essais de collision de voitures ou tests médicaux pour des maladies rares
- Influence indue : collecte de données ou pose de questions d'une manière qui influence la réponse
- Non-réponse ou refus du sujet de participer : Les réponses collectées peuvent ne plus être représentatives de la population. Souvent, des personnes ayant de fortes opinions positives ou négatives peuvent répondre à des enquêtes, ce qui peut affecter les résultats.
- Causalité : Une relation entre deux variables ne signifie pas que l'une entraîne l'apparition de l'autre. Ils peuvent être liés (corrélés) en raison de leur relation par le biais d'une variable différente.
- Études autofinancées ou fondées sur des intérêts personnels : Étude réalisée par une personne ou une organisation afin d'appuyer sa demande. L'étude est-elle impartiale ? Lisez attentivement l'étude pour évaluer le travail. Ne présumez pas automatiquement que l'étude est bonne, mais ne présumez pas automatiquement qu'elle est mauvaise non plus. Évaluez-le en fonction de ses mérites et du travail effectué.
- Utilisation trompeuse des données : graphiques mal affichés, données incomplètes ou absence de contexte
- Confusion : lorsque les effets de plusieurs facteurs sur une réponse ne peuvent être séparés. La confusion fait qu'il est difficile, voire impossible, de tirer des conclusions valables quant à l'effet de chaque facteur.
Exemple\(\PageIndex{7}\)
Une étude est réalisée pour déterminer les frais de scolarité moyens que les étudiants de premier cycle de l'État de San Jose paient par semestre. On demande à chaque étudiant des échantillons suivants combien de frais de scolarité il a payés pour le semestre d'automne. Quel est le type d'échantillonnage dans chaque cas ?
- Un échantillon de 100 étudiants de premier cycle de l'État de San Jose est prélevé en organisant les noms des étudiants par classification (première, deuxième année, junior ou senior), puis en sélectionnant 25 étudiants de chacun.
- Un générateur de nombres aléatoires est utilisé pour sélectionner un étudiant dans la liste alphabétique de tous les étudiants de premier cycle du semestre d'automne. À partir de cet étudiant, un étudiant sur 50 est sélectionné jusqu'à ce que 75 étudiants soient inclus dans l'échantillon.
- Une méthode complètement aléatoire est utilisée pour sélectionner 75 étudiants. Chaque étudiant de premier cycle du semestre d'automne a la même probabilité d'être sélectionné à n'importe quelle étape du processus d'échantillonnage.
- Les années de première, deuxième, junior et senior sont numérotées un, deux, trois et quatre, respectivement. Un générateur de nombres aléatoires est utilisé pour sélectionner deux de ces années. Tous les étudiants de ces deux années font partie de l'échantillon.
- Un adjoint administratif est invité à se tenir devant la bibliothèque un mercredi et à demander aux 100 premiers étudiants de premier cycle qu'il rencontre ce qu'ils ont payé pour les frais de scolarité du semestre d'automne. Ces 100 étudiants constituent l'échantillon.
- Réponse
-
a. stratifié ; b. systématique ; c. aléatoire simple ; d. agrégat ; e. commodité
Exemple\(\PageIndex{8}\)
Déterminez le type d'échantillonnage utilisé (aléatoire simple, stratifié, systématique, en grappes ou de commodité).
- Un entraîneur de soccer sélectionne six joueurs parmi un groupe de garçons âgés de huit à dix ans, sept joueurs parmi un groupe de garçons âgés de 11 à 12 ans et trois joueurs parmi un groupe de garçons âgés de 13 à 14 ans pour former une équipe de soccer récréative.
- Un sondeur interroge l'ensemble du personnel des ressources humaines de cinq entreprises de haute technologie différentes.
- Un chercheur en pédagogie du secondaire interroge 50 enseignantes du secondaire et 50 enseignants du secondaire de sexe masculin.
- Un chercheur médical interroge un patient sur trois parmi une liste de patients atteints de cancer dans un hôpital local.
- Un conseiller d'école secondaire utilise un ordinateur pour générer 50 numéros aléatoires, puis choisit les élèves dont les noms correspondent aux numéros.
- Un étudiant interroge ses camarades de classe dans son cours d'algèbre pour déterminer combien de paires de jeans il possède en moyenne.
- Réponse
-
a. stratifié ; b. agrégé ; c. stratifié ; d. systématique ; e. aléatoire simple ; f. commodité
Si nous devions examiner deux échantillons représentant la même population, même si nous utilisions des méthodes d'échantillonnage aléatoire pour les échantillons, ils ne seraient pas exactement les mêmes. Tout comme il existe des variations dans les données, il y a des variations dans les échantillons. Au fur et à mesure que vous vous habituerez à l'échantillonnage, la variabilité commencera à paraître naturelle.
Exemple\(\PageIndex{8}\)
Supposons que l'ABC College compte 10 000 étudiants à temps partiel (la population). Nous nous intéressons au montant moyen qu'un étudiant à temps partiel dépense en livres au cours du trimestre d'automne. Interroger les 10 000 élèves est une tâche presque impossible.
Supposons que nous prenions deux échantillons différents.
Tout d'abord, nous utilisons un échantillonnage pratique et enquêtons sur dix étudiants d'un cours de chimie organique du premier trimestre. Beaucoup de ces étudiants suivent des cours de calcul pour le premier quadrimestre en plus du cours de chimie organique. Le montant d'argent qu'ils dépensent en livres est le suivant :
128$ ; 87$ ; 173$ ; 116$ ; 130$ ; 204$ ; 147$ ; 189$ ; 93$ ; 153$
Le deuxième échantillon est prélevé en utilisant une liste de personnes âgées qui suivent des cours d'éducation physique et en prenant une personne âgée sur cinq sur la liste, soit un total de dix personnes âgées. Ils dépensent :
50$ ; 40$ ; 36$ ; 15$ ; 50$ ; 100$ ; 40$ ; 53$ ; 22$ ; 22$
Il est peu probable qu'un étudiant fasse partie des deux échantillons.
a. Pensez-vous que l'un ou l'autre de ces échantillons est représentatif (ou caractéristique) de l'ensemble des 10 000 étudiants à temps partiel ?
- Réponse
-
a. Non Le premier échantillon est probablement composé d'étudiants orientés vers les sciences. Outre le cours de chimie, certains d'entre eux suivent également un premier quadrimestre de calcul. Les livres pour ces cours ont tendance à être chers. La plupart de ces étudiants paient probablement plus que la moyenne des étudiants à temps partiel pour leurs livres. Le deuxième échantillon est un groupe de personnes âgées qui suivent très probablement des cours de santé et d'intérêt. Le montant d'argent qu'ils dépensent pour les livres est probablement bien inférieur à celui de la moyenne des étudiants à temps partiel. Les deux échantillons sont biaisés. De plus, dans les deux cas, tous les étudiants n'ont pas la chance de faire partie de l'un ou l'autre des échantillons.
b. Étant donné que ces échantillons ne sont pas représentatifs de l'ensemble de la population, est-il judicieux d'utiliser les résultats pour décrire l'ensemble de la population ?
- Réponse
-
Solution 1.13
b. Non Pour ces échantillons, chaque membre de la population n'avait pas la même probabilité d'être sélectionné.
Maintenant, supposons que nous prenions un troisième échantillon. Nous choisissons dix étudiants à temps partiel différents issus de disciplines telles que la chimie, les mathématiques, l'anglais, la psychologie, la sociologie, l'histoire, les soins infirmiers, l'éducation physique, les arts et le développement de la petite enfance. (Nous supposons que ce sont les seules disciplines dans lesquelles les étudiants à temps partiel de l'ABC College sont inscrits et qu'un nombre égal d'étudiants à temps partiel sont inscrits dans chacune des disciplines.) Chaque étudiant est sélectionné au moyen d'un échantillonnage aléatoire simple. À l'aide d'une calculatrice, des nombres aléatoires sont générés et un étudiant d'une discipline particulière est sélectionné s'il possède un numéro correspondant. Les étudiants dépensent les montants suivants :
180$ ; 50$ ; 150$ ; 85$ ; 260$ ; 75$ ; 180$ ; 200$ ; 200$ ; 150$
c. L'échantillon est-il biaisé ?
- Réponse
-
Solution 1.13
c. L'échantillon est impartial, mais un échantillon plus grand serait recommandé pour augmenter la probabilité que l'échantillon soit presque représentatif de la population. Toutefois, pour une technique d'échantillonnage biaisée, même un échantillon important risque de ne pas être représentatif de la population.
Les élèves demandent souvent s'il est « suffisant » de prélever un échantillon au lieu de sonder l'ensemble de la population. Si l'enquête est bien réalisée, la réponse est oui.
Exercice\(\PageIndex{8}\)
Une station de radio locale a une base de fans de 20 000 auditeurs. La station veut savoir si son public préfère plus de musique ou plus de talk-shows. Interroger les 20 000 auditeurs est une tâche presque impossible.
La station utilise des échantillons de commodité et enquête auprès des 200 premières personnes qu'elle rencontre lors de l'un des concerts de musique de la station. 24 personnes ont déclaré qu'elles préféreraient plus de talk-shows et 176 personnes ont déclaré qu'elles préféreraient plus de musique.
Pensez-vous que cet échantillon est représentatif (ou caractéristique) de l'ensemble des 20 000 auditeurs ?
Variation des données
La variation est présente dans n'importe quel ensemble de données. Par exemple, des canettes de 16 onces de boisson peuvent contenir plus ou moins de 16 onces de liquide. Dans le cadre d'une étude, huit canettes de 16 onces ont été mesurées et ont produit la quantité suivante (en onces) de boisson :
15,8 ; 16,1 ; 15,2 ; 14,8 ; 15,8 ; 15,9 ; 16,0 ; 15,5
Les mesures de la quantité de boisson contenue dans une canette de 16 onces peuvent varier parce que différentes personnes prennent les mesures ou parce que la quantité exacte, 16 onces de liquide, n'a pas été mise dans les canettes. Les fabricants effectuent régulièrement des tests pour déterminer si la quantité de boisson contenue dans une canette de 16 onces se situe dans la fourchette souhaitée.
Sachez que lorsque vous collectez des données, celles-ci peuvent différer quelque peu de celles que quelqu'un d'autre recueille dans le même but. C'est tout à fait naturel. Toutefois, si deux ou plusieurs d'entre vous recueillent les mêmes données et obtiennent des résultats très différents, il est temps pour vous et les autres de réévaluer vos méthodes de collecte de données et votre précision.
Variation des échantillons
Il a été mentionné précédemment que deux échantillons ou plus provenant de la même population, prélevés au hasard et présentant à peu près les mêmes caractéristiques de la population, seront probablement différents les uns des autres. Supposons que Doreen et Jung décident toutes deux d'étudier le temps moyen pendant lequel les étudiants dorment chaque nuit à l'université. Doreen et Jung prélèvent chacune des échantillons de 500 élèves. Doreen utilise l'échantillonnage systématique et Jung utilise l'échantillonnage en grappes. L'échantillon de Doreen sera différent de celui de Jung. Même si Doreen et Jung utilisaient la même méthode d'échantillonnage, leurs échantillons seraient probablement différents. Mais ni l'un ni l'autre ne serait faux.
Réfléchissez à ce qui contribue à différencier les échantillons de Doreen et de Jung.
Si Doreen et Jung ont prélevé des échantillons plus importants (c'est-à-dire que le nombre de valeurs de données augmente), leurs résultats d'échantillonnage (la durée moyenne pendant laquelle un étudiant dort) pourraient être plus proches de la moyenne réelle de la population. Néanmoins, leurs échantillons seraient, selon toute probabilité, différents les uns des autres. Cette variabilité des échantillons ne peut être suffisamment soulignée.
Taille d'un échantillon
La taille d'un échantillon (souvent appelée nombre d'observations, généralement désigné par le symbole n) est importante. Les exemples que vous avez vus dans ce livre jusqu'à présent sont minimes. Des échantillons de quelques centaines d'observations seulement, voire moins, sont suffisants à de nombreuses fins. Lors d'un sondage, les échantillons composés de 1 200 à 1 500 observations sont considérés comme suffisamment grands et suffisamment bons si l'enquête est aléatoire et bien réalisée. Nous verrons plus tard que des échantillons encore plus petits donneront de très bons résultats. Vous découvrirez pourquoi en étudiant les intervalles de confiance.
Sachez que de nombreux échantillons de grande taille sont biaisés. Par exemple, les enquêtes téléphoniques sont invariablement biaisées, parce que les gens choisissent de répondre ou non.