1.1 : Définitions des statistiques, des probabilités et des termes clés
- Page ID
- 191431
La science des statistiques traite de la collecte, de l'analyse, de l'interprétation et de la présentation des données. Nous voyons et utilisons les données dans notre vie quotidienne.
Dans ce cours, vous allez apprendre à organiser et à synthétiser des données. L'organisation et la synthèse des données sont appelées statistiques descriptives. Les données peuvent être résumées de deux manières : l'utilisation de graphiques et l'utilisation de chiffres (par exemple, la recherche d'une moyenne). Après avoir étudié les probabilités et les distributions de probabilités, vous utiliserez des méthodes formelles pour tirer des conclusions à partir de « bonnes » données. Les méthodes formelles sont appelées statistiques inférentielles. L'inférence statistique utilise la probabilité pour déterminer dans quelle mesure nous pouvons être sûrs que nos conclusions sont correctes.
L'interprétation efficace des données (inférence) repose sur de bonnes procédures de production de données et sur un examen approfondi des données. Vous rencontrerez ce qui vous semblera être trop de formules mathématiques pour interpréter les données. L'objectif des statistiques n'est pas d'effectuer de nombreux calculs à l'aide des formules, mais de mieux comprendre vos données. Les calculs peuvent être effectués à l'aide d'une calculatrice ou d'un ordinateur. La compréhension doit venir de vous. Si vous maîtrisez parfaitement les bases des statistiques, vous pouvez avoir plus confiance dans les décisions que vous prenez dans la vie.
Probabilité
La probabilité est un outil mathématique utilisé pour étudier le caractère aléatoire. Il traite de la chance (la probabilité) qu'un événement se produise. Par exemple, si vous lancez une belle pièce quatre fois, le résultat ne sera peut-être pas deux têtes et deux queues. Cependant, si vous lancez la même pièce 4 000 fois, le résultat sera proche de la moitié de la tête et de la moitié de la queue. La probabilité théorique attendue de têtes lors d'un lancer est\(\frac{1}{2}\) de 0,5. Même si les résultats de quelques répétitions sont incertains, il existe un schéma de résultats régulier lorsqu'il y a de nombreuses répétitions. Après avoir lu l'histoire du statisticien anglais Karl Pearson qui a lancé une pièce 24 000 fois, soit 12 012 têtes, l'un des auteurs a lancé une pièce 2 000 fois. Les résultats étaient de 996 têtes. La fraction\(\frac{996}{2000}\) est égale à 0,498, ce qui est très proche de 0,5, la probabilité attendue.
La théorie des probabilités a commencé par l'étude de jeux de hasard tels que le poker. Les prédictions prennent la forme de probabilités. Pour prévoir la probabilité d'un tremblement de terre ou de pluie, ou pour déterminer si vous obtiendrez un A dans ce cours, nous utilisons des probabilités. Les médecins utilisent les probabilités pour déterminer le risque qu'une vaccination cause la maladie que la vaccination est censée prévenir. Un courtier utilise la probabilité pour déterminer le taux de rendement des investissements d'un client. Vous pouvez utiliser la probabilité pour décider d'acheter un billet de loterie ou non. Dans votre étude des statistiques, vous utiliserez la puissance des mathématiques grâce à des calculs de probabilité pour analyser et interpréter vos données.
Termes clés
En statistique, nous voulons généralement étudier une population. Vous pouvez considérer une population comme un ensemble de personnes, de choses ou d'objets à l'étude. Pour étudier la population, nous sélectionnons un échantillon. L'idée de l'échantillonnage est de sélectionner une partie (ou un sous-ensemble) de la plus grande population et d'étudier cette partie (l'échantillon) pour obtenir des informations sur la population. Les données sont le résultat d'un échantillonnage auprès d'une population.
Comme l'examen d'une population entière demande beaucoup de temps et d'argent, l'échantillonnage est une technique très pratique. Si vous souhaitez calculer la moyenne pondérée globale de votre école, il serait judicieux de sélectionner un échantillon d'élèves qui fréquentent l'école. Les données recueillies à partir de l'échantillon seraient les moyennes pondérées des élèves. Lors des élections présidentielles, des échantillons de 1 000 à 2 000 personnes sont prélevés dans des sondages d'opinion. Le sondage d'opinion est censé représenter les points de vue de la population de tout le pays. Les fabricants de boissons gazeuses en conserve prélèvent des échantillons pour déterminer si une canette de 16 onces contient 16 onces de boisson gazeuse.
À partir des données de l'échantillon, nous pouvons calculer une statistique. Une statistique est un nombre qui représente une propriété de l'échantillon. Par exemple, si nous considérons qu'un cours de mathématiques est un échantillon de la population de toutes les classes de mathématiques, le nombre moyen de points gagnés par les étudiants dans ce cours de mathématiques à la fin du trimestre est un exemple de statistique. La statistique est une estimation d'un paramètre de population, en l'occurrence la moyenne. Un paramètre est une caractéristique numérique de l'ensemble de la population qui peut être estimée par une statistique. Comme nous avons considéré tous les cours de mathématiques comme la population, le nombre moyen de points gagnés par étudiant sur l'ensemble des cours de mathématiques est un exemple de paramètre.
L'une des principales préoccupations dans le domaine des statistiques est la précision avec laquelle une statistique estime un paramètre. La précision dépend vraiment de la façon dont l'échantillon représente la population. L'échantillon doit contenir les caractéristiques de la population afin d'être un échantillon représentatif. Nous nous intéressons à la fois à la statistique de l'échantillon et au paramètre de population dans les statistiques inférentielles. Dans un chapitre ultérieur, nous utiliserons la statistique de l'échantillon pour tester la validité du paramètre de population établi.
Une variable, ou variable aléatoire, généralement notée par des lettres majuscules telles que\(X\) et\(Y\), est une caractéristique ou une mesure qui peut être déterminée pour chaque membre d'une population. Les variables peuvent être numériques ou catégorielles. Les variables numériques prennent des valeurs avec des unités égales, telles que le poids en livres et le temps en heures. Les variables catégorielles placent la personne ou l'objet dans une catégorie. Si nous mettons\(X\) égal le nombre de points gagnés par un étudiant en mathématiques à la fin d'un trimestre, alors\(X\) c'est une variable numérique. Si nous\(Y\) laissons l'affiliation d'une personne à un parti, alors certains exemples\(Y\) incluent républicain, démocrate et indépendant. \(Y\)est une variable catégorique. Nous pourrions faire quelques calculs avec des valeurs de\(X\) (calculer le nombre moyen de points gagnés, par exemple), mais cela n'a aucun sens de faire des calculs avec des valeurs de\(Y\) (calculer une affiliation moyenne à un parti n'a aucun sens).
Les données sont les valeurs réelles de la variable. Il peut s'agir de chiffres ou de mots. Le datum est une valeur unique.
Deux mots qui reviennent souvent dans les statistiques sont moyenne et proportion. Si vous deviez passer trois examens dans vos cours de mathématiques et obtenir des notes de 86, 75 et 92, vous calculeriez votre note moyenne en additionnant les trois notes d'examen et en divisant par trois (votre score moyen serait de 84,3 à une décimale près). Si, dans votre classe de mathématiques, il y a 40 étudiants dont 22 hommes et 18 femmes, alors la proportion d'étudiants est égale à celle des étudiants\(\frac{22}{40}\) et la proportion de filles\(\frac{18}{40}\). La moyenne et la proportion sont examinées plus en détail dans les chapitres suivants.
REMARQUE
Les mots « moyenne » et « moyenne » sont souvent utilisés de manière interchangeable. La substitution d'un mot à l'autre est une pratique courante. Le terme technique est « moyenne arithmétique » et « moyenne » désigne techniquement un emplacement central. Toutefois, dans la pratique, parmi les non-statisticiens, la « moyenne » est communément acceptée pour la « moyenne arithmétique ».
Exemple 1.1
Déterminez à quoi se réfèrent les termes clés dans l'étude suivante. Nous voulons connaître le montant moyen (moyen) que les étudiants de première année dépensent à l'ABC College pour des fournitures scolaires qui n'incluent pas les livres. Nous avons interrogé au hasard 100 étudiants de première année du collège. Trois de ces étudiants ont dépensé 150$, 200$ et 225$, respectivement.
- Réponse
-
Solution 1.1
La population comprend tous les étudiants de première année qui fréquentent l'ABC College ce trimestre.
L'échantillon pourrait être composé de tous les étudiants inscrits à une section d'un cours de statistique pour débutants à l'ABC College (bien que cet échantillon ne représente peut-être pas l'ensemble de la population).
Le paramètre est le montant moyen (moyen) dépensé (à l'exclusion des livres) par les étudiants de première année à l'ABC College ce trimestre : la moyenne de la population.
La statistique est le montant moyen (moyen) dépensé (à l'exclusion des livres) par les étudiants de première année de l'échantillon.
La variable pourrait être le montant d'argent dépensé (à l'exclusion des livres) par un étudiant de première année. Let\(X\) = le montant d'argent dépensé (à l'exclusion des livres) par un étudiant de première année fréquentant l'ABC College.
Les données sont les montants en dollars dépensés par les étudiants de première année. Des exemples de données sont 150$, 200$ et 225$.
Exercice 1.1
Déterminez à quoi se réfèrent les termes clés dans l'étude suivante. Nous voulons connaître le montant moyen (moyen) dépensé chaque année en uniformes scolaires par les familles ayant des enfants à la Knoll Academy. Nous menons une enquête aléatoire auprès de 100 familles ayant des enfants à l'école. Trois des familles ont dépensé 65$, 75$ et 95$, respectivement.
Exemple 1.2
Déterminez à quoi se réfèrent les termes clés dans l'étude suivante.
Une étude a été menée dans un collège local pour analyser les moyennes cumulées moyennes des étudiants ayant obtenu leur diplôme l'année dernière. Remplissez la lettre de la phrase qui décrit le mieux chacun des éléments ci-dessous.
1. Population ____ 2. Statistique ____ 3. Paramètre ____ 4. Échantillon ____ 5. Variable ____ 6. Données ____
- tous les étudiants qui ont fréquenté le collège l'année dernière
- la moyenne cumulative d'un étudiant diplômé du collège l'année dernière
- 3,65, 2,80, 1,50, 3,90
- un groupe d'étudiants diplômés du collège l'année dernière, sélectionnés au hasard
- le GPA cumulé moyen des étudiants qui ont obtenu leur diplôme universitaire l'année dernière
- tous les étudiants diplômés du collège l'année dernière
- la moyenne cumulative des étudiants de l'étude qui ont obtenu leur diplôme universitaire l'année dernière
- Réponse
-
Solution 1.2
1,1 g ; 2,3 g ; 3,4 g ; 4,4 d ; 5,5 g ; 6,5 c
Exemple 1.3
Déterminez à quoi se réfèrent les termes clés dans l'étude suivante.
Dans le cadre d'une étude visant à tester la sécurité des automobiles, le National Transportation Safety Board a collecté et examiné des données concernant les effets d'un accident de voiture sur les mannequins d'essai. Voici le critère qu'ils ont utilisé :
Vitesse à laquelle les voitures s'écrasent | Emplacement du « lecteur » (c'est-à-dire des mannequins) |
35 miles/heure | Siège avant |
Des voitures avec des mannequins sur les sièges avant ont percuté un mur à une vitesse de 56 miles à l'heure. Nous voulons connaître la proportion de mannequins assis sur le siège du conducteur qui auraient subi un traumatisme crânien s'ils avaient été de vrais conducteurs. Nous commençons par un simple échantillon aléatoire de 75 voitures.
- Réponse
-
Solution 1.3
La population est constituée de toutes les voitures avec des mannequins sur le siège avant.
L'échantillon est constitué de 75 voitures, sélectionnées par un échantillon aléatoire simple.
Le paramètre est la proportion de mannequins de conducteurs (s'ils avaient été de vraies personnes) qui auraient subi un traumatisme crânien au sein de la population.
La statistique est la proportion de mannequins de conducteurs (s'ils avaient été de vraies personnes) qui auraient subi un traumatisme crânien dans l'échantillon.
La variable\(X\) = le nombre de mannequins de conducteurs (s'ils avaient été de vraies personnes) qui auraient subi un traumatisme crânien.
Les données sont soit : oui, s'il s'est blessé à la tête, soit non.
Exemple 1.4
Déterminez à quoi se réfèrent les termes clés dans l'étude suivante.
Une compagnie d'assurance souhaite déterminer la proportion de tous les médecins impliqués dans une ou plusieurs poursuites pour faute professionnelle. L'entreprise sélectionne 500 médecins au hasard dans un annuaire professionnel et détermine le nombre de médecins de l'échantillon qui ont été impliqués dans une action en justice pour faute professionnelle.
- Réponse
-
Solution 1.4
La population est constituée de tous les médecins inscrits dans l'annuaire professionnel.
Le paramètre est la proportion de médecins impliqués dans une ou plusieurs poursuites pour faute professionnelle au sein de la population.
L'échantillon est constitué des 500 médecins sélectionnés au hasard dans le répertoire professionnel.
La statistique est la proportion de médecins impliqués dans une ou plusieurs poursuites pour faute professionnelle dans l'échantillon.
La variable\(X\) = le nombre de médecins impliqués dans une ou plusieurs poursuites pour faute professionnelle.
Les données sont soit : oui, a été impliqué dans une ou plusieurs poursuites pour faute professionnelle, soit non, ne l'était pas.