Lexique
- Page ID
- 191846
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)
démarrer
- En moyenne
- également appelée moyenne ou moyenne arithmétique ; nombre qui décrit la tendance centrale des données
- Aveuglant
- ne pas indiquer aux participants quel traitement reçoit un sujet
- Variable catégorique
- variables qui prennent des valeurs qui sont des noms ou des étiquettes
- Echantillonnage
- une méthode pour sélectionner un échantillon aléatoire et diviser la population en groupes (grappes) ; utiliser un échantillonnage aléatoire simple pour sélectionner un ensemble de groupes. Chaque individu des groupes sélectionnés est inclus dans l'échantillon.
- Variable aléatoire continue
- une variable aléatoire (VR) dont les résultats sont mesurés ; la hauteur des arbres dans la forêt est une VR continue.
- Groupe de contrôle
- un groupe participant à une expérience randomisée qui reçoit un traitement inactif mais qui est géré par ailleurs exactement comme les autres groupes
- Échantillonnage pratique
- une méthode non aléatoire de sélection d'un échantillon ; cette méthode sélectionne des individus facilement accessibles et peut donner lieu à des données biaisées.
- Fréquence relative cumulée
- Le terme s'applique à un ensemble ordonné d'observations, de la plus petite à la plus grande. La fréquence relative cumulée est la somme des fréquences relatives pour toutes les valeurs inférieures ou égales à la valeur donnée.
- Données
- un ensemble d'observations (un ensemble de résultats possibles) ; la plupart des données peuvent être classées en deux groupes : qualitatifs (un attribut dont la valeur est indiquée par une étiquette) ou quantitatives (un attribut dont la valeur est indiquée par un chiffre). Les données quantitatives peuvent être divisées en deux sous-groupes : les données discrètes et les données continues. Les données sont discrètes si elles sont le résultat d'un comptage (par exemple, le nombre d'élèves d'un groupe ethnique donné dans une classe ou le nombre de livres sur une étagère). Les données sont continues si elles sont le résultat de mesures (telles que la distance parcourue ou le poids des bagages)
- Variable aléatoire discrète
- une variable aléatoire (RV) dont les résultats sont comptés
- Double aveuglage
- le fait d'aveugler à la fois les sujets d'une expérience et les chercheurs qui travaillent avec les sujets
- Unité expérimentale
- tout individu ou objet à mesurer
- Variable explicative
- la variable indépendante dans une expérience ; la valeur contrôlée par les chercheurs
- Fréquence
- le nombre de fois qu'une valeur des données apparaît
- Consentement éclairé
- Tout sujet humain participant à une étude de recherche doit être conscient des risques ou des coûts associés à l'étude. Le sujet a le droit de connaître la nature des traitements inclus dans l'étude, leurs risques potentiels et leurs avantages potentiels. Le consentement doit être donné librement par un participant informé et apte.
- Comité d'examen institutionnel
- un comité chargé de superviser les programmes de recherche impliquant des sujets humains
- Variable cachée
- une variable qui a un effet sur une étude même s'il ne s'agit ni d'une variable explicative ni d'une variable de réponse
- Modèles mathématiques
- une description d'un phénomène à l'aide de concepts mathématiques tels que des équations, des inégalités, des distributions, etc.
- Erreur hors échantillonnage
- un problème qui affecte la fiabilité des données d'échantillonnage autres que la variation naturelle ; il comprend diverses erreurs humaines, notamment une mauvaise conception de l'étude, des méthodes d'échantillonnage biaisées, des informations inexactes fournies par les participants à l'étude, des erreurs de saisie de données et une mauvaise analyse.
- Variable numérique
- variables qui prennent des valeurs indiquées par des nombres
- Étude observationnelle
- une étude dans laquelle la variable indépendante n'est pas manipulée par le chercheur
- Paramètre
- un nombre qui est utilisé pour représenter une caractéristique de la population et qui ne peut généralement pas être déterminé facilement
- Un placebo
- un traitement inactif qui n'a aucun effet réel sur la variable explicative
- Population
- tous les individus, objets ou mesures dont les propriétés sont étudiées
- Probabilité
- un nombre compris entre zéro et un, inclus, qui indique la probabilité qu'un événement spécifique se produise
- Proportion
- le nombre de succès divisé par le nombre total de participants à l'échantillon
- Données qualitatives
- Voir Données.
- Données quantitatives
- Voir Données.
- Affectation aléatoire
- le fait d'organiser des unités expérimentales en groupes de traitement à l'aide de méthodes aléatoires
- Échantillonnage aléatoire
- une méthode de sélection d'un échantillon qui donne à chaque membre de la population une chance égale d'être sélectionné.
- Fréquence relative
- le rapport entre le nombre de fois qu'une valeur des données apparaît dans l'ensemble de tous les résultats par rapport au nombre de tous les résultats par rapport au nombre total de résultats
- Échantillon représentatif
- un sous-ensemble de la population qui présente les mêmes caractéristiques que la population
- Variable de réponse
- la variable dépendante d'une expérience ; la valeur dont le changement est mesuré à la fin de l'expérience
- échantillon
- un sous-ensemble de la population étudiée
- Biais d'échantillonnage
- tous les membres de la population ne sont pas également susceptibles d'être sélectionnés
- Erreur d'échantillonnage
- la variation naturelle qui résulte de la sélection d'un échantillon pour représenter une population plus importante ; cette variation diminue à mesure que la taille de l'échantillon augmente, de sorte que la sélection d'échantillons plus importants réduit les erreurs d'échantillonnage.
- Échantillonnage avec remplacement
- Une fois qu'un membre de la population est sélectionné pour être inclus dans un échantillon, ce membre est réintégré dans la population pour la sélection de la personne suivante.
- Échantillonnage sans remplacement
- Un membre de la population ne peut être sélectionné qu'une seule fois pour être inclus dans un échantillon. Si cette option est sélectionnée, le membre n'est pas réintégré dans la population avant la sélection suivante.
- Échantillonnage aléatoire simple
- une méthode simple pour sélectionner un échantillon aléatoire ; attribuer un numéro à chaque membre de la population. Utilisez un générateur de nombres aléatoires pour sélectionner un ensemble d'étiquettes. Ces étiquettes sélectionnées au hasard identifient les membres de votre échantillon.
- Statistique
- une caractéristique numérique de l'échantillon ; une statistique estime le paramètre de population correspondant.
- Modèles statistiques
- une description d'un phénomène à l'aide de distributions de probabilité qui décrivent le comportement attendu du phénomène et la variabilité des observations attendues.
- Échantillonnage stratifié
- une méthode de sélection d'un échantillon aléatoire utilisée pour garantir la représentation adéquate des sous-groupes de la population ; diviser la population en groupes (strates). Utilisez un échantillonnage aléatoire simple pour identifier un nombre proportionnel d'individus de chaque strate.
- Probabilité conditionnelle
- la probabilité qu'un événement se produise étant donné qu'un autre événement s'est déjà produit
- Tableau de contingence
- la méthode d'affichage d'une distribution de fréquences sous forme de tableau avec des lignes et des colonnes pour montrer comment deux variables peuvent être dépendantes (conditionnelles) l'une de l'autre ; le tableau fournit un moyen facile de calculer des probabilités conditionnelles.
- Évènements dépendants
- Si deux événements ne sont PAS indépendants, alors nous disons qu'ils sont dépendants.
- Tout aussi probable
- Chaque résultat d'une expérience a la même probabilité.
- Événement
- un sous-ensemble de l'ensemble de tous les résultats d'une expérience ; l'ensemble de tous les résultats d'une expérience est appelé espace d'échantillonnage et est généralement désigné par S. Un événement est un sous-ensemble arbitraire dans S. Il peut contenir un résultat, deux résultats, aucun résultat (sous-ensemble vide), la totalité de l'espace d'échantillonnage, etc. Les notations standard pour les événements sont des lettres majuscules telles que A, B, C, etc.
- Expérience
- une activité planifiée réalisée dans des conditions contrôlées\(P(A|B) = P(A)\)
\(P(B|A) = P(B)\)
\(P(A \cap B) = P(A)P(B)\)
- Évènements indépendants
- La survenance d'un événement n'a aucun effet sur la probabilité qu'un autre événement se produise. Les événements A et B sont indépendants si l'une des conditions suivantes est vraie :
- Mutuellement exclusif
- Deux événements s'excluent mutuellement si la probabilité qu'ils se produisent tous les deux en même temps est nulle. Si les événements A et B s'excluent mutuellement, alors\(P(A \cap B) = 0\).
- Résultat
- un résultat particulier d'une expérience\(0 ≤ P(A) ≤ 1\)
Si A et B sont deux événements qui s'excluent mutuellement, alors\(P(A \cup B) = P(A) + P(B)\).
\(P(S) = 1\)
- Probabilité
- un nombre compris entre zéro et un, inclus, qui donne la probabilité qu'un événement spécifique se produise ; le fondement des statistiques est donné par les 3 axiomes suivants (par A.N. Kolmogorov, années 1930) : Soit S l'espace d'échantillonnage et A et B sont deux événements en S. Ensuite : (1) Il n'y a que deux résultats possibles appelés » « succès » et « échec » pour chaque essai et (2) La probabilité\(p\) de succès est la même pour tous les essais (la probabilité\(q = 1 − p\) d'échec est donc la même pour tous les essais).
- Procès Bernoulli
- une expérience présentant les caractéristiques suivantes : Il existe un nombre fixe d'essais,\(n\). Il n'y a que deux issues possibles, appelées « réussite » et « échec », pour chaque essai. La lettre\(p\) indique la probabilité de succès d'un essai et\(q\) indique la probabilité d'échec d'un essai. Les\(n\) essais sont indépendants et sont répétés dans des conditions identiques.
- Expérience binomiale
- une expérience statistique qui satisfait aux trois conditions suivantes :
- Distribution de probabilité binomiale
- une variable aléatoire discrète (RV) issue des essais de Bernoulli ; il existe un nombre fixe d'essais indépendants.\(n\) « Indépendant » signifie que le résultat d'un essai (par exemple, l'essai 1) n'a aucune incidence sur les résultats des essais suivants, et que tous les essais sont menés dans les mêmes conditions. Dans ces circonstances, le RV binomial\(X\) est défini comme le nombre de réussites dans n essais. La moyenne est\(\mu=n p\) et l'écart type est\(\sigma=\sqrt{n p q}\). La probabilité d'exactement x succès dans les\(n\) essais est de\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Distribution géométrique
- une variable aléatoire discrète (RV) issue des essais de Bernoulli ; les essais sont répétés jusqu'au premier succès. La variable géométrique X est définie comme le nombre d'essais jusqu'au premier succès. La moyenne est\(\mu=\frac{1}{p}\) et l'écart type est\(\sigma = \sqrt{\frac{1}{p}\left(\frac{1}{p}-1\right)}\). La probabilité d'avoir exactement x échecs avant le premier succès est donnée par la formule :\(P(X=x)=p(1-p)^{x-1}\) où l'on veut connaître la probabilité du nombre d'essais jusqu'au premier succès : la\(x\) ème piste est le premier succès. Une autre formulation de la distribution géométrique pose la question suivante : quelle est la probabilité d'\(x\)échecs jusqu'au premier succès ? Dans cette formulation, l'essai qui a donné lieu au premier succès n'est pas pris en compte. La formule de cette présentation de la géométrie est :\(P(X=x)=p(1-p)^{x}\). La valeur attendue dans cette forme de distribution géométrique est\(\mu=\frac{1-p}{p}\). Le moyen le plus simple de maintenir ces deux formes de distribution géométrique droites est de se rappeler que p est la probabilité de succès et\((1−p)\) la probabilité d'échec. Dans la formule, les exposants comptent simplement le nombre de succès et le nombre d'échecs du résultat souhaité de l'expérience. Bien entendu, la somme de ces deux nombres doit s'ajouter au nombre d'essais de l'expérience.
- Il y a un ou plusieurs procès de Bernoulli avec tous les échecs sauf le dernier, qui est un succès.
- En théorie, le nombre d'essais pourrait durer indéfiniment. Il doit y avoir au moins un procès.
- La probabilité d'\(p\)un succès et la probabilité d'un échec ne changent pas d'un essai à l'autre.\(q\)
- Expérience géométrique
- une expérience statistique avec les propriétés suivantes :
- Expérience hypergéométrique
- une expérience statistique avec les propriétés suivantes :
- Vous prélevez des échantillons auprès de deux groupes.
- Vous vous intéressez à un groupe d'intérêt, appelé premier groupe.
- Vous prélevez des échantillons sans les remplacer dans les groupes combinés.
- Chaque échantillon n'est pas indépendant, car l'échantillonnage se fait sans remplacement.
- Distribution normale
- une variable aléatoire continue\((RV)\) avec pdf\(f(x) =\)\[\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\nonumber\], où\(\mu\) est la moyenne de la distribution et\(\sigma\) l'écart type ; notation :\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) et\(\sigma = 1\), le\(RV\)\(Z\), est appelé la distribution normale standard. Distribution normale standard : variable aléatoire continue\((RV) X \sim N(0, 1)\) ; lorsqu'elle\(X\) suit la distribution normale standard, elle est souvent notée sous la forme\(Z \sim N(0, 1)\). z-score la transformation linéaire de la forme\(z=\frac{x-\mu}{\sigma}\) ou écrite comme\(z=\frac{|x-\mu|}{\sigma}\) ; si cette transformation est appliquée à une distribution normale \(X \sim N(\mu, \sigma)\)le résultat est la distribution normale standard\(Z \sim N(0,1)\). Si cette transformation est appliquée à une valeur spécifique\(x\) de\(RV\) avec une moyenne\(\mu\) et un écart type\(\sigma\), le résultat est appelé score z de\(x\). Le score z nous permet de comparer des données qui sont normalement distribuées mais mises à l'échelle différemment. Un score z est le nombre d'écarts types par rapport à\(x\) la valeur moyenne d'une donnée.
- Distribution binomiale
- une variable aléatoire discrète (RV) issue des essais de Bernoulli ; il existe un nombre fixe d'essais indépendants.\(n\) « Indépendant » signifie que le résultat d'un essai (par exemple, l'essai 1) n'a aucune incidence sur les résultats des essais suivants, et que tous les essais sont menés dans les mêmes conditions. Dans ces circonstances, le binôme\(RV\)\(X\) est défini comme le nombre de réussites dans n essais. La notation est la suivante :\(X \sim B(\bf{n,p})\). La moyenne est\(\mu = np\) et l'écart type est\(\sigma=\sqrt{n p q}\). La probabilité de\(x\) succès exact dans les\(n\) essais est de\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Intervalle de confiance (CI)
- une estimation de l'intervalle pour un paramètre de population inconnu. Cela dépend de :
- le niveau de confiance souhaité,
- des informations connues sur la distribution (par exemple, écart type connu),
- l'échantillon et sa taille.
- Niveau de confiance (CL)
- l'expression en pourcentage de la probabilité que l'intervalle de confiance contienne le paramètre de population réel ; par exemple, si le CL = 90 %, l'estimation de l'intervalle inclura le paramètre de population réel dans 90 échantillons sur 100.
- Degrés de liberté (df)
- le nombre d'objets d'un échantillon qui peuvent varier librement
- Borne d'erreur pour une moyenne de population (EBM)
- la marge d'erreur ; dépend du niveau de confiance, de la taille de l'échantillon et de l'écart type connu ou estimé de la population.
- Borne d'erreur pour une proportion de population (EBP)
- la marge d'erreur ; dépend du niveau de confiance, de la taille de l'échantillon et de la proportion estimée (à partir de l'échantillon) de succès.
- Statistiques inférentielles
- également appelée inférence statistique ou statistique inductive ; cette facette de la statistique traite de l'estimation d'un paramètre de population sur la base d'une statistique d'échantillon. Par exemple, si quatre des 100 calculatrices échantillonnées sont défectueuses, nous pouvons en déduire que 4 % de la production est défectueuse.
- Distribution normale
- une variable aléatoire continue (RV) avec pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-(x-\mu)^{2} / 2 \sigma^{2}}\), où\(\mu\) est la moyenne de la distribution et\(\sigma\) l'écart type, notation :\(X \sim N(\mu,\sigma)\). Si\(\mu = 0\) tel est le cas\(\sigma = 1\), le VR est appelé distribution normale standard.
- Distribution binomiale
- une variable aléatoire discrète (RV) issue des essais de Bernoulli. Il existe un nombre fixe, n, d'essais indépendants. « Indépendant » signifie que le résultat d'un essai (par exemple, l'essai 1) n'a aucune incidence sur les résultats des essais suivants, et que tous les essais sont menés dans les mêmes conditions. Dans ces circonstances, le RV X binomial est défini comme le nombre de succès des\(n\) essais. La notation est la suivante :\(X \sim B(n, p) \mu = np\) et l'écart type est\(\sigma=\sqrt{n p q}\). La probabilité de\(x\) succès exact dans les\(n\) essais est de\(P(X=x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x} q^{n-x}\).
- Théorème de la limite centrale
- Étant donné une variable aléatoire (RV) avec une moyenne\(\mu\) et un écart-type connus\(\sigma\). Nous échantillonnons avec la taille n et nous nous intéressons à deux nouveaux VR : la moyenne de l'échantillon,\(\overline X\). Si la taille n de l'échantillon est suffisamment grande, alors\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Si la taille n de l'échantillon est suffisamment grande, la distribution des moyennes de l'échantillon sera proche d'une distribution normale, quelle que soit la forme de la population. La valeur attendue de la moyenne des moyennes de l'échantillon sera égale à la moyenne de la population. L'écart type de la distribution des moyennes de l'échantillon est appelé erreur type de la moyenne.\(\frac{\sigma}{\sqrt{n}}\)
- Le niveau de confiance souhaité.
- Informations connues sur la distribution (par exemple, écart type connu).
- L'échantillon et sa taille.
- Intervalle de confiance (CI)
- une estimation de l'intervalle pour un paramètre de population inconnu. Cela dépend de :
- Valeur critique
- La\(Z\) valeur\(t\) ou définie par le chercheur qui mesure la probabilité d'une erreur de type I,\(\sigma\).
- L'hypothèse
- une déclaration concernant la valeur d'un paramètre de population, dans le cas de deux hypothèses, la déclaration supposée vraie est appelée hypothèse nulle (notation\(H_0\)) et la déclaration contradictoire est appelée hypothèse alternative (notation\(H_a\)).
- Tests d'hypothèses
- Sur la base d'un échantillon de preuves, une procédure permettant de déterminer si l'hypothèse formulée est raisonnable et ne doit pas être rejetée, ou si elle est déraisonnable et doit être rejetée.
- Le d de Cohen
- une mesure de l'ampleur de l'effet basée sur les différences entre deux moyennes. Si la\(d\) valeur est comprise entre 0 et 0,2, l'effet est faible. Si\(d\) les approches sont de 0,5, alors l'effet est moyen, et s'il\(d\) approche de 0,8, il s'agit d'un effet important.
- a est le symbole de l'Y-Intercept
- Parfois écrit comme\(b_0\), car lors de l'écriture, le modèle linéaire théorique\(\beta_0\) est utilisé pour représenter un coefficient pour une population.
- b est le symbole de Slope
- Le mot coefficient sera utilisé régulièrement pour désigner la pente, car il s'agit d'un nombre qui sera toujours à côté de la lettre « »\(x\). Il sera écrit comme\(b_1\) lorsqu'un échantillon est utilisé, et\(\beta_1\) sera utilisé avec une population ou lors de l'écriture du modèle linéaire théorique.
- Bivarié
- deux variables sont présentes dans le modèle, l'une étant la « cause » ou la variable indépendante et l'autre étant « l'effet » de la variable dépendante.
- linéaire
- un modèle qui prend des données et les fait régresser dans une équation linéaire.
- Multivarié
- un système ou un modèle dans lequel plusieurs variables indépendantes sont utilisées pour prédire un résultat. Il ne peut y avoir qu'une seule variable dépendante, mais il n'y a pas de limite au nombre de variables indépendantes.
- R2R2 — Coefficient de détermination
- Il s'agit d'un nombre compris entre 0 et 1 qui représente la variation en pourcentage de la variable dépendante qui peut être expliquée par la variation de la variable indépendante. Parfois calculé par l'équation\(R^{2}=\frac{S S R}{S S T}\) où\(SSR\) est la « régression de la somme des carrés » et\(SST\) la « somme des carrés totale ». Le coefficient de détermination approprié à signaler doit toujours être ajusté en premier lieu en fonction des degrés de liberté.
- Résiduel ou « erreur »
- la valeur calculée en soustrayant\(y_{0}-\hat{y}_{0}=e_{0}\). La valeur absolue d'une valeur résiduelle mesure la distance verticale entre la valeur réelle de y et la valeur estimée de y qui apparaît sur la ligne de meilleur ajustement.
- RR — Coefficient de corrélation
- Un nombre compris entre -1 et 1 qui représente la force et la direction de la relation entre «\(X\) » et « »\(Y\). La valeur de «\(r\) » sera égale à 1 ou -1 uniquement si tous les points tracés forment une ligne parfaitement droite.
- Somme des erreurs au carré (SSE)
- la valeur calculée en additionnant tous les termes résiduels au carré. L'espoir est que cette valeur soit très faible lors de la création d'un modèle.
- X — la variable indépendante
- Cette variable sera parfois appelée « variable prédictive », car ces valeurs ont été mesurées afin de déterminer quels résultats possibles pouvaient être prédits.
- Y — la variable dépendante
- De plus, l'utilisation de la lettre «\(y\) » représente les valeurs réelles tout en\(\hat{y}\) représentant les valeurs prévues ou estimées. Les valeurs prévues proviendront de l'intégration des «\(x\) » valeurs observées dans un modèle linéaire.
- toutes les populations d'intérêt sont normalement réparties.
- les populations ont des écarts types égaux.
- des échantillons (pas nécessairement de la même taille) sont sélectionnés au hasard et indépendamment dans chaque population.
- il existe une variable indépendante et une variable dépendante.
La statistique de test pour l'analyse de la variance est le\(F\) ratio.
- Analyse de la variance
- également appelée ANOVA, est une méthode qui permet de vérifier si les moyennes de trois populations ou plus sont égales ou non. La méthode est applicable si :
- ANOVA unidirectionnelle
- une méthode permettant de vérifier si les moyennes de trois populations ou plus sont égales ou non ; la méthode est applicable si :
- toutes les populations d'intérêt sont normalement réparties.
- les populations ont des écarts types égaux.
- des échantillons (pas nécessairement de la même taille) sont sélectionnés au hasard et indépendamment dans chaque population.
La statistique de test pour l'analyse de la variance est le\(F\) ratio.
- Écart
- moyenne des écarts au carré par rapport à la moyenne ; carré de l'écart type. Pour un ensemble de données, un écart peut être représenté comme\(x – \overline{x}\)\(x\) étant la valeur des données et\(\overline{x}\) la moyenne de l'échantillon. La variance de l'échantillon est égale à la somme des carrés des écarts divisée par la différence entre la taille de l'échantillon et un.
- Tableau de contingence
- un tableau qui présente des valeurs d'échantillon pour deux facteurs différents qui peuvent être dépendants ou dépendants l'un de l'autre ; il facilite la détermination des probabilités conditionnelles.
- Adéquation de l'ajustement
- un test d'hypothèse qui compare les valeurs attendues et observées afin de rechercher des différences significatives au sein d'une variable non paramétrique. Les degrés de liberté utilisés sont égaux à (nombre de catégories — 1).
- Test d'homogénéité
- un test utilisé pour déterminer si deux populations ont la même distribution. Les degrés de liberté utilisés sont égaux à (nombre de colonnes : 1).
- Test d'indépendance
- un test d'hypothèse qui compare les valeurs attendues et observées pour les tableaux de contingence afin de tester l'indépendance entre deux variables. Les degrés de liberté utilisés sont égaux au (nombre de colonnes : 1) multiplié par (nombre de lignes : 1).
- Groupes indépendants
- deux échantillons sélectionnés parmi deux populations, et les valeurs d'une population ne sont en aucun cas liées aux valeurs de l'autre population.
- Paires assorties
- deux échantillons dépendants. Les différences entre un scénario avant et un scénario après sont testées en testant la moyenne des différences d'une population.
- Variance groupée
- une moyenne pondérée de deux variances qui peut ensuite être utilisée lors du calcul de l'erreur type.
- Distribution normale
- une variable aléatoire continue (RV) avec pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), où\(\mu\) est la moyenne de la distribution et\(\sigma\) l'écart type, notation :\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) tel est le cas\(\sigma = 1\), le VR est appelé distribution normale standard.
- Écart type
- nombre égal à la racine carrée de la variance et mesurant la distance entre les valeurs des données et leur moyenne ; notation : s pour l'écart type de l'échantillon et σ pour l'écart type de la population.
- Distribution T de l'étudiant
- étudié et rapporté par William S. Gossett en 1908 et publié sous le pseudonyme de Student. Les principales caractéristiques de la variable aléatoire (RV) sont les suivantes :
- Il est continu et prend toutes les valeurs réelles.
- Le pdf est symétrique par rapport à sa moyenne de zéro. Cependant, elle est plus étalée et plus plate à l'apex que la distribution normale.
- Elle se rapproche de la distribution normale standard lorsque n augmente.
- Il existe une « famille » de distributions t : chaque représentant de la famille est complètement défini par le nombre de degrés de liberté, soit un de moins que le nombre de données.
- Statistique de test
- La formule qui compte le nombre d'écarts types sur la distribution pertinente de ce paramètre estimé est différente de la valeur hypothétisée.
- Erreur de type I
- La décision est de rejeter l'hypothèse nulle lorsque, en fait, l'hypothèse nulle est vraie.
- Erreur de type II
- La décision est de ne pas rejeter l'hypothèse nulle alors que, en fait, l'hypothèse nulle est fausse.
- Paramètre
- une caractéristique numérique d'une population
- Estimation ponctuelle
- un nombre unique calculé à partir d'un échantillon et utilisé pour estimer un paramètre de population
- Écart type
- nombre égal à la racine carrée de la variance et mesurant la distance entre les valeurs des données et leur moyenne ; notation :\(s\) pour l'écart type de l'échantillon et \ sigma pour l'écart type de la population
- Distribution à destination des étudiants
- étudié et rapporté par William S. Gossett en 1908 et publié sous le pseudonyme de Student ; les principales caractéristiques de cette variable aléatoire (\(RV\)) sont les suivantes :
- Il est continu et prend toutes les valeurs réelles.
- Le pdf est symétrique par rapport à sa moyenne de zéro.
- Elle se rapproche de la distribution normale standard à mesure qu'elle\(n\) s'agrandit.
- Il existe une « famille » de distributions t : chaque représentant de la famille est complètement défini par le nombre de degrés de liberté, qui dépend de l'application pour laquelle le t est utilisé.
- En moyenne
- un nombre qui décrit la tendance centrale des données ; il existe un certain nombre de moyennes spécialisées, notamment la moyenne arithmétique, la moyenne pondérée, la médiane, la moyenne modale et la moyenne géométrique.
- Théorème de la limite centrale
- Étant donné une variable aléatoire dont la moyenne λ et l'écart type sont connus, σ, nous échantillonnons avec la taille n, et nous nous intéressons à deux nouveaux VR : la moyenne de l'échantillon,\(\overline X\). Si la taille (\(n\)) de l'échantillon est suffisamment grande, alors\(\overline{X} \sim N\left(\mu, \frac{\sigma}{\sqrt{n}}\right)\). Si la taille (\(n\)) de l'échantillon est suffisamment grande, la distribution des moyennes de l'échantillon se rapprochera des distributions normales, quelle que soit la forme de la population. La moyenne des moyennes de l'échantillon sera égale à la moyenne de la population. L'écart type de la distribution des moyennes de l'échantillon est appelé erreur type de la moyenne.\(\frac{\sigma}{\sqrt{n}}\)
- Facteur de correction pour population finie
- ajuste la variance de la distribution d'échantillonnage si la population est connue et que plus de 5 % de la population est échantillonnée.
- Moyen
- un nombre qui mesure la tendance centrale ; un nom commun pour la moyenne est « moyenne ». Le terme « moyenne » est une forme abrégée de « moyenne arithmétique ». Par définition, la moyenne pour un échantillon (désignée par\(\overline x\)) est\(\overline x =\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), et la moyenne pour une population (désignée par\(\mu\)) est\(\mu=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\).
- Distribution normale
- une variable aléatoire continue avec pdf\(f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{\frac{-(x-\mu)^{2}}{2 \sigma^{2}}}\), où\(\mu\) est la moyenne de la distribution et\(\sigma\) l'écart type. ; notation :\(X \sim N(\mu, \sigma)\). Si\(\mu = 0\) et\(\sigma = 1\), la variable aléatoire est appelée distribution normale standard.\(Z\)
- Distribution de l'échantillonnage
- Dans le cas d'échantillons aléatoires simples de taille\(n\) provenant d'une population donnée et présentant une caractéristique mesurée telle que la moyenne, la proportion ou l'écart type pour chaque échantillon, la distribution de probabilité de toutes les caractéristiques mesurées est appelée distribution d'échantillonnage.
- Erreur type de la moyenne
- l'écart type de la distribution des moyennes de l'échantillon, ou\(\frac{\sigma}{\sqrt{n}}\).
- Erreur type de la proportion
- l'écart type de la distribution des proportions d'échantillonnage
- Probabilité conditionnelle
- la probabilité qu'un événement se produise étant donné qu'un autre événement s'est déjà produit.
- paramètre de désintégration
- Le paramètre de désintégration décrit la vitesse à laquelle les probabilités diminuent jusqu'à zéro pour des valeurs croissantes de\(x\). Il s'agit de la valeur m de la fonction\(f(x)=m e^{(-m x)}\) de densité de probabilité d'une variable aléatoire exponentielle. Il est également égal à\(m = \frac{1}{\mu}\), où\(\mu\) est la moyenne de la variable aléatoire.
- Distribution exponentielle
- une variable aléatoire continue (RV) qui apparaît lorsque nous nous intéressons aux intervalles de temps entre certains événements aléatoires, par exemple le délai entre les arrivées d'urgence à l'hôpital. La moyenne est\(\mu = \frac{1}{m}\) et l'écart type est\(\sigma = \frac{1}{m}\). La fonction de densité de probabilité est\(f(x)=m e^{-m x} \text { or } f(x)=\frac{1}{\mu} e^{-\frac{1}{\mu} x}, x \geq 0\) et la fonction de distribution cumulée est\(P(X \leq x)=1-e^{-m x} \text { or } P(X \leq x)=1-e^{-\frac{1}{\mu} x}\).
- propriété sans mémoire
- Pour une variable aléatoire exponentielle\(X\), la propriété sans mémoire est l'affirmation selon laquelle la connaissance de ce qui s'est passé dans le passé n'a aucun effet sur les probabilités futures. Cela signifie que la probabilité qui\(X\) dépasse\(x + t\), étant donné qu'elle a dépassé\(x\), est la même que la probabilité qui\(X\) dépasserait t si nous n'avions aucune connaissance à ce sujet. C'est ce que nous disons en symboles\(P(X > x + t|X > x) = P(X > t)\).
- Distribution de poisson
- S'il existe une moyenne connue d'événements \ mu survenant par unité de temps et que ces événements sont indépendants les uns des autres, alors le nombre d'événements X survenant dans une unité de temps a la distribution de Poisson. La probabilité que x événements se produisent dans une unité de temps est égale à\(P(X=x)=\frac{\mu^{x} e^{-\mu}}{x !}\).
- Distribution uniforme
- une variable aléatoire continue (RV) qui a des résultats tout aussi probables sur le domaine\(a < x < b\) ; elle est souvent appelée distribution rectangulaire car le graphique du pdf a la forme d'un rectangle. La moyenne est\(\mu=\frac{a+b}{2}\) et l'écart type est\(\sigma=\sqrt{\frac{(b-a)^{2}}{12}}\). La fonction de densité de probabilité est \ (f (x) = \ frac {1} {b-a} \ text {for} a
- Probabilité hypergéométrique
- une variable aléatoire discrète (RV) qui se caractérise par :
- Un nombre fixe d'essais.
- La probabilité de succès n'est pas la même d'un essai à l'autre.
- Distribution des probabilités de
- une variable aléatoire discrète (RV) qui compte le nombre de fois qu'un certain événement se produira dans un intervalle spécifique ; caractéristiques de la variable :
- La probabilité que l'événement se produise dans un intervalle donné est la même pour tous les intervalles.
- Les événements se produisent avec une moyenne connue et indépendamment du temps écoulé depuis le dernier événement.
- Fonction de distribution des probabilités (PDF)
- une description mathématique d'une variable aléatoire discrète (RV), donnée soit sous la forme d'une équation (formule), soit sous la forme d'un tableau répertoriant tous les résultats possibles d'une expérience et la probabilité associée à chaque résultat.
- Variable aléatoire (RV)
- une caractéristique présentant un intérêt pour une population étudiée ; les notations courantes pour les variables sont les lettres latines majuscules\(X, Y, Z\),... ; la notation courante pour une valeur spécifique du domaine (ensemble de toutes les valeurs possibles d'une variable) est constituée de lettres latines minuscules\(x, y\), et\(z\). Par exemple, si\(X\) c'est le nombre d'enfants dans une famille, alors\(x\) représente un entier spécifique 0, 1, 2, 3,... Les variables des statistiques diffèrent des variables de l'algèbre intermédiaire des deux manières suivantes.
- Le domaine de la variable aléatoire (RV) n'est pas nécessairement un ensemble numérique ; le domaine peut être exprimé en mots ; par exemple, s'il s'agit de la couleur des\(X =\) cheveux, le domaine est {noir, blond, gris, vert, orange}.
- Nous ne pouvons déterminer la valeur spécifique x que\(X\) prend la variable aléatoire uniquement après avoir effectué l'expérience.
- Espace d'échantillonnage
- l'ensemble de tous les résultats possibles d'une expérience
- Échantillonnage avec remplacement
- Si chaque membre d'une population est remplacé après sa sélection, ce membre a la possibilité d'être choisi plus d'une fois.
- Échantillonnage sans remplacement
- Lorsque l'échantillonnage est effectué sans remplacement, chaque membre d'une population ne peut être sélectionné qu'une seule fois.
- L'événement complémentaire
- Le complément de l'événement A comprend tous les résultats qui ne figurent PAS dans A.
- La probabilité conditionnelle de\(A | B\)
- P (A||B) est la probabilité que l'événement A se produise étant donné que l'événement B s'est déjà produit.
- L'intersection : l'\(\cap \)événement
- Un résultat est dans l'événement | (A \ cap B \) s'il se trouve dans les deux\(A \cap B\) à la fois.
- L'Union : l'\(\cup\)événement
- Un résultat est dans l'événement\(A \cup B\) s'il se trouve en A ou en B ou s'il se trouve à la fois dans A et B.
- Schéma d'arbre
- la représentation visuelle utile d'un espace d'échantillonnage et d'événements sous la forme d'un « arbre » avec des branches marquées par les résultats possibles et les probabilités associées (fréquences, fréquences relatives)
- Schéma de Venn
- la représentation visuelle d'un espace échantillon et d'événements sous forme de cercles ou d'ovales montrant leurs intersections
- Enquête
- une étude dans le cadre de laquelle les données sont collectées telles que rapportées par des individus.
- Échantillonnage systématique
- une méthode pour sélectionner un échantillon aléatoire ; dresser la liste des membres de la population. Utilisez un échantillonnage aléatoire simple pour sélectionner un point de départ dans la population. Soit k = (nombre d'individus dans la population)/(nombre d'individus nécessaires dans l'échantillon). Choisissez chaque kième individu de la liste en commençant par celui qui a été sélectionné au hasard. Si nécessaire, retournez au début de la liste de la population pour compléter votre échantillon.
- Traitements
- différentes valeurs ou composantes de la variable explicative appliquées dans une expérience
- Variable
- une caractéristique présentant un intérêt pour chaque personne ou objet d'une population
- Fréquence
- le nombre de fois qu'une valeur des données apparaît
- Tableau de fréquences
- une représentation des données dans laquelle les données groupées sont affichées avec les fréquences correspondantes
- Histogramme
- une représentation graphique sous forme x - y de la distribution des données dans un ensemble de données ; x représente les données et y représente la fréquence, ou fréquence relative. Le graphique est constitué de rectangles contigus.
- Gamme interquartile
- ou IQR, est la plage des 50 % intermédiaires des valeurs de données ; l'IQR est obtenu en soustrayant le premier quartile du troisième quartile.
- Moyenne (arithmétique)
- un nombre qui mesure la tendance centrale des données ; le nom commun de la moyenne est « moyenne ». Le terme « moyenne » est une forme abrégée de « moyenne arithmétique ». Par définition, la moyenne pour un échantillon (désignée par\(\overline{x}\)) est\(\overline{x}=\frac{\text { Sum of all values in the sample }}{\text { Number of values in the sample }}\), et la moyenne pour une population (désignée par μ) est\(\boldsymbol{\mu}=\frac{\text { Sum of all values in the population }}{\text { Number of values in the population }}\)
- Moyenne (géométrique)
- une mesure de la tendance centrale qui fournit une mesure de la croissance géométrique moyenne sur plusieurs périodes.
- Médiane
- un nombre qui sépare les données ordonnées en moitiés ; la moitié des valeurs sont égales ou inférieures à la médiane et la moitié des valeurs sont égales ou supérieures à la médiane. La médiane peut ou non faire partie des données.
- Point médian
- la moyenne d'un intervalle dans un tableau de fréquences
- Mode
- la valeur qui apparaît le plus fréquemment dans un ensemble de données
- Valeur aberrante
- une observation qui ne correspond pas au reste des données
- Centile
- un nombre qui divise les données ordonnées en centièmes ; les percentiles peuvent ou non faire partie des données. La médiane des données est le deuxième quartile et le 50 e percentile. Les premier et troisième quartiles sont les 25e et 75e percentiles, respectivement.
- Quartiles
- les chiffres qui séparent les données en trimestres ; les quartiles peuvent ou non faire partie des données. Le deuxième quartile est la médiane des données.
- Fréquence relative
- le rapport entre le nombre de fois qu'une valeur des données apparaît dans l'ensemble de tous les résultats par rapport au nombre de tous les résultats
- Écart type
- nombre égal à la racine carrée de la variance et mesurant la distance entre les valeurs des données et leur moyenne ; notation : s pour l'écart type de l'échantillon et σ pour l'écart type de la population.
- Écart
- moyenne des écarts au carré par rapport à la moyenne, ou carré de l'écart type ; pour un ensemble de données, un écart peut être représenté par x,\(\overline{x}\) où x est la valeur des données et\(\overline{x}\) la moyenne de l'échantillon. La variance de l'échantillon est égale à la somme des carrés des écarts divisée par la différence entre la taille de l'échantillon et un.