Skip to main content
Global

2.7 : Mesures de la diffusion des données

  • Page ID
    191515
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Une caractéristique importante de tout ensemble de données est la variation des données. Dans certains ensembles de données, les valeurs de données sont concentrées très près de la moyenne ; dans d'autres, les valeurs de données sont plus largement réparties par rapport à la moyenne. La mesure de variation, ou d'écart, la plus courante est l'écart type. L'écart type est un nombre qui mesure la distance entre les valeurs des données et leur moyenne.

    L'écart type

    • fournit une mesure numérique de l'ampleur globale de la variation dans un ensemble de données, et
    • peut être utilisé pour déterminer si une valeur de donnée donnée est proche ou éloignée de la moyenne.

    L'écart type fournit une mesure de la variation globale d'un ensemble de données

    L'écart type est toujours positif ou nul. L'écart type est faible lorsque les données sont toutes concentrées près de la moyenne et présentent peu de variation ou de dispersion. L'écart type est plus important lorsque les valeurs des données sont plus éloignées de la moyenne, ce qui entraîne une plus grande variation.

    Supposons que nous étudions le temps pendant lequel les clients font la queue à la caisse des supermarchés\(A\) et des supermarchés\(B\). Le temps d'attente moyen dans les deux supermarchés est de cinq minutes. Au supermarché\(A\), l'écart type pour le temps d'attente est de deux minutes ; au supermarché\(B\). L'écart type pour le temps d'attente est de quatre minutes.

    Comme les supermarchés\(B\) ont un écart-type plus élevé, nous savons que les temps d'attente varient davantage\(B\). Dans l'ensemble, les temps d'attente au supermarché\(B\) sont plus étalés que la moyenne ; les temps d'attente au supermarché\(A\) sont plus concentrés près de la moyenne.

    Calcul de l'écart type

    Si\(x\) c'est un nombre, alors la différence «\(x\) moins la moyenne » s'appelle son écart. Dans un ensemble de données, il y a autant d'écarts qu'il y a d'éléments dans l'ensemble de données. Les écarts sont utilisés pour calculer l'écart type. Si les nombres appartiennent à une population, en symboles, un écart est\(x – \mu\). Pour les données d'échantillon, en symboles, un écart est\(x – \overline{x}\).

    La procédure de calcul de l'écart type varie selon que les chiffres concernent l'ensemble de la population ou qu'il s'agit de données provenant d'un échantillon. Les calculs sont similaires, mais pas identiques. Par conséquent, le symbole utilisé pour représenter l'écart type varie selon qu'il est calculé à partir d'une population ou d'un échantillon. La lettre minuscule s représente l'écart type de l'échantillon et la lettre grecque\(\sigma\) (sigma, minuscule) représente l'écart type de la population. Si l'échantillon présente les mêmes caractéristiques que la population, alors s doit être une bonne estimation de\(\sigma\).

    Pour calculer l'écart type, nous devons d'abord calculer la variance. La variance est la moyenne des carrés des écarts (les\(x – \overline{x}\) valeurs pour un échantillon ou les\(x – \mu\) valeurs pour une population). Le symbole\(\sigma^2\) représente la variance de la population ; l'écart type de la population\(\sigma\) est la racine carrée de la variance de la population. Le symbole\(s^2\) représente la variance de l'échantillon ; l'écart type de l'échantillon s est la racine carrée de la variance de l'échantillon. Vous pouvez considérer l'écart type comme une moyenne spéciale des écarts. Formellement, la variance est le deuxième moment de la distribution ou le premier moment autour de la moyenne. N'oubliez pas que la moyenne est le premier moment de la distribution.

    Si les chiffres proviennent d'un recensement de l'ensemble de la population et non d'un échantillon, lorsque nous calculons la moyenne des écarts carrés pour déterminer la variance, nous divisons par\(N\) le nombre d'éléments de la population. Si les données proviennent d'un échantillon plutôt que d'une population, lorsque nous calculons la moyenne des écarts au carré, nous divisons par le nombre d'éléments de l'échantillon\(\bf{n – 1}\), soit un de moins.

    Formules pour l'écart type de l'échantillon

    • \(s=\sqrt{\frac{\Sigma(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\Sigma f(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\left(\sum_{i=1}^{n} x^{2}\right)^{-n x^{2}}}{n-1}}\)
    • Pour l'écart type de l'échantillon, le dénominateur est\(\bf{n – 1}\), c'est-à-dire la taille de l'échantillon moins 1.

    Formules pour l'écart type de la population

    • \(\boldsymbol{\sigma}=\sqrt{\frac{\Sigma(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\Sigma f(x \mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum_{i=1}^{N} x_{i}^{2}}{N}-\mu^{2}}\)
    • Pour l'écart type de la population, le dénominateur est\(N\) le nombre d'éléments de la population.

    Dans ces formules,\(f\) représente la fréquence à laquelle une valeur apparaît. Par exemple, si une valeur apparaît une seule fois,\(f\) est une. Si une valeur apparaît trois fois dans l'ensemble de données ou la population,\(f\) vaut trois. Deux observations importantes concernant la variance et l'écart type : les écarts sont mesurés à partir de la moyenne et les écarts sont au carré. En principe, les écarts peuvent être mesurés à partir de n'importe quel point, mais notre intérêt est de mesurer à partir du poids central des données, c'est-à-dire la valeur « normale » ou la plus courante de l'observation. Plus tard, nous essaierons de mesurer le « caractère inhabituel » d'une observation ou d'une moyenne d'échantillon et nous aurons donc besoin d'une mesure à partir de la moyenne. La deuxième observation est que les écarts sont au carré. Cela a deux effets : d'abord, cela rend les écarts tous positifs et, deuxièmement, cela change les unités de mesure par rapport à celles de la moyenne et des observations initiales. Si les données sont des poids, la moyenne est mesurée en livres, mais la variance est mesurée en livres carrés. L'une des raisons d'utiliser l'écart type est de revenir aux unités de mesure d'origine en prenant la racine carrée de la variance. De plus, lorsque les écarts sont mis au carré, leur valeur explose. Par exemple, un écart de 10 par rapport à la moyenne au carré est de 100, mais un écart de 100 par rapport à la moyenne est de 10 000. Cela donne une grande importance aux valeurs aberrantes lors du calcul de la variance.

    Types de variabilité des échantillons

    Lors de l'étude d'une population, un échantillon est souvent utilisé, soit pour des raisons de commodité, soit parce qu'il n'est pas possible d'accéder à l'ensemble de la population. La variabilité est le terme utilisé pour décrire les différences qui peuvent survenir entre ces résultats. Les types courants de variabilité sont les suivants :

    • Variabilité d'observation ou de mesure
    • Variabilité naturelle
    • Variabilité induite
    • Variabilité des échantillons

    Voici quelques exemples pour décrire chaque type de variabilité.

    Exemple 1 : variabilité des mesures

    La variabilité des mesures se produit lorsqu'il existe des différences entre les instruments utilisés pour mesurer ou entre les personnes qui les utilisent. Si nous collectons des données sur le temps qu'il faut pour qu'une balle tombe d'une hauteur en demandant aux élèves de mesurer le temps de chute à l'aide d'un chronomètre, nous pouvons constater une variabilité de mesure si les deux chronomètres utilisés ont été fabriqués par des fabricants différents : par exemple, un chronomètre mesure à la seconde près, tandis que l'autre mesure au dixième de seconde près. Nous pouvons également être confrontés à une variabilité des mesures parce que deux personnes différentes collectent les données. Leurs temps de réaction en appuyant sur le bouton du chronomètre peuvent varier ; ainsi, les résultats varieront en conséquence. Les différences de résultats peuvent être affectées par la variabilité des mesures.

    Exemple 2 : Variabilité naturelle

    La variabilité naturelle résulte des différences qui se produisent naturellement parce que les membres d'une population sont différents les uns des autres. Par exemple, si nous avons deux plants de maïs identiques et que nous les exposons à la même quantité d'eau et de lumière solaire, ils peuvent tout de même pousser à des rythmes différents simplement parce qu'il s'agit de deux plants de maïs différents. La différence de résultats peut s'expliquer par la variabilité naturelle.

    Exemple 3 : Variabilité induite

    La variabilité induite est la contrepartie de la variabilité naturelle ; cela se produit parce que nous avons induit artificiellement un élément de variation (qui, par définition, n'était pas présent naturellement) : par exemple, nous assignons des personnes à deux groupes différents pour étudier la mémoire, et nous induisons une variable dans un groupe en limitant la quantité de sommeil qu'ils obtiennent. La différence de résultats peut être affectée par la variabilité induite.

    Exemple 4 : Variabilité de l'échantillon

    La variabilité de l'échantillon se produit lorsque plusieurs échantillons aléatoires sont prélevés dans la même population. Par exemple, si je mène quatre enquêtes auprès de 50 personnes sélectionnées au hasard dans une population donnée, les différences de résultats peuvent être affectées par la variabilité de l'échantillon.

    Exemple\(\PageIndex{29}\)

    Dans une classe de cinquième année, l'enseignante s'est intéressée à l'âge moyen et à l'écart type de l'échantillon de l'âge de ses élèves. Les données suivantes sont les âges d'un ÉCHANTILLON d'élèves de\(n = 20\) cinquième année. Les âges sont arrondis au semestre le plus proche :

    9 ; 9,5 ; 9,5 ; 10 ; 10 ; 10 ; 10 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ;

    \[\overline{x}=\frac{9+9.5(2)+10(4)+10.5(4)+11(6)+11.5(3)}{20}=10.525\nonumber\]

    L'âge moyen est de 10,53 ans, arrondi à deux chiffres.

    La variance peut être calculée à l'aide d'un tableau. L'écart type est ensuite calculé en prenant la racine carrée de la variance. Nous expliquerons les parties du tableau après le calcul\(s\).

    \ (\ Index de page {28} \) « >
    Données Frequet. Déviations Déviations 2 (Fréquent.) (Déviations 2)
    \(x\) \(f\) \((x - \overline{x})\) \((x – \overline{x})^2\) \((f)(x – \overline{x})^2\)
    9 1 \(9 – 10.525 = –1.525\) \((–1.525)^2 = 2.325625\) \(1 \times 2.325625 = 2.325625\)
    9.5 2 \(9.5 – 10.525 = –1.025\) \((–1.025)2 = 1.050625\) \(2 \times 1.050625 = 2.101250\)
    10 4 \(10 – 10.525 = –0.525\) \((–0.525)2 = 0.275625\) \(4 \times 0.275625 = 1.1025\)
    10,5 4 \(10.5 – 10.525 = –0.025\) \((–0.025)2 = 0.000625\) \(4 \times 0.000625 = 0.0025\)
    11 6 \(11 – 10.525 = 0.475\) \((0.475)2 = 0.225625\) \(6 \times 0.225625 = 1.35375\)
    11,5 3 \(11.5 – 10.525 = 0.975\) \((0.975)2 = 0.950625\) \(3 \times 0.950625 = 2.851875\)
    Le total est de 9,7375
    Tableau\(\PageIndex{28}\)

    La variance de l'échantillon\(s^2\),, est égale à la somme de la dernière colonne (9,7375) divisée par le nombre total de valeurs de données moins une\((20 – 1)\) :

    \(s^{2}=\frac{9.7375}{20-1}=0.5125\)

    L'écart type de l'échantillon s est égal à la racine carrée de la variance de l'échantillon :

    \(s=\sqrt{0.5125}=0.715891\), arrondi à la deuxième décimale,\(s = 0.72\).

    Explication du calcul de l'écart type indiqué dans le tableau

    Les écarts indiquent la dispersion des données par rapport à la moyenne. La valeur de données 11,5 est plus éloignée de la moyenne que ne l'est la valeur de données 11 qui est indiquée par les écarts 0,97 et 0,47. Un écart positif se produit lorsque la valeur des données est supérieure à la moyenne, tandis qu'un écart négatif se produit lorsque la valeur des données est inférieure à la moyenne. L'écart est de —1,525 pour la valeur de données 9. Si vous additionnez les écarts, la somme est toujours nulle. (Par exemple\(\PageIndex{29}\), il y a des\(n = 20\) écarts.) Vous ne pouvez donc pas simplement ajouter les écarts pour obtenir la répartition des données. En mettant les écarts au carré, vous en faites des nombres positifs, et la somme sera également positive. La variance est donc l'écart quadratique moyen. En mettant au carré les écarts, nous infligeons une pénalité extrême aux observations qui sont éloignées de la moyenne ; ces observations ont plus de poids dans les calculs de variance. Nous verrons plus loin que la variance (écart type) joue un rôle critique dans la détermination de nos conclusions en statistiques inférentielles. Nous pouvons commencer dès maintenant en utilisant l'écart type comme mesure du « caractère inhabituel ». « Comment avez-vous fait le test ? » « Formidable ! Deux écarts types au-dessus de la moyenne. » Nous verrons qu'il s'agit d'une note d'examen exceptionnellement bonne.

    La variance est une mesure au carré et ne possède pas les mêmes unités que les données. Prendre la racine carrée résout le problème. L'écart type mesure l'écart dans les mêmes unités que les données.

    Notez qu'au lieu de le diviser par\(n = 20\), le calcul est divisé par,\(n – 1 = 20 – 1 = 19\) car les données constituent un échantillon. Pour la variance de l'échantillon, nous divisons par la taille de l'échantillon moins un\((n – 1)\). Pourquoi ne pas diviser par\(n\) ? La réponse est liée à la variance de la population. La variance de l'échantillon est une estimation de la variance de la population. Cette estimation nous oblige à utiliser une estimation de la moyenne de la population plutôt que la moyenne réelle de la population. Sur la base des mathématiques théoriques qui sous-tendent ces calculs, la division par\((n – 1)\) donne une meilleure estimation de la variance de la population.

    L'écart type,\(s\) ou\(\sigma\), est égal à zéro ou supérieur à zéro. La description des données par rapport à la dispersion est appelée « variabilité ». La variabilité des données dépend de la méthode par laquelle les résultats sont obtenus ; par exemple, par mesure ou par échantillonnage aléatoire. Lorsque l'écart type est nul, il n'y a pas d'écart, c'est-à-dire que toutes les valeurs de données sont égales les unes aux autres. L'écart type est faible lorsque les données sont toutes concentrées près de la moyenne, et il est plus important lorsque les valeurs des données présentent une plus grande variation par rapport à la moyenne. Lorsque l'écart type est bien supérieur à zéro, les valeurs des données sont très dispersées autour de la moyenne ; les valeurs aberrantes peuvent être égales\(s\) ou\(\sigma\) très importantes.

    Exemple\(\PageIndex{30}\)

    Utilisez les données suivantes (résultats du premier examen) du cours de pré-calcul de printemps de Susan Dean :

    \(33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100\)

    1. Créez un graphique contenant les données, les fréquences, les fréquences relatives et les fréquences relatives cumulées à trois décimales près.
    2. Calculez ce qui suit à une décimale près :
      1. La moyenne de l'échantillon
      2. L'écart type de l'échantillon
      3. La médiane
      4. Le premier quartile
      5. Le troisième quartile
      6. \(IQR\)
    Réponse

    Solution 2.30

    a. Voir le tableau\(\PageIndex{29}\)

    b.

    1. La moyenne de l'échantillon = 73,5
    2. L'écart type de l'échantillon = 17,9
    3. La médiane = 73
    4. Le premier quartile = 61
    5. Le troisième quartile = 90
    6. \(IQR = 90 – 61 = 29\)
    \ (\ PageIndex {29} \) « >
    Données Fréquence Fréquence relative Fréquence relative cumulée
    33 1 0,032 0,032
    42 1 0,032 0,064
    49 2 0,065 0,129
    53 1 0,032 0,161
    55 2 0,065 0,226
    61 1 0,032 0,258
    63 1 0,032 0,29
    67 1 0,032 0,322
    68 2 0,065 0,387
    69 2 0,065 0,452
    72 1 0,032 0,484
    73 1 0,032 0,516
    74 1 0,032 0,548
    78 1 0,032 0,580
    80 1 0,032 0,612
    83 1 0,032 0,644
    88 3 0,097 0,741
    90 1 0,032 0,773
    92 1 0,032 0,805
    94 4 0,129 0,934
    96 1 0,032 0,966
    100 1 0,032 0,998 (Pourquoi cette valeur n'est-elle pas 1 ? (Réponse : arrondi)
    Tableau\(\PageIndex{29}\)

    Écart type des tableaux de fréquences groupés

    N'oubliez pas que pour les données groupées, nous ne connaissons pas les valeurs des données individuelles et que nous ne pouvons donc pas décrire la valeur typique des données avec précision. En d'autres termes, nous ne pouvons pas trouver la moyenne, la médiane ou le mode exacts. Nous pouvons toutefois déterminer la meilleure estimation des mesures du centre en trouvant la moyenne des données groupées à l'aide de la formule :\(\text{ Mean of Frequency Table }=\frac{\sum \(f\) m} {\ sum f} \)
    où fréquences des\(f=\) intervalles et\(m\) = points médians de l'intervalle.

    Tout comme nous n'avons pas pu trouver la moyenne exacte, nous ne pouvons pas non plus trouver l'écart type exact. N'oubliez pas que l'écart type décrit numériquement l'écart attendu d'une valeur de données par rapport à la moyenne. En termes simples, l'écart type nous permet de comparer la façon dont les données individuelles « inhabituelles » sont comparées à la moyenne.

    Exemple\(\PageIndex{31}\)

    Trouvez l'écart type des données du tableau\(\PageIndex{30}\).

    \ (\ Index de page {30} \) « >
    Classe Fréquence,\(f\) Point médian,\(m\) \(f\cdot m\) \(f(m−\bar{x})^2\)
    0—2 \ (f \) » class="lt-stats-5332">1 \ (m \) » class="lt-stats-5332">1 \ (f \ cdot m \) » class="lt-stats-5332">\(1\cdot 1=1\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(1(1−6.88)^2=34.57\)
    3 à 5 \ (f \) » class="lt-stats-5332">6 \ (m \) » class="lt-stats-5332">4 \ (f \ cdot m \) » class="lt-stats-5332">\(6\cdot 4=24\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(6(4−6.88)^2=49.77\)
    6-8 \ (f \) » class="lt-stats-5332">10 \ (m \) » class="lt-stats-5332">7 \ (f \ cdot m \) » class="lt-stats-5332">\(10\cdot 7=70\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(10(7−6.88)^2=0.14\)
    9-11 \ (f \) » class="lt-stats-5332">7 \ (m \) » class="lt-stats-5332">10 \ (f \ cdot m \) » class="lt-stats-5332">\(7\cdot 10=70\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(7(10−6.88)^2=68.14\)
    12-14 \ (f \) » class="lt-stats-5332">0 \ (m \) » class="stats-5332">13 \ (f \ cdot m \) » class="lt-stats-5332">\(0\cdot 13=0\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(0(13−6.88)^2=0\)
    \ (f \) » class="stats-5332">n = 24 \ (m \) » class="lt-stats-5332"> \ (f \ cdot m \) » class="lt-stats-5332">\(\bar{x}=16524=6.88\) \ (f (m− \ bar {x}) ^2 \) » class="lt-stats-5332">\(s^2=152.6224−1=6.64\)
    Tableau\(\PageIndex{30}\)

    Pour cet ensemble de données, nous avons la moyenne\(\bar{x} = 6.88\) et l'écart type\(s_x = 2.58\). Cela signifie qu'une valeur de données sélectionnée au hasard devrait se situer à 2,58 unités de la moyenne. Si nous regardons la première classe, nous voyons que le point médian de la classe est égal à un. Cela représente presque trois écarts types par rapport à la moyenne. Bien que la formule de calcul de l'écart type ne soit pas compliquée,

    \[s_x=\sqrt{\frac{Σ(m−\bar{x})^2f}{n−1}}\nonumber\]

    \(s_x =\) l'écart type de\(\bar{x} =\) l'échantillon, la moyenne de l'échantillon, les calculs sont fastidieux. Il est généralement préférable d'utiliser la technologie pour effectuer les calculs.

    Comparaison de valeurs issues de différents ensembles de données

    L'écart type est utile pour comparer des valeurs de données provenant de différents ensembles de données. Si les ensembles de données présentent des moyennes et des écarts types différents, la comparaison directe des valeurs des données peut être trompeuse.

    • Pour chaque valeur de données x, calculez le nombre d'écarts types par rapport à sa moyenne.
    • Utilisez la formule : x = moyenne + (#of StDevs) (écart type) ; résolvez pour #of StDev.
    • \(\# \text { of } S T D E V s=\frac{x-\text { mean }}{\text { standard deviation }}\)
    • Comparez les résultats de ce calcul.

    #of StDevs est souvent appelé « score z » ; nous pouvons utiliser le symbole\(z\). Dans les symboles, les formules deviennent :

    \ (\ Index de page {31} \) « >
    échantillon \(x=\overline{x}+z s\) \(z=\frac{x-\overline{x}}{s}\)
    Population \(x=\mu+z \sigma\) \(z=\frac{x-\mu}{\sigma}\)
    Tableau\(\PageIndex{31}\)

    Exemple\(\PageIndex{32}\)

    Deux élèves, John et Ali, de différents lycées, voulaient savoir qui avait la moyenne la plus élevée par rapport à son école. Quel élève a eu la moyenne la plus élevée par rapport à son école ?

    \ (\ Index de page {32} \) « >
    étudiant GPA GPA moyen scolaire Écart type scolaire
    John 2,85 3,0 0,7
    Ali 77 80 10
    Tableau\(\PageIndex{32}\)
    Réponse

    Solution 2.32

    Pour chaque élève, déterminez combien d'écarts types (#of StDevs) son GPA est éloigné de la moyenne, pour son école. Portez une attention particulière aux signes lorsque vous comparez et interprétez la réponse.

    \(z=\# \text { of STDE } \mathrm{Vs}=\frac{\text { value - mean }}{\text { standard deviation }}=\frac{x-\mu}{\sigma}\)

    Pour John,\(z=\# \text { ofSTDEV } s=\frac{2.85 \cdot 3.0}{0.7}=-0.21\)

    Pour Ali,\(z=\# \text { ofSTDEV } s=\frac{77-80}{10}=-0.3\)

    John a le meilleur GPA par rapport à son école, car son GPA est inférieur de 0,21 écart type à la moyenne de son école, tandis que celui d'Ali est inférieur de 0,3 écart type à la moyenne de son école.

    Le score z de John de —0,21 est supérieur au score z d'Ali de —0,3. Pour la GPA, des valeurs plus élevées sont meilleures. Nous concluons donc que John a la meilleure GPA par rapport à son école.

    Exercice\(\PageIndex{32}\)

    Ajoutez le texte des exercices ici.

    Réponse

    Deux nageuses, Angie et Beth, d'équipes différentes, voulaient savoir qui avait réalisé le meilleur temps au 50 mètres nage libre par rapport à son équipe. Quelle nageuse a réalisé le meilleur temps par rapport à son équipe ?

    \ (\ Index de page {33} \) « >
    Nageur Durée (secondes) Temps moyen de l'équipe Écart type d'équipe
    Angie 26,2 27,2 0,8
    Beth 27,3 30,1 1.4
    Tableau\(\PageIndex{33}\)

    Les listes suivantes présentent quelques faits qui permettent de mieux comprendre ce que l'écart type nous apprend sur la distribution des données.

    Pour TOUT ensemble de données, quelle que soit la distribution des données :

    • Au moins 75 % des données se situent à moins de deux écarts types de la moyenne.
    • Au moins 89 % des données se situent à moins de trois écarts types de la moyenne.
    • Au moins 95 % des données se situent à moins de 4,5 écarts types de la moyenne.
    • C'est ce que l'on appelle la règle de Chebyshev.

    Pour les données ayant une distribution normale, que nous examinerons plus en détail ultérieurement :

    • Environ 68 % des données se situent à moins d'un écart type de la moyenne.
    • Environ 95 % des données se situent à moins de deux écarts types de la moyenne.
    • Plus de 99 % des données se situent à moins de trois écarts types de la moyenne.
    • C'est ce que l'on appelle la règle empirique.
    • Il est important de noter que cette règle ne s'applique que lorsque la forme de la distribution des données est symétrique et en forme de cloche. Nous en apprendrons davantage à ce sujet lors de l'étude de la distribution de probabilité « normale » ou « gaussienne » dans les chapitres suivants.

    Coefficient de variation

    Outre les simples comparaisons de moyennes ou d'écarts types, un autre moyen utile de comparer des distributions consiste à ajuster les différences d'échelle des données mesurées. Tout simplement, une grande variation dans les données avec une moyenne élevée est différente de la même variation dans les données avec une faible moyenne. Pour s'adapter à l'échelle des données sous-jacentes, le coefficient de variation (CV) a été développé. Mathématiquement :

    \[C V=\frac{s}{\overline{x}} * 100 \text { conditioned upon } \overline{x} \neq 0, \text { where } s \text { is the standard deviation of the data and } \overline{x}\nonumber\]

    Nous pouvons voir que cela mesure la variabilité des données sous-jacentes en pourcentage de la valeur moyenne, c'est-à-dire le poids central de l'ensemble de données. Cette mesure est utile pour comparer les risques lorsqu'un ajustement est justifié en raison des différences d'échelle entre deux ensembles de données. En effet, l'échelle est remplacée par une échelle commune, des différences en pourcentage, et permet une comparaison directe des deux magnitudes de variation ou plus de différents ensembles de données.