Skip to main content
Global

2.1 : Afficher les données

  • Page ID
    191546
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Graphiques à tiges et à feuilles (diagrammes à tiges), graphes linéaires et graphiques à barres

    Un graphique simple, le graphique à tiges et feuilles ou le diagramme à tiges, provient du domaine de l'analyse exploratoire de données. C'est un bon choix lorsque les ensembles de données sont petits. Pour créer le diagramme, divisez chaque observation de données en une tige et une feuille. La feuille est constituée d'un dernier chiffre significatif. Par exemple, 23 a une tige deux et une feuille trois. Le numéro 432 a une tige 43 et une feuille deux. De même, le numéro 5 432 a une tige 543 et une feuille deux. La décimale 9,3 a une tige neuf et une feuille trois. Écrivez les tiges en ligne verticale de la plus petite à la plus grande. Tracez une ligne verticale à droite des tiges. Écrivez ensuite les feuilles par ordre croissant à côté de leur tige correspondante.

    Exemple\(\PageIndex{2}\).1

    Pour le cours de précalcul de printemps de Susan Dean, les notes au premier examen étaient les suivantes (du plus petit au plus élevé) :

    33 ; 42 ; 49 ; 49 ; 53 ; 55 ; 55 ; 61 ; 63 ; 67 ; 68 ; 68 ; 69 ; 69 ; 69 ; 69 ; 72 ; 73 ; 73 ; 74 ; 78 ; 80 ; 83 ; 88 ; 88 ; 90 ; 92 ; 94 ; 94 ; 94 ; 94 ; 94 ; 96 ; 100

    \ (\ PageIndex {1} \) Graphe en forme de tige et de feuille « >
    Tige Feuille
    3 3
    4 2 9 9
    5 3 5 5
    6 1 3 7 8 8 9 9
    7 2 3 4 8
    8 0 3 8 8 8
    9 0 2 4 4 4 4 6
    10 0
    Tableau\(\PageIndex{2}\) 1. Graphique à tiges et feuilles

    Le stemplot montre que la plupart des scores ont chuté dans les années 60, 70, 80 et 90. Huit des 31 scores, soit environ 26 % (831) (831) (831), se situaient dans les années 90 ou 100, soit un nombre assez élevé de A.

    Exercice\(\PageIndex{2}\).1

    Pour l'équipe de basket-ball de Park City, les scores des 30 derniers matchs étaient les suivants (du plus petit au plus grand) :

    32 ; 32 ; 33 ; 34 ; 38 ; 40 ; 42 ; 42 ; 42 ; 43 ; 44 ; 46 ; 47 ; 47 ; 47 ; 48 ; 48 ; 48 ; 49 ; 50 ; 50 ; 51 ; 52 ; 52 ; 52 ; 52 ; 53 ; 54 ; 56 ; 57 ; 57 ; 60 ; 61

    Construisez un diagramme en tronc pour les données.

    Le stemplot est un moyen rapide de représenter graphiquement des données et de donner une image exacte des données. Vous souhaitez rechercher un schéma général et toutes les valeurs aberrantes. Une valeur aberrante est une observation de données qui ne correspond pas au reste des données. Elle est parfois appelée valeur extrême. Lorsque vous tracez une valeur aberrante, elle semble ne pas correspondre au modèle du graphique. Certaines valeurs aberrantes sont dues à des erreurs (par exemple, écrire 50 au lieu de 500) tandis que d'autres peuvent indiquer que quelque chose d'inhabituel se produit. Certaines informations générales sont nécessaires pour expliquer les valeurs aberrantes. Nous les aborderons plus en détail ultérieurement.

    Exemple\(\PageIndex{2}\).2

    Les données sont les distances (en kilomètres) entre un domicile et les supermarchés locaux. Créez un diagramme à base à l'aide des données :

    1,1 ; 1,5 ; 2,3 ; 2,5 ; 2,7 ; 3,2 ; 3,3 ; 3,3 ; 3,5 ; 3,8 ; 4,0 ; 4,2 ; 4,5 ; 4,5 ; 4,5 ; 4,7 ; 4,8 ; 5,5 ; 5,6 ; 6,5 ; 6,7 ; 12,3

    Les données semblent-elles présenter une certaine concentration de valeurs ?

    REMARQUE

    Les feuilles se trouvent à droite de la décimale.

    Réponse

    La valeur 12,3 peut être une valeur aberrante. Les valeurs semblent se concentrer à trois et quatre kilomètres.

    \ (\ PageIndex {2} \) « >
    Tige Feuille
    1 1 5
    2 3 5 7
    3 2 3 3 5 8
    4 0 2 5 5 7 8
    5 5 6
    6 5 7
    7
    8
    9
    10
    11
    12 3
    Tableau\(\PageIndex{2}\) 2.

    Exercice\(\PageIndex{2}\).2

    Les données suivantes montrent les distances (en miles) entre le domicile des étudiants en statistiques hors campus et le collège. Créez un diagramme en troncs à l'aide des données et identifiez les valeurs aberrantes :

    0,5 ; 0,7 ; 1,1 ; 1,2 ; 1,2 ; 1,3 ; 1,3 ; 1,5 ; 1,5 ; 1,5 ; 1,7 ; 1,7 ; 1,8 ; 1,8 ; 1,9 ; 2,0 ; 2,2 ; 2,2 ; 2,5 ; 2,6 ; 2,8 ; 2,8 ; 2,8 ; 2,8 ; 3,5 ; 3,8 ; 4,4 ; 4,8 ; 4,9 ; 5,2 ; 5,5 ; 5,7 ; 5,8 ; 8,0

    Exemple\(\PageIndex{2}\).3

    Un diagramme à tige et à feuilles côte à côte permet de comparer les deux ensembles de données sur deux colonnes. Dans un diagramme de tiges et de feuilles côte à côte, deux séries de feuilles partagent la même tige. Les feuilles se trouvent à gauche et à droite des tiges. Les tableaux\(\PageIndex{2}\) .4 et\(\PageIndex{2}\) .5 indiquent l'âge des présidents au moment de leur investiture et de leur décès. Construisez un diagramme à tige et à feuilles côte à côte à l'aide de ces données.

    Réponse
    \ (\ PageIndex {3} \) « >
    Âges à l'inauguration Âges à la mort
    9 9 8 7 7 7 6 3 2 4 6 9
    8 7 7 7 7 6 6 6 5 5 5 5 5 4 4 4 4 4 4 2 2 2 1 1 1 1 1 1 0 5 3 6 6 7 7 8
    9 8 5 4 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8
    7 0 0 1 1 1 4 7 8 8 9
    8 0 1 3 5 8
    9 0 0 3 3
    Tableau\(\PageIndex{2}\) 3.
    \ (\ PageIndex {4} \) Âges présidentiels lors de l'inauguration « >
    Président Âge Président Âge Président Âge
    Washington 57 Lincoln 52 Hoover 54
    J. Adams 61 A. Johnson 56 Frederick Roosevelt 51
    Jefferson 57 Subvention 46 Truman 60
    Madison 57 Hayes 54 Eisenhower 62
    Monroe 58 Garfield 49 Kennedy 43
    J.Q. Adams 57 Arthur 51 L. Johnson 55
    Jackson 61 Cleveland 47 Nixon 56
    Van Buren 54 B. Harrison 55 Ford 61
    William H. Harrison 68 Cleveland 55 Carter 52
    Tyler 51 McKinley 54 Reagan 69
    Polk 49 Thomas Roosevelt 42 G.H.W. Bush 64
    Taylor 64 Taft 51 Clinton 47
    Fillmore 50 Wilson 56 G.W. Bush 54
    Pierce 48 Harding 55 Obama 47
    Buchanan 65 Coolidge 51 Trump 70
    Tableau\(\PageIndex{2}\) 4 Âges présidentiels lors de l'investiture
    \ (\ PageIndex {5} \) Âge présidentiel au décès « >
    Président Âge Président Âge Président Âge
    Washington 67 Lincoln 56 Hoover 90
    J. Adams 90 A. Johnson 66 Frederick Roosevelt 63
    Jefferson 83 Subvention 63 Truman 88
    Madison 85 Hayes 70 Eisenhower 78
    Monroe 73 Garfield 49 Kennedy 46
    J.Q. Adams 80 Arthur 56 L. Johnson 64
    Jackson 78 Cleveland 71 Nixon 81
    Van Buren 79 B. Harrison 67 Ford 93
    William H. Harrison 68 Cleveland 71 Reagan 93
    Tyler 71 McKinley 58
    Polk 53 Thomas Roosevelt 60
    Taylor 65 Taft 72
    Fillmore 74 Wilson 67
    Pierce 64 Harding 57
    Buchanan 77 Coolidge 60
    Tableau\(\PageIndex{2}\) 5 Âge présidentiel au moment du décès

    Un autre type de graphique utile pour des valeurs de données spécifiques est le graphique linéaire. Dans le graphique linéaire illustré dans l'exemple\(\PageIndex{4}\), l'axe x (axe horizontal) est constitué de valeurs de données et l'axe y (axe vertical) est constitué de points de fréquence. Les points de fréquence sont connectés à l'aide de segments de ligne.

    Exemple\(\PageIndex{2}\).4

    Dans le cadre d'une enquête, on a demandé à 40 mères combien de fois par semaine il fallait rappeler à un adolescent de faire ses corvées. Les résultats sont présentés dans le tableau\(\PageIndex{2}\) 6 et dans la figure\(\PageIndex{2}\) 2.

    \ (\ PageIndex {6} \) « >
    Nombre de fois où l'adolescent reçoit un rappel Fréquence
    0 2
    1 5
    2 8
    3 14
    4 7
    5 4

    Tableau 2.6

    Un graphique linéaire montrant le nombre de fois où un adolescent a besoin de se faire rappeler de faire des corvées sur l'axe des abscisses et la fréquence sur l'axe des ordonnées.

    Graphique 2.2

    Exercice\(\PageIndex{4}\)

    Dans le cadre d'une enquête, on a demandé à 40 personnes combien de fois par an elles faisaient réparer leur voiture à l'atelier. Les résultats sont présentés dans le tableau\(\PageIndex{7}\). Construisez un graphique linéaire.

    \ (\ PageIndex {7} \) « >
    Nombre de fois dans la boutique Fréquence
    0 7
    1 10
    2 14
    3 9

    Tableau 2.2.7

    Les diagrammes à barres sont constitués de barres séparées les unes des autres. Les barres peuvent être des rectangles ou des boîtes rectangulaires (utilisées dans les tracés tridimensionnels), et elles peuvent être verticales ou horizontales. Le diagramme à barres illustré dans l'exemple\(\PageIndex{5}\) présente les groupes d'âge représentés sur l'axe x et les proportions sur l'axe y.

    Exercice\(\PageIndex{1}\)

    Ajoutez le texte des exercices ici.

    Réponse

    Solution 2.5

    Il s'agit d'un graphique à barres qui correspond aux données fournies. L'axe des abscisses indique les groupes d'âge et l'axe des ordonnées indique les pourcentages d'utilisateurs de Facebook.
    Graphique\(\PageIndex{2}\) 3.

    Exemple\(\PageIndex{5}\)

    Fin 2011, Facebook comptait plus de 146 millions d'utilisateurs aux États-Unis. Le tableau\(\PageIndex{2}\) 8 montre trois groupes d'âge, le nombre d'utilisateurs dans chaque groupe d'âge et la proportion (%) d'utilisateurs dans chaque groupe d'âge. Construisez un graphique à barres à l'aide de ces données.

    \ (\ PageIndex {8} \) « >
    Groupes d'âge Nombre d'utilisateurs de Facebook Proportion (%) d'utilisateurs de Facebook
    13-25 65 082 280 45 %
    26—44 53 300 200 36 %
    45-64 27 885 100 19 %

    Tableau 2.2.8

    Solution

    Exercice\(\PageIndex{5}\)

    Ajoutez le texte des exercices ici.

    Réponse

    La population de Park City est composée d'enfants, d'adultes en âge de travailler et de retraités. Le tableau\(\PageIndex{9}\) montre les trois groupes d'âge, le nombre de personnes de chaque groupe d'âge dans la ville et la proportion (%) de personnes dans chaque groupe d'âge. Construisez un diagramme à barres montrant les proportions.

    \ (\ PageIndex {9} \) « >
    Groupes d'âge Nombre de personnes Proportion de la population
    Enfants 67 059 19 %
    Adultes en âge de travailler 152 198 43 %
    Retraités 131 662 38 %

    Tableau 2.2.9

    Exemple\(\PageIndex{2}\).6

    Les colonnes du tableau\(\PageIndex{2}\) .10 contiennent : la race ou l'origine ethnique des élèves des écoles publiques américaines pour la promotion de 2011, les pourcentages pour la population examinée pour le placement avancé pour cette classe et les pourcentages pour l'ensemble de la population étudiante. Créez un graphique à barres avec la race ou l'origine ethnique de l'étudiant (données qualitatives) sur l'axe x et les pourcentages de population des candidats du niveau avancé sur l'axe des y.

    \ (\ PageIndex {10} \) « >
    Race/ethnicité Population examinée par l'AP Population étudiante globale
    1 = Asiatique, Américain d'origine asiatique ou insulaire du Pacifique 10,3 % 5,7 %
    2 = Noir ou afro-américain 9,0 % 14,7 %
    3 = Hispanique ou Latino 17,0 % 17,6 %
    4 = Indien d'Amérique ou natif de l'Alaska 0,6 % 1,1 %
    5 = Blanc 57,1 % 59,2 %
    6 = Non déclaré/autre 6,0 % 1,7 %

    Tableau 2.2.10

    Réponse

    Solution 2.6

    Il s'agit d'un graphique à barres qui correspond aux données fournies. L'axe X montre la race et l'origine ethnique, et l'axe y montre les pourcentages de candidats AP.
    Graphique\(\PageIndex{2}\) 4

    Exercice\(\PageIndex{2}\).6

    Ajoutez le texte des exercices ici.

    Réponse

    Park City est divisée en six circonscriptions électorales. Le tableau indique le pourcentage de la population totale des électeurs inscrits qui vit dans chaque district ainsi que le pourcentage total de la population totale vivant dans chaque district. Construisez un diagramme à barres qui montre la population électorale inscrite par district.

    \ (\ PageIndex {11} \) « >
    District Population électorale inscrite Population globale de la ville
    1 15,5 % 19,4 %
    2 12,2 % 15,6 %
    3 9,8 % 9,0 %
    4 17,4 % 18,5 %
    5 22,8 % 20,7 %
    6 22,3 % 16,8 %
    Tableau\(\PageIndex{2}\) 1.1

    Exemple\(\PageIndex{2}\).7

    Vous trouverez ci-dessous un tableau bidirectionnel indiquant les types d'animaux domestiques appartenant à des hommes et à des femmes :

    \ (\ PageIndex {12} \) « >
    Chiens Chats Poisson Total
    Hommes 4 2 2 8
    Femmes 4 6 2 12
    Total 8 8 4 20
    Tableau\(\PageIndex{2}\) 1.12

    Sur la base de ces données, calculez les distributions conditionnelles pour la sous-population d'hommes propriétaires de chaque type d'animal de compagnie.

    Réponse
    • Hommes propriétaires de chiens = 4/8 = 0,5
    • Hommes propriétaires de chats = 2/8 = 0,25
    • Hommes propriétaires de poissons = 2/8 = 0,25

    Remarque : La somme de toutes les distributions conditionnelles doit être égale à un. Dans ce cas, 0,5 + 0,25 + 0,25 = 1 ; par conséquent, la solution « vérifie ».

    Histogrammes, polygones de fréquence et graphes de séries chronologiques

    Pour la plupart des travaux que vous effectuerez dans ce livre, vous utiliserez un histogramme pour afficher les données. L'un des avantages d'un histogramme est qu'il permet d'afficher facilement de grands ensembles de données. En règle générale, utilisez un histogramme lorsque l'ensemble de données comprend 100 valeurs ou plus.

    Un histogramme est constitué de cases contiguës (adjacentes). Il possède à la fois un axe horizontal et un axe vertical. L'axe horizontal est étiqueté en fonction de ce que les données représentent (par exemple, la distance entre votre domicile et l'école). L'axe vertical est étiqueté fréquence ou fréquence relative (ou pourcentage de fréquence ou de probabilité). Le graphique aura la même forme avec l'une ou l'autre étiquette. L'histogramme (comme le diagramme à tiges) peut vous donner la forme des données, leur centre et leur répartition.

    La fréquence relative est égale à la fréquence d'une valeur observée des données divisée par le nombre total de valeurs de données dans l'échantillon. (N'oubliez pas que la fréquence est définie comme le nombre de fois qu'une réponse se produit.) Si :

    • \(f\)= fréquence
    • \(n\)= nombre total de valeurs de données (ou la somme des fréquences individuelles), et
    • \(RF\)= fréquence relative,

    puis :

    \ [\ RF= \ frac {f} {n} \ nonnumber]

    Par exemple, si trois élèves de la classe d'anglais de 40 étudiants de M. Achab ont obtenu de 90 % à 100 %, alors\(f = 3\),\(n = 40\), et\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\). 7,5 % des étudiants ont reçu 90 à 100 %. 90 à 100 % sont des mesures quantitatives.

    Pour créer un histogramme, déterminez d'abord le nombre de barres ou d'intervalles, également appelés classes, qui représentent les données. De nombreux histogrammes se composent de 5 à 15 barres ou classes pour des raisons de clarté. Le nombre de barres doit être choisi. Choisissez un point de départ pour que le premier intervalle soit inférieur à la plus petite valeur de données. Un point de départ pratique est une valeur inférieure à une décimale de plus que la valeur comportant le plus grand nombre de décimales. Par exemple, si la valeur comportant le plus grand nombre de décimales est 6,1 et qu'il s'agit de la plus petite valeur, un point de départ pratique est 6,05 (6,1 — 0,05 = 6,05). Nous disons que la version 6.05 est plus précise. Si la valeur comportant le plus grand nombre de décimales est 2,23 et que la valeur la plus faible est 1,5, un point de départ pratique est 1,495 (1,5 — 0,005 = 1,495). Si la valeur comportant le plus grand nombre de décimales est 3,234 et que la valeur la plus faible est 1,0, un point de départ pratique est 0,9995 (1,0 — 0,0005 = 0,9995). Si toutes les données sont des nombres entiers et que la plus petite valeur est deux, le point de départ idéal est 1,5 (2 — 0,5 = 1,5). De même, lorsque le point de départ et les autres limites sont reportés à une décimale supplémentaire, aucune valeur de données ne tombe sur une limite. Les deux exemples suivants expliquent en détail comment construire un histogramme à l'aide de données continues et comment créer un histogramme à l'aide de données discrètes.

    Exemple\(\PageIndex{2}\).8

    Les données suivantes sont les tailles (en pouces au demi-pouce le plus proche) de 100 joueurs de football semi-professionnels masculins. Les hauteurs sont des données continues, puisque la hauteur est mesurée.

    60 ; 60,5 ; 61 ; 61 ; 61,5 63,5 ; 63,5 ;
    63,5 64 ; 64 ; 64 ; 64 ;
    64 ; 64 ; 64 ; 64,5 ; 64,5 ; 64,5 ; 64,5 ; 64,5 ; 64,5 ; 64,5 ; 64,5 ; 66 ; 66 ; 66 ; 66 ; 66 ; 66 ; 66 ; 66 ; 66 ; 66 ;
    66 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 ; 66,5 6,5 ; 66,5 ; 66,5 ; 66,5 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67 ; 67,5 ; 67,5 ; 67,5 ; 67,5 ; 67,5 ; 67,5 68 ;
    68 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69 ; 69,5 ; 69,5 ; 69,5 ; 69,5 ; 69,5 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ;
    70 ; 70,5 ; 70,5 ; 70,5 ; 70,5 ; 70,5 ; 71 ; 71 ; 71 ; 71 ; 72 ;
    72 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70 ; 70,5 ; 70,5 ; 70,5 ; 70,5 ; ; 73 ; 73,5
    74

    La plus petite valeur de données est 60. Comme les données comportant le plus grand nombre de décimales comportent une décimale (par exemple, 61,5), nous voulons que notre point de départ comporte deux décimales. Puisque les nombres 0,5, 0,05, 0,005, etc. sont des nombres pratiques, utilisez 0,05 et soustrayez-le de 60, la plus petite valeur, comme point de départ pratique.

    60 — 0,05 = 59,95, ce qui est plus précis que, disons, 61,5 avec une décimale. Le point de départ est donc 59,95.

    La valeur la plus élevée est 74, donc 74 + 0,05 = 74,05 est la valeur finale.

    Ensuite, calculez la largeur de chaque barre ou intervalle de classe. Pour calculer cette largeur, soustrayez le point de départ de la valeur finale et divisez par le nombre de barres (vous devez choisir le nombre de barres que vous souhaitez). Supposons que vous choisissiez huit barres.

    \[\frac{74.05−59.95}{8}=1.76\non\nonumber\]

    REMARQUE

    Nous allons arrondir à deux et faire en sorte que chaque barre ou intervalle de classe ait deux unités de large. En arrondissant à deux, vous pouvez éviter qu'une valeur ne tombe sur une limite. Il est souvent nécessaire d'arrondir au chiffre suivant, même si cela va à l'encontre des règles d'arrondissement standard. Pour cet exemple, l'utilisation de 1,76 comme largeur fonctionnerait également. Une règle suivie par certains pour la largeur d'une barre ou d'un intervalle de classe consiste à prendre la racine carrée du nombre de valeurs de données, puis à arrondir au nombre entier le plus proche, si nécessaire. Par exemple, s'il existe 150 valeurs de données, prenez la racine carrée de 150 et arrondissez à 12 barres ou intervalles.

    Les limites sont les suivantes :

    • 59,95
    • 59,95 + 2 = 61,95
    • 61,95 + 2 = 63,95
    • 63,95 + 2 = 65,95
    • 65,95 + 2 = 67,95
    • 67,95 + 2 = 69,95
    • 69,95 + 2 = 71,95
    • 71,95 + 2 = 73,95
    • 73,95 + 2 = 75,95

    Les hauteurs de 60 à 61,5 pouces se situent dans l'intervalle 59,95 à 61,95 pouces. Les hauteurs qui sont de 63,5 se situent dans l'intervalle 61,95 à 63,95. Les hauteurs comprises entre 64 et 64,5 se situent dans l'intervalle 63,95 à 65,95. Les hauteurs 66 à 67,5 se situent dans l'intervalle 65,95 à 67,95. Les hauteurs 68 à 69,5 se situent dans l'intervalle 67,95 à 69,95. Les hauteurs 70 à 71 se situent dans l'intervalle 69,95 à 71,95. Les hauteurs 72 à 73,5 se situent dans l'intervalle 71,95 à 73,95. La hauteur 74 est comprise entre 73,95 et 75,95.

    L'histogramme suivant affiche les hauteurs sur l'axe x et la fréquence relative sur l'axe des y.

    L'histogramme comprend 8 barres avec l'axe Y par incréments de 0,05 de 0 à 0,4 et l'axe des abscisses par intervalles de 2 entre 59,95 et 75,95.
    Figure\(\PageIndex{2}\) 5.

    Exercice\(\PageIndex{2}\).8

    Les données suivantes sont les pointures de chaussures de 50 étudiants de sexe masculin. Les pointures sont des données continues puisque la pointure est mesurée. Créez un histogramme et calculez la largeur de chaque barre ou intervalle de classe. Supposons que vous choisissiez six barres.

    9 ; 9 ; 9,5 ; 9,5 ; 10 ; 10 ; 10 ; 10 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 10,5 ; 11 ; 11 ; 11 ; 11 ;
    11 ; 11 ; 11 ; 11 ; 11 ; 11 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5
     ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 11,5 ; 12,5 ; 12,5 ; 12,5 ; 12,5 ; 14

    Exemple\(\PageIndex{2}\).9

    Créez un histogramme pour les données suivantes : le nombre de livres achetés par 50 étudiants à temps partiel à l'ABC College. Le nombre de livres est une donnée discrète, puisque les livres sont comptés.

    1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 1 ; 2 ; 2 ; 2 ; 2 ; 2 ;
    2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 3 ; 3 ;
    3 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ; 2 ;


    Onze étudiants achètent un livre. Dix étudiants achètent deux livres. Seize étudiants achètent trois livres. Six étudiants achètent quatre livres. Cinq étudiants achètent cinq livres. Deux étudiants achètent six livres.

    Comme les données sont des nombres entiers, soustrayez 0,5 de 1, la plus petite valeur de données, et ajoutez 0,5 à 6, la plus grande valeur de données. Le point de départ est alors 0,5 et la valeur finale est 6,5.

    Ensuite, calculez la largeur de chaque barre ou intervalle de classe. Si les données sont discrètes et qu'il n'y a pas trop de valeurs différentes, une largeur qui place les valeurs de données au milieu de la barre ou de l'intervalle de classe est la solution la plus pratique. Puisque les données se composent des nombres 1, 2, 3, 4, 5, 6 et que le point de départ est 0,5, une largeur de 1 place le 1 au milieu de l'intervalle de 0,5 à 1,5, le 2 au milieu de l'intervalle de 1,5 à 2,5, le 3 au milieu de l'intervalle de 2,5 à 3,5, le 4 au milieu de l'intervalle de _____ __ à _______, le 5 au milieu de l'intervalle de _______ à _______ et le _______ au milieu de l'intervalle de _______ à _______.

    Solution

    Calculez le nombre de barres comme suit :

    \[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]

    où 1 est la largeur d'une barre. Par conséquent, bars = 6.

    L'histogramme suivant affiche le nombre de livres sur l'axe x et la fréquence sur l'axe y.

    L'histogramme se compose de 6 barres avec l'axe Y par incréments de 2 de 0 à 16 et l'axe des X par intervalles de 1 de 0,5 à 6,5.
    Graphique\(\PageIndex{2}\) 6.

    Exemple\(\PageIndex{2}\).10

    À l'aide de cet ensemble de données, créez un histogramme.

    \ (\ PageIndex {13} \) « >
    Nombre d'heures que mes camarades de classe ont passées à jouer à des jeux vidéo le week-end
    9,95 10 2,25 16,75 0
    19,5 22,5 7,5 15 12,75
    5.5 11 10 20,75 17,5
    23 21,9 24 23,75 18
    20 15 22,9 18,8 20,5
    Tableau\(\PageIndex{2}\) 1.3
    Réponse

    Solution 2.10

    Il s'agit d'un histogramme qui correspond aux données fournies. L'axe X comprend 5 barres espacées de 5, de 0 à 25. L'axe Y est marqué par incréments de 1, de 0 à 10. L'axe X indique le nombre d'heures passées à jouer à des jeux vidéo le week-end, et l'axe Y indique le nombre d'étudiants.
    Graphique\(\PageIndex{2}\) 7.

    Certaines valeurs de cet ensemble de données se situent dans les limites des intervalles de classe. Une valeur est comptée dans un intervalle de classe si elle se trouve sur la limite gauche, mais pas si elle tombe sur la limite droite. Différents chercheurs peuvent créer des histogrammes pour les mêmes données de différentes manières. Il existe plusieurs méthodes correctes pour configurer un histogramme.

    Polygones de fréquence

    Les polygones de fréquence sont analogues aux graphes linéaires, tout comme les graphes linéaires facilitent l'interprétation visuelle des données continues, de même que les polygones de fréquence.

    Pour construire un polygone de fréquence, examinez d'abord les données et décidez du nombre d'intervalles, ou d'intervalles de classe, à utiliser sur les axes x et y. Après avoir choisi les plages appropriées, commencez à tracer les points de données. Une fois tous les points tracés, tracez des segments de ligne pour les relier.

    Exemple\(\PageIndex{2}\).11

    Un polygone de fréquence a été construit à partir du tableau de fréquences ci-dessous.

    \ (\ PageIndex {14} \) « >
    Limite inférieure Borne supérieure Fréquence Fréquence cumulée
    49,5 59,5 5 5
    59,5 69,5 10 15
    69,5 79,5 30 45
    79,5 89,5 40 85
    89,5 99,5 15 100
    Tableau\(\PageIndex{2}\) 1.4 : Distribution des fréquences pour les résultats finaux des tests de calcul
    Un polygone de fréquence a été construit à partir du tableau de fréquences ci-dessous.
    Graphique\(\PageIndex{2}\) 8

    La première étiquette sur l'axe X est 44,5. Cela représente un intervalle allant de 39,5 à 49,5. Comme le score de test le plus bas est de 54,5, cet intervalle est utilisé uniquement pour permettre au graphique de toucher l'axe X. Le point marqué 54,5 représente l'intervalle suivant, ou le premier intervalle « réel » du tableau, et contient cinq scores. Ce raisonnement est suivi pour chacun des intervalles restants, le point 104,5 représentant l'intervalle de 99,5 à 109,5. Encore une fois, cet intervalle ne contient aucune donnée et est uniquement utilisé pour que le graphique touche l'axe X. En regardant le graphique, nous disons que cette distribution est asymétrique parce qu'un côté du graphique ne reflète pas l'autre côté.

    Exercice\(\PageIndex{2}\).11

    Construisez un polygone de fréquence représentant l'âge des présidents américains lors de l'inauguration, comme indiqué dans le tableau\(\PageIndex{15}\).

    \ (\ PageIndex {15} \) « >
    Âge lors de l'inauguration Fréquence
    41,5 à 46,5 4
    46,5 à 51,5 11
    51,5 à 56,5 14
    56,5 à 61,5 9
    61,5 à 66,5 4
    66,5 à 71,5 2

    Tableau 2.2.15

    Les polygones de fréquence sont utiles pour comparer des distributions. Ceci est réalisé en superposant les polygones de fréquence dessinés pour différents ensembles de données.

    Exemple\(\PageIndex{2}\).12

    Nous allons construire un polygone de fréquence de superposition en comparant les scores de l'exemple\(\PageIndex{11}\) avec la note numérique finale des étudiants.

    \ (\ PageIndex {16} \) « >
    Limite inférieure Borne supérieure Fréquence Fréquence cumulée
    49,5 59,5 5 5
    59,5 69,5 10 15
    69,5 79,5 30 45
    79,5 89,5 40 85
    89,5 99,5 15 100
    Tableau\(\PageIndex{2}\) 1.16 : Distribution des fréquences pour les résultats finaux des tests de calcul
    \ (\ PageIndex {17} \) « >
    Limite inférieure Borne supérieure Fréquence Fréquence cumulée
    49,5 59,5 10 10
    59,5 69,5 10 20
    69,5 79,5 30 50
    79,5 89,5 45 95
    89,5 99,5 5 100
    Tableau\(\PageIndex{2}\) 1.17 : Distribution des fréquences pour les notes finales du calcul
    Il s'agit d'un polygone de fréquence de superposition qui correspond aux données fournies. L'axe des abscisses indique les notes et l'axe des ordonnées indique la fréquence.
    Graphique\(\PageIndex{2}\) 9.

    Construction d'un graphe de série chronologique

    Supposons que nous souhaitions étudier la plage de température d'une région pendant un mois entier. Chaque jour, à midi, nous notons la température et la notons dans un journal. Diverses études statistiques pourraient être réalisées à partir de ces données. Nous avons pu trouver la température moyenne ou médiane pour le mois. Nous pourrions construire un histogramme indiquant le nombre de jours pendant lesquels les températures atteignent une certaine plage de valeurs. Cependant, toutes ces méthodes ignorent une partie des données que nous avons collectées.

    L'une des caractéristiques des données que nous souhaiterons peut-être prendre en compte est celle du temps. Comme chaque date est associée à la lecture de la température de la journée, nous n'avons pas à considérer les données comme étant aléatoires. Nous pouvons plutôt utiliser les temps donnés pour imposer un ordre chronologique aux données. Un graphique qui reconnaît cet ordre et affiche l'évolution de la température au fil du mois est appelé graphique de série chronologique.

    Pour construire un graphique de série chronologique, nous devons examiner les deux éléments de notre ensemble de données appariées. Nous commençons par un système de coordonnées cartésien standard. L'axe horizontal est utilisé pour tracer les incréments de date ou d'heure, et l'axe vertical est utilisé pour tracer les valeurs de la variable que nous mesurons. Ce faisant, nous faisons correspondre chaque point du graphique à une date et à une quantité mesurée. Les points du graphique sont généralement reliés par des lignes droites dans l'ordre dans lequel ils apparaissent.

    Exemple\(\PageIndex{2}\).13

    Les données suivantes montrent l'indice annuel des prix à la consommation, chaque mois, pendant dix ans. Construisez un graphique chronologique pour les données de l'indice annuel des prix à la consommation uniquement.

    \ (\ PageIndex {18} \) « >
    Année Jan Février Mar 4 avril Mai Juin Juil
    2003 181,7 183,1 184,2 183,8 183,5 183,7 183,9
    2004 185,2 186,2 187,4 188,0 189,1 189,7 189,4
    2005 190,7 191,8 193,3 194,6 194,4 194,5 195,4
    2006 198,3 198,7 199,8 201,5 202,5 202,9 203,5
    2007 202.416 203.499 205,352 206 686 207 949 208,352 208,299
    2008 211 080 211 693 213 528 214 823 216,632 218 815 219 964
    2009 211 143 212 193 212 709 213 240 213 856 215 693 215,351
    2010 216,687 216,741 217 631 218,009 218,178 217 965 218 011
    2011 220,223 221 309 223 467 224,906 225 964 225 722 225 922
    2012 226665 227 663 229 392 230,085 229 815 229 478 229,104
    Tableau\(\PageIndex{2}\) 1.8
    \ (\ PageIndex {19} \) « >
    Année Août 7 septembre Octobre Nov Déc Annuel
    2003 184,6 185,2 185,0 184,5 184,3 184,0
    2004 189,5 189,9 190,9 191,0 190,3 188,9
    2005 196,4 198,8 199,2 197,6 196,8 195,3
    2006 203,9 202,9 201,8 201,5 201,8 201,6
    2007 207 917 208,490 208,936 210,177 210 036 207 342
    2008 219 086 218 783 216,573 212 425 210.228 215 303
    2009 215 834 215 969 216,177 216,330 215 949 214 537
    2010 218 312 218 439 218,711 218 803 219,179 218 056
    2011 226,545 226 889 226,421 226 230 225 672 224 939
    2012 230,379 231 407 231 317 230,221 229 601 229 594
    Tableau\(\PageIndex{2}\) 1.9
    Réponse

    Solution 2.13

    Il s'agit d'un graphique chronologique qui correspond aux données fournies. L'axe des abscisses représente les années 2003 à 2012, et l'axe des ordonnées montre l'IPC annuel.
    Graphique\(\PageIndex{2}\) 1.0

    Exercice\(\PageIndex{2}\).13

    Le tableau suivant est une partie d'un ensemble de données provenant du site www.worldbank.org. Utilisez le tableau pour créer un graphique chronologique des émissions de CO 2 aux États-Unis.

    \ (\ Index de page {20} \) « >
    Année Ukraine Royaume-Uni États-Unis
    2003 352 259 540 640 5 681 664
    2004 343 121 540 409 5 790 761
    2005 339 029 541 990 5 826 394
    2006 327 797 542 045 5 737 615
    2007 328 357 528 631 5 828 697
    2008 323 657 522 247 5 656 839
    2009 272 176 474 579 5 299 563
    Tableau\(\PageIndex{20}\) : Émissions de CO 2

    Utilisations d'un graphe de séries chronologiques

    Les graphes de séries chronologiques sont des outils importants pour diverses applications des statistiques. Lorsque l'on enregistre les valeurs d'une même variable sur une longue période, il est parfois difficile de discerner une tendance ou un schéma. Toutefois, une fois que les mêmes points de données sont affichés graphiquement, certaines entités apparaissent. Les graphiques de séries chronologiques permettent de repérer facilement les tendances.

    Comment ne pas mentir avec les statistiques

    Il est important de se rappeler que la raison même pour laquelle nous développons diverses méthodes pour présenter les données est de mieux comprendre ce que représentent les observations. Nous voulons avoir une « idée » des données. Les observations sont-elles toutes très similaires ou sont-elles réparties sur une large gamme de valeurs, sont-elles regroupées à une extrémité du spectre ou sont-elles réparties uniformément, etc. Nous essayons d'obtenir une image visuelle des données numériques. Nous développerons sous peu des mesures mathématiques formelles des données, mais notre présentation graphique visuelle peut en dire long. Malheureusement, cela peut aussi en dire long sur ce qui est distrayant, déroutant et tout simplement faux en ce qui concerne l'impression que laisse l'image. Il y a de nombreuses années, Darrell Huff a écrit le livre How to Lie with Statistics. Il a fait l'objet de plus de 25 impressions et s'est vendu à plus d'un million et demi d'exemplaires. Son point de vue était sévère et utilisait de nombreux exemples concrets conçus pour induire en erreur. Il voulait sensibiliser les gens à cette tromperie, mais peut-être plus important encore, les éduquer afin que d'autres ne commettent pas les mêmes erreurs par inadvertance.

    Encore une fois, l'objectif est d'éclairer avec des visuels qui racontent l'histoire des données. Les diagrammes circulaires présentent un certain nombre de problèmes courants lorsqu'ils sont utilisés pour transmettre le message des données. Trop de morceaux du gâteau submergent le lecteur. Plus de cinq ou six catégories devraient donner une idée de l'importance relative de chaque pièce. Après tout, c'est l'objectif d'un graphique circulaire, de savoir quel sous-ensemble compte le plus par rapport aux autres. S'il y a plus de composants que cela, une autre approche serait peut-être préférable ou peut-être que certains pourraient être regroupés dans une « autre » catégorie. Les diagrammes à secteurs ne peuvent pas montrer les changements au fil du temps, bien que cela soit trop souvent essayé. Dans les documents financiers fédéraux, étatiques et municipaux, des diagrammes circulaires sont souvent présentés pour montrer les composantes des recettes dont l'organe directeur dispose pour affectation : impôt sur le revenu, taxe de vente, taxes sur les véhicules à moteur, etc. En soi, il s'agit d'informations intéressantes qui peuvent être facilement réalisées à l'aide d'un graphique circulaire. L'erreur se produit lorsque deux années sont placées côte à côte. Comme les recettes totales varient d'une année à l'autre, mais que la taille du gâteau est fixe, aucune information réelle n'est fournie et la taille relative de chaque part du gâteau ne peut pas être comparée de manière significative.

    Les histogrammes peuvent être très utiles pour comprendre les données. Bien présentés, ils peuvent constituer un moyen visuel rapide de présenter les probabilités de différentes catégories en comparant simplement les zones relatives de chaque catégorie. Ici, l'erreur, intentionnelle ou non, est de faire varier la largeur des catégories. Cela rend évidemment impossible toute comparaison avec les autres catégories. Cela accentue l'importance de la catégorie en élargissant sa largeur parce que sa superficie est plus grande, de manière inappropriée, et « indique » visuellement que cette catégorie a une probabilité d'occurrence plus élevée.

    Les graphiques de séries chronologiques sont peut-être les plus utilisés. Un diagramme représentant une variable dans le temps ne doit jamais être présenté sur des axes qui changent au milieu de la page, que ce soit dans la dimension verticale ou horizontale. Peut-être que le délai est passé de plusieurs années à plusieurs mois. C'est peut-être pour gagner de la place ou parce que les données mensuelles n'étaient pas disponibles pour les premières années. Dans les deux cas, cela confond la présentation et détruit toute valeur du graphique. Si cela n'est pas fait pour embrouiller délibérément le lecteur, il s'agit certainement d'un travail paresseux ou bâclé.

    La modification des unités de mesure de l'axe peut atténuer une chute ou en accentuer une. Si vous souhaitez afficher des variations importantes, mesurez la variable en petites unités, en centimes plutôt qu'en milliers de dollars. Et bien sûr, pour continuer la fraude, assurez-vous que l'axe ne commence pas à zéro, zéro. S'il commence à zéro, zéro, alors il devient évident que l'axe a été manipulé.

    Peut-être avez-vous un client préoccupé par la volatilité du portefeuille que vous gérez. Un moyen simple de présenter les données consiste à utiliser de longues périodes sur le graphique des séries chronologiques. Utilisez des mois ou mieux, des trimestres plutôt que des données quotidiennes ou hebdomadaires. Si cela ne permet pas de réduire la volatilité, répartissez l'axe temporel par rapport au taux de rendement ou à l'axe de valorisation du portefeuille. Si vous souhaitez afficher une croissance spectaculaire « rapide », réduisez l'axe temporel. Toute croissance positive indiquera des taux de croissance visuellement « élevés ». Notez que si la croissance est négative, cette astuce montrera que le portefeuille s'effondre à un rythme spectaculaire.

    Encore une fois, l'objectif des statistiques descriptives est de transmettre des éléments visuels significatifs qui racontent l'histoire des données. Toute manipulation intentionnelle est, dans le pire des cas, frauduleuse et contraire à l'éthique, mais même dans le meilleur des cas, commettre ce type d'erreur risque de semer la confusion dans l'analyse.