Skip to main content
Global

2.R : Statistiques descriptives (revue)

  • Page ID
    191538
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    2.1 Afficher les données

    Un diagramme en forme de tige et de feuille permet de tracer des données et d'examiner la distribution. Dans un diagramme à tige et à feuilles, toutes les valeurs de données d'une classe sont visibles. L'avantage d'un diagramme à barres et à feuilles est que toutes les valeurs sont répertoriées, contrairement à un histogramme, qui donne des classes de valeurs de données. Un graphique linéaire est souvent utilisé pour représenter un ensemble de valeurs de données dans lesquelles une quantité varie dans le temps. Ces graphiques sont utiles pour trouver des tendances. C'est-à-dire trouver un schéma général dans des ensembles de données, y compris la température, les ventes, l'emploi, les bénéfices ou les coûts de l'entreprise sur une période donnée. Un graphique à barres est un graphique qui utilise des barres horizontales ou verticales pour montrer des comparaisons entre les catégories. Un axe du graphique montre les catégories spécifiques comparées et l'autre représente une valeur discrète. Certains diagrammes à barres présentent des barres regroupées par groupes de plusieurs (diagrammes à barres groupés), tandis que d'autres montrent les barres divisées en sous-parties pour montrer l'effet cumulé (graphiques à barres empilées). Les diagrammes à barres sont particulièrement utiles lorsque des données catégorielles sont utilisées.

    Un histogramme est une version graphique d'une distribution de fréquences. Le graphique est constitué de barres de même largeur tracées les unes à côté des autres. L'échelle horizontale représente les classes de valeurs de données quantitatives et l'échelle verticale représente les fréquences. Les hauteurs des barres correspondent aux valeurs de fréquence. Les histogrammes sont généralement utilisés pour les grands ensembles de données quantitatives continues. Un polygone de fréquence peut également être utilisé pour représenter graphiquement de grands ensembles de données avec des points de données qui se répètent. Les données sont généralement placées sur l'axe y, la fréquence étant représentée graphiquement sur l'axe X. Les graphiques de séries chronologiques peuvent être utiles lorsque vous examinez de grandes quantités de données pour une variable sur une période donnée.

    2.2 Mesures de localisation des données

    Les valeurs qui divisent un ensemble de données classées par ordre de rang en 100 parties égales sont appelées percentiles. Les percentiles sont utilisés pour comparer et interpréter les données. Par exemple, une observation au 50 e percentile serait supérieure à 50 % des autres observations de l'ensemble. Les quartiles divisent les données en trimestres. Le premier quartile (\(Q_1\)) est le 25 e percentile, le deuxième quartile (\(Q_2\)ou médian) est le 50 e percentile et le troisième quartile (\(Q_3\)) est le 75 e percentile. La plage interquartile, ou\(IQR\), est la plage des 50 % intermédiaires des valeurs de données. Le\(IQR\) est trouvé en le\(Q_1\)\(Q_3\) soustrayant et peut aider à déterminer les valeurs aberrantes à l'aide des deux expressions suivantes.

    • \(Q_3 + IQR(1.5)\)
    • \(Q_1 – IQR(1.5)\)

    2.3 Mesures du centre des données

    La moyenne et la médiane peuvent être calculées pour vous aider à trouver le « centre » d'un ensemble de données. La moyenne est la meilleure estimation pour l'ensemble de données réel, mais la médiane est la meilleure mesure lorsqu'un ensemble de données contient plusieurs valeurs aberrantes ou extrêmes. Le mode vous indiquera la donnée (ou les données) la plus fréquente dans votre ensemble de données. La moyenne, la médiane et le mode sont extrêmement utiles lorsque vous devez analyser vos données, mais si votre ensemble de données se compose de plages dépourvues de valeurs spécifiques, la moyenne peut sembler impossible à calculer. Toutefois, la moyenne peut être approximée en ajoutant la limite inférieure à la limite supérieure et en divisant par deux pour trouver le milieu de chaque intervalle. Multipliez chaque point médian par le nombre de valeurs présentes dans la plage correspondante. Divisez la somme de ces valeurs par le nombre total de valeurs de données de l'ensemble.

    2.6 L'asymétrie et la moyenne, la médiane et le mode

    L'examen de la distribution des données peut en révéler beaucoup sur la relation entre la moyenne, la médiane et le mode. Il existe trois types de distributions. Une distribution asymétrique droite (ou positive) a une forme similaire à celle de la figure\(\PageIndex{11}\).

    2.7 Mesures de la diffusion des données

    L'écart type peut vous aider à calculer la répartition des données. Il existe différentes équations à utiliser pour calculer l'écart type d'un échantillon ou d'une population.

    • L'écart type nous permet de comparer des données individuelles ou des classes à la moyenne numérique de l'ensemble de données.
    • \(s=\sqrt{\frac{\sum(x-\overline{x})^{2}}{n-1}} \text { or } s=\sqrt{\frac{\sum f(x-\overline{x})^{2}}{n-1}}\)est la formule permettant de calculer l'écart type d'un échantillon. Pour calculer l'écart type d'une population, nous utiliserions la moyenne de la population, μ, et la formule\(\sigma=\sqrt{\frac{\sum(x-\mu)^{2}}{N}} \text { or } \sigma=\sqrt{\frac{\sum f(x-\mu)^{2}}{N}}\).