Skip to main content
Global

4.8 : Exploration de données

  • Page ID
    167131
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    L'exploration de données est le processus qui consiste à trier les données volumineuses (mesurées en téraoctets). Dans le passé, il y avait un manque de données à analyser. Le défi réside dans la surabondance de données qui doivent être examinées, ce que l'on appelle la surcharge de données. Cela devient un problème car l'utilisateur doit évaluer quelles informations sont utiles et lesquelles ne le sont pas. De nombreuses entreprises font du minage pour obtenir des informations détaillées sur leurs clients et leurs produits et pour optimiser leurs décisions commerciales. L'analyse est exécutée à l'aide de programmes sophistiqués. Les programmes peuvent combiner plusieurs bases de données. L'effet final est si complexe que les entreprises doivent trouver un moyen de stocker les données. Des entrepôts de données sont nécessaires. L'entrepôt de données est l'endroit où les informations sont stockées et traitées à partir de l'exploration de données. Le prix d'un simple entrepôt pourrait commencer à 10 millions de dollars.

    Des entreprises comme Google, Netflix, Amazon et Facebook sont de grands utilisateurs de l'exploration de données. Ils cherchent à découvrir qui sont leurs consommateurs et la meilleure façon de les garder et de leur vendre davantage de produits. Ils évaluent également leurs produits. Les moyens utilisés consistent à examiner les données et à trouver des tendances, des modèles et des associations pour prendre des décisions. En général, l'exploration de données est réalisée par des moyens automatisés sur des ensembles de données étendus, tels qu'un entrepôt de données.

    Voici des exemples d'exploration de données :

    • Une analyse des ventes d'une grande chaîne d'épiceries pourrait déterminer que le lait est acheté plus fréquemment le lendemain de la pluie dans les villes de moins de 50 000 habitants.
    • Une banque peut constater que les demandeurs de prêt dont les comptes bancaires présentent des schémas de dépôt et de retrait particuliers ne présentent pas de bons risques de crédit.
    • Une équipe de baseball peut trouver les joueurs de baseball collégiaux qui ont des statistiques spécifiques en matière de frappe, de lancer et de lancer pour des joueurs des ligues majeures plus performants.

    Dans certains cas, un projet d'exploration de données est lancé avec un résultat hypothétique à l'esprit. Par exemple, une chaîne d'épiceries peut déjà savoir que les habitudes d'achat changent après la pluie et souhaite mieux comprendre ce qui se passe exactement. Dans d'autres cas, il n'y a pas de présuppositions et un programme d'exploration de données est exécuté sur de grands ensembles de données pour trouver des modèles et des associations.