Skip to main content
Global

4.7: Armazém de dados

  • Page ID
    171097
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    À medida que as organizações começaram a utilizar bancos de dados como peça central de suas operações, a necessidade de compreender e aproveitar totalmente os dados que estão coletando se tornou cada vez mais evidente. No entanto, analisar diretamente os dados necessários para as operações diárias não é uma boa ideia; não queremos tributar as operações da empresa mais do que precisamos. Além disso, as organizações também querem analisar os dados em um sentido histórico: como os dados que temos hoje se comparam com o mesmo conjunto de dados no mês passado ou no ano passado? Dessas necessidades surgiu o conceito de data warehouse.

    O conceito de data warehouse é simples: extrair dados de um ou mais bancos de dados da organização e carregá-los no data warehouse (que é outro banco de dados) para armazenamento e análise. No entanto, a execução desse conceito não é tão simples assim. Um data warehouse deve ser projetado de forma que atenda aos seguintes critérios:

    • Ele usa dados não operacionais. Isso significa que o data warehouse usa uma cópia dos dados dos bancos de dados ativos que a empresa usa em suas operações diárias, portanto, o data warehouse deve extrair dados dos bancos de dados existentes de forma regular e programada.
    • Os dados são variantes do tempo. Isso significa que sempre que os dados são carregados no data warehouse, eles recebem um carimbo de data/hora, o que permite comparações entre diferentes períodos de tempo.
    • Os dados são padronizados. Como os dados em um data warehouse geralmente vêm de várias fontes diferentes, é possível que os dados não usem as mesmas definições ou unidades. Por exemplo, nossa tabela de eventos em nosso banco de dados de clubes estudantis lista as datas dos eventos usando o formato mm/dd/aaaa (por exemplo, 01/10/2013). Uma tabela em outro banco de dados pode usar o formato yy/mm/dd (por exemplo, 13/01/10) para datas. Para que o data warehouse corresponda às datas, um formato de data padrão teria que ser acordado e todos os dados carregados no data warehouse teriam que ser convertidos para usar esse formato padrão. Esse processo é chamado de extração-transformação-carga (ETL).

    Há duas escolas primárias de pensamento ao projetar um data warehouse: de baixo para cima e de cima para baixo. A abordagem de baixo para cima começa com a criação de pequenos data warehouses, chamados data marts, para resolver problemas comerciais específicos. À medida que esses data marts são criados, eles podem ser combinados em um data warehouse maior. A abordagem de cima para baixo sugere que devemos começar criando um data warehouse em toda a empresa e, à medida que necessidades comerciais específicas forem identificadas, criar data marts menores a partir do data warehouse.

    Behaviorism_1.gif
    Figura\(\PageIndex{1}\): Processo de data warehouse (de cima para baixo). A imagem de Soha jamil está licenciada sob CC BY-SA 4.0

    Benefícios dos data warehouses

    As organizações consideram os data warehouses bastante benéficos por vários motivos:

    • Capacidade de integrar dados de vários sistemas formatados com diferentes softwares e compilá-los para obter uma visão mais profunda.
    • O processo de desenvolvimento de um data warehouse força a organização a entender os dados melhor do que os que estão coletando atualmente e, igualmente importante, quais dados não estão sendo coletados.
    • Um data warehouse fornece uma visão centralizada de todos os dados coletados na empresa e fornece um meio de determinar dados inconsistentes.
    • Depois que todos os dados são identificados como consistentes, uma organização pode gerar uma versão da verdade. Isso é importante quando a empresa deseja relatar estatísticas consistentes sobre si mesma, como receita ou números de funcionários.
    • Com um data warehouse, os instantâneos dos dados podem ser obtidos com o tempo. Isso cria um registro histórico de dados, o que permite uma análise das tendências.
    • Um data warehouse fornece ferramentas para combinar dados, o que pode fornecer novas informações e análises.