Skip to main content
Global

4.7: 数据仓库

  • Page ID
    172429
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    随着各组织开始使用数据库作为其运营的核心,充分理解和利用他们收集的数据的需求已变得越来越明显。 但是,直接分析日常运营所需的数据并不是一个好主意;我们不想对公司运营征收超过我们需要的税收。 此外,组织还希望从历史意义上分析数据:我们今天拥有的数据与上个月或去年这个时候的相同数据集相比如何? 由此产生了数据仓库的概念。

    数据仓库的概念很简单:从组织的一个或多个数据库中提取数据,然后将其加载到数据仓库(它本身就是另一个数据库)进行存储和分析。 但是,这个概念的执行并不是那么简单。 数据仓库的设计应使其符合以下标准:

    • 它使用非操作数据。 这意味着数据仓库使用公司在日常运营中使用的活动数据库中的数据副本,因此数据仓库必须定期、定期地从现有数据库中提取数据。
    • 数据是时变的。 这意味着,每当数据加载到数据仓库时,它都会收到一个时间戳,允许在不同的时间段之间进行比较。
    • 数据是标准化的。 由于数据仓库中的数据通常来自多个不同的来源,因此数据可能不使用相同的定义或单位。 例如,我们的学生俱乐部数据库中的活动表使用 mm/dd/yyyy 格式列出了活动日期(例如,2013 年 1 月 10 日)。 另一个数据库中的表可能使用 yy/mm/dd(例如,13/01/10)格式作为日期。 为了使数据仓库与日期匹配,必须商定标准日期格式,并且加载到数据仓库的所有数据都必须转换为使用这种标准格式。 此过程称为提取转换加载 (ETL)。

    设计数据仓库时有两个主要思想流派:自下而上和自上而下。 自下而上的方法从创建称为数据集市的小型数据仓库开始,以解决特定的业务问题。 创建这些数据集市后,可以将它们组合成更大的数据仓库。 自上而下的方法表明,我们应该从创建企业范围的数据仓库开始,然后在确定了特定的业务需求后,从数据仓库创建较小的数据集市。

    Behaviorism_1.gif
    \(\PageIndex{1}\):数据仓库流程(自上而下)。 由 Soha jamil 拍摄的@@ 图片获得 CC BY-SA 4.0 的许可

    数据仓库的好处

    组织发现数据仓库非常有益,原因有很多:

    • 能够集成来自使用不同软件格式化的多个系统的数据,并对其进行编译以获得更深入的见解。
    • 开发数据仓库的过程迫使组织比目前收集的数据更了解数据,同样重要的是,还要了解哪些数据没有被收集。
    • 数据仓库为整个企业收集的所有数据提供了集中视图,并提供了一种确定不一致数据的方法。
    • 一旦确定所有数据都是一致的,组织就可以生成一个版本的真相。 当公司想要报告一致的自身统计数据(例如收入或员工人数)时,这一点很重要。
    • 通过拥有数据仓库,可以随着时间的推移拍摄数据的快照。 这会创建数据历史记录,从而可以分析趋势。
    • 数据仓库提供合并数据的工具,可以提供新的信息和分析。