数据仓库介绍

发布时间:2022-06-28 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了数据仓库介绍脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

数据仓库

1.概念

  • 名称:Data Warehouse , 简称DW或DWH。
  • 作用:构建面向分析的集成化数据环境,为企业提供决策支持。出于分析性报告和决策支持目的的创建
  • 本性:不“生产”任何数据,不“消费”任何数据,数据来源外部,开放给外部应用。所以叫仓库。

2.主要特征

是决策支持系统和联机分析应用数据源的结果化数据环境。 数据仓库研究和解决从数据库中获取信息的问题。 特征在于面向主题、集成性、稳定性和时变性。

  • 面向主题
    • 面向事务处理任务,抽象。
  • 集成性
    • 数仓中的data是对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
    • ETL(Extract_Load_Transform)抽取 加载 集成
      • ETL介绍
      • 数仓的数据来自分散的操作性数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数仓,要完成的工作有:
      • 1.统一源数据中所有矛盾,如字段的同名异义、异名同义、单位不统一、字长不一致
      • 2.进行数据综合和计算,数仓中的数据综合工作可以在从源数据库中抽取时生成,但许多是在数据仓库内部生成的
  • 非易失性(不可更新)
    • 数仓中的数据通常包含历史信息,系统记录了企业从过去某一时间点(从开始应用数据仓库的时间点)到当前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测.
    • 基于数仓是提供分析和预测的数据的,那么一般所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载和刷新.
  • 时变性:
    • 数仓中的数据是按照时间顺序进行追加的,都带有时间属性.

3.数据库和数据仓库的区别

数据仓库介绍

4.数仓的分层(一面试就问)

数据仓库介绍

数据集市介绍

是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度,需要的计算的指标,维度的层次等,生成面向决策分析需求的数据立方体.

维度

1.维度

观察数据的角度,如时间,地点. group by后的内容.

2.度量

基于数据计算出来的值. 一个数据,如总销售额. agg聚合后求到的值.

脚本宝典总结

以上是脚本宝典为你收集整理的数据仓库介绍全部内容,希望文章能够帮你解决数据仓库介绍所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。
标签:数据库