1.数据仓库的定义
数据仓库是指一种对海量数据的存储,它把那些异构数据源、异地数据源以及数据库中经过加工转换之后的数据加载到数据仓储中来进行数据的维护、存储和提取。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。
2.数据仓库的特征
(1)面向主题的:主题是指宏观分析领域涉及的分析对象,面向主题的数据组织是指在较高抽象层次上对分析对象的数据给予完整、一致的描述。而传统的操作型系统是面向功能性应用进行数据组织的。
(2)集成的:数据仓库中的数据是从原有多个分散的数据源中抽取来的。数据源中的数据进入数据仓库之前,要经过必要的转换和集成,以达到数据的一致性,具体包括格式转换、消除冲突与冗余、运算、综合、设置时间属性、设置缺省值等。在数据仓库的所有特点中,集成是最重要的。
(3)相对稳定的:数据仓库中的数据在某个时间段内保持不变,数据定期加载,加载后以快照的形式存在于数据仓库中,一般不再进行修改。过期数据可根据需要从数据仓库中移出。
(4)随时间变化的:数据仓库的数据随时间不断追加、积累,反映较长历史范围内的数据变化,加载到数据仓库中的数据均包含时间属性。
3.数据仓库和数据库的区别
虽然数据仓库是以数据库为基础发展起来的,但是它们之间由存在着不同,这些不同主要有以下几点:
(1)它们之间的面向对象不同:数据库的使用者一般都是企业的业务人员,主要的工作便是对企业的日常数据进行处理和维护;而数据仓库的使用者一般是企业的管理层,主要是为管理层做出正确的决策提供数据依据,数据仓库本身不负责业务的处理,而是通过将企业运行的数据进行收集,在以后企业管理者分析和决策时提供依据,其主要来源是业务数据库、Excel 表格等;
(2)数据库主要是收集并记录企业最原始的业务数据,没有任何的加工和处理,只是企业运行的当前数据的简单记录;而数据仓库主要是从企业的数据库中提取到相关数据经过处理和加工,再提交给企业管理层,它记录的是企业的一个历史数据。
数据仓库本身就是一个信息提供平台,以星型和雪花型这两种模型方式获取数据并进行组织,最终达到为客户提供获取信息和知识的手段的目的;数据仓库项目就是为了实施企业级数据仓库建设而建立的IT项目或者IT服务。
推荐阅读
数据治理是什么?数据治理包括哪几个方面?
什么是数据架构?大数据架构特点有哪些?
什么是数据可视化?对企业有什么好处?
来源:互联网 / 发布时间:2023-12-23 09:32:37