读数据湖仓02数据抽象

1. 不同类型的数据

1.1. 不同类型的数据在存储方面有各自的特性,这些特性极大地影响了数据在数据湖仓中的存储和使用方式

1.2. 结构化数据

  • 1.2.1. 在企业等组织中,只有少量的数据是结构化数据

  • 1.2.2. 结构化数据是基于事务的数据,是组织日常业务的副产品

1.3. 文本数据

  • 1.3.1. 存在于许多地方,如合同、电子邮件、电话交谈、医疗记录等

1.4. 机器生成的模拟/物联网数据

  • 1.4.1. 这类机器包括摄像头、无人机、手表、闹钟、车辆等

  • 1.4.2. 由机器生成的数据无处不在

2. 数据量

2.1. 在组织中,对于不同类型的数据有不同的度量维度

2.2. 最重要的维度是数据量,而存储和管理不同数据量所使用的技术也各不相同

2.3. 与文本数据相比,结构化数据的数据量相对较小

2.4. 由机器生成的数据的数据量要远远超过文本数据的数据量

3. 数据的业务价值

3.1. 仅仅有大量的数据并不意味着所有的数据都具有业务价值

  • 3.1.1. 有些数据的业务价值很高

  • 3.1.2. 有些数据的业务价值则相对较低

3.2. 由机器生成的模拟/物联网数据

  • 3.2.1. 只有一小部分具有巨大的业务价值

  • 3.2.2. 大部分由机器生成的数据都是机械式的记录,它们很少或根本没有业务价值

    • 3.2.2.1. 如果有一天车床由于异常导致无法正常工作,那么我们需要高度关注该车床当天生成的数据

    • 3.2.2.2. 车床在工作过程中生成的有用数据的比例非常低

4. 数据的访问概率

4.1. 数据的访问概率与其蕴藏的业务价值密切相关

  • 4.1.1. 数据被访问的概率集中在有业务价值的数据中

4.2. 数据湖仓中数据的访问概率与数据的业务价值呈正相关

4.3. 将不常被访问的数据与访问概率较高的数据存储在同一个地方是没有意义的,应该将其存储到不同的数据存储器中

4.4. 将不同类型的数据存储在一起不仅会影响存储器的性能、增加成本,而且会降低数据分析工程师处理数据的效率

  • 4.4.1. 将访问概率较高的数据与访问概率较低的数据存储在数据湖仓中的同一位置并不明智

4.5. 在对数据进行分隔存储时,我们需要考虑是否检索存储在大容量存储器中的数据

  • 4.5.1. 需要考虑将数据存储到大容量存储器中后,在未来出现未知需求时,我们能否查找和分析已存入大容量存储器中的数据

  • 4.5.2. 在大容量存储器中找到所需的数据后,就可以很容易地将该数据存储到高性能存储器中

5. 数据降级

5.1. 随着时间的推移,所有类型的数据都会发生数据降级(Data Degradation)

5.2. 数据的访问概率会随着时间的推移而降低

5.3. 存储时间越久的数据,对解决当前问题有帮助的概率就越低

6. 基于大容量存储器的数据归档机制

6.1. 随着时间的推移,数据的访问概率和业务价值都会降低,为了提高数据的存储能力,将大容量存储器作为归档数据的载体是必要的

6.2. 数据被存储在归档存储区,当需要用到相关数据时,可以在归档存储区进行检索

6.3. 如果数据归档处理得当,那么几乎不需要在归档存储区中检索数据

7. 数据抽象

7.1. 数据抽象是数据湖仓的基础,它是许多依赖企业数据的应用程序的基础设施

  • 7.1.1. 正确的数据抽象使数据湖仓中的各方可以方便地访问和使用数据,也能使数据更易于理解

7.2. 数据抽象(Data Abstraction)是一种处理大量复杂数据的非常有用且必要的方法

7.3. 人们在日常生活中经常使用抽象的方法来处理规模庞大且复杂的事物

7.4. 使用抽象的方式引用对象比单独提及每个对象更简便

7.5. 数据类型不同,抽象模式和方法也不同

  • 7.5.1. 结构化数据通过数据模型进行抽象

  • 7.5.2. 文本数据通过本体(Ontology)和分类标准进行抽象

  • 7.5.3. 模拟/物联网数据通过蒸馏算法进行抽象

7.6. 经过初步观察,可以发现,数据模型和本体似乎是一回事

7.7. 这两种抽象类型之间也存在一些重要且明显的区别

  • 7.7.1. 数据模型面向内部,着眼于组织的内部运行

  • 7.7.2. 本体面向外部,用于描述外部世界

  • 7.7.3. 数据模型描述的数据可在必要时进行更改

  • 7.7.4. 本体所抽象的文本则不能更改

  • 7.7.5. 数据模型所使用的数据是有限的

  • 7.7.6. 文本以及文本所依据的外部世界的描述却不是有限的

    • 7.7.6.1. 外部世界可以永远存在

7.8. 数据模型和本体是对数据的抽象,而蒸馏算法则是对处理过程的描述

7.9. 基础数据中还有另一种重要的抽象概念,即数据在组织流程中流动时对数据血缘的抽象

  • 7.9.1. 数据是作为事务的一部分被采集的

  • 7.9.2. 数据一旦被采集,就会与其他同类数据汇集在一起

  • 7.9.3. 数据到达用于分析处理的位置后,分析人员需要全面了解数据经历的整个过程,只有这样他们才能成功进行分析处理

8. 结构化数据模型

8.1. 实体关系图(Entity Relationship Diagram,ERD)

  • 8.1.1. 实体关系图描述了组织的主要主题领域及实体之间的关系

8.2. 数据项集(Data Item Set,DIS)

  • 8.2.1. 数据项集则将实体扩展为其组成部分,包括特定实体的键、属性以及数据项集中实体的从属数据

8.3. 数据库模式(Database Schema)

  • 8.3.1. 数据库模式是数据项集的镜像,它描述了数据的物理属性、索引和唯一键值等特征

  • 8.3.2. 只是在数据项集的基础上增加了一些细节

8.4. 数据模型的不同组成部分是相互关联的,实体关系图中的每个实体都有一个对应的数据项集,并且每个数据项集都有一个对应的数据库模式

8.5. 数据模型通常不包括派生数据(Derived Data)或汇总数据(Summarized Data),仅包含粒度数据(Granular Data)

8.6. 数据模型的元素可用于为数据模型内部的数据提供上下文情境

9. 本体和分类标准

9.1. 本体是一组相关的分类标准

  • 9.1.1. 本体是无限的,创建本体是为了满足特定群体的需求

    • 9.1.1.1. 本体的元素可以无限扩展
  • 9.1.2. 本体中的每个分类标准都是独一无二的

  • 9.1.3. 第一种类型的本体是通用的,适用于任何主题

    • 9.1.3.1. “我喜欢……”

    • 9.1.3.2. “我爱……”​

  • 9.1.4. 第二种类型的本体是针对某一学科的

    • 9.1.4.1. 医生有医学术语

    • 9.1.4.2. 律师有法律术语

    • 9.1.4.3. 建筑工人有建筑术语

  • 9.1.5. 第三种类型的本体是针对某个组织特定术语的本体

    • 9.1.5.1. 某家石油公司会使用一些只在其内部使用的术语

9.2. 分类标准是对相似事物的分类

  • 9.2.1. 每个分类标准中的元素都与其他分类标准中的元素存在着某种关系

  • 9.2.2. 分类标准中的每个元素都与分类标准的一般值有着相同的关系

  • 9.2.3. 分类标准用于对同类对象进行分类

  • 9.2.4. 分类标准是用来描述外部世界的

  • 9.2.5. 分类标准是一种固定的文本抽象,不会随意改变

10. 蒸馏算法

10.1. 从大量模拟/物联网数据中蒸馏有用的数据

10.2. 蒸馏算法的形式多种多样,如何选择取决于模拟/物联网数据自身的业务价值和最终业务价值之间的差异

10.3. 随着时间的推移,蒸馏算法也会随条件的变化而改变