读数据湖仓06数据集成

1. 数据湖仓中的数据集成

1.1. 数据湖仓的总体目标是为每一个人提供支持,包括从普通职员到CEO

1.2. 有了作为基础设施的基础数据,企业等组织才能实现真正的数据驱动

1.3. 提供组织所需的数据,最关键的一环在于提供集成的数据基础

  • 1.3.1. 只将数据扔进数据湖仓就指望它能满足人们的需求是不现实的

  • 1.3.2. 如果将数据丢进数据湖仓而不对其进行集成,将会浪费时间、金钱和机会

1.4. 数据集成是构建组织决策基础的必要条件

2. 自动集成

2.1. 对于应用程序生成的结构化数据,可以运用ETL

2.2. 对于文本数据,可以运用文本ETL

2.3. 对于模拟/物联网数据,则可以运用数据蒸馏算法

2.4. 这些技术都能以成熟和自动化的方式支持集成需求

2.5. 数据集成的最终结果是数据本身的转换

  • 2.5.1. 基础数据包含转换过的数据

2.6. 转换数据的有趣之处在于不同类型数据的转换过程完全不同

2.7. ETL、文本ETL和数据蒸馏算法的处理过程之间几乎没有共同点

3. ETL

3.1. ETL是对应用程序生成的结构化数据进行转换的过程

3.2. 只有集成基于应用程序与基于交易的数据,才能够真正理解企业所开展的业务

3.3. 命名约定

3.4. 编码习惯

3.5. 物理特性差异

3.6. 属性度量

3.7. 属性度量

3.8. 属性存在标准

3.9. 粒度差异

3.10. 定义差异

3.11. 数据选择标准

3.12. 归纳和推导差异

4. 文本ETL

4.1. 结构化数据主要来自交易

4.2. 文本数据则主要来自语音对话和报告

  • 4.2.1. 可能来自印刷资料,例如报纸、文档和广告册

  • 4.2.2. 可能来自互联网、电子邮件和其他电子形式的数据

4.3. 两者的数据来源存在显著差异

4.4. 文本数据是以自由格式呈现的

4.5. 事务数据每次出现时都清晰明了

4.6. 描述文本数据所涵盖的本体

4.7. 本体内的分类标准

4.8. 分类标准和业务规则的联系

4.9. 基于词与词之间的相近程度识别语义

4.10. 多义词辨识

4.11. 对选定数据去标识化的能力

4.12. 识别常用措辞的能力

4.13. 多语言环境下运转的能力

4.14. 识别文本中情感的能力

5. 数据蒸馏算法

5.1. 模拟/物联网数据集成的本质是删除基础数据中访问概率较低的数据

5.2. 无法存储生成的所有模拟/物联网数据,尤其是访问概率较低的数据

5.3. 为了从访问概率低的非相关数据中分离出访问概率高的相关数据,需要首先使用数据蒸馏算法对原始模拟/物联网数据进行蒸馏处理,然后把访问概率较高的数据置于基础数据中

5.4. 蒸馏算法

5.5. 算法随时间推移发生的变化

5.6. 阈值选择

5.7. 阈值随时间推移发生的变化

5.8. 记录度量的时间

5.9. 度量的时间随时间推移发生的变化

6. 分析

6.1. 构建数据湖仓的基础数据的主要目的是支持分析处理

  • 6.1.1. 基础数据主要用于支持分析处理,但有时也会应用在运营中

6.2. 结构化数据分析

  • 6.2.1. 我们需要确保所分析的是完整的结构化数据,这样组织才能够在整个组织范围内进行分析处理

  • 6.2.2. 将未集成的应用程序生成的数据存入基础数据中是错误的

6.3. 文本数据分析

  • 6.3.1. 使用基础数据进行分析处理还有一种方式,那就是进行文本数据分析

  • 6.3.2. 直接将原始文本数据存储在基础数据中都不是一个明智的策略

  • 6.3.3. 如果基础数据中有了分析文本数据所需的基础,就可以开展各类分析工作

  • 6.3.4. 文本数据分析的一个典型应用场景是了解客户的情绪状况

  • 6.3.5. 文本数据分析还可用于相关性分析

    • 6.3.5.1. 在相关性分析中,分析的对象是多个同时生成的变量

6.4. 模拟/物联网数据分析

  • 6.4.1. 模拟/物联网数据分析能够展示数据的整体情况或者单条/多条记录的分析结果

6.5. 结构化数据和文本数据的结合

  • 6.5.1. 将结构化数据和文本数据结合起来进行分析

  • 6.5.2. 当结构化数据与文本数据合并时,一张完整且精确的客户画像便呈现了出来

  • 6.5.3. 通过对客户的洞察能够使厂商改进产品和服务,获得增加新客的机会

  • 6.5.4. 进行客户360度全景分析、客户趋势分析和店铺满意度分析等

  • 6.5.5. 难点在于结构化数据的操作是基于键、属性和索引进行的,而我们通常说话或写作的方式并不符合这种结构

  • 6.5.6. 当无法在结构化数据和文本数据之间建立连接时,要想同时分析这两种数据将非常困难,甚至是不可能的

6.6. 连接3个环境

  • 6.6.1. 在3个环境之间建立连接也是有可能的

  • 6.6.2. 不同环境之间的连接通常都属于弱连接,这种弱连接会限制很多重要的分析处理工作的开展

6.7. 3种方式分析和处理基础数据

  • 6.7.1. 通过仪表盘

    • 6.7.1.1. 仪表盘适用于展示静态数据和明确定义的数据,也适用于那些数据结构以及与其他数据的关系不经常变化的场景

    • 6.7.1.2. 对于那些动态变化的数据与数据关系经常变化的场景,则不宜通过仪表盘来展现

    • 6.7.1.3. 仪表盘适合用于展示汇总数据,不适合呈现个体数据

    • 6.7.1.4. 最吸引人的地方在于能够将数据可视化

      6.7.1.4.1. 通常,高层管理者都对酷炫的可视化效果青睐有加

  • 6.7.2. 通过知识图谱

    • 6.7.2.1. 知识图谱适用于展示动态数据,其中数据元素之间的关系也会不断变化,它能够帮助关联不同类型的数据

    • 6.7.2.2. 知识图谱还适用于展示详细数据,但并不适用于汇总数据

  • 6.7.3. 通过电子表格

    • 6.7.3.1. 巨大价值在于即时性和极强的灵活性

    • 6.7.3.2. 任何用户都可以打开电子表格工具,处理各种类型的数据,并直接录入数据

    • 6.7.3.3. 无法保证数据的完整性,也无法判断其中的某个数据是否准确可信

    • 6.7.3.4. 由于任何人都可以在电子表格中输入任何值,因此难免让大家怀疑其中的数据的可信度

6.8. 只要基于可靠的基础数据,数据分析的结果便是可信的

7. 软数据

7.1. 数据湖仓中基础数据的本质应该是可信的

  • 7.1.1. 如果基础数据不可信,就不应该把这些数据存入数据湖仓中

  • 7.1.2. 当人们访问基础数据时,必须相信检索到的数据是准确和完整的

7.2. 当我们提到结构化数据、文本数据和模拟/物联网数据时,通常不会对数据的真实性产生疑问

  • 7.2.1. 这种数据被称为“硬”数据

7.3. 软数据是指来自电子表格、互联网或政府的数据

7.4. 软数据的问题在于其准确性和真实性

7.5. 软数据与基础数据中的“硬”数据存在差异

7.6. 软数据是否应该存入基础数据呢?

  • 7.6.1. 取决于软数据的可信度,同时我们还要考虑是否可以将软数据与已经确定和审查过的数据结合起来

  • 7.6.2. 必须确保软数据的有效性,如果软数据不符合有效性要求,则不应将其存入基础数据

7.7. 从所有软数据来源的角度来看,在将数据存入基础数据之前,需要对数据进行确认,以了解数据的可信度

8. 电子表格数据

8.1. 软数据的第一个数据来源是电子表格

8.2. 在基础数据中存入电子表格数据会受到许多严格的限制

8.3. 最大的问题是数据来源的不确定性

  • 8.3.1. 我们无法确定电子表格中的数据是否真实可靠

  • 8.3.2. 由于任何人都可以在电子表格中填写任何内容,因此,我们必须先考虑电子表格数据的可信度

  • 8.3.3. 如果电子表格中的数据不可信,就不应该将其存入基础数据中

8.4. 电子表格中的数据没有可用或可靠的元数据

8.5. 只能从电子表格中获取文本数据,但即便如此,也必须确保文本数据能够体现上下文情境

9. 互联网数据

9.1. 软数据的第二个丰富的数据来源是互联网

9.2. 只要数据经过认证和验证,我们就可以将互联网数据存入基础数据中

9.3. 有些网站不希望人们从他们的网站获取数据

9.4. 从互联网上获取数据导致的隐私问题并不常见

  • 9.4.1. 由于在互联网上发布的数据大多属于公共领域,因此通常不涉及隐私问题

9.5. 在大部分情况下,在互联网上获取的数据基本都是一次性的,虽然数据有可能会不断更新,但是总体而言这种概率是比较低的

10. 政府数据

10.1. 软数据的第三个可能的数据来源是政府

10.2. 政府会发布大量可能有用的数据

  • 10.2.1. 利率

  • 10.2.2. 人口数量

  • 10.2.3. 通货膨胀率

  • 10.2.4. 就业率

10.3. 可以把政府公布的数据存入基础数据