读数据湖仓08数据架构的演化

1. 数据目录

1.1. 需要将分析基础设施放置在数据目录(Data Catalogue)的结构中

  • 1.1.1. 元数据

  • 1.1.2. 数据模型

  • 1.1.3. 本体

  • 1.1.4. 分类标准

1.2. 数据目录类似于图书馆的图书检索目录

  • 1.2.1. 先通过图书馆的图书检索目录进行查找,以便快速找到所需的图书

  • 1.2.2. 数据目录的运行方式与此类似,它负责连接组织中的所有文档和数据库

  • 1.2.3. 利用数据目录在基础数据中进行检索,能够节约大量的时间

1.3. 永久维护

  • 1.3.1. 数据目录经常被忽略的一个因素是它总在变化

  • 1.3.2. 数据目录也在不断地被更新维护

  • 1.3.3. 持续不断更新维护数据目录的原因

    • 1.3.3.1. 业务环境持续变化

    • 1.3.3.2. 系统不断变化

    • 1.3.3.3. 不断加入新系统

1.4. 开放

  • 1.4.1. 数据目录应该是开放的,且可供组织中的任何人分析使用,唯一例外的是那些试图对组织发起恶意行为的人

  • 1.4.2. 管理人员

  • 1.4.3. 文员

  • 1.4.4. 日常运营人员

  • 1.4.5. 审计师

  • 1.4.6. 分析人员

1.5. 不同数据类型的内部结构

  • 1.5.1. 结构化的数据目录可以在不同类型的数据之间产生关系

1.6. 分析工具可以用于处理数据目录中的数据,就像它可以用于分析基础数据中的详细数据一样

  • 1.6.1. 以独立于基础数据对数据目录进行分析

  • 1.6.2. 与大容量存储器不同,数据目录是数据湖仓的必要组成部分

2. 数据架构的演化

2.1. 数据架构是多类型数据处理的核心

  • 2.1.1. 没有数据架构,就没有坚实的数据基础可依赖

  • 2.1.2. 人工智能、机器学习和数据网格只有依赖数据架构,才能在各自的环境中取得成功

2.2. 数据湖仓中的基础数据是基于深思熟虑和精细设计的数据架构而来的

2.3. 伊始

  • 2.3.1. 应用程序只能读取输入,处理后并生成输出

  • 2.3.2. 简单的应用程序能够在企业等组织中高效地执行重复性工作,从而为组织节省大量工作时间

2.4. 应用程序

  • 2.4.1. 发现还可以编写更加复杂的应用程序

  • 2.4.2. 由于新的应用程序开始处理大量数据,并且生成更多的数据,因此,当时使用的存储介质(如打孔卡片和纸带)已经不足以存储这些数据

2.5. 磁带文件

  • 2.5.1. 随着发展,磁带文件成为数据存储的主要媒介

  • 2.5.2. 相比早期媒介,磁带文件能够存储更多的数据

  • 2.5.3. 与打孔卡片相比,磁带文件有许多优势,如存储成本更低,不需要固定长度的记录,并且可以重复使用

  • 2.5.4. 随着磁带文件的出现,主文件(Master File)的概念随之而来

    • 2.5.4.1. 主文件对于收集和存储组织的主要实体(如客户、产品和运输)的相关数据非常有用,它的理念是将相关信息集中存储在一个地方
  • 2.5.5. 磁带文件可以更有效地存储数据,但是在使用磁带文件时,要想访问单条记录,则必须读取整个文件

    • 2.5.5.1. 导致长时间的低效处理
  • 2.5.6. 虽然磁带文件解决了打孔卡片的众多问题,但也引入了一系列新的挑战

  • 2.5.7. 磁带文件也不能长时间保存数据

    • 2.5.7.1. 当磁带文件存储一段时间后,磁带文件上的氧化物会磨损而导致文件损坏,进而变得毫无价值

2.6. 硬盘存储

  • 2.6.1. 随着硬盘存储系统的出现,我们能够更加便捷地电子化存储和访问数据

  • 2.6.2. 数据库管理系统应运而生,负责管理这些数据

  • 2.6.3. 随着时间的推移,硬盘存储的生产成本逐步降低,最终变得经济实惠

  • 2.6.4. 硬盘存储带来的一项创新功能是可以便捷地直接存取数据,而不需要遍历整个文件

2.7. OLTP

  • 2.7.1. 由于数据能够快速存取,因此出现了一种被称为联机事务处理(OLTP)的技术

  • 2.7.2. OLTP使得计算机成为组织日常业务处理的重要组成部分

  • 2.7.3. OLTP将计算机的角色从仅处理后台任务提升到直接与客户进行接口交互

  • 2.7.4. 当计算机不可用或响应速度变慢时,业务将会受到影响

  • 2.7.5. OLTP应用程序会尽可能快地丢弃数据以保持响应速度

  • 2.7.6. 在历史数据变得愈发重要时,OLTP中却没有适合存储历史数据的位置

2.8. 个人计算机

  • 2.8.1. 个人计算机变得非常受欢迎。它的价格低廉,轻量便携,甚至可以随身携带

  • 2.8.2. 个人计算机为那些从未接触过计算机技术的人群打开了学习计算机的大门

  • 2.8.3. 个人计算机赋予终端用户更多自主权

  • 2.8.4. 多年来,IT部门一直是决定构建哪些应用程序以及允许哪些计算机能够被访问的唯一决策机构

  • 2.8.5. 随着个人计算机的进一步普及,IT部门逐渐失去计算机的控制权

2.9. 4GL处理技术和数据抽取应用程序

  • 2.9.1. 4GL(Fourth Generation Language,第四代编程语言)处理的技术应运而生

  • 2.9.2. 4GL处理技术使终端用户不再需要依赖IT部门来进行处理和编程

  • 2.9.3. 数据抽取应用程序在不同应用程序之间迁移和传递数据方面扮演重要角色

  • 2.9.4. 数据抽取应用程序与众多应用程序的结合导致了数据的不一致性问题

    • 2.9.4.1. 现在面临的挑战不再是找不到数据,而是要找到可信的数据
  • 2.9.5. 数据的不一致性问题是一个架构问题,而非技术问题

    • 2.9.5.1. 增加更多技术只会让问题变得更糟,而不是更好
  • 2.9.6. 从应用程序生成的数据到企业数据的转换并不是唯一的问题

  • 2.9.7. 长时间存储数据变得相当必要

    • 2.9.7.1. 在数据仓库应用程序出现之前,事务处理仅能够存储较短时间的数据,通常为几周到一个月

    • 2.9.7.2. 如果应用程序数据存储时间较长,那么事务响应速度会受到影响

    • 2.9.7.3. 人们发现将数据存储时间延长超过几周是有价值的

      2.9.7.3.1. 历史数据有助于我们发现和分析消费者的消费习惯

2.10. 数据仓库

  • 2.10.1. 提供企业数据视图

  • 2.10.2. 可用于分析即时可用的数据

  • 2.10.3. 可通过多种方式重塑粒度数据

  • 2.10.4. 可以将历史数据用于长期分析

  • 2.10.5. 数据仓库的架构持续了相当长的时间,至今仍在使用

2.11. 数据集市

  • 2.11.1. 为了满足对特定领域中数据使用的需求,一种被称为数据集市的架构出现

  • 2.11.2. 数据集市使用数据仓库中已有的粒度数据,并将其重塑为终端用户需求的形式和结构

  • 2.11.3. 通过数据集市,不同部门能够获取一致的数据,因为它们所看到的数据来源是相同的,那就是数据仓库

2.12. ⑩互联网和物联网数据

  • 2.12.1. 互联网还提供了大量来自世界各地的数据

2.13. ⑾数据湖

  • 2.13.1. 在技术和数据的竞合过程中出现了一种数据架构——数据湖

  • 2.13.2. 数据湖就会变成数据沼泽,或者也可以称为数据臭水沟

  • 2.13.3. 由于数据湖中的数据是未集成的,因此人们不清楚很多数据的内容

  • 2.13.4. 数据湖巨大无比,这导致人们难以找到他们想要的具体数据

  • 2.13.5. 数据湖中的数据没有进行任何整合,人们没有办法将其中一种类型的数据与其他类型的数据进行合理关联

  • 2.13.6. 由于数据形式非常混乱,人们无法有效地连接多个数据元素

2.14. ⑿数据湖仓

  • 2.14.1. 在数据湖混乱的背景下,数据湖仓诞生

  • 2.14.2. 数据湖仓为数据湖添加了功能——分析基础设施,并在将数据存入数据湖仓之前进行集成

  • 2.14.3. 数据湖仓成为一个可行的数据架构,能够满足组织的分析需求

  • 2.14.4. 前数据湖仓是一个成熟的架构,可以满足需求

  • 2.14.5. 未来肯定还会出现架构增强的数据湖仓,以及与数据湖仓不同的形式,以支持新的需求