读数据湖仓05数据需要的层次
1. 业务价值
1.1. 技术和商业在这个世界上是相互交织的
- 1.1.1. 基础数据在商业和技术应用中是不可或缺的
1.2. 技术的存在是为了推动商业的目标和进步,并由企业出资支持
-
1.2.1. 当技术推动商业发展时,商业会蓬勃发展,技术也会随之繁荣
-
1.2.2. 当技术发展偏离这个基本模式时,它就会失去生机甚至消亡
-
1.2.3. 在任何情况下,商业都将决定技术的最终满意度和价值,商业是推动技术发展的关键
1.3. 赚钱对于企业的长期延续至关重要,它是成功的关键,现金流则是商业活动的生命线
1.4. 从长远来看,所有成功的技术都在某种程度上专注于实现业务目标
-
1.4.1. 建立和维护基础数据是技术支持业务的最佳方式,可以根据数据基础来做出合理的业务决策
-
1.4.2. 为基础数据打造坚实的基础设施是一项复杂的任务
-
1.4.3. 创建基础数据为实现这些目标奠定了基础
-
1.4.4. 当我们在复杂的技术丛林中挣扎时,很容易忘记最终的目标是实现业务价值
1.5. 技术所有的组成部分必须协同工作
1.6. 协调不同的技术组成部分并非易事
-
1.6.1. 技术基础由多个技术组成部分组合而成
-
1.6.2. 每个技术组成部分都与其他部分大不相同
-
1.6.3. 不同的技术组成部分需要排序才能协同工作
-
1.6.4. 不同的技术组成部分排序所需的时间框架大不相同
-
1.6.5. 不同的技术组成部分以不同的速率工作
1.7. 领域
-
1.7.1. 随着技术逐渐脱离领域,单个组成部分会开始考虑构建自己独特的技术,但也会忽视对业务价值的关注
-
1.7.2. 技术的组成部分甚至无法与业务流程关联,而是将所有的焦点都集中在技术的复杂性上,并非业务需求上
-
1.7.3. 随着技术逐渐开始建立自己的领域,支持组织业务的愿景也在逐渐丧失
1.8. 每个技术的组成部分都需要聚焦于构建和辅助业务最核心的基础数据
- 1.8.1. 只有这样做,才能确保组织的技术能够真正致力于支持组织的业务
2. 数据需要的层次
2.1. 类比马斯洛需要层次论
- 2.1.1. 需要层次论金字塔底部的两个层次是生存所必需的
2.2. 数据需要层次结构的5个层次,从下向上依次为数据获取,数据传输与存储,数据转换,数据标签、整合与汇聚,数据分析与机器学习
2.3. 具体步骤
-
2.3.1. 只收集真正需要使用的数据
-
2.3.2. 数据是可信的,也是可理解的
-
2.3.3. 需要将数据存储在既方便访问又安全的地方
-
2.3.4. 把数据转换成员工和应用程序可以使用的格式
-
2.3.5. 将存储和转换后的数据进行整合,以便从不同系统中获取更全面的数据视图
-
2.3.6. 将数据与适当的元数据汇聚,应用于报表和业务分析系统
-
2.3.7. 创建能够进行数据学习的系统,优化业务决策,甚至发明一些创新技术
3. 数据获取
3.1. 数据获取是最底层的数据需要层次,也就是第一个层次
3.2. 我们收集的数据远远超出所需要使用的范围
3.3. 我们更擅长收集大量数据
3.4. 数据的来源有很多,我们可以从数据库接口、传感器、业务系统、设备或物联网系统中获取数据
3.5. 无论数据来自何处,都需要保证数据的完整性、准确性与唯一性,并且不能带有偏见
3.6. 即使是文本数据,也应该从原始来源获取,以避免中间转换导致的信息丢失
- 3.6.1. 应该保存文本数据对应的元数据,以便未来进行数据溯源
3.7. 数据获取层次的关键在于正确地收集和分类数据
- 3.7.1. 数据必须是正确且可信的
4. 数据传输与存储
4.1. 数据需要层次结构的第二个层次是数据传输与存储
4.2. 为了确保数据传输的可靠性,源系统必须具备可靠的数据传输机制
4.3. 用于存储结构化数据和非结构化数据的系统也必须是冗余的,以保障数据安全,并提升检索效率
- 4.3.1. 存储系统还应易于访问
4.4. 批处理或联机事务处理数据传输系统,需要配备验证和回滚程序
4.5. 数据提取、转换和加载过程必须符合业务需求和数据治理准则
4.6. 多年来,关系型数据库和数据仓库一直是结构化数据存储与检索的主要方式
5. 数据转换
5.1. 数据转换是将数据转化为对业务决策有用的形式
5.2. 是数据需要层次结构中最困难的层级之一
5.3. 是第三个层次,它要求同时具备数据知识和业务理解
5.4. 数据转换层次对企业来说是建立竞争优势的关键,它能够将来自多个业务系统的数据整合转换为可用于决策支持系统、专家系统、商业智能系统和业务分析系统的数据资源,同时,它还同数据传输与存储层次密切结合
5.5. 数据转换层次的复杂性在于其需要有效地清洗当前“非常混乱”的数据,并按照企业数据治理委员会指定的格式进行数据转换
- 5.5.1. 如果基础数据不可信、存储方式不正确,就无法与其他数据进行整合
5.6. 数据转换层次的主要任务包括数据清洗、数据转换、面向报表系统整理数据以及进行数据异常检测
5.7. 数据异常检测的目的是通过数据洞察提前检测并修复潜在问题,避免造成严重的影响,从而节省资金
- 5.7.1. 如果能够提前检测并修复潜在问题,防止它朝错误的方向发展,就能够避免对业务的影响
6. 数据标签、整合与汇聚
6.1. 数据需要层次结构的第四个层次是数据标签、整合与汇聚,这个层次是业务分析和报告系统的核心
6.2. 通过整合数据以满足应用需求,可以为决策者提供信息和洞察力
6.3. 客观的评价指标体系可用于评估数据整合的效果
6.4. 根据不同维度汇聚数据,形成OLAP立方体,不仅有助于发现数据的分布趋势与关联性,而且有助于发现采集数据异常、数据偏差和序列特征
6.5. 数据标签、整合与汇聚层次的重要之处在于它能够创造数据的价值,因为在这个层次,企业才开始真正地使用数据
6.6. 数据标签、整合与汇聚层次提供了访问数据的入口,其他应用都需要构建在该层次之上
- 6.6.1. 很多企业在数据标签、整合与汇聚层次中获得了稳健的业务支持能力、成功的实践以及竞争优势
7. 数据分析与机器学习
7.1. 数据需要层次结构中的顶层是数据分析与机器学习
7.2. 该层次使用计算机算法并利用现有数据来解释自身
-
7.2.1. 一旦它理解了现有数据,就可以预测新数据到来时的趋势
-
7.2.2. 这是机器学习的基础,这些算法可以对预期结果与实际结果进行试验
-
7.2.3. 如果我们能够预测即将发生的情况,就可以提前制定适当的行动以应对预期的结果
7.3. 基于数据分析与机器学习层次,企业可以根据数据进行业务决策的优化
7.4. 正确预测并提前制定适当的行动能够使得企业在面对竞争对手时获得真正的数据竞争优势
7.5. 在数据分析不断深入发展的背景下,计算机算法持续进步,拥有模拟人类智能的系统开始出现