《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)

《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限与安全、数据资产管理架构等。第9~10章主要从实战的角度介绍数据资产管理技术的应用实践,包括如何对元数据进行管理以发挥出数据资产的更大潜力,以及如何对数据进行建模以挖掘出数据中更大的价值。

图书介绍:数据资产管理核心技术与应用

今天主要是给大家分享一下第四章的内容:

第四章的标题为数据质量的技术实现

内容思维导图如下:

本文是接着

《数据资产管理核心技术与应用》读书笔记-第四章:数据质量的技术实现(二)

继续往下介绍

4、 常见的开源数据质量管理平台

4.1、   Apache Griffin

Apache Griffin 是一个开源的大数据质量管理系统,底层是基于Hadoop和Spark实现的,支持批处理和流处理模式两种数据质量检测方式,官方网址为:https://griffin.apache.org/,如下图所示,是Apache Griffin 官方地址https://griffin.apache.org/docs/quickstart-cn.html中提供的架构图。

Apache Griffin 的源代码github地址为https://github.com/apache/griffin    《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从架构图中可以看到

  • Apache Griffin 在做数据质量检测时,是基于Spark 实现的,以Spark任务的形式对定义的待采集数据质量的数据源进数据采集。
  • 在架构图中,Define主要用于数据质量的维度定义,也就是我们说的数据质量规则的定义。
  • Measure负责数据质量任务的执行以及生成数据质量的结果数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • Analyze主要负责结果数据的存储以及呈现。

如下图所示,Apache Griffin 的架构图刚好是可以对应到我们前面的数据质量采集流程的。

另外Apache Griffin   也是支持容器化部署的,相关部署介绍请参考:https://github.com/apache/griffin/blob/master/griffin-doc/docker/griffin-docker-guide.md

Apache Griffin   的主要技术栈和开发语言包括

  • 后端:Java和Scala,其API服务主要是由Java 语言开发,基于Http协议和GRPC协议做数据通信。其任务的执行主要是基于Scala语言开发,用于Spark任务的提交、运行等。
  • 前端:TypeScript、Html、Css

其核心技术架构如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

从图中可以看到其核心技术是通过SpringBoot+Spark来实现的。

4.2、  Qualitis

Qualitis是一个支持多种异构数据源的数据质量监测平台,其设计初衷是用于解决业务系统运行、数据中心建设及数据治理过程中的遇到的各种数据质量问题。

如下图所示,是Qualitis官方地址https://github.com/WeBankFinTech/Qualitis/blob/master/docs/zh_CN/ch1/%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1%E6%96%87%E6%A1%A3.md#21-%E6%80%BB%E4%BD%93%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1中提供的架构图。

从架构图中可以看到也是包含了质量规则配置、质量任务管理和质量数据采集、质量数据存储和分析等这些核心模块。

在Qualitis官方网址中也提供了总体模块设计图,其模块设计图也是刚好可以对应到我们前面的数据质量采集流程,如下图所示。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著

可以看到数据质量采集的流程其实不管在哪个开源的数据质量平台中,都几乎是一样的,都需要包括

  • 质量规则的配置和管理:主要是配置规则和维护规则。
  • 定时job定时去执行质量规则抓取原始的数据质量数据。《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,作者为张永清等著
  • 质量的数据处理和分析:对抓取到的原始质量数据进行处理,然后通过质量数据的分析来优化质量规则的配置,形成一个闭环的链路,如下图所示