对比分析数仓中行列存的特性

2023-03-13 14:53 由华为云开发者联盟发表于 #数据库

摘要：行存表示了一种数据的存储方式，是最传统的一种存储方式。

本文分享自华为云社区《【玩转PB级数仓GaussDB(DWS)】行列存对比的一些事》，作者：sevenjiang。

行存表示了一种数据的存储方式，是最传统的一种存储方式。对于GaussDB(DWS)来说可以认为其表示存储引擎的基础实现，在其之上逐步构筑了列存和hdfs之类的存储特性。如下简单介绍下行列存使用的一些对比。

集群设置介绍：

参数default_orientation控制建表不指定存储方式的默认行为。

通过如下建表显式设置可以指定行列存储：

ORIENTATION

指定表数据的存储方式，即行存方式、列存方式，该参数设置成功后就不再支持修改。

取值范围：

• ROW，表示表的数据将以行式存储。

行存储适合于OLTP业务，此类型的表上交互事务比较多，一次交互会涉及表中的多个列，用行存查询效率较高。

• COLUMN，表示表的数据将以列式存储。

列存储适合于数据仓库业务，此类型的表上会做大量的汇聚计算，且涉及的列操作较少

适用场景：

列储存优势：

列的数据特征比较相似，适合压缩，压缩比很高；
表列的个数比较多，但是访问的列个数比较少, 列存可以大大减少不必要的IO读, 提高性能；
基于列批量数据的运算，CPU的cache命中率比较高，性能比较好；
列存储引擎更适合OLAP大数据统计分析的场景。

列储存劣势：

列存表（delta表但默认并没有启用）不适合小量 insert 及update操作

行存储优势：

点查询(返回记录少，基于索引的简单查询)；
增、删、改操作较多的场景；
主要使用整张表的内容，而不是单独某几个列，并且所关注的内容不需要通过任何聚集运算，推荐使用行式存储。

对比现状：

类型支持范围不同；
不支持表达式索引，索引失效；
行存默认btree索引，列存默认psort，主健是813版本支持的，老版本不支持；
老版本列存复制表不支持更新，813版本支持；
表级的check约束列存不支持；
cu锁的问题，并发更新会报错；
没有并发更新，但是开启delta表，更新/delete概率出错；
小CU的问题突出，引发空间膨胀，性能问题等；
exchange要求表的with中option一致；

列存导入实现方式：

列存表推荐使用批量插入(INSERT INTO SELECT/COPY)，单行记录插入会造成空间浪费，访问效率下降；
导入数据按列缓存，默认每60000行(通过max_batchrow修改)或者1G的大小生成CU；
生成CU时，根据数据类型，默认low压缩级别(通过compression修改)，进行压缩。
先写入CUDesc，再写入CU，同时将CU插入到数据复制队列。最后写入VCU；
CU文件是追加写(APPEND ONLY)。
分区表注意：

每一个分区是一个独立的列存表；
vector batch的进入，单条数据进入bulkload_row;
下盘、读取的处理；
内存自适应。

存在行列存join情况：

行存列存JOIN 转换的执行计划不符合预期，可以通过 set enable_force_vector_engine = on; 进行下优化：

enable_force_vector_engine

参数说明：对于支持向量化的执行器算子，如果其子节点是非向量化的算子，通过设置此参数为on，强制生成向量化的执行计划。

当打开enable_force_vector_engine开关时，无论是行存表、列存表或者是行列混存，如果plantree中不包含不支持向量化的场景，则强制走向量化执行引擎。

参数类型：USERSET

取值范围：布尔型

默认值：off

手工基础行转列操作，如果表有业务执行，需要进行加锁或者事务中执行，视图和索引进行单独处理：

create table schema.row_table1 (like schema.table1 including all EXCLUDING RELOPTIONS EXCLUDING INDEXES) WITH (ORIENTATION=column;
insert into schema.row_table1 select * from schema.table1;
ALTER TABLE schema.row_table1 ADD CONSTRAINT row_table1_pk PRIMARY KEY (xxx_id);
alter table rename schema.table1 to col_table1;
alter table rename schema.row_table1 to table1;

点击关注，第一时间了解华为云新鲜技术~

热门相关：斗神战帝大神你人设崩了霸皇纪姐妹们的丑闻危险的嗜好

HBase在进行模型设计时重点在什么地方？一张表中定义多少个Column Family最合适？为什么？

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.Hbase中的memstore是用来做什么的？ hbase为了保证随机读取的性能，所以hfile里面的rowkey是有序的。当客户端的请求在到达regionserver之后，为了保证写入rowke ...阅读全文

大数据面试题集锦-Hadoop面试题(一)

你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。 1、集群的最主要瓶颈磁盘IO 2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式 3、Hadoop生态圈的组件并做简要描述 Zookeeper：是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服 ...阅读全文

面试题百日百刷-HBase中HTable API有没有线程安全问题，在程序是单例还是多例？

锁屏面试题百日百刷，每个工作日坚持更新面试题。请看到最后就能获取你想要的,接下来的是今日的面试题： 1.HBase内部机制是什么？ Hbase是一个能适应联机业务的数据库系统物理存储：hbase的持久化数据是将数据存储在HDFS上。存储管理：一个表是划分为很多region的，这些region分布 ...阅读全文

面试题百日百刷-HBase HRegionServer宕机如何处理

锁屏面试题百日百刷，每个工作日坚持更新面试题。锁屏面试题app、小程序现已上线，官网地址：https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容，还包含特色的解锁屏幕复习面试题、每日编程题目邮件推送等功能。让你在面试中先人一步!接下来的是今日的面试题： 1.HBa ...阅读全文

mysql+navicat安装配置教程

一、MySQLl和Navicat的关系 Mysql一个关系型数据库管理系统，由瑞典MysqlLAB公司开发，目前属于Oracle旗下产品，是目前最流行的关心型数据库管理系统之一。 Navicat一个数据库管理工具，用可视化界面提供给用户操作Mysql数据库管理系统。记得我第一次安装Navicat之 ...阅读全文

详解 Flink Catalog 在 ChunJun 中的实践之路

我们知道 Flink 有Table（表）、View（视图）、Function（函数/算子）、Database（数据库）的概念，相对于这些耳熟能详的概念，Flink 里还有一个 Catalog（目录）的概念。本文将为大家带来 Flink Catalog 的介绍以及 Flink Catalog 在 ...阅读全文

hadoop学习记录

Hadoop简介安装狭义上Hadoop指的是Apache软件基金会的一款开源软件用java语言实现，开源允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理 Hadoop核心组件 Hadoop HDFS（分布式文件存储系统）：解决海量数据存储 Hadoop YARN（集群资源管理和 ...阅读全文

GaussDB（DWS）集群中寻找节点CPU占用高的语句

摘要：本文主要通过实例讲解如何通过gs_cpuwatcher.sh 脚本寻找CPU占用高语句。本文分享自华为云社区《GaussDB(DWS) gs_cpuwatcher.sh 脚本如何寻找CPU占用高语句》，作者：fighttingman。【工具名称】 gs_cpuwatcher 【功能描述】 ...阅读全文

分库分表之ShardingSphere

为什么要分库分表用户请求量太大单服务器TPS、内存、IO都是有上限的，需要将请求打散分布到多个服务器。单库数据量太大单个数据库处理能力有限；单库所在服务器的磁盘空间有限；单库上的操作IO有瓶颈。单表数据量太大查询、插入、更新操作都会变慢，在加字段、加索引、机器迁移都会产生高负载，影响 ...阅读全文

读SQL进阶教程笔记09_HAVING上

1. HAVING子句的用法 1.1. 学习SQL时最大的阻碍就是我们已经习惯了的面向过程语言的思考方式（排序、循环、条件分支、赋值等） 1.2. 只有习惯了面向集合的思考方式，才能真正地学好它 1.3. 帮助我们顺利地忘掉面向过程语言的思考方式并理解SQL面向集合特性的最为有效的方法 1.4. H ...阅读全文