大文件上传功能在标签服务的简单应用和代码实现

2023-06-14 14:01 由袋鼠云数栈发表于 #数据库

各位看官大家好，今天给大家分享的又是一篇实战文章，希望大家能够喜欢。

目前「袋鼠云客户数据洞察平台」标签服务的群组按种类划分，可以分为三大类，分别是实时群组、动态群组以及静态群组。如果按创建方式划分则有两种，分别是通过圈群的方式创建以及通过上传本地文件进行维度匹配的方式创建得到本地群组，其中本地群组属于静态群组。

除了本地群组外的其他群组目前都是采用圈群的方式生成匹配 SQL，然后执行相应的 SQL 得到相应查询维度的数据并入库到群组表，这种方式比较方便，可以快速得到一个用户期望的群组。

但是有那么一种场景，假设想要设置的条件很分散，通过圈群配置的时候比较复杂，那么只能通过上传文件的方式进行匹配，这就需要用户上传本地文件，通过指定匹配维度的方式来生成本地群组。

如果用户上传的本地文件很小，那么比较简单，按单个文件直接上传解析即可。如果用户上传的文件很大，有50M，那么就需要采用分片的方式进行上传，本文和大家分享一下这两种文件上传的代码实现。

小文件上传的实现

小文件上传的主要流程包括将文件上传到服务器，并获得文件的编码格式，文件上传完毕后，异步解析文件并得到本地群组。

将文件上传到 HDFS 并保存原始文件到 SFTP，上传到 HDFS 之后，通过 SQL 来与实体对应的大宽表进行数据匹配，最终生成本地群组。

小文件直接上传即可，代码如下，上传完成后，获取文件的编码格式，用于后续的文件解析。

大文件上传的实现

前端将大文件按指定大小分片，并计算原始文件的 md5 和每个分片文件的 md5，分别用于文件校验以及分片文件断点续传。接口入参代码设计如下：

大文件分片实现部分核心代码如下：

分片文件重新在服务器整合为一个大文件的整体代码如下：

单个分片的数据接收并写入代码如下：

当检测到上传的文件是最后一个分片文件的时候，待分片数据写入完成后，需要对服务器上的文件进行 md5 校验来保证文件数据的一致性。

当文件上传到服务器完成后，需要将文件上传到 HDFS 以及SFTP，代码如下：

最终得到的本地群组如下：

《数栈产品白皮书》：https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=szbky

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」，交流最新开源技术信息，qun号码：30537511，项目地址：https://github.com/DTStack

MySQL中都有哪些锁？

# MySQL中都有哪些锁 ## 为什么需要锁在计算机系统中，锁（`Lock`）是一种同步机制，用于控制对共享资源的访问。它确保在任何给定时间内只有一个线程能够访问受保护的共享资源，从而避免了由并发访问导致的数据竞争和不一致问题。同样，在数据库系统中，锁也扮演着重要角色，是其与文件系统不同的关键 ...阅读全文

向量数据库是如何工作的？

向量数据库和 Embedding 是当前 AI 领域的热门话题。 Pinecone 是一家向量数据库公司，刚刚以约 10 亿美元的估值筹集了 1 亿美元。 Shopify、Brex、Hubspot 等公司都在他们的 AI 应用程序中使用向量数据库和 Embedding。那么，它们究竟是什... ...阅读全文

Hbase中的region和rowkey

# region Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。 Region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。 ## region的分配一个表中可以包含一个或多个Region。每个Regio ...阅读全文

MySql的MVCC机制

事务隔离级别遗留问题：在读已提交的级别下，事务B可以读到事务A持有写锁的的记录，且读到的是未更新前的，为何写读没有冲突？可重复读级别，事务B可以更新事务A理论上应该已经获取读锁的记录，且更新后，事务A依然可以读到数据，为何读-写-读没有冲突？在可重复读级别，幻读没有产生其中，前两个问题就是因 ...阅读全文

如何成功实施一个数据治理项目？实施步骤有哪些？

企业数字化转型以数据为中心，通过数据驱动业务发展、管理协同和运营。因此，数字化转型关键在于数据，数据治理则需先行。从而更好激发数据生产要素潜能，实现业务数据化、数据价值化，助力企业数字化转型。 ## 那么何为数据治理？国际数据管理协会（DAMA）在其《DAMA数据管理知识体系指南（第2版）》一书中 ...阅读全文

数据库复习——数据库模式设计

# 数据库模式设计如果不好会导致的问题：１．冗余２．导致数据一致性出现问题３．插入异常４．更新异常５．删除异常 # 函数依赖函数依赖是指一个或多个属性的取值可以确定另一个属性的取值。具体地说，如果一个关系模式R中属性集合X的取值能唯一地确定属性集合Y的取值，那么我们称属性集合Y对于属性集 ...阅读全文

Hive执行计划之只有map阶段SQL性能分析和解读

这种只含map的操作，如果文件大小控制在合适的情况下，都将只有本地操作，其执行非常高效，运行效率完全不输于在计算引擎Tez和Spark上运行。 ...阅读全文

MySQL读取的记录和我想象的不一致

摘要：并发的事务在运行过程中会出现一些可能引发一致性问题的现象，本篇将详细分析一下。本文分享自华为云社区《MySQL读取的记录和我想象的不一致——事物隔离级别和MVCC》，作者：砖业洋__。事务的特性简介 1.1 原子性（Atomicity）要么全做，要么全不做，一系列操作都是不可分割的，如果 ...阅读全文

ORACLE如何找出视图依赖的对象和视图嵌套层数

之前写过一篇文章“SQL Server如何找出视图依赖的对象和视图嵌套层数”，这里我介绍一下Oracle数据库中如何找出视图的依赖对象以及视图嵌套层数关系。主要通过DBA_DEPENDENCIES这个系统视图（这个系统视图中包含有对象的依赖关系数据）。另外，我们使用了Oracle的树形查询（层级查询 ...阅读全文

Hbase的JavaAPI和数据存储

# 导入Maven依赖 ```XML org.apache.zookeeper zookeeper 3.4.6 org.apache.hbase hbase-client 2.2.5 org.apache.hadoop hadoop-client 3.2.1 org.apache.hadoop ha ...阅读全文