读数据压缩入门笔记05_字典转换

2023-06-16 06:47 由躺柒发表于 #其他

1. 瓶颈

1.1. 在网络带宽有限、存储昂贵的时期

1.2. 移动设备正日益成为人们访问互联网的首选的今天

1.3. 数据压缩成了缓解这些瓶颈的关键

2. 字典转换

2.1. dictionary transforms

2.2. 完全改变了人们对数据压缩的认知

2.2.1. 压缩变成了一种对各种类型的数据都有用的算法

2.3. 事实上今天所有的主流压缩算法（比如GZIP或者7-Zip）都会在核心转换步骤中使用字典转换

3. 基本字典转换

3.1. 统计压缩主要关注数据流中单个符号的出现概率

3.2. 这一概率与其周围可能出现的符号无关

3.3. 符号字典

3.4. 任何出现可以重复使用的相似内容分组的地方，都会有“短语”存在

3.5. 步骤

3.5.1. 给定源数据流

3.5.2. 构建出单词字典（而不是符号字典）

3.5.3. 再将统计压缩应用到字典中的单词上

3.6. 字典转换并非是要去替代统计编码

3.6.1. 只是你先应用到数据流上的一个转换，这样统计编码算法就能更有效地对其编码

3.7. 实际是一个数据流的预处理阶段

3.7.1. 生成的数据集会更小，比源数据流压缩率更高

3.8. 当能识别出那些经常重复使用的长字符串，并为它们分配最短的码字时，字典转换的效率最高

4. 分词

4.1. tokenization

4.2. 是信息论领域的一个研究分支

4.3. 一种暴力方法是读取一组符号并搜索字符串的剩余部分来确定该组符号的出现频次

4.3.1. 对所有真实的数据流而言，这样做不仅需要大量的内存，同时还需要花费很长的时间

4.4. 为了找到数据流的理想分词，我们需要有某种方法来处理现有的和那些还没有遇到的符号，并能以一种高效的方式将两者合并为尽可能长的符号集

5. LZ算法

5.1. 1977年，Abraham Lempel和Jacob Ziv提出

5.1.1. Jacob Ziv大学毕业于以色列理工学院，随后于1961年获得了麻省理工学院信息论专业的博士学位

5.1.2. Abraham Lempel在以色列理工学院获得了学士、硕士和博士学位

5.1.3. 1997年获得了IEEE信息理论学会的香农奖

5.2. LZ77 和LZ78

5.2.1. 找出最佳分词方面非常高效，30多年来还没有其他算法可以取代它们

5.3. 衍生算法

5.3.1. 每一种变体都是根据特殊的需要、性能要求的不同或者用例的不同，对LZ77基本算法进行了一些小调整

5.3.1.1. 对数据集越了解，你就越能从中选择出最适合的LZ变换

5.3.2. GIF图像格式中使用的LZW（即Lempel-Ziv-Welch）算法

5.3.2.1. Terry Welch于1984年提出的，它采用了LZ78算法的思想

5.3.2.2. 首个在计算机中广泛采用的通用数据压缩方法

5.3.3. 应用于7-Zip、xz等压缩工具的LZM（即Lempel-Ziv-Markov chain）算法

5.3.4. DEFLATE又应用于PNG图像格式、PKZIP、GZIP等压缩工具及zlib库中

5.3.5. PKZip、ARJ、RAR、ZOO和LHarc使用LZSS算法

5.3.6. 图

5.4. 真正吸引人的地方还在于它可以和统计编码结合使用

5.4.1. 将记号中的偏移量、长度值以及字面值分开后，再按照类型合并，组成单独的偏移量集、长度值集和字面值集，然后再对这些数据集进行统计压缩

6. LZ算法的工作原理

6.1. 通过在读取的字符串中寻找当前单词的匹配来分词

6.2. 与读取一组符号然后向后查找它是否重复出现不同

6.2.1. LZ算法向前查找当前单词是否出现过

6.3. 在数据流的前半部分，由于我们见过的单词很少，因此出现新单词的可能性很大

6.4. 数据流的后半部分，由于已经有了很大的缓冲区，因此出现匹配的可能性更大

6.5. 向前寻找匹配可以让我们找出“最长的匹配词”

快速搭建一个自己的博客

## 准备 >本地系统环境：Ubuntu 20.04.5 LTS > >Node版本：18.15 > >Git版本：2.25.1 > >一个github账号 > >一台云服务器 > >一个备案好的域名系统环境不同，根据自己的系统来操作就行，步骤差不多。 Node、Git的版本选择长期稳定支持的新版 ...阅读全文

网络传输中的重要参数-简单的网络画像

[toc] 在前两篇博文对[带宽](https://www.cnblogs.com/mapleumr/p/17469513.html)、[时延与丢包率](https://www.cnblogs.com/mapleumr/p/17464980.html)有了初步的认识后（引流引流哈哈哈），我们已经可以 ...阅读全文

k8s实战案例之基于StatefulSet控制器运行MySQL一主多从

StatefulSet本质上是Deployment的⼀种变体，在v1.9版本中已成为GA版本，它为了解决有状态服务的问题，它所管理的Pod拥有固定的Pod名称，启停顺序，在StatefulSet中，Pod名字称为⽹络标识(hostname)，还必须要⽤到共享存储。在Deployment中，与之对应的... ...阅读全文

UE开发使用Rider时缓存干爆C盘的解决方案

我们在使用Rider开发UE时，Ride会为每一个项目创建一个解决方案缓存，如果开几个新项目写测试demo，我们的C盘会逐渐捉急 ![默认情况下](https://img2023.cnblogs.com/blog/2003597/202306/2003597-20230615183008462-89 ...阅读全文

大促质量备战之三化战役：“常态化、精细化、一体化”

大促作为JD一年两度的盛事，质量备战是不可或缺的重要环节。每逢大促都是一次大型的联合战役，在这种战役中，不仅有各种“海陆空”技术争奇斗艳，还会让我们的技术视野变得更宽阔，让我们协同变得更默契，所谓以战养兵。测试团队作为质量备战团队，沉淀了“常态化”、“精细化”、“一体化”的三化备战策略，希望与君共勉... ...阅读全文

web基础与HTTP协议

目录一、DNS 二、域名三、web基础四、HTTP 五、总结摘要：简单叙述web基础，网页的概念，域名解析，域名结构，HTML超文本传输语言，cookie和session扩展一、DNS 1.DNS概念内网和外网无法通信，为了内网可以和外网通信，dns技术解决问题，可以将公网和私网互相通信 ...阅读全文

中国信通院携手合合信息开启《文档图像篡改检测标准》制定工作

《文档图像篡改检测标准》将为文档图像内容安全提供可靠保障，助力新时代AI安全体系建设。作为牵头方，中国信通院表示，《文档图像篡改检测标准》将基于产业现状，围绕“细粒度”视觉差异伪造图像鉴别、生成式图像判别、文档图像完整性保护等行业焦点议题，凝聚行业共识，以期为行业提供有效指引。 ...阅读全文

2小时解不完的数据库练习题，来挑战一下吧！

### 写在前面我已经记不起来，有多久没更新文章了。 5月中旬我还在上班，中旬以后一系列发生的事情，真的远远超出了可承受范围，只能硬着头皮面对！我是谁，我应该是谁，又能怎样，只能向前····· ### 数据库实例 #### class表 ![image.png](https://p6-jueji ...阅读全文

科普｜一文看懂虚拟人技术原理

本文作者来自即构开发者社区@ Daniel 投稿，为我们分享时下热门的数字人技术。IDC 预计，到 2026 年，中国 AI 数字人市场规模将达到 102.4 亿元。开发者有必要对数字人技术有完整的认知和理解。 ...阅读全文

Open AI ChatGPT Prompt 学习之基础篇

2023 年，最火的可能就是 openAI 了，其组织代表的产品 chatGTP，相信大家已经有所耳闻。不少同学已经开始着手使用，并截图晒出 ChatGPT 是多么得智能与神奇。而有的同学在使用之后觉得有点差强人意，指出顶多算是一个比较聪明的聊天机器人而已。其实，ChatGPT 的难点，在于 P... ...阅读全文