压缩算法

来源:推荐阅读 时间:2018-08-01 11:00:05 阅读:

【www.zhuodaoren.com--推荐阅读】

压缩算法篇一:VC教程:Gzip Zlib PNG 压缩算法,源码详解


VC网权威发布VC教程:Gzip Zlib PNG 压缩算法,源码详解,更多VC教程相关信息请访问VC网。
【导语】准备了《VC教程:Gzip Zlib PNG 压缩算法,源码详解》,供大家参考!
  gzip,zlib,以及图形格式png,使用的是同一个压缩算法deflate。我们通过对gzip源码的分析来对deflate压缩算法做一个详细的说明。我阅读的gzip版本为 gzip-1.2.4。我们对算法做三种程度的说明。第一种程度,对gzip所使用压缩算法基本原理的说明。第二种程度,对gzip压缩算法实现方法的说明。第三种程度,对gzip实现源码级的说明。    如果你有时间的话,我建议你先不要看下面的内容,自己尝试通过读gzip源码,来了解它的压缩解压缩是如何实现的,这将会是一个非常有趣的智力游戏,千万不要错过。当一个又一个的谜被解开时,那感觉就像唐伯虎同志所说的,“慷慨然诺杯酒中”。(小唐的诗,除了另一个倒霉蛋曹雪芹外,好像不太被人提。)    1 gzip所使用压缩算法的基本原理    gzip 对于要压缩的文件,首先使用lz77算法进行压缩,对得到的结果再使用huffman编码的方法进行压缩。所以我们分别对lz77和huffman编码的原理进行说明。    1.1 ... 1.2 ...    2 gzip压缩算法实现方法    2.1 LZ77算法的gzip实现    首先,gzip 从要压缩的文件中读入64KB的内容到一个叫window的缓冲区中。为了简单起见,我们以32KB以下文件的压缩为例做说明。对于我们这里使用32KB以下文件,gzip将整个文件读入到window缓冲区中。然后使用一个叫strstart的变量在window数组中,从0开始一直向后移动。strstart在每一个位置上,都在它之前的区域中,寻找和当前strstart开始的串的头3个字节匹配的串,并试图从这些匹配串中找到最长的匹配串。    如果当前的strstart开始的串,可以找到最少为3个字节的匹配串的话,当前的strstart开始的匹配长度那么长的串,将会被一个<匹配长度,到匹配串开头的距离>对替换。    如果当前的strstart开始的串,找不到任何的最少为3个字节的匹配串的话,那么当前strstart的所在字节将不作改动。    为了区分是一个<匹配长度,到匹配串开头的距离>对,还是一个没有被改动的字节,还需要为每一个没有被改动的字节或者<匹配长度,到匹配串开头的距离>对,另外再占用一   位,来进行区分。这位如果为1,表示是一个<匹配长度,到匹配串开头的距离>对,这位如果为0,表示是一个没有被改动的字节。    现在来说明一下,为什么最小匹配为3个字节。这是由于,gzip 中,<匹配长度,到匹配串开头的距离>对中,"匹配长度"的范围为3-258,也就是256种可能值,需要8bit来保存。"到匹配串开头的距离"的范围为0-32K,需要15bit来保存。所以一个<匹配长度,到匹配串开头的距离>对需要23位,差一位3个字节。如果匹配串小于3个字节的话,使用<匹配长度,到匹配串开头的距离>对进行替换,不但没有压缩,反而还会增大。所以保存<匹配长度,到匹配串开头的距离>对所需要的位数,决定了最小匹配长度至少要为3个字节。    下面我们就来介绍gzip如何实现寻找当前strstart开始的串的最长匹配串。    如果每次为当前串寻找匹配串时,都要和之前的每个串的至少3个字节进行比较的话,那么比较量将是非常非常大的。为了提高比较速度,gzip使用了哈希表。这是gzip实现LZ77的关键。这个哈希表是一个叫head的数组(后面我们将看到为什么这个缓冲区叫head)。gzip对windows中的每个串,使用串的头三个字节,也就是strstart,strstart+1,strstart+2,用一个设计好的哈希函数来进行计算,得到一个插入位置ins_h。也就是用串的头三个字节来确定一个插入位置。然后把串的位置,也就是 strstart的值,保存在head数组的第ins_h项中。我们马上就可以看到为什么要这样做。head数组在没有插入任何值时,全部为0。
  当某处的当前串的三个字节确定了一个ins_h,并把当时当前串的位置也就是当时的strstart保存在了head[ins_h]中。之后另一处,当另一处的当前串的头三个字节,再为那三个字节时,再使用那个哈希函数来计算,由于是同样的三个字节,同样的哈希函数,得到的ins_h必然和前面得到的ins_h是相同的。于是就会发现head[ins_h]不为0。这就说明了,有一个头三个字节和自己相同的串把自己的位置保存在了这里,现在head[ins_h]中保存的值,也就是那个串的开始位置,我们就可以找到那个串,那个串至少前3个字节和当前串的前3个字节相同(稍后我们就可以看到这种说法不准确,这里是为了说明方便),我们可以找到那个串,做进一步比较,看到底能有多长的匹配。    我们现在来说明一下,相同的三个字节,通过哈希函数得到的ins_h必然是相同的。而不同的三个字节,通过哈希函数有没有可能得到同一个ins_h,我没有对这个哈希函数做研究,并不清楚,不过一般的哈希函数都是这样的,所以极大可能这里的也会是这种情况,即不同的三个字节,通过哈希函数有可能得到同一个ins_h,不过这并不要紧,我们发现有可能是匹配串之后,还会进行串的比较。    一个文件中,可能有很多个串的头三个字节都是相同的,也就是说他们计算得到的ins_h都是相同的,如何能保证找到他们中的每一个串呢?gzip使用一个链把他们链在一起。gzip每次把当前串的位置插入head的当前串头三个字节算出的ins_h处时,都会首先把原来的head[ins_h]的值,保存到一个叫prev的数组中,保存的位置就在现在的strstart处。这样当以后某处的当前串计算出ins_h,发现head[ins_h]不空时,就可以到prev[ head[ins_h] ]中找到更前一个的头三个字节相同的串的位置。对此我们举例说明。    例,串  0abcdabceabcfabcg  ^^^^^^^^^^^^^^^^^  01234567890123456    整个串被压缩程序处理之后。    由abc算出ins_h。  这时的head[ins_h]中为 13,即"abcg"的开始位置。  这时prev[13]中为 9,即"abcfabcg"的开始位置。  这时prev[9]中为 5,即"abceabcfabcg"的开始位置。  这时prev[5]中为 1,即"abcdabceabcfabcg"的开始位置。  这时prev[1]中为 0。    我们看到所有头三个字母为abc的串,被链在了一起,从head可以一直找下去,直到找到0。    现在我们也就知道了,三个字节通过哈希函数计算得到同一ins_h的所有的串被链在了一起,head[ins_h]为链头,prev数组中放着的更早的串。这也就是head和prev名称的由   来。    gzip寻找匹配串的另外一个值得注意的实现是,延迟匹配。会进行两次尝试。比如当前串为str,那么str发生匹配以后,并不发生压缩,还会对str+1串进行匹配,然后看哪种   匹配效果好。    例子 ...  从这个例子中我们就看到了做另外一次尝试的原因。如果碰到的一个匹配就使用了的话,可能错过更长匹配的机会。现在做两次会有所改善。    ...    2.2 问题讨论    我在这里对gzip压缩算法做出了一些说明,是希望可以和对gzip或者压缩解压缩感兴趣的朋友进行交流。  我对gzip的了解要比这里说的更多一些,也有更多的例子。如果哪位朋友愿意对下面的问题进行研究,以及其他压缩解压缩的问题进行研究,来这里http://jiurl.cosoft.org.cn/forum/ 和我交流的话,我也愿意就我知道的内容进行更多的说明。    下面是几个问题    这种匹配算法,即用3个字节(最小匹配)来计算一个整数,是否比用串比较来得高效,高效到什么程度。    哈希函数的讨论。不同的三个字节,是否可能得到同一个ins_h。ins_h和计算它的三个字节的关系。    几次延迟尝试比较好?    用延迟,两次尝试是否对压缩率的改善是非常有限的?    影响lz77压缩率的因素。    压缩的极限。      2.3 ...    3 gzip源码分析    main() 中调用函数 treat_file() 。  treat_file() 中打开文件,调用函数 zip()。注意这里的 work 的用法,这是一个函数指针。  zip() 中输出gzip文件格式的头,调用 bi_init,ct_init,lm_init,  其中在lm_init中将 head 初始化清0。初始化strstart为0。从文件中读入64KB的内容到window缓冲区中。  由于计算strstart=0时的ins_h,需要0,1,2这三个字节和哈希函数发生关系,所以在lm_init中,预读0,1两个字节,并和哈希函数发生关系。    然后lm_init调用 deflate()。  deflate() gzip的LZ77的实现主要deflate()中。
 

压缩算法篇二:[上海]黑芝麻智能科技有限公司2017招聘公告


招聘网权威发布[上海]黑芝麻智能科技有限公司2017招聘公告,更多[上海]黑芝麻智能科技有限公司2017招聘公告相关信息请访问求职招聘网。
黑芝麻智能科技有限公司是一家专注于数字影像核心技术开发与应用的高科技企业,创始团队的成员来自图像视频处理领域的知名企业高管和资深专家。公司立足科技创新,潜心技术研发,注重品质和诚信服务,为客户提供优质、安全、可靠的技术和应用,产品应用于移动设备,汽车,安防以及多种消费电子产品。公司位于上海和美国加州硅谷,处于加速发展期。公司提供有竞争力的薪酬,宽松的工作氛围,广阔的发展空间,欢迎优秀人士积极加入。现招聘以下职位:
计算机视觉工程师岗位职责:1.ADAS和自动驾驶领域视觉算法研究。2.图像处理、分析及识别算法设计、实现及性能调优;3.图像视觉应用软件的设计与实现;4.图像产品应用测试,算法测试,数据分析等;任职要求:1.CV领域2年以上工作经验,具有较强的CV算法研发能力。2.熟悉C、C 语言开发;熟练掌握MATLAB或OpenCV算法仿真工具3.较强的算法实现能力,对算法加速有深入了解;4.有利用ARM/GPU/NEON/DSP实现算法的项目经验,了解Android平台图像处理和算法加速经验;5.有以下经验者优先:立体视觉,深度学习,双目相机,深度估计,相机标定校正。6.具备良好的英语读写能力;
视频开发工程师自动驾驶系统中需要对环境进行录像以进行存储或实时传输。海量视频数据的存储和有限带宽下的实时传输将一个非常有挑战的工作。该职位需要负责自动驾驶中超高压缩比例,超低码率压缩算法研究、实现和部署。岗位职责:1.负责车载视觉系统上视频编解码图像处理算法的研究、实现和优化;2.负责车载视觉系统上视频图像框架的搭建实现。3.负责视频相关软件设计与维护;任职要求:1.掌握图像处理的算法及处理流程,有该领域算法的研究或开发经验;2.具有较强的编程能力,熟悉C/C , 有OpenCV、OpenCL程序开发经验;3.熟悉视频编码标准;4.有在android平台开发多媒体及图形图像处理应用的经验优先;
ISP算法软件工程师车载系统对成像质量有着极为苛刻的要求,在各种情况下实现高动态,低噪声的高质量成像是自动驾驶感知平台中关键的一环。该职位需要深入研究ISP去噪,HDR,AWB等关键算法,实现自动驾驶中高质量成像系统。岗位职责:1.负责车载视觉系统上ISP相关算法开发和优化;2.负责ISP在实际系统中软件架构设计与维护;3.负责ISP图像效果调试;4.负责Camera Sensor的集成与调试;
任职要求:1.较强的图像处理知识背景,三年以上应用处理器领域ISP相关开发经验;2.熟悉ISP相关图像处理技术:3D降噪、边缘增强、色彩还原、对比度增强、宽动态增强,3A算法等; 3.熟练掌握C/C ,具有嵌入式Linux驱动的开发经验 4.具有良好的英语阅读和书写能力,熟悉数字摄像机图像处理者优先;
电子地图软件工程师岗位职责:1.负责公司自动驾驶产品中地图和定位导航相关应用软件设计和开发;2.负责SLAM相关算法研究和软件开发。 3.负责对定位导航中空间信息搜索、导航路径规划算法、矢量地图渲染等技术的研发;
任职要求: 1.拥有电子地图,街景地图,GPS、北斗导航等产品开发经验2.精通C/C 编程语言; 3.熟悉常用的数据结构和算法;4.熟悉SQL server、SQLite数据库编程; 5.有Android开发经验者优先;
工作地点:上海张江 简历投递邮�䣺[email protected]

压缩算法篇三:2017年硬件工程师考试科目及考试要求


硬件网权威发布2017年硬件工程师考试科目及考试要求,更多2017年硬件工程师考试科目及考试要求相关信息请访问硬件工程师考试网。

【导语】为了帮助广大考生进一步了解硬件工程师考试,整理了硬件工程师考试科目及考试要求相关信息供大家参考!
一、考试说明
1.考试要求:
(1) 掌握数据表示、算术和逻辑运算;
(2) 掌握相关的应用数学、离散数学的基础知识
(3) 掌握计算机体系结构以及各主要部件的性能和基本工作原理;
(4) 掌握操作系统、程序设计语言的基础知识,了解编译程序的基本知识;
(5) 熟练掌握常用数据结构和常用算法;
(6) 熟悉数据库、网络和多媒体的基础知识;
(7) 掌握C程序设计语言,以及C++、Java、Visual、Basic、Visual C++中的一种程序设计语言;
(8) 熟悉软件工程、软件过程改进和软件开发项目管理的基础知识;
(9) 熟悉掌握软件设计的方法和技术;
(10) 掌握常用信息技术标准、安全性,以及有关法律、法规的基本知识;
(11) 了解信息化、计算机应用的基础知识;
(12) 正确阅读和理解计算机领域的英文资料。
2.通过本考试的合格人员能根据软件开发项目管理和软件工程的要求,按照系统总体设计规格说明书进行软件设计,编写程序设计规格说明书等相应的文档,组织和指导程序员编写、调试程序,并对软件进行优化和集成测试,开发出符合系统总体设计要求的高质量软件;具有工程的实际工作能力和业务水平。
3.本考试设置的科目包括:
(1) 计算机与软件工程知识,考试时间为150分钟,笔试;
(2) 软件设计,考试时间为150分钟,笔试。
二、考试范围
考试科目1:计算机与软件工程知识
1. 计算机科学基础
1.1 数制及其转换
二进制、十进制和十六进制等常用制数制及其相互转换
1.2 数据的表示
数的表示(原码、反码、补码、移码表示,整数和实数的机内表示,精度和溢出)
非数值表示(字符和汉字表示、声音表示、图像表示)
校验方法和校验码(奇偶校验码、海明校验码、循环冗余校验码)
1.3 算术运算和逻辑运算
计算机中的二进制数运算方法
逻辑代数的基本运算和逻辑表达式的化简
1.4 数学基础知识
命题逻辑、谓词逻辑、形式逻辑的基础知识
常用数值计算(误差、矩阵和行列式、近似求解方程、插值、数值积分)
排列组合、概率论应用、应用统计(数据的统计分析)
运算基本方法(预测与决策、线性规划、网络图、模拟)
1.5 常用数据结构
数组(静态数组、动态数组)、线性表、链表(单向链表、双向链表、循环链表)、队列、栈、树(二叉树、查找树、平衡树、线索树、线索树、堆)、图等的定义、存储和操作
Hash(存储地址计算,冲突处理)
1.6 常用算法
排序算法、查找算法、数值计算方法、字符串处理方法、数据压缩算法、递归算法、图的相关算法
算法与数据结构的关系、算法效率、算法设计、算法描述(流程图、伪代码、决策表)、算法的复杂性
2. 计算机系统知识
2.1 硬件知识
2.1.1 计算机系统的组成、体系结构分类及特性
CPU和存储器的组成、性能和基本工作原理
常用I/O设备、通信设备的性能,以及基本工作原理
I/O接口的功能、类型和特性
I/O控制方式(中断系统、DMA、I/O处理机方式)
CISC/RISC,流水线操作,多处理机,并行处理
2.1.2 存储系统
主存-Cache存储系统的工作原理
虚拟存储器基本工作原理,多级存储体系的性能价格
RAID类型和特性
2.1.3 安全性、可靠性与系统性能评测基础知识
诊断与容错
系统可靠性分析评价
计算机系统性能评测方式
2.2 软件知识
2.2.1 操作系统知识
操作系统的内核(中断控制)、进程、线程概念
处理机管理(状态转换、共享与互斥、分时轮转、抢占、死锁)
存储管理(主存保护、动态连接分配、分段、分页、虚存)
设备管理(I/O控制、假脱机)
文件管理(文件目录、文件组织、存取方法、存取控制、恢复处理)
作业管理(作业调度、作业控制语言(JCL)、多道程序设计)
汉字处理,多媒体处理,人机界面
网络操作系统和嵌入式操作系统基础知识
操作系统的配置
2.2.2 程序设计语言和语言处理程序的知识
汇编、编译、解释系统的基础知识和基本工作原理
程序设计语言的基本成分:数据、运算、控制和传输,过程(函数)调用
各类程序设计语言主要特点和适用情况
2.3 计算机网络知识
网络体系结构(网络拓扑、OSI/RM、基本的网络协议)
传输介质、传输技术、传输方法、传输控制
常用网络设备和各类通信设备
Client/Server结构、Browser/Server结构
LAN拓扑,存取控制,LAN的组网,LAN间连接,LAN-WAN连接
因特网基础知识以及应用
网络软件
网络管理
网络性能分析
2.4 数据库知识
数据库管理系统的功能和特征
数据库模型(概念模式、外模式、内模式)
数据模型,ER图,第一范式、第二范式、第三范式
数据操作(集合运算和关系运算)
数据库语言(SQL)
数据库的控制功能(并发控制、恢复、安全性、完整性)
数据仓库和分布式数据库基础知识
2.5 多媒体知识
多媒体系统基础知识,多媒体设备的性能特性,常用多媒体文件格式
简单图形的绘制,图像文件的处理方法
音频和视频信息的应用
多媒体应用开发过程
2.6 系统性能知识
性能指标(响应时间、吞吐量、周转时间)和性能设计
性能测试和性能评估
可靠性指标及计算、可靠性设计
可靠性测试和可靠性评估
2.7 计算机应用基础知识
??信息管理、数据处理、辅助设计、自动控制、科学计算、人工智能等基础知识
远程通信服务基础知识
常用应用系统
3. 系统开发和运行知识
3.1 软件工程、软件过程改进和软件开发项目管理知识
软件工程知识
软件开发生命周期各阶段的目标和任务
软件开发项目管理基础知识(时间管理、成本管理、质量管理、人力资源管理、风险管理等)及其常用管理工具
主要的软件开发方法(生命周期法、原型法、面向对象法、CASE)
软件开发工具与环境知识
软件过程改进知识
软件质量管理知识
软件开发过程评估、软件能力成熟评估基础知识
3.2 系统分析基础知识
系统分析的目的和任务
??结构化分析方法(数据流图(DFD)、数据字典(DD)、实体关系图(ERD)、描述加工处理的结构化语言)
统一建模语言(UML)
系统规格说明书
3.3 系统设计知识
系统设计的目的和任务
结构化设计方法和工具(系统流程图、HIPO图、控制流程图)
系统总体结构设计(总体布局、设计原则、模块结构设计、数据存储设计、系统配置方案
系统详细设计(代码设计、数据库设计、用户界面设计、处理过程设计)
系统设计说明书
3.4 系统实施知识
系统实施的主要任务
结构化程序设计、面向对象程序设计、可视化程序设计
程序设计风格
程序设计语言的选择
系统测试的目的、类型,系统测试方法(黑盒测试、白盒测试、灰盒测试)
测试设计和管理(错误曲线、错误排除、收敛、注入故障、测试用例设计、系统测试报告
系统转换基础知识
3.5 系统运行和维护知识
系统运行管理基础知识
系统维护基础知识
系统评价基础知识
3.6 面向对象开发方法
面向对象开发概念(类、对象、属性、封装性、继承性、多态性、对象之间的引用)
面向对象开发方法的优越性以及有效领域
面向对象设计方法(体系结构、类的设计、用户接口设计)
面向对象实现方法(选择程序设计语言、类的实现、方法的实现、用户接口的实现、准备测试数据)
面向对象程序设计语言(如C++、Java、Visual、Bsasic、Visual C++)的基本机制
面向对象数据库、分布式对象的概念
4. 安全性知识
安全性基本概念
防治计算机病毒、防范计算机犯罪
存取控制、防闯入、安全管理措施
加密与解密机制
??风险分析、风险类型、抗风险措施和内部控制
5. 标准化知识
标准化意识、标准化的发展、标准制订过程
国际标准、国家标准、行业标准、企业标准基本知识
代码标准、文件格式标准、安全标准、软件开发规范和文档标准知识
标准化机构
6. 信息化基础知识
信息化意识
全球信息化趋势、国家信息化战略、企业信息化战略和策略
有关的法律、法规
远程教育、电子商务、电子政务等基础知识
企业信息资源管理基础知识
7. 计算机专业英语
掌握计算机技术的基本词汇
能正确阅读和理解计算机领域的英文资料
考试科目2:软件设计
1. 外部设计
1.1 理解系统需求说明
1.2 系统开发的准备
选择开发方法、准备开发环境、制订开发计划
1.3 设计系统功能
选择系统结构,设计各子系统的功能和接口,设计安全性策略、需求和实现方法,制订详细的工作流和数据流
1.4 设计数据模型
设计ER模型、数据模型
1.5 编写外部设计文档
系统配置图、各子系统关系图、系统流程图、系统功能说明书、输入输出规格说明、数据规格说明、用户手册框架
设计系统测试要求
1.6 设计评审
2. 内部设计
2.1 设计软件结构
??按构件分解,确定构件功能规格以及构件之间的接口
采用中间件和工具
2.2 设计输入输出
屏幕界面设计、设计输入输出检查方法和检查信息
2.3 设计物理数据
分析数据特性,确定逻辑数据组织方式、存储介质,设计记录格式和处理方式
将逻辑数据结构换成物理数据结构,计算容量,进行优化
2.4 构件的创建和重用
创建、重用构件的概念
使用子程序库或类库
2.5 编写内部设计文档
构件划分图、构件间的接口、构件处理说明、屏幕设计文档、报表设计文档、文件设计文档、数据库设计文档
2.6 设计评审
3.程序设计
3.1 模块划分(原则、方法、标准)
3.2 编写程序设计文档
模块规格说明书(功能和接口说明、程序处理逻辑的描述、输入输出数据格式的描述)
测试要求说明书(测试类型和目标、测试用例、测试方法)
3.3 程序设计评审
4.系统实施
4.1 配置计算机系统及其环境
4.2 选择合适的程序设计语言
4.3 掌握C程序设计语言,以及C++、Java、Visual、Basic、Visual C++中任一种程序设计语言,以便能指导程序员进行编程和测试,并进行必要的优化
4.4 系统测试
指导程序员进行模块测试,并进行验收
准备系统集成测试环境和测试工具
准备测试数据
写出测试报告
5.软件工程
软件生存期模型(瀑布模型、螺旋模型、喷泉模型)和软件成本模型
定义软件需求(系统化的目标、配置、功能、性能和约束)
描述软件需求的方法(功能层次模型、数据流模型、控制流模型、面向数据的模型、面向对象的模型等)
定义软件需求的方法(结构化分析方法、面向对象分析方法)
软件设计(分析与集成、逐步求精、抽象、信息隐蔽)
软件设计方法(结构化设计方法、Jackson方法、Warnier方法、面向对象设计方法)
程序设计(结构化程序设计、面向对象程序设计)
软件测试的原则与方法
软件质量(软件质量特性、软件质量控制)
软件过程评估基本方法、软件能力成熟度评估基本方法
软件开发环境和开发工具(分析工具、设计工具、编程工具、测试工具、维护工具、CASE)
软件工程发展趋势(面向构件,统一建模语言(UML))
??软件过程改进模型和方法

本文来源:http://www.zhuodaoren.com/tuijian820439/

推荐访问:数据压缩算法
扩展阅读文章
热门阅读文章