照片排序去重软件

来源:电脑网络时间：2016-08-23 10:31:42 阅读：

【www.zhuodaoren.com--电脑网络】

照片排序去重软件(一)
14au05

2014年秋第五套（RZBK）基础知识必做题(共45题)

一．选择题

[1]. 下列关于IC卡的叙述中，错误的是_________。

A．IC卡是"集成电路卡"的简称 B．IC卡中内嵌有集成电路芯片

C．IC卡不仅可以存储数据，还可以通过加密逻辑对数据进行加密

D．非接触式IC卡依靠自带电池供电

[2]. 在一个非零无符号二进制整数右边加两个零形成一个新数，则其数值是原数值的______。

A．四倍 B．二倍 C．四分之一 D．二分之一

[3]. 下列四个不同进位制的数中，数值最大的是______。

A．十进制数84.5 B．八进制数124.2 C．十六进制数54.8 D．二进制数1010100.101

[4]. PC机正在工作时，若按下主机箱上的Reset(复位)按钮，PC机将立即停止当前工作，转去重新启动计算机，此时计算机首先执行的是________程序。

A．应用程序保护 B．BIOS C．CMOS设置 D．Windows

[5]. PC机主板上芯片组通常由北桥和南桥两个芯片组成，下面叙述中，错误的是________。

A．芯片组与CPU的类型必须相配

B．芯片组提供了存储器的控制功能

C．芯片组规定了主板可安装的内存条的类型、内存的最大容量等

D．所有外部设备的控制功能都集成在芯片组中

[6]. 下面关于CPU的叙述中，错误的是________ 。

A．CPU的速度与主频、Cache容量、指令系统、运算器的逻辑结构等都有关系

B．智能手机使用的指令系统与PC机有很大差别

C．Intel公司和AMD公司生产的CPU其指令系统互不兼容

D．Core 2与Pentium 4 的指令系统保持向下兼容

[7]. 下面是关于PC机CPU的若干叙述，其中错误的是________。

① CPU中包含几十个甚至上百个寄存器，用来临时存放数据和运算结果；② CPU是PC机中不可缺少的组成部分，它担负着运行系统软件和应用软件的任务；③ CPU的速度比主存储器低得多；④ PC机中只有1个微处理器，它就是CPU。

A．①和③ B．②和③ C．②和④ D．③和④

[8]. CPU执行指令需要从存储器读取数据时，数据搜索的先后顺序是__________。

A．Cache、DRAM和硬盘 B．DRAM、Cache和硬盘

C．硬盘、DRAM和Cache D．DRAM、硬盘和Cache

[9]. 移动存储器有多种，目前已经不常使用的是______________。

A．U盘 B．存储卡 C．移动硬盘 D．磁带

[10]. 笔记本电脑中，用来替代鼠标器的最常用设备是________。

A．扫描仪 B．笔输入 C．触摸板 D．触摸屏

[11]. 以下关于CD-R光盘的叙述中正确的是________。

A．信息可以多次擦写 B．不可以写，只能读

C．只可以写1000多次，但读的次数不限定 D．能写入信息但不能擦除后重写

[12]. 数码相机是一种常用的图像输入设备。以下有关数码相机的叙述中，错误的是________。

A．数码相机通过成像芯片（CCD或CMOS）将光信号转换为电信号

B．数码相机中使用DRAM存储器存储相片

C．100万像素的数码相机可拍摄1024×768分辨率的相片

D．在照片分辨率相同的情况下，数码相机的存储容量越大，可存储的相片越多

[13]. 目前使用的打印机有针式打印机、激光打印机和喷墨打印机等。其中，________在打印票据方面具有独特的优势，________在彩色图像输出设备中占有价格优势。

A．针式打印机、激光打印机 B．喷墨打印机、激光打印机

C．激光打印机、喷墨打印机 D．针式打印机、喷墨打印机

[14]. 从应用的角度看软件可分为两类。管理系统资源、提供常用基本操作的软件称为_____，为最终用户完成某项特定任务的软件称为应用软件。

A．系统软件 B．通用软件 C．定制软件 D．普通软件

[15]. 下面关于Windows操作系统多任务处理的叙述中，错误的是______。

A．每个任务通常都对应着屏幕上的一个窗口

B．用户正在输入信息的窗口称为活动窗口，它所对应的任务称为前台任务

C．前台任务只有1个，后台任务可以有多个

D．前台任务可以有多个，后台任务只有1个

[16]. 下面几种说法中，比较准确和完整的是________。

A．计算机的算法是解决某个问题的方法与步骤

B．计算机的算法是用户操作使用计算机的方法

C．计算机的算法是运算器中算术逻辑运算的处理方法

D．计算机的算法是资源管理器中文件的排序方法

[17]. 下列通信方式中，________不属于微波远距离通信。

A．卫星通信 B．光纤通信 C．手机通信 D．地面接力通信

[18]. 以下关于TCP/IP协议的叙述中，错误的是________。

A．因特网采用的通信协议是TCP/IP协议

B．全部TCP/IP协议有100多个，它们共分成7层

C．TCP和IP是全部TCP/IP协议中两个最基本、最重要的协议

D．TCP/IP协议中部分协议由硬件实现，部分由操作系统实现，部分由应用软件实现

[19]. 无线局域网采用的通信协议主要有IEEE802.11及________等标准。

A．IEEE802.3 B．IEEE802.4 C．IEEE802.8 D．蓝牙

[20]. 下列有关以太网的叙述中，正确的是________。

A．它采用点到点的方式（而非广播方式）进行数据通信

B．信息帧中只需要包含接收节点的MAC地址

C．信息帧中需要同时包含发送节点和接收节点的MAC地址

D．以太网只采用总线型拓扑结构

[21]. 计算机局域网按拓扑结构进行分类，可分为环型、星型和________型等。

A．路交换 B．以太 C．总线 D．TCP/IP

[22]. 下列网络应用中,采用C/S模式工作的是________.

A．BT下载 B．Skype网络电话 C．电子邮件 D．迅雷下载

[23]. 下面关于因特网服务提供商（ISP）的叙述中，错误的是_______。

A．ISP指的是向个人、企业、政府机构等提供因特网接入服务的公司【照片排序去重软件】

B．因特网已经逐渐形成了基于ISP的多层次结构，最外层的ISP又称为本地ISP

C．ISP通常拥有自己的通信线路和许多IP地址，用户计算机的IP地址是由ISP分配的

D．家庭计算机用户在江苏电信或江苏移动开户后，就可分配一个固定的IP地址进行上网

[24]. 在使用分组交换技术的数字通信网中，数据以 ________ 为单位进行传输和交换。

A．文件 B．字节 C．数据包(分组) D．记录

[25]. 下面关于Web信息检索的叙述中，错误的是________。

A．返回给用户的检索结果都是用户所希望的结果

B．使用百度进行信息检索时，允许用户使用网页中所包含的任意字串或词进行检索

C．用于Web信息检索的搜索引擎大多采用全文检索

D．使用百度进行信息检索时，用户给出检索要求，然后由搜索引擎将检索结果返回给用户

[26]. 下列关于简单文本与丰富格式文本的叙述中，错误的是___________。

A．简单文本由一连串用于表达正文内容的字符编码组成，它几乎不包含格式信息和结构信息

B．简单文本进行排版处理后以整齐、美观的形式展现给用户，就形成了丰富格式文本

C．Windows操作系统中的"帮助"文件(.hlp文件)是一种丰富格式文本

D．使用微软公司的Word软件只能生成DOC文件，不能生成TXT文件

二．判断题

[1]. 计算机的分类方法有多种，按照计算机的性能和用途来分类，台式机和便携机均属于传统的小型计算机。

[2]. 在数字计算机系统中，目前可以用半导体存储器、磁盘、光盘来存储比特，还不能使用触发器来实现比特的存储。

[3]. 串行I/O接口一次只能传输一位数据，并行接口一次传输多位数据，因此，串行接口用于连接慢速设备，并行接口用于连接快速设备。

[4]. 台式PC机通过VGA接口连接投影仪时，VGA接口把输出信号进行调制后送到投影仪，再由投影仪解调后在大屏幕上进行显示。

[5]. 操作系统三个重要作用体现在：管理系统硬软件资源、为用户提供操作界面、为应用程序开发和运行提供平台。

[6]. Windows系统支持使用长文件名，用户可以为文件定义任意长度的文件名。

[7]. 为了延长软件的生命周期，常常要进行软件更新和版本升级，其主要目的是减少错误、扩充功能、适应不断变化的运行环境。

[8]. 防火墙的基本工作原理是对流经它的IP数据报进行扫描，检查其IP地址和端口号，确保进入子网和流出子网的信息的合法性。

[9]. 网上银行和电子商务等交易过程中，网络所传输的交易数据（如汇款金额、账号等）通常是经过加密处理的。

[10]. 若图像大小为400*300，则它在800*600分辨率的屏幕上以100%的比例显示时，只占屏幕大小的1/4。

三．填空题

[1]. 在计算机内部，8位带符号二进制整数（补码）可表示的十进制最小值是________。【照片排序去重软件】

[2]. 计算机系统中所有实际物理装置的总称是计算机_____件。

[3]. 独立显卡中有一个专用处理器，称为_____________，它执行一组适合图像和图形处理的专用指令，既减轻了CPU的负担，又加快了处理速度。

[4]. 一类比较接近自然语言和数学语言，且必须经过编译或解释才能运行的是_____语言程序。

[5]. 在计算机网络中，为确保网络中不同计算机之间能正确地传送和接收数据，它们必须遵循一组共同的规则和约定。这些规则、约定或标准通常被称为________。

[6]. 网络域名服务器中存放着它所在网络中全部主机的域名和________地址的对照表。

[7]. 下图是电子邮件收发示意图，图中标识为A的用于发送邮件的协议常用的是________协议。【照片排序去重软件】

[8]. 字符信息的输入有两种方法，即人工输入和自动识别输入，人们使用扫描仪输入印刷体汉字，并通过软件转换为机内码形式的输入方法属于其中的_________输入。

[9]. 在采用GB2312汉字编码标准的系统中，汉字内码的两个字节的最高位都置"1"，这可以避免与_________码混淆不清，有利于对汉字信息的处理。基础知识选做题(共8题，最多选做5题)

一．选择题

[1]. 在计算机中通过描述景物的结构、形状与外貌，然后将它绘制成图在屏幕上显示出来，此类图像称为_____。

A．位图 B．点阵图像 C．扫描图像 D．合成图像(矢量图形)

[2]. 声卡是获取数字声音的重要设备，下列有关声卡的叙述中，错误的是________。

A．声卡既负责声音的数字化，也负责声音的重建与播放

B．因为声卡非常复杂，所以只能将其做成独立的PCI插卡形式

C．声卡既处理波形声音，也负责MIDI音乐的合成

D．声卡可以将波形声音和MIDI声音混合在一起输出

[3]. 在国际标准化组织制订的有关数字视频及伴音压缩编码标准中，VCD影碟采用的压缩编码标准为__________。

A．H.261 B．MPEG-1 C．MPEG-2 D．MPEG-4

[4]. 在以下所列的计算机信息系统抽象结构层次中，数据库管理系统和数据库________。

A．属于业务逻辑层 B．属于资源管理层 C．属于应用表现层 D．不在以上所列层次中

[5]. 在信息系统的C/S模式数据库访问方式中，在客户机和数据库服务器之间在网络上传输的内容是________ 。

A．SQL查询命令和所操作的二维表 B．SQL查询命令和所有二维表

C．SQL查询命令和查询结果表 D．应用程序和所操作的二维表

[6]. 某信用卡客户管理系统中，客户模式为：

credit_in（C_no客户号，C_name客户姓名，limit信用额度，Credit_balance累计消费额），若查询累计消费额大于4500的客户姓名以及剩余额度，其SQL语句应为：

Select C_name ， limit - Credit_balance

From credit_in

Where________；

A．limit > 4500 B．Credit_balance > 4500

C．limit - Credit_balance > 4500 D．Credit_balance - limit > 4500

二．判断题

[1]. 关系数据库采用二维表模型，Excel具有进行表格定义、计算方面的功能，因此称为它是一种关系数据库的软件。

三．填空题

[1]. 用户可以根据自己的喜好选择收看电视节目，这种从根本上改变用户被动收看电视的技术称为______技术。操作题

一．编辑文稿操作

打开考生文件夹中的ED5.RTF文件，参考样张按下列要求进行操作。

1. 给文章加标题"江苏人均GDP过万美元"，设置其格式为黑体、二号字、加粗、蓝色、居中对齐，段后间距1行；

2. 设置正文第一段首字下沉2行，首字字体为隶书，其余各段首行缩进2字符；

3. 参考样张，在正文适当位置插入艺术字"人均GDP"，采用第三行第二列样式，设置其字体格式为隶书、54字号，环绕方式为紧密型；

4. 参考样张，为文中斜体字段落设置1.5磅金色方框，填充天蓝色底纹；

5. 将正文中所有的"经济"设置为加粗、红色；

6. 参考样张，在正文适当位置插入图片pic5.jpg，设置图片高度、宽度缩放比例均为50%，环绕方式为四周型；

7. 设置页眉为"人均生产总值"，页脚为自动图文集"第X页共Y页"，均居中显示；

8. 根据工作簿EX5.XLS提供的数据，制作如样张所示Excel图表，具体要求如下：

(1) 在"生产总值"工作表D列中，利用公式分别计算各地区2012年生产总值增长率（增长率=(当年生产总值-上年生产总值）/上年生产总值），结果以带2位小数的百分比格式显示；

(2) 在"人均生产总值"工作表B和C列中，引用"生产总值"和"常住人口"工作表数据，利

照片排序去重软件(二)
海量图片快速去重技术

　　摘要：针对海量图片中的去除重复图片效率低的问题，提出一种基于图片特征的并行化海量图片快速去重技术。首先，对图片提取图片颜色、纹理、形状等特征，用来全面描述图片；其次，使用度量标准对图片之间的特征距离进行度量计算；最后，利用如果两个点到任意一点距离相等则这两点有可能是同一个点的思想实现根据特征距离对重复图片的快速定位，达到重复图片检测与去重的目的。结合实验数据分析验证该技术不仅能够准确地去重图片，且采用i5四核处理器的单机计算方式仅10min左右即可处理500万级图片量，与一般的两两计算相比，提高了海量图片去重的时效性，使得计算时间大幅度缩短。

　　关键词：
　　海量图片；快速去重；并行化；单机计算；图片特征
　　中图分类号： TP301.6 文献标志码：A
　　0引言
　　随着数据的指数级增长，企业面临的快速备份和恢复的时间点越来越多，管理保存数据的成本及数据中心空间和能耗也变得越来越严重。研究发现，应用系统所保存的数据中高达60%是冗余的，缩减数据占用空间，降低成本，重复数据删除技术此句不太通顺，请作相应调整。已成为一个热门的研究课题。所以，重复数据删除技术就成为了缩减数据占用空间及降低成本的重要手段之一。目前重复数据删除技术主要包含相同数据检测及相似数据检测两大类，其中相同数据检测[1-3]的方法主要有完全文件检测技术、固定分块检测等，这些检测方法主要通过hash技术进行数据挖掘；相似数据检测利用数据自身的相似性特点，通过shingle技术[4]、bloom filter技术[5]及模式匹配技术[6-7]等挖掘出重复数据。这些技术使得共享数据块的文件之间产生了依赖性，降低了系统的可靠性；同时因为数据检测对比等过程导致大量的计算开销，对系统的性能影响也很大。因此，为了提高检测速度，降低对系统的性能影响，很多学者提出了并行化处理方式[8-10]。
　　由于图片文件的数据量大且不易修改的特性由于图片文件的数据量大其不易修改的特性，若采用文件级去重则计算开销大，效率较低，而块级则容易导致图片读取不完整、删除错误、恢复图片困难等问题，在海量图片的情况下这些问题将更加突出。针对上述问题，文献[11]提出一种针对海量图片文件存储去重技术的方法，利用MD5（MessageDigest Algorithm 5）特性在图片文件上传存储过程中实现去重取得了较好的效果。本文则针对已存储的海量图片，提出一种并行化快速去重算法：主要提取图片本身具有的数据特征，根据特征进行重复检测，实现海量图片去重处理，其时间复杂度为Ο（n2）。进一步，为了降低算法时间复杂度，本文针对该算法进行改进，将时间复杂度降低为Ο（n log n），实现了海量图片的快速去重。
　　1.1颜色特征提取方法
　　颜色是图像最直观的特征，也是图像视觉重要的感知特征之一。HSV（Hue， Saturation， Value）颜色模型由色度H、饱和度S、亮度V三个分量组成，和人的视觉特性比较接近，所以选择在HSV空间提取颜色特征.为减少高维数特征对计算带来的不便，进行如下量化[12]：
　　再按式L=7H+3S+1V转化成一维特征量。传统颜色直方图只是每种颜色的量的统计，忽略了图像中每种颜色的分布方式。文献[12]提出一种环形区域划分的思想，将图片空间划分成M个同心圆环及外围区域，以（C，D）为图片几何中心，中心圆半径为R=[min（A，B）]/（2M），其中（A，B）为图片边长，其他圆形半径为MR，其中取M=2。本文同样选择M=2，将图片区域被划分为中心圆、圆环和外部3个区域。这样既能够不增加特征向量的维数和计算成本，同时与传统颜色直方图相比颜色空间分布信息得到充分利用。所以提取累加直方图作为颜色特征，每个区域提取58个，共提取174个颜色特征。
　　1.2纹理特征及形状特征提取方法
　　小波分析往往具有多尺度以及多方向性的特点，已经被广泛应用到图像纹理特征提取及形状特征提取方面的应用[13-14]。本文首先采用Mallat小波分解，得到分解层上的高频子带图像能量和低频子带上灰度共生矩阵统计量作为纹理特征特征向量；同时得到分解层上的高频子带图像均值、标准差和低频子带图像Hu不变矩的10个相对矩作为形状特征向量。Mallat在多分辨率分析中采用了离散框架小波变换。多次小波分解的分解系数是一组有关离散高通滤波U（n）和低通滤波G（n）的递推关系式，其计算方式如式（4）和（5）所示：
　　特征提取过程如下：
　　1）根据Mallat分解方法，对图片进行4个子带的分解。
　　2）继续对低频子图像进行小波变换，得到更多级别的分解子图像。第i级别j子带的能量表示为：
　　ENij=1n∑nk=1Cij（k）2（7）
　　其中：Cij（k）为该子带上的小波系数；n是j子带的小波的系数个数，将能量作为特征矩阵的元素构造特征向量。
　　3）继续对低频子图像进行小波变换，对每层低频子图像计算Hu不变矩的10个相对矩[14]：
　　4）在低频子带上依次按照0°、45°、90°和135°方向构造灰度共生矩阵[13]，然后分别计算熵Entropyj、二阶矩ASMj、逆差矩DMj、对比度conj、相关系数corj作为特征参数，其中j=1，2，3，4，再结合之前计算出的各层子带的能量ENj成为纹理特征向量如下：
　　Wi=[ENi.j.k，Entropyi.j.k，ASMi.j.k，DMi.j.k，coni.j.k，cori.j.k]
　　其中k表示分解层数。
　　1.3度量方法
　　1.3.1颜色特征的距离度量
　　本文颜色特征的距离度量采用欧氏距离法，公式如式（9）所示：
　　其中：xi，xj（i≠j）为图片集中任意两幅图像；Eyk 、Ehk 、Ewk 分别为图片区域的圆心、圆环和外部区域所提取的特征；k是特征分量；N为特征数目；ay，ah，aw为各区域的权重，对于一般图片而言，图片的中心区域信息量多，而圆环部分和外部区域的信息量较少，所以本文分别取0.5，0.3，0.2代表各区域的重要程度。　　1.3.2纹理特征和形状特征的距离度量
　　2并行化图片去重算法
　　2.1并行化图片去重算法
　　1）本文主要使用图片固有特征实现达到图片去重的目的，所以首先对图片集{xi}提取上述特征值，设图片集{xi}大小为n，将其分配给T个计算单元进行处理，则时间缩短至n/T，本文中实验取T=4。
　　2）对任意图片xi，xj（i≠j）计算距离D（xi，xj），由于重复图片所在位置具有任意性，若要找出所有重复图片则需要遍历整个图片集，计算量n2，采用并行计算则计算量为n2/T。
　　3）遍历相似度距离D（xi，xj），查找其中距离为0。若为0，则说明其为相同图片，标记并且删除后一张图片，仅保留前一张。
　　2.2实验结果
　　由于如果图片为重复图片则提取特征值相等，则距离必然为0，故本文主要使用运行时间作为衡量该算法的重要指标，使用Matlab软件编程实现对上述算法进行评价（注：以下时间均不包含图片特征的采集时间）。
　　本次实验选取1000及5000张图片进行处理，运行时间如表1所示。
　　按照上述算法进行5000张图片去重时，处理时间就达到22min。如果按照上述算法对万级、十万级甚至百万级图片处理时程序运行时间不可估量，本文对上述算法进行改进。
　　3改进算法及实验结果
　　3.1算法改进
　　针对上述算法主要影响运行时间的是在去重过程要遍历整个图片集，计算量为n2，即便采用并行处理方式，对最终结果的影响终究有限。针对此问题，本文对第2章中的算法进行改进，从图片集中任取一张图片x0，如果存在图片{xi，xj}（i≠j）使得D（x0，xi）=D（x0，xj），则{xi，xj}（i≠j）有可能为重复图片，需要进一步判断D（xi，xj）是否为0；若不为0，则{xi，xj}（i≠j）不是重复图片。利用这样处理方式，在距离计算过程中计算量为n；同时在计算过程中采用并行处理，最终计算量减小为n/T，相比n2的计算量大大减小。
　　改进算法具体步骤如下：
　　1）对图片集提取特征值，设图片集大小为n，将其分配给T个计算单元进行处理，则时间缩短至n/T，本文中实验取T=4。
　　2）从图片集中任取一张图片x0，分别与其图片集中其他图片进行距离计算，在计算过程中采用并行处理，计算量缩短为n/T。
　　3）对2）中计算得到的距离D（x0，xi）进行由小到大排序，得到排序后的距离D*i（i=1，2，…，n）。本文采用快速排序法。
　　4）遍历距离D*（x0，xi），查找其中相同的距离。由于在3）中已经对距离进行由小到大的排序，故每次只需要判断D*i+1是否与D*i相同，若D*i+1与D*i相同则进行第5）步，比较完毕后继续遍历剩下的距离，若遍历完成且没有相同距离则停止。
　　5）设{xi，xj}（i≠j）使得D（x0，xi）=D（x0，xj），则计算D（xi，xj）之间的距离，若为0，则说明其为相同图片，标记并且删除xj，保留xi；若大于0，则说明{xi，xj}对x0在特征上的相似程度一致，但并非相同图片，两张同时保留。
　　3.2查找重复图片的改进算法与第2章原算法运行时间的对比
　　如果图片量太大，第2章中对重复图片查找算法的计算量会急剧上升，导致运行时间过长，故本次选用300，600及900张图片分别用改进方法和第2章中方法进行重复图片的查找，对查找时间进行对比，如表2所示。
　　由表2中数据可知，采用遍历图片集查找重复图片的方式运算时间高于改进运算的10倍以上。同时改进运算在图片数量增加时运算时间增长并不明显，增长幅度仅在百分位，说明改进算法在海量图片去重上是有效的。
　　3.3改进算法在不同数量级与不同重复率时间对比
　　分别使用万级（1万）、十万级（10万）、百万级（100万和500万）级图片量进行测试；同时每种量级的重复图片分别占总数的30%、60%及90%，结果如表3所示。
　　由表3中数据可知：1）由万级到10万级运行时间增长在两倍左右，而10万级到100万级甚至500万级时按照本文图片量呈现线性关系，运行时间增长分别在10倍及50倍左右，这是由于处理数据大量增长，而实验用机在运行速度和处理能力上有限，导致在100万张及500万张图片的距离、比较等运算时处理能力不足，所以运行时间会呈现出与图片量增长倍数相同的情况，故适当提高硬件处理能力可以减少运行时间；2）由每种数量级不同重复率下的运行时间来看，随着重复率的升高运行时间略有下降，此情况出现是由于排序算法导致，重复图片越多，相同距离也就越多，故排序时间也就越短，所以在大数据量时选用合适的排序算法也是影响运行时间的重要因素。
　　综上所述，本文在改进算法中，从图片集中任取一张图片x0，分别与其图片集中其他图片进行距离的计算的方式相比遍历图片集计算距离的方式在运行时间效率此处是否应该是“运行效率”，时间上应该是减少，而不是提高吧？请明确。上提高10倍以上；同时针对不同重复率下不同数量级进行了测试，发现查询500万数量级中重复图片时运算时间也仅需10min左右，去重效率大幅度提高。故本文提出的算法为大数据量的图片快速去重工作提供了有效支撑。
　　4结语
　　面对目前数据的指数级增长，海量数据重复删除技术的研究在解决数据存储空间消耗大、数据备份及恢复成本高等方面具有重要的意义。本文利用图片固有属性特征，提出了一种海量图片快速并行化去重算法，使用该算法能够快速准确地对图片进行去重。实验结果表明，10min左右即可处理完500万图片集的去重工作，这为海量图片的去重处理提供了新的思路。同时，实验发现在大数据量时，对距离进行排序的时间对整个去重过程有一定的影响，排序时间越短，整个去重的时间也就越短，所以如何缩短排序时间作为本文将是该快速去重技术进一步的研究方向。　　参考文献：
　　[1]
　　敖莉，舒继武，李明强.重复数据删除技术[J].软件学报，2010，21（5）：916-929.（AO L， SHU J W， LI M Q. Data deduplication techniques [J]. Journal of Software， 2010， 21（5）： 916-929.）
　　[2]
　　CLEMENTS A T， AHMAD I， VILAYANNUR M， et al. Decentralized deduplication in SAN cluster file systems [C]// Proceedings of the 2009 USENIX Annual Technical Conference. Berkeley， CA： USENIX Association， 2009： 101-114.
　　[3]
　　ESHGHI K， LILLIBRIDGE M， WILCOCK L， et al. Jumbo Store： providing efficient incremental upload and versioning for a utility rendering service [C]// Proceedings of the 5th USENIX Conference on File and Storage Technologies. Berkeley， CA： USENIX Association， 2007： 123-138.
　　[4]
　　HAN B， KELEHER P. Implementation and performance evaluation of fuzzy file block matching [C]// Proceedings of the 2007 USENIX Annual Technical Conference. Berkeley， CA： USENIX Association， 2007： 199-204.
　　[5]
　　张星煜，张建，辛明军.相似性―局部性方法相关参数分析[J].计算机技术与发展，2014，24（11）：47-50.（ZHANG X Y， ZHANG J， XIN M J. Analysis of related parameters based on similaritylocality approach [J]. Computer Technology and Development， 2014， 24（11）： 47-50.）
　　[6]
　　陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件，2014，31（3）：22-23.（CHEN F. Database duplicate records detection using neural network optimised by IQPSO. [J]. Computer Applications and Software， 2014， 31（3）： 22-23.）
　　[7]
　　梁雪，任剑锋，景丽.基于QPSOLSSVM的数据库相似重复记录检测算法[J].计算机科学，2012，39（11）：157-159.（LIANG X， REN J F， JING L. Approximate duplicate record detection algorithm based on PSO and LSSVM [J]. Computer Science， 2012， 39（11）： 157-159.）
　　[8]
　　江程，朱锐，张芳，等.一种低开销的并行重复数据删除算法[J].软件导刊，2015，14（8）：96-99.（JIANG C， ZHU R， ZHANG F， et al. A parallel deduplication method with low overhead [J]. Software Guide， 2015，14（8）： 96-99.）
　　[9]
　　刘厚贵，邢晶，霍志刚，等.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展，2013，50（z2）：64-70.（LIU H G， XING J， HUO Z G， et al. A scalable distributed data deduplication system to backup massive storage [J]. Journal of Computer Research and Development， 2013， 50（z2）： 64-70.）
　　[10]
　　曹英忠.基于Hadoop的重复数据删除技术的研究与应用[D].桂林：桂林理工大学，2012：46-66.（CAO Y Z. Research on the technology of data deduplication by Hadoop [D]. Guilin： Guilin University of Technology， 2012： 46-66.）
　　[11]
　　孙有军，张大兴.海量图片文件存储去重技术研究[J].计算机应用与软件，2014，31（4）：56-58.（SUN Y J， ZHANG D X. Research on deduplication technology for massive image file storage [J]. Computer Applications and Software， 2014， 31（4）： 56-58.）
　　[12]
　　常哲，侯榆青，李明俐，等.综合颜色和纹理特征的图像检索[J].小型微型计算机系统，2011，32（1）：161-164.（CHANG Z， HOU Y Q， LI M L， et al. Image retrieval based on combined color with texture feature [J]. Journal of Chinese Computer Systems， 2011， 32（1）： 161-164）
　　[13]
　　费园园，孙劲光，陶志勇.基于小波分解和灰度共生矩阵的纹理图像检索[J].现代计算机，2007（10）： 58-59.（FEI Y Y， SUN J G， TAO Z Y. Texture image retrieval based on wavelet decomposition and gray level cooccurrence matrix [J]. Modern Computer， 2007（10）： 58-59.）
　　[14]
　　夏定元，刘书学，周曼丽，等.基于小波和相对矩的形状特征提取与检索方法[J].计算机工程，2004，30（10）：146-147.（XIA D Y， LIU S X， ZHOU M L， et al. Method for shape feature extraction and image retrieval based on wavelet and relative moments [J]. Computer Engineering， 2004， 30（10）： 146-147.）

照片排序去重软件(三)
很难说我们会成为掘墓人

我们会研究你，揣测你

　　Q：这轮融资后今日头条估值多少？
　　A：二三十亿元人民币吧。
　　Q：你如何说服投资人？
　　A：没说，因为不用说。我连PPT都没做，也没到处见投资人。因为很简单，我只想跟懂我的人交流，这些年我跟懂我的人一直保持着沟通。
　　Q：那用最简单的几句话告诉我，今日头条是做什么的？
　　A：方便人们在手机上获取内容。
　　Q：不够清晰，大家都在做这类产品，包括我们壹读（微信公众号：yiduiread）。
　　A：但我们的方式不一样，我们采用智能的简便的方式，让用户一刷新就能访问此时此刻他最想看到的内容。简单说，这个应用“懂你”，越用越懂你，我们会研究你，揣测你。
　　Q：你怎么想到做这款产品？
　　A：我一直对获取信息感兴趣，不论以前做搜索还是做社交网站，都对如何发现信息很感兴趣，我本人是个信息重度阅读者。
　　Q：重到什么程度？
　　A：我初中时一个月要买十几本杂志、二十几份报纸，所有零花钱全花在这上面。我的兴趣也很广泛，科技数码、社会国际、历史、政治都感兴趣，只对足球等体育运动不感兴趣。所以，虽然很多人都说《体坛周报》挺好看的，但我就是看不下去。我是宅男，不是运动阳光男……
　　Q：你从什么时候开始看《南方周末》？
　　A：1998年前后吧，当时我读初三，一直到大一都在看。2002年后就不看了，因为越来越平淡，而且政治报道太多。
　　Q：今日头条的想法从何而来？
　　A：因为我是一个重度阅读者。我发现在今日头条之前，没有更好的获取信息的方法，我看了100个相关应用，直到2011年年底才想出用今日头条的办法。
　　毫不夸张地说，今日头条是所有方式中最好的：操作简单，不用设置，我们根据你的兴趣，想看什么就给你推送什么，都是通过机器来完成。我们有一亿多用户，理论上有一亿多个界面，每个人的都是不一样的。

“我们不是掠夺者”

　　Q：腾讯、网易、搜狐都有客户端，有的客户端用户也过亿，你们之间除了算法不同，还有什么区别？
　　A：我们是平台，不产生内容，也没有编辑、记者，我们只分发内容，给内容媒体服务，我们不跟内容媒体竞争，还帮内容媒体获取利益，内容媒体都愿意和我们合作。但你提到的几家，它们既拿别人的内容，自己也在做内容。
　　Q：你不做内容，但通过机器把用户都吸引过来，是不是更彻底的掠夺？
　　A：我完全不能同意。我们每天都能收到媒体的合作请求，它们愿意和我们合作，肯定不是因为它们喜欢掠夺者。因为我们能让媒体得到利益，可以带着成千上万的用户访问它们的网页和广告，也可以抓取它们的网页推荐给成千上万的人。我们甚至允许媒体在我们的软件内展示它们自己的广告，一分钱不收，你见过这么伟大的掠夺者吗？
　　Q：你们从没遇到过版权问题吗？
　　A：我们大都是使用合作伙伴的内容，部分网站直接使用的是原网页，只需要它们的移动页面为手机做了优化。我们能够为内容方提供大量的品牌曝光和流量，前些天有家媒体有篇文章通过我们带来了一千万PV，他们之前跟自己技术人员说，“这次流量会比较大，一定要准备好”。技术说没问题，结果崩溃了四次，技术团队因此还被处分。
　　其实，我非常愿意把流量引导回去，只要对方的服务器稳定性好。
　　Q：那你怎么赚钱？
　　A：现在还是依靠广告。但我们尊重版权、尊重著作权，不在媒体内容里加广告，对战略合作的媒体，我们还提供广告技术支持。我们也不会在内容上做商业开发，内容的商业用途都留给原网站。我们允许所有媒体在内容页上放广告，只要不影响用户阅读。
　　现在你是否觉得我们在建一个良性生态系统？还会觉得我们是掠夺者吗？因为我们不是掠夺者，所以很多媒体会主动找我们合作。目前我们有几百家战略合作媒体。
　　Q：你的竞争对手都有谁？
　　A：没有，我们也不会环顾左右，只会往前看。往左右看会影响你的沉静，往前后看会制约你的激情。我们也不参照别人的方式，所以很难说谁是我们的竞争对手。还有，互联网里的竞争对手有时是模糊的，比如，陌陌的竞争对手是谁？

在应用服务层面，排序可能是美、中、俄、日、韩，中国紧追美国，第三名和中美完全不在一个层面。

　　Q：但往往走走就发现对手了，像腾讯和阿里，十年前谁能想到它们成为对手？
　　A：当然，肯定会有潜在的竞争。比如，所有应用都在抢用户的时间，所以有些内容有交叉，有些功能可以被替代。超市里的两个柜台有竞争吗？似乎也有，但如果分开的话，谁的生意都不好。比如海底捞跟沸腾鱼乡，有竞争吗？当然，但如果开在一起，大家的生意会更好。
　　Q：你是否觉得，现在是“diao丝”翻身的机会？
　　A：你不了解我们的艰难。大家只看到这几家公司，但中国这么大，数来数去就这么几个看上去还不错的。移动革命是给了我们一些机会，但没大家想的那么多，我们依然是在边边角角中找机会。
　　Q：如果，几大门户和几大互联网巨头都用你的方法做信息推送，它们的用户也以亿计，这对你来说意味着什么？
　　A：问题是它们不会。我们方向不同。大互联网机构都有采编人员，它们会放弃内容制作吗？但我们不会要采编。
　　举个不恰当的例子，大家说的互联网金融，谁都不要营业网点，但有营业网点的金融机构也赚钱，可以让老年人去存钱，还可以卖理财产品，也活得很好。

既不《环球时报》也不《南方周末》

　　Q：你们的价值观是什么？
　　A：在做事上，作为典型的科技创业公司，我们追求做到极致、追求坦诚沟通、追求创新，做得好不好要让所有员工看到。对外，我们不输出价值观，我们既不《环球时报》，也不《南方周末》。
　　Q：管理这么多工程师，有难度吗？
　　A：开始时工程师比较多，现在占公司的比例不到一半。其他都是市场、销售等部门的同事。对工程师的管理很容易，招到合适的人，然后给出目标就差不多了。我们是用管事代替管理，比如这两个月要做什么事，这两周要做什么事，排好期就OK了。所以你会发现我没有太多管理，我一整天都坐在那儿弄手机或电脑。
　　Q：你的工作日一般如何度过？
　　A：早上看后台数据，然后抽查用户，在网上看各种反馈。每晚12点前会发出一份头一天所有用户的反馈情况。上午处理当天要做的面试、要约的人，下午一般会参加讨论，晚上是学习和思考的时间。我很少出门，顶多一周一次。
　　Q：豌豆荚的王俊煜跟我说，他很重要的工作是招人。你怎么说服别人加入？
　　A：我没有特别的技巧。第一是尊重对方，比如我会把见面地点安排到他家附近。作为CEO，对方一般不会拒绝跟我聊。第二是了解他的工作和需求，他想在技术上变得更牛，还是想在财务上更自由，还是现在的工作很不爽，或者他的主管很可恶。然后告诉他，我们这儿有很多牛人，我们的股票蒸蒸日上……
　　Q：你会在多大程度上展示公司的实际情况？
　　A：毫无保留地展示。因为我们有自信，而且不如实相告的话，他来了也会发现。我会把比较完整的公司情况，例如用户数、员工数、股票价值、未来上升空间等等都告诉他，然后拿出iPhone，现场给他算账，告诉他未来几年不同情形下的回报。
　　Q：你是否会和百度、阿里、360等大公司争夺优秀员工？
　　A：会。我们有自己的优势，比如百度给他价值100万的股票，我们也给他100万的股票甚至更多。百度股票不可能再涨十倍吧？而我们的股票很可能会。
　　Q：今日头条的界面真土……
　　A：几个星期内我们会改版。之前我们相对理性，重视的是产品的功能，改版后，我们会更关注用户的心理感受。今日头条以前更看重功能。在强需求、无竞争时这没有问题。但变成非刚性需求时就必须重视体验。最容易吃饱的肯定是肥肉，但肉多了之后，瘦肉就会比肥肉贵。
　　Q：你会选择做多久？
　　A：如果能一直做第一名就做下去，除非觉得自己没办法把事情做成。现在没有这样的问题，公司在快速上升，为什么不做？除非我是第二名，离第一没希望。
　　Q：你希望公司将来变成什么样？
　　A：我不知道，但我不想成为大公司。我特别喜欢30人的团队，后来发现100人的团队我也能记住大家的名字。但现在人越来越多，所以梦想要调整，最好不要超过500人。

“这些应用该点赞”

　　Q：在你眼里，有哪些应用、哪些公司可以点赞？
　　A：豌豆荚不错，陌陌也不错。
　　Q：你是陌陌的用户？
　　A：我不是，只是一直在研究。我发现我根本用不好，因为所有的群都写着“30岁以上请走开”。其他产品很少让我觉得自己年龄大了，但陌陌让我有这样的感觉，所以我只能进“二手物品买卖群”。
　　易到用车也挺好的，它是完整闭环，用户不用付钱，只要绑定信用卡或支付宝，坐到哪下车都会自动结算，因为你的行程会被手机自动记录下来，不用打表。司机也是非专业的，只要注册一下就可以，想干活就打开软件。我知道好多司机利用这款应用月收入超过一万，两三万的也有。虽然用户总量不大，但可以想象有很多高端用户。
　　聚美优品也不错，但我不买化妆品，所以不是它的用户；美团和雪球也不错，方三文是做媒体出身，媒体圈出来的人做社交产品或新媒体的能力很强。
　　Q：美国有没有类似的应用？
　　A：有，但不如我们好。跟我们最像的是雅虎，它们也用类似的方式做事，但我们比它先发布。
　　Q：以前中国的应用都能找到美国的原型，现在呢？
　　A：从移动互联网时代开始就反过来了。“拷贝到中国”已经没人提了，可能在基础领域中国还不行，比如手机操作系统，但在应用服务层面，几乎是中美同步，甚至中国人更早，你看，陌陌在美国就没有。
　　Q：你是说，在应用服务层面，美国第一，中国第二？
　　A：是的，百分百如此。排序可能是美、中、俄、日、韩，中国紧追美国，第三名和中美完全不在一个层面。
　　Q：因为中国用户太多吧。
　　A：是啊，你看美国有三亿多人，很多受过高等教育，中国也有四五亿智能手机用户，市场规模、受教育人数还有网络基础设施都不落后多少。其实印度的规模也OK，但基础设施太差了。

互联网大佬注定要过悲催的生活

　　Q：你会羡慕上一代的互联网企业家吗？
　　A：我觉得他们挺悲催的，到这个年龄还奋斗不止。我还听说有累到腰间盘脱出的CEO。虽然都是巨头，但比起同样是巨头的传统企业领袖，他们太辛苦了。传统企业的董事长们都把活儿交给总经理，一周到公司三天就不错了，没事就去打高尔夫；再看互联网巨头们，要按这个节奏工作，肯定要完蛋，所以，大家累得跟××似的。
　　Q：从他们身上看到了自己的未来？
　　A：看到了。未来可能依然是不眠不休地工作，那些优秀前辈精英都说自己是产品经理，有的说自己要从一万张图片中挑一张壁纸，有的一天到晚面试新人，虽然从账面上看是首富、次首富，但他们可能是生活质量最差的首富。
　　Q：你在说……
　　A：猜得出来吧。但最折腾的那几家都没被颠覆，阿里巴巴、360、腾讯、百度，活得都很好，就是因为这些企业的领导人上半生都在勤劳工作，下半生也会勤劳工作，而传统企业领袖，上半生奋斗几年，然后就开始练高尔夫了…… 　　Q：他们不辛苦工作，很可能你们这些公司会成为他们的掘墓人。
　　A：很难说我们会成为掘墓人，至少那些传统互联网巨头很难被掘墓。
　　Q：但大公司们搞得像章鱼，到处防御，我怀疑这么做有没有意义。

　　A：与其说防御，不如说出现了新的疆土，而他们又有最好的工具去占领。不用太担心互联网公司间的竞争，更需要担心的是传统行业，比如虚拟出租车公司会出现，可以同时调度几万辆车；比如那些商场，不知道还能熬几年。
　　Q：传统服务业被颠覆是正在发生的事，但有“国家”背景的用紧张吗？
　　A：不好说，银行强大吧，但余额宝一出看它们紧张不紧张。
　　Q：但银行还在盈利，工行是世界上最赚钱的几家企业之一了。
　　A：五年后再看呢？
　　Q：余额宝们也很脆弱，政策不在它们这边。
　　A：大势挡得住吗？如果真要扼杀新兴经济，中国经济就不行了。如果能扼杀微信，中移动早就这样做了。为什么不会？因为微信也好，新经济新模式也好，在做增量工作，没有动存量。但这是温水煮青蛙，如果传统行业不变革，醒来就会发现世界变了。

凡是可以信息化的传统行业都会消失

　　Q：喜欢移动互联网时代吗？
　　A：喜欢。它让人跟网络更近了，以前的计算机是固定的，网线连着电脑，靠近电脑就意味着你在线，离开电脑意味着离线。但现在你不需要那根牵着你的线，手机可以让你时刻在线。
　　Q：未来，移动互联网将怎样改变世界？做个“预言帝”吧。

张一鸣曾先后参与和创建酷讯、饭否以及九九房。2012年3月，他创建了北京字节跳动科技有限公司，先后推出了内涵段子、今日头条等应用。

　　A：我只根据我掌握的知识说。因为现在大家能随时联网，随时交换信息，极大提高了信息化程度。大家一起拍照，能把整个世界记录下来，因为拍照太方便了。因为每个人都时时刻刻在线，所以信息产生和交换的量级和速度会上很高的台阶。
　　以前我跟父母视频，必须要约好时间，双方都要坐在电脑旁。但现在呢，他们也能随时随地视频了。不论孩子还是老人，都被移动互联网牵起来了。
　　Q：还有吗？
　　A：有一些设备，能把你开车时的各种数据读出来，工具是你的手机，它可以记录你的行踪和速度。整个世界的人跟物越来越信息化，这非常有意思。
　　举个例子，如果大家都开着地图应用，就能计算出每个地方的车流量，然后根据各个点的位置移动，计算出很多信息。比如，哪里新开通一条路，你很快就可以知道，不需要交管局告诉你。
　　Q：这是否会导致各地火爆的交通台解体？
　　A：有可能。还有太多可以挖掘的信息，什么路线最快，什么时间什么位置最拥堵，都可以知道。
　　Q：从长远看，电脑会消失吗？
　　A：手表消失了吗？闹钟消失了吗？数码相机呢？
　　我觉得数码相机其实已经消失了，由数码相机拍摄的照片已占总照片量的10%以下。普通出租车公司、计算器、录音机、地图会消失，在移动支付普及以后， ATM机肯定会消失。
　　Q：货币也会消失吧。
　　A：纸币会消失，当它每天被交换的次数以几何量级少于现在次数时就算消失了。我最近用“扫一扫”付出租车费感觉很简单，我相信慢慢地打车就不用纸币了，看电影也不用纸币了。如果政策放开一点，三年内纸币就会消失，大部分交易通过手机支付。
　　资金流也会在移动互联网中更好地被统计，缺点是你的不良消费记录都会被记录下来。你买贵重商品会被记录下来，你太太会知道。有意思的是，因为消费被统计，你也可以很清楚地知道100米外有没有更便宜的可乐卖，而之前你是不知道的。
　　Q：预测下报纸会消失吗？
　　A：这个不需要预测……每出一个应用、每出一类应用，就有一个行业要消失，这大抵是没错的。安德森说过“软件吞噬世界”，只要是可以信息化的产品，都被iOS和安卓吞没了。这里，操作系统是航母，是载体，是大软件，一个个小软件在大软件平台上，替代了平台外一个个硬件和硬件设施。
　　总之，凡是和信息沾边的都会消失，不是信息化的东西不会消失，比如石油。
　　Q：消失是因为你觉得一切都能用计算机用算法来解决？
　　A：这是对我的误解，计算机可以统计、可以发现，但不能代替人，计算机不是凭空猜测，而是根据人的行为计算。
　　假设你有个日历，提醒你晚上该去知春路，结果知春路堵车，其实日历完全有能力提醒你错开那个时间。
　　因为技术，让更多的事物关联起来—你不但提前知道了A，还有能力知道B和C。

本文来源：http://www.zhuodaoren.com/shenghuo349451/

推荐访问:美化照片软件排序 mp3排序软件

上一篇：PPP监管风险 下一篇：毛泽东论党的纪律

扩展阅读文章

热门阅读文章

电脑网络推荐文章