代码使用:

Imagededup 官方地址 https://idealo.github.io/imagededup/
显示一张给定照片的重复子集:

from imagededup.methods import PHash
phasher = PHash()# Generate encodings for all images in an image directory
encodings = phasher.encode_images(image_dir='path/to/image/directory')# Find duplicates using the generated encodings
duplicates = phasher.find_duplicates(encoding_map=encodings)# plot duplicates obtained for a given file using the duplicates dictionary
from imagededup.utils import plot_duplicates
plot_duplicates(image_dir='path/to/image/directory',duplicate_map=duplicates,filename='ukbench00120.jpg')

返回重复文件的列表:

duplicates = phasher.find_duplicates_to_remove(encoding_map=encodings)
# 后面可以将 duplicates 从旧目录移至新目录,完成去重操作
for i in range(len(duplicates)):shutil.move(oldPath + '/' + duplicates[i], newPath + '/' + duplicates[i])

更多实例见:
https://blog.csdn.net/weixin_43886133/article/details/114113027
https://www.cnblogs.com/xiaodai0/p/11646646.html

算法流程:

(1)首先对原始图像进行编码(生成64位0或1值),可选算法如下:

(2)对编码后的照片,两两计算汉明距离(不同位的个数:1011101 与 1001001 之间的汉明距离是 2)。如果这个值为0,则表示这两张图片非常相似,如果汉明距离小于5,则表示有些不同,但比较相近,如果汉明距离大于10则表明完全不同的图片。

(3)设置阈值(0-64),提取出针对某张照片的重复照片。

哈希算法细节:

  • 均值哈希

    1)缩小尺寸:去除高频和细节的最快方法是缩小图片,将图片缩小到8x8的尺寸,总共64个像素。不要保持纵横比,只需将其变成8*8的正方形。这样就可以比较任意大小的图片,摒弃不同尺寸、比例带来的图片差异。

    2)简化色彩:将8*8的小图片转换成灰度图像。

    3)计算平均值:计算所有64个像素的灰度平均值。

    4)比较像素的灰度:将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1;小于平均值,记为0。

    5)计算hash值:将上一步的比较结果,组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。组合的次序并不重要,只要保证所有图片都采用同样次序就行了。(我设置的是从左到右,从上到下用二进制保存)。

    :均值哈希算法主要是利用图片的低频信息。一张图片就是一个二维信号,它包含了不同频率的成分。亮度变化小的区域是低频成分,它描述大范围的信息。而亮度变化剧烈的区域(比如物体的边缘)就是高频的成分,它描述具体的细节。详细的图片有很高的频率,而小图片缺乏图像细节,所以都是低频的。所以我们平时的下采样,也就是缩小图片的过程,实际上是损失高频信息的过程。

  • 感知哈希

    均值哈希虽然简单,但受均值的影响非常大。例如对图像进行伽马校正或直方图均衡就会影响均值,从而影响最终的hash值。存在一个更健壮的算法叫pHash。它将均值的方法发挥到极致。使用离散余弦变换(DCT)来获取图片的低频成分。

    离散余弦变换(DCT)是种图像压缩算法,它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的,所以转换到频率域之后,只有很少的一部分频率分量的系数才不为0,大部分系数都为0(或者说接近于0)。下图的右图是对lena图进行离散余弦变换(DCT)得到的系数矩阵图。从左上角依次到右下角,频率越来越高,由图可以看到,左上角的值比较大,到右下角的值就很小很小了。换句话说,图像的能量几乎都集中在左上角这个地方的低频系数上面了。

    1)缩小尺寸:pHash以小图片开始,但图片大于88,3232是最好的。这样做的目的是简化了DCT的计算,而不是减小频率。

    2)简化色彩:将图片转化成灰度图像,进一步简化计算量。

    3)计算DCT:计算图片的DCT变换,得到32*32的DCT系数矩阵。

    4)缩小DCT:虽然DCT的结果是3232大小的矩阵,但我们只要保留左上角的88的矩阵,这部分呈现了图片中的最低频率。

    5)计算平均值:如同均值哈希一样,计算DCT的均值。

    6)计算hash值:这是最主要的一步,根据8*8的DCT矩阵,设置0或1的64位的hash值,大于等于DCT均值的设为”1”,小于DCT均值的设为“0”。组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。

    结果并不能告诉我们真实性的低频率,只能粗略地告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变,hash结果值就不变。能够避免伽马校正或颜色直方图被调整带来的影响。

    与均值哈希一样,pHash同样可以用汉明距离来进行比较。(只需要比较每一位对应的位置并算计不同的位的个数)

猜你喜欢:

【图像】imagededup照片去重(感知哈希,汉明距离)相关推荐

  1. 图像比对-感知哈希算法

    感知哈希算法是一类哈希算法的总称,其作用在于生成每张图像的"指纹"(fingerprint)字符串,比较不同图像的指纹信息来判断图像的相似性.结果越接近图像越相似.感知哈希算法包括 ...

  2. 图像相似度计算之哈希值方法OpenCV实现

    感知哈希算法(perceptual hash algorithm),它的作用是对每张图像生成一个"指纹"(fingerprint)字符串,然后比较不同图像的指纹.结果越接近,就说明 ...

  3. 感知哈希算法(perceptual hash algorithm),

    感知哈希算法(perceptual hash algorithm),它的作用是对每张图像生成一个"指纹"(fingerprint)字符串,然后比较不同图像的指纹.结果越接近,就说明 ...

  4. 感知哈希算法原理与实现

    今天忽然想做一个图像识别的APP,但是在两张图片相似度的问题上产生了问题,感知哈希算法并不能解决这个问题,只是我在试着解决问题的过程中学到的一点知识. 这里的关键技术叫做"感知哈希算法&qu ...

  5. 感知哈希算法(Perceptual hash algorithm)的OpenCV实现

    1.前言 目前"以图搜图"的引擎越来越多,可参考博文: http://blog.csdn.net/forthcriminson/article/details/8698175 此篇 ...

  6. 图片相似度计算:深入理解DCT变换以及感知哈希

    缘起 Android上硬件编解码一直是个老大难问题,就解码来说,硬解码本身并不困难,只要按照MediaCodec的流程开发即可.但由于系统碎片化,硬件规格不一致,硬件解码会到黑屏,花屏,绿屏之类的显示 ...

  7. 基于感知哈希算法的中药标本相似图片的搜索

    一 前言 笔者最近在开发中药标本相似图片的搜索,就是根据用户上传的图片,然后到中药标本库里找到相似的图片,从而帮助用户识别标本,获取标本信息.查阅了大量资料,看到了阮一峰的一篇文章,经过一个月的开发终 ...

  8. 感知哈希算法(Perceptual hash algorithm) 以图搜图

    1.序 目前"以图搜图"的引擎越来越多,可参考博文: http://blog.csdn.net/forthcriminson/article/details/8698175 此篇博 ...

  9. 【转】感知哈希算法——找出相似的图片

    Google 图片搜索功能 在谷歌图片搜索中, 用户可以上传一张图片, 谷歌显示因特网中与此图片相同或者相似的图片. 比如我上传一张照片试试效果: 原理讲解 参考Neal Krawetz博士的这篇文章 ...

最新文章

  1. 找Java培训机构需要注意那些
  2. 机器学习的乐趣与辛劳
  3. spring使用注解@Scheduled执行定时任务
  4. code review手记3
  5. SpringBoot 工程目录 整合mybatis-neo4j(注解类型)
  6. linux下安装12c中间件,linux下静默安装 weblogic12.2.1.3中间件
  7. 使用pt-query-digest,找到不是很合适的sql
  8. [Unity]限制一个值的大小(Clamp以及Mathf)
  9. 基于51单片机的简易计算器设计
  10. Unity网络编程一: 基于Socket搭建一个服务器
  11. 回文联对联大全_回文对联大全
  12. 【OpenCV 例程300篇】48. 直方图处理之彩色直方图匹配
  13. 关于Diy51单片机的趣事
  14. python羊车门问题_羊车门问题简析
  15. 第14章-1~3 法兰接头预紧力密封接触分析周期对称 (介绍、局部柱坐标系建立、周期对称的设置) Beta选项打开、 cyclic region、symmetry
  16. 【VLAN高级技术】--- MUX VLAN运行原理及实例配置讲解
  17. Python:RuntimeWarning: invalid value encountered in true_divide解决方案
  18. 360春招笔试算法题题解
  19. 关于自己的转正述职报告
  20. web小作业——图书选购列表框

热门文章

  1. 一台linux通过另一台linux访问互联网
  2. web app中常用插件(zepto--用法类似于jquery、利用nodejs定制zepto)
  3. php 常用设计模式demo
  4. Elasticsearch 快速入门
  5. docker:Error running DeviceCreate (createSnapDevice) dm_task_run failed
  6. Logback日志系统配置攻略
  7. Qt Creator快捷键
  8. 【javascript 动态添加数据到 HTML 页面】
  9. Application Architecture Guide 2.0 (Chapter 7: Quality Attributes) Part 3
  10. qsort(),sort()排序函数