[1211]python imagehash库简单运用

2023-10-10 08:38:45 浏览数 (1)

github:https://github.com/JohannesBuchner/imagehash

python imagehash库简单运用

imagehash 是一个用 Python 写的图片哈希算法库。支持以下功能:

  • 平均哈希(ahash)
  • 感知哈希(phash)
  • 差异哈希(dhash)
  • 小波哈希(whash)
  • HSV 颜色哈希(colorhash)
  • 抗剪切哈希(crop-resistant hashing)
基本原理

为什么我们不能使用MD5、SHA-1等?

不幸的是,我们不能在实现中使用加密哈希算法。由于加密散列算法的性质,输入文件中的微小更改将导致本质上不同的散列。在图像指纹的情况下,我们实际上希望相似的输入也有相似的输出散列。

什么是哈希(hash)?

散列函数(英语:Hash function)又称散列算法哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。

诸如 MD5、HA256 一类的密码散列函数,可以输入任何一种数据,将数据压缩成部分摘要,使得数据量变小,从而创建出小的数字 “指纹”。

什么是图像哈希(imagehash)?

在图像哈希算法中定义了一类可以输出可比较哈希的函数,这些函数可以提取图像中的特征,用来生成一个独特但不唯一的指纹,比较这些生成的指纹就能够比较两个图像的相似度。

安装
代码语言:javascript复制
pip install imagehash
基本用法
代码语言:javascript复制
>>> from PIL import Image
>>> import imagehash
>>> hash = imagehash.average_hash(Image.open('test.png'))
>>> print(hash)
d879f8f89b1bbf
>>> otherhash = imagehash.average_hash(Image.open('other.bmp'))
>>> print(otherhash)
ffff3720200ffff
>>> print(hash == otherhash)
False
>>> print(hash - otherhash)
36

imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)

perception hashing

感知哈希,不同于aHash,但首先它确实是离散余弦变换和频域。 主函数:def phash(image, hash_size=8, highfreq_factor=4):

  • 两个参数,一起决定了图片resize的大小,最适合的才最好,按照公式: img_size = hash_size * highfreq_factor
  • hash_size代表最终返回hash数值长度
  • highfreq_factor,代表resize的尺度

案例:

代码语言:javascript复制
highfreq_factor = 1
hash_size = 8
img_size = hash_size * highfreq_factor

hash1 = imagehash.phash(Image.open('1_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.phash(Image.open('5_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
average hashing

平均散列,对于每个像素输出1,如果该像素是大于或等于平均值,否则为0。 主函数:

代码语言:javascript复制
average_hash(image, hash_size=8)

案例:

代码语言:javascript复制
hash_size = 6
hash1 = imagehash.average_hash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.average_hash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
difference hashing

梯度散列,计算每个像素的差值,并与平均差异的差异进行比较。

代码语言:javascript复制
def dhash(image, hash_size=8)

案例:

代码语言:javascript复制
hash_size = 10
hash1 = imagehash.dhash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.dhash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
wavelet hashing

离散小波变换(DWT)是频表示的另一种形式。流行的DCT和傅立叶变换使用余弦函数作为sincos的基础:sin(x),sin(2x),sin(3x)等等。与此相反,DWT使用一个单一的功能作为基础,但在不同的形式:缩放和移动。基础功能是可以改变的,这就是为什么我们可以有Haar小波,Daubechie-4小波等,这尺度效应给我们很大“时频表示”的时候,低频部分类似于原始信号。

小波散列,几天前我把它添加到库里。它的工作原理在频域中作为pHash但它使用DWT代替DCT变换。 主函数:

代码语言:javascript复制
def whash(image, hash_size = 8, image_scale = None, mode = 'haar', remove_max_haar_ll = True)

参数:

  • mode: ‘haar’ - Haar wavelets, by default ‘db4’ - Daubechies wavelets
  • remove_max_haar_ll:是否去掉低频段位,low level (LL) frequency
  • image_scale:图像重新resize成多大,一定是2的倍数

案例:

代码语言:javascript复制
hash_size = 8
mode = 'db4'
image_scale = 64
hash1 = imagehash.whash(Image.open('1_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash1)
# > 354adab5054af0b7

hash2 = imagehash.whash(Image.open('5_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash2)
# > 5b7724c8bb364551

1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性

实例对比

测试图片

使用最为流行的图片

lenna400x400.jpg

lenna512x512.png

lenna317x360_add_text.jpg

PHASH测试效果:

结果是对分辨率不敏感,但是对图像的内容很敏感。

代码语言:javascript复制
phash leanna400  :  99c6562d7533a296
phash leanna512  :  99c6562d7533a296
phash leannatext :  98d4946d6e2a72b6
phash leanna400 compare leanna512  :  0.0
phash leanna400 compare leannatext :  0.28125
phash leanna512 compare leannatext :  0.28125
WHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript复制
whash leanna400  :  b698bd8d0b0b8f8c
whash leanna512  :  be98bd890b0b8f8c
whash leannatext :  3e7e4d19190b0f1d
whash leanna400 compare leanna512  :  0.03125
whash leanna400 compare leannatext :  0.3125
whash leanna512 compare leannatext :  0.28125
AHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript复制
average_hash leanna400  :  b69cbd890b0b8f8c
average_hash leanna512  :  b69c3d890b0b8f8c
average_hash leannatext :  3a7e4c09190b0f1f
average_hash leanna400 compare leanna512  :  0.015625
average_hash leanna400 compare leannatext :  0.3125
average_hash leanna512 compare leannatext :  0.296875
DHASH测试效果:

对分辨率不是很敏感,对显示内容更敏感。

代码语言:javascript复制
dhash leanna400  :  7670795b33131a38
dhash leanna512  :  7670795b33135a38
dhash leannatext :  f2f099b93393d9fd
dhash leanna400 compare leanna512  :  0.015625
dhash leanna400 compare leannatext :  0.296875
dhash leanna512 compare leannatext :  0.28125
测试代码:

由于效果不算好,我就不继续测试了。

代码语言:javascript复制
import PIL
from PIL import Image
import imagehash

lenna400 = PIL.Image.open('./res/lenna400x400.jpg')
lenna512 = PIL.Image.open('./res/lenna512x512.png')
lennaText = PIL.Image.open('./res/lenna317x360_add_text.jpg')

p = imagehash.phash(lenna400)
p1 = imagehash.phash(lenna512)
p2 = imagehash.phash(lennaText)
print('phash leanna400  : ', p)
print('phash leanna512  : ', p1)
print('phash leannatext : ', p2)
print('phash leanna400 compare leanna512  : ', (p - p1) / len(p.hash) ** 2)
print('phash leanna400 compare leannatext : ', (p - p2) / len(p.hash) ** 2)
print('phash leanna512 compare leannatext : ', (p1 - p2) / len(p1.hash) ** 2, end='nn')

w = imagehash.whash(lenna400)
w1 = imagehash.whash(lenna512)
w2 = imagehash.whash(lennaText)
print('whash leanna400  : ', w)
print('whash leanna512  : ', w1)
print('whash leannatext : ', w2)
print('whash leanna400 compare leanna512  : ', (w - w1)/len(w.hash)**2)
print('whash leanna400 compare leannatext : ', (w - w2)/len(w.hash)**2)
print('whash leanna512 compare leannatext : ', (w1 - w2)/len(w1.hash)**2, end='nn')

a = imagehash.average_hash(lenna400)
a1 = imagehash.average_hash(lenna512)
a2 = imagehash.average_hash(lennaText)
print('average_hash leanna400  : ', a)
print('average_hash leanna512  : ', a1)
print('average_hash leannatext : ', a2)
print('average_hash leanna400 compare leanna512  : ', (a - a1)/len(a.hash)**2)
print('average_hash leanna400 compare leannatext : ', (a - a2)/len(a.hash)**2)
print('average_hash leanna512 compare leannatext : ', (a1 - a2)/len(a1.hash)**2, end='nn')

d = imagehash.dhash(lenna400)
d1 = imagehash.dhash(lenna512)
d2 = imagehash.dhash(lennaText)
print('dhash leanna400  : ', d)
print('dhash leanna512  : ', d1)
print('dhash leannatext : ', d2)
print('dhash leanna400 compare leanna512  : ', (d - d1) / len(d.hash) ** 2)
print('dhash leanna400 compare leannatext : ', (d - d2) / len(d.hash) ** 2)
print('dhash leanna512 compare leannatext : ', (d1 - d2) / len(d1.hash) ** 2)

参考:https://www.cnpython.com/pypi/imagehash https://blog.csdn.net/DHS2219576309/article/details/104922110 https://cloud.tencent.com/developer/article/1011084 https://sakurapuare.com/?p=26 https://www.freesion.com/article/2768708546/

0 人点赞