github:https://github.com/JohannesBuchner/imagehash
python imagehash库简单运用
imagehash 是一个用 Python 写的图片哈希算法库。支持以下功能:
- 平均哈希(ahash)
- 感知哈希(phash)
- 差异哈希(dhash)
- 小波哈希(whash)
- HSV 颜色哈希(colorhash)
- 抗剪切哈希(crop-resistant hashing)
基本原理
为什么我们不能使用MD5、SHA-1等?
不幸的是,我们不能在实现中使用加密哈希算法。由于加密散列算法的性质,输入文件中的微小更改将导致本质上不同的散列。在图像指纹的情况下,我们实际上希望相似的输入也有相似的输出散列。
什么是哈希(hash)?
散列函数(英语:Hash function)又称散列算法、哈希函数,是一种从任何一种数据中创建小的数字 “指纹” 的方法。散列函数把消息或数据压缩成摘要,使得数据量变小,将数据的格式固定下来。该函数将数据打乱混合,重新创建一个叫做散列值(hash values,hash codes,hash sums,或 hashes)的指纹。散列值通常用一个短的随机字母和数字组成的字符串来代表。
诸如 MD5、HA256 一类的密码散列函数,可以输入任何一种数据,将数据压缩成部分摘要,使得数据量变小,从而创建出小的数字 “指纹”。
什么是图像哈希(imagehash
)?
在图像哈希算法中定义了一类可以输出可比较哈希的函数,这些函数可以提取图像中的特征,用来生成一个独特但不唯一的指纹,比较这些生成的指纹就能够比较两个图像的相似度。
安装
代码语言:javascript复制pip install imagehash
基本用法
代码语言:javascript复制>>> from PIL import Image
>>> import imagehash
>>> hash = imagehash.average_hash(Image.open('test.png'))
>>> print(hash)
d879f8f89b1bbf
>>> otherhash = imagehash.average_hash(Image.open('other.bmp'))
>>> print(otherhash)
ffff3720200ffff
>>> print(hash == otherhash)
False
>>> print(hash - otherhash)
36
imagehash中的四种图像哈希方式(phash/ahash/dhash/小波hash)
perception hashing
感知哈希,不同于aHash,但首先它确实是离散余弦变换和频域。
主函数:def phash(image, hash_size=8, highfreq_factor=4):
- 两个参数,一起决定了图片resize的大小,最适合的才最好,按照公式: img_size = hash_size * highfreq_factor
- hash_size代表最终返回hash数值长度
- highfreq_factor,代表resize的尺度
案例:
代码语言:javascript复制highfreq_factor = 1
hash_size = 8
img_size = hash_size * highfreq_factor
hash1 = imagehash.phash(Image.open('1_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash1)
# > 354adab5054af0b7
hash2 = imagehash.phash(Image.open('5_1.jpg'),hash_size=hash_size,highfreq_factor=highfreq_factor)
print(hash2)
# > 5b7724c8bb364551
1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
average hashing
平均散列,对于每个像素输出1,如果该像素是大于或等于平均值,否则为0。 主函数:
代码语言:javascript复制average_hash(image, hash_size=8)
案例:
代码语言:javascript复制hash_size = 6
hash1 = imagehash.average_hash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7
hash2 = imagehash.average_hash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551
1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
difference hashing
梯度散列,计算每个像素的差值,并与平均差异的差异进行比较。
代码语言:javascript复制def dhash(image, hash_size=8)
案例:
代码语言:javascript复制hash_size = 10
hash1 = imagehash.dhash(Image.open('5_1.jpg'),hash_size=hash_size)
print(hash1)
# > 354adab5054af0b7
hash2 = imagehash.dhash(Image.open('1_1.jpg'),hash_size=hash_size)
print(hash2)
# > 5b7724c8bb364551
1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
wavelet hashing
离散小波变换(DWT)是频表示的另一种形式。流行的DCT和傅立叶变换使用余弦函数作为sincos的基础:sin(x),sin(2x),sin(3x)等等。与此相反,DWT使用一个单一的功能作为基础,但在不同的形式:缩放和移动。基础功能是可以改变的,这就是为什么我们可以有Haar小波,Daubechie-4小波等,这尺度效应给我们很大“时频表示”的时候,低频部分类似于原始信号。
小波散列,几天前我把它添加到库里。它的工作原理在频域中作为pHash但它使用DWT代替DCT变换。 主函数:
代码语言:javascript复制def whash(image, hash_size = 8, image_scale = None, mode = 'haar', remove_max_haar_ll = True)
参数:
- mode: ‘haar’ - Haar wavelets, by default ‘db4’ - Daubechies wavelets
- remove_max_haar_ll:是否去掉低频段位,low level (LL) frequency
- image_scale:图像重新resize成多大,一定是2的倍数
案例:
代码语言:javascript复制hash_size = 8
mode = 'db4'
image_scale = 64
hash1 = imagehash.whash(Image.open('1_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash1)
# > 354adab5054af0b7
hash2 = imagehash.whash(Image.open('5_1.jpg'),image_scale=image_scale,hash_size=hash_size,mode = mode)
print(hash2)
# > 5b7724c8bb364551
1 - (hash1 - hash2)/len(hash1.hash)**2 # 相似性
实例对比
测试图片
使用最为流行的图片
lenna400x400.jpg | lenna512x512.png | lenna317x360_add_text.jpg |
---|---|---|
PHASH测试效果:
结果是对分辨率不敏感,但是对图像的内容很敏感。
代码语言:javascript复制phash leanna400 : 99c6562d7533a296
phash leanna512 : 99c6562d7533a296
phash leannatext : 98d4946d6e2a72b6
phash leanna400 compare leanna512 : 0.0
phash leanna400 compare leannatext : 0.28125
phash leanna512 compare leannatext : 0.28125
WHASH测试效果:
对分辨率不是很敏感,对显示内容更敏感。
代码语言:javascript复制whash leanna400 : b698bd8d0b0b8f8c
whash leanna512 : be98bd890b0b8f8c
whash leannatext : 3e7e4d19190b0f1d
whash leanna400 compare leanna512 : 0.03125
whash leanna400 compare leannatext : 0.3125
whash leanna512 compare leannatext : 0.28125
AHASH测试效果:
对分辨率不是很敏感,对显示内容更敏感。
代码语言:javascript复制average_hash leanna400 : b69cbd890b0b8f8c
average_hash leanna512 : b69c3d890b0b8f8c
average_hash leannatext : 3a7e4c09190b0f1f
average_hash leanna400 compare leanna512 : 0.015625
average_hash leanna400 compare leannatext : 0.3125
average_hash leanna512 compare leannatext : 0.296875
DHASH测试效果:
对分辨率不是很敏感,对显示内容更敏感。
代码语言:javascript复制dhash leanna400 : 7670795b33131a38
dhash leanna512 : 7670795b33135a38
dhash leannatext : f2f099b93393d9fd
dhash leanna400 compare leanna512 : 0.015625
dhash leanna400 compare leannatext : 0.296875
dhash leanna512 compare leannatext : 0.28125
测试代码:
由于效果不算好,我就不继续测试了。
代码语言:javascript复制import PIL
from PIL import Image
import imagehash
lenna400 = PIL.Image.open('./res/lenna400x400.jpg')
lenna512 = PIL.Image.open('./res/lenna512x512.png')
lennaText = PIL.Image.open('./res/lenna317x360_add_text.jpg')
p = imagehash.phash(lenna400)
p1 = imagehash.phash(lenna512)
p2 = imagehash.phash(lennaText)
print('phash leanna400 : ', p)
print('phash leanna512 : ', p1)
print('phash leannatext : ', p2)
print('phash leanna400 compare leanna512 : ', (p - p1) / len(p.hash) ** 2)
print('phash leanna400 compare leannatext : ', (p - p2) / len(p.hash) ** 2)
print('phash leanna512 compare leannatext : ', (p1 - p2) / len(p1.hash) ** 2, end='nn')
w = imagehash.whash(lenna400)
w1 = imagehash.whash(lenna512)
w2 = imagehash.whash(lennaText)
print('whash leanna400 : ', w)
print('whash leanna512 : ', w1)
print('whash leannatext : ', w2)
print('whash leanna400 compare leanna512 : ', (w - w1)/len(w.hash)**2)
print('whash leanna400 compare leannatext : ', (w - w2)/len(w.hash)**2)
print('whash leanna512 compare leannatext : ', (w1 - w2)/len(w1.hash)**2, end='nn')
a = imagehash.average_hash(lenna400)
a1 = imagehash.average_hash(lenna512)
a2 = imagehash.average_hash(lennaText)
print('average_hash leanna400 : ', a)
print('average_hash leanna512 : ', a1)
print('average_hash leannatext : ', a2)
print('average_hash leanna400 compare leanna512 : ', (a - a1)/len(a.hash)**2)
print('average_hash leanna400 compare leannatext : ', (a - a2)/len(a.hash)**2)
print('average_hash leanna512 compare leannatext : ', (a1 - a2)/len(a1.hash)**2, end='nn')
d = imagehash.dhash(lenna400)
d1 = imagehash.dhash(lenna512)
d2 = imagehash.dhash(lennaText)
print('dhash leanna400 : ', d)
print('dhash leanna512 : ', d1)
print('dhash leannatext : ', d2)
print('dhash leanna400 compare leanna512 : ', (d - d1) / len(d.hash) ** 2)
print('dhash leanna400 compare leannatext : ', (d - d2) / len(d.hash) ** 2)
print('dhash leanna512 compare leannatext : ', (d1 - d2) / len(d1.hash) ** 2)
参考:https://www.cnpython.com/pypi/imagehash https://blog.csdn.net/DHS2219576309/article/details/104922110 https://cloud.tencent.com/developer/article/1011084 https://sakurapuare.com/?p=26 https://www.freesion.com/article/2768708546/