感知哈??梢杂脕砼袛鄡蓚€圖片的相似度,通常可以用來進(jìn)行圖像檢索。
感知哈希算法對每一張圖片生成一個“指紋”,通過比較兩張圖片的指紋,來判斷他們的相似度,是否屬于同一張圖片。
常用的有三種:平均哈希(aHash),感知哈希(pHash),差異值哈希(dHash)
他們的步驟都類似:
1.圖片縮放,一般為8*8,或者32*32
2.將圖片灰度化
3.求平均值,并根據(jù)平均值將每一個像素二值化
4.將8*8=64位bit,每8個比特為一個十六進(jìn)制值,轉(zhuǎn)換成字符串,生成哈希值(指紋)
1.圖片縮放 為32*32大小
2.將圖片灰度化
3.對圖片進(jìn)行離散余弦變換(DCT),轉(zhuǎn)換的頻域
4.取頻域左上角8*8大小(圖片的能量都集中在低頻部分,低頻位于左上角)
5.計(jì)算平均值,并根據(jù)平均值二值化(同平均哈希)
6.生成哈希值
1.圖片縮放為9*8大小
2.將圖片灰度化
3.差異值計(jì)算(每行相鄰像素的差值,這樣會生成8*8的差值,前一個像素大于后一個像素則為1,否則為0)
4.生成哈希值
生成每一個圖片的哈希值后,需要計(jì)算哈希值的距離,來判斷兩張圖片的相似度。一般使用漢明距離,也就是逐位計(jì)算兩張圖片的哈希值是否相同。
下面是用python實(shí)現(xiàn)的三種哈希:
- import cv2
- import numpy as np
- import time
- #均值哈希算法
- def aHash(img):
- #縮放為8*8
- img=cv2.resize(img,(8,8),interpolation=cv2.INTER_CUBIC)
- #轉(zhuǎn)換為灰度圖
- gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
- #s為像素和初值為0,hash_str為hash值初值為''
- s=0
- hash_str=''
- #遍歷累加求像素和
- for i in range(8):
- for j in range(8):
- s=s+gray[i,j]
- #求平均灰度
- avg=s/64
- #灰度大于平均值為1相反為0生成圖片的hash值
- for i in range(8):
- for j in range(8):
- if gray[i,j]>avg:
- hash_str=hash_str+'1'
- else:
- hash_str=hash_str+'0'
- return hash_str
- #差值感知算法
- def dHash(img):
- #縮放8*8
- img=cv2.resize(img,(9,8),interpolation=cv2.INTER_CUBIC)
- #轉(zhuǎn)換灰度圖
- gray=cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
- hash_str=''
- #每行前一個像素大于后一個像素為1,相反為0,生成哈希
- for i in range(8):
- for j in range(8):
- if gray[i,j]>gray[i,j+1]:
- hash_str=hash_str+'1'
- else:
- hash_str=hash_str+'0'
- return hash_str
- #Hash值對比
- def cmpHash(hash1,hash2):
- n=0
- #hash長度不同則返回-1代表傳參出錯
- if len(hash1)!=len(hash2):
- return -1
- #遍歷判斷
- for i in range(len(hash1)):
- #不相等則n計(jì)數(shù)+1,n最終為相似度
- if hash1[i]!=hash2[i]:
- n=n+1
- return 1 - n / 64
- def pHash(imgfile):
- img_list=[]
- #加載并調(diào)整圖片為32x32灰度圖片
- img=cv2.imread(imgfile, 0)
- img=cv2.resize(img,(64,64),interpolation=cv2.INTER_CUBIC)
- #創(chuàng)建二維列表
- h, w = img.shape[:2]
- vis0 = np.zeros((h,w), np.float32)
- vis0[:h,:w] = img #填充數(shù)據(jù)
- #二維Dct變換
- vis1 = cv2.dct(cv2.dct(vis0))
- #cv.SaveImage('a.jpg',cv.fromarray(vis0)) #保存圖片
- vis1.resize(32,32)
- #把二維list變成一維list
- img_list=vis1.flatten()
- #計(jì)算均值
- avg = sum(img_list)*1./len(img_list)
- avg_list = ['0' if i>avg else '1' for i in img_list]
- #得到哈希值
- return ''.join(['%x' % int(''.join(avg_list[x:x+4]),2) for x in range(0,32*32,4)])
- def hammingDist(s1, s2):
- #assert len(s1) == len(s2)
- return 1 - sum([ch1 != ch2 for ch1, ch2 in zip(s1, s2)])*1. / (32*32/4)
- if __name__ == '__main__':
- img1 = cv2.imread("F:\\Humpback Whale\\phash\\4.jpg")
- img2 = cv2.imread("F:\\Humpback Whale\\phash\\2d6610b9.jpg")
- time1 = time.time()
- hash1 = aHash(img1)
- hash2 = aHash(img2)
- n = cmpHash(hash1, hash2)
- print('均值哈希算法相似度:', n, "-----time=", (time.time() - time1))
- time1 = time.time()
- hash1 = dHash(img1)
- hash2 = dHash(img2)
- n = cmpHash(hash1, hash2)
- print('差值哈希算法相似度:', n, "-----time=", (time.time() - time1))
- time1 = time.time()
- HASH1=pHash("F:\\Humpback Whale\\phash\\4.jpg")
- HASH2=pHash("F:\\Humpback Whale\\phash\\2d6610b9.jpg")
- out_score = hammingDist(HASH1,HASH2)
- print('感知哈希算法相似度:', out_score, "-----time=", (time.time() - time1))
并做了一些實(shí)驗(yàn),來比較三種哈希的特點(diǎn):
1.同一張圖片
均值哈希算法相似度: 1.0 -----time= 0.0
差值哈希算法相似度: 1.0 -----time= 0.0
感知哈希算法相似度: 1.0 -----time= 0.031249523162841797
2.圖片resize成其他大小
均值哈希算法相似度: 0.890625 -----time= 0.0
差值哈希算法相似度: 0.859375 -----time= 0.0
感知哈希算法相似度: 0.921875 -----time= 0.03124713897705078
3.改變圖片亮度
均值哈希算法相似度: 0.984375 -----time= 0.0
差值哈希算法相似度: 0.9375 -----time= 0.0
感知哈希算法相似度: 0.95703125 -----time= 0.0312497615814209
4. 改變圖片對比度
均值哈希算法相似度: 1.0 -----time= 0.0
差值哈希算法相似度: 1.0 -----time= 0.0
感知哈希算法相似度: 0.8828125 -----time= 0.04687380790710449
5.改變圖片銳度
均值哈希算法相似度: 0.984375 -----time= 0.0
差值哈希算法相似度: 0.890625 -----time= 0.0
感知哈希算法相似度: 0.94921875 -----time= 0.031252145767211914
6.色度增強(qiáng)
均值哈希算法相似度: 1.0 -----time= 0.015625715255737305
差值哈希算法相似度: 0.984375 -----time= 0.0
感知哈希算法相似度: 0.99609375 -----time= 0.0312497615814209
7.圖片旋轉(zhuǎn)
均值哈希算法相似度: 0.484375 -----time= 0.0
差值哈希算法相似度: 0.46875 -----time= 0.0
感知哈希算法相似度: 0.4609375 -----time= 0.031249046325683594
均值哈希算法相似度: 0.375 -----time= 0.0
差值哈希算法相似度: 0.515625 -----time= 0.0
感知哈希算法相似度: 0.62890625 -----time= 0.03132271766662598
從上面的實(shí)驗(yàn)結(jié)果可以得出一下結(jié)論:
1.均值哈希和差值哈希算法的時間都比感知哈希少,因?yàn)楦兄esize為32*32,并且要進(jìn)行DCT離散余弦變換,這個計(jì)算比較耗時
2.改變圖片的亮度,色度,對比度,銳度,均值哈希的效果都是最好的,幾乎不受影響,其次是差值哈希,最差是感知哈希
3.但是感知哈希在圖片旋轉(zhuǎn)以及resize后,效果比前兩者要好
聯(lián)系客服