亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時域-頻域哈希編碼的電網(wǎng)圖像檢索方法*

2022-10-28 01:22:08強梓林劉建國劉云峰

計算機工程與科學(xué) 2022年10期

關(guān)鍵詞：方法

強梓林，劉建國，劉云峰，衛(wèi) 棟，強彥

(1.太原理工大學(xué)礦業(yè)工程學(xué)院，山西太原 030600;2.國網(wǎng)晉城供電公司,山西晉城 048000；3.太原理工大學(xué)信息與計算機學(xué)院，山西太原 030600)

1 引言

電網(wǎng)的順利暢通對國民經(jīng)濟有著重要的影響，與人們的日常生活息息相關(guān)，準(zhǔn)確及時地發(fā)現(xiàn)電網(wǎng)系統(tǒng)中存在的問題并快速補救可以在一定程度上降低國民經(jīng)濟損失[1]。電網(wǎng)系統(tǒng)規(guī)模逐年增大，電網(wǎng)結(jié)構(gòu)越來越復(fù)雜，如何精準(zhǔn)高效地管理電力設(shè)備變成了一件越來越具有挑戰(zhàn)性的事情。電力設(shè)備具有分布廣泛、數(shù)量眾多和種類多樣等特點，亟需一種高效的方法來管理和維護這些電力設(shè)備。在一線生產(chǎn)過程中，大量的電力設(shè)備相關(guān)圖像會被采集并保存至系統(tǒng)數(shù)據(jù)庫中。在遇到問題時，這些一線技術(shù)人員采集的設(shè)備圖像可以幫助快速地檢索和精準(zhǔn)定位設(shè)備所存在的問題并提供解決方案，工作人員的工作效率可以獲得很大提升。

鑒于哈希方法在存儲空間利用率和檢索速度方面的優(yōu)勢，哈希方法在圖像檢索方面受到了大量研究人員的關(guān)注和研究，并提出了諸多哈希方法。局部敏感哈希LSH(Locality Sensitive Hashing)[2]是最初提出的哈希圖像方法，該方法采用隨機映射對樣本進行編碼，使得原始空間中距離較近的數(shù)據(jù)經(jīng)過處理后發(fā)生“碰撞”的概率比距離遠(yuǎn)的數(shù)據(jù)發(fā)生“碰撞”的概率更大。譜哈希SH(Spectral Hashing)[3]能夠產(chǎn)生簡潔的哈希碼，該方法通過松弛條件，將拉普拉斯矩陣的門限特征向量的子集作為目標(biāo)編碼。有監(jiān)督核哈希方法KSH(Kernel-based Supervised Hashing)將哈希函數(shù)訓(xùn)練過程與少量監(jiān)督信息相結(jié)合，提高了哈希方法的質(zhì)量[4]。

此外，近年來隨著深度學(xué)習(xí)的快速發(fā)展，Xia 等人[5]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的哈希方法CNNH(Convolutional Neural Network Hashing)，該方法利用標(biāo)簽信息構(gòu)造圖像訓(xùn)練集的相似性矩陣，并分解產(chǎn)生相應(yīng)的哈希碼；并且使用優(yōu)化后的損失函數(shù)來促進網(wǎng)絡(luò)更好地調(diào)整網(wǎng)絡(luò)參數(shù)以及圖像的二值碼。Zhao 等人[6]提出了一種基于語義排序的深度哈?？蚣埽苯拥玫脚c待查詢圖像相似的圖像序列，并對最終的評測指標(biāo)進行優(yōu)化。Liu 等人[7]提出了一種基于監(jiān)督學(xué)習(xí)的哈希編碼方法，利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到有標(biāo)簽圖像對的哈希碼，檢索時通過計算候選圖像與目標(biāo)圖像庫哈希碼的漢明距離返回相似圖像。Liu 等人[8]提出了一種基于三元組的圖像對哈希編碼方法DTQ(Deep Triplet Quantization)，利用其提出的深度三元組量化損失函數(shù)，進一步提高了基于深度學(xué)習(xí)的哈希編碼模型性能。圖像哈希方法在電網(wǎng)數(shù)據(jù)方面應(yīng)用較少，工作人員在查詢相似電網(wǎng)圖像數(shù)據(jù)時費時費力，因此加強電網(wǎng)檢索系統(tǒng)對圖像數(shù)據(jù)的相似性度量能力對于提高電網(wǎng)人員工作效率具有重要作用。

2 方法

電網(wǎng)圖像具有與自然圖像相似的特點，圖像中通常都有一個或多個主要的目標(biāo)物體，且背景較為復(fù)雜多變，非常適合使用卷積神經(jīng)網(wǎng)絡(luò)進行處理。因此，本文擬結(jié)合卷積神經(jīng)網(wǎng)絡(luò)與頻域信息，挖掘圖像更深層的隱含特征，建立可以切實有效提高工作人員檢索效率的哈希圖像檢索模型。

2.1 整體框架

本文所提出的基于深度學(xué)習(xí)的哈希編碼方法主要包括4個階段：(1)構(gòu)建基于時域-頻域的卷積神經(jīng)網(wǎng)絡(luò)；(2)根據(jù)模型全連接層的編碼向量選擇三元組數(shù)據(jù)進行訓(xùn)練；(3)添加哈希編碼層輸出圖像的哈希編碼；(4)保留原有分類層進一步約束網(wǎng)絡(luò)訓(xùn)練。最終的輸出結(jié)果可以幫助工作人員快速準(zhǔn)確地查找到相似電力設(shè)備的信息。整體框架如圖1所示。

2.2 三元組選擇

(1)

其中，m為強制劃分正樣本對和負(fù)樣本對的邊界值。如果符合式(1)的無關(guān)圖像數(shù)量大于1，則隨機選擇一幅無關(guān)圖像組成元組。最終訓(xùn)練元組的篩選方法可以描述成式(2):

(2)

2.3 網(wǎng)絡(luò)架構(gòu)

2.3.1 FDB

頻域信息在很多領(lǐng)域都作為重要的特征被考慮和研究，比如人臉識別、目標(biāo)檢測及圖像分類等。本文將頻域信息與密集網(wǎng)絡(luò)進行結(jié)合，提出使用傅里葉密集連接塊FDB(Fourier Dense Block)來更加有效地提取圖像特征。FDB一共包括3個部分：快速傅里葉變換FFT(Fast Fourier Transform)、2個密集連接塊和逆快速傅里葉變換IFFT(Inverse Fast Fourier Transform)。FDB結(jié)構(gòu)如圖3所示。

快速傅里葉變換可以將時域信號轉(zhuǎn)化為頻域信號，且可以實現(xiàn)比離散傅里葉變換DFT(Discrete Fourier Transform)更快的計算，從而減少計算消耗。逆快速傅里葉變換負(fù)責(zé)將密集連接塊篩選過的頻域信息轉(zhuǎn)化為時域信息并輸出。此外，本文選擇了雙通道的密集連接網(wǎng)絡(luò)分別從振幅和相位2個通道提取具有高判別度的頻域信息。快速傅里葉變換的結(jié)果可以表示為實部與虛部的極坐標(biāo)系下的和形式，如式(3)所示：

F(u,v)=R(u,v)+iI(u,v)

(3)

其中，R(u,v)和I(u,v)分別為輸入圖像傅里葉變換的實部和虛部信號，u的取值范圍為{0,1,2,…,M-1}，v的取值范圍為{0,1,2,…,N-1},M和N為傅里葉變換后的圖像寬和高。實部和虛部可以用來表示信號的振幅和相位特征。

對于每個密集連接塊，本文在內(nèi)部設(shè)置了2個殘差塊。殘差塊具有防止梯度爆炸和模型退化的作用，可以有效提高特征的辨別性。每個殘差塊又設(shè)置了3個卷積層，卷積核大小分別為1×1，2×2和3×3。密集連接塊的輸出會被堆疊并輸出到逆傅里葉變換，以重新轉(zhuǎn)換為時域信號進行下一階段的卷積。FDB的前向傳播過程如式(4)所示:

y=F-1(R(·)×WR,I(·)×WI)

(4)

其中，y是FDB的輸出，F(xiàn)-1(·)為逆傅里葉變換，WR和WI分別為FDB關(guān)于實部和虛部信號的權(quán)重矩陣。前向傳播負(fù)責(zé)根據(jù)既定的損失函數(shù)對權(quán)重矩陣進行優(yōu)化，以提高所提取特征的多樣性和有效性，提高最終的預(yù)測正確率。

此外，F(xiàn)DB的反向傳播過程如式(5)所示:

(5)

其中，L(·)為訓(xùn)練階段的損失函數(shù)，x為FDB的輸入?？紤]到x被分解為了實部和虛部2部分，因此在計算反向傳播梯度時需要分別考慮實部和虛部的梯度更新量。

2.3.2 轉(zhuǎn)換層

FDB從頻域信號中提取有效的特征信息，但是提取到的特征往往具有很高的數(shù)據(jù)維度。本文通過引入轉(zhuǎn)換層對提取到的特征進行降維，還設(shè)計了1×1的卷積核和平均池化層來對提取到的特征圖進行特征降維及下采樣。

2.3.3 多任務(wù)學(xué)習(xí)

為了更好地約束哈希編碼的正確性，本文將全連接層的神經(jīng)元個數(shù)調(diào)整為現(xiàn)有數(shù)據(jù)集的類別數(shù)目以適應(yīng)新的分類任務(wù)?？紤]到現(xiàn)有的基于深度學(xué)習(xí)的哈希編碼模型都是直接使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)和哈希編碼層輔以相應(yīng)的損失函數(shù)進行訓(xùn)練，本文保留了原有的分類層，使用Softmax激活函數(shù)和交叉熵?fù)p失函數(shù)約束模型訓(xùn)練，防止模型發(fā)生過擬合。對于神經(jīng)網(wǎng)絡(luò)而言，多個任務(wù)同時學(xué)習(xí)，模型能捕捉到多個任務(wù)之間關(guān)于目標(biāo)樣本的共性屬性，從而降低模型在原始任務(wù)上出現(xiàn)過擬合的風(fēng)險。

2.4 損失函數(shù)

為了更加全面地約束網(wǎng)絡(luò)訓(xùn)練，本文共提出了3部分損失，分別為距圓損失、交叉熵?fù)p失和量化正則項。

2.4.1 距圓損失

考慮到使用了三元組作為模型的輸入，本文使用了如式(6)所示的損失函數(shù)進行訓(xùn)練:

(6)

(7)

(8)

(9)

2.4.2 交叉熵?fù)p失

除了針對樣本對學(xué)習(xí)引入的距圓損失，本文還引入了交叉熵?fù)p失來從另一個維度約束網(wǎng)絡(luò)訓(xùn)練。本文網(wǎng)絡(luò)對輸入圖像進行哈希編碼的同時，還能夠準(zhǔn)確辨別出當(dāng)前輸入圖像的類別。考慮到對于同一個樣本，不同任務(wù)的深層特征仍有其共性存在，分類損失能夠幫助神經(jīng)網(wǎng)絡(luò)更準(zhǔn)確地挖掘圖像中具有高表達(dá)性的特征。已知網(wǎng)絡(luò)對于當(dāng)前圖像的預(yù)測結(jié)果為yp,當(dāng)前圖像的真實標(biāo)簽為ygt,則交叉熵?fù)p失函數(shù)的計算如式(10)所示:

Lce=-[ygtlogyp+(1-ygt)log(1-yp)]

(10)

2.4.3 正則項約束

對于已有的基于深度學(xué)習(xí)的哈希編碼方法而言，他們傾向于使用易飽和的sigmoid或tanh函數(shù)作為哈希編碼層的非線性激活函數(shù)。但是，上述易飽和的激活函數(shù)對于輸入非常敏感，在訓(xùn)練過程中不可避免地會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)率減慢甚至阻礙網(wǎng)絡(luò)順利收斂。因此，本文移除哈希層的激活函數(shù)，添加正則項來約束神經(jīng)網(wǎng)絡(luò)的最終編碼結(jié)果，并且實驗表明該正則項對于防止網(wǎng)絡(luò)過擬合有非常重要的作用。

考慮到如果失去了sigmoid和tanh對于網(wǎng)絡(luò)哈希層輸出值域的限制，可能會導(dǎo)致最終二值化后的哈希編碼不符合預(yù)期的離散分布(+1/-1)。本文引入了正則項，保證網(wǎng)絡(luò)編碼后的向量的模小于1，如式(11)所示：

(11)

(12)

2.4.4 總損失函數(shù)

將上述各部分損失函數(shù)進行求和，可以得到本文需要優(yōu)化的總損失函數(shù)，如式(13)所示:

Lsum=Ltri+Lce+λLre

(13)

其中，Lsum為總的損失函數(shù)，λ為正則項系數(shù)，負(fù)責(zé)權(quán)衡正則項對于哈希層輸出向量的約束強度。

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集

本文將提出的方法與近年來國內(nèi)外的優(yōu)秀方法在以下數(shù)據(jù)集上進行了比較：(1)CIFAR-10[10]。該數(shù)據(jù)集共有60 000幅大小為32×32的圖像，共分為10類，每類6 000幅。本文遵循了該數(shù)據(jù)集的原始劃分方案，使用前50 000幅圖像用于網(wǎng)絡(luò)訓(xùn)練，剩余的10 000幅圖像用于測試本文方法的性能。(2)采集的電力公司日常部分圖像數(shù)據(jù)。該數(shù)據(jù)集包括日常線路的電纜、電力設(shè)備、日常設(shè)備檢修記錄和故障設(shè)備的圖像記錄。該數(shù)據(jù)集具體描述如表1所示。

Table 1 Description of the dataset

3.2 實驗環(huán)境與參數(shù)設(shè)置

所有的實驗均在圖形工作站上進行，工作站操作系統(tǒng)為Ubuntu 18.04 LTS、CPU為主頻2.90 GHz的Intel(R)Xeon(R)W-2102處理器，顯卡為NVIDIA TITAN XP GPU?；赥ensorFlow[11]實現(xiàn)本文方法。采用mini-batch Adam優(yōu)化器(基本學(xué)習(xí)率為0.001,beta1為0.9,beta2為0.999,epsilon為None,decay為0,batchsize為32)進行網(wǎng)絡(luò)訓(xùn)練，并將網(wǎng)絡(luò)訓(xùn)練的最大迭代次數(shù)設(shè)置為600。為了獲得更好的方法性能，本文采用了如式(14)所示的可變學(xué)習(xí)率方案：

(14)

其中，t是網(wǎng)絡(luò)迭代索引，初始學(xué)習(xí)率η(0)設(shè)置為0.001。為了與其他研究工作的評估標(biāo)準(zhǔn)保持一致，本文采用所有類別平均精確率mAP(mean Average Precision)、精確率-召回率曲線(32位哈希編碼)和檢索出的前N幅圖像的精確率曲線作為本文方法的評估指標(biāo)[12]。

3.3 各方法性能比較

不同位長的哈希編碼下不同方法在2個數(shù)據(jù)集上的mAP結(jié)果如表2所示。

從表2可以看出，本文所提出的方法比其它方法更加優(yōu)異，在32位哈希編碼的情況下，分別在CIFAR10和電力圖像數(shù)據(jù)集上mAP達(dá)到了81.3%和83.6%。這說明本文所提出的方法在提高哈希編碼效率上有較大的作用，這可能是因為距圓損失的加入使模型訓(xùn)練更有目標(biāo)性，且多任務(wù)學(xué)習(xí)的加入又進一步降低了模型過擬合的程度。然而，傳統(tǒng)的哈希編碼方法和優(yōu)化目標(biāo)較為單一的哈希編碼方法(CNNH[5]和HashNet[13])在性能表現(xiàn)上普遍欠佳，多損失優(yōu)化下的方法(DVSQ[14]和DTQ[8])的性能往往較好。此外，各方法在編碼長度為32位時，性能最好。本文還繪制了32位哈希編碼下不同方法在CIFAR10和電力圖像數(shù)據(jù)集上的精確率-召回率曲線，如圖5所示。從圖5中可以看出，HashNet在不同數(shù)據(jù)集上的泛化能力較差，在CIFAR10數(shù)據(jù)集上表現(xiàn)尚可，在電力圖像數(shù)據(jù)集上的表現(xiàn)僅優(yōu)于傳統(tǒng)方法ITQ-CCA。整體來講，深度學(xué)習(xí)方法的性能普遍優(yōu)于傳統(tǒng)哈希編碼方法的。

為了衡量不同方法的查準(zhǔn)率，本文測試了不同方法在32位哈希編碼下的查準(zhǔn)率，并繪制了在該條件下的精確率曲線，如圖6所示?？梢钥吹奖疚乃岢龅姆椒ㄔ?個數(shù)據(jù)集上表現(xiàn)都較好，且在電力圖像數(shù)據(jù)集上的檢索性能要比在CIFAR10數(shù)據(jù)集上的檢索性能好很多。

3.4 圖像檢索可視化

哈希編碼的目標(biāo)在于盡可能拉近相似度較高(同等類別)的樣本對的編碼距離，即使2幅圖像的哈希編碼盡可能相似。為此，本文從CIFAR10數(shù)據(jù)集中隨機選擇了32幅圖像，并給出了每幅圖像的所屬類別和本文方法的長度為12位的哈希編碼，匯總結(jié)果如圖7所示。可以看出，相同類別圖像的哈希編碼傾向于保持一致或多位編碼結(jié)果保持一致，符合本文對于哈希編碼結(jié)果的預(yù)期。

此外，還給出了本文方法對指定類別的圖像進行檢索后排名前10的候選圖像檢索結(jié)果(以少數(shù)類別為例)，如圖8所示?？梢钥闯?，對于比較容易辨別的圖像，如風(fēng)力發(fā)電機，排名前10的圖像全部命中，精確率100%。對于難度較大背景較復(fù)雜的小型水力發(fā)電機，精確率明顯降低，只達(dá)到了80%。同樣情況，變壓器的檢索精確率為90%。這可能是因為變壓器的特點較小型發(fā)電機的要更為明顯，且背景復(fù)雜的圖像對于本文方法仍然具有一定的挑戰(zhàn)性。

4 結(jié)束語

本文為解決電網(wǎng)系統(tǒng)中電力數(shù)據(jù)規(guī)模大，但檢索精度低、檢索速度慢等問題，提出了基于距圓損失的深度哈希編碼方法用于提高電力圖像檢索效率，并通過引入多任務(wù)學(xué)習(xí)和正則項進一步降低網(wǎng)絡(luò)訓(xùn)練過擬合程度，提高網(wǎng)絡(luò)最終編碼性能，進而提高電力圖像檢索效率。

從實驗結(jié)果來看，本文所提出的方法有效地提高了圖像檢索領(lǐng)域哈希編碼的準(zhǔn)確性和有效性，但本文方法仍有以下不足：(1)網(wǎng)絡(luò)的過擬合現(xiàn)象仍然存在。本文發(fā)現(xiàn)，哈希編碼的性能主要取決于所提方法在測試集上的過擬合程度，不斷降低過擬合程度是提高性能的最有效方法。本文所作的主要貢獻(xiàn)之一即為引入了多任務(wù)學(xué)習(xí)及正則項進一步降低了網(wǎng)絡(luò)的過擬合程度，進而提高了哈希編碼的有效性。(2)對于哈希編碼的量化損失較為單一。如何更有效地量化圖像對之間的哈希編碼并計算兩者之間的損失可以給網(wǎng)絡(luò)訓(xùn)練指出更加明確的訓(xùn)練方向，降低訓(xùn)練過程中的不確定性。

針對以上問題，未來需要進行的研究工作包括：(1)尋找更有效的防止過擬合的方法，以提高網(wǎng)絡(luò)性能，如數(shù)據(jù)增強、生成對抗網(wǎng)絡(luò)和正則化方法等；(2)尋找更全面的哈希編碼量化損失，以更好地約束網(wǎng)絡(luò)訓(xùn)練，提高編碼性能。