文政穎,李運娣
(河南工程學院 計算機學院,河南 鄭州 451191)
語義指向性特征聚類的圖像檢索算法研究
文政穎,李運娣
(河南工程學院 計算機學院,河南 鄭州 451191)
在大型多媒體數(shù)據(jù)庫中,需要進行圖像檢索實現(xiàn)感興趣圖像的準確索引和多媒體數(shù)據(jù)庫的準確訪問。傳統(tǒng)方法采用關聯(lián)信息人工標注方法進行圖像檢索,隨著數(shù)據(jù)庫中圖像信息的增大,標注檢索效率較低。為提高大型多媒體數(shù)據(jù)庫中圖像檢索的效率和精度,提出了一種基于語義指向性特征聚類的圖像檢索算法。該算法通過圖像向量量化編碼實現(xiàn)圖像壓縮,對圖像中的文本信息點進行頻域特征點歸類,對出現(xiàn)重疊文本的圖像幀序列進行向量量化分解,提取梯度差異信息特征,實現(xiàn)語義指向性特征聚類,將窗口中梯度最大值進行自適應加權,提取量化編碼壓縮圖像的語義特征信息,采用模糊C均值聚類算法對提取的語義特征進行分類標注,由此實現(xiàn)大型多媒體數(shù)據(jù)庫中圖像的準確檢索和調度。仿真結果表明,該算法的圖像檢索準確度較高,圖像幀差為零,輸出圖像的峰值信噪比優(yōu)于傳統(tǒng)方法,展示了較好的圖像檢索能力。
語義;聚類;圖像檢索;向量量化
隨著計算機網(wǎng)絡信息技術的快速發(fā)展,信息的載體不再局限于文本信息,大量富含了聲音、視頻和圖像的多媒體信息作為未來信息存儲和傳輸?shù)闹饕d體,記錄了人們生產(chǎn)和生活的各類數(shù)據(jù)信息。在當今大數(shù) 據(jù)時代,大量的多媒體信息通過網(wǎng)絡多媒體數(shù)據(jù)庫進行信息存儲和數(shù)據(jù)傳輸,多媒體數(shù)據(jù)庫中存儲有海量的音視頻和圖像等信息,而圖像檢索是實現(xiàn)大型多媒體數(shù)據(jù)準確訪問和信息索引的基礎。在大型多媒體數(shù)據(jù)庫中,需要進行圖像檢索實現(xiàn)感興趣圖像的準確索引和多媒體數(shù)據(jù)庫的準確訪問。因此,研究大型多媒體數(shù)據(jù)庫中的圖像檢索算法,在進行多媒體數(shù)據(jù)庫訪問和調度中具有重要意義,相關的算法研究受到重視。
圖像的優(yōu)化檢索是進行多媒體數(shù)據(jù)庫訪問和調度的基礎,圖像檢索也是實現(xiàn)視頻檢索的第一步,通過圖像檢索為視頻訪問和檢索提供準確的索引和標注。傳統(tǒng)的圖像檢索方法主要有人工標注法、文本檢測法、圖像編碼法和圖像紋理信息特征提取方法[1-3]等。其中人工標注法是通過人工方法進行圖像中文字和圖像信息的自動標注,該方法可靠簡單,但是效率不高[4]。文本檢測法是通過提取拍攝的圖像和視頻中的文本信息,通過關鍵詞索引方法實現(xiàn)圖像檢索。該算法在進行圖像檢索中具有高效性,但是在進行圖像索引時受到疊加文本的干擾較大,尤其是對視頻圖像中的疊加文本的自動識別能力不高,導致檢索精度不高[5]。圖像編碼法是通過圖像向量量化編碼實現(xiàn)圖像檢索,隨著信息編碼技術的發(fā)展,該技術成為圖像索引的一個重要工具。采用量化編碼算法進行圖像檢索保留圖像的邊緣和細節(jié),但是算法的計算開銷較大,圖像檢索的實時性不好。另外,文獻[6]提出一種基于建模離散點Delaunay斷層分割和紋理信息特征提取的圖像檢索和視覺重構方法,在三角網(wǎng)約束曲面中進行計算機視覺特征提取和亞像素特征匹配,實現(xiàn)計算機視覺重構和建模,提高了圖像檢索精度,但是該方法在受到不規(guī)則噪點的干擾下,視覺重構和檢索的抗干擾性不好,準確度不高。
針對上述問題,提出一種基于語義指向性特征聚類的圖像檢索算法。對圖像進行向量量化編碼實現(xiàn)圖像壓縮,提取量化編碼壓縮圖像的語義特征信息,采用模糊C均值聚類算法對提取的語義特征進行分類標注,由此實現(xiàn)大型多媒體數(shù)據(jù)庫中圖像的準確檢索和信息索引,最后通過仿真進行了性能測試,驗證了算法的有效性。
1.1 圖像檢索預備知識描述及算法設計原理
在大型多媒體數(shù)據(jù)庫中,為了實現(xiàn)感興趣目標圖像的準確檢索和訪問,需要對目標圖像進行信息特征提取和分類識別。為了實現(xiàn)圖像檢索,需要把大型多媒體數(shù)據(jù)庫中的圖像分成3×3拓撲結構,設置4個圖像檢索輸入通道,分別為水平方向、垂直方向、左對角線方向以及右對角線方向。采用p1,p2和p3分別代表圖像檢索通道中的輸入像素節(jié)點,以近鄰點為中心構建圖像的向量量化特征編碼模型,把p2當作圖像檢索的語義特征引導輪廓演化聚類中心,初始化水平集函數(shù)φ,得到用單個檢索節(jié)點適應度的相位滑動平均窗口。把4個檢索通道的語義檢索圖像按橫向和豎向進行分解,提取圖像在四個檢索通道中的梯度圖,得到輸入向量值分別為x1,x2,x3和x4,表示為:
(1)
其中,m為邊緣特征的像素灰度值中值,定義域為Ω的大型多媒體數(shù)據(jù)庫待檢索圖像I(x,y)被邊緣輪廓曲線C劃分為具有不同語義特征的區(qū)域R1和R2,其中一個為圖像中的文本區(qū)域,一個為圖像的背景區(qū)域。在曲線長度約束下,得到一個C-V模型擬合下的圖像檢索的區(qū)域分布函數(shù):
(2)
其中,c1和c2分別表示大型多媒體數(shù)據(jù)庫中圖像的目標區(qū)域和背景區(qū)域的局部二值擬合特征系數(shù);Length(C)表示待檢索圖像的邊緣輪廓的歸一化長度;Area(inside(C))表示輪廓曲線的梯度模;μ、ν、λ1和λ2表示各檢索語義特征自適應修正權重系數(shù),均為大于0的常數(shù)。
以上述圖像檢索的區(qū)域分布函數(shù)為目標函數(shù)進行優(yōu)化求解,在各個圖像檢索通道方向進行語義指向性特征提取,結合數(shù)據(jù)聚類算法進行圖像的分類檢索,根據(jù)上述算法原理進行算法設計。
1.2 圖像向量量化編碼預處理
(3)
(4)
其中,‖sj‖表示sj中訓練樣本向量的個數(shù)。
通過上述算法設計,實現(xiàn)大型多媒體數(shù)據(jù)庫中的圖像向量量化編碼,根據(jù)編碼輸出進行語義指向性特征聚類處理,實現(xiàn)圖像檢索。
2.1 圖像的語義指向性特征提取
在上述圖像向量量化編碼的基礎上,進行圖像檢索算法優(yōu)化設計。據(jù)分析得知,傳統(tǒng)方法采用關聯(lián)信息人工標注方法進行圖像檢索,隨著數(shù)據(jù)庫中圖像信息的增大,標注檢索效率降低。為了克服傳統(tǒng)方法的弊端,文中提出一種基于語義指向性特征聚類的圖像檢索算法。
對數(shù)據(jù)的圖像量化編碼信息進行特征提取和特征壓縮處理,提取量化編碼壓縮圖像的語義特征信息,采用模糊C均值聚類算法對提取的語義特征進行分類標注[9-10],進行圖像檢索。首先構建圖像語義指向性特征數(shù)據(jù)采集模型,在對大型多媒體數(shù)據(jù)庫訪問中,對大型多媒體數(shù)據(jù)庫中的一幅RGB彩色圖像通過語義狀態(tài)特征信息進行圖像邊緣特征提取。其中,對圖像輸出的向量量化編碼進行語義指向性特征提取的過程描述為:假設圖像檢索區(qū)域中文本模塊的輸入特征信息時間序列為x(t),t=0,1,…n-1,對圖像的量化編碼信息的定位區(qū)間描述為:
u=[u1,u2,…,uN]∈RmN
(5)
在上述語義信息實體模型中,在橫向和豎向兩個梯度方向對圖像的像素點樣本進行自組織神經(jīng)網(wǎng)絡訓練,進行模糊規(guī)則下推理,求得最大梯度差像素:
(6)
其中,m,n分別是大型多媒體數(shù)據(jù)庫中的圖像向量量化的梯度特征差異圖的高度和寬度。
提取梯度特征差異信息中的語義指向性波束函數(shù),對窗口中梯度最大值進行自適應加權,得到輸出的加權向量為:
x(t)=(x0(t),x1(t),…,xk-1(t))T
(7)
采用一個1×N的窗口來遍歷被檢索圖像的非文本像素集合,確定窗口大小N,對于所確定的疑似文本像素輸入檢測函數(shù)x(t),經(jīng)過閾值判決,計算其與所有輸出像素特征窗口加權向量ωj的空間距離,表示為:
(8)
其中,ωj為檢索圖像的縱向的最大梯度差加權系數(shù),表示為:
ωj=(ω0j,ω1j,…,ωk-1,j)T
(9)
通過對圖像中的有用文本進行語義指向性特征提取,各自判決的文本像素為TLX、TLY,文本像素的判決式為:
(10)
設多媒體數(shù)據(jù)庫中與語義信息相關的圖像類別總數(shù)為m,在最小窗口距離下計算信息索引的指向性聚焦特征Nj*,其中網(wǎng)絡節(jié)點的最小距離為:
(11)
由于把圖像分成3×3拓撲結構,結合圖的向量量化編碼輸出,設圖像所屬類別的對象集合Fm(x,y)為第m幀(x,y)處的像素灰度值,由此得到輸出的語義指向性特征為:
(12)
(13)
通過上述分析,實現(xiàn)了圖像的語義指向性特征提取。
2.2 FCM特征聚類及圖像檢索算法實現(xiàn)
在語義特征提取的基礎上,對輸出的語義指向性特征提取結果進行數(shù)據(jù)聚類處理,采用模糊C均值(Fuzzy C-Means,FCM)聚類算法進行特征數(shù)據(jù)聚類[11-13]。假設輸入的大型多媒體數(shù)據(jù)庫中待檢索圖像的語義指向性特征數(shù)據(jù)為一個有限數(shù)據(jù)集:
X={x1,x2,…,xn}?Rs
(14)
圖像經(jīng)過LGB向量量化編碼后輸出的語義特征集合中含有n個聚類特征樣本,其中樣本xi,i=1,2,…,n的隸屬度屬性矢量為:
xi=(xi1,xi2,…,xis)T
(15)
利用輸出的語義指向性特征的均勻遍歷特性在特征空間進行數(shù)據(jù)聚類中心的搜索[14-15],有限的語義特征集合X分為c類,其中1 (16) 其中,Vi為在縱向的最大梯度差全局搜索下聚類中心的第i個矢量。 在聚類中心的輻射半徑內,通過連通區(qū)的長、寬和面積等參量信息的估計,對圖像檢索的輸出邊緣像素點進行邊緣密度求解,結果為: (17) (18) 結合上述LGB編碼結果,調整加權得到Nj*幾何鄰域NEj*(t),得到圖像檢索的模糊劃分矩陣為: (19) (20) 此時,求得檢索目標函數(shù)的極值為: (21) (22) 其中,m為文本像素圖像的權重指數(shù);(dik)2為背景人物等圖像的樣本xk與文本像素樣本Vi的測度距離,用歐氏距離表示為: (dik)2=‖xk-Vi‖2 (23) 且滿足: (24) 通過上述處理,采用語義指向性特征提取和FCM聚類方法,通過對圖像中的文本信息分析和特征提取,結合約束條件式(24),經(jīng)過閾值判決,實現(xiàn)圖像優(yōu)化檢索,達到多媒體數(shù)據(jù)庫準確訪問和圖像索引的目的。 為了測試文中算法在實現(xiàn)大型多媒體數(shù)據(jù)庫中圖像檢索的應用性能,對其進行仿真。采用Matlab仿真軟件進行算法編程設計,圖像采集來自于大型多媒體網(wǎng)絡數(shù)據(jù)庫DeepWeb2016。網(wǎng)絡數(shù)據(jù)庫中存有大量的視頻圖像信息,檢索的目標是通過辨識視頻圖像幀中的文本信息,實現(xiàn)視頻中幀圖像的準確定位和索引。仿真實驗中,相關參數(shù)設定為:Gmax=30,D=12,c=3,NP=30,F(xiàn)=0.5,CR=0.1,m=2;視頻幀差序列采集的初始頻率f1=2.1Hz,終止頻率f2=0.23Hz,圖像檢索中的外界信息干擾強度為SNR=-10dB,權重系數(shù)ω設定為0.9。另外,為了定量分析圖像檢索的性能,分別定義信噪比和峰值信噪比為(單位dB): (25) (26) 根據(jù)上述仿真環(huán)境和參數(shù)設定,進行圖像檢索仿真分析,以數(shù)據(jù)庫中一幀含有文本像素的圖像為樣本進行測試。待檢索原始圖像和LGB編碼輸出如圖1所示。 圖1 圖像采集和編碼 通過LGB向量量化編碼,進行圖像特征壓縮,以此為基礎進行圖像的語義指向性特征提取和FCM聚焦分析,結果如圖2所示。 在此基礎上,采用模糊C均值聚類算法對提取的語義特征進行分類標注,由此實現(xiàn)大型多媒體數(shù)據(jù)庫中圖像的準確檢索和信息索引。通過語義指向性聚類后圖像檢索的輸出結果如圖3所示。 圖2 圖像語義指向性特征提取結果 圖3 語義文本標注圖像檢索輸出 由圖3可見,采用文中算法進行圖像檢索,通過語義指向性特征提取,能準確檢索到待分析圖像,無輸出幀差。為了驗證文中算法的普適性,以簡單背景圖像、復雜背景圖像、英文文本圖像和縱向文本圖像為例,采用文中算法分別進行檢索,得到的輸出結果如圖4所示。 (a)簡單背景圖像的檢索結果 (b)復雜背景圖像的檢索結果 (c)具有英文文本圖像的檢索結果 (d)縱向排列文本圖像的檢索結果圖4 各類背景下的檢索結果 由上述結果可得,采用文中算法進行多媒體數(shù)據(jù)庫的圖像檢索,無論何種文本背景,通過語義指向性特征聚類,都能得到準確的檢索結果輸出,展示了較好的普適性。 為了定量分析文中算法的性能,以PSNR為測試指標,以其中的一組圖像檢索為例,采用文中算法和傳統(tǒng)算法得到的對比結果如圖5所示。 圖5 性能對比測試 從圖5可見,采用文中算法進行圖像檢索輸出的PSNR較高,說明圖像檢索的精度較好,質量較高,性能優(yōu)越。 大量的多媒體信息通過網(wǎng)絡多媒體數(shù)據(jù)庫進行信息存儲和數(shù)據(jù)傳輸,多媒體數(shù)據(jù)庫中存儲有海量的音視頻和圖像等信息,需要進行圖像檢索實現(xiàn)數(shù)據(jù)庫的準確訪問和信息調度。為此,提出了一種基于語義指向性特征聚類的圖像檢索算法。對圖像進行向量量化編碼實現(xiàn)圖像壓縮,提取量化編碼壓縮圖像的語義特征信息,采用模糊C均值聚類算法對提取的語義特征進行分類標注,由此實現(xiàn)大型多媒體數(shù)據(jù)庫中圖像的準確檢索和信息索引。實驗結果表明,采用該算法的圖像檢索準確度較高,幀差為零,輸出的峰值信噪比較高,性能優(yōu)越于傳統(tǒng)算法。 [1] 章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報,2015,43(7):1320-1328. [2] 羅海馳,李岳陽,孫 俊.一種基于自適應神經(jīng)模糊推理系統(tǒng)的圖像濾波方法[J].計算機科學,2013,40(7):302-306. [3] 杜 輝.基于小波變換的彩色圖像中快速人臉檢測算法[J].科技通報,2012,28(12):88-90. [4]ChongFT,HeckMJR,RanganathanP,etal.Datacenterenergyefficiency:improvingenergyefficiencyindatacentersbeyondtechnologyscaling[J].IEEEDesign&Test,2014,31(1):93-104. [5]WangLin,ZhangFa,ArocaJA,etal.GreenDCN:ageneralframeworkforachievingenergyefficiencyindatacenternetworks[J].IEEEJournalonSelectedAreasinCommunications,2014,32(1):4-15. [6]KaramiE,DobreOA.IdentificationofSM-OFDMandAL-OFDMsignalsbasedontheirsecond-ordercyclostationarity[J].IEEETransactionsonVehicularTechnology,2015,64(3):942-953. [7]MohammadkarimiM,DobreOA.BlindidentificationofspatialmultiplexingandAlamoutispace-timeblockcodeviaKolmogorov-Smirnov(K-S)test[J].IEEECommunicationsLetters,2014,18(10):1711-1714. [8] 王云燁,李 勃,董 蓉,等.基于透射率空間與色彩紋理相關性的圖像分割[J].電子測量技術,2015,38(1):41-46. [9] 張 宇,王曉燕.基于混合灰度差指標的低空目標圖像檢測方法[J].電子測量與儀器學報,2015,29(8):1196-1202. [10] 余 淮,楊 文.一種無人機航拍影像快速特征提取與匹配算法[J].電子與信息學報,2016,38(3):509-516. [11] 郭復勝,高 偉.基于輔助信息的無人機圖像批處理三維重建方法[J].自動化學報,2013,39(6):834-845. [12] 鄭海峰.基于多尺度Retinex的超聲圖像去噪及增強技術[J].激光雜志,2016,37(3):71-73. [13] 代具亭,湯心溢,王世勇,等.掃描型紅外焦平面探測器圖像實時傳輸系統(tǒng)[J].激光與紅外,2016,46(4):476-480. [14] 馮 洋.基于改進的奇異值分解的紅外弱小目標檢測[J].激光技術,2016,40(3):335-338. [15]AchantaR,ShajiA,SmithK,etal.SLICsuperpixelscomparedtostate-of-the-artsuperpixelmethods[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(11):2274-2281. Investigation on Image Retrieval Algorithm with Semantic Directed Feature Clustering WEN Zheng-ying,LI Yun-di (School of Computer,Henan University of Engineering,Zhengzhou 451191,China) In large multimedia database,it is necessary to carry out the image retrieval to realize the accurate index of the interested image and correct access of the multimedia database.Traditional methods take the manually labeling method of association information for image retrieval,and with the increase of the image information in database,the efficiency is low.In order to improve the efficiency and precision of image retrieval in large multimedia database,an image retrieval algorithm is proposed based on semantic directed feature clustering.The algorithm uses vector quantization for image compression,and the frequency domain feature point of text information in the image are classified.The text image frame sequence is taken with vector quantization decomposition,extraction of feature of gradient difference information,realization of the feature clustering of semantic orientation,adaptive weighting of the maximum gradient in the window.Semantic feature information of the quantization coding compression image is extracted,and fuzzy C-means clustering algorithm is used to extract semantic features labeling,realizing the exact matching and scheduling of large multimedia database.Simulation results show that the accuracy of the algorithm for image retrieval is improved,and image frame difference is zero,and output image PSNR is more than traditional methods,which has good image retrieval performance. semantic;clustering;image retrieval;vector quantization 2016-04-27 2016-08-10 時間:2017-02-17 河南省高等學校重點科研項目(15A520055) 文政穎(1979-),女,碩士,副教授,研究方向為圖像處理與計算機應用。 http://www.cnki.net/kcms/detail/61.1450.TP.20170217.1632.064.html TP391 A 1673-629X(2017)04-0083-05 10.3969/j.issn.1673-629X.2017.04.0193 仿真實驗與結果分析
4 結束語