劉 平, 王 曉, 劉 春
(河北科技大學 a. 圖書館, b. 環(huán)境科學與工程學院, 石家莊 050018)
小差異化圖像數(shù)據(jù)庫中的特定特征挖掘方法設計*
劉 平a, 王 曉a, 劉 春b
(河北科技大學 a. 圖書館, b. 環(huán)境科學與工程學院, 石家莊 050018)
針對傳統(tǒng)的特定特征關聯(lián)挖掘方法存在挖掘效率低的問題,提出基于一種推薦模式的小差異化圖像數(shù)據(jù)庫中的特定特征數(shù)據(jù)挖掘方法.運用螢火蟲優(yōu)化支持向量機參數(shù)法,提取小差異化圖像數(shù)據(jù)特定特征,解決相似關聯(lián)問題,采用主成分分析方法對小差異化圖像特征進行降維處理,利用Laplace預測分類方法對提取的小差異化圖像特定特征進行推薦分類,之后對分類的特定特征按照推薦等級進行挖掘.結果表明,所提出的挖掘方法要優(yōu)于傳統(tǒng)挖掘方法,準確率及效率得到明顯提高.
螢火蟲算法; 圖像數(shù)據(jù)庫; 特定特征; 挖掘方法; Laplace預測; 支持向量機; 主成分分析法; 推薦分類
隨著圖像獲取技術與圖像存取技術的進步,尤其是Internet上圖像數(shù)量的急劇增加,出現(xiàn)了圖像類別豐富多樣,但圖像可表述信息缺乏的情況[1-2].由于圖像的來源不同,使得海量圖像存在小差異化現(xiàn)象,出現(xiàn)了很多小差異化圖像數(shù)據(jù),這些海量數(shù)據(jù)形成數(shù)據(jù)庫,人們對于小差異化圖像數(shù)據(jù)庫中出現(xiàn)的大量相似圖像數(shù)據(jù)通過自動分析來獲取有用的圖像信息的需求日益增加,一些相關的圖像挖掘方法提供了有效的方法[3-4].圖像特征挖掘是在圖像數(shù)據(jù)庫中抽取隱含的、先前為止的、潛在有用的圖像數(shù)據(jù)關系的過程,是圖像研究與數(shù)據(jù)挖掘領域的熱門話題,受到了廣大學者的關注,也出現(xiàn)了很多相關方法[5-6].但是,在應用到海量相似數(shù)據(jù)挖掘中,還存在較大的問題.
文獻[7]提出了一種兼?zhèn)銪RISK和FREAK采樣模式對圖像特征進行挖掘的方法.由于圖像特征采樣點距中心密集程度和采樣點平滑范圍重疊程度都會影響圖像特征樣本采集,因此,將采樣模式建立在BRISK和FREAK模式上,可達到特征采樣最優(yōu)的狀態(tài),結合SURF檢測方法構成一個完整的特征挖掘方法.采用該方法可實現(xiàn)對圖像特征的挖掘,但挖掘精度較低.文獻[8]提出了融合漸變計算方法對圖像特征進行挖掘.采用二維模式紋理分析方法提取圖像特征,同時融入漸變計算方法,依據(jù)圖像數(shù)據(jù)庫中圖像的紋理特征,完成對圖像特征的挖掘,但該方法挖掘耗時較長.文獻[9]提出了一種空間調制的光譜圖像主成分挖掘方法,利用AVRIS法真實地對圖像進行評估,并通過調制核方法對圖像特征進行挖掘,但該方法挖掘圖像特征的準確度較差.
針對上述問題,本文提出了一種推薦模式挖掘的小差異化圖像挖掘方法,并進行了實驗對比分析.結果表明,本文方法的挖掘效果要優(yōu)于傳統(tǒng)方法的挖掘效果.
1.1 分類特征提取
在進行小差異化圖像特征分析時,需要對相關特征進行提取.假設初始差異圖像樣本集為f(x,y),其中,x=0,1,…,m-1,y=0,1,…,n-1,空間相關度函數(shù)定義為
(1)
式中,a、b為正整數(shù),表示采集數(shù)據(jù)特征種類.結合空間護具特征,可以得到小差異化數(shù)據(jù)庫中數(shù)據(jù)的自適應分布函數(shù),即
(2)
式中:N為小差異化圖像數(shù)據(jù)庫數(shù)據(jù)對象的個數(shù);rn′為與數(shù)據(jù)xn′的有效距離;C(xn′)為數(shù)據(jù)xn′的數(shù)據(jù)特征量;k為數(shù)據(jù)調節(jié)因子[10].
(3)
1.2 降維處理
在提取圖像數(shù)據(jù)特征的基礎上,由于是高維數(shù)據(jù),處理較為費事,需要采用主成分分析方法對圖像數(shù)據(jù)庫數(shù)據(jù)特征進行降維處理.
對于非圖像數(shù)據(jù)特征tf,所包含的樣本數(shù)為N(tf),屬于主導類ib的樣本個數(shù)為Nib(tf),則數(shù)據(jù)類別ib在特征tf下的期望概率為
(4)
式中:Psib為第ib類的先驗概率;B為參數(shù),用來設置先驗概率在數(shù)據(jù)庫匯總的權值.
假設每個小差異化圖像數(shù)據(jù)庫中的數(shù)據(jù)樣本點在高維空間和所映射到的低維空間中始終處于相對應位置,在局部空間被認為是線性的情況下,通過對樣本點gik的鄰近點進行線性組合來逼近gik,為了使gik用其K個鄰近點線性表示的誤差最小,計算權值wikjk時定義一個關聯(lián)誤差約束函數(shù),即
(5)
(6)
式中:Δl是以最大l為對角線的對角矩陣;Vl為最大l特征值所對應的特征向量組成的特征矩陣.把原有的樣本數(shù)據(jù)特征降到l維,實現(xiàn)小差異化圖像數(shù)據(jù)庫特征降維約束處理,其表達式為
(7)
式中,minE為降維所需的最低能耗.綜上所述,在提取小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特征的基礎上,可根據(jù)主成分分析方法的降維原理,對小差異化圖像數(shù)據(jù)庫特征進行降維處理,為改進小差異化圖像數(shù)據(jù)庫特定特征挖掘提供基礎依據(jù).
2.1 小差異化圖像數(shù)據(jù)庫的推薦等級計算
本文引入一種在關聯(lián)分析基礎上的推薦等級挖掘概念,通過對相似圖像的關聯(lián)特征進行推薦等級的確認,可進一步約束關聯(lián)過程,具體步驟如下:
1) 初始化弱關聯(lián)數(shù)據(jù).設id=1,XY為劃分圖像數(shù)據(jù)點,XW為未劃分圖像數(shù)據(jù)點.
2) 確定圖像數(shù)據(jù)間的關聯(lián)距離.假設有兩個樣本分別為x1=(x11,x12,…,x1nd),x2=(x21,x22,…,x2nd),則樣本間的關聯(lián)距離為
(8)
3) 數(shù)據(jù)特征推薦標記.假設當前推薦器模型的閾值為θ,則其推薦標記結果為
(9)
4) 數(shù)據(jù)特征推薦排序.采用Laplace的預測推薦方法,對標記好的數(shù)據(jù)特征進行推薦等級排序,其表達式為
(10)
式中:G為數(shù)據(jù)特征調節(jié)系數(shù);ptot(r)為匹配圖像關聯(lián)樣本數(shù);pc(r)為匹配分類標簽的個數(shù).
2.2 改進挖掘方法的實現(xiàn)
在對小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特定特征進行推薦分類的基礎上,采用推薦等級篩選的方式對特定圖像特征數(shù)據(jù)進行挖掘.假設S為目標區(qū)域R中具有特定空間聯(lián)系的關聯(lián)圖像數(shù)據(jù)集合,則其共生矩陣P可表示為
(11)
式中,|S|為數(shù)據(jù)庫中數(shù)據(jù)特征的基數(shù).設定小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特征集合為{xpyq},其權核為小差異化圖像數(shù)據(jù)庫中數(shù)據(jù)點坐標的冪,p和q重二維幾何矩陣用gpq表示,空間的坐標系可定義為
(12)
式中,ξ為數(shù)據(jù)特征集合f(x,y)的空間區(qū)域.基于Zernike矩陣重構方法對數(shù)據(jù)特定特征進行重構,其表達式為
(13)
式中:mmax為特征矩陣的最高階數(shù);Z為數(shù)據(jù)的特定特征矩陣.基于推薦思維進行小差異化圖像數(shù)據(jù)庫的特定特征挖掘,先確定小差異化圖像數(shù)據(jù)庫特定特征的推薦度.
(14)
式中:u為小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特征頻繁度;t為小差異化圖像數(shù)據(jù)庫中的任意數(shù)據(jù)特征.占有度需滿足的約束條件為
(15)
(16)
式中:v為擴展長度;PSL為前綴序列長度向量;SL為序列長度向量;le為向量PSL、SL中序列對應的下標.根據(jù)式(16)推導出的特征推薦模式進行小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特定特征挖掘,挖掘模型為
(17)
式中:fjd(x)為數(shù)據(jù)特定特征的概率密度期望函數(shù);cjd為系數(shù).
綜上所述,在對提取的小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特定特征進行分類的基礎上,采用推薦模式挖掘方法,對分類的特定特征數(shù)據(jù)按照推薦模式,可實現(xiàn)對小差異化圖像數(shù)據(jù)庫數(shù)據(jù)特定特征的挖掘.
3.1 實驗參數(shù)設置
實驗采用大規(guī)模小差異化圖像數(shù)據(jù)集,Live-Jpurnal數(shù)據(jù)集包含8 475個數(shù)據(jù).實驗采用開源HadoopMapReduce為系統(tǒng)平臺.實驗包括4臺PC(PC配置均為雙核、2GB內存、250GB硬盤),在每臺機器上均有ubuntu9.04,32位操作系統(tǒng).
3.2 數(shù)據(jù)推薦分類對比實驗
為了驗證改進挖掘方法在小差異化圖像數(shù)據(jù)庫的特定特征挖掘方面的有效性,挖掘LiveJpurnal數(shù)據(jù)集中分辨率為640×480的圖像,采用人工神經網絡法及小波尺度特征法進行收斂性對比分析,結果如圖1所示.
由圖1a可知,采用改進的方法時,其對所要挖掘數(shù)據(jù)的推薦分類結果更為集中,且隨著迭代次數(shù)的增加,推薦分類結果更為聚集,提高了挖掘的精度.由圖1b可知,采用人工神經網絡法時,其對數(shù)據(jù)的推薦分類結果未隨著迭代次數(shù)的增加而提高,相反出現(xiàn)擴散的現(xiàn)象,導致無法集中,降低了挖掘精度.由圖1c可知,采用小波尺度特征法時,其推薦分類結果出現(xiàn)隨著迭代次數(shù)的增加而先分散再集中最后又分散的結果,導致分類穩(wěn)定性較差,挖掘精度不穩(wěn)定,不適合在小差異化圖像數(shù)據(jù)庫中使用.由此可知,采用改進的挖掘方法時,其推薦分類結果要比小波尺度特征法、人工神經網絡法更精確,可提高一定的數(shù)據(jù)挖掘精度.
3.3 不同方法運行效率對比實驗
為了驗證改進挖掘方法在小差異化圖像數(shù)據(jù)庫的特定特征挖掘方面的有效性,采用人工神經網絡法及小波尺度特征法進行運行效率對比分析,結果如圖2所示.
由圖2可知,不同方法呈現(xiàn)了相同的規(guī)律,都隨著挖掘時間的增加,挖掘方法運行效率增加,具有良好的可擴展性.在相同的實驗環(huán)境下運行,改進的特征挖掘方法在花費時間一定的情況下,運行效率相比小波尺度特征法、人工神經網絡法要高.說明本文提出的基于推薦模式挖掘的小差異化圖像數(shù)據(jù)庫的特定特征挖掘方法具有負載均衡的能力,比人工神經網絡法及小波尺度特征法有更好的挖掘效果.
圖1 推薦分類對比Fig.1 Comparison in recommendation classification
圖2 運行效率對比Fig.2 Comparison in operational efficiency
上述實驗充分證明了改進的特定特征挖掘方法具有很好的可擴展性,可以適用于小差異化圖像數(shù)據(jù)庫特定特征的挖掘,具有良好的負載均衡效果,挖掘效率較高.
針對傳統(tǒng)的特征挖掘方法一直存在的挖掘精度低和運行效率差的問題,提出了基于推薦模式挖掘的小差異化圖像數(shù)據(jù)庫的特定特征挖掘方法.經實驗對比得出如下結論:
1) 采用改進挖掘方法時,其對所要挖掘的數(shù)據(jù)推薦分類結果更為集中,且隨著迭代次數(shù)的增加,推薦分類結果更為聚集,具有一定的優(yōu)勢;
2) 基于推薦模式挖掘的小差異化圖像數(shù)據(jù)庫的特定特征挖掘方法具有負載均衡能力,比人工神經網絡法及小波尺度特征法的平衡挖掘量效果更好,運行效率更高.
[1] 王春紅.大型圖像數(shù)據(jù)庫的快速檢索方法研究仿真 [J].計算機仿真,2014,31(5):246-249.
(WANG Chun-hong.Quick retrieval method simulation for large image database [J].Computer Simulation,2014,31(5):246-249.)
[2] 陳銀鳳.海量高光譜遙感圖像數(shù)據(jù)庫的高效挖掘算法研究 [J].科技通報,2015,31(3):188-191.
(CHEN Yin-feng.Research of efficient mining algorithm for hyperspectral remote sensing image data [J].Bulletin of Science and Technology,2015,31(3):188-191.)
[3] 李慧玲.大型圖像數(shù)據(jù)庫的特征挖掘優(yōu)化模型仿真 [J].科技通報,2015,31(2):194-196.
(LI Hui-ling.Large image database characteristics mining optimization model [J].Bulletin of Science and Technology,2015,31(2):194-196.)
[4] 張健欽,仇培元,杜明義.基于時空軌跡數(shù)據(jù)的出行特征挖掘方法 [J].交通運輸系統(tǒng)工程與信息,2014,14(6):72-78.
(ZHANG Jian-qin,QIU Pei-yuan,DU Ming-yi.Mi-ning method of travel characteristics based on spatio-temporal trajectory data [J].Journal of Transportation Systems Engineering and Information Technology,2014,14(6):72-78.)
[5] 鄭寶芬,蘇宏業(yè),羅林.無監(jiān)督特征選擇在時間序列數(shù)據(jù)挖掘中的應用 [J].儀器儀表學報,2014,35(4):834-840.
(ZHENG Bao-fen,SU Hong-ye,LUO Lin.Application of unsupervised feature selection in time series data mining [J].Chinese Journal of Scientific Instrument,2014,35(4):834-840.)
[6] 王昌輝.云計算設備中的大數(shù)據(jù)特征高效分類挖掘方法研究 [J].現(xiàn)代電子技術,2015,38(22):55-58.
(WANG Chang-hui.Research on efficient classification mining algorithm for large data feature of cloud computing equipment [J].Modern Electronics Technique,2015,38(22):55-58.)
[7] 史玉珍,呂瓊帥.基于進化模糊規(guī)則的Web新聞文本挖掘與分類方法 [J].湘潭大學自然科學學報,2016,38(2):99-103.
(SHI Yu-zhen,Lü Qiong-shuai.Web news text mi-ning and classification method based on evolving fuzzy rule [J].Natural Science Journal of Xiangtan University,2016,38(2):99-103.)
[8] 惠國保,李東波,童一飛.挖掘圖像補丁特征信息增強二進制描述子獨特性 [J].計算機輔助設計與圖形學學報,2014,26(9):1419-1429.
(HUI Guo-bao,LI Dong-bo,TONG Yi-fei.A discri-minative binary descriptor built on further mining marginal information [J].Journal of Computer-Aided Design & Computer Graphics,2014,26(9):1419-1429.)
[9] 劉振林,谷延鋒,張曄.一種用于高光譜圖像特征提取的子空間核方法 [J].哈爾濱工程大學學報,2014,35(2):238-244.
(LIU Zhen-lin,GU Yan-feng,ZHANG Ye.A subspace kernel learning method for feature extraction of the hyperspectral image [J].Journal of Harbin Engineering University,2014,35(2):238-244.)
[10]牛連強,趙子天,張勝男.基于Gabor特征融合與LBP直方圖的人臉表情特征提取方法 [J].沈陽工業(yè)大學學報,2016,38(1):63-68.
(NIU Lian-qiang,ZHAO Zi-tian,ZHANG Sheng-nan.Extraction method for facial expression features based on Gabor feature fusion and LBP histogram [J].Journal of Shenyang University of Technology,2016,38(1):63-68.)
(責任編輯:鐘 媛 英文審校:尹淑英)
Designofspecificfeatureminingmethodinimagedatabasewithsmallalienation
LIU Pinga, WANG Xiaoa, LIU Chunb
(a. Library, b. School of Environmental Science and Engineering, Hebei University of Science and Technology, Shijiazhuang 050018, China)
Aiming at the problem that the traditional specific feature association mining method has low mining efficiency, a specific feature data mining method in the image database with small alienation based on a recommendation model was proposed. With the firefly parameter optimization method of support vector machine (SVM), the specific feature of image data with small alienation was extracted, and the similarity association problem was solved. The principal component analysis method was used to reduce the dimension of image feature association with small alienation, and the Laplace prediction classification method was adopted to recommend and classify the specific features of extracted image with small alienation. In addition, the specific feature after the classification was mined according to the recommended levels. The results show that the proposed mining method is superior to the traditional mining methods, and the accuracy rate and efficiency get obviously enhanced.
firefly algorithm; image database; special feature; mining method; Laplace prediction; support vector machine; principal component analysis method; recommendation classification
TP 391.41
: A
: 1000-1646(2017)05-0562-05
2016-11-23.
河北省教育廳青年基金資助項目(SQ161142).
劉 平(1976-),女,河南安陽人,講師,碩士,主要從事多媒體信息安全及競爭情報等方面的研究.
* 本文已于2017-08-01 12∶35在中國知網優(yōu)先數(shù)字出版. 網絡出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20170801.1235.022.html
10.7688/j.issn.1000-1646.2017.05.16