鄒元君 姜彤偉
摘 要: 圖像挖掘技術(shù)與關(guān)聯(lián)規(guī)則的結(jié)合在網(wǎng)絡(luò)數(shù)據(jù)索引中占據(jù)了先機(jī),但一些功能弊端不可避免。在這樣的背景下,對關(guān)聯(lián)規(guī)則的編碼、特征點(diǎn)排列和運(yùn)算方法進(jìn)行改進(jìn)。改進(jìn)關(guān)聯(lián)規(guī)則將網(wǎng)絡(luò)數(shù)據(jù)集合轉(zhuǎn)化為布爾矩陣,實行列內(nèi)積運(yùn)算,保留矩陣內(nèi)大于或等于圖像特征最小支持度的邏輯,挖掘出高頻特征集合。設(shè)計基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng),系統(tǒng)包含數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)庫和圖像挖掘四個結(jié)構(gòu)層,給出具備去噪、分壓和濾波功能的圖像預(yù)處理電路,并介紹了圖像信息數(shù)據(jù)庫結(jié)構(gòu),最后通過實驗證明系統(tǒng)可進(jìn)行高效率的圖像挖掘,并且圖像區(qū)分度大。
關(guān)鍵詞: 關(guān)聯(lián)規(guī)則; 圖像挖掘; 布爾矩陣; 內(nèi)積運(yùn)算; 圖像信息數(shù)據(jù)庫
中圖分類號: TN911.73?34; TP311.13 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)16?0109?03
Abstract: The combination of image mining technology and association rules plays an important role in network data index, but still can′t avoid some functional disadvantages. In this context, the coding, feature point arrangement and operating method of association rules are improved. The network data set is converted into Boolean matrix by means of the improved association rules to carry out the column inner product operation and reserve the logic value which is greater than or equal to that of image feature minimum support, so as to mine the high?frequency feature set. The image mining system based on improved association rules was designed. The system includes the structural layers of data acquisition, preprocessing, database and image mining. The image preprocessing circuit with the functions of denoising, voltage distribution and filtering is given. The structure of the image information database is introduced. The experimental results prove that the system can mine the image effectively, and has high image discrimination.
Keywords: association rule; image mining; Boolean matrix; inner product operation; image information database
0 引 言
網(wǎng)絡(luò)的出現(xiàn)形成了一個巨大的圖像倉庫,對圖像數(shù)據(jù)的挖掘要遠(yuǎn)遠(yuǎn)低于人們所需要的知識量。網(wǎng)絡(luò)對大多數(shù)人來說是一個圖像信息爆炸卻知識匱乏的虛擬世界,信息技術(shù)的高度發(fā)展為網(wǎng)絡(luò)圖像知識挖掘提供了莫大幫助。圖像挖掘技術(shù)將網(wǎng)絡(luò)中的海量數(shù)據(jù)源分類成便于人類理解的圖像信息[1],與低等視覺處理技術(shù)的圖像特征簡單提取不同,它由圖像像素出發(fā)向空間邁進(jìn),是致力于重點(diǎn)挖掘深層知識的高級別索引技術(shù)。
1 基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘技術(shù)研究
關(guān)聯(lián)規(guī)則為一項拓展優(yōu)先方法,挖掘網(wǎng)絡(luò)數(shù)據(jù)集合中多次出現(xiàn)的數(shù)據(jù)特征點(diǎn),把相等長寬數(shù)據(jù)鏈的特征點(diǎn)匯總[2]。關(guān)聯(lián)規(guī)則在初次采集時通過計算網(wǎng)絡(luò)數(shù)據(jù)集合的特征支持度,將特征點(diǎn)匯總集合長寬置1,之后的挖掘過程以該集合為數(shù)據(jù)衡量背景,采集其余數(shù)據(jù)鏈特征,排除支持度未能合乎要求的特征點(diǎn),將剩余特征點(diǎn)生成高頻特征集合。
在圖像挖掘技術(shù)的大前提之下,圖像信息的數(shù)據(jù)鏈長度進(jìn)一步加深,為此,對關(guān)聯(lián)規(guī)則做出三點(diǎn)改進(jìn),分別是編碼改進(jìn)、特征點(diǎn)排列改進(jìn)和運(yùn)算方法改進(jìn)。編碼改進(jìn)利用布爾矩陣進(jìn)行編碼,圖像數(shù)據(jù)鏈的矩陣元素只取0或1,通過縮小單個數(shù)據(jù)鏈的長寬,等比例壓縮圖像信息。特征點(diǎn)排列改進(jìn)按照數(shù)據(jù)維度排列特征點(diǎn),降低圖像挖掘技術(shù)的索引難度。運(yùn)算方法改進(jìn)改用內(nèi)積運(yùn)算,通過在布爾矩陣每一行實行內(nèi)積運(yùn)算來挖掘高頻特征集合,不必花費(fèi)時間去實行數(shù)據(jù)鏈修剪與連接。
圖1表示改進(jìn)的關(guān)聯(lián)規(guī)則圖像挖掘過程,[β]為高頻特征集合元素的內(nèi)積運(yùn)算結(jié)果邏輯。
改進(jìn)的關(guān)聯(lián)規(guī)則將采集到的網(wǎng)絡(luò)數(shù)據(jù)集合轉(zhuǎn)化為布爾矩陣,提出一個特征的最小支持度。實行矩陣列內(nèi)積,采集得到高頻特征集合1,將集合1項目中大于或等于最小支持度的特征留用,拓展到布爾矩陣的列向量,實現(xiàn)等比例圖像信息壓縮[3]。將拓展布爾矩陣中大于或等于最小支持度的元素留用,按照維度降序排列元素,再次實行布爾矩陣內(nèi)積運(yùn)算,得到邏輯[β]。驗證[β+1]與最小支持度的關(guān)系,保留大于或等于最小支持度的邏輯,將邏輯還原到最初的高頻特征集合中實行圖像信息特征更替。
2 基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng)設(shè)計
2.1 系統(tǒng)框架endprint
設(shè)計圖像挖掘系統(tǒng),采用改進(jìn)關(guān)聯(lián)規(guī)則實行圖像信息瀏覽與管理?;诟倪M(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng)擁有數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)庫和圖像挖掘4個結(jié)構(gòu)層,系統(tǒng)框架如圖2所示。
系統(tǒng)采用人機(jī)交互界面,用戶點(diǎn)擊菜單欄進(jìn)入系統(tǒng)結(jié)構(gòu)層[4]。數(shù)據(jù)采集層挖掘到的網(wǎng)絡(luò)信息顯示在圖像庫中,用戶能夠進(jìn)行圖像打開、另存為、旋轉(zhuǎn)和分辨率重置等操作。圖像的特征點(diǎn)提取、整頓由預(yù)處理層負(fù)責(zé),依次經(jīng)過去噪、分壓和濾波,圖像清晰度和真實性是圖像預(yù)處理的基本原則。預(yù)處理層的所有信息與規(guī)則由數(shù)據(jù)庫層提供,數(shù)據(jù)庫層還將向圖形挖掘?qū)觽鬏旊x散化圖像信息及其所需的圖像挖掘規(guī)則[5],進(jìn)一步提高改進(jìn)關(guān)聯(lián)規(guī)則的有效程度,用戶不可隨意修改圖像挖掘?qū)拥耐诰蜻^程,但可以在數(shù)據(jù)層中加入特殊的數(shù)據(jù)索引功能。
改進(jìn)關(guān)聯(lián)規(guī)則的可視化較弱,圖像挖掘系統(tǒng)使用了多媒體項目索引語言,完善時序項目結(jié)構(gòu)的數(shù)據(jù)庫索引效果,對數(shù)據(jù)位置關(guān)系以及圖像信息的結(jié)構(gòu)、色彩、光亮、紋理等特征進(jìn)行語義補(bǔ)充[6]。如果預(yù)處理效果不達(dá)標(biāo),改進(jìn)關(guān)聯(lián)規(guī)則重復(fù)進(jìn)行圖像挖掘。
2.2 圖像預(yù)處理電路
圖3給出的圖像預(yù)處理電路同時具備去噪、分壓和濾波功能。P0.28和P0.30是主扭矩與副扭矩的控制器,由于要對圖像信息實行標(biāo)準(zhǔn)的特征預(yù)處理,兩控制器輸出扭矩是完全同步的[7]。分壓和濾波將改進(jìn)圖像灰度,圖像噪聲的出處有可能是基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng)的配件設(shè)施或者信息采集誤差。噪聲對圖像清晰度、信息挖掘精度和數(shù)據(jù)鏈平滑度影響很大,圖像去噪占據(jù)了60%的預(yù)處理時間。圖像預(yù)處理電路采取的去噪方法是頻域平均法[8],設(shè)即將實行第[i]個圖像特征點(diǎn)的[n]次去噪,特征點(diǎn)噪音大小為[E(i)],去噪后特征點(diǎn)的平滑度為[X(i)],頻域平均法的去噪公式為:
2.3 數(shù)據(jù)庫建立
數(shù)據(jù)庫層由挖掘規(guī)則數(shù)據(jù)庫、圖像信息數(shù)據(jù)庫和特征點(diǎn)數(shù)據(jù)庫組成。圖像信息數(shù)據(jù)庫由巨額數(shù)據(jù)量的文本數(shù)據(jù)組成[9],包括大部分圖像信息保管路徑。數(shù)據(jù)辨別身份與挖掘規(guī)則數(shù)據(jù)庫和特征點(diǎn)數(shù)據(jù)庫相互關(guān)聯(lián),數(shù)據(jù)存儲區(qū)域缺乏安全性,管理難度高于其他兩類數(shù)據(jù)庫。
圖4是圖像信息數(shù)據(jù)庫結(jié)構(gòu)圖,由上到下依次表示圖像信息保管路徑結(jié)構(gòu)、圖像信息存儲結(jié)構(gòu)和矩陣特征結(jié)構(gòu)。圖像信息數(shù)據(jù)庫采用ID表頭構(gòu)成文本數(shù)據(jù)的惟一辨別身份,多媒體服務(wù)程序IMAGEPATH構(gòu)成保管路徑特征辨別尾部。圖像信息存儲結(jié)構(gòu)為ID表頭,名稱NAME對應(yīng)數(shù)據(jù)鏈項目信息,尾部加入數(shù)據(jù)特征DATE。布爾矩陣是直方圖形式,表頭為ID,行C列H的內(nèi)積運(yùn)算程序MEAN緊隨表頭,尾部為空。
3 實 驗
3.1 實驗環(huán)境
本文實驗的基礎(chǔ)配置為微軟WIN 7操作系統(tǒng)和結(jié)構(gòu)化查詢語言服務(wù)數(shù)據(jù)庫2010版本,由Java語言設(shè)計數(shù)據(jù)庫連接程序。WIN 7操作系統(tǒng)安裝在電子計算機(jī)上,運(yùn)行內(nèi)存為1 GB,硬盤容量為150 GB,中央處理器為i5。使用Java語言設(shè)計出了三種數(shù)據(jù)庫連接程序,相對應(yīng)地引到關(guān)聯(lián)規(guī)則圖像挖掘系統(tǒng)、改進(jìn)關(guān)聯(lián)規(guī)則圖像挖掘系統(tǒng)、遺傳算法圖像挖掘系統(tǒng)。系統(tǒng)數(shù)據(jù)庫初次采集到的網(wǎng)絡(luò)圖像信息總共8 235條,特征類型總共25種,每種特征有3~10個枚舉類型。在相同的實驗條件下,更改圖像特征的最小支持度或者色彩采集領(lǐng)域進(jìn)行兩類實驗。
3.2 實驗結(jié)果與討論
保持其他參數(shù)不變,更改圖像特征最小支持度,所得圖像挖掘系統(tǒng)的挖掘時間如圖5所示。
由圖5可知,隨著最小支持度的不斷增加,圖像挖掘系統(tǒng)的挖掘效率也不斷攀升。處于相同最小支持度時,遺傳算法進(jìn)行圖像挖掘所消耗的時間最長。本文基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng)用時最短,比改進(jìn)前減少大約3.5 s,比遺傳算法減少大約10.4 s,挖掘效率高。
保持其他參數(shù)不變,拓寬色彩采集領(lǐng)域,設(shè)圖像像素為512×512,2 048×1 536,圖像挖掘系統(tǒng)的圖像區(qū)分度和挖掘時間如表1和表2所示,圖像區(qū)分度公式如下:
由表1、表2可知,圖像像素越大,圖像挖掘系統(tǒng)的挖掘效率越高,圖像區(qū)分度越大。色彩采集領(lǐng)域和圖像像素都相同時,本文系統(tǒng)擁有很大的圖像區(qū)分度,有利于提升挖掘圖像的清晰度,獲得絕佳的視覺體驗。
4 結(jié) 論
獲取大量網(wǎng)絡(luò)數(shù)據(jù)知識是人們所期待的,本文設(shè)計基于改進(jìn)關(guān)聯(lián)規(guī)則的圖像挖掘系統(tǒng),在圖像挖掘技術(shù)的基礎(chǔ)上改進(jìn)了關(guān)聯(lián)規(guī)則的主要弊端,所建立的圖像預(yù)處理電路和數(shù)據(jù)庫在多媒體項目索引語言中進(jìn)行了精準(zhǔn)的圖像高頻特征挖掘。在相同實驗條件下與采取其他技術(shù)手段設(shè)計的圖像挖掘系統(tǒng)相比,本文系統(tǒng)挖掘效率高且圖像區(qū)分度大,有利于提升圖像清晰度。
注:本文通訊作者為姜彤偉。
參考文獻(xiàn)
[1] 徐開勇,龔雪容,成茂才.基于改進(jìn)Apriori算法的審計日志關(guān)聯(lián)規(guī)則挖掘[J].計算機(jī)應(yīng)用,2016,36(7):1847?1851.
[2] 黃宏本.基于改進(jìn)關(guān)聯(lián)規(guī)則的危險Web信息挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):14?17.
[3] 朱丙麗,火善棟,吳鴻娟.基于圖像RGB色彩特征的關(guān)聯(lián)規(guī)則挖掘研究[J].重慶三峽學(xué)院學(xué)報,2015,31(3):56?59.
[4] 郝海濤,馬元元.應(yīng)用Aprion算法實現(xiàn)大規(guī)模數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘的技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(7):124?126.
[5] 鄭玉柱,李建,李珂.基于改進(jìn)遺傳算法的關(guān)聯(lián)挖掘方法研究[J].重慶科技學(xué)院學(xué)報(自然科學(xué)版),2015,17(5):72?76.
[6] 林宗繆,郭先超,姚文勇.基于MapReduce的質(zhì)檢大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[J].自動化技術(shù)與應(yīng)用,2016,35(8):43?46.
[7] 吳陳,李丹丹.基于粗糙集的關(guān)聯(lián)規(guī)則挖掘方法的研究與應(yīng)用[J].電子測量技術(shù),2016,39(7):44?48.
[8] 姜永超.基于數(shù)據(jù)挖掘的學(xué)生選課及學(xué)習(xí)行為分析算法研究[J].現(xiàn)代電子技術(shù),2016,39(13):145?148.
[9] 顧衛(wèi)杰,王曉峰.基于改進(jìn)Apriori算法的煤礦物聯(lián)網(wǎng)規(guī)則系統(tǒng)研究[J].煤礦機(jī)械,2016,37(1):227?229.endprint