謝文蘭
(廣東培正學(xué)院 計(jì)算機(jī)科學(xué)與工程系,廣州 510830)
目前人們主要是根據(jù)圖像的含義來判斷圖像是否符合自己的需要,這些圖像的含義即是圖像的高層語義.如何跨越底層視覺特征和高層語義特征的鴻溝是語義圖像檢索中一個(gè)難點(diǎn).現(xiàn)實(shí)的圖像類別多種多樣,有的還同時(shí)屬于幾類語義圖像.為了解決這一問題,本文采用多輸出BP神經(jīng)網(wǎng)絡(luò)對自然圖像進(jìn)行多種語義分類,對低層特征的選取做了實(shí)驗(yàn)和比較,提出一種新的顏色提取方法.并且對如何選取圖像的語義閾值也做了實(shí)驗(yàn)和比較,通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)閾值的選取范圍在[0.55,0.65]時(shí),檢索的查全率和準(zhǔn)確率能達(dá)到一個(gè)比較好的平衡效果.
本文[1]是對風(fēng)景圖像進(jìn)行語義分類檢索.而風(fēng)景圖像都具有比較明顯的顏色,根據(jù)風(fēng)景圖像的這一特點(diǎn),本文提出了一種新的提取顏色特征的方法.只對風(fēng)景圖像的八種主要顏色進(jìn)行提取,也就是對圖像的八種顏色進(jìn)行聚類.這八種顏色分別為黑色、白色、紅色、黃色、綠色、青色、藍(lán)色和紫/品紅色.
(1)在RGB空間中提取顏色特征向量
在RGB空間中,這八種顏色分別對應(yīng)RGB模型的八個(gè)端點(diǎn)[2].圖像中每個(gè)像素點(diǎn)p的值r、g、b都處在這個(gè)空間中,根據(jù)下列公式分別計(jì)算p到8種顏色的距離,根據(jù)最短距離原則把像素歸到相應(yīng)的顏色中去.
圖像中的每個(gè)像素點(diǎn)對應(yīng)成這八種顏色中的一種.黑色c1、白色c2、紅色c3、黃色c4、綠色c5、青色c6、藍(lán)色c7、紫色c8.
本文用向量{c1/c,c2/c,…,c8/c}也就是這八種顏色在圖像中所占的比例作為風(fēng)景圖像的顏色特征向量,其中c為相應(yīng)區(qū)域中總的像素點(diǎn)的個(gè)數(shù).
(2)在HSV空間中提取顏色特征向量
首先將每一個(gè)RGB空間像素的值R、G、B,轉(zhuǎn)換成HSV空間中的H、S、V.在HSV空間中,我們根據(jù)HSV顏色模型做如下的特須處理,當(dāng)V<0.2時(shí),顏色為黑色c,當(dāng)S<0.15時(shí),且V>0.8時(shí),對應(yīng)顏色為白色c2.在其它情況,按照下列公式把色調(diào)H空間分成6份,分別代表紅c3、黃c4、綠c5、青c6、藍(lán)c7、紫色c8.
這樣在HSV空間,也得到一組8維顏色向量{c1/c,c2/c,…,c8/c}.
在RGB和HSV空間提取了顏色向量后,再取平均值.
圖5給出了目前最常用的顏色方法對顏色特征進(jìn)行提?。?4維顏色直方圖)[3].從圖4和圖5我們可以看出,圖4中所代表的兩組顏色向量之間具有更大的相似性,而且更好的體現(xiàn)了風(fēng)景圖像的顏色特點(diǎn).本文提出的新方法不僅降低了顏色特征向量的維數(shù),減少了計(jì)算量,節(jié)省了時(shí)間,而且在描述了風(fēng)景圖像的顏色內(nèi)容上更加準(zhǔn)確.
本文對圖像進(jìn)行均勻分割成5個(gè)區(qū)域,再對每個(gè)小區(qū)域分別提取主要顏色、灰度共生矩陣,以及對整個(gè)圖片提取形狀特征向量(七個(gè)不變矩).這樣一共得到一組87維的向量(其中顏色特征向量40維,紋理特征向量40維,形狀特征向量7維).
本文用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)底層特征到高層語義的映射[4].建立一個(gè)有87個(gè)輸入節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)對應(yīng)低層特征向量中的一個(gè)值),5個(gè)輸出節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)語義類)的三層多輸出神經(jīng)網(wǎng)絡(luò).其中,初學(xué)習(xí)率為0.1,動量因子為0.9,隱層節(jié)點(diǎn)數(shù)為20.最大迭代次數(shù)(次)為10萬次.
每個(gè)語義類都選用30張圖片作為訓(xùn)練樣本來訓(xùn)練網(wǎng)絡(luò),共有150張訓(xùn)練圖片.對于每一張訓(xùn)練圖片都分為相關(guān)、一般相關(guān)和不相關(guān).當(dāng)圖片與某類相關(guān)時(shí),說明圖片只與該類有關(guān),與其它類無關(guān),則該類相對應(yīng)的輸出期望值為0.9,其它類的輸出期望期為0.1.當(dāng)圖片與某類語義一般相關(guān)時(shí),圖片不僅與該類有關(guān),還和其它的類有關(guān),凡是與之相關(guān)的類對應(yīng)的輸出期望值為0.7,其它為0.1.當(dāng)圖片與某類不相關(guān)時(shí),該類輸出值為0.1.假如圖片同時(shí)屬于藍(lán)天和花卉這兩個(gè)語義時(shí),則該相應(yīng)的網(wǎng)絡(luò)期望輸出值為[0.7,0.1,0.1,0.7,0.1].神經(jīng)網(wǎng)絡(luò)輸入向量Xk[xk1,xk2,…,xk8],(k=1,2,…,N)(圖像的底層特征向量),N為訓(xùn)練樣本的個(gè)數(shù),期望輸出向量為Tk=[tk1,tk2,tk3,tk4,tk5],(k=1,2,…,N).
通過訓(xùn)練,得到一個(gè)已經(jīng)訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò),可以對圖像同時(shí)進(jìn)行5種語義(藍(lán)天、日落/日出、山、綠水、花卉)的分類.每幅圖像都能得到5個(gè)輸出結(jié)果,而每個(gè)輸出結(jié)果分別代表圖像與該類語義的相關(guān)程度.在這里,要做的工作是如何選定閾值,閾值的選取直接關(guān)系到檢索效果的好壞,一般說來,閾值越低,查全率越高,準(zhǔn)確率越低.閾值越高,查全率越低,準(zhǔn)確率越高.所以選取合適的閾值十分重要.通過實(shí)驗(yàn)得出,閾值設(shè)定在[0.55,0.65]這個(gè)區(qū)間,查全率和準(zhǔn)確率能達(dá)到一個(gè)比較好的平衡效果.一般來說,如果只要求檢索出與某一類語義相關(guān)的圖像,閾值可以稍微取高點(diǎn).如果要求檢索出與多類語義相關(guān)的圖像,閾值可以稍微取低點(diǎn).圖6給出了日落/日出的閾值與查全率/準(zhǔn)確率的關(guān)系.
圖6 日落/日出的閾值與查全率/準(zhǔn)確率的關(guān)系圖
本文是對corel圖像庫中的1000多張圖片進(jìn)行語義分類.在本文中,對每個(gè)語義的單獨(dú)圖像檢索如圖7、圖8所示,取的閾值都是0.6.如果要檢索出多個(gè)語義組合的圖像,每類語義為0.55.表一給出了本文方法與SVM方法[5]的比較結(jié)果.
本文建立了一個(gè)語義圖像檢索模型,利用BP神經(jīng)網(wǎng)絡(luò)完成了圖像的底層視覺特征與高層語義特征之間的映射.同時(shí)本文還提出了一種新的顏色提取方法,不僅降低了顏色特征向量的維數(shù),減少了計(jì)算量,節(jié)省了時(shí)間,而且在描述了風(fēng)景圖像的顏色內(nèi)容上更加準(zhǔn)確.通過實(shí)驗(yàn)確定閾值設(shè)定在[0.55,0.65]這個(gè)區(qū)間.實(shí)驗(yàn)表明,該方法取得了較好的效果.由于圖像語義檢索技術(shù)本身涉及到計(jì)算機(jī)視覺、模式識別、圖像分析等多個(gè)研究領(lǐng)域.因此,還有很多問題需要解決和進(jìn)一步完善.
[1]謝文蘭.基于BP神經(jīng)網(wǎng)絡(luò)的語義風(fēng)景圖像檢索技術(shù)的研究[D].湖南:湘潭大學(xué)碩士學(xué)位論文,2009.
[2]周明全,耿國華,韋 娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學(xué)出版社,2007.
[3]章毓晉.基于內(nèi)容的視覺信息檢索[M].北京:科學(xué)出版社,2003:58-69.
[4]高 雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2003:44-55.
[5]韓曉微,晏 磊,原忠虎,范立南.基于BP神經(jīng)網(wǎng)絡(luò)的顏色模糊量化方法[J].系統(tǒng)仿真學(xué)報(bào),2006,18(10):3007-3010.