吳海麗
(太原學(xué)院 計(jì)算機(jī)科學(xué)與工程系,山西 太原 030012)
由于互聯(lián)網(wǎng)多媒體和互聯(lián)網(wǎng)等高科技的快速發(fā)展,以及近年來(lái)數(shù)字音頻產(chǎn)品的出現(xiàn),數(shù)字圖像急劇增加[1].如何科學(xué)、高效、明智地管理這些海量數(shù)字圖像并將其應(yīng)用于社會(huì)生活的各個(gè)領(lǐng)域已經(jīng)成為一個(gè)新的現(xiàn)代研究課題:如何正確地對(duì)這些科學(xué)圖像進(jìn)行分類(lèi)?它已成為一個(gè)迫切需要社會(huì)解決的嚴(yán)重問(wèn)題.過(guò)去,舊的圖像分類(lèi)方法通常是基于手工標(biāo)注,但通常有兩個(gè)難以解決的關(guān)鍵問(wèn)題:首先,出于人為原因,人工標(biāo)記的圖像通常具有強(qiáng)烈的個(gè)人感覺(jué),即主觀性,第二,人工標(biāo)記圖像的數(shù)量相對(duì)較大,費(fèi)力和耗時(shí),并且其在大范圍內(nèi)的普及是困難的.基于內(nèi)容的圖像分類(lèi)技術(shù)起源于20世紀(jì)80年代和90年代.該方法基本上使用了提取圖像的基本特征,然后進(jìn)行了一系列的操作和訓(xùn)練,最終達(dá)到了分類(lèi)的目的.雖然基于分類(lèi)器研究的圖像分類(lèi)方法現(xiàn)已獲得一些重要的研究成果[2],但常用的方法是基于圖像的特定特征,而圖像中包括的內(nèi)容普遍情況下是不僅僅一種,單一的某一特征并不能充分滿(mǎn)足圖像描述的需求,而基于分類(lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)因?yàn)槠涮貏e性能夠最大化的處理這個(gè)問(wèn)題.
伴隨社會(huì)科學(xué)技術(shù)的發(fā)展和數(shù)碼產(chǎn)品的大規(guī)模推廣使用,圖像已成為滿(mǎn)足人們?nèi)粘P枨蟮谋夭豢缮俚馁Y源[3].根據(jù)相關(guān)社會(huì)調(diào)查的統(tǒng)計(jì)數(shù)據(jù),人們大多使用視覺(jué)、聽(tīng)覺(jué)、嗅覺(jué)和觸覺(jué)來(lái)獲取有關(guān)環(huán)境的基本信息.通過(guò)視覺(jué)信息獲得的信息約為60%,這也是人們所知道的.信息的關(guān)鍵.圖像是視覺(jué)信息的重要來(lái)源之一:由于其內(nèi)容豐富,存在形式豐富,敘事能力強(qiáng),主題內(nèi)涵深刻,遠(yuǎn)遠(yuǎn)超出了文本信息[4].圖像描述的信息內(nèi)容非常豐富,圖像數(shù)量也呈指數(shù)快速增長(zhǎng),有明顯的信息表明這種放大形式將持續(xù)很長(zhǎng)時(shí)間.面對(duì)龐大的圖像資源,實(shí)現(xiàn)完善,科學(xué),有效管理,獲取必要信息的方式已成為各界專(zhuān)業(yè)人士迫切需要的一個(gè)嚴(yán)峻的研究課題.圖像分類(lèi)是指自動(dòng)完成給定圖像集的智能分類(lèi)或評(píng)估圖像是否屬于特定類(lèi)別.今天,圖像的具體描述基本上包括本世紀(jì)的兩個(gè)非常復(fù)雜的問(wèn)題.第一世紀(jì)的謎團(tuán)指的是克服差距的語(yǔ)義邊界的困難.國(guó)內(nèi)外許多研究者對(duì)圖像的主要特征進(jìn)行了深刻的詮釋?zhuān)珙伾?,形狀,紋理和時(shí)空關(guān)系,并利用這些功能完成圖像敘事.基于這些基本特征,計(jì)算機(jī)測(cè)量圖像之間的相似性.然而,當(dāng)人們測(cè)量圖像相似度時(shí),它們主要是基于對(duì)高級(jí)圖像的語(yǔ)義邊界的深刻理解,很難研究高級(jí)圖像的基本特征和語(yǔ)義邊界.復(fù)活節(jié)的巨大深淵.
第二個(gè)問(wèn)題是圖像受到許多因素的影響,例如亮度,移動(dòng)幅度,大小和變形.識(shí)別標(biāo)志的難度繼續(xù)增加.同時(shí),這些因素顯著增加了解決差距語(yǔ)義邊界的復(fù)雜性.在20世紀(jì)80年代早期,模式識(shí)別僅限于統(tǒng)計(jì)識(shí)別和結(jié)構(gòu)模式識(shí)別[5]. 20世紀(jì)80年代末90年代初,快速發(fā)展的模糊數(shù)學(xué)逐漸滲透到模式識(shí)別中的一系列關(guān)系,出現(xiàn)了一種求解模糊模式識(shí)別的技術(shù).這是因?yàn)椴煌瑢?shí)體的特征通常反映了事物的相反方面.通過(guò)匹配具有相同特征的不同分類(lèi)器,它們可以在從不同角度收集結(jié)果時(shí)反映該特征.因此,對(duì)于不同的分類(lèi).組件的組合可能全面地反映相同的模式以實(shí)現(xiàn)最佳的分類(lèi)結(jié)果,因此幾個(gè)分類(lèi)器的有機(jī)組合可以最大化整體接受度.
圖像智能分類(lèi)重點(diǎn)需要解決三個(gè)重要性的問(wèn)題:首先,應(yīng)該怎樣正確表示圖像;其次,應(yīng)該怎樣正確標(biāo)記樣本;最后,應(yīng)該怎樣對(duì)小樣本進(jìn)行學(xué)習(xí).為了解決以上這三大問(wèn)題,本文提出了一種全新的分類(lèi)器學(xué)習(xí)算法,稱(chēng)之為Classification learning algorithm算法[6].該算法以多樣性密度算法探尋到的區(qū)域最大值MAX來(lái)建構(gòu)出一個(gè)全新的屬性空間,將線(xiàn)映射為屬性空間中的具體某一點(diǎn),最后通過(guò)分類(lèi)器學(xué)習(xí)機(jī)(Classifier learning machine,CLM)技術(shù)在MIL 框架下對(duì)圖像進(jìn)行智能分類(lèi).
給定一幅具體的圖像,采取分類(lèi)器學(xué)習(xí)算法對(duì)其進(jìn)行精準(zhǔn)分割并提取到圖像的具體特征.先把圖像分割成大小一致的為3×3的無(wú)重疊圖像小塊,提取到每一個(gè)小塊的顏色特征以及紋理、空間特征.其中:顏色特征表現(xiàn)為將小塊由紅黃綠的基準(zhǔn)空間(RGB空間)轉(zhuǎn)換為L(zhǎng)PV空間( L表示顏色亮度,PV則表示圖像色度) ,取LPV三個(gè)分量的平均值作為顏色特征,由此可獲知三維立體顏色的特征向量[7].紋理特征則是采取Daubichy-3對(duì)3×3的圖像小塊進(jìn)行次一級(jí)小波頻率轉(zhuǎn)換得到最少3個(gè)頻率帶,一個(gè)低頻LP和三個(gè)高頻LH,HL,HH,每一個(gè)頻率帶均包含2×2 個(gè)系數(shù).不失普遍性,假設(shè)HH頻率帶的系數(shù)是{?k,l,?k,l+1,?k+1,l,?k+1,l+1},那么HH頻率帶的小波特征具體表示為:
(1)
LH,HL的小波特征具體可以參照HH 獲取,由此能夠求到三維立體紋理顏色特征向量.采用L-means 方法把分割以后的圖像小塊結(jié)合成若干個(gè)類(lèi),每一類(lèi)對(duì)應(yīng)圖像的某一具體紋理顏色區(qū)域,那么區(qū)域Ri就可以表示為Δfi. 形狀特征具體是指對(duì)圖像的任何一個(gè)區(qū)域Ri,利用階數(shù)為1,2,3的歸一化慣性因子去敘述其具體的形狀特征.慣性因子λ的公式表示見(jiàn)下式:
(2)
其中,Δr為區(qū)域Ri的中心質(zhì)點(diǎn);r為區(qū)域Ri中每一個(gè)像素的具體坐標(biāo);V為區(qū)域Ri的像素總和.在三維立體空間內(nèi),分割區(qū)域的最小外接圓的慣性因子最小,假設(shè)最小外接圓的第γ個(gè)慣性因子是Iλ,區(qū)域Ri的立體三維形狀特征可根據(jù)下式計(jì)算獲?。?/p>
(3)
如此一來(lái),一幅圖像就被分成n個(gè)區(qū)域的圖像B,具體可以表示為:
(4)
對(duì)應(yīng)著圖像區(qū)域Ri的10維的特征向量.
由于DoG值對(duì)圖像噪聲和周?chē)吘壝舾衃8],因此有必要對(duì)在DoG標(biāo)度空間中檢測(cè)到的區(qū)域的極值點(diǎn)的函數(shù)進(jìn)行三維立方比較,以便精確地確定關(guān)鍵點(diǎn)的位置和比例. 相應(yīng)的圖像邊緣值不穩(wěn)定的點(diǎn)和像素對(duì)比度相對(duì)低的點(diǎn)被去除,從而增加了特征點(diǎn)的穩(wěn)定性和降低噪聲水平的可能性.
(5)
(6)
為了更加清楚、具體地看出次技術(shù)方法的實(shí)際應(yīng)用效果,特與傳統(tǒng)算法的圖像智能分類(lèi)技術(shù)進(jìn)行對(duì)比,對(duì)其分類(lèi)速度和精確度進(jìn)行比較.
為保證試驗(yàn)的準(zhǔn)確性,將兩種技術(shù)設(shè)計(jì)置于相同的試驗(yàn)參數(shù)之中,進(jìn)行分類(lèi)速度和精確度試驗(yàn).實(shí)驗(yàn)采取的Corel-1K圖像數(shù)據(jù)集,一共分成8組,分別為:African people,villages,Historical building,Dinosaurs,Elephants,F(xiàn)lowers,Mountains以及Food.每一組包含150副格式為JPEG的彩色圖像,圖片分辨率均設(shè)置為380×256或256×380.運(yùn)用兩種算法的圖像分類(lèi)技術(shù)對(duì)圖像進(jìn)行分類(lèi)處理,提取底層特征形成包(圖片)與示例(K域).最終的結(jié)果是,示例為一個(gè)10維的列向量三維LUP特征、3維紋理顏色特征以及3維形狀特征,包為若干個(gè)示例組建的矩陣圖.
為了測(cè)試基于分類(lèi)器學(xué)習(xí)算法的智能圖像分類(lèi)技術(shù)的有效性,將其與經(jīng)典算法DD-SVM和MILES進(jìn)行了比較.在基于分類(lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)的實(shí)驗(yàn)中,為每種類(lèi)型的圖像隨機(jī)選擇100個(gè)圖像并將其添加到訓(xùn)練集中,將剩余的50個(gè)圖像作為測(cè)試樣本添加到測(cè)試集中,并將20個(gè)圖像標(biāo)記添加到實(shí)驗(yàn)集中.正數(shù),30未標(biāo)記,在其他類(lèi)別的圖像中隨機(jī)選擇100個(gè)圖像,其余50個(gè)圖像被添加到測(cè)試集.在添加到實(shí)驗(yàn)組中的其他類(lèi)圖像中,20個(gè)是負(fù)的,30個(gè)不標(biāo)記.每個(gè)實(shí)驗(yàn)重復(fù)5次,取平均精度.最終結(jié)果如圖1所示.
基于分類(lèi)器學(xué)習(xí)算法的智能圖像分類(lèi)技術(shù)可以充分利用被識(shí)別對(duì)象的各種特征空間,很好地結(jié)合分類(lèi)器之間的信息互補(bǔ)性,有效地改善分類(lèi)過(guò)程,但是分類(lèi)器采用的組合結(jié)構(gòu)另外,組合分類(lèi)算法也不同用戶(hù)很難理解他們的決策過(guò)程.提高組合分類(lèi)的可理解性對(duì)其推廣和應(yīng)用具有一定的推動(dòng)作用.
圖1 分類(lèi)速度實(shí)驗(yàn)論證結(jié)果曲線(xiàn)圖2 圖像分類(lèi)精確度實(shí)驗(yàn)對(duì)比圖
通過(guò)實(shí)驗(yàn)結(jié)果的顯示,在分類(lèi)速度上,兩種算法下的圖像分類(lèi)速度差別較大,但是本文設(shè)計(jì)的基于分類(lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)在后續(xù)上比較具有優(yōu)勢(shì).在圖像精確度上,本文設(shè)計(jì)的基于分類(lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)相比于傳統(tǒng)算法的分類(lèi)技術(shù),精確度要更高,且一直居高不下.
本文對(duì)基于分類(lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)進(jìn)行分析,依托分類(lèi)器學(xué)習(xí)算法與數(shù)學(xué)模型技術(shù)的雙向結(jié)合,根據(jù)圖像分類(lèi)技術(shù)遇見(jiàn)的技術(shù)難題,對(duì)圖像智能分類(lèi)進(jìn)行的調(diào)整,實(shí)現(xiàn)本文設(shè)計(jì).實(shí)驗(yàn)論證表明,本文設(shè)計(jì)的方法具備極高的有效性.在今后的工作中,不斷完善本論文的研究工作,包括進(jìn)一步測(cè)試,分析和改進(jìn)智能圖像分類(lèi)技術(shù)在實(shí)際應(yīng)用中的性能,以實(shí)現(xiàn)更高性能的組合分類(lèi)系統(tǒng),繼續(xù)研究分類(lèi)器的組合,為深入研究圖像分類(lèi)奠定基礎(chǔ),為大規(guī)模且不斷更新的數(shù)據(jù)分類(lèi)問(wèn)題做好最佳解決方案.希望本文的研究能夠?yàn)榛诜诸?lèi)器學(xué)習(xí)算法的圖像智能分類(lèi)技術(shù)的發(fā)展提供理論依據(jù).