萬(wàn) 爽
(武漢理工大學(xué),湖北 武漢 430070)
模式識(shí)別誕生于20世紀(jì)20年代,是對(duì)表征事物或現(xiàn)象的各種形式的信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程。該學(xué)科主要研究使機(jī)器通過學(xué)習(xí)能做以前只能由人類才能做的事,具備人所具有的、對(duì)各種事物與現(xiàn)象進(jìn)行分析、描述與判斷的部分能力。模式識(shí)別所研究的理論和方法在很多科學(xué)和技術(shù)領(lǐng)域中得到了廣泛的重視,目前已成功應(yīng)用于指紋識(shí)別、印刷體字符識(shí)別、語(yǔ)音識(shí)別、車牌識(shí)別、人臉識(shí)別、手寫體字符識(shí)別、自動(dòng)文本分類、多媒體數(shù)據(jù)挖掘等領(lǐng)域。
本文基于統(tǒng)計(jì)模式識(shí)別方法來(lái)研究車輛識(shí)別問題。對(duì)待定的區(qū)域應(yīng)用特征提取、特征選擇的方法提取統(tǒng)計(jì)特征,根據(jù)統(tǒng)計(jì)模式識(shí)別原理對(duì)候選車輛區(qū)域行識(shí)別確認(rèn)。特征提取采用PCA(主成分變換法),特征選擇采用遺傳算法,分類器設(shè)計(jì)是SVM(支持向量機(jī))。
基于統(tǒng)計(jì)方法的模式識(shí)別系統(tǒng)由四部分組成:數(shù)據(jù)獲取、預(yù)處理、特征提取和選擇、分類器設(shè)計(jì)和分類決策。
數(shù)據(jù)獲取就是通過一定的技術(shù)和手段對(duì)個(gè)別事物進(jìn)行觀測(cè),從而獲取該事物的時(shí)間和空間分布信息。這里需要將各種測(cè)量的量轉(zhuǎn)換成計(jì)算機(jī)可以直接處理的數(shù)據(jù)。測(cè)量到的信號(hào)通常有一維信號(hào),二維信號(hào)和邏輯信號(hào)。預(yù)處理階段就是要將數(shù)據(jù)獲取階段所引入的噪聲進(jìn)行濾除,并對(duì)數(shù)據(jù)獲取階段所造成的信號(hào)退化進(jìn)行復(fù)原,并為下一步特征提取提供必要的基礎(chǔ)。
通常情況下,在數(shù)據(jù)獲取階段獲得的數(shù)據(jù)量是相當(dāng)大的。直接應(yīng)用這些數(shù)據(jù)進(jìn)行模式識(shí)別,數(shù)據(jù)量大,計(jì)算復(fù)雜。當(dāng)向量維數(shù)達(dá)到一定維數(shù)時(shí),就必須采取一定的措施能使系統(tǒng)能夠處理這些數(shù)據(jù)和正常工作,即特征降維,模式識(shí)別中稱為特征提取和選擇。一般來(lái)說(shuō),特征提取和選擇是模式識(shí)別系統(tǒng)中關(guān)鍵的一步,其好壞直接決定了模式識(shí)別系統(tǒng)的性能。
1.2.1 主成分變換法
主成分分析方法是應(yīng)用最廣泛的一種特征提取方法之一,它是一種統(tǒng)計(jì)學(xué)方法,在信號(hào)處理、模式識(shí)別、數(shù)字圖像處理等領(lǐng)域得到了廣泛的應(yīng)用。主成分分析基本思想是提取出空間原始數(shù)據(jù)中的主要特征,減少數(shù)據(jù)冗余,使得數(shù)據(jù)在一個(gè)低維的特征空間被處理,同時(shí)保持原始數(shù)據(jù)的絕大部分的信息,從而解決數(shù)據(jù)空間維數(shù)過高的瓶頸問題。
所謂主成分就是原始數(shù)據(jù)的m個(gè)變量經(jīng)線性組合后得到的變量,該變化使得其變換后的變量方差為最大(第一主成分)的部分。各個(gè)主成分之間是相互線性無(wú)關(guān)的(正交的)從第一主成分往后,主成分按方差大小的順序排列。
1.2.2 遺傳算法
遺傳算法是建立在自然選擇和遺傳變異基礎(chǔ)上的自適應(yīng)概率性搜索算法,在該算法中,染色體是二進(jìn)制字符串編碼,每一編碼字符串為一候選解,這種染色體有多個(gè),即有一群候選解。染色體像生物進(jìn)化一樣有繁殖、交叉和突變?nèi)N現(xiàn)象,這些現(xiàn)象稱為遺傳算子。在每一代中,保持一定數(shù)目M為定值的解群,經(jīng)過對(duì)各解的適應(yīng)度值計(jì)算,使解群中的各個(gè)解得到評(píng)價(jià),各個(gè)解的適應(yīng)度值的大小作為染色體復(fù)制機(jī)會(huì)大小的先決條件。
遺傳算法中有一個(gè)很重要的概念,稱為適應(yīng)度函數(shù)。如何將遺傳算法中的不斷進(jìn)化的染色體與現(xiàn)實(shí)問題中的優(yōu)劣選擇相聯(lián)系是該算法成功的關(guān)鍵。一般的方法是構(gòu)造一個(gè)與現(xiàn)實(shí)問題相聯(lián)系的適應(yīng)度函數(shù)。
從數(shù)學(xué)觀點(diǎn)來(lái)看,分類決策就是找出決策函數(shù)。當(dāng)已知待識(shí)別模式的完整的先驗(yàn)知識(shí)時(shí),可據(jù)此確定決策函數(shù)的數(shù)學(xué)表達(dá)式。如果僅知待識(shí)別模式的定性知識(shí),則在確定決策函數(shù)的過程中,通過反復(fù)訓(xùn)練、調(diào)整,以達(dá)滿意的決策函數(shù)表達(dá)式,從而作為決策分類的依據(jù)。
支持向量機(jī)是一種基于統(tǒng)計(jì)的學(xué)習(xí)方法,它是對(duì)結(jié)構(gòu)化風(fēng)險(xiǎn)最小化歸納原則的近似,由于其出色的學(xué)習(xí)性能,使得SVM具有較好的推廣能力。其原理是針對(duì)二值分類問題提出的,其核心思想是將結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)引入到分類中。支持向量機(jī)通過引入結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)恰恰能完成這個(gè)任務(wù),從而提高了機(jī)器學(xué)習(xí)的泛化能力。這些特點(diǎn)使支持向量機(jī)能有效地克服高維問題。
為了檢驗(yàn)各個(gè)主成分變換特征提取方法和支持向量機(jī)分類器對(duì)車輛檢測(cè)的識(shí)別率和有效性,我們進(jìn)行了對(duì)比實(shí)驗(yàn):特征提取和特征選擇的方法與不同分類器方法進(jìn)行組合測(cè)試。
為了檢驗(yàn)本論文中提出的車輛檢測(cè)方法,我們進(jìn)行了實(shí)驗(yàn)測(cè)試。道路取景的來(lái)源國(guó)內(nèi)城市道路。實(shí)驗(yàn)中選用的訓(xùn)練樣本為3000,其中車輛為1500,其余為背景樣本。
利用前文描述的方法,獲得的特征提取器為:
T=[t(1),t(2),t(3)]
其中,特征向量為:
t(1)=(-0.5346,-0.0804,-0.8329,0.0444,-0.0794,-0.0224,
-0.0652,0.0317)
t(2)=
(-0.2102,0.8256,0.0754,0.4899,0.0516,0.0196,0.0355,0.0872)
t(3)=(-0.0812,-0.5261,0.1491,0.8244,-0.0161,0.0933,
-0.0048,0.0754)
同時(shí)增加了其它分類器配合進(jìn)行測(cè)試,選用的分類器有KNN(K最鄰近結(jié)點(diǎn)算法)、QDF(二次判別方程)、COS(基于樸素貝葉斯分類器)。測(cè)試樣本為600,其中車輛300,背景300。測(cè)試結(jié)果為:SVM的車輛識(shí)別率為85.3%,背景識(shí)別率為94%;KNN的車輛識(shí)別率為82.6%,背景識(shí)別率為76.6%;QDF的車輛識(shí)別率為42.6%,背景識(shí)別率為79.3%;COS的車輛識(shí)別率為52%,背景識(shí)別率為97%。
通過對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析,可以得出,特征提取的算法中,采用主成分變換法進(jìn)行特征提取是所實(shí)現(xiàn)的特征提取算法中性能較優(yōu)。同時(shí),SVM分類器具有是具有最高的識(shí)別率。所以最終選擇的是主成分變換法、遺傳算法支持向量機(jī)的車輛識(shí)別算法組合。
本文分析并實(shí)現(xiàn)了基于車輛統(tǒng)計(jì)特征的車輛識(shí)別算法。算法包括三個(gè)部分:特征提取,特征選擇,和分類器設(shè)計(jì)。利用特征提取方法(PCA)對(duì)待確定的區(qū)域應(yīng)用特征提取的方法提取統(tǒng)計(jì)特征,應(yīng)用遺傳算法對(duì)特征提取階段的結(jié)果進(jìn)行選擇,其選擇結(jié)果用于訓(xùn)練SVM分類器。最后應(yīng)用訓(xùn)練好的SVM分類器進(jìn)行分類識(shí)別檢測(cè)。此外,還將此算法與其它車輛識(shí)別算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,基于車輛統(tǒng)計(jì)特征的車輛識(shí)別算法不僅具有較好的有效性,而且能有效的提高識(shí)別率和降低誤識(shí)別率,具有很好的應(yīng)用前景。
[1]邊肇祺,張學(xué)工.模式識(shí)別[M].2 版.北京:清華大學(xué)出版社,2007.
[2]楊和超,宋海歌.模式識(shí)別的主要方法及其應(yīng)用[J].電腦知識(shí)與技術(shù),2008(S2):156-157.
[3]趙喜林,等.模式識(shí)別方法及其比較分析[J].信陽(yáng)農(nóng)業(yè)高等??茖W(xué)校學(xué)報(bào),2004,14(3):37-40.