趙顏妹 吳濤
【摘 要】本文從圖像識別中的數(shù)學(xué)問題建模,圖像識別算法,以及深度學(xué)習(xí)在圖像識別中的應(yīng)用幾個方面進行了綜述,分析了目前圖像識別中的較為典型的技術(shù)手段和應(yīng)用領(lǐng)域。
【關(guān)鍵詞】圖像識別;數(shù)學(xué)建模;分類算法;深度學(xué)習(xí)
引言
隨著微電子技術(shù)及計算機技術(shù)的蓬勃發(fā)展,圖像識別應(yīng)運而生,圖像識別是研究用計算機代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計算機處理能力的不斷強大,圖像識別從最早的文字識別、數(shù)字識別逐漸發(fā)展到人臉識別、物體識別、場景識別、精細目標識別等,所采用的技術(shù)也從最早的模板匹配、線性分類到廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機分類等方法。
1.圖像識別中的數(shù)學(xué)問題建模
1.1飛行器降落圖像智能識別建模
在復(fù)雜地形環(huán)境下,飛行器進行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進行最終落地點的選擇時,如果降落點復(fù)雜程度較高,采集的圖像中將會產(chǎn)生大量的訓(xùn)練樣本數(shù)目,圖像配準過程中,極大地增加了運算量,造成最佳降落點選擇的準確率降低。提出了利用圖像智能識別進行最佳降落點的建模。利用偽Zemike矩能夠?qū)德潼c的圖像形狀進行準確的描述,利用Procrustes形狀分析法提取最佳降落點的特征,利用Rank的融合決策法最終實現(xiàn)最佳降落點選擇的目的。
1.2人臉面部表情圖像識別的隱馬爾科夫建模
人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實現(xiàn)對人臉表情中的情感進行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進行訓(xùn)練,再使用訓(xùn)練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進行情感識別。
2.典型的圖像識別算法
2.1 基于Gabor變換和極限學(xué)習(xí)機的貝類圖像種類識別
對貝類圖像進行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對變換后的特征進行降維,并利用極限學(xué)習(xí)機(ELM)進行貝類圖像的分類識別。與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(SVM)實驗對比發(fā)現(xiàn),極限學(xué)習(xí)機分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點對高維圖像識別精確度高,但算法的復(fù)雜度和設(shè)計一個精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。
2.2 利用公開的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測、極化分解和識別算法
首先根據(jù)四個線極化通道合成偽彩色圖像,從而對場景進行初步認知。利用一維距離像分析全極化各通道的信噪比強度,通過對目標進行Pauli分解得到目標的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點過程簡單易掌握,但識別對象有限。
2.3 基于SVM的離線圖像目標分類算法
基于SVM的離線圖像目標分類算法,先對訓(xùn)練集預(yù)處理,然后將處理后的圖像進行梯度直方圖提取最后對圖像目標的分離器進行檢測,但是這種圖像識別算法只是有效,實用性不強。
3.深度學(xué)習(xí)在圖像識別的應(yīng)用
3.1 Deep learning的原理
深度學(xué)習(xí)是一種模擬人腦的思考方式,通過建立類似人腦的神經(jīng)網(wǎng)絡(luò),實現(xiàn)對數(shù)據(jù)的分析,即按照人類的思維做出先關(guān)解釋,形成方便人們理解的圖像、文字或者聲音。深度學(xué)習(xí)的重點是對模型的運用,模型中需要的參數(shù)是通過對大量數(shù)據(jù)的學(xué)習(xí)和分析中得到的。
深度學(xué)習(xí)有兩種類型:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。學(xué)習(xí)模型根據(jù)學(xué)習(xí)框架的類型來確定。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型,而深度置信網(wǎng)就是一種無監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型。
3.2 深度學(xué)習(xí)的典型應(yīng)用
深度學(xué)習(xí)是如今計算機領(lǐng)域中的一個奪人眼球的技術(shù)。而在深度學(xué)習(xí)的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡(luò),它是一種能夠?qū)崿F(xiàn)大量圖像識別任務(wù)的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是局部感受野、權(quán)值共享以及時間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡(luò)使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數(shù)據(jù)進行的有監(jiān)督學(xué)習(xí),從而可以保證所得的特征具有較好的對類內(nèi)變化的不變性。
3.2.1基于深度學(xué)習(xí)特征的人臉識別方法。
卷積神經(jīng)網(wǎng)絡(luò)在人臉識別領(lǐng)域取得了較大突破,為了更加有效的解決復(fù)雜類內(nèi)變化條件下的小樣本人臉識別問題,使用深度學(xué)習(xí)的方法來提取特征,與基于稀疏表示的方法結(jié)合起來,實驗證明了深度學(xué)習(xí)所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內(nèi)變化的不變性。
3.2.2基于深度學(xué)習(xí)的盲文識別方法。
目前盲文識別系統(tǒng)存在識別率不高、圖片預(yù)處理較為復(fù)雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學(xué)習(xí)樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學(xué)習(xí)的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于隨機選取初值而導(dǎo)致結(jié)果陷入局部極值的問題。
3.2.3基于深度學(xué)習(xí)的手繪草圖識別。
目前的手繪草圖識別方法存在費時費力,較依賴于手工特征提取等問題。基于深度學(xué)習(xí)的手繪草圖識別方法根據(jù)手繪草圖時缺失顏色、紋理信息等特點,使用大尺寸的首層卷積核獲得更多的空間結(jié)構(gòu)信息,利用訓(xùn)練淺層模型獲得的模型參數(shù)來初始化深度模型對應(yīng)層的模型參數(shù),以加快收斂,減少訓(xùn)練時長,加入不改變特征大小的卷基層來加深網(wǎng)絡(luò)深度等方法實現(xiàn)減小錯誤率。
4.結(jié)論
圖像識別是當代人工智能的熱門研究方向,其應(yīng)用領(lǐng)域也是超乎人類想象的,相信通過技術(shù)的不斷創(chuàng)新,圖像識別技術(shù)會給人們的生活帶來智能化、個性化、全面化的服務(wù)。
參考文獻:
[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業(yè)大學(xué)學(xué)報,2015(09).
[2]楊靖堯,里紅杰,陶學(xué)恒.基于Gabor變換和極限學(xué)習(xí)機的貝類圖像種類識別[J].大連工業(yè)大學(xué)學(xué)報,2013(04).
[3]馬曉,張番棟,封舉富.基于深度學(xué)習(xí)特征的稀疏表示的人臉識別方法[J].智能系統(tǒng)學(xué)報,2016(11).
[4]趙鵬,王斐.基于深度學(xué)習(xí)的手繪草圖識別[J].四川大學(xué)學(xué)報,2016(05).
[5]王娜,萬洪林,白成杰.基于SVM的離線圖像目標分類算法[J].計算機系統(tǒng)應(yīng)用,2016(02).