李孟起 中國海洋大學經(jīng)濟學院 鄭煜辰 中國海洋大學信息科學與工程學院
基于深度學習特征和在線感知機的物體識別系統(tǒng)
李孟起 中國海洋大學經(jīng)濟學院 鄭煜辰 中國海洋大學信息科學與工程學院
計算機視覺是科學領(lǐng)域中一個極富挑戰(zhàn)性的研究領(lǐng)域。近年來,隨著科學研究的進步和工業(yè)水平的提高,計算機視覺被廣泛應用于醫(yī)學、工業(yè)、交通、等多個領(lǐng)域。本文實現(xiàn)一個物體自動識別系統(tǒng),完成對特定類物體的識別。系統(tǒng)采用深度網(wǎng)絡模型Decaf進行特征提取,將提取特征送入到融合了在線學習方法的分類器中實現(xiàn)圖像中物體的準確識別。對于識別結(jié)果,本作品采用DTW語音模型對識別結(jié)果進行人工矯正。實驗結(jié)果表明,系統(tǒng)具備模型簡單,識別時間短,精度高,泛化能力強等優(yōu)點。
計算機視覺與模式識別是近十幾年來計算機科學最熱門的方向之一。目標識別與分類作為該領(lǐng)域研究中的基礎(chǔ)性問題,有著極大的研究價值和應用價值,受到廣泛的關(guān)注。近年來,隨著圖像處理技術(shù)的專業(yè)化和計算機硬件成本的下降和處理速度的提高,計算機視覺技術(shù)被廣泛的運用到生產(chǎn)實踐中,目標識別應用層出不窮,在醫(yī)學檢測,工業(yè)生產(chǎn),智能交通,安全監(jiān)管等各個領(lǐng)域發(fā)揮日漸重要的作用,可以說計算機視覺正改變著我們的生活。
本文采用深度學習中的泛化CNN模型Decaf進行特征提取,對傳統(tǒng)感知機模型進行容錯改進,實現(xiàn)對特定類別的準確識別。同時,對整體模型進行在線學習改進,使網(wǎng)絡結(jié)構(gòu)具有實時調(diào)整的特性,實現(xiàn)系統(tǒng)識別能力的“智能化”增強。此外,系統(tǒng)的用戶反饋采用語音對話的方式,從而使應用更具交互性與趣味性。實驗結(jié)果表明,該模型具有測試精度高,測試時間短,泛化能力強的優(yōu)點。同時模型在訓練的過程中隨反饋結(jié)果調(diào)整逐漸優(yōu)化,達到了“終生學習”的要求。
3.1 特征提取
Decaf是由UC Berkeley發(fā)布的深度學習庫,是一種已在ImageNet數(shù)據(jù)集上訓練好的深度網(wǎng)絡模型。ImageNet共包含14197122張來自21841個類的自然圖像。作為一種清晰高效的深度網(wǎng)絡框架,Decaf方法具有運行速度快,架構(gòu)簡單友好的特點。本文采用Decaf模型進行特征提取。將實驗圖像輸入Decaf模型,抽取結(jié)構(gòu)第6層4096維卷積特征作為分類器輸入。實驗結(jié)果表明,4096維Decaf特征能使樣本間具備很好的區(qū)分性,從而得到極好的識別效果。
3.2 分類器訓練
相對于分類器訓練,良好的特征表示對識別結(jié)果的影響更大。因此,有上面特征提取階段得到的具備較強區(qū)分度Decaf特征做基礎(chǔ),系統(tǒng)選用相對簡單的感知機模型作為分類器。通過對單層感知器模型進行容錯改進,找到最佳分類界面。同時,為實現(xiàn)模型學習能力的“智能化”,將感知機模型與在線學習相結(jié)合,使模型具有應對錯誤識別情況實時調(diào)整參數(shù)的能力,從而達到“系統(tǒng)隨用戶不斷反饋越來越智能”的要求。
3.3 語音識別
用戶反饋的語音識別是本識別系統(tǒng)的另一個重要模塊。用戶通過語音對系統(tǒng)識別的結(jié)果進行反饋,分類器接受反饋信號,依據(jù)信號屬性采取相應動作:若用戶信號為“Yes”,分類器無動作;若用戶信號為“No”,說明模型誤分測試樣本,分類器按正確結(jié)果對網(wǎng)絡權(quán)值進行調(diào)整。應用語音信號進行人機交互,增加了系統(tǒng)的交互性與趣味性。
4.1 測試方案
為更好的表征系統(tǒng)識別能力,我們選取ImageNet數(shù)據(jù)集中具備較高相似性的5類數(shù)據(jù)樣本進行系統(tǒng)測試,分別為:算盤,鍵盤,遙控器,手機,Mp4。其中鍵盤類1045個樣本,其余各類均包含1300個樣本,共6245個樣本。在樣本中選取4800個數(shù)據(jù)作為訓練樣本,其余1425個用于測試。在系統(tǒng)識別能力“智能化”增強驗證實驗中,首先在訓練集中選取400張圖片作為輸入,訓練得到初始化分類器。然后采取增量學習的方式,每次另行選取400張圖片送入上一步得到的模型進行分類,通過語音反饋不斷調(diào)整模型參數(shù),直到4800個訓練樣本用完為止。在語音識別測試中,我們選取組內(nèi)3人的語音作為測試樣本,每人300個語音樣本(150個Yes,150個No),共900個樣本。除此之外,為保證系統(tǒng)完整性,我們對集成后的模型也進行了多次測試。
4.2 結(jié)果分析
系統(tǒng)界面設計與預測結(jié)果:
圖1 識別設計與界面
以上兩圖分別對應識別正確和識別錯誤的情況:識別正確,則識別結(jié)束;若系統(tǒng)識別錯誤,則返回此樣本及其真實標簽來調(diào)整分類器。可以看到,此系統(tǒng)具有較高的識別速度,識別單幅圖片時僅需不到一毫秒的時間。
圖2 鍵盤類的識別準確率
圖2展示了鍵盤類識別過程中,模型識別能力隨在線學習權(quán)值調(diào)整不斷增強的趨勢。直觀表示為,隨著訓練樣本的不斷增加,測試準確率不斷升高。
本文以較好的計算機視覺與模式識別理論作為支撐,有效地實現(xiàn)了預期的精確識別和有效反饋調(diào)節(jié)的功能。作品結(jié)構(gòu)設計合理簡單,功能實現(xiàn)快捷有效,交互操作便捷,具備較好的用戶體驗。同時,系統(tǒng)模型具備較高的實用價值,并能在一定程度上滿足市場需求,進一步完善開發(fā)后可以迅速推向市場。
[1]常亮,鄧小明,周明全,等.圖像理解中的卷積神經(jīng)網(wǎng)絡[J].自動化學報,2016,42(9):1300-1312
[2]楊戈,張威強,黃靜.一個感知機神經(jīng)網(wǎng)絡字符識別器的實現(xiàn)[J].電子技術(shù)應用,2015,41(3):120-122
[3]尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業(yè)大學學報,2015(1):48-59
[4]楊淑瑩,胡軍,曹作良.基于圖像紋理分析的目標物體識別方法[J].天津理工學院學報,2001,17(4):31-33
[5]梁冰,陳德運,程慧.自適應視聽信息融合用于抗噪語音識別[J].控制理論與應用,2011,28(10):1461-1466