亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合HOG+SVM與MFCC特征的自動優(yōu)化物體識別系統(tǒng)研究

2019-06-06 04:21:26莊屹陳瑋尹鐘

軟件導刊 2019年3期

莊屹陳瑋尹鐘

摘要：在與人交互情況下，針對物體識別系統(tǒng)通過反饋信息自動優(yōu)化識別能力問題，提出一種結(jié)合梯度直方圖（HOG）特征提取和支持向量機（SVM）進行特定物體識別的方法。運用Tensorflow訓練語音識別模型反饋人機交互信息，使系統(tǒng)實現(xiàn)自優(yōu)化。以手表類別作為識別對象，通過HOG特征描述對手表進行特征提取，通過二維主成分分析（2DPCA）和線性判別分析（LDA）對整體和局部特征進行降維，運用改進的空間金字塔匹配模型通過SVM對其分類，并運用非極大值抑制（NMS）確定區(qū)域，運用訓練的梅爾倒譜（MFCC）特征語音識別模型對反饋信息進行識別，最終整合信息優(yōu)化識別系統(tǒng)。實驗表明，該系統(tǒng)對手表有較高的識別率，并能通過人機交流在較短時間內(nèi)使系統(tǒng)實現(xiàn)自優(yōu)化。

關鍵詞：物體識別;自優(yōu)化系統(tǒng);梯度直方圖;支持向量機;梅爾倒譜

DOI：10. 11907/rjdk. 182221

中圖分類號：TP301文獻標識碼：A文章編號：1672-7800（2019）003-0010-06

0 引言

隨著智能化的不斷普及，很多場合都可以用機器識別物體，物體識別系統(tǒng)正朝著愈發(fā)精確成熟的方向發(fā)展。物體識別關鍵在于特征提取和分類器設計，特征提取主要從全局特征提取和局部特征提取兩個方向入手。不同物體擁有不同性質(zhì)的特征，在不同特征提取以及不同分類器下實現(xiàn)的識別效果也略有差距。對于一個投入使用的識別系統(tǒng)，由于其分類模型已經(jīng)確定，其識別率也就確定下來，無法直接提高識別能力。目前，物體識別系統(tǒng)的主要分類器是運用卷積神經(jīng)網(wǎng)絡（CNN）或者相對成熟的Tensorflow深度學習神經(jīng)網(wǎng)絡進行訓練?；谏窠?jīng)網(wǎng)絡的模型訓練要擁有較高識別率，對樣本量有著極高要求，而在樣本量有限的情況下，神經(jīng)網(wǎng)絡訓練下的模型識別效果相差很多，并且無法進行自優(yōu)化操作。在2005年的CVPR（Internaltional Conference on Computer Vision and Pattern Recogintion 計算機視覺與模式識別國際會議）上，來自法國的研究人員Navneet Dalal & Bill Triggs[1]提出利用梯度直方圖（HOG）進行特征提取，利用線性支持向量機（SVM）作為分類器，從而實現(xiàn)行人檢測，但對于空間金字塔的匹配模型并沒有進行優(yōu)化。本文提出一種改進的HOG特征提取和SVM進行物體識別，同時通過Tensorflow訓練自己的語音識別模型反饋人機交互信息，基于Python 3.6 環(huán)境編寫程序?qū)崿F(xiàn)自優(yōu)化識別。在加州學院256類圖像數(shù)據(jù)庫（“The Caltech-256 object category dataset”）以及ImageNet圖像數(shù)據(jù)庫基礎上進行實驗，結(jié)果表明該系統(tǒng)能實現(xiàn)自優(yōu)化功能，提高了手表類別的識別能力。

1 改進的HOG特征提取與SVM分類

1.1 HOG特征提取及降維算法

1.1.1 HOG特征提取

一幅圖像可通過梯度或邊緣的方向密度分布很好地描述局部目標的表象和形狀（appearance and shape），梯度主要存在于邊緣[2]。如圖1所示，HOG特征提取步驟如下：

（1）灰度化。

（2）通過[γ]校正法對輸入圖像進行顏色空間的歸一化。

（3）計算圖像每個像素的梯度（大小、方向），以此捕獲輪廓信息。

（4）將圖像劃分成小像素點，并計算每個像素點的梯度直方圖（不同梯度的個數(shù)），即可形成像素點的圖像塊。

（5）將幾個像素點組成一個圖像塊，一個圖像塊內(nèi)所有像素點的特征串聯(lián)起來便得到該圖像塊的HOG特征。

（6）聯(lián)結(jié)所有圖像塊的HOG特征得到全圖HOG特征，此即為最終可供分類使用的特征向量[3]。

1.1.2 LDA算法

LDA是一種用于監(jiān)督學習的降維技術，其數(shù)據(jù)集的每個樣本都有類別輸出，這點和PCA不同。PCA是一種無監(jiān)督降維技術，不考慮樣本類別輸出。數(shù)據(jù)以低維度進行投影，投影后希望每一種類別數(shù)據(jù)的投影點盡可能地接近，而不同類別的數(shù)據(jù)與類別中心之間的距離應盡可能大。本文主要運用二類LDA算法提取局部特征[4]。

1.1.3 2DPCA算法

2DPCA算法是一維PCA算法的改進優(yōu)化。利用二維圖像矩陣直接構造一個協(xié)方差矩陣，選取最大的幾個特征值對應的特征向量為最佳投影軸，將原始圖像矩陣經(jīng)過投影后提取主元分量，以達到數(shù)據(jù)降維和壓縮效果[5]。

1.2 空間金字塔匹配模型改進

1.2.1 圖像預處理

以手表圖像為例，為達到識別目的，首先要對訓練集中的圖像進行預處理。對手表圖像進行濾波去噪，確定手表的表盤位置并將圖像歸一化為128×128，步驟如下：①對圖像進行差分高斯濾波（DoG），用于消除圖像陰影以及高頻和低頻噪音干擾;②對圖像進行對比度均衡化與圖像增強，提高圖像清晰度;③對圖像霍夫變換進行圓形邊緣提取，確定最小外接矩形并截取得到手表表盤，如圖2所示。

對于任何圓，假設中心像素點p[（x0，y0）]已知，圓半徑已知，將其旋轉(zhuǎn)360°，可通過極坐標方程得到每個點上的坐標。同樣，如果只是知道圖像上的像素點、圓半徑，旋轉(zhuǎn)360°，則會有一個集中的交點。也就是說，圓的中心點處坐標值最強，這就是霍夫變換檢測圓的數(shù)學原理[7]。

1.2.2 改進的空間金字塔匹配

傳統(tǒng)的空間金字塔匹配模型一般在水平和數(shù)值方向進行相同劃分，即分割后的每個空間都是形如n×n的正方形區(qū)域[8]，這樣得到的圖像結(jié)構信息在一定程度上是不連續(xù)的，使得表盤中的結(jié)構信息劃分成極小的碎片，影響最終識別效果。

為此對空間金字塔的劃分方案進行改進，如圖3所示，確定Level 0層（1×1），Level 1層（1×4）、（4×1），Level 2層（2×8）、（8×2），從而使其底層特征分布直方圖的統(tǒng)計特性不被破壞。傳統(tǒng)情況下，由于劃分的局部區(qū)域過小，所以得到的空間分布直方圖區(qū)分度不高。改進的匹配模型保留了較大范圍的特征分布，盡管不能在細節(jié)上提供更精確的信息，但是較大范圍的特征信息保證了一定的一致性和連續(xù)性，便于更好地完成識別工作，如圖4所示。

1.3 SVM分類器及非極大值抑制

1.3.1 SVM分類器訓練

支持向量機（Support Vector Machine，SVM）是Corinna Cortes & Vapnik等[9]于1995年首先提出的，對于小樣本、非線性及高維樣本問題表現(xiàn)出許多特有優(yōu)勢。

SVM本身是一個線性分類器，最開始解決的是線性可分問題，然后拓展到非線性可分問題，甚至擴展到非線性函數(shù)中。解決線性不可分，主要方法是利用非線性映射，將低維空間內(nèi)不可分的樣本映射成高緯空間線性可分樣本。然后如線性可分一般，計算一個超平面將樣本分成兩類，使兩邊分類的點盡可能遠離超平面，也就是保證虛線部分的點盡可能遠離即可，這些虛線上的點即為支撐向量。遠離超平面距離的概念有很多種，在SVM中主要使用幾何距離。幾何距離見式（10），即使SVM問題轉(zhuǎn)換成一定約束情況下式（11）中|W|最小[10]。

從Scene-15數(shù)據(jù)集選取1000張場景圖片進行128×128的歸一化操作作為初始負樣本，從加州理工學院256類圖像數(shù)據(jù)庫（“The Caltech-256 object category dataset”）中提取200張作為初始正樣本，分別對其進行HOG特征提取后導入SVM分類器進行訓練，見圖5。

1.3.2 非極大值抑制

非極大值抑制[11]（Non-Maximum Suppression，NMS）是指對非最大值元素進行抑制，即搜索鄰域極大值。鄰域有維數(shù)和大小兩個參數(shù)，在目標檢測中用于提取分數(shù)最高的窗口[12]。經(jīng)分類器分類后，每個窗口會有一個分數(shù)（score）?；瑒哟翱跁е潞芏啻翱诮徊婊虬?，這時用NMS選取鄰域里分數(shù)最高的（目標手表的概率最大）窗口，抑制那些分數(shù)低的窗口，如圖6所示。本系統(tǒng)分數(shù)大于0.8即認為識別出手表。

2 MFCC語音識別模型

2.1 聲音特征提取

聲音特征提取步驟：①獲取數(shù)據(jù)集中分好類的語音文件（wav）列表;②對文件列表進行隨機化;③取一定數(shù)量（batch_size）的語音文件作為一個批次（batch）;④提取一個批次語音文件的梅爾倒譜（MFCC，Mel-Frequency Cepstral Coefficients）特征并進行歸一化處理;⑤根據(jù)文件名得到語音文件的類標。

MFCC梅爾倒譜系數(shù)是語音識別中最為常用的特征，步驟如下：①獲得語譜圖便于進行頻率分析;②將聲音信號輸入梅爾濾波器組;③取對數(shù)。人聲系統(tǒng)信號由基調(diào)信息與聲道信息卷積而成。在語譜圖FFT變換后，卷積變成了乘法，即[FFT（s）×FFT（v）]。取對數(shù)后，乘法變成了加法，即[log（FFT（s））+log（FFT（v））]，把卷積信號轉(zhuǎn)換成加法信號[13];④DCT（離散余弦變換）又稱為“倒譜域”，倒譜域的低頻部分描繪了聲道信息，高頻部分描繪了基調(diào)信息。選擇DCT代替FFT，是因為DCT變換之后的值仍為實數(shù)，會更加方便[14]。

2.2 基于Tensorflow的神經(jīng)網(wǎng)絡構建

在Tensorflow中，運用已經(jīng)搭好的神經(jīng)網(wǎng)絡進行訓練。LSTM（Long Short-Term Memory，長短期記憶網(wǎng)絡）作為一種時間遞歸神經(jīng)網(wǎng)絡，適合處理和預測時間序列中間隔和延遲相對較長的重要事件[15]，見圖7。

LSTM和卷積神經(jīng)網(wǎng)絡（RNN）之間的區(qū)別在于算法中添加了“處理器”用于判斷信息有用與否，該處理器作用的結(jié)構稱為“判斷神經(jīng)元”[16]。

一個判斷神經(jīng)元存在三扇門，分別稱其為輸入門、遺忘門和輸出門。消息進入LSTM網(wǎng)絡，可根據(jù)規(guī)則判斷，留下符合算法認證的信息，不符的信息通過遺忘門被遺忘[17]。

2.3 Tensorflow訓練模型

根據(jù)反饋給機器的對錯（Yes or No）關鍵字信息判斷識別的圖像是正樣本還是負樣本。

2.3.1 No的情況

（1）如果圖像中有手表出現(xiàn)，但系統(tǒng)沒有識別出來，便將該圖像添加入正樣本數(shù)據(jù)集，提取HOG特征后重新進行圖像識別模型訓練。

（2）如果圖像中并無手表，系統(tǒng)錯判物體為手表，便將該圖像添加入負樣本數(shù)據(jù)集，提取HOG特征后，重新進行圖像識別模型訓練。

2.3.2 Yes的情況

系統(tǒng)識別正確，用戶反饋正確信息。

該系統(tǒng)利用TensorFlow和AIY團隊創(chuàng)建的語音命令數(shù)據(jù)集。成千上萬的用戶在AIY網(wǎng)站上傳了包含30個詞的65 000條語音數(shù)據(jù)，每條數(shù)據(jù)長度為1s。數(shù)據(jù)集為應用程序構建基本可用的語音樣本，包含“yes”、“no”等常用單詞[18]。導入Tensorflow的LSTM網(wǎng)絡訓練，設置為16個epoches，在訓練到18000步時，閾值收斂情況如圖8所示，圖中縱坐標即表示此時收斂的閾值，閾值越接近0代表此時分類效果越好[19]。

根據(jù)劃分的測試集進行標簽判斷，得到語音信息識別率分別為Yes（0.903 73）、No（0.931 09），均達到90%以上，且識別到的樣本置信平均分數(shù)為Yes（score=0.814 77）、No（score=0.841 39），信息識別準確率達到80%以上即認為識別到語音信息。

3 改進模型的自優(yōu)化識別系統(tǒng)

3.1 系統(tǒng)方案

基于改進HOG+SVM與MFCC語音分類模型的自優(yōu)化識別系統(tǒng)主要由模型訓練模塊、圖像識別模塊以及語音識別系統(tǒng)模塊3大部分組成，通過用戶界面進行關聯(lián)[20]，系統(tǒng)結(jié)構如圖9所示。

3.2 系統(tǒng)流程

系統(tǒng)流程見圖10。

3.3 系統(tǒng)測試與結(jié)果分析

3.3.1 分類器實驗

實驗選用圖像來源于ImageNet手表集圖像素材。初始情況下，選用加州理工學院256類圖像數(shù)據(jù)庫（“The Caltech-256 object category dataset”）中的200張手表圖片作為初始正樣本，從Scene-15數(shù)據(jù)集中選取1000張場景圖片作為負樣本。將本文方法與其它方法進行比較，如表1所示。

從表1可以看出，在同等條件實驗中，3種分類器識別率相當。雖然初始識別率SVM并不是最佳的，但對于一個自由化系統(tǒng)，識別率會根據(jù)人機交互信息的不斷增多，其智能性也越來越高，所以每次優(yōu)化時的訓練時間十分重要。而從訓練時間看，SVM的訓練時間明顯優(yōu)于其它兩種方法[21]。綜合考慮，利用SVM進行物體分類識別效率最高。

3.3.2 系統(tǒng)實驗

系統(tǒng)自由化性能測試，同樣從ImageNet圖像素材中選取3組數(shù)據(jù)，每一組10幅圖像，分別為5個包含手表的圖像和5個不含手表的圖像，識別結(jié)果見表2。

從表2可以看出，系統(tǒng)的自優(yōu)化性不斷增強。在第一組數(shù)據(jù)中加入帶有圓形物體的高干擾項，導致負樣本識別錯誤，而添加負樣本特征的分類器重新訓練后，可以看到高干擾項得到了明顯辨識。同時，由于正樣本數(shù)量的不斷增加，對手表圖像的識別率也在不斷提高。

圖11（a）是初始對某圖像的識別結(jié)果，圖11（b）是優(yōu)化一段時間后再次對該圖像識別結(jié)果

圖11反映了系統(tǒng)運行過程。圖11（a）表示導入一張圖像后的識別結(jié)果，可以看出此時的置信分數(shù)并未達到0.8。添加正樣本特征優(yōu)化模型經(jīng)過一段時間優(yōu)化后，再次對同一幅圖像進行識別，可以看到已經(jīng)識別到了相應區(qū)域，區(qū)域的置信分數(shù)達到了0.858 1。

4 結(jié)語

本文提出一種改進的梯度直方圖（HOG）特征提取與支持向量機（SVM）進行物體識別，同時通過Tensorflow訓練MFCC特征語音識別模型，反饋人機交互信息進而使系統(tǒng)實現(xiàn)自優(yōu)化，對傳統(tǒng)機器學習方法與深度學習方法相結(jié)合進行探索，以對優(yōu)化空間金字塔模型進行深入研究。實驗表明，該系統(tǒng)具有良好的自優(yōu)化功能，提高了手表類別的自動識別能力。基于此實驗結(jié)論，預測該系統(tǒng)能不斷提升識別能力。但隨著正樣本增加，模型的復雜程度及大小也隨之增加，優(yōu)化時間也不斷延長，如何進一步簡化模型以及縮短優(yōu)化時間是下一步研究方向。

參考文獻：

[1] DALALAND N， TRIGGS B. Histograms of oriented gradients for human detection[C]. IEEE Conference on Computer Vision and Pattern Recognition，2005：886-893.

[2] YAMAUCH Y，MATSUSHIMA C，YAMASHITA T. Relational hog feature with wild-card for object detection[C]. IEEE International Conference on Computer Vision Workshops，2011，21（5）：1785-1792.

[3] RAFAEL C，GONZALEZ，RICHARD E WOODS. Digital image processing[M]. Third edition. New Jersey：Pearson Education，2008.

[4] XIE Y L. LDA and its application in face recognition[J]. Computer Engineering and Application，2010，46（19）：189-192.

[5] VYTAUTAS PERLIBAKAS. Measures for PCA-based face recognition[J]. Pattern Recognition Letters，2004，25（6）：711-724.

[6] YANG J，? LIU C. Horizontal and vertical 2DPCA-based discriminant analysis for face verification on a large-scale database[J]. IEEE Transactions on Information Forensics & Security，2007，2（4）：781-792.

[7] 何揚名，戴曙光. 提高霍夫變換識別圓形物體準確率的算法[J].微計算機信息，2009（10）：279-281.

[8] 胡正平，涂瀟蕾. 多方向上下文特征結(jié)合空間金字塔模型的場景分類[J].信號處理， 2011，27（10）：1536-1542.

[9] 齊敏，李大健，赫重陽. 模式識別導論[M]. 北京：清華大學出版社，2009：98-101.

[10] 鄒沖，蔡敦波，劉瑩. 組合SVM分類器在行人檢測中的研究[C].計算機科學，2017，44（S1）：188-191.

[11] NEUBECK A，GOOL L V. Efficient non-maximum suppression[C]. International Conference on Pattern Recognition.2006：850-855.

[12] 張強，張陳斌，陳宗海. 一種改進約束條件的簡化非極大值抑制[J].中國科學技術大學學報，2016（1）：6-11.

[13] TIWARI V. MFCC and its applications in speaker recognition[J]. International Journal on Emerging Technologies Issn，2010（3）521-527.

[14] 陳瑤瑤，郝建華，張子博. 基于DCT變換的端到端語音加密算法[J].電子測量技術， 2015（8）：140-143.

[15] 趙力. 語音信號處理[M]. 北京：機械工業(yè)出版社，2017：140-151.

[16] SUNDERMEYER M，SCHLüTER R，NEY INTERSPEECH H. LSTM neural networks for language Modeling[J]. INTERSPEECH，2012，31（43）：601-608.

[17] GERS FA，SCHMIDHUBER JA，CUMMINS FA. Learning to forget： continual prediction with LSTM[J]. Neural Computation，2014，12（10）：2451-2471.

[18] VARIANI E，BAGBY T，MCDERMOTT E. End-to-end training of acoustic models for large vocabulary continuous speech recognition with Tensorflow[J]. Interspeech，2017（6）：1641-1645.

[19] 黃文堅，唐源. Tensorflow實戰(zhàn)[M]. 北京：電子工業(yè)出版社，2017：101-103.

[20] 左德承，張展，董劍. 面向事務處理的容錯計算機系統(tǒng)結(jié)構設計與實現(xiàn)[J].高技術通訊，2008，18（2）：111-115.

[21] 曹貴寶. 隨機森林和卷積神經(jīng)網(wǎng)絡在神經(jīng)細胞圖像分割中的應用研究[J].山東大學學院，2014（1）：123-153.

（責任編輯：杜能鋼）

軟件導刊2019年3期

軟件導刊的其它文章: 高校學習管理系統(tǒng)選型研究; 基于MOOC的大學計算機基礎翻轉(zhuǎn)課堂實踐與探索; 新工科建設中地方普通高校過程化教育研究與實踐; “現(xiàn)代網(wǎng)絡通信工程設計”課程建設模式探索; 新工科背景下智慧課堂教學模式研究; 面向大數(shù)據(jù)專業(yè)的Java課程改革研究