李軍鋒 何雙伯 馮偉夏 熊山 薛江 周青云
摘 要: 研究了增強現實變壓器圖像識別技術,為解決增強現實中變壓器圖像識別問題,首先在介紹深度學習的經典模型之一,即卷積神經網絡CNN的基礎上,提出基于兩個并行結構的改進卷積神經網絡模型(改進CNN),利用改進CNN模型對增強現實攝像頭掃描得到的圖像進行分類,實現變壓器圖形化識別。與普通卷積神經網絡、SIFT圖像識別算法等對比,改進CNN具有更低的錯誤率,并對變壓器圖像識別的準確率更高,通過仿真實驗驗證了此方法的準確性。
關鍵詞: 增強現實; 改進CNN; 變壓器; 圖像識別; 識別準確度; 卷積運算
中圖分類號: TN911.73?34 文獻標識碼: A 文章編號: 1004?373X(2018)07?0029?04
Improved CNN based transformer image recognition technology
in augmented reality environment
LI Junfeng1, 2, HE Shuangbai2, FENG Weixia2, XIONG Shan2, XUE Jiang2, ZHOU Qingyun2
(1. College of Automation, Guangdong University of Technology, Guangzhou 510006, China;
2. Education and Training Evaluation Center, Guangdong Power Grid Limited Liability Company, Guangzhou 510520, China)
Abstract: The image recognition technology of transformer in augmented reality environment is studied. In order to solve the problem of transformer image recognition in augmented reality environment, an improved convolutional neural network (CNN) model based on two parallel structures is proposed on the basis of introduction of CNN as one of the typical deep learning models. The images obtained by scanning of an augmented reality camera are classified by means of the improved CNN to realize the transformer graphical recognition. In comparison with ordinary CNN and SIFT image recognition algorithm, the improved CNN has lower error rate, and higher accuracy for transformer image recognition. The accuracy of this method was verified with simulation experiments.
Keywords: augmented reality; improved CNN; transformer; image recognition; recognition accuracy; convolution operation
0 引 言
增強現實(Augmented Reality,AR)作為虛擬現實技術的拓展,在近年來取得了很大的進展,通過將虛擬對象疊加到現實環(huán)境中增強對事物的認知,將現實中沒有的物體具體化[1]。在電氣工業(yè)中,增強現實技術的應用也日漸開展,利用增強現實技術實現事故模擬等現實中不宜直接試驗的運行狀況。增強現實中重要的一步是圖像識別,在增強現實變壓器事故模擬中,通過增強現實攝像頭的掃描功能獲取現實物體的圖片,之后通過圖像識別技術識別出目標對象變壓器,然后才能在目標對象上建立變壓器著火的虛擬景象,增加對變壓器事故的認知。文獻[2?3]研究了增強現實在教育、移動學習中的應用,其相應技術可以延伸到電氣領域的作業(yè)工作輔助中,具有一定借鑒意義。
本文在研究卷積神經網絡的基礎上,將其應用于增強現實變壓器圖像識別,提出基于兩個拓撲結構的改進CNN模型,通過增強現實攝像頭掃描得到變壓器的圖像,將其進行分類,解決變壓器圖形化識別問題。
1 卷積神經網絡及改進CNN模型
1.1 卷積神經網絡結構
卷積神經網絡是神經科學與計算機科學相結合的成果,其設計靈感主要來源于視覺認知機制[4?5]。受視覺神經感受野的啟發(fā),卷積神經網絡的神經元之間通過稀疏連接的方式進行連接,具有較多的隱含層,每一個隱含層有多個數據矩陣平面,每個數據矩陣平面的神經元共享權值參數矩陣。相比于傳統(tǒng)的BP神經網絡,卷積神經網絡的隱含層增加了卷積層與降采樣層,保證在提取特征的同時保持時間和空間上的位移不變性,文獻[6]設計的LeNet網絡模型在手寫字識別上取得了十分優(yōu)秀的效果。
卷積神經網絡的基本結構一般包括輸入層、隱含層、輸出層,隱含層一般包括卷積層(C層)、降采樣層(S層)與全連接層(F層),其典型結構如圖1所示,卷積神經網絡的輸入層與隱含層連接,隱含層由卷積層和降采樣層交替連接組成,卷積層從輸入層獲取歸一化后的矩陣之后進行卷積運算處理,然后通過稀疏連接與降采樣層相連,上一層的輸出作為本層的輸入,最后通過全連接層連接到輸出層。卷積神經網絡通過卷積層進行特征提取,通過降采樣降低運算量,從而使網絡結構對樣本矩陣具有比較高的畸變容忍能力,更準確地實現對數據的分級表達,進而得到更加理想的輸出。
輸入樣本數據一般為矩陣形式,即每個樣本為一個二維矩陣,對二維矩陣進行歸一化處理,歸一化采用常用的線性函數歸一化(Max?Min scaling)方法,其處理公式為:
式中:[Xij]為歸一化后矩陣的第[i]行第[j]列的元素;[xij]為歸一化前矩陣的第[i]行第[j]列的元素;[xmax]為矩陣中最大的元素;[xmin]為矩陣中最小的元素。
卷積神經網絡中卷積層的主要作用是在提取數據局部特征的同時降低矩陣維度,一個隱含層一般由幾個平面構成,每個平面的表達形式為二維特征矩陣,代表一種提取特征,通過一個共享卷積核實現特征提取。通過卷積核的共享使得網絡具有權值共享和位移不變性,在并行地提取矩陣特征的同時減少了權值偏置參數的數量,從而對數據矩陣起到降低維度和提取特征的作用。不同特征矩陣對應的卷積核不同,多個特征矩陣用于提取輸入數據矩陣中的多個非顯性特征。離散卷積運算的計算公式為:
卷積運算的原理如圖2所示,輸入的特征矩陣維度為[n×n,]將其與維度為[k×k]的可學習卷積核進行卷積計算,得到維度為[m×m]的輸出特征矩陣,輸入矩陣、卷積核與輸出矩陣三者之間的維度關系滿足[m=n-k+1,]式(3)為卷積過程的計算公式:
式中:[l]表示卷積神經網絡的層數;[K]表示[l]層的卷積核;[B]表示[l]層的偏置矩陣;[Xlo]表示[l]層輸出;[Xl-1i]表示[l]層輸入。
卷積神經網絡的另一個重要的隱含層便是降采樣層,降采樣層可以對來自上一層的數據進行池化處理以達到數據降維的目的,通過縮放映射過程來降低輸入矩陣的維度,從而在保持特征的同時減少計算量。
降采樣的過程如圖3所示,矩陣的維度值關系可以表示為[m=nk。]降采樣層通常采取平均池化的降采樣方法[7],在防止過擬合的同時可以縮放不變地提取輸入數據矩陣的特征,在卷積神經網絡中起到二次特征提取和降低數據維度的作用,降采樣過程的計算公式如下:
1.2 改進CNN模型
與傳統(tǒng)的神經網絡等方法相比,卷積神經網絡在增強現實變壓器圖像識別上已經具有很好的優(yōu)勢,但是在訓練次數剛達到對應錯誤率最低值時,測試結果存在一定的波動。本文在卷積神經網絡的基礎上提出包含兩個拓撲結構的改進CNN模型,通過將兩種不同的拓撲結構組合,提高了測試結果的穩(wěn)定性,從而使模型在較少的訓練次數下滿足錯誤率要求。改進CNN模型如圖4所示,圖中改進模型由2個卷積層CNN拓撲構成,其中一個拓撲的結構為5C?4S?4C?2S;另一個拓撲的結構為5C?2S?5C?3S。其中5C表示卷積層的卷積核為5×5,4S表示降采樣層的池化矩陣維度為4×4,將兩個拓撲分別經過兩個不同的卷積和池化過程之后,最后連接到分類器,通過不同的拓撲可以增加變壓器圖片特征信息的提取,這樣可以將兩個拓撲提取的特征進行優(yōu)勢互補,兼顧更加復雜的樣本數據,從而使訓練的網絡更加穩(wěn)定,增強網絡的學習泛化能力。
通過訓練樣本對改進CNN進行訓練之后,得到并保存訓練好的改進CNN網絡參數,將圖像樣本輸入后,通過調用訓練好的網絡參數即可得到對應的變壓器分類結果,無需再次訓練,極大地節(jié)省了運算時間。
2 仿真實驗與分析
在得到變壓器圖像識別樣本庫之后,便可以對卷積神經網絡、改進CNN模型進行實驗測試,實驗所采用的平臺參數如表1所示。
第一種方法采用本文所提出的改進CNN模型,第二種方法采用網絡結構為5C?4S?4C?2S的卷積神經網絡(CNN1),第三種方法采用網絡結構為5C?2S?5C?3S的卷積神經網絡(CNN2),第四種方法采用文獻[9]所提傳統(tǒng)的SIFT(Scale Invariant Feature Transform)圖像識別方法。用上述四種方法對變壓器圖像樣本庫進行實驗,實驗結果如表2所示。其中,識別錯誤率是針對測試樣本中30張變壓器圖像,識別錯誤的圖像數占總圖像數的百分比;平均耗時是識別測試樣本庫中30張變壓器圖像平均每張圖像所消耗的時間。
由表2可知,本文所提的改進CNN模型對變壓器圖像識別錯誤率明顯低于普通卷積神經網絡和傳統(tǒng)的SITF圖像識別算法,具有更高的圖像識別率;雖然改進CNN平均耗時略微高于普通卷積神經網絡,但是差距微小,在電力工程中可以忽略,每張圖像的平均耗時明顯少于傳統(tǒng)SITF算法,相比之下改進CNN具有很大的優(yōu)勢。
對前三種方法進行50次訓練,訓練次數與變壓器圖像識別錯誤率的關系如圖5所示,由圖5可知,改進CNN模型的圖像識別錯誤率明顯低于CNN1和CNN2模型的錯誤率。當訓練次數為18次時,改進CNN的錯誤率降為0,CNN1在訓練24次時錯誤率降為0,CNN2在訓練21次時錯誤率降為0,但是CNN1和CNN2模型在錯誤率初次降為0后隨著訓練次數的增加還存在一定的波動,而改進CNN則不存在這樣的問題,在錯誤率降為0后便穩(wěn)定的維持在0左右,由此可見,本文的改進CNN在更少的訓練次數下即可達到圖像識別錯誤率的最小值,而且識別穩(wěn)定,具有圖像識別率高、更穩(wěn)定的優(yōu)點。
4 結 論
本文提出了基于兩個CNN拓撲結構的改進CNN模型,研究了基于改進CNN的增強現實變壓器圖像識別技術,通過實驗研究得出以下結論:
1) 本文所提改進CNN模型可以準確地對增強現實變壓器圖像進行識別,針對文中樣本庫,訓練次數達到18次時識別率可達100%,具有很好的識別效果;
2) 本文所提改進CNN模型在相同的訓練次數下圖像識別錯誤率低于卷積神經網絡算法,圖像識別率更高、更穩(wěn)定,比傳統(tǒng)的SIFT算法具有更高的圖像識別準確率,消耗時間更短,性能更優(yōu)越。
參考文獻
[1] 陸平.移動增強現實中的圖像處理關鍵技術研究及應用[D].南京:東南大學,2015.
LU Ping. Research on key technology of image processing in mobile augmented reality and its application [D]. Nanjing: Southeast University, 2015.
[2] 蔡蘇,王沛文,楊陽,等.增強現實(AR)技術的教育應用綜述[J].遠程教育雜志,2016(5):27?40.
CAI Su, WANG Peiwen, YANG Yang, et al. Review on augmented reality in education [J]. China remote education magazine, 2016(5): 27?40.
[3] 李青,張遼東.基于增強現實的移動學習實證研究[J].中國電化教育,2013(1):116?120.
LI Qing, ZHANG Liaodong. Empirical study of mobile lear?ning based on augmented reality [J]. China electrochemical education, 2013(1): 116?120.
[4] RASCHMAN E, DURACKOVA D. New digital architecture of CNN for pattern recognition [C]// International Conference Mixed Design of Integrated Circuits and Systems. [S.l.]: IEEE, 2009: 662?666.
[5] MU Nan, XU Xin, ZHANG Xiaolong, et al. Salient object detection using a covariance?based CNN model in low?contrast images [J]. Neural computing and applications, 2017(2): 1?12.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[7] 徐姍姍.卷積神經網絡的研究與應用[D].南京:南京林業(yè)大學,2013.
XU Shanshan. Research and application of the convolution neural network [D]. Nanjing: Nanjing Agricultural University, 2013.
[8] 陳先昌.基于卷積神經網絡的深度學習算法與應用研究[D].杭州:浙江工商大學,2014.
CHEN Xianchang. Research on algorithm and application of deep learning based on convolutional neural network [D]. Hangzhou: Zhejiang Gongshang University, 2014.
[9] 白廷柱,侯喜報.基于SIFT算子的圖像匹配算法研究[J].北京理工大學學報,2013(6):622?627.
BAI Tingzhu, HOU Xibao. Research on image matching algorithm based on SIFT operator [J]. Journal of Beijing Institute of Technology, 2013(6): 622?627.
[10] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large?scale image recognition [C]// Proceedings of ICCV. [S.l.]: IEEE, 2015: 1?14.