楊建輝,黃子洋,汪 梅,符立梅,劉安強,李遠成,于振華,王 征,董立紅
(1.陜西陜煤曹家灘礦業(yè)有限公司, 陜西 榆林 719000;2. 西安科技大學 計算機科學與技術學院,陜西 西安 710054)
我國擁有著種類繁多的能源資源,煤炭能源在整個能源結構中居于頂端位置。伴隨著各種新能源的快速發(fā)展,煤炭的相對比重較之前有所降低,但其首要能源位置從未改變[1]。能源生產(chǎn)過程中的一個重要環(huán)節(jié)是煤流的帶式輸送,煤流中異物識別是不可或缺的重要任務[2]。
隨著智能化礦井建設的推進,煤流帶式輸送技術得到快速發(fā)展。煤流中的矸石、礦工帽或錨桿等異物需要被及時發(fā)現(xiàn)和清除,無人化的煤流異物識別具有重要的意義[3]。煤礦生產(chǎn)過程的各個環(huán)節(jié)安裝著各類高清監(jiān)控攝像頭,這為利用機器視覺完成煤流中的異物識別提供了可行的基礎,相關研究內(nèi)容主要包括煤流監(jiān)視的圖像分割、特征提取及識別模型的建立3個方面。在圖像分割方面,圖像的二值化是常用的分割方法,但是存在目標當作背景過濾、附著在矸石等異物的煤顆粒圖像無法分離等缺點。在特征提取方面,由于煤與各類異物的灰度直方圖峰值以及分布是不盡相同, 現(xiàn)已研究提出多種方法。在已有的相關研究成果中,支持向量機、各種改進的神經(jīng)網(wǎng)絡是目前最常見的分類器[4-5]?;跈C器視覺的煤矸石識別方面,研究人員利用煤與矸石的圖像數(shù)據(jù)提取特征,采用多種分類器進行煤矸石的識別[6]。針對模型的識別準確率,研究人員提出基于卷積神經(jīng)網(wǎng)絡的遷移學習,采用批歸一算法對網(wǎng)絡內(nèi)部進行歸一化處理,再利用DisturbLable算法對神經(jīng)網(wǎng)絡添加噪聲,將訓練的網(wǎng)絡應用與煤礦的異物識別,識別效果明顯提升[7]。此外,研究人員提出了基于視覺技術的煤巖界面特征分析與識別系統(tǒng),論述了系統(tǒng)的總體設計方案,對系統(tǒng)的可行性進行了驗證,并取得了較好的識別效果[8]。
在現(xiàn)有相關研究基礎上,提出一種基于機器視覺灰度化的雙路金字塔卷積模型用于煤流異物識別。在基于機器視覺權值訓練灰度化異物識別的煤流監(jiān)測方案中,煤流及轉載點的實時圖像為系統(tǒng)的輸入,經(jīng)過左右2個通路分別實現(xiàn)對標準圖像和差分圖像的特征提取融合,最后經(jīng)過卷積神經(jīng)網(wǎng)絡的全連接層和激活層實現(xiàn)煤流異物的識別。
煤流監(jiān)測系統(tǒng)的彩色圖像的每個像素點具有紅(R)、綠(G)、藍(L)三個通道的數(shù)據(jù),若一個像素點RGB三個通道的像素信息僅用單一通道數(shù)據(jù)表征,則這種像素點組成的圖像為灰度圖像,將彩色圖像轉換成灰度圖像的過程稱為灰度化處理[9]。目前,圖片灰度化處理的方法有許多,比較常用的方法是平均值法,最大值法和權值平均法等方法也是經(jīng)常用于灰度化處理的方法。權值平均法是根據(jù)人眼對顏色的不同的敏感度不同而得到的,其灰度公式如式(1)所示:
Gray = 0.114B+ 0.587G+ 0.299R
(1)
式中,R、G、B平均灰度化的權值分別為0.299、0.587和0.114。
權值平均法能夠獲得人視覺上相對合理的灰度化處理結果。但是在計算機視覺中,并不一定能夠保證對圖像的識別和人眼對色彩的敏感度一樣。如果在不同的任務,不同的圖像數(shù)據(jù)的情況下,能夠調(diào)整權值平均法的三通道權值達到本次任務的最佳權值,自然效果也能達到更好的效果。使用權值平均法所需要的各通道權值需要根據(jù)實際任務重新確定。
為解決上述問題,提出了一種計算機視覺理解下的權值修正灰度化方法。圖1是煤流監(jiān)測中的機器視覺權值訓練灰度化異物識別方案。主要思路為:設置R、G、B3個通道的權重為可修正權重,在神經(jīng)網(wǎng)絡訓練過程中,根據(jù)計算機視覺理解差異,使用梯度下降法隨著訓練過程不斷修正,最終獲取較優(yōu)的權重值作為權值平均灰度化方法中的權重值。提出的計算機視覺權值訓練灰度化公式如下:
Gray=W(B)×B+W(G)×G+W(R)×R
(2)
其中,W為通道權重值;圖像灰度化的像素值為其對應的R、G、B三個通道的像素值與對應的權值訓練過程中的權值的乘積之和,通過這種計算公式得到圖像的灰度值。
經(jīng)陜西陜煤曹家灘礦的煤流監(jiān)測圖像樣本訓練,結果表明在雙路金字塔卷積神經(jīng)網(wǎng)絡的煤流異物識別問題中,計算機視覺理解下的權值灰度化的R、G、B三個通道的權重值分別為:
圖1 煤流監(jiān)測中的機器視覺權值訓練灰度化異物識別方案 Fig.1 Unwanted object recognition scheme based on the machine vision weight training for coal flow monitoring
W(R) = 0.300 4
W(G) = 0.428 5
W(B) = 0.271 1
特別指出:提出的權值訓練灰度化權重值,由于實際目標的差異并不具有通用性,但提出的灰度化權值獲取方法,具有普遍適用意義。
由于礦井環(huán)境光照變化、物體遮擋等因素的影響,煤流監(jiān)測的圖像的光照往往會出現(xiàn)分布不均的現(xiàn)象。在獲取差分圖像的過程中,只依靠圖像差分技術難以去除這些光照差異,若不進行光照補償處理,光照差異會作為干擾而輸入差分圖像通路[10]。
為排除光照差異對模型識別精度的影響,借助Opencv工具[11],采用一種基于二維伽馬函數(shù)的自適應亮度校正方法,該方法利用圖像的光照分量的分布特性,實現(xiàn)對輸入差分圖像數(shù)據(jù)通路的灰度圖像進行光照補償處理。算法表達式如下[12]:
(3)
(4)
其中,O(x,y)為校正后的結果;F(x,y)為輸入圖像數(shù)據(jù);I(x,y)為光照分量;γ為指數(shù)。具體實現(xiàn)亮度增強的效果;m為光照分量的亮度均值。對原作者提出這種方法進行復現(xiàn)測試發(fā)現(xiàn)原文公式中γ的指數(shù)應該是m-I(x,y),而非原文中的I(x,y)-m,這里只作為一種方法使用,具體不進行闡述。
在煤流帶式輸送監(jiān)測系統(tǒng)中,被采集視頻的圖像中難免存在其他無關前景的物體,如移動的工作人員或其他設備等。這些無關前景而又被我們采集到的目標就成為了噪聲干擾數(shù)據(jù)。如果不對這些噪聲進行剔除,最終就會影響模型識別的準確性。
光流算法在計算機視覺領域,是用于運動目標檢測的重要方法。采用Lucas-Kanade光流算法,以井下實時監(jiān)測視頻圖像為對象,實現(xiàn)動態(tài)無關運動像素的監(jiān)測,為無關像素點剔除提供依據(jù)[13]。Lucas-Kanade光流算法的實現(xiàn)是基于如下假設:
1)環(huán)境亮度一定:連續(xù)兩幀圖像之間,目標物體的像素亮度相同。
2)空間一致性:相鄰的像素之間有相似的運動。
3)小運動:就是時間的變化不會引起位置的劇烈變化,這樣灰度才能對位置求偏導。這也是光流法不可或缺的假定。
由假設1與泰勒公式可知光流方程如下所示:
fxu+fyv+ft=0
(5)
(6)
(7)
式中,x、y為像素點所在的坐標位置;u、v為像素點在x與y方向上的速率;fx和fy為圖像的梯度;t為時間;ft為圖像沿著時間的梯度。
在使用光流法實現(xiàn)對無關運動物體的去除過程中,需要跟蹤相關像素點;以設置3×3的檢測窗為例,如圖2所示,檢測窗共獲取9個像素點[14]。
圖2 光流算法檢測窗示意Fig.2 Detection window schematic of the optical flow algorithm
根據(jù)假設2,近似認為檢測窗中的9個像素點具有相同的運動,則代入光流方程得到如下[15]:
(8)
式中,x、y為像素點所在的坐標位置;n為像素點數(shù)。
方程(8)為超定方程,通常利用最小二乘法解決超定問題,最小二乘擬合后獲得方程(9)[16]:
(9)
其中,i為像素點編號。Lucas-Kanade光流算法使用金字塔結構,將圖像由金字塔底層映射至高層,高層視圖中忽略較小的運動,而將較大的運動減小為較小的運動,以此實現(xiàn)對較大運動光流的計算[17-18]。
在井下環(huán)境中,無關的運動前景如行走的井下工作人員、移動的礦車等,具有運動速度快、運動方向明顯、運動像素在畫面中的持續(xù)時間較短、運動像素點呈現(xiàn)區(qū)域性分布的特點,其光流圖相較于異物光流具有明顯的差別。因此,使用獲取視頻,進行運動目標檢測,確定運動性無關目標的像素區(qū)域,實現(xiàn)對應圖像數(shù)據(jù)中運動性無關干擾的定向性去除這種方法是可行的。
構建的雙路金字塔卷積神經(jīng)網(wǎng)絡架構由標準圖像通路和差分圖像通路組成。標準圖像通路的輸入數(shù)據(jù)為煤流輸送帶監(jiān)測系統(tǒng)的原始圖像。差分圖像通路的輸入數(shù)據(jù)為原始圖像經(jīng)過灰度化、光照補償和無關前景提出后的圖像[19-20]。
差分圖像數(shù)據(jù)通路的輸入數(shù)據(jù)在經(jīng)過圖像數(shù)據(jù)增強的原始圖像數(shù)據(jù)基礎上,對圖像做差分處理、光照補償處理和無關前景剔除處理,獲取的處理結果作為差分圖像數(shù)據(jù)通路的輸入。
差分圖像是指在連續(xù)的時間上,下一個時刻的一幀圖像去減去上一個時刻的一幀圖像所得到的圖像,主要發(fā)現(xiàn)連續(xù)時間段的空間變化。通過差分圖像獲取煤流帶式輸送環(huán)境隨時間的變化。差分圖像的獲取如下所示。
Δxk=xk-xs
(10)
式中,xk為當前圖像數(shù)據(jù);xs為基準場景圖像數(shù)據(jù);Δxk為獲取的廣義的差分圖像。
差分圖像是當前圖像與基準場景圖像的差分。基準場景圖像的選取直接影響差分圖像數(shù)據(jù)的通路,因此基準場景圖像的選取需要盡可能合理。本文面向煤流帶式輸送監(jiān)測系統(tǒng)中異物識別問題,適用的基準場景選取標準為:①選取正常無異物圖像為基準場景圖像;②基準場景畫面無重影;③基準場景光照均勻,無明顯光斑,無明顯明暗差別;④基準場景中無干擾的無關物體。
基準圖像在符合選取標準的前提下定期刷新。這里基準場景的選取標準相對較為苛刻,但是由于應用場景的基準變換是不會過于頻繁,同時短時間的場景變化是不會很大的。所以基準的場景選取標準是可以接受的。
金字塔網(wǎng)絡能夠在小目標的實時識別過程中兼顧目標的運行速度問題。它先進行傳統(tǒng)的自上而下的特征卷積,然后融合相鄰的特征圖。一方面是自上而下的特征卷積,另一方面是自下而上的特征卷積,兩方面平行連接。因此,它能夠很好地提取目標的本質物理特征及其位置特征。特征金字塔網(wǎng)絡的卷積過程中,低層有著較為豐富的位置信息而高層則恰恰相反。高層有著底層缺少的本質物理特征而相對缺少位置特征等。這種頂層特征和底層特征的融合,能夠實現(xiàn)目標的多尺度特征提取[21]。在經(jīng)典金字塔網(wǎng)絡的基礎上,構建雙路金字塔網(wǎng)絡,如圖3所示,分別對原始標準RGB圖像和差分圖像進行特征提取。
圖3 雙路金字塔網(wǎng)絡的特征提取Fig.3 Feature extraction using the double-channel pyramid network
為提高煤流輸送帶異物識別,以金字塔網(wǎng)絡提取的被識別目標的特征為輸入信號,利用卷積神經(jīng)網(wǎng)絡實現(xiàn)對金字塔網(wǎng)絡所提取的被識別目標特征的識別。卷積神經(jīng)網(wǎng)絡對淺層的特征分辨度高,可以識別出圖像特征的細節(jié),但是對圖像特征的趨勢特征的分辨度有待提高。如果加大模型的深度,能夠提升圖像的趨勢特征,但是增加網(wǎng)絡的深度又很難捕捉到圖像的細節(jié)特征,這將造成目標細節(jié)把握不到位,導致模型的識別準確率降低[22]。
構造圖4所示的雙路卷積識別模型,分別對原始標準RGB圖像和差分圖像的特征進行分類。模型訓練總參數(shù)為67 703個。模型的輸入層輸入批處理后的48×48的圖像。輸入的圖像數(shù)據(jù)分為2個通道,第一個通道為采集的原始圖像,經(jīng)過正常的卷積池化等操作進行提取特征。第二通道使用進行了光照補償?shù)忍幚聿僮鞯膱D像數(shù)據(jù)集批次送入網(wǎng)絡進行訓練。網(wǎng)絡模型中插入了2個改進的金字塔特征提取網(wǎng)絡進行數(shù)據(jù)的特征提取。網(wǎng)絡中使用了4個深度卷積網(wǎng)絡。網(wǎng)絡的前兩個卷積層和最后一個卷積層使用4個3×3的卷積核進行卷積操作。深度可分離卷積層使用16、32、64、128個3×3 卷積核進行卷積操作。最大池化層采樣窗口大小為3×3。Softmax 層對全局平均池化層輸出的特征進行分類,將識別目標定為煤、矸石、安全帽、錨桿4種類別。其中引入的金字塔特征提取網(wǎng)絡模型如圖5所示,s為學習算法的步長。
圖4 雙路卷積神經(jīng)網(wǎng)絡識別模型結構 Fig.4 Structure of the constructed double-channel convolution recognition network
機器視覺灰度化雙路金字塔模型的煤流異物識別系統(tǒng)軟件采用Python3.7。訓練樣本和測試樣本來自陜西陜煤曹家灘煤礦的帶式輸送監(jiān)測系統(tǒng)實時監(jiān)測圖像和網(wǎng)絡的煤與矸石圖像。
1)差分通路的圖像預處理測試。根據(jù)基準場景圖像與實時井下環(huán)境圖像獲取的差分圖像,實現(xiàn)了無關背景像素點的剔除;光照補償處理對目標所受到的圖像光照進行均勻化操作從而降低無關干擾;光流算法實現(xiàn)了動態(tài)無關像素點的識別和定向剔除。差分圖像通過光照補償和光流法去除無關前景像素的處理結果,即為識別模型的差分通路輸入數(shù)據(jù)。圖6為識別模型差分通路的圖像預處理過程。
2)數(shù)據(jù)集的構成和識別模型訓練。選取煤和矸石等異物的圖片集作為訓練集,訓練識別模型。
圖5 金字塔網(wǎng)絡的圖像特征融合模型Fig.5 Image feature fusion model of pyramid network
圖6 識別模型差分通路的圖像預處理過程 Fig.6 Image preprocessing process for the difference channel of the recognition model
其中模型的數(shù)據(jù)構成見表1。因為數(shù)據(jù)集的數(shù)量相對較少,所以在原始數(shù)據(jù)集的基礎上通過旋轉,拉伸,裁剪,添加噪聲等數(shù)據(jù)增強方法對數(shù)據(jù)集進行擴充。將數(shù)據(jù)中70%的樣本作為訓練集,30%的數(shù)據(jù)作為測試集,數(shù)據(jù)的訓練集和測試集構成見表1。
表1 數(shù)據(jù)的訓練集和測試集構成
訓練過程中模型損失函數(shù)收斂曲線如圖7所示,模型準確度曲線如圖8所示。其中三角線標注的訓練損失曲線是傳統(tǒng)單路卷積網(wǎng)絡的損失曲線。圓圈標注的損失曲線是提出的雙路多尺度特征提取網(wǎng)絡的訓練損失曲線。同樣地,在圖8中的模型準確度曲線,該模型的準確度也和傳統(tǒng)模型的識別精度進行了對比。
圖7 模型損失函數(shù)收斂曲線 Fig.7 Model loss curve
圖8 模型準確度Fig.8 Model accuracy
3)識別模型測試。圖9為煤流輸送帶的異物監(jiān)測結果。圖10為提出的權值訓練灰度化方法訓練的識別模型和傳統(tǒng)的圖像固定權值灰度化訓像灰度化權值自適應調(diào)整方法對模型識別精度有一定的提升。圖11是煤與矸石的識別結果。
測試結果表明,經(jīng)典卷積網(wǎng)絡模型識別精度提高了93.6%,基于權值訓練的機器視覺灰度化雙路金字塔卷積網(wǎng)絡模型對輸送帶運輸?shù)漠愇镒R別準確練模型的測試結果對比。從結果可以得出圖像灰度化的權值經(jīng)過自適應調(diào)整后,相對于傳統(tǒng)圖像灰度化固定權值,模型的識別精度提升了5.2%,說明圖率為95.7%。和其他識別分類模型在相同的數(shù)據(jù)集上進行測試比較,平均識別準確度結果如下:CNN82.6%,VGG1692.4%,改進的LeNet-587.8%,InceptionV393.6%,本文模型95.7%。
圖9 煤流輸送帶的異物監(jiān)測和識別結果Fig. 9 Unwanted object monitoring and recognition results of a coal flow conveyor belt
圖10 權值訓練灰度化測試結果Fig.10 Weight training grayscale test results
圖11 煤與矸石的識別測試結果Fig.11 Recognition test results between coals and gangues
1)提出了一種圖像權值自適應調(diào)整的煤流圖像的灰度權值自適應調(diào)整方法。相較于傳統(tǒng)的固定權值圖像灰度化方法,權值自適應能夠更好地針對不同環(huán)境不同任務去調(diào)整灰度權值適應當前狀態(tài),在異物識別中有著更加優(yōu)秀的表現(xiàn)。
2)搭建了一種多尺度特征雙路金字塔卷積模型用于煤流異物識別。引入了光照補償?shù)阮A處理操作,對原始無關的噪聲去除從而提升識別準確率。利用多尺度金字塔特征提取網(wǎng)絡對目標特征進行多尺度提取,通過將原始圖像通路和差分圖像通路融合,實現(xiàn)煤流運輸中異物的準確檢測和識別。
3)通過對陜煤曹家灘煤礦煤流的輸送帶監(jiān)測圖像測試,結果表明提出的識別模型對送帶運輸異物識別準確率為95.7%,比經(jīng)典卷積網(wǎng)絡模型識別精度有所提高。下一步工作將對光照不均勻情況下的訓練權值灰度化方法進行研究。