李 爽,李柏林
(西南交通大學(xué)機(jī)械工程學(xué)院,成都 610031)
軌道設(shè)施的正常工作是保障鐵路運(yùn)營安全的重要條件。傳統(tǒng)的軌道檢測依靠人工巡檢,缺乏可靠性和實時性,難以滿足鐵路高速發(fā)展的形勢下對軌道檢測提出的新需求。近年來,在車載軌道巡檢系統(tǒng)方面的研究取得了豐碩的成果[1-3],但鐵路扣件的檢測問題一直未能得到很好解決??奂氖Ш苡锌赡芤l(fā)列車脫軌等嚴(yán)重事故,已經(jīng)引起了鐵路部門的高度重視。計算機(jī)視覺技術(shù)的發(fā)展為實現(xiàn)鐵路扣件的自動檢測提供了良好的技術(shù)條件[4-6]。
“視覺詞包模型”(Bag of Words, BOW)方法是目前應(yīng)用最廣泛的一種圖像表示方法。該方法首先利用無監(jiān)督聚類算法(如K-means算法)對圖像的底層特征(如SIFT特征)進(jìn)行聚類生成視覺詞典,每個聚類中心代表一個視覺單詞,然后將圖像的各個底層特征向量映射至與其歐氏距離最近的視覺單詞上,生成用來表示圖像內(nèi)容的圖像-單詞詞頻矩陣,最后,結(jié)合機(jī)器學(xué)習(xí)方法對圖像進(jìn)行分類。在“視覺詞包模型”的基礎(chǔ)上,文獻(xiàn)[7]采用了一種柔性分配(Soft Assignment, SA)的方法來構(gòu)建圖像-單詞詞頻矩陣,一個特征向量被分配至多個視覺單詞上,每個視覺單詞的權(quán)重大小與其和特征向量的歐氏距離有關(guān)。文獻(xiàn)[8]則將柔性分配方法與潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)模型相結(jié)合,提出了一種柔性分配的LDA模型。以上基于“視覺詞包模型”的方法都很好地利用了圖像底層特征在特征空間中的位置關(guān)系,在將圖像量化為圖像-單詞詞頻矩陣時,將底層特征映射到與其歐氏距離最近的聚類中心(視覺單詞)。但是,它們在衡量視覺單詞間的語義相關(guān)性時都只考慮了視覺單詞在特征空間中的歐氏距離大小。由于度量空間的不同,使得特征空間中的歐氏距離與真實的語義距離之間存在一定偏差。此外,這類方法分配給每個底層特征的視覺單詞數(shù)量都是固定的,使得某些具有明確語義的底層特征被強(qiáng)制分配到多個視覺單詞上,引入了新的冗余信息。
綜上所述,為了更加準(zhǔn)確地衡量“視覺詞包模型”中視覺單詞間的語義相關(guān)性,且對不同語義類型的底層特征分配不同的單詞數(shù)目,本文提出了一種基于近義詞分配的扣件檢測模型。首先,結(jié)合LDA模型和相對熵共同挖掘視覺單詞間的語義相關(guān)性,然后,在語義空間和特征空間的共同約束下自適應(yīng)地選擇柔性分配的單詞數(shù)目,生成扣件圖像的詞頻矩陣表示,最后,利用SVM分類器實現(xiàn)扣件檢測。實驗結(jié)果表明,結(jié)合了近義詞分配方法的“視覺詞包模型”具有更高的分類性能。
在將底層特征向量映射為視覺單詞時,結(jié)合LDA模型和條件熵分析視覺單詞間的語義相關(guān)性,針對不同語義類型的底層特征自適應(yīng)地選擇單詞的分配數(shù)目,并在此基礎(chǔ)上提高扣件檢測的精度。本文的模型框架如圖1所示。其中,實線部分表示訓(xùn)練過程,虛線部分表示測試過程。
圖1 本文扣件檢測模型框架
傳統(tǒng)“視覺詞包模型”僅通過視覺單詞間的歐氏距離來衡量視覺單詞間的語義距離,不能準(zhǔn)確地詮釋視覺單詞間的語義相關(guān)性。而通過LDA模型可以獲得語義主題在某一視覺單詞上的條件概率分布,從而更準(zhǔn)確地表達(dá)單詞蘊(yùn)含的語義概念。下面首先介紹LDA模型,然后解釋本算法如何利用該模型挖掘視覺單詞間的語義相關(guān)性。
1.1.1 LDA模型
LDA模型[9]將一幅圖像看作一篇文檔,將文檔描述為主題的分布,而主題通過視覺單詞的分布來表述。LDA中一幅圖像的生成步驟如下。
(1)選擇θ~Dirichlet(α),其中θ是一個C×T的矩陣,行向量θi是第i幅圖像的主題分布向量;
(2)對于每個圖像塊xi,從多項式分布θ抽樣主題tk,tk~Multi(θ),以概率p(wm|tk,β)選擇一個視覺單詞wm,β是一個K×V的矩陣,其元素βi,j=p(wi=1|tj=1)表示視覺單詞wi和主題tj同時出現(xiàn)的概率;
(3)重復(fù)步驟(1)、(2),反復(fù)進(jìn)行圖像主題的選擇,通過主題產(chǎn)生對應(yīng)的單詞,直到生成一幅完整的圖像。
LDA模型的學(xué)習(xí)過程是其生成模型的逆過程,采用吉布斯采樣可求解出模型中參數(shù)的近似值,從而獲得每幅圖像的主題分布。式(1)給出各個視覺單詞所屬主題的全概率分布公式
(1)
1.1.2 基于相對熵的語義距離衡量
相對熵[10](relative entropy)能夠用來衡量兩個概率分布之間的相似程度。因此,在利用LDA模型得到主題z在單詞w下條件概率分布后,本文引入相對熵來度量視覺單詞wi和wj之間的語義距離,如式(2)所示
dis(wi,wj)=KL(p(z|wi)∥p(z|wj))=
(2)
然而,相對熵并不是一個對稱量,即dis(wi,wj)≠dis(wj,wi)。為此,將式(2)進(jìn)行改造,使其成為一個具有對稱性的度量,如式(3)所示
(3)
利用式(1)~式(3)便可以計算兩個視覺單詞的語義距離,獲取語義相關(guān)的近義詞,并在此基礎(chǔ)上結(jié)合柔性分配方法生成圖像-單詞詞頻矩陣,更有效地克服單詞的同義性和歧義性對分類性能的不利影響。
傳統(tǒng)“視覺詞包模型”的視覺單詞分配方法對每個局部特征分配的單詞數(shù)目都是相同的,并沒有考慮不同底層特征間的差異性,這樣的分配方法存在較大的量化誤差。比如,當(dāng)某一底層特征s與視覺單詞w1的距離較近,且與其他視覺單詞的距離均較遠(yuǎn)時,若將其強(qiáng)制分配到多個視覺單詞上,則會引入新的冗余信息;同理,當(dāng)s與多個視覺單詞的距離都很近時,則可能需要為其分配比預(yù)設(shè)數(shù)量更多的視覺單詞,才能充分表達(dá)其語義內(nèi)容。鑒于此,本文在由LDA模型和相對熵分析得到單詞的語義相關(guān)性后,針對不同語義類型的底層特征采用不同的單詞分配策略,自適應(yīng)地將其映射到一定數(shù)量的近義單詞上。算法的具體流程如下所示。
(3)分別計算si與m個單詞間的歐氏距離,按從小到大的順序?qū)卧~進(jìn)行排序,即x={x1,x2,…,xj,…,xn},其中xj表示與si相距第j近的視覺單詞。
直觀上,改進(jìn)后的單詞分配方法既包含了特征向量與單詞間的空間位置信息,即特征向量到視覺單詞的歐氏距離,又考慮了各個單詞間的語義相關(guān)性。比如,當(dāng)某一視覺單詞w1與特征向量s最鄰近的視覺單詞w2間的語義距離較小時,即使s在特征空間內(nèi)與w1的歐氏距離較大,語義近似約束依然使其劃分到w1;反之亦然。不難看出本文算法在一定程度上解決了單詞的同義和歧義問題,減小了特征向量與單詞映射時的量化誤差。
實驗樣本采用本文創(chuàng)建的樣本庫。從采集的扣件圖像中選取共800幅作為實驗數(shù)據(jù),其中正常、斷裂、丟失以及被遮擋的4類扣件圖像各200幅,均為120像素×180像素的灰度圖像。訓(xùn)練集為每種狀態(tài)的扣件圖像各100幅,共400幅圖像,余下的作為測試集。訓(xùn)練集與測試集的大小均為400。部分實驗樣本如圖2所示。分類器采用臺大林智仁教授的支持向量機(jī)庫[11](Library for Support Vector Machine, LIBSVM),其核函數(shù)為徑向基核函數(shù),實驗結(jié)果為10折交叉驗證(cross-validation)的平均值。實驗PC處理器為AMD Sempron X2 190 Processor 2.5 GHz,內(nèi)存4.0GB,在Matlab2014b環(huán)境下進(jìn)行實驗。扣件分類性能評價指標(biāo)為誤檢率和漏檢率,其定義如下
(4)
(5)
其中,丟失、斷裂、被遮擋的扣件均被視為失效扣件。檢測結(jié)果首先要求準(zhǔn)確判斷出失效扣件,降低漏檢;其次是降低誤檢,減少浪費(fèi)。
圖2 不同狀態(tài)的實驗樣本
(1)實驗1
為評估文中基于LDA模型的近義詞柔性分配方法在扣件語義表達(dá)上的性能,將其與傳統(tǒng)的柔性分配方法[12](SA)、傳統(tǒng)“視覺詞包模型”[13](BOW)相比較,分別選擇SIFT[14](Scale Invariant Feature Transform)和HOG[15](Histogram of Oriented Gradient)作為底層特征進(jìn)行扣件檢測。實驗參數(shù)設(shè)置均為優(yōu)化值,不在文中贅述。檢測結(jié)果如表1所示。
實驗1、2、3表明,在HOG特征下,相比于傳統(tǒng)“視覺詞包模型”和傳統(tǒng)的柔性分配方法,本文方法雖然由于模型復(fù)雜度提高,從而使檢測耗時在一定程度上增加,但漏檢率和誤檢率顯著降低。一方面,改進(jìn)了視覺單詞的分配方式,既考慮了特征向量到視覺單詞的歐氏距離,又考慮了視覺單詞之間的語義相關(guān)性,在一定程度上克服了單詞的同義和歧義問題;另一方面,考慮了不同底層特征間的差異性,針對不同語義類型的底層特征自適應(yīng)地選擇分配單詞的數(shù)目,進(jìn)一步降低了特征向量與單詞映射時的量化誤差。實驗4、5、6表明,在SIFT特征下,本文方法同樣能夠降低“視覺詞包模型”的漏檢率和誤檢率。
表1 不同語義方法的扣件檢測結(jié)果
(2)實驗2
通過將本文方法與文獻(xiàn)[16]中的主成分分析方法、文獻(xiàn)[17]中的方向場(directional field,DF)方法以及文獻(xiàn)[18]中的HOG+SVM方法這幾種主要的扣件檢測方法對比,以綜合評估本文方法的扣件檢測性能。文獻(xiàn)[16-18]中各方法的參數(shù)設(shè)置均與原文獻(xiàn)保持一致。各方法的檢測結(jié)果如表2所示。
表2 與現(xiàn)有檢測方法的比較
從表2可以看出,文獻(xiàn)[16]的主成分分析方法和文獻(xiàn)[18]的HOG+SVM方法雖然耗時比本文方法更短,但誤檢率和漏檢率均過高。文獻(xiàn)[17]的方向場方法雖對失效扣件檢測效果較好,但誤檢率過高,且耗時較長。綜合考慮可知,本文方法相比其他現(xiàn)有方法能更加有效地檢測扣件狀態(tài)。
通過引入LDA模型和相對熵挖掘視覺單詞之間的語義相關(guān)性,并根據(jù)不同語義類別的底層特征自適應(yīng)地選擇單詞分配數(shù)目,從而完成底層特征與若干近義單詞間的映射匹配。在4類扣件數(shù)據(jù)集上的實驗結(jié)果證明了本文模型在一定程度上減小了底層特征與視覺單詞之間的量化誤差,進(jìn)而提高了鐵路扣件的檢測精度。下一步的研究工作是如何更加有效地度量底層特征與視覺單詞間的語義距離,使其更加接近真實的語義距離。
[1] Marino F, Distante A, Mazzeo P L, et al. A real-time visual inspection system for railway maintenance: Automatic hexagonal-headed bolts detection[J]. Systems Man & Cybernetics Part C Applications & Reviews IEEE Transactions on, 2007,37(3):418-428.
[2] Singh M, Singh S, Jaiswal J, et al. Autonomous rail track inspection using vision based system[C]∥IEEE International Conference on Computational Intelligence for Homeland Security and Personal Safety. IEEE Xplore, 2006:56-59.
[3] Yella S, Dougherty M, Gupta N K. Fuzzy logic approach for automating visual condition monitoring of railway sleepers[C]∥Indian International Conference on Artificial Intelligence, 2007:941-956.
[4] Xia Yiqi, Xie Fengying, Jiang Zhiguo. Broken railway fastener detection based on adaboost algorithm[C]∥International Conference on Optoelectronics and Image Processing. IEEE Xplore, 2010:313-316.
[5] Li Ying, Otto C, Haas N, et al. Component-based track inspection using machine-vision technology[C]∥International Conference on Multimedia Retrieval, ICMR 2011, Trento, Italy, April. DBLP, 2011:60.
[6] 吳祿慎,萬超,陳華偉,等.一種改進(jìn)的十字交叉軌道扣件定位方法[J].鐵道標(biāo)準(zhǔn)設(shè)計,2016,60(12):49-53.
[7] Gemert J C V, Veenman C J, Smeulders A W M, et al. Visual Word Ambiguity[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2010,32(7):1271-1283.
[8] Weinshall D, Hanukaev D, Levi G. LDA topic model with soft assignment of descriptors to words[C]∥International Conference on Machine Learning, 2013:711-719.
[9] 狄仕磊,劉甲甲,羅建橋,等.基于潛在語義主題融合的鐵路扣件狀態(tài)檢測[J].傳感器與微系統(tǒng),2016,35(7):19-21.
[10] 賀曉霞,鮑學(xué)英,王起才.基于組合方法計算權(quán)重的綠色鐵路客站綜合評估[J].鐵道標(biāo)準(zhǔn)設(shè)計,2016(4):103-107.
[11] Chang Chih-chung, Lin Chih-jen. LIBSVM: A library for support vector machine[J]. ACM Transaction on Intelligent Systems and Technology, 2011,2(3):27.
[12] 趙永威,周苑,李弼程,等.基于近義詞自適應(yīng)軟分配和卡方模型的圖像目標(biāo)分類方法[J].電子學(xué)報,2016,44(9):2181-2188.
[13] 於敏,于鳳芹,陳瑩.超像素詞包模型與SVM分類的圖像標(biāo)注[J].傳感器與微系統(tǒng),2016,35(12):63-65.
[14] 朱力強(qiáng),白彪,王耀東,等.基于特征分析的地鐵隧道裂縫識別算法[J].鐵道學(xué)報,2015,37(5):64-70.
[15] 韓燁,劉志剛,耿肖,等.基于HOG特征與二維Gabor小波變換的高鐵接觸網(wǎng)支撐裝置耳片斷裂故障檢測[J].鐵道學(xué)報,2017,39(2):52-57.
[16] 王凌,張冰,陳錫愛.基于計算機(jī)視覺的鋼軌扣件螺母缺失檢測系統(tǒng)[J].計算機(jī)工程與設(shè)計,2011,32(12):4147-4150.
[17] Yang Jinfeng, Tao Wei, Liu Manhua, et al. An efficient direction field-based method for the detection of fasteners on high-speed railways[J]. Sensors, 2011,11(8):7364-7381.
[18] Dou Yunguang, Huang Yaping, Li Qingyong, et al. A fast template matching-based algorithm for railway bolts detection[J]. International Journal of Machine Learning and Cybernetics, 2014,5(6):835-844.