李 明,陳 凡,雷 萌,李 翠
中國(guó)礦業(yè)大學(xué)信息與電氣工程學(xué)院,江蘇 徐州 221116
基于LVQ與SVM算法的近紅外光譜煤產(chǎn)地鑒別
李 明,陳 凡,雷 萌*,李 翠
中國(guó)礦業(yè)大學(xué)信息與電氣工程學(xué)院,江蘇 徐州 221116
傳統(tǒng)煤產(chǎn)地鑒別方法一般以發(fā)熱量、揮發(fā)分、粘結(jié)指數(shù)、哈氏可磨指數(shù)和坩堝膨脹序數(shù)作為分類(lèi)指標(biāo),過(guò)程復(fù)雜耗時(shí)較多、耗費(fèi)巨大的人力、物力并且無(wú)法直接快速的得到煤樣產(chǎn)地等問(wèn)題,借助近紅外光譜技術(shù)快速無(wú)損檢測(cè)的優(yōu)勢(shì),利用基于SVM的留一算法對(duì)光譜數(shù)據(jù)集進(jìn)行異常樣本剔除,得到包含正確光譜信息的煤樣光譜數(shù)據(jù)集,構(gòu)造基于SVM算法與LVQ算法的定性分析模型,完成基于近紅外光譜分析技術(shù)的煤產(chǎn)地的快速鑒別,無(wú)需對(duì)煤樣的各種指標(biāo)進(jìn)行匯總并且人為預(yù)測(cè)。針對(duì)SVM分析模型中存在隨機(jī)參數(shù)優(yōu)化問(wèn)題,引入PSO算法對(duì)SVM模型中的損失參數(shù)C和核函數(shù)半徑g進(jìn)行改進(jìn),得到最優(yōu)參數(shù),最后引入計(jì)算準(zhǔn)確率的方法對(duì)比以上模型并進(jìn)行評(píng)價(jià)分析。實(shí)驗(yàn)一共收集了加拿大、俄羅斯、澳大利亞、印度尼西亞、中國(guó)內(nèi)蒙等5個(gè)地區(qū)的煤樣光譜數(shù)據(jù)集,數(shù)據(jù)集共計(jì)305組煤樣樣本,其中異常樣本共計(jì)10組,分別選擇各國(guó)煤炭光譜的前31組作為訓(xùn)練樣本,后6組數(shù)據(jù)作為測(cè)試樣本,結(jié)果表明各分類(lèi)模型的分類(lèi)準(zhǔn)確率均能達(dá)到75%以上,其中基于PSO算法改進(jìn)的SVM分析模型的準(zhǔn)確率可達(dá)到96.67%,僅一個(gè)樣本出現(xiàn)問(wèn)題,可快速高效地實(shí)現(xiàn)基于近紅外光譜分析技術(shù)的煤產(chǎn)地的鑒別。
煤產(chǎn)地鑒別;近紅外光譜;SVM;LVQ;PSO
地質(zhì)變化過(guò)程漫長(zhǎng)復(fù)雜,由于多種地質(zhì)因素的干擾,煤礦內(nèi)煤炭成分也千差萬(wàn)別。造成煤炭的多樣化的原因很多,主要是由成煤原始物質(zhì)、成煤年份、還原程度和成因類(lèi)別上的差異,再加上各種變質(zhì)作用的影響[1]。
傳統(tǒng)煤產(chǎn)地鑒別方法復(fù)雜耗時(shí)較多,并且要使用特定的實(shí)驗(yàn)儀器,如馬弗爐、坩堝等,造價(jià)昂貴,操作復(fù)雜[2]??焖倜撼煞址治龇椒?,如γ射線法[3]和微波加熱法[4],都只能對(duì)單項(xiàng)指標(biāo)進(jìn)行測(cè)量。陳鵬強(qiáng)[5]等利用近紅外光譜分析技術(shù)煤炭品質(zhì)進(jìn)行定量分析,但是需要按照成分指標(biāo)對(duì)煤炭產(chǎn)地進(jìn)行鑒別,不能直接測(cè)出產(chǎn)地。因此尋找一種快速高效煤產(chǎn)地鑒別方法,是十分必要的。
近紅外光譜分析技術(shù)[6]應(yīng)用在煤產(chǎn)地鑒別領(lǐng)域尚屬空白。抽取加拿大、俄羅斯、澳大利亞、印度尼西亞和中國(guó)內(nèi)蒙五國(guó)港口煤炭樣本,并使用近紅外光譜分析技術(shù),建立LVQ和SVM分類(lèi)模型,用PSO算法優(yōu)化 SVM參數(shù)。
1.1 數(shù)據(jù)
依照國(guó)家GB/T213—2008標(biāo)準(zhǔn),利用Antaris Ⅱ傅立葉變換近紅外(FT-NIR)光譜儀測(cè)得煤樣光譜,化學(xué)計(jì)量學(xué)軟件TQ Analyst7.1做光譜處理和軟件Matlab編程實(shí)現(xiàn)煤炭分類(lèi)。以上過(guò)程均符合國(guó)家要求,可保證實(shí)驗(yàn)的正確率和準(zhǔn)確率。
1.2 LVQ算法
學(xué)習(xí)向量量化(learning vector quantization,LVQ)[7]神經(jīng)網(wǎng)絡(luò)是根據(jù)Kohonen競(jìng)爭(zhēng)算法演變而來(lái)。LVQ神經(jīng)網(wǎng)絡(luò)由3層組成,分別是輸入層、競(jìng)爭(zhēng)層和輸出層神經(jīng)元。學(xué)習(xí)算法可以分為兩類(lèi),分別為L(zhǎng)VQ1和LVQ2學(xué)習(xí)算法。
LVQ1學(xué)習(xí)算法是根據(jù)輸入向量的固有結(jié)構(gòu)進(jìn)行數(shù)據(jù)壓縮的技術(shù)。該算法的計(jì)算過(guò)程如下:首先通過(guò)距離公式找到距離輸入向量最近的競(jìng)爭(zhēng)神經(jīng)元,從而進(jìn)一步找到與競(jìng)爭(zhēng)神經(jīng)元相連接的輸出層神經(jīng)元,如果輸入向量的類(lèi)別和輸出層神經(jīng)元的類(lèi)別相同,那么相對(duì)應(yīng)競(jìng)爭(zhēng)層神經(jīng)元的權(quán)值朝輸入神經(jīng)元方向調(diào)整,若輸入向量和輸出層向量不一樣,則朝反方向調(diào)整。其中計(jì)算輸入向量和競(jìng)爭(zhēng)層神經(jīng)元距離公式如下
其中wij為競(jìng)爭(zhēng)層神經(jīng)元與輸入層神經(jīng)元之間的權(quán)值。
正方向調(diào)整權(quán)值的公式如下
wij_new=wij_old+η(x-wij_old)
反方向調(diào)整調(diào)整權(quán)值的公式如下
wij_new=wij_old-η(x-wij_old)
其中η是學(xué)習(xí)率,x為輸入向量。
LVQ2算法類(lèi)似于LVQ1算法,只是LVQ1算法,只有一個(gè)競(jìng)爭(zhēng)層神經(jīng)元可以獲勝,而LVQ2算法引入了“次獲勝”神經(jīng)元,使獲勝神經(jīng)元和“次獲勝”神經(jīng)元的權(quán)值都得到調(diào)整。
1.3 SVM算法
支持向量機(jī)(support vector machine,SVM)[8-9],主要建立一個(gè)超平面作為分類(lèi)決策面。對(duì)SVM模型,建模方法一般分為下面幾個(gè)步驟:首先輸入要訓(xùn)練的各國(guó)煤樣光譜數(shù)據(jù)T={(x1,y1), …, (xn,yn)},其中,xi∈Rn為輸入的光譜,yi為要分的國(guó)家類(lèi)別。然后選取適當(dāng)?shù)暮撕瘮?shù)K(xi,xj)和損失參數(shù)C,本工作選徑向基核函數(shù)
K(x,xi)=exp(-γ‖x-xi‖2),γ>0
構(gòu)造求解最優(yōu)化問(wèn)題
約束條件為
其中ai,aj是拉格朗日乘子,得到最優(yōu)解a*,取a*的一個(gè)正分量,計(jì)算閾值b。
既而,可得到?jīng)Q策函數(shù)
由于SVM模型參數(shù)選擇存在人為誤差,無(wú)法憑經(jīng)驗(yàn)使參數(shù)達(dá)到最優(yōu),針對(duì)該問(wèn)題引入粒子群算法(particle swarm optimization,PSO )[10-11]。PSO是基于社會(huì)群體的思想。在M維空間中,每個(gè)粒子i的位置可以表示為xi=(xi1,xi2, …,xiM)代表SVM參數(shù)大小,共有n個(gè)粒子組成群組X=(X1,X2,…,Xn), 每個(gè)粒子代表一個(gè)潛在SVM最優(yōu)參數(shù)。其中第i個(gè)粒子的速度向量為vi=(vi1,vi2,…,viM), 根據(jù)目標(biāo)函數(shù)可以計(jì)算出粒子的適用度即分類(lèi)準(zhǔn)確率,粒子i搜索解空間時(shí), 保存其搜索到的最優(yōu)參數(shù)pi=(pi1,pi2,…,piM)。和群體的最優(yōu)參數(shù)pg=(pg1,pg2, …,pgM),每一次迭代都會(huì)調(diào)整一次粒子的速度和粒子的位置按照下述公式進(jìn)行更新
式中,ω是慣性權(quán)值;c1和c2是正常數(shù),稱(chēng)之為加速因子,一般在0到2之間取值;r1和r2為中均勻分布的隨機(jī)數(shù), 范圍在[0, 1],m為M維中的維數(shù)。當(dāng)?shù)Y(jié)束之后,所得到的全局最優(yōu)位置解,即需要求出的參數(shù)。
2.1 參數(shù)與評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)共采集305組光譜樣本,其中澳大利亞58組,分類(lèi)標(biāo)簽為1,俄羅斯80組,用2作為分類(lèi)標(biāo)簽,加拿大37組,分類(lèi)標(biāo)簽為3,印度尼西亞84組,分類(lèi)標(biāo)簽為4,中國(guó)內(nèi)蒙46組,分類(lèi)標(biāo)簽為5,然后分別選擇各國(guó)煤炭光譜的前31組作為訓(xùn)練樣本,后6組作為測(cè)試樣本,圖1為各國(guó)近紅外煤樣光譜。
圖1 各國(guó)煤樣近紅外光譜
首先對(duì)各國(guó)煤的近紅外光譜樣本進(jìn)行預(yù)處理,剔除異常樣本。這里使用的是SVM交叉留一法剔除異常樣本點(diǎn),設(shè)置的相對(duì)誤差為0.008,如圖2所示。俄羅斯剔除了5組,加拿大剔除1組,澳大利亞剔除了0組,印度尼西亞剔除了0組,中國(guó)內(nèi)蒙剔除4組異常樣本,剔除完成后,以各國(guó)后6組光譜數(shù)據(jù)作為測(cè)試數(shù)據(jù)。
圖2 SVM網(wǎng)絡(luò)留一校驗(yàn)法
以分類(lèi)準(zhǔn)確率作為評(píng)價(jià)指標(biāo),準(zhǔn)確率為:
Accuracy=分類(lèi)正確的樣本個(gè)數(shù)/測(cè)試樣本個(gè)數(shù)
建立LVQ1分類(lèi)模型,經(jīng)過(guò)MATLAB仿真可以得出,LVQ1誤判7個(gè),準(zhǔn)確率達(dá)76.67%,而LVQ2模型,誤判6個(gè),準(zhǔn)確率達(dá)80%,所以在進(jìn)行各國(guó)煤炭分類(lèi)時(shí),使用LVQ神經(jīng)網(wǎng)絡(luò),LVQ2學(xué)習(xí)算法要優(yōu)于LVQ1學(xué)習(xí)算法,其中圖3為L(zhǎng)VQ1分類(lèi)結(jié)果,圖4為L(zhǎng)VQ2的分類(lèi)結(jié)果圖。
圖3 LVQ(lv1)測(cè)試集的實(shí)際分類(lèi)和預(yù)測(cè)分類(lèi)圖
圖4 LVQ(lv2)測(cè)試集的實(shí)際分類(lèi)和預(yù)測(cè)分類(lèi)圖
針對(duì)預(yù)測(cè)分類(lèi)SVM,這里隨機(jī)取值C=80,g=0.03,可以得出,誤判3個(gè),準(zhǔn)確率可達(dá)90%,如圖5所示SVM的分類(lèi)效果圖,可看出SVM模型分類(lèi)效果要優(yōu)于LVQ模型。
由于SVM中參數(shù)選擇存在人為主觀因素,不能保證所選擇的參數(shù)C和g就是最優(yōu)選擇,所以引入PSO算法對(duì)C和g參數(shù)進(jìn)行篩選,這里設(shè)置C最大取值為2~50,最小取值為2~-10,g的取值范圍和C一致,迭代次數(shù)為50次,最后得到最優(yōu)解C為5.866 3×1014,g為9.765 6×10-4。
由圖6適應(yīng)度曲線,可以看出當(dāng)?shù)?5次左右時(shí),適應(yīng)度基本穩(wěn)定,為了使實(shí)驗(yàn)更加精確,實(shí)驗(yàn)迭代次數(shù)設(shè)置成50次為最佳,PSO-SVM分類(lèi)模型,誤判1個(gè),準(zhǔn)確率可達(dá)96.67%,圖7為PSO-SVM實(shí)際分類(lèi)與預(yù)測(cè)分類(lèi)圖。
最后將四種模型進(jìn)行比較,表1為分類(lèi)模型比較表。
圖5 SVM測(cè)試集的實(shí)際分類(lèi)和預(yù)測(cè)分類(lèi)圖
圖6 PSO適應(yīng)度曲線
圖7 PSO-SVM測(cè)試集的實(shí)際分類(lèi)和預(yù)測(cè)分類(lèi)圖
表1 4種分類(lèi)模型比較表
LVQ神經(jīng)網(wǎng)絡(luò)和PSO-SVM模型都能很好的區(qū)分出煤炭的產(chǎn)地,但從系統(tǒng)穩(wěn)定性和精確性來(lái)說(shuō)LVQ神經(jīng)要比PSO-SVM模型稍差。將PSO優(yōu)化算法應(yīng)用于煤炭分類(lèi),優(yōu)化了模型參數(shù),使PSO-SVM模型在系統(tǒng)精度方面優(yōu)于SVM模型。實(shí)驗(yàn)證明:PSO-SVM網(wǎng)絡(luò)模型可用于煤產(chǎn)地鑒別,為煤炭分類(lèi)提供了一種耗時(shí)較短、實(shí)用性強(qiáng)、簡(jiǎn)潔高效的分析方法。
[1] DONG Da-xiao, SHAO Long-yi(董大嘯,邵龍義).Coal Technology(煤炭技術(shù)), 2015,(2):54.
[2] WANG Jiang-rong, WEN Hui, ZHAO Quan-bin(王江榮, 文 暉, 趙權(quán)斌).Coal Preparation Technology(選煤技術(shù)), 2014, 5: 64.
[3] Xia Wencheng, Yang Jianguo, Liang Chuan.Powder Technology, 2013, 233: 186.
[4] He L L, Melnichenko Y B, Mastalerz M, et al.Energy & Fuels, 2012, 26(3): 1975.
[5] CHEN Peng-qiang, LU Hui-shan, YAN Hong-wei(陳鵬強(qiáng), 陸輝山, 閆宏偉).Industry and Mine Automation(工礦自動(dòng)化), 2013, 39(8): 68.
[6] YANG Kai, CAI Jia-yue, ZHANG Chao-ping, et al(楊 凱, 蔡嘉月, 張朝平, 等).Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析) 2014, 34(12): 3277.
[7] Lewis A T, Jones K, Lewis K E, et al.Carbohydrate Polymers, 2013, 92(2): 1294.
[8] Sun Zhanquan.Geoffrey Fox.International Journal of Intelligent Transportation Systems Research, 2014, 12(1):20.
[9] Bron E E, Smits M, van Swieten J C, et al.Feature Selection Based on SVM Significance Maps for Classification of Dementia, in Machine Learning in Medical Imaging,2014, LNCS 8679: 272.
[10] Milad Jajarmizadeh, Elham Kakaei Lafdani, Sobri Harun, et al.KSCE Journal of Civil Engineering, 2015, 19(1): 345.
[11] XU Xiao-hua, QUAN Xiao-song, ZHANG Zi-feng(徐小華, 全曉松, 張子鋒).Journal of Yunnan Minzu University·Natural Sciences Edision(云南民族大學(xué)學(xué)報(bào)·自然科學(xué)版), 2014,23(6): 456.
(Received Apr.28, 2015; accepted Apr.16, 2015)
*Corresponding author
Near-Infrared Spectrum of Coal Origin Identification Based on LVQ with SVM Algorithm
LI Ming, CHEN Fan, LEI Meng*, LI Cui
School of Information and Electrical Engineering, China University of Mining and Technology, Xuzhou 221116, China
Traditional coal origin identification method generally take the calorific value, volatiles, caking index, hardgrove index and crucible swelling number as the classification index, process complicated, use manpower and material resources and can’t get coal sample origin directly, take advantages of the near-infrared spectrum technology fast nondestructive testing, due to be collected in the original spectrum that contains some or false spectral data, using Leave-one-out cross validation based on SVM to eliminate abnormal sample of spectral data set, get the correct spectral information of coal sample spectra data sets, and construct the qualitative analysis model based on SVM algorithm and LVQ algorithm, complete based on near-infrared spectral analysis technology of coal origin identification, don’t need to make summary and coal samples of various indicators forecast.In view of the random parameter optimization problems in SVM model, the PSO-SVM model of loss parameters (C) and the radius of kernel function (g) are improved, get the optimal parameters, finally, calculation accuracy of the method above contrast model is introduced to evaluate and analysis.Experiments collect the near infrared spectrum of Canada, Russia, Australia, Indonesia and China’s five regions, all the data sets, a total of 305 samples, of which 10 simples is abnormal samples and the first 31 groups of the coal spectra were selected as training samples, 6 sets of data after as test samples.Results show that the classification accuracy of classification model can achieve 75% above, including the analysis of the SVM model based on PSO algorithm to improve the accuracy can reach 96.67%, only a sample appear problem, it will be realized quickly and efficiently based on near-infrared spectral analysis technology of coal origin identification.
Coal origin identification;Near-infrared spectrum;LVQ;SVM;PSO
2015-04-28,
2015-08-16
國(guó)家自然科學(xué)基金項(xiàng)目(51304194),江蘇省自然科學(xué)基金項(xiàng)目(BK20140215),中國(guó)博士后科學(xué)基金項(xiàng)目(2014M551695)資助
李 明,1962年生,中國(guó)礦業(yè)大學(xué)信息與電氣工程學(xué)院教授 e-mail: liming@cumt.edu.cn *通訊聯(lián)系人 e-mail: leimengniee@163.com
TP18
A
10.3964/j.issn.1000-0593(2016)09-2793-05