王雅圣,楊 夢(mèng),駱志遠(yuǎn),王 酉,李 光, 胡瑞芬*
1. 浙江大學(xué)智能系統(tǒng)與控制研究所, 工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027 2. Computer Learning Research Centre, Royal Holloway, University of London,Egham Hill, Egham, Surrey TW20 0EX, UK
基于置信學(xué)習(xí)機(jī)與近紅外光譜的煤種快速分類方法
王雅圣1,楊 夢(mèng)2,駱志遠(yuǎn)2,王 酉1,李 光1, 胡瑞芬1*
1. 浙江大學(xué)智能系統(tǒng)與控制研究所, 工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,浙江 杭州 310027 2. Computer Learning Research Centre, Royal Holloway, University of London,Egham Hill, Egham, Surrey TW20 0EX, UK
基于近紅外光漫反射譜技術(shù)的檢測(cè)分析具有簡(jiǎn)單,快捷,安全等優(yōu)勢(shì)而被廣泛應(yīng)用于各行各業(yè)。應(yīng)用近紅外光譜分析技術(shù)實(shí)現(xiàn)不同煤種的快速分類,該方法可以替代費(fèi)時(shí)費(fèi)力費(fèi)財(cái)?shù)膫鹘y(tǒng)化學(xué)分析方法。同時(shí)首次將置信學(xué)習(xí)機(jī)(confidence machine)引入近紅外分析中,實(shí)現(xiàn)了對(duì)分析結(jié)果的風(fēng)險(xiǎn)評(píng)估。采集了來(lái)自不同礦區(qū)共四種不同煤種(肥煤,焦煤,瘦煤和貧瘦煤)的199個(gè)煤樣本的近紅外光譜,通過(guò)機(jī)器學(xué)習(xí)的方法針對(duì)煤的近紅外光譜構(gòu)建了煤種分類器來(lái)實(shí)現(xiàn)煤種的快速分類。在近紅外分析中引入了置信學(xué)習(xí)機(jī)的分析方式,結(jié)合支持向量機(jī)(SVM),構(gòu)建了離線和在線的CM-SVM分類器。置信學(xué)習(xí)機(jī)是一種概率方法,使用概率(CM-SVM)來(lái)取代分類超平面(SVM)進(jìn)行分類,不僅分類效果好于傳統(tǒng)的SVM,達(dá)到了95.48%的分類率,還能同時(shí)給出每個(gè)樣本分類結(jié)果的置信度,可靠度等風(fēng)險(xiǎn)信息。另外,CM-SVM通過(guò)對(duì)置信水平的設(shè)定,得到不同置信度下預(yù)測(cè)區(qū)間,該區(qū)間的預(yù)測(cè)正確率是與置信水平嚴(yán)格對(duì)應(yīng)的,對(duì)于產(chǎn)品質(zhì)量控制有非常重要的意義。置信學(xué)習(xí)機(jī)同時(shí)是一種在線的學(xué)習(xí)模型,新樣本的不斷加入會(huì)提高模型的性能,非常適合于工業(yè)現(xiàn)場(chǎng)的在線分析。在線的CM-SVM模型隨著樣本數(shù)的增加,預(yù)測(cè)結(jié)果的置信度有所提高,對(duì)工業(yè)現(xiàn)場(chǎng)近紅外分析有重要意義。
近紅外光譜; 煤種分類; 置信學(xué)習(xí)機(jī); 支持向量機(jī)
煤是我國(guó)最主要的能量來(lái)源,根據(jù)煤的煤化程度以及不同工業(yè)和商業(yè)用途,需要按照其理化性質(zhì)針對(duì)不同的應(yīng)用來(lái)進(jìn)行分類。不同的煤種應(yīng)用不同,品質(zhì)和價(jià)格也不同。目前對(duì)煤種的分類主要依據(jù)煤的化學(xué)工業(yè)分析方法對(duì)相關(guān)的理化性質(zhì)進(jìn)行測(cè)定和評(píng)價(jià)分類,如揮發(fā)分,灰分,熱值,粘結(jié)指數(shù)等,其結(jié)果雖然比較可靠,但是費(fèi)時(shí)費(fèi)力。
近紅外光譜分析是近年來(lái)發(fā)展迅速的化學(xué)分析方式,具有簡(jiǎn)單快捷,無(wú)須對(duì)樣本進(jìn)行預(yù)處理,成本低廉安全方便等優(yōu)勢(shì)[1-2]。利用化學(xué)計(jì)量學(xué)方法對(duì)近紅外光譜進(jìn)行挖掘建模,能夠有效地對(duì)復(fù)雜混合物中的理化性質(zhì)進(jìn)行定量以及定性分析[3]。近年來(lái)已有國(guó)內(nèi)外學(xué)者利用近紅外對(duì)煤質(zhì)參數(shù)(如水分,灰分等)進(jìn)行分析[4-8],取得良好的效果。本研究利用近紅外光譜對(duì)煤種探索快速分類的辦法。
針對(duì)利用近紅外光譜進(jìn)行檢測(cè)信息挖掘的特點(diǎn),本文中將首次在近紅外分析中引入由Vladimir Vovk和Alexander Gammerman 提出的置信學(xué)習(xí)機(jī)(Confidence Machine, CM)[9-11]。置信學(xué)習(xí)是一種概率計(jì)算框架,能在各種基礎(chǔ)算法上改進(jìn)以進(jìn)行預(yù)測(cè)輸出,有如下特點(diǎn): (1)既可以進(jìn)行“點(diǎn)”預(yù)測(cè),也可以進(jìn)行“域 ”預(yù)測(cè),點(diǎn)預(yù)測(cè)的同時(shí),給出該預(yù)測(cè)點(diǎn)的可靠信息,域預(yù)測(cè)則將所有滿足置信度要求的預(yù)測(cè)值進(jìn)行輸出,在該置信度的規(guī)約下,得到的預(yù)測(cè)結(jié)果其風(fēng)險(xiǎn)是確定的。(2)適合于在線工作方式,在對(duì)樣本進(jìn)行預(yù)測(cè)后將該樣本的類標(biāo)加入到已知的樣本序列中,在預(yù)測(cè)的同時(shí)不斷地進(jìn)行學(xué)習(xí)。本文將構(gòu)建基于支持向量機(jī)的置信學(xué)習(xí)機(jī)CM-SVM,應(yīng)用于煤的近紅外光譜進(jìn)行煤種分類,得到分類結(jié)果的同時(shí)給出分類結(jié)果的可靠程度的信息,并且可以根據(jù)置信度的設(shè)置使錯(cuò)誤率得到嚴(yán)格控制的預(yù)測(cè)區(qū)間輸出,是一種全新的近紅外定性分析方式。同時(shí),構(gòu)建在線的CM-SVM學(xué)習(xí)算法,考查樣本數(shù)增加對(duì)分類效果的影響。
1.1 樣本與光譜采集
實(shí)驗(yàn)研究了來(lái)自山西14個(gè)礦區(qū)的199個(gè)煤樣本,其中有肥煤樣本50個(gè),焦煤樣本50個(gè),貧瘦煤樣本49個(gè),瘦煤樣本50個(gè),所有樣本均粉碎到顆粒度3 mm以下。采用德國(guó)Bruker公司的Matrix-Ⅰ型工業(yè)近紅外光譜儀,實(shí)驗(yàn)中,所有的光譜采集都在室內(nèi)完成,溫度控制20~22 ℃,濕度控制50%~60%。采集的光譜波長(zhǎng)范圍為1 000~2 500 nm,測(cè)得的每條譜線有1 555個(gè)數(shù)據(jù)點(diǎn)。圖1為所有199個(gè)樣本的近紅外光譜。
由圖1可以看出,煤樣光譜吸光度較高,譜峰不明顯,這是由于煤本身為黑色的,大部分近紅外能量都被吸收,反射出來(lái)的少,所以吸光度高,有效信息少,譜峰不明顯。并且,四種煤樣從光譜上來(lái)看并沒(méi)有很明顯的區(qū)別,混雜在一起,因此須借助機(jī)器學(xué)習(xí),數(shù)據(jù)壓縮和分類的方法來(lái)提取有效信息進(jìn)行分類。
圖1 199個(gè)煤樣本的近紅外光譜
1.2 基于SVM的置信學(xué)習(xí)機(jī)
1.2.1 置信學(xué)習(xí)機(jī)
置信學(xué)習(xí)機(jī)的基本原理是對(duì)某個(gè)預(yù)測(cè)樣本,首先使其與老樣本有一樣的類標(biāo),然后將其與所有已有樣本進(jìn)行對(duì)比,對(duì)所有可能的預(yù)測(cè)值可能性進(jìn)行量化評(píng)估,通過(guò)對(duì)在某一類別里與老樣本的相似程度來(lái)估計(jì)對(duì)新樣本預(yù)測(cè)的置信程度。置信學(xué)習(xí)機(jī)的唯一一個(gè)前提假設(shè)為所有樣本都要獨(dú)立分布,其中至關(guān)重要的一個(gè)參數(shù)就是相似程度的量化表示,稱之為奇異值度量(nonconformity measure),用α來(lái)表征新樣本與老樣本的差異化程度。表示這種差異化程度,也就是奇異值(nonconformity score)α越高,表示新樣本與老樣本差異度越高,新樣本為該類標(biāo)的情況不可信,反之α越小表示新樣本與老樣本差異度越低,可信度較高。
假設(shè)xn為待預(yù)測(cè)的樣本的自變量,為把每個(gè)可能的類標(biāo)y都賦給第樣本xn,成為新樣本點(diǎn)(xn,yn),計(jì)算該新樣本點(diǎn)的奇異值度量αn,然后比較這個(gè)新樣本的奇異值度量與老樣本之間的差異,一個(gè)簡(jiǎn)單的方法是算出如下的比例,如式(1)所示
(1)
式(1)即為奇異值度量值比新樣本大的老樣本所占的比例,把它定義為檢驗(yàn)值p。由該定義可知,0
ε的假設(shè)作為置信學(xué)習(xí)機(jī)的預(yù)測(cè)結(jié)果輸出如式(2),其有效性證明參見文獻(xiàn)[9]
(2)
因此,置信學(xué)習(xí)機(jī)的一般算法流程可以總結(jié)如下:
輸入:
訓(xùn)練樣本序列:Z*=(z1,…,zn-1), 其中zi=(xi,yi),i=1,2,…,n,xi為樣本,yi為樣本對(duì)應(yīng)的類別標(biāo)簽;
待測(cè)樣本xn;
奇異值度量函數(shù):αi=An{(z1,…,zi-1,zi+1,…,zn),zi},i=1,2,…,n;
顯著水平:ε(0<ε<1)
輸出:
新樣本xn的域預(yù)測(cè)結(jié)果。
流程:
(1) 將第一個(gè)可能的y值賦給xn,形成新樣本點(diǎn)(xn,yn);
(2) 計(jì)算該新樣本點(diǎn)的奇異值度量αn;
(3) 計(jì)算該可能y值對(duì)應(yīng)的p值,如果p<ε, 則該y值作為預(yù)測(cè)輸出;
(4) 重復(fù)(1)—(3),直到所有可能的y值計(jì)算完畢;
(5) 對(duì)于在線模型,將xn與其真實(shí)值y組成新的樣本,添入訓(xùn)練樣本序列,開始對(duì)下一個(gè)待測(cè)樣本進(jìn)行預(yù)測(cè)。
1.2.2 置信支持向量機(jī)算法
支持向量機(jī)的優(yōu)化問(wèn)題為如下二次問(wèn)題的最大化優(yōu)化,對(duì)于樣本空間(x,y),假設(shè)樣本點(diǎn)線性可分,對(duì)于不可分點(diǎn),利用映射函數(shù),將其映射到高維空間并假設(shè)在高維空間線性可分。具體可參考文獻(xiàn)[12]。
(3)
定義K(xi,xj)=φ(xi)′φ(xj)為內(nèi)核函數(shù),αi為第i個(gè)樣本點(diǎn)在超平面中的權(quán)重系數(shù)。解該二次優(yōu)化問(wèn)題可得到SVM的最佳分類平面以及每個(gè)樣本對(duì)應(yīng)的αi的值,對(duì)于大部分的樣本,αi=0,表明這些樣本是正常的樣本,遠(yuǎn)離分類平面的樣本; 而對(duì)于αi>0的樣本,離分類平面較近,屬于與同類樣本差異較大的樣本,由它們決定了分類超平面的構(gòu)成。因此,可以直接用該αi的值來(lái)做為樣本的奇異值度量,并以此計(jì)算相應(yīng)的p檢驗(yàn)值,對(duì)于二分類情況,總結(jié)CM-SVM的計(jì)算方法如下:
(1) 假設(shè)待測(cè)樣本屬于類別1,構(gòu)成樣本點(diǎn)zn=(xn,1);
(2) 樣本點(diǎn)zn與之前的老樣本構(gòu)成新的訓(xùn)練序列(z1,…,zn-1,zn),求SVM中的二次優(yōu)化問(wèn)題求解,計(jì)算每個(gè)樣本的α值;
(4) 重復(fù)(1)—(3),計(jì)算pn(0)的值;
(5) 根據(jù)顯著性水平ε,選擇p值大于ε的類標(biāo)作為輸出。
以上流程適用于二分類,而對(duì)于多分類的SVM,以一對(duì)一的形式由二分類的SVM組成多分類,即兩兩分類,如本例中有四個(gè)煤種,以A,B,C,D計(jì),則需要SVM(AB),SVM(AC),SVM(AD),SVM(BC),SVM(BD),SVM(CD), 六個(gè)分類器,那么奇異值度量以如下方法計(jì)算:
(1) 假設(shè)zn=(xn,A)與所有其他類標(biāo)為A和B的樣本構(gòu)成訓(xùn)練樣本;
(2) 搭建分類器SVM(AB), 計(jì)算αn(A)SVM(AB);
(3) 與其他A,C樣本構(gòu)成訓(xùn)練集,搭建分類器SVM(AC), 計(jì)算αn(A)SVM(AC);
(4) 與其他A,D樣本構(gòu)成訓(xùn)練集,搭建分類器SVM(AD), 計(jì)算αn(A)SVM(AD)
(5) 則αn(A)=max[αn(A)SVM(AB),αn(A)SVM(AC),αn(A)SVM(AD)]。
得到該樣本點(diǎn)的各類別奇異值后,即可計(jì)算各類別的p檢驗(yàn)值,p值大的類別為強(qiáng)制輸出(forcedprediction),其對(duì)應(yīng)的p值定義為可靠性(credibility), 1與除了最大類別以外的最大p值的差值定義為置信度(confidence)。
1.3 基于CM-SVM的近紅外煤種分類模型建立
SVM對(duì)于解決小樣本數(shù)在高維空間里的非線性問(wèn)題效果顯著,并且相對(duì)于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)等有其獨(dú)特的特點(diǎn),不易陷入局部最優(yōu)解,因?yàn)檫@些特點(diǎn),SVM也成為近年來(lái)近紅外光譜信息挖掘中經(jīng)常使用的工具[13-15]。將基于1.2節(jié)討論的置信學(xué)習(xí)機(jī)方法,針對(duì)煤的近紅外光譜建立四種煤種的CM-SVM預(yù)測(cè)器,包括在線和離線方法。在進(jìn)行CM-SVM分類前,首先利用主成分分析(PCA)對(duì)光譜進(jìn)行降維壓縮,提高模型計(jì)算速度。另外,由于每個(gè)類別的樣本數(shù)較少,實(shí)驗(yàn)采用留一法進(jìn)行交互驗(yàn)證,以留一法交互驗(yàn)證的分類正確率來(lái)考察模型的分類性能。
2.1 離線CM-SVM煤種分類結(jié)果
經(jīng)過(guò)實(shí)驗(yàn)優(yōu)化證明,選取7個(gè)PCA成分得到的分類率為最優(yōu), 并且通過(guò)比較,選擇了線性內(nèi)核做為SVM的核函數(shù)。利用多分類SVM置信學(xué)習(xí)機(jī)(CM-SVM)對(duì)199個(gè)煤樣的近紅外光譜分別進(jìn)行分類與其p值計(jì)算,選取了幾個(gè)典型的結(jié)果,如表1所示。當(dāng)置信學(xué)習(xí)機(jī)以“點(diǎn)”預(yù)測(cè)的形式工作時(shí),選取其p值最大的類別為輸出,表示為強(qiáng)制分類。表1列出了每個(gè)樣本屬于四種煤類的p檢驗(yàn)值,CM-SVM強(qiáng)制分類結(jié)果,實(shí)際分類,可靠度和置信度。
表1 CM-SVM對(duì)單個(gè)樣本預(yù)測(cè)結(jié)果示例
置信度表示的是在該分類情況下,即四種煤的類別當(dāng)中,屬于某類別的可能程度,而可信度表示的是這種分類方法的可靠程度。以3號(hào)樣本為例,其置信度很高,說(shuō)明在這四種分類情況中,屬于貧瘦煤的可能性很高而屬于其他三種類別的可能性很低,但是可靠度非常低,說(shuō)明很有可能該樣本完全不屬于這四個(gè)類別,與四個(gè)類別所有樣本的差異都很大。對(duì)于可靠度低的樣本,其分類錯(cuò)誤的可能性要高一些。
表2 SVM與CM-SVM分類結(jié)果比較
對(duì)于多分類的CM-SVM,如以“點(diǎn)”輸出的方式工作,以p檢驗(yàn)值最大的類別為輸出,與傳統(tǒng)的SVM算法有所不同。表2的為SVM與CM-SVM預(yù)測(cè)結(jié)果的比較??梢钥闯?,CM-SVM要優(yōu)于SVM的結(jié)果。
對(duì)于多分類的CM-SVM,如以“域”輸出的方式工作,根據(jù)p檢驗(yàn)值是否超過(guò)顯著性水平來(lái)確定輸出,錯(cuò)誤率控制在低水平時(shí),有可能出現(xiàn)輸出空集的情況,相反,也有可能出現(xiàn)輸出多個(gè)類標(biāo)(多預(yù)測(cè))的情況。如果輸出的類標(biāo)里包含有樣本的真實(shí)類標(biāo),則預(yù)測(cè)準(zhǔn)確,否則為預(yù)測(cè)錯(cuò)誤。表3給出了80%,90%以及95%置信度下的的預(yù)測(cè)結(jié)果。
表3 不同置信水平下CM-SVM預(yù)測(cè)結(jié)果
置信水平低時(shí),要求的p值高,因此會(huì)出現(xiàn)很多的空預(yù)測(cè),而置信水平高時(shí),要求的p值低,如95%時(shí),只要p值大于0.05的類別就會(huì)成為預(yù)測(cè)輸出,因此多預(yù)測(cè)率會(huì)高,由表3中的錯(cuò)誤率可以看出,經(jīng)過(guò)置信度的設(shè)置,其預(yù)測(cè)結(jié)果的錯(cuò)誤率是可以得到控制的。
2.2 在線CM-SVM近紅外煤種分類
置信學(xué)習(xí)機(jī)可以轉(zhuǎn)為在線學(xué)習(xí)模型,對(duì)樣本進(jìn)行預(yù)測(cè)后將該樣本的真實(shí)分類類標(biāo)加入到已知的樣本序列中,特別適用于近紅外定性分析。模擬在線學(xué)習(xí)過(guò)程,以同樣的方法建立基于CM-SVM的近紅外煤種分類置信學(xué)習(xí)機(jī)在線模型。首先,將199個(gè)樣本的順序隨機(jī)打亂,從中抽取前20個(gè)樣本做為算法的啟動(dòng)樣本進(jìn)行訓(xùn)練,然后對(duì)第21個(gè)樣本進(jìn)行預(yù)測(cè),計(jì)算其在“點(diǎn)”輸出方式、置信度以及可靠度,計(jì)算完成后,將第21個(gè)樣本的光譜數(shù)值與其真實(shí)類標(biāo)組成新的樣本點(diǎn)加入到訓(xùn)練集中,以同樣的方式對(duì)第22個(gè)樣本進(jìn)行預(yù)測(cè),再把第22個(gè)樣本加入訓(xùn)練集,以此類推,直到199個(gè)樣本全部被預(yù)測(cè)完畢。
圖2 在線CM-SVM強(qiáng)制預(yù)測(cè)結(jié)果的置信度變化
圖2和圖3分別記錄了置信度和可靠度隨著樣本數(shù)逐漸增加的變化情況。由圖2可以看出,隨著分類樣本數(shù)量的增加,置信程度越來(lái)越高,最后趨于穩(wěn)定,即在當(dāng)前分類情況下,類與類之間的差異化信息在SVM分類后越來(lái)越明顯,在這四類中屬于某一類和屬于另外三類之間的差別越來(lái)越高。而可靠程度則相反(見圖3),說(shuō)明隨著樣本的增加,全部樣本的差異信息越來(lái)越多,使得新樣本與所有老樣本整體的類似程度越來(lái)越低。
圖3 在線CM-SVM強(qiáng)制預(yù)測(cè)結(jié)果的可靠度變化
應(yīng)用近紅外光譜對(duì)煤的不同種類可以實(shí)現(xiàn)快速準(zhǔn)確的判別,其準(zhǔn)確率高達(dá)95.48%。引入了置信學(xué)習(xí)機(jī)并基于SVM方法構(gòu)建的CM-SVM方法,相比傳統(tǒng)的SVM,不僅其分類正確率提高了,而且可以提供每個(gè)樣本分類結(jié)果的置信度,可靠度等風(fēng)險(xiǎn)信息。同時(shí),CM-SVM通過(guò)對(duì)置信水平的設(shè)定,可以得到錯(cuò)誤率不同的輸出結(jié)果,對(duì)于產(chǎn)品質(zhì)量控制有非常重要的意義。在線的CM-SVM模型非常適用于工業(yè)現(xiàn)場(chǎng)的近紅外煤種分類,通過(guò)樣本數(shù)的增加,其預(yù)測(cè)的置信度會(huì)隨之提高。
[1] Cozzolino D. Planta Medica, 2009, 75(7): 746.
[2] Jamrógiewicz M. Journal of Pharmaceutical and Biomedical Analysis, 2012, 66: 1.
[3] Agelet L E, Hurburgh Jr C R. Critical Reviews in Analytical Chemistry, 2010, 40(4): 246.
[4] Kim D W, Lee J M, Kim J S. Korean Journal of Chemical Engineering, 2009, 26(2): 489.
[5] Andres J, Bona M. Talanta, 2006, 70(4): 711.
[6] Bona M, Andres J. Talanta, 2007, 72(4): 1423.
[7] Andres J, Bona M. Analytica Chimica Acta, 2005, 535(1): 123.
[8] Wang Y, Yang M, Wei G, et al. Sensors and Actuators B: Chemical, 2014, 193: 723.
[9] Vovk V, Gammerman A, Shafer G. Algorithmic Learning in a Random World: Springer Science & Business Media, 2005.
[10] Wang H, Lin C, Yang F, et al. Journal of Information and Computational Science, 2009, 6(1): 305.
[11] Shafer G, Vovk V. The Journal of Machine Learning Research, 2008, 9: 371.
[12] Burges C J. Data Mining and Knowledge Discovery, 1998, 2(2): 121.
[13] Chen Q, Zhao J, Fang C, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2007, 66(3): 568.
[14] Zhao J, Chen Q, Huang X, et al. Journal of Pharmaceutical and Biomedical Analysis, 2006, 41(4): 1198.
[15] Widjaja E, Zheng W, Huang Z. International Journal of Oncology, 2008, 32(3): 653.
(Received Apr. 20, 2015; accepted Aug. 16, 2015)
*Corresponding author
Rapid Coal Classification Based on Confidence Machine and Near Infrared Spectroscopy
WANG Ya-sheng1, YANG Meng2, LUO Zhi-yuan2, WANG You1, LI Guang1, HU Rui-fen1*
1. State Key Laboratory of Industrial Control Technology, Institute of Cyber-Systems and Control, Zhejiang University, Hangzhou 310027, China 2. Computer Learning Research Centre, Royal Holloway, University of London, Egham Hill, Egham, Surrey TW20 0EX, UK
Near-infrared reflectance spectroscopy (NIRS) is a simple, convenient and safe technology which is widely used in many industries. NIRS was employed to the rapid classification of coal in this study. The new method can be a replacement of the chemical analysis which is laborious and time consuming. Confidence machine was firstly applied to NIRS in this study which was used to evaluate the risk of the analysis. The near infrared reflectance spectrum of 199 coal samples including four types of coal (50 fat coal samples, 50 coking coal samples, 49 lean coal samples and 50 meager lean coal samples) from different mines in China were collected and classifiers based on the near infrared spectra of coal samples which were established by using machine learning methods to realize the rapid classification of coal samples. Confidence machine was introduced into the analysis technology based on NIRS in this paper. Confidence machine based on support vector machine (CM-SVM) was built and applied to the classification of coal samples via NIRS. Confidence machine is a probabilistic algorithm and instead of using hyper plane (SVM) to carry out the classification, using probability (CM-SVM) turned to be more effective which had 95.45% of the samples correctly grouped. Besides that, CM-SVM also estimated the confidence and credibility for each predicted sample. By setting different confidence levels, CM-SVM can perform region prediction whose error rate was predefined by the different confidence levels, which was very important for the control of product quality when NIRS was applied to the analysis of productions. Confidence machine is designed as an on-line learning method; new samples can be added to the training set one by one to improve the efficiency of the model and is very appropriate for industry on-line analysis. On-line CM-SVM models showed that the confidence of prediction would be raised as the samples increased, which was valuable for industry on-line analysis.
Near-infrared spectroscopy; Coal classification; Confidence Machine; Support vector machine
2015-04-20,
2015-08-16
國(guó)家高技術(shù)研究發(fā)展技劃項(xiàng)目(2013AA041201)和浙江省科技計(jì)劃項(xiàng)目(2015C37062)資助
王雅圣,1988年生,浙江大學(xué)控制科學(xué)與工程學(xué)系博士研究生 e-mail: xuanyu306@163.com *通訊聯(lián)系人 e-mail: 0011377@zju.edu.cn
O657.3
A
10.3964/j.issn.1000-0593(2016)06-1685-05