李 航,趙海東,申金媛,劉潤(rùn)杰,劉劍君,穆曉敏
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2.鄭州市煙草專賣局,河南 鄭州 450006)
?
基于BPSO和SVM的煙葉近紅外有用特征光譜選擇
李 航1,趙海東1,申金媛1,劉潤(rùn)杰1,劉劍君2,穆曉敏1
(1. 鄭州大學(xué) 信息工程學(xué)院,河南 鄭州 450001;2.鄭州市煙草專賣局,河南 鄭州 450006)
為提高基于近紅外光譜識(shí)別煙葉等級(jí)的效率,利用BPSO聯(lián)合SVM對(duì)原始光譜數(shù)據(jù)進(jìn)行有用特征光譜選擇. 利用BPSO將對(duì)分級(jí)影響不好或沒有影響的特征剔除,采用SVM對(duì)煙葉的等級(jí)進(jìn)行識(shí)別. 結(jié)果表明:BPSO選擇的最佳特征光譜可減少特征光譜的數(shù)目,提高煙葉的正確分級(jí)率. 對(duì)于相同的光譜范圍,采樣間隔越大,經(jīng)過特征光譜選擇后,原始光譜數(shù)據(jù)數(shù)目減少的比例越大. 此外,有用特征光譜的選擇可以有效地減少光譜數(shù)據(jù)的采集量,減少了分級(jí)模型的計(jì)算復(fù)雜度,提高煙葉分級(jí)的速度.
近紅外光譜;BPSO;支持向量機(jī);煙葉分級(jí)
煙葉的近紅外光譜幾乎包含煙葉化學(xué)成分的所有含氫基團(tuán),可以映射煙葉的內(nèi)部化學(xué)成分. 因此,很多學(xué)者通過光譜數(shù)據(jù)構(gòu)建模型,對(duì)煙葉的化學(xué)成分和含量進(jìn)行了研究分析[1-2]. 張建平等[3]利用近紅外光譜實(shí)現(xiàn)煙葉的產(chǎn)地和部位識(shí)別,從煙葉粉碎、篩選、壓制等制作過程中提取樣本,從樣本中獲取光譜,光譜數(shù)據(jù)不能反映煙葉的厚度信息,不能用于煙葉實(shí)時(shí)無(wú)損的智能分級(jí). 章英等[4]依據(jù)近紅外光譜數(shù)據(jù)用最近鄰判別分析方法實(shí)現(xiàn)了煙葉的自動(dòng)分組. 申金媛等[5-6]依據(jù)紅外光譜運(yùn)用概率神經(jīng)網(wǎng)絡(luò)、徑向基網(wǎng)絡(luò)等實(shí)現(xiàn)煙葉的自動(dòng)分級(jí).
光譜分辨率越高越能反映煙葉內(nèi)部的信息,相應(yīng)的儀器精確度要求也就越高,采集的成本也就越高,獲得的煙葉特征也就越多,光譜間的相關(guān)性就越大. 原始光譜數(shù)據(jù)中可能包含與煙葉分級(jí)不相關(guān)的特征,對(duì)近紅外光譜特征的提取就變得相當(dāng)重要. 光譜有效特征的提取方法有小波分解[7]、主成分分析[8]、獨(dú)立成分分析[9]等,這些方法不能減少光譜數(shù)據(jù)的采集,而且每次分級(jí)時(shí)還首先需要對(duì)數(shù)據(jù)做相應(yīng)的處理,額外增加的時(shí)間有可能比數(shù)據(jù)處理后所減少的分級(jí)時(shí)間還多,適得其反. 基于聚類分析[10]的方法可以將對(duì)分級(jí)影響不太好的數(shù)據(jù)有效地剔除掉,減少了原始數(shù)據(jù)的采集. 基于同樣的考慮,本文提出基于BPSO對(duì)原始的光譜數(shù)據(jù)進(jìn)行特征光譜篩選,通過BPSO的方法從眾多優(yōu)化過的粒子中選擇出最好的1組粒子,即“最佳特征組合”作為最后的有用特征光譜,本文采用具有良好推廣能力的SVM分類器對(duì)煙葉進(jìn)行分級(jí).
2.1 BPSO原理
粒子群算法(PSO)是最初由Kennedy博士與Eberhart博士提出的進(jìn)化算法,其概念來源于鳥類尋找食物行為的研究[11],可以用來解決系統(tǒng)優(yōu)化的問題. 隨機(jī)選取1組解為系統(tǒng)初始解,通過進(jìn)化迭代尋找最優(yōu)解. 假設(shè)在搜索空間為α維中,由β個(gè)粒子組成的種群X=(x1,…,xi,…,xβ)T,其中第i個(gè)粒子的位置為xi=(xi1,xi2,…,xiα)T,其飛行速度為vi=(vi1,vi2,…,viα)T,該粒子當(dāng)前得到的最優(yōu)解為pi=(pi1,pi2,…,piα)T,整個(gè)種群當(dāng)前的最優(yōu)解pg=(pg1,pg2,…,pgα)T. 其迭代過程為
(1)
(2)
其中:i=1,2,…,β表示種群規(guī)模;d=1,2,…,α表示粒子群算法解的搜索空間;t為當(dāng)前進(jìn)化代數(shù);r1與r2為均勻分布在[0, 1]之間的隨機(jī)數(shù);c1與c2為學(xué)習(xí)因子,通常取c1=c2=2;pid為個(gè)體極值,pgd為種群極值;w為正數(shù),稱為慣性權(quán)重,其值描述為粒子保持上一代速度的權(quán)重.
BPSO為二進(jìn)制粒子群,將每一維的xid,pid,pgd限制為0或者1. 對(duì)于速度vid不做該限制,用速度的sigmoid函數(shù)表示位置狀態(tài)改變可能性,BPSO模型中,更新速度為(1)式,位置的更新為
(3)
其中sigmoid型函數(shù)為
(4)
2.2 BPSO有用特征光譜選擇
煙葉的近紅外光譜數(shù)據(jù)具有“線性不可分、維數(shù)高”的特征. 在依據(jù)煙葉光譜進(jìn)行分級(jí)時(shí),構(gòu)建分級(jí)模型比較復(fù)雜并且會(huì)出現(xiàn)分級(jí)耗時(shí)長(zhǎng)且難以實(shí)現(xiàn)實(shí)時(shí)分級(jí). 刪減不利于分級(jí)的光譜(煙葉特征),降低數(shù)據(jù)維數(shù),提取有利于分級(jí)的特征(有用特征光譜)變得非常必要.
BPSO運(yùn)用于煙葉的光譜特征選擇時(shí),每個(gè)粒子對(duì)應(yīng)1種光譜特征的組合. 對(duì)光譜進(jìn)行特征選擇時(shí),粒子的每維對(duì)應(yīng)1個(gè)波長(zhǎng),粒子的某維取值為1時(shí),表示這個(gè)光譜的特征被選中在特征集中;取值為0時(shí),表示這一維特征沒有被選中. 根據(jù)每維對(duì)應(yīng)的取值,可以確定對(duì)應(yīng)的光譜是否為有用特征.
初始隨機(jī)選擇β個(gè)粒子,迭代M次,共產(chǎn)生βM個(gè)粒子,從中選擇最佳粒子P(對(duì)應(yīng)于適應(yīng)度值最大的粒子),據(jù)此得到最佳特征光譜組合(剔除粒子中為0的光譜). 每個(gè)粒子的適應(yīng)度值由適應(yīng)度函數(shù)決定,適應(yīng)度函數(shù)通常與所采用的分級(jí)模型有關(guān),根據(jù)粒子的適應(yīng)度值確定分級(jí)分類器的樣本輸入模式,利用訓(xùn)練樣本建立分級(jí)模型,不同的粒子建立的分級(jí)模型不同,能夠正確識(shí)別樣本的數(shù)目也不同,即分類器的正確分級(jí)率不同. 本文將樣本的正確分級(jí)率定義為粒子的適應(yīng)度函數(shù),與粒子相對(duì)應(yīng)的分類器的正確分級(jí)率為該粒子的適應(yīng)度值. 適應(yīng)度值越高,粒子包含的特征越有用;把適應(yīng)度值最高的粒子定義為最佳特征組合,所對(duì)應(yīng)的光譜組合為最佳特征光譜. 本文采用SVM作為煙葉分級(jí)分類器,SVM網(wǎng)絡(luò)輸出的分類準(zhǔn)確率作為評(píng)價(jià)該粒子優(yōu)劣的適應(yīng)度函數(shù).
2.3 SVM分類器
支持向量機(jī)是處理高維數(shù)據(jù)實(shí)現(xiàn)小樣本多分類的方法,在建立分類器時(shí),不僅僅考慮經(jīng)驗(yàn)風(fēng)險(xiǎn)最小,而且考慮結(jié)構(gòu)風(fēng)險(xiǎn)最小,具有優(yōu)秀的推廣能力. 核心思想是將向量映射到較高維空間里,在高維空間上構(gòu)造最優(yōu)超平面,使不同類別樣本的間隔最大. 本文首先將輸入模式通過線性核函數(shù)實(shí)現(xiàn)向量的高維映射,然后在高維空間建立線性分類器,所采用的線性分類器的判決函數(shù)為
g(x)=sgn ∑ni=1αidiK(xi,x)+b,
其中K(xi,x)為核函數(shù),完成輸入樣本的高維映射;xi是訓(xùn)練樣本的支持向量,x為待分類的樣本,di取值為1或-1,對(duì)應(yīng)輸入樣本的正確類型.
SVM是兩分類器,如果要進(jìn)行多分類,則需要多個(gè)分類器組合完成. 有2種方法可以實(shí)現(xiàn)多分類, 第一種是采用樹杈結(jié)構(gòu)如圖1(a)所示, 每次將1個(gè)級(jí)別分離出來,N分類則需要建立N-1個(gè)SVM二分類器. 如第一級(jí)分類器,將A1類和其他類分為2種類型,輸出1為A1類,分類結(jié)束,輸出-1則為其他類,進(jìn)行第二個(gè)分類器分類,第二個(gè)分類器則將A2類和剩余其他類分開,以此類推. 如果輸入的樣本屬于第N-1類或第N類,則需要通過所有N-1個(gè)分類器才能得到最后的分類結(jié)果.
(a)樹杈式SVM分類器
(b)全并行投票式分類器圖1 2種分類器
第二個(gè)構(gòu)成方法如圖1(b)所示,首先每2類建立1個(gè)SVM分類器,N類則需要建立N(N-1)/2個(gè)SVM分類器,然后將前級(jí)SVM分類器的輸出給予正確的標(biāo)簽,最后根據(jù)標(biāo)簽由投票表決器決定輸出類型.
煙葉樣本來源于鄭州市煙草公司(共642片),其中XL組163片、XF組173片、CF組84片、CL組103片、BF組119片. 采用島津公司生產(chǎn)的UV-3600型號(hào)分光光度計(jì)采集每片煙葉波長(zhǎng)范圍為1 500 ~2 400 nm,采集不同采樣間隔的反射光譜. 為了減小基線漂移帶來的誤差,對(duì)數(shù)據(jù)進(jìn)行下面預(yù)處理:
yi=xi-min (xi)max (xi)-min (xi) ,
(5)
其中xi為預(yù)處理前的反射光譜數(shù)據(jù).
X2L和C2L預(yù)處理前后煙葉反射光譜如圖2所示. 由圖2得知,光譜數(shù)據(jù)在1 400 nm處存在較大吸峰,2 500 nm后波動(dòng)范圍很大. 選取1 500~2 400 nm光譜之間數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù).
分別將采樣間隔為2,4,6,8,10 nm 煙葉反射光譜的數(shù)據(jù)作為初始數(shù)據(jù),基于BPSO聯(lián)合SVM分類器進(jìn)行特征光譜選擇. 初始隨機(jī)選擇20個(gè)粒子,利用這20個(gè)粒子確定相應(yīng)的樣本輸入模式,然后通過訓(xùn)練樣本建立20個(gè)SVM分類器,本文選擇投票式結(jié)構(gòu)分類器. 根據(jù)測(cè)試樣本的正確分級(jí)率確定每個(gè)粒子的適應(yīng)度值,粒子的每次迭代遵循式(1)和(3), 迭代50次,共產(chǎn)生1 000個(gè)粒子,從中選擇最佳粒子P(對(duì)應(yīng)于適應(yīng)度值最大的粒子),據(jù)此得到最佳特征光譜的組合(剔除粒子中為0的光譜).
選擇642片中的一半左右的樣本作為訓(xùn)練樣本,其余的作為測(cè)試樣本. 特征選擇前后分級(jí)的吻合率、特征數(shù)目和分級(jí)耗時(shí)如表1所示. 表中的吻合率為測(cè)試樣本的正確分級(jí)率.
(b)X2L級(jí)別預(yù)處理后的反射光譜
(c)C2L級(jí)別的原始反射光譜
(d)C2L級(jí)別預(yù)處理后的反射光譜
間隔/nm吻合率/% 特征數(shù)目 分級(jí)耗時(shí)/s 前后前后前后293.994.14512250.400.131492.793.42261150.150.099692.492.9151790.120.045892.490.0113580.090.0371088.889.091500.060.033
從表1可以得出:
1)用BPSO方法選擇的最優(yōu)光譜特征的分級(jí)準(zhǔn)確率比原始全光譜數(shù)據(jù)情況下有一定的提高(除間隔8 nm時(shí)). 所以從正確分級(jí)率來看基于BPSO進(jìn)行光譜數(shù)據(jù)的有用特征選擇是正確可行的.
2)從SVM分級(jí)消耗時(shí)間來看,隨著光譜特征數(shù)目的減少,SVM網(wǎng)絡(luò)所需要分級(jí)的時(shí)間也減少,少則短1/3,多則短2/3.
3)不論原始數(shù)據(jù)采用多大間隔,在不影響正確分級(jí)率的前提下,利用BPSO都可剔除近一半的數(shù)據(jù). 原始數(shù)據(jù)越多,可剔除的比例越大.
通過以上工作可以得出以下結(jié)論:
1)煙葉近紅外光譜可以作為煙葉自動(dòng)分級(jí)的特征;
2)投票式SVM分類器是一個(gè)很不錯(cuò)煙葉分級(jí)模型;
3)利用BPSO可以選擇對(duì)分級(jí)有用的光譜,選擇后的光譜數(shù)據(jù)減少近一半,不僅可以減少SVM的分級(jí)計(jì)算量,使得分級(jí)占用時(shí)間減少1/3以上,而且可以有效地減少光譜的采集時(shí)間. 當(dāng)采用的設(shè)備為串行獲取光譜數(shù)據(jù)時(shí),減少數(shù)據(jù)采集量可極大地提高煙葉的分級(jí)效率,從而使得對(duì)煙葉的實(shí)時(shí)分級(jí)有了實(shí)用的可能.
還有很多其他的特征選擇方法和分級(jí)方法,煙葉的圖像特征主要包括有寬度、長(zhǎng)度、長(zhǎng)寬比、周長(zhǎng)、面積、破損率、圓形度及RGB和HSI分量. 試想可以融合煙葉的圖像特征和光譜特征,兩者相結(jié)合盡可能的選擇出不影響正確分級(jí)率的最少特征數(shù)目,以及同時(shí)考慮正確分級(jí)率和分級(jí)速度的分級(jí)模型,為設(shè)計(jì)可實(shí)用的煙葉自動(dòng)分級(jí)設(shè)備奠定基礎(chǔ).
[1] 王東丹,秦西云,趙立紅,等. 應(yīng)用近紅外光譜技術(shù)分析煙絲總糖和還原糖的研究[J]. 分析實(shí)驗(yàn)室,2007,26(5):30-32.
[2] 杜閱光,崔登科,程小東,等. 聲光可調(diào)近紅外光譜技術(shù)用于打葉復(fù)烤片煙化學(xué)成分[J]. 紅外技術(shù),2012,34(10):614-618.
[3] 張建平,陳江華,束茹欣,等. 近紅外信息用于煙葉風(fēng)格識(shí)別及卷煙配方研究的初步探索[J]. 中國(guó)煙草學(xué)報(bào),2007,13(5):1-5.
[4] 章英,賀立源. 基于近紅外光譜的烤煙煙葉自動(dòng)分組方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2011,27(4):350-354.
[5] 張樂明,申金媛,劉劍君,等. 概率神經(jīng)網(wǎng)絡(luò)在煙葉自動(dòng)分級(jí)中的運(yùn)用[J]. 農(nóng)機(jī)化研究,2011(12):32-35.
[6] 彭丹青,申金媛,劉劍君,等. 基于徑向基網(wǎng)絡(luò)的煙葉光譜分級(jí)[J]. 農(nóng)機(jī)化研究,2009(10):15-18.
[7] 田高友,袁洪福,劉慧穎,等. 小波變換在近紅外光譜分析中的應(yīng)用進(jìn)展[J]. 光譜學(xué)與光譜分析,2003,23(6):1111-1114.
[8] 郭文川,王銘海,岳絨. 基于近紅外漫反射光譜的損傷獼猴桃早期識(shí)別[J]. 農(nóng)機(jī)機(jī)械學(xué)報(bào),2013,44(2):142-146.
[9] 侯振雨,王偉,蔡文生,等. 基于獨(dú)立成分的局部建模方法及其在近紅外光譜分析中的應(yīng)用研究[J]. 計(jì)算機(jī)與應(yīng)用化學(xué),2006,23(3):224-226.
[10] 趙海東,申金媛,劉潤(rùn)杰,等. 基于聚類的煙葉近紅外光譜有效特征的篩選方法[J]. 紅外技術(shù),2013,35(10):659-664.
[11] Kennedy J, Eberhart R. Particle swarm optimization [A]. Proceedings of IEEE International Conference on Neural Networks [C]. Perth, Australia, 1995:1942-1948.
[責(zé)任編輯:任德香]
Screening the effective features in the near-infrared spectroscopy of tobacco leaf based on BPSO and SVM
LI Hang1, ZHAO Hai-dong1, SHEN Jin-yuan1,
LIU Run-jie1, LIU Jian-jun2, MU Xiao-min1(1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China;2. Zhengzhou City Tobacco Monopoly Bureau, Zhengzhou 450006, China)
To improve the classification efficiency of tobacco leaves based on near-infrared spectroscopy, the BPSO and SVM methods were applied to screening the effective features from the original spectra. The BPSO method was used to get rid of some features that had bad effect or no effect on the classification, and then the levels of the tobacco leaves were recognized by SVM. The experimental results showed that BPSO method could greatly reduce the number of characteristic spectral data and improve the recognition efficiency. For the same spectrum range, after screening, large sampling interval could reduce the numbers of characteristic spectral data. Moreover BPSO could effectively reduce the size of spectrum data collection and the computational complexity of the hierarchical model, thus greatly improve the classification speed.
near-infrared spectrum; BPSO; SVM; tobacco grade
2015-01-07;修改日期:2015-04-11
河南省煙草公司科技計(jì)劃項(xiàng)目(No.M201335)
李 航(1989-),男,河南開封人,鄭州大學(xué)信息工程學(xué)院2014級(jí)碩士研究生,研究方向?yàn)榻t外光譜分析和圖像處理.
指導(dǎo)教師:申金媛(1966-),女,山西晉中人,鄭州大學(xué)信息工程學(xué)院教授,博士,研究方向?yàn)閿?shù)字圖像處理、光電信號(hào)與信息處理及應(yīng)用、模式識(shí)別.
TN219
A
1005-4642(2015)06-0008-05