申金媛, 李 航, 劉潤杰, 孔銀亮, 程仲記
(1.鄭州大學 信息工程學院 河南 鄭州 450001;2.河南省煙草公司 平頂山分公司 河南 平頂山 467000)
基于相關系數(shù)的有效特征光譜篩選方法
申金媛1, 李 航1, 劉潤杰1, 孔銀亮2, 程仲記2
(1.鄭州大學 信息工程學院 河南 鄭州 450001;2.河南省煙草公司 平頂山分公司 河南 平頂山 467000)
為降低數(shù)據(jù)采集時間、分級模型的計算復雜度及提高煙葉分級速度,提出了一個基于半監(jiān)督學習的有效特征光譜篩選方法.首先定義判別特征好壞的鑒別函數(shù)R,并根據(jù)R值基于半監(jiān)督方法刪除不好特征;然后利用不同特征間的相關系數(shù),基于有監(jiān)督學習方法去除相關度高光譜,進一步減少有效特征光譜的數(shù)目;最后利用全光譜和兩次篩選后的特征光譜建立了13個等級的SVM分級模型.實驗結果表明所構造的光譜特征篩選模型,可從原始數(shù)據(jù)中篩選出有效特征光譜,從而極大地減少原始光譜采集量,在保證正確分級率的前提下,極大地提高了煙葉分級速度.
離散度; 相關系數(shù); 支持向量機; 煙葉分級; 相關性
煙葉智能分級具有快速且準確率高的特點,可以避免人工分級的主觀性.目前智能分級主要依據(jù)煙葉的圖像信息[1]或者光譜信息進行分級.光譜信息可以很好地反映與煙葉等級密切相關的厚度、含油分、葉片結構等因素,光譜分析技術廣泛應用于煙草行業(yè)中[2-3].
采集的光譜特征具有維數(shù)高、冗余度大的特點,分等級時需要降維處理.第一類方法,利用主成分分析法[4-5]、小波分解法[6-7]、獨立成分分析法[8-9]、連續(xù)投影法[10-11]、間隔最小二乘法[12-13]等方法對原始數(shù)據(jù)進行降維處理,提取特征.這些方法可以有效地減少分類器的輸入維數(shù),從而降低分級模型的計算復雜度,但不可以減少原始光譜數(shù)據(jù)的采集時間,因此極大地影響了煙葉的整個分級速度.第二類方法,直接從原始光譜中篩選出有效特征光譜,篩選特征光譜的方法主要有聚類算法[14]、粒子群算法[15]和遺傳算法[16].這樣采集數(shù)據(jù)時只需采集篩選后的特征光譜即可,不僅可以降低分級模型的計算復雜度,而且可以降低光譜數(shù)據(jù)采集量.基于第二類算法思想,本文構造基于半監(jiān)督學習的有效光譜特征選擇模型,將篩選的特征采用SVM分類器進行驗證,對13個等級的煙葉進行分級.
1.1 基于離散度的初篩選
對于采集的煙葉的光譜特征,由聚類思想可知:相同特征在同一類別中的離散度越小越好;相同特征在不同類別中的離散度越大越好.采集的原始光譜特征中某些特征不能更好地反映聚類思想,本文同時考慮相同特征的類內(nèi)離散度和類間離散度,實現(xiàn)方法如下:
3) 定義判別特征好壞的鑒別函數(shù)R,即相同特征的類內(nèi)離散度與類間離散度的比值為
(1)
根據(jù)式(1)計算所有特征的鑒別函數(shù)值,將鑒別值按由小到大進行排序,并根據(jù)R值基于半監(jiān)督的方法刪除拐點右側(cè)的不好特征.刪除不好特征后,余下的特征之間可能存在很強的相關性,在保證分級準確率的前提下,為獲得更少的有效光譜特征數(shù)目和加快分級速度,需要進行特征深度篩選.
1.2 基于相關系數(shù)的深篩選
相關系數(shù)分析可以有效地進行特征的篩選[17],主要思想是:在眾多相關性特征中,篩選出一個代表特征,用它來表示這些相關性大的特征,去除其余特征.這樣可以選取更少的特征變量,減少光譜數(shù)據(jù)采集量和分級模型的計算復雜度.特征x和特征y的相關系數(shù)計算公式為
依據(jù)相關系數(shù)法進行特征深度篩選的方法為:假設初篩選后余下m個特征,它們的鑒別函數(shù)集合為u={u1,u2,…,um},設定合適的閾值,選取u中值最小的特征作為初選特征.在k類中計算該特征與其余特征的相關系數(shù),將相關系數(shù)大于閾值的特征記為Ck,求取C個類別的特征交集,用初選特征代表所有級別中的交集特征,并在u中刪除交集的特征.在刪除交集特征后的集合中,選取值最小的特征為第二個被選特征,同樣的方法求取所有類別中大于閾值的特征的交集,用它代表所有級別中的交集特征,再在u中刪除交集的特征.按照同樣規(guī)則選取特征,直至u為空集.
1.3 SVM分類器
2.1 實驗數(shù)據(jù)及預處理
實驗樣本為鄭州市煙草局提供的13個等級的煙葉,包含有B2F、B3F、B4F、C2F、C2L、C3F、C3L、X2F、X2L、X3F、X3L、X4F、X4L,采用日本島津公司生產(chǎn)的UV3600型號的光譜儀,采集每片煙葉的反射光譜,光譜范圍為1 500~2 400 nm,采樣間隔為2 nm,共有642條反射光譜.隨機選取三分之一的樣本為訓練集,其余樣本作為測試集驗證模型的推廣能力.為消除光譜儀帶來的基線漂移和噪聲,對采集的光譜數(shù)據(jù)進行以下預處理:
yi=(mi-min(mi))/(max(mi)-min(mi)).
其中:mi為未預處理的原始光譜;yi為歸一化后的光譜;max(mi)和min(mi)分別為mi的最大值和最小值.
2.2 特征的初篩選
依據(jù)公式(1)進行光譜數(shù)據(jù)的預處理,計算特征的類內(nèi)離散度與類間離散度的比值,按由小到大進行排序,得到的拐點和刪除拐點右側(cè)特征后識別率的結果如圖1所示.
以原始451個光譜特征作為SVM的輸入,訓練集、測試集正確率分別為100%、90.89%.在離散度比值由小到大排序后的10個拐點中,刪除拐點右側(cè)特征后識別率由圖1可知. 第6個拐點下的訓練集和測試集的正確率分別為100%、94.39%,識別率明顯高于其余拐點和全光譜,此時余下326個特征,相比全光譜下的451特征有一定的減少.根據(jù)鑒別函數(shù)半監(jiān)督的學習方法去掉部分離散度大的特征,不僅提高了分級正確率,實現(xiàn)特征的初步篩選,而且為下一步進行特征深度篩選模型降低了輸入維數(shù).
圖1 排序后的拐點和各拐點下的識別率Fig.1 The inflection point after sorted and recognition rate of the turning point
2.3 去相關特征
對初篩選后余下的326個特征進行相關系數(shù)分析,進一步去除相關性大的特征,進行特征深度篩選.設定不同閾值,將余下特征作為SVM的輸入、分級識別率、分級時間、特征數(shù)目隨閾值變化結果如圖2所示.隨著閾值的減小,余下特征數(shù)目和分級時間越來越少,準確率呈現(xiàn)先減小后增大的趨勢,閾值為0.995時取得最大值95.21%.說明去除部分相關性的特征可以提高準確率,小于一定閾值后特征數(shù)目過少,分級準確率會降低.為尋找更好的閾值,在保證分級準確率不低于全光譜特征條件下的準確率,細化閾值范圍(0.99~1)得到結果如圖3所示. 綜合圖2和圖3,最少的特征數(shù)目為155個,相比原來451個,減少了65%,可以極大的減少光譜的采集量和提高分級速度.在特征數(shù)目沒有限制下,分級準確率最高可以達到95.21%,特征數(shù)目為207個,分級時間比全光譜有所下降,減少一半的光譜采集量,從而加快了整個系統(tǒng)的分級速度.
圖2 識別率、分級時間、特征數(shù)目隨閾值的變化Fig.2 Identification and classification time, number of features along with the change of threshold value
圖3 細化閾值下的結果Fig.3 Detailed results of threshold
通過以上工作得出以下結論:1) 可以依據(jù)煙葉的光譜特征實現(xiàn)煙葉的智能分級.2) 投票式的支持向量機可以作為實現(xiàn)煙葉分級的分類器.3) 利用同一特征的類內(nèi)離散度與類間離散度比值可刪減部分對分級不好的特征,特征間的相關系數(shù)分析可以刪減相關性特征.
如果分級系統(tǒng)為串行式的,減少光譜數(shù)據(jù)的采集時間可極大地提高煙葉的分級速度,使煙葉收購階段的實時分級成為了可能.煙葉的圖像特征對分級也有一定的影響,將圖像信息和光譜信息相結合是今后改進的方向.
[1] 王夏,賀立源.烤煙煙葉反射和透射圖像的同步圖像分割[J].武漢大學學報(信息科學版),2014,39(8):998-1002.
[2] 田曠達,邱凱賢,李祖紅,等.近紅外光譜法結合最小二乘支持向量機測定煙葉中鈣、鎂元素[J].光譜學與光譜分析,2014, 34(12):3262-3266.
[3] 任曉,勞彩蓮,徐照麗,等.估測田間煙葉色素含量的光譜模型研究[J].光譜學與光譜分析,2015, 35(6):1654-1659.
[4] 王毅,馬翔,溫亞東,等.近紅外光譜與多元統(tǒng)計方法用于生產(chǎn)過程實時分析[J].光譜學與光譜分析,2013, 33(5):1226-1229.
[5] 秦玉華,丁香乾,宮會麗.高維特征選擇方法在近紅外光譜分類中的應用[J].紅外與激光工程,2013, 33 (5):1355-1359.
[6] 彭丹青,申金媛,劉劍君,等.基于徑向基網(wǎng)絡的煙葉光譜分級[J].農(nóng)機化研究,2009, 53(10):15-18.
[7] 羅霞,洪添勝,羅闊,等.小波變換和連續(xù)投影算法在火龍果總酸無損檢測中的應用[J].光譜學與光譜分析,2016, 36(5):1345-1351.
[8] 侯振雨,王偉,蔡文生,等.基于獨立成分的局部建模方法及其在近紅外光譜分析中的應用研究[J].計算機與應用化學,2006, 23(3):224-226.
[9] 王功明,劉志勇.基于光譜表示和獨立成分分析的混合顏料成分分析方法[J].光譜學與光譜分析,2015, 35 (6):1682-1689.
[10]楊凱,蔡嘉月,張朝平,等.應用近紅外光譜投影模型法分析煙葉的部位特征[J].光譜學與光譜分析,2014, 34(12):3277-3280.
[11]熊雅婷,李宗朋,王健,等.基于連續(xù)投影算法的黃酒成分檢測模型[J].食品與發(fā)酵工業(yè),2015, 41 (3):185-190.
[12]章海亮,孫旭東,劉燕德,等.近紅外光譜檢測蘋果可溶性固形物[J].農(nóng)業(yè)工程學報,2009,25(S2):340-344.
[13]於海明,李石,吳威,等.稻谷千粒質(zhì)量近紅外光譜預測模型的波長選擇方法[J].農(nóng)業(yè)機械學報,2015, 46(11):275-279.
[14]趙海東,申金媛,劉潤杰,等.基于聚類的煙葉近紅外光譜有效特征的篩選方法[J].紅外技術,2013, 35 (10):659-664.
[15]李航,趙海東,申金媛,等.基于BPSO和SVM的煙葉近紅外有用特征光譜選擇[J].物理實驗,2015, 35(6):8-12.
[16]王徽蓉,李衛(wèi)軍,劉楊陽,等.基于遺傳算法與線性鑒別的近紅外光譜玉米品種鑒別研究[J].光譜學與光譜分析,2011,31(3): 669-672.
[17]周金治,唐肖芳.基于相關系數(shù)分析的腦電信號特征選擇[J].生物醫(yī)學工程學雜志,2015, 32(4):735-739.
(責任編輯:方惠敏)
Screening the Effective Spectrum Features Based on Correlation Coefficient
SHEN Jinyuan1, LI Hang1, LIU Runjie1, KONG Yinliang2, CHENG Zhongji2
(1.SchoolofInformationEngineering,ZhengzhouUniversity,Zhengzhou450001,China; (2.PingdingshanBranchofHenanProvincialTobaccoCompany,Pingdingshan467000,China)
To increase the tobacco classification speed, it was necessary to reduce the data acquisition time and the computational complexity of the classification mode. An effective spectral filter method based on a semi-supervised learning was constructed to reduce the amount imput data. The discriminant function ofRthat determined an input spectrum good or bad was defined. The bad spectra were pruned based on the value ofRand semi-supervised learning method. In order to further reduce the spectral data, the correlation coefficient between different spectra was employed to remove those spectra with higher correlation based on the supervised method. The training samples with original spectra and the characteristic spectra after twice screening were used to construct SVM tobacco leaf classifiers of 13 grades respectively. The results of experiments showed that the proposed feature screening method was effective. It could greatly reduce the grading time while of guaranteeing the correct classification rate.
discreteness; correlation coefficient; SVM; tobacco grade; correlation
2016-10-17
河南煙草公司科技計劃項目(M201335).
申金媛(1966—),女,山西晉中人,教授,主要從事模式識別、光譜分析研究,E-mail: jyshen@zzu.edu.cn.
TN219
A
1671-6841(2017)03-0028-04
10.13705/j.issn.1671-6841.2016274