劉澤蒙、張 瑞、張廣明*、陳可泉*
1. 南京工業(yè)大學電氣工程與控制科學學院、江蘇 南京 211816 2. 南京工業(yè)大學生物與制藥工程學院、江蘇 南京 211816
基于離散螢火蟲算法的近紅外波長優(yōu)選方法研究
劉澤蒙1、張 瑞2、張廣明1*、陳可泉2*
1. 南京工業(yè)大學電氣工程與控制科學學院、江蘇 南京 211816 2. 南京工業(yè)大學生物與制藥工程學院、江蘇 南京 211816
離散螢火蟲算法; 近紅外光譜; 波長選擇; 丁二酸發(fā)酵
近紅外光譜技術(shù)具有快速、方便、低成本以及無損的特點、廣泛應(yīng)用于醫(yī)藥、農(nóng)業(yè)、石油化工、生物工程等多個領(lǐng)域[1-2]。在采用樣本近紅外光譜數(shù)據(jù)進行校正模型建立的過程中、為了降低模型的復雜度、提高校正模型穩(wěn)健性以及增強模型預測能力、需要對光譜數(shù)據(jù)進行優(yōu)化篩選。數(shù)據(jù)篩選的方法主要有相關(guān)系數(shù)法、連續(xù)投影法、無信息變量消除法、蒙特卡洛法、間隔偏最小二乘法等。近年來廣泛應(yīng)用的群智能優(yōu)化算法也廣泛應(yīng)用于波長優(yōu)選、如:遺傳算法、粒子群算法和蟻群算法等[3-4]。群智能優(yōu)化算法強大的全局搜索能力、使得它們在特征變量篩選方面具有巨大的潛力。
劍橋大學的Yang教授在2008年提出了螢火蟲算法(firefly algorithm)[5]、螢火蟲算法屬于群智能優(yōu)化算法、在連續(xù)域的應(yīng)用十分廣泛。其離散形式的螢火蟲算法在一些應(yīng)用中也優(yōu)于現(xiàn)有算法如蟻群算法、粒子群算法[6]等、并多應(yīng)用于圖像分割、調(diào)度和旅行商問題[7-9]等,國內(nèi)也有將其改進之后應(yīng)用于其他領(lǐng)域、馬建華等將算法引入自由曲面測量序列規(guī)則的研究[10]、曾冰等將其應(yīng)用于裝配序列規(guī)劃研究中[11]、都取得了較好的結(jié)果。但在近紅外光譜處理領(lǐng)域還未有應(yīng)用、本實驗通過測量丁二酸發(fā)酵過程中發(fā)酵液的吸光度光譜、將FA方法進行修改后應(yīng)用于光譜波長變量的篩選、優(yōu)選后的波長變量由PLS建立校正模型?,F(xiàn)今、多采用GA遺傳算法作為光譜變量篩選方法[12]、所以在最后不僅與全光譜、還與標準GA-PLS波長優(yōu)選方法進行比較、證明了該方法能夠較好地處理波長變量優(yōu)選問題。
1.1 螢火蟲算法
1.1.1 標準螢火蟲算法
在應(yīng)用螢火蟲算法時需要作出三個假設(shè)[5]:
(1) 所有的螢火蟲沒有性別之分。
(2) 吸引度與亮度成正比。亮度越大說明吸引度越大,即亮度低的個體向更高的個體移動。個體的相對位置和光照吸收率可以影響吸引度大小。
(3) 當螢火蟲個體是可見范圍內(nèi)最亮的時,該螢火蟲將在空間內(nèi)隨機移動。
在標準螢火蟲算法中、分別定義了距離、亮度(吸引力)和移動規(guī)則等參數(shù)。其數(shù)學描述如下:
在螢火蟲算法中、螢火蟲p對螢火蟲q之間的距離定義如下
(1)
式(1)中、d為個體螢火蟲的坐標維數(shù)、Vp,s和Vq,s分別是空間坐標Vp和Vq的第s維分量。
螢火蟲p對螢火蟲q吸引度β定義如下
(2)
式(2)中、β0為螢火蟲之間的距離為0時的吸引力、光照吸收率γ為待定參數(shù)。
當螢火蟲p受到螢火蟲q吸引力較大時、螢火蟲p的移動規(guī)則如下
(3)
式(3)中、步長系數(shù)a為待定參數(shù)、rand為0到1之間的隨機數(shù)。
1.1.2 離散化FA算法
標準螢火蟲算法的解空間是連續(xù)的實數(shù)域、為了將FA算法應(yīng)用于近紅外光譜的特征提取、FA算法需要進行離散化處理以及適合于波長選擇的修改。
首先要對螢火蟲的位置進行重新編碼、由于近紅外光譜波長變量數(shù)較大、且相鄰波長之間的特性相似、將波長變量分為若干個區(qū)間、從而進行區(qū)間的選擇、采用二進制編碼0/1分別代表選中的區(qū)間以及未被選中的區(qū)間。
個體螢火蟲形式為:
Ii=[ii,1,ii,2,…、ii,n]Ii,n為波長點
其距離公式則變?yōu)槿缦滦问?/p>
rpq=Ip-Iq
(4)
由式(2)可看出、吸引度β只隨著距離的增大而變?nèi)酢⒍c螢火蟲的絕對亮度(目標函數(shù)值)無關(guān)、與實際情況不符、式(2)中的β0可采用公式(5)計算
(5)
即計算兩個螢火蟲亮度之差并進行歸一化處理。將式(5)帶入式(2)可得到兩只螢火蟲之間的亮度與距離關(guān)系、當距離不變相對亮度變大、相應(yīng)的吸引力也會變強、反之變?nèi)酰?當相對亮度不變距離變大、吸引力下降、反之變強。
在大種群中、螢火蟲個體分布稀疏時、難以找到具有強吸引力的螢火蟲、只能隨機振蕩。通過增加種群最優(yōu)值對群體中的其他個體提供牽引作用、提高種群中個體螢火蟲的信息往來。將移動公式修改為如式(6)[13]
(6)
其中、式ωrand(Ibest-Ip)體現(xiàn)了當前種群最優(yōu)個體對其他螢火蟲個體的影響力、ω為牽引權(quán)重、該式不僅能夠使種群之間在迭代初期保持較強的信息溝通能力、還可以促進螢火蟲種群移動的多樣性、增加可行解的搜索范圍、大大提高尋找全局優(yōu)化解的可能性。同時、將種群最優(yōu)螢火蟲替換最差螢火蟲、即采用精英保留策略、加快收斂速度。
文獻[14]報道以閾值為分界點、通過比較閾值、決定其是0或1。本研究中采用了文獻中計算閾值的改進方法、為了使閾值落于[0,1]、使用映射式(7)
(7)
在采用以上策略離散化后、通過結(jié)合標準螢火蟲算法流程與離散化參數(shù)的數(shù)學描述、得到離散螢火蟲算法。在近紅外光譜波長優(yōu)選中、選用校正模型的性能指標之一的交叉驗證均方根誤差作為目標函數(shù)、其公式為
(8)
Yi為真實值、Yv為預測值、n為校正集樣本數(shù); 將RMSECV作為離散螢火蟲算法的目標函數(shù)、得到算法流程偽代碼。
初始化種群:Ii
算法參數(shù)的設(shè)定:光照吸收率γ、步長參數(shù)α、牽引權(quán)重ω
While(t For i=1: n For j=1: n If(RMSECVj>RMSECVi) If(f(Ij’)>rand(1)) Ij= Ii If(RMSECVi>RMSECVj) If(f(Ii’)>rand(1)) Ii= Ij Endfor j Endfor i 更新RMSECV值、標記最亮螢火蟲位置 Endwhile 2.1 NIR光譜的采集 光譜采集裝置采用Sol1.7型號的近紅外光纖光譜儀(BWTek公司)、光譜測量所用光源為恒流鹵鎢燈、所測樣本為實驗室中5L發(fā)酵罐中的丁二酸發(fā)酵液、每30 min取一次、共取78個樣本、樣品經(jīng)離心取上清液。采用光程為10 mm的光纖探頭進行檢測、在常溫、恒定pH 6.8條件下進行近紅外光譜的測量、光譜采集掃描32次、取平均值代表該樣品光譜、分辨率為4 nm、掃描范圍900~1 700 nm。本實驗光譜數(shù)據(jù)的采集使用光譜儀自帶采集軟件BWSpec4、數(shù)據(jù)的預處理與相關(guān)算法的實現(xiàn)均采用Matlab軟件實現(xiàn)、78個樣品的近紅外吸光度光譜圖如圖1所示。 圖1 原始近紅外光譜 表1 丁二酸濃度的統(tǒng)計學結(jié)果 所測發(fā)酵液中目標成分丁二酸、利用高效液相色譜方法(HLPC)測其含量[15]、其化學值統(tǒng)計如表1所示。 采用蒙特卡羅法剔除了奇異樣本6個、剩下的樣本將運用K-S方法將樣本集分為校正集55以及驗證集16。 2.2 DFA變量篩選 2.2.1 調(diào)節(jié)參數(shù) 在DFA中、除了種群大小P對DFA算法的迭代效率有所影響外、需要調(diào)節(jié)算法中的光照吸收率γ、步長系數(shù)α、牽引權(quán)重ω。默認對DFA算法進行多次運算、取適應(yīng)度函數(shù)最優(yōu)值作為結(jié)果、并取其平均值作為參數(shù)調(diào)整過程的評判標準。 P以10為間隔、取值范圍從20~80、當P值增加、提高了種群的多樣性、經(jīng)多次迭代嘗試后、當P取值在40以上、尋優(yōu)精度并無提高、無需再增加種群規(guī)模、體現(xiàn)了螢火蟲算法的并行特性。 γ以0.2的間隔取值為[0.1,1.6]; 其他參數(shù)默認不變的情況下、γ變化與適應(yīng)度函數(shù)值的關(guān)系如圖2(a)所示。 圖2 RMSECV隨γ參數(shù)變化的趨勢圖 圖3 RMSECV隨α參數(shù)變化的趨勢圖 由圖2(b)可看出、隨著γ變大、RMSECV收斂漸緩、當其值在0.1~0.4時最終RMSECV趨于平穩(wěn)、當超過0.4后、最小RMSECV值逐漸增大、即校正模型的性能逐漸變差。 適應(yīng)度函數(shù)值隨著α的變化而受到影響、變化情況如圖3所示。 α的取值范圍為[1,10]、間隔為1。由圖3(b)可知、當α增至7時、最小RMSECV達到最佳、隨后校正模型變差、由于圖3(a)中RMSECV采用的是多次計算取平均、8之后的取值在迭代過程中、其終止結(jié)果變化范圍較大、說明優(yōu)選結(jié)果極易陷入局部最優(yōu)。 牽引權(quán)重ω表示每次種群迭代中最優(yōu)螢火蟲所占權(quán)重、在牽引權(quán)重公式中加入衰減系數(shù)Δ、迭代初始期需要接近于1的ω、以增強種群中各螢火蟲的聯(lián)系、快速收斂至全局最優(yōu)、而隨著ω的逐漸變小、在迭代后期、逐漸脫離消除當前最優(yōu)螢火蟲的影響、以免陷入局部最優(yōu)。 由以上可知、DFA算法的參數(shù)設(shè)定如表2所示。 表2 DFA的相關(guān)參數(shù)設(shè)置 2.3.2 變量選擇 參數(shù)設(shè)定后、采用DFA算法對光譜數(shù)據(jù)進行篩選、經(jīng)算法處理后、如圖3所示、根據(jù)波長變量頻率由高到低進行選擇、圖3中虛線表示所選變量頻率次數(shù)最低值、當某段區(qū)域的迭代次數(shù)低于該閾值時、即表示忽略該區(qū)域; 反之、選擇該區(qū)域。而閾值從50開始遞減、步長為2、隨著噪音和不相關(guān)區(qū)域的去除、模型性能指標趨于穩(wěn)健和精準、而閾值繼續(xù)減小會去除含有有效信息的區(qū)域、以此判斷并確定閾值大小。 由圖4可知、其選擇的區(qū)域主要在1 370~1 420、1 550~1 560和1 570~1 610 nm等波段、而丁二酸中甲基基團吸收峰多集中于1 100~1 200、1 350~1 400和1 650~1 700 nm區(qū)域、次甲基吸收峰多集中于1 150~1 200、1 400~1 450和1 650~1 700 nm區(qū)域、其羧基官能團在1 900 nm處吸收峰明顯、可看出所選擇的主要區(qū)域與理論有機基團吸收峰區(qū)域大多有所重疊、同時DFA選擇了少量相關(guān)性較強的吸收譜帶、以增加建立模型所需的信息量。 圖4 波長變量的選擇分布 2.4 建立校正模型 表3 丁二酸濃度的各定量校正模型性能比較 圖5 校正模型回歸 由表3可知、兩種波長變量篩選方法均能很好的提高校正模型的預測精度、但DFA效果要優(yōu)于標準GA優(yōu)化算法以及全光譜建模、變量數(shù)由494降至45、變量數(shù)要少于GA優(yōu)化方法所篩選的變量數(shù)、且模型的相關(guān)系數(shù)以及RMSECV也要優(yōu)于以上兩種方法、可看出在波長選擇階段、FA算法不僅盡可能的剔除了噪聲數(shù)據(jù)、而且保存了較穩(wěn)定的波段用于校正模型的建立。基于DFA波長優(yōu)選建立的模型回歸效果如圖5所示。 基于發(fā)酵過程中發(fā)酵液丁二酸含量建立近紅外光譜PLS校正模型、對近紅外光譜進行波長優(yōu)選、實驗結(jié)果顯示DFA波長優(yōu)選建立的PLS校正模型優(yōu)于全光譜、GA優(yōu)化算法; 提高了模型建立的效率、增強了模型的精確性和穩(wěn)定性。本文只針對近紅外光譜波段優(yōu)選的應(yīng)用進行了部分修改、還可與其他傳統(tǒng)波長優(yōu)選方法進行混合應(yīng)用或利用優(yōu)化算法進行DFA的參數(shù)調(diào)節(jié)、繼而提高算法的普適性和外推能力。說明了DFA以及其所代表的群智能算法在近紅外光譜分析領(lǐng)域具有巨大潛力與實用價值。 該算法也有其不足之處、如參數(shù)調(diào)節(jié)對其收斂性影響較大、理論基礎(chǔ)薄弱等。螢火蟲算法在近紅外分析領(lǐng)域的理論和應(yīng)用兩方面都有重要意義。 [1] CHU Xiao-li、YUAN Hong-fu(褚小立、袁洪福). Modern Instruments(現(xiàn)代儀器),2011、17(5): 1. [2] KONG Cui-ping、CHU Xiao-li、DU Ze-xue,et al(孔翠萍、褚小立、杜澤學、等). Chinese Journal of Analytical Chemistry(分析化學),2010、38(6): 805. [3] XIA A-lin、YE Hua-jun、ZHOU Xin-qi,et al(夏阿林、葉華俊、周新奇、等). Chinese Journal of Analysis Laboratory(分析試驗室),2010,29(9): 18. [4] GUO Zhi-ming、HUANG Wen-qian、PENG Yan-kun,et al(郭志明、黃文倩、彭彥昆、等). Chinese Journal of Analytical Chemistry(分析化學),2014,42(4): 513. [5] Yang Xinshe. Firefly Algorithms for Multimodal Optimization. International Symposium on Stochastic Algorithms SAGA 2009: Stochastic Algorithms: Foundations and Applications,2009. 169. [6] Zouache D,Nouioua F,Moussaoui A. Soft Computing,2016,20(7): 1. [7] Rodrigues P S,Wachs-Lopes G A,Erdmann H R,et al. Pattern Analysis and Applications,2015,18(2): 1. [8] Karthikeyan S,Asokan P,Nickolas S. The International Journal of Advanced Manufacturing Technology,2014,72(9-12): 1567. [9] Jati G K,Suyanto. Evolutionary Discrete Firefly Algorithm for Travelling Salesman Problem. in: Adaptive and Intelligent Systems,Springer-Verlag Berlin Heidelberg,2011. 393. [10] LI Ming-fu、MA Jian-hua、ZHANG Yu-yan,et al(李明富、馬建華、張玉彥、等). Computer Integrated Manufacturing System(計算機集成制造系統(tǒng)),2014、33(12): 2719. [11] CENG Bing、LI Ming-fu、ZHANG Yi,et al(曾 冰、李明富、張 翼、等). Journal of Mechanical Engineering(機械工程學報),2013、49(11): 177. [12] CHU Xiao-li、YUAN Hong-fu、LU Wan-zhen(褚小立、袁洪福、陸婉珍). Progress in Chemistry(化學進展),2004、16(4): 528. [13] FU Qiang、TONG Nan、ZHONG Cai-ming,et al(符 強、童 楠、鐘才明、等). Computer Science(計算機科學),2014、41(3): 228. [14] Chandrasekaran K,Simon S P,Padhy N P. Information Sciences,2013,249(2): 67. [15] CAI Ting、SU Li、CHEN Ke-quan,et al(蔡 婷、蘇 溧、陳可泉、等). Chinese Journal of Bioprocess Engineering(生物加工過程),2007、5(1): 66. Wavelength Variable Selection Method in Near Infrared Spectroscopy Based on Discrete Firefly Algorithm LIU Ze-meng1,ZHANG Rui2,ZHANG Guang-ming1*,CHEN Ke-quan2* 1. College of Electrical Engineering and Control Science,Nanjing Tech University、Nanjing 211816,China 2. College of Biotechnology and Pharmaceutical Engineering,Nanjing Tech University、Nanjing 211816,China Discrete firefly algorithm; Near infrared spectroscopy; Wavelength variable selection; Succinic acid fermentation Aug. 27,2015; accepted Dec. 9,2015) 2015-08-27、 2015-12-09 國家(863計劃)項目(2015AA021005)、江蘇省產(chǎn)學研聯(lián)合創(chuàng)新基金項目(BY2014005-07)資助 劉澤蒙、1990年生、南京工業(yè)大學電氣工程與控制科學學院碩士研究生 e-mail:wfwgghb@njtech.edu.cn *通訊聯(lián)系人 e-mail:kqchen@njtech.edu.cn; zgmchina@163.com O657.3 A 10.3964/j.issn.1000-0593(2016)12-3931-06 *Corresponding authors2 結(jié)果與討論
3 結(jié) 論