王 艷 芳
(遼寧省朝陽廣播電視大學, 遼寧 朝陽 122000)
在化學化工實際應用中,人們往往只有有限的樣本,使用原有的擬合建模算法,沒有明確的科學依據(jù),會導致實驗結(jié)果出現(xiàn)偏差[1]。數(shù)學家Vapnik在上世紀60年代就發(fā)現(xiàn)了這一弊端,他開始嘗試構(gòu)建一個能夠從有限樣本中準確得出預報的數(shù)學模型——統(tǒng)計學習理論[2]。這一理論經(jīng)過幾十年的發(fā)展,終于在2001年有了重大進展。Burbidge首先將支持向量機算法應用到藥物設計中,打開了化學化工應用領域的新篇章。
在化學化工領域,小樣本統(tǒng)計課題較多,所以支持機器向量算法就能在此發(fā)揮作用[3]。例如,在研究人工神經(jīng)網(wǎng)絡時,就常出現(xiàn)過擬合的弊病。有專家預測,支持機器向量算法會在未來的化學化工實驗中占據(jù)越來越重要的地位。
近年來,我國通過組建實驗室,實現(xiàn)計算機專家和化學家“一條龍”研究之路,通過進行SVM計算機編程工作,對化學化工問題進行計算建模。此外,還配合化學化工實驗的驗證工作,采用支持向量機算法分析化學中的多變量校正、商品檢驗和數(shù)據(jù)處理等,完成了新化合物預報、藥物設計以及環(huán)境污染的數(shù)學建模等一系列應用課題[4]。
雖然我國對于支持向量機算法已經(jīng)進行了不少研究,但是它在化學化工領域的研究進展明顯緩慢,出現(xiàn)這種情況的原因就是可用參考資料較少。
目前,雖已有許多關(guān)于支持向量機算法的論文,但是,這些文章大部分由數(shù)學家撰寫,其中數(shù)學術(shù)語較多,嚴重影響了化學行業(yè)專家的理解。
檢驗奶粉中蛋白質(zhì)的含量,是確保奶粉質(zhì)量的重要工作,為了使檢驗工作既保證檢驗速度,又保障奶粉不被破壞,采用了近紅外和中紅外光譜技術(shù),這項技術(shù)的核心就是運用最小二乘支持向量機算法,對蛋白質(zhì)值與廣譜透射率建模[5]。
紅外光譜技術(shù)在實際應用之前,需要進行建模工作,通過建模有助于減少蛋白質(zhì)檢測時間。支持向量機(SVM),是由統(tǒng)計學理論推導出的一種學習偏執(zhí)。它拋棄了原來統(tǒng)計學中經(jīng)驗風險最小化原則,開始使用結(jié)構(gòu)風險最小化原則。
通過改進經(jīng)典支持向量機算法得到的最小二乘支持向量機算法,可以快速解決多元建模問題,完成非線性和線性的多元建模工作。
最小二乘支持向量機通過求解線性方程來取代原來SVM的二次優(yōu)化工作,并得到支持向量,這種改進可以縮短求解時間,降低計算的復雜度,并且能夠在只有少量數(shù)據(jù)樣本的情況下,完成高維特征空間學習[6]。
2.1.1 最小二乘支持向量機
最小二乘支持向量機在建立回歸模型時使用非線性函數(shù),把輸入變量映射至高維特征空間,用等式約束條件取代優(yōu)化問題。進行支持向量機或者最小二乘支持向量機計算時,需要解決以下問題:
確定最佳輸入特征子集;計算時,需要選擇合適的核函數(shù)參數(shù);通過使用RBF核函數(shù)能夠降低計算機在訓練過程中的復雜性。
2.1.2 最小二乘支持向量機建模和預測
筆者通過了解奶粉蛋白質(zhì)含量檢測實驗的數(shù)據(jù),進行了最小二乘支持向量機建模。為了縮短建模的運算時間,縮減運算量。建模時,通過PCA降維壓縮原始光譜的輸入變量,選取了8個優(yōu)化輸入特征子集,它們的貢獻率從最高依次降低。
實驗后得到的樣本被隨機分成2部分,其中一部分用于建立最小二乘支持向量機模型,另一部分則用作預測樣本。在使用RBF核函數(shù)的最小二乘支持向量機模型中,要注重對參數(shù)ó2和γ的選擇。在此次研究中,γ在2 到210之間選擇,ó2在2到215之間選擇。
在選擇最優(yōu)的參數(shù)時,需要把 ó2和γ組合后訓練集交叉驗證平方根的最小值當做指標,搜索范圍限于兩參數(shù)確定的平面。
圖1 NIRSFig.1 NIRS
圖2 MIRSFig.2 MIRS
圖3 選優(yōu)中的粗選Fig.3 Priority Selection roughing
精選的格點數(shù)與粗選一樣,但是它能夠進行小歩長細致搜索。
2.1.3 NIRS與MIRS的比較
分別檢測NIRS與MIRS范圍光譜透射率,得到以下結(jié)果:MIRS預測奶粉蛋白質(zhì)含量的效果最佳,全波段的檢查效果也不錯,NIRS預測對奶粉蛋白質(zhì)含量的效果最不好。表1就是相關(guān)檢測數(shù)據(jù):
表1 LS-SVM和PLS模型基于不同光譜范圍的性能Table 1 LS-SVM and PLS model based on the performance of different spectral ranges
在使用硅酸鹽分析儀進行實驗時,獲得的測定數(shù)據(jù)較少,解析這些數(shù)據(jù)屬于小樣本問題。改進經(jīng)典的LSSSVM,通過粒子群優(yōu)化算法對LSSVM超參數(shù)進行優(yōu)化[7]。
使用粒子群優(yōu)化算法,把待優(yōu)化的徑向基核函數(shù)ó與參數(shù)懲罰因子γ用作搜索空間的坐標。下面是適應度函數(shù):
f(P)即回歸正確率。
粒子群優(yōu)化算法對最小二乘支持向量機算法的優(yōu)化流程如圖4。
圖4 PSO對LVSSN參數(shù)的優(yōu)化流程Fig.4 PSO optimization of process parameters for LVSSN
支持向量機算法的計算精確度遠高于人工神經(jīng)網(wǎng)絡,應用面也較廣。
比如在檢驗飛機中炸藥問題上,使用支持向量機算法可以準確計算微量元素的含量,從而判斷乘客攜帶的物品中是否有炸藥。通過多項實踐可以證明,支持向量機算法計算時出錯率很低,絕對沒有超過Fisher法與人工神經(jīng)網(wǎng)絡檢驗法。支持向量機通過與元素分析設備配合工作,可以達到更好的炸藥檢測效果[8]。
在商品檢驗中,支持向量機算法具有強大的預報能力,應該重點發(fā)揮它的優(yōu)勢。此外還應結(jié)合支持向量機和微量元素分析儀,對于商品的微量元素進行檢測,判斷商品的質(zhì)量。支持向量機算法在商品檢驗中具有很大的發(fā)展?jié)摿Γ瑧摷哟髮λ@方面功能的研究。
支持向量機算法為研制新產(chǎn)品與新材料提供了計算保障[9]。研究一種新的材料或者生產(chǎn)新的產(chǎn)品,都需要經(jīng)過漫長的實驗摸索,才能確定最佳的生產(chǎn)配方。為了縮短研究實踐時間,就必須使用高效的實驗設計算法。如此,才能爭取通過少次實驗獲得最佳的數(shù)據(jù),然后運用最佳的數(shù)據(jù)建造數(shù)學模型。試驗次數(shù)少就決定了數(shù)據(jù)信息和條件信息樣本少,要用較少的樣本進行較為準確的預報,就必須采用支持向量機算法。
隨著支持向量機算法的不斷發(fā)展,它的應用范圍也會越來越寬廣。在藥品、食品、汽車尾氣等等多個方面都已取得進展。例如,劉亮就曾經(jīng)發(fā)表過一篇論文,它主要探討的就是支持向量機算法在預報機動車綜合排氣性能方面的作用。
由上可知,支持向量機算法在化學化工行業(yè)應用廣泛,具有遠大的發(fā)展前景。我國應該加大對它的科研力度,支持計算機與化學行業(yè)工作者聯(lián)合進行SVM的分析探討工作,實現(xiàn)科研與實踐相結(jié)合,在化學化工實際生產(chǎn)應用中,不斷改進支持向量機算法。此外,還要不斷拓展支持向量機算法的應用范圍,運用SVM解決小樣本項目難題,發(fā)揮SVM的優(yōu)勢,為我國的化學研究和化工生產(chǎn)做出貢獻。
[1] 萬輝,魏延. 一種改進的最小二乘支持向量機算法[J]. 重慶師范大學學報(自然科學版),2010(04):69-72+93.
[2] 張睿,馬建文. 支持向量機在遙感數(shù)據(jù)分類中的應用新進展[J]. 地球科學進展,2009(05):555-562.
[3] 彭光金,司海濤,俞集輝,等. 改進的支持向量機算法及其應用[J]. 計算機工程與應用,2011(18):218-221.
[4] 朱星磊,安裕倫,黃祖宏,等. 喀斯特地區(qū)遙感影像解譯新算法——支持向量機算法[J]. 中國巖溶,2011(02):222-226.
[5] 顧彬,鄭關(guān)勝,王建東. 增量和減量式標準支持向量機的分析[J]. 軟件學報,2013(07):1601-1613.
[6] 謝娟英,張兵權(quán),汪萬紫. 基于雙支持向量機的偏二叉樹多類分類算法[J]. 南京大學學報(自然科學版),2011(04):354-363.
[7] 厙向陽,李崇貴,姚頑強. 遙感圖像幾何校正的支持向量機算法研究[J]. 西安電子科技大學學報,2011(05):121-128+146.
[8] 田江,顧宏. 孤立點一類支持向量機算法研究[J]. 電子與信息學報,2010(06):1284-1288.
[9] 劉爽,史國友. 基于加權(quán)超球支持向量機算法的超文本分類研究[J].大連海事大學學報,2009(01):71-74+84.