周 圣
(武漢輕工大學(xué) 湖北武漢 430000)
我國(guó)是油料生產(chǎn)和消費(fèi)的大國(guó),主要的油料作物有油菜、大豆、向日葵、胡麻、芝麻等[1]。油料及其相關(guān)制品都具有非常豐富的營(yíng)養(yǎng)功能成分,如蛋白質(zhì)、脂肪酸、維生素等,為人類的正?;顒?dòng)提供了必需的能量和營(yíng)養(yǎng)物質(zhì)[2]。氣相色譜法、液相色譜法、索氏提取法或聯(lián)用技術(shù)是目前油料品質(zhì)檢測(cè)通常采用的方法。傳統(tǒng)化學(xué)方法如字面一般,無(wú)一例外都需要使用化學(xué)試劑,操作較為煩瑣,耗時(shí)較長(zhǎng),成本普遍偏高,且無(wú)法滿足現(xiàn)場(chǎng)快速無(wú)損檢測(cè)的需要。相較于這些傳統(tǒng)化學(xué)方法,近紅外光譜技術(shù)是一種綠色、無(wú)損的快速檢測(cè)技術(shù),具有操作簡(jiǎn)單、檢測(cè)成本低、無(wú)須化學(xué)試劑、綠色環(huán)保,以及可實(shí)現(xiàn)多品質(zhì)參數(shù)同步檢測(cè)等優(yōu)點(diǎn),廣泛應(yīng)用于油料品質(zhì)的無(wú)損快速檢測(cè)。
近紅外光譜區(qū)的波長(zhǎng)范圍介于中紅外光譜區(qū)和可見光區(qū)域之間。近紅外光譜主要是含氫基團(tuán)伸縮和彎曲振動(dòng)的倍頻與合頻吸收,通過(guò)透射和漫反射兩種方式獲得,主要用于分析固、液、氣三態(tài)樣品的物理化學(xué)性質(zhì)[2]。
化學(xué)計(jì)量學(xué)方法同近紅外光譜技術(shù)緊密結(jié)合,已廣泛應(yīng)用于油料產(chǎn)品品質(zhì)的速測(cè)。近紅外光譜技術(shù)在快速測(cè)定油料特異品質(zhì)中發(fā)揮著更重要的作用,然而該技術(shù)無(wú)法像氣相色譜等傳統(tǒng)化學(xué)方法那樣得到更加精確的數(shù)值,本文提出了一種基于LinearSVR(線性支持向量回歸)的模型,用以快速預(yù)測(cè)油菜含油量,并取得了較好的結(jié)果。
支持向量機(jī)(SVM)是機(jī)器學(xué)習(xí)中較為常見的一種分類算法,支持向量機(jī)作為二分類模型,尋找一個(gè)超平面(假若數(shù)據(jù)集是X維的,那么就需要X-1維的某個(gè)對(duì)象來(lái)對(duì)數(shù)據(jù)進(jìn)行分割,這個(gè)分類的決策邊界就被稱為超平面)是它的最終目標(biāo)。分割樣本遵循的規(guī)則是使間隔最大化,最終問(wèn)題的實(shí)質(zhì)是對(duì)一個(gè)凸二次規(guī)劃問(wèn)題進(jìn)行求解。在二維空間中的點(diǎn)僅能使用非線性的超平面才能分割開來(lái),而映射到高維空間中,就能夠使用一個(gè)線性的平面給分割開。支持向量機(jī)需要完成的任務(wù)就是在這些能夠選擇的直線中選擇一條最優(yōu)的直線作為分類的直線。遇到的情況分為幾種:(1)對(duì)于線性可分的訓(xùn)練樣本,學(xué)習(xí)一個(gè)線性可分支持向量機(jī),采用硬間隔最大化的方法;(2)對(duì)于近似線性可分的訓(xùn)練樣本,學(xué)習(xí)一個(gè)線性支持向量機(jī),使用方法是軟間隔最大化;(3)對(duì)于線性不可分的訓(xùn)練樣本,學(xué)習(xí)一個(gè)非線性支持向量機(jī),方法為軟間隔最大化和核技巧。在它們當(dāng)中,坐落在數(shù)據(jù)邊界的兩邊超平面上的點(diǎn)稱為支持向量,即對(duì)于點(diǎn)的“犯錯(cuò)”的忍耐度越大越好,通俗來(lái)講就是函數(shù)的間隔越大越好,最終擬合線也是由這些點(diǎn)來(lái)確定的。
超平面表達(dá)式:f(x) =wTx+b。其中f(x)表示目標(biāo)超平面,b表示偏置參數(shù),wT表示權(quán)重參數(shù)。在SVR中,認(rèn)為只要f(x)與y偏離不大,即算預(yù)測(cè)正確,ε為擬合精度控制參數(shù)。
支持向量回歸表示,凡是在虛線內(nèi)部的值均可認(rèn)為是預(yù)測(cè)正確,需要計(jì)算的只有虛線外部值的損失。在日常的實(shí)際任務(wù)中很難確定一個(gè)切合的核函數(shù)來(lái)使得訓(xùn)練樣本在特征空間中線性可分,適逢找到了某一個(gè)核函數(shù)使得訓(xùn)練集在特征空間中線性可分,但也不能夠肯定是不是由于過(guò)擬合所造成的這個(gè)似乎是線性可分的結(jié)果。容許支持向量機(jī)在某些樣本上出現(xiàn)錯(cuò)誤是解決這個(gè)問(wèn)題的一個(gè)好辦法,因此就需要軟間隔(soft margin),即在前面介紹的支持向量機(jī)是要求在所有樣本均滿足超平面表達(dá)式的約束條件下,允許部分樣本不滿足約束,考慮到SVM中線性不可分的情形,引入拉格朗日乘數(shù),得到線性擬合函數(shù)為:
這之中αi、αi*表示拉格朗日乘子。在線性不可分的情況下,支持向量機(jī)首先是在低維空間之中完成計(jì)算,再將輸入空間映射到高維特征空間,使用的方法是核函數(shù),最后是構(gòu)造,在高維特征空間中構(gòu)造出最優(yōu)分離超平面,從而把平面上那些本身并不好分的非線性數(shù)據(jù)分開。利用低維的輸入空間,使其轉(zhuǎn)換為高維空間,即將不可分離的問(wèn)題轉(zhuǎn)化為可分離問(wèn)題,這些函數(shù)稱為核。引入核函數(shù),則得:
文中使用的數(shù)據(jù)來(lái)自中國(guó)農(nóng)業(yè)科學(xué)院油料作物研究所。由于影響油菜含油量的因素眾多,在考慮各種的因素相關(guān)性之后,探究了油菜種子中脂肪酸組分同含油量的相關(guān)性,得到圖1。
圖1 相關(guān)系數(shù)熱力圖
關(guān)于誤差的評(píng)價(jià)指標(biāo)常用的有MAE、MSE、RMSE、statD、MAPE、VAF等。本文研究的內(nèi)容是含油量的預(yù)測(cè)問(wèn)題,指標(biāo)之間是大同小異的,所以應(yīng)當(dāng)選取其中最為合適的指標(biāo)來(lái)評(píng)價(jià)預(yù)測(cè)的誤差。因此,本文僅選取MSE具有代表性的指標(biāo)來(lái)評(píng)價(jià)模型的預(yù)測(cè)效果。
其中,yi為產(chǎn)品銷量的預(yù)測(cè)值,為產(chǎn)品銷量的實(shí)際值。MSE被稱為均方誤差,從表達(dá)式中也能夠看出,MSE值越小,模型的預(yù)測(cè)效果越好。
選取C16-0、C18-0、C18-1、C18-2、C18-3、C20-1、C22-1、C22-1IN、C22-1LOW,共九項(xiàng)指標(biāo)作為模型的輸入,以油菜含油量這一項(xiàng)作為模型的預(yù)測(cè)輸出。以LinearSVR預(yù)測(cè)模型進(jìn)行分析,該模型的平均相對(duì)誤差為1.725。表1為隨機(jī)選取200 份材料中的10 份樣本進(jìn)行模型預(yù)測(cè)值與實(shí)際值的差值比較的結(jié)果。
表1 模型預(yù)測(cè)值同實(shí)際值的差值比較
由表1可知,預(yù)測(cè)模型具有良好的預(yù)測(cè)精度。
圖2是預(yù)測(cè)模型對(duì)隨機(jī)選取的10 份樣本的預(yù)測(cè)曲線圖,圖中的兩條曲線是分別根據(jù)產(chǎn)品的預(yù)測(cè)含油量和實(shí)際含油量數(shù)據(jù)繪制而成,將其放置在一張圖中能夠更加直觀地觀察預(yù)測(cè)誤差變化的情況。
圖2 油菜含油量預(yù)測(cè)
本文提出了基于LinearSVR的油菜含油量預(yù)測(cè)模型,SVR通過(guò)核函數(shù)將訓(xùn)練樣本數(shù)據(jù)進(jìn)行非線性映射至高維特征空間,并在此高維空間進(jìn)行回歸預(yù)測(cè)。實(shí)驗(yàn)表明,本文提出的基于LinearSVR的油菜含油量預(yù)測(cè)模型具有良好的預(yù)測(cè)準(zhǔn)確度。與此同時(shí),后續(xù)的改進(jìn)及創(chuàng)新主要為:油菜含油量受多種因素影響,相互間的關(guān)系也較為復(fù)雜,接下來(lái)的工作中,可能考慮引入多目標(biāo)的混合算法,通過(guò)對(duì)受多個(gè)因素影響的含油量進(jìn)行最優(yōu)規(guī)劃,進(jìn)而得到更加準(zhǔn)確的模型預(yù)測(cè)值。