唐 旭 程建川
(東南大學(xué)交通學(xué)院 南京 210000)
當(dāng)前,環(huán)境污染和能源危機(jī)問(wèn)題的關(guān)注度越來(lái)越高。交通運(yùn)輸作為能源消耗的載體和環(huán)境污染的來(lái)源之一,降低其環(huán)境污染和提高能源利用率至關(guān)重要。作為一種綠色環(huán)保的交通方式,公共交通是民眾出行的主要方式之一,大力發(fā)展公共交通,是緩解城市交通擁堵問(wèn)題的重要途徑。研究表明,1輛燃油公交車(chē)尾氣污染物排放量相當(dāng)于50輛小汽車(chē)的排放量[1]。但由于傳統(tǒng)的燃油公交車(chē)的使用頻率較高且數(shù)量較多,其對(duì)環(huán)境的影響不容忽視,研究公共交通的污染排放意義重大。
隨著公交車(chē)新能源化比例的提高,液化天然氣(liquefied natural gas, LNG)能源利用技術(shù)已較為成熟,LNG公交車(chē)也已有一定的保有量。LNG在液化過(guò)程中,已經(jīng)除去了二氧化碳、硫化物、氮?dú)?、固體雜質(zhì)和水,潔凈度大大提高。但是隨著新能源的發(fā)展,越來(lái)越多的純電動(dòng)公交車(chē)開(kāi)始投入使用,電動(dòng)公交車(chē)的零排放,噪聲小,行駛穩(wěn)定性高,優(yōu)勢(shì)突出,成為公交車(chē)發(fā)展的一個(gè)趨勢(shì),但是由于公交車(chē)充電電池的使用性能較差,充電樁安裝數(shù)目有限,公交車(chē)充電占據(jù)了較大的空間和較長(zhǎng)的時(shí)間,成為其發(fā)展的主要瓶頸,因此,采用LNG公交車(chē)成為現(xiàn)階段減少尾氣排放的一種重要的方式。傳統(tǒng)燃油公交車(chē)排放已有大量研究,LNG車(chē)輛作為清潔能源車(chē)輛的過(guò)渡產(chǎn)物,關(guān)注量較少,且目前運(yùn)營(yíng)企業(yè)大量投放純電動(dòng)公交車(chē),在運(yùn)營(yíng)階段已基本無(wú)尾氣排放。因此本文針對(duì)LNG排放問(wèn)題開(kāi)展了研究。
近些年來(lái),數(shù)據(jù)挖掘的技術(shù)越來(lái)越多地應(yīng)用到交通領(lǐng)域的各個(gè)方面。李晉等[2]基于AIS船舶數(shù)據(jù),構(gòu)建了基因算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的船舶交通流量預(yù)測(cè)模型、K-means模型、灰色預(yù)測(cè)的組合預(yù)測(cè)模型,為交通數(shù)據(jù)的挖掘分析、預(yù)測(cè)回歸提供了一種新的思路。楊書(shū)霞等[3]提出運(yùn)用灰色系統(tǒng)理論的方法,對(duì)我國(guó)交通事故的財(cái)產(chǎn)損失進(jìn)行了預(yù)測(cè),基于大數(shù)據(jù)的挖掘處理技術(shù),建立分析預(yù)測(cè)模型,分析了與我國(guó)交通事故財(cái)產(chǎn)損失關(guān)系最密切的統(tǒng)計(jì)指標(biāo)。LNG公交車(chē)的尾氣排放與多種因素有關(guān),但是其存在一定的規(guī)律性。通過(guò)實(shí)驗(yàn)收集數(shù)據(jù),將收集到的數(shù)據(jù)存儲(chǔ)并建模分析,尋找其內(nèi)在的規(guī)律,然后利用其規(guī)律對(duì)于其未來(lái)工況下的尾氣排放進(jìn)行預(yù)測(cè),是分析LNG公交車(chē)尾氣排放預(yù)測(cè)模型的重要方法。經(jīng)檢測(cè)LNG公交車(chē)的尾氣污染物主要包含CO,CO2,HC,NOx等。通過(guò)現(xiàn)場(chǎng)實(shí)驗(yàn),可在行駛過(guò)程中對(duì)4種尾氣排放量進(jìn)行實(shí)時(shí)監(jiān)測(cè),同時(shí)獲取該狀態(tài)下的乘客數(shù)、海拔高度、行駛距離、速度、加速度等參數(shù),這些參數(shù)均與汽車(chē)尾氣排放量相關(guān)。
在國(guó)內(nèi)外的研究中,于泳波對(duì)LNG公交車(chē)、柴油國(guó)Ⅲ排放、柴油國(guó)Ⅳ排放和油電混合動(dòng)力等4類(lèi)不同類(lèi)型的公交車(chē)尾氣排放進(jìn)行了分析,分析采用相同的方法,將機(jī)動(dòng)車(chē)比功率(vehicle specitic power,VSP)進(jìn)行離散化處理,對(duì)于路段行駛狀態(tài),采用模型樹(shù)的方法;對(duì)于節(jié)點(diǎn)怠速狀態(tài),采用均值估計(jì)的方法[4],得出了油電混合動(dòng)力公交車(chē)的尾氣排放量最小,國(guó)Ⅳ排放標(biāo)準(zhǔn)的公交車(chē)遠(yuǎn)遠(yuǎn)比國(guó)Ⅲ的更環(huán)保,而液化天然氣車(chē)輛在CO2,HC等污染氣體的排放量上處于4種車(chē)輛中最高等結(jié)論。然而該方法也存在一些問(wèn)題,例如當(dāng)時(shí)間較短時(shí),預(yù)測(cè)結(jié)果存在小幅波動(dòng)的現(xiàn)象,說(shuō)明在怠速節(jié)點(diǎn)的預(yù)測(cè)精度有待提高。此外,機(jī)動(dòng)車(chē)的比功率是一個(gè)綜合性指標(biāo),該方法中計(jì)算參數(shù)的選取帶有偶然性。車(chē)輛尾氣的排放與多種因素相關(guān),該模型未體現(xiàn)出其他狀態(tài)因素對(duì)于尾氣排放量的影響。高天智等[5]利用有效的仿真數(shù)據(jù)結(jié)合CMEM模型進(jìn)行了汽車(chē)尾氣排放量預(yù)測(cè),得到了基于路段平均速度的尾氣排放公式,但并未考慮其他影響因素。Pan等[6]考慮速度和VSP2個(gè)主要影響因素,利用不同的分類(lèi)組合箱的方式進(jìn)行回歸分析,訓(xùn)練數(shù)據(jù)得到模型,并進(jìn)行驗(yàn)證,考慮了由于速度不同而得到的怠速、正常行駛等工況,得到了較高的準(zhǔn)確率,其僅僅考慮了兩方面的參數(shù)影響,如果加上其他影響因素,則模型與方法不可用。于謙[7]通過(guò)實(shí)驗(yàn)測(cè)試得知,乘客載重量會(huì)影響到車(chē)輛尾氣排放狀況。怠速及低速排放估算模型中可適當(dāng)忽略公交車(chē)載重量變化對(duì)排放帶來(lái)的影響,但在高速的排放估算模型中,忽略載重量的變化會(huì)帶來(lái)約49%的估算誤差。竟峰等[8]使用GPS對(duì)上海市公交車(chē)多條運(yùn)行線(xiàn)路進(jìn)行了實(shí)時(shí)運(yùn)行速度測(cè)量,得到了上海公交車(chē)運(yùn)行模式的BIN分布,對(duì)上海市CNG(壓縮天然氣)公交車(chē)和柴油公交車(chē)的尾氣排放進(jìn)行了模擬計(jì)算。結(jié)果表明使用CNG公交車(chē)代替柴油公交車(chē)后, NOx的排放有顯著的降低,但采用不同技術(shù)的CNG公交車(chē)尾氣排放仍有很大的差異,無(wú)催化轉(zhuǎn)化和尾氣再循環(huán)的CNG公交車(chē)的CO排放量遠(yuǎn)高于同類(lèi)型柴油公交車(chē)的排放量。
目前,對(duì)于LNG公交車(chē)尾氣排放預(yù)測(cè)問(wèn)題,現(xiàn)有的預(yù)測(cè)方法未建立預(yù)測(cè)誤差較小的各個(gè)因素綜合影響的模型,在模型參數(shù)的選擇上存在一定的主觀(guān)性。本文旨在通過(guò)數(shù)據(jù)挖掘及處理的方法,綜合考慮尾氣排放的影響因素,建立綜合影響模型,提高預(yù)測(cè)模型的準(zhǔn)確度。
支持向量機(jī)(support vector machine, SVM)是一種有效的分類(lèi)回歸的方法,可提高訓(xùn)練和檢測(cè)的速度,為多類(lèi)問(wèn)題找到有效的解決方法。LIBSVM 是一個(gè)高效、易用的 SVM 分類(lèi)與回歸的軟件包。謝申汝等[9]基于LIBSVM提出了合肥市PM 2.5濃度預(yù)測(cè)模型,分析了不同污染物的濃度和不同的天氣狀況下的預(yù)測(cè)誤差,預(yù)測(cè)模型具有一定的準(zhǔn)確性。對(duì)于汽車(chē)尾氣排放的問(wèn)題,與其他模型相比較,LIBSVM回歸預(yù)測(cè)模型可獲得較高的預(yù)測(cè)精度。
目前的研究中,LIBSVM的預(yù)測(cè)方法多用于金融、計(jì)算機(jī)等領(lǐng)域,其參數(shù)的選取及方法的選用均具有局限性。對(duì)于LNG公交車(chē)的尾氣預(yù)測(cè)模型,其參數(shù)方法均需要進(jìn)行調(diào)整。本研究旨在利用LIBSVM的工具包,尋找適用于LNG公交車(chē)尾氣排放預(yù)測(cè)模型的參數(shù)及方法,建立適用于本研究問(wèn)題的預(yù)測(cè)模型。
移動(dòng)源便攜式排放測(cè)量系統(tǒng)(portable emissions measurement system,PEMS)能夠在車(chē)輛實(shí)際行駛條件下,通過(guò)放置在車(chē)輛上的車(chē)載排放測(cè)試設(shè)備,對(duì)排放污染物進(jìn)行測(cè)量[10],它能夠在不影響車(chē)輛正常使用的情況下,得到車(chē)輛在實(shí)際工況條件下的排放數(shù)據(jù),并連續(xù)收集一部分排氣作為樣本,在分析設(shè)備中進(jìn)行分析。具有簡(jiǎn)單易行、數(shù)據(jù)真實(shí)、可靠度高等優(yōu)點(diǎn),廣泛使用在車(chē)輛尾氣的信息收集上。
本次調(diào)查時(shí)間為2016年4月12日,選取鎮(zhèn)江市的3輛51路液化天然氣公交車(chē)作為調(diào)查對(duì)象。采集的數(shù)據(jù)主要有以下3個(gè)來(lái)源:①移動(dòng)源便攜式排放測(cè)量系統(tǒng),對(duì)行駛狀態(tài)車(chē)輛尾氣進(jìn)行實(shí)時(shí)測(cè)量;②車(chē)載GPS記錄儀,記錄車(chē)輛的行駛狀態(tài)信息;③調(diào)查人員,記錄車(chē)廂內(nèi)乘客人數(shù)信息。
移動(dòng)源便攜式排放測(cè)量系統(tǒng)每2~3 s記錄1次尾氣排放量的數(shù)據(jù),車(chē)載GPS記錄儀每2 s記錄1次車(chē)輛位置信息。為了有效地將實(shí)測(cè)數(shù)據(jù)應(yīng)用于研究,采用線(xiàn)性插值的方法計(jì)算,相對(duì)時(shí)間取1 s,將尾氣排放量除以時(shí)間差(時(shí)間差單位:s),可得到每單位時(shí)間內(nèi)的尾氣排放量。GPS記錄儀可測(cè)得海拔高度、行駛距離、行駛時(shí)間等數(shù)據(jù)。同樣采取線(xiàn)性插值的方法,用行駛距離除以時(shí)間,得到速度;用海拔高度之差除以行駛距離,得到坡度;由速度隨時(shí)間的變化關(guān)系,得到加速度。由調(diào)查人員記錄的乘客人數(shù)信息,再加上車(chē)空載時(shí)的質(zhì)量信息,可以得到公交車(chē)在任一狀態(tài)下的質(zhì)量,其對(duì)預(yù)測(cè)模型是有影響的,故添加到支持向量機(jī)模型的數(shù)據(jù)庫(kù)內(nèi)。最后將處理得到的數(shù)據(jù)融合到1個(gè)數(shù)據(jù)集內(nèi)[11]。
VSP的概念最早是Watson等[12]在1983年時(shí)提出的“positive kinetic energy”,后由美國(guó)環(huán)境保護(hù)署(USEPA)正式提出機(jī)動(dòng)車(chē)比功率這一概念[13],在機(jī)動(dòng)車(chē)行駛過(guò)程中,由于受到道路環(huán)境和交通流的影響,會(huì)產(chǎn)生機(jī)動(dòng)車(chē)行駛狀態(tài)的變化,從而引起車(chē)輛功率需求的變化,進(jìn)而導(dǎo)致發(fā)動(dòng)機(jī)油耗和排放的變化[14],機(jī)動(dòng)車(chē)比功率包含了駕駛條件對(duì)機(jī)動(dòng)車(chē)排放的影響[15]。
VSP是單位質(zhì)量機(jī)動(dòng)車(chē)的瞬時(shí)功率,它表示發(fā)動(dòng)機(jī)克服車(chē)輪滾動(dòng)阻力、空氣動(dòng)力學(xué)阻力做功,以及增加機(jī)動(dòng)車(chē)動(dòng)能和勢(shì)能所需要輸出的功率和因內(nèi)摩擦阻力造成傳動(dòng)的機(jī)械損失功率。計(jì)算公式為
式中:Ft為公共汽車(chē)的牽引力,N;Ff為滾動(dòng)阻力,N;Fw為風(fēng)的阻力,N;Fi為坡道阻力,N;Fi為加速阻力,N;g為重力加速度,一般取9.8 m/s;f為滾動(dòng)阻力系數(shù),是一個(gè)無(wú)量綱的量變量,一般取值為0.009 38;εi為質(zhì)量因子,一般取值為0.15;ρa(bǔ)為空氣密度,為了簡(jiǎn)化計(jì)算,可以使用1.027 kg/m3來(lái)代替;CD為阻力系數(shù),值為0.6;A為公共汽車(chē)前部的面積,為8.3 m2;a為加速度,m/s2(可以由測(cè)量數(shù)據(jù)集獲得);v為行駛速度,同樣可以由測(cè)量數(shù)據(jù)集獲得,為m/s;m為公共汽車(chē)的總質(zhì)量,包括凈重和載客重量,公共汽車(chē)的凈重是15 000 kg,為了簡(jiǎn)化計(jì)算,旅客人數(shù)按旅客人數(shù)乘50 kg計(jì)算,質(zhì)量為影響因素的計(jì)算方法相同;α為道路坡度,可以通過(guò)計(jì)算2個(gè)點(diǎn)之間的高度差來(lái)獲得。將LNG公交車(chē)已知信息參數(shù)代入公式,可得到VSP的簡(jiǎn)化計(jì)算公式。
以上計(jì)算公式中,參數(shù)v,a,m,α可由數(shù)據(jù)來(lái)源的處理得到。通過(guò)模型的驗(yàn)證,若考慮上一狀態(tài)的VSP及當(dāng)前狀態(tài)的影響因素,獲得的模型的準(zhǔn)確度有待提高。但若僅考慮當(dāng)前狀態(tài)的影響因素,則模型準(zhǔn)確度較高。故采用支持向量機(jī)的分析預(yù)測(cè)模型的影響因素考慮當(dāng)前狀態(tài)的數(shù)據(jù)參數(shù)。
支持向量機(jī)源于Vapnik和Chervonenkis關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論的早期工作[16],由于其對(duì)復(fù)雜非線(xiàn)性邊界的建模能力,可以取得較高的準(zhǔn)確性,而且該模型與其他模型相比,不太容易過(guò)分?jǐn)M合,因此被廣泛應(yīng)用[17]。
支持向量機(jī)是一種對(duì)線(xiàn)性和非線(xiàn)性數(shù)據(jù)進(jìn)行分類(lèi)的方法。對(duì)于線(xiàn)性可分的情況,SVM通過(guò)搜索最大邊緣超平面,使用拉格朗日公式進(jìn)行改寫(xiě),可得到優(yōu)化的算法[18]。當(dāng)數(shù)據(jù)線(xiàn)性不可分時(shí),可以使用一種非線(xiàn)性映射,把原訓(xùn)練數(shù)據(jù)映射到較高的維上,在新的維上搜索最佳分離超平面,即將某一類(lèi)的元素與其他類(lèi)分離的“決策邊界”[19]。當(dāng)映射到足夠高的維上時(shí),尋找合適的核函數(shù)作為非線(xiàn)性映射,2個(gè)類(lèi)的數(shù)據(jù)總可以被超平面分開(kāi)[20]。核函數(shù)主要有3種類(lèi)型:h次多項(xiàng)式核函數(shù)、高斯徑向基核函數(shù)、S形核函數(shù)。每個(gè)不同的核函數(shù)都會(huì)導(dǎo)致原輸入空間不同的非線(xiàn)性分類(lèi)器。
SVM在回歸方面也有應(yīng)用,用于大型數(shù)據(jù)集,可提高訓(xùn)練和檢驗(yàn)速度,并具有較高的模型預(yù)測(cè)精度[21]。目前,SVM應(yīng)用在分類(lèi)上較多,而應(yīng)用在交通數(shù)據(jù)回歸上的研究較少,且SVM回歸要求各輸入變量之間相互獨(dú)立,不存在數(shù)學(xué)關(guān)系,對(duì)于支持向量回歸提出了更高的要求。本文重點(diǎn)解決應(yīng)用在公交車(chē)尾氣排放問(wèn)題中的支持向量回歸的問(wèn)題。
支持向量回歸預(yù)測(cè)模型(library for support vector machines,LIBSVM)是一個(gè)支持向量機(jī)的軟件庫(kù),是由臺(tái)灣大學(xué)林智仁副教授研發(fā)的一個(gè)高效、易用的 SVM 分類(lèi)與回歸的軟件包[22],SVM用于分類(lèi)或回歸時(shí),其核函數(shù)和參數(shù)的選擇只能憑借經(jīng)驗(yàn)、實(shí)驗(yàn)對(duì)比等方式,而 LIBSVM 最大的特點(diǎn)是對(duì)SVM 所涉及的參數(shù)調(diào)節(jié)相對(duì)比較少,提供了很多的默認(rèn)參數(shù),并且提供了交互檢驗(yàn)的功能[23]。
LIBSVM對(duì)于建立公交車(chē)尾氣排放預(yù)測(cè)模型,具有較大的優(yōu)勢(shì),預(yù)測(cè)精度較高,交互檢驗(yàn)功能較完善,但現(xiàn)有的研究較少。本文重點(diǎn)研究LIBSVM的方法適用于建立LNG尾氣排放預(yù)測(cè)模型上的參數(shù)及函數(shù)選取的合理性。
本研究應(yīng)用LIBSVM建立分析預(yù)測(cè)模型,模型建立過(guò)程如下。
步驟1。數(shù)據(jù)準(zhǔn)備。本研究共采集到4 784組數(shù)據(jù),為了提高模型的預(yù)測(cè)精度,同時(shí),參考不同能源動(dòng)力的公交車(chē)尾氣排放預(yù)測(cè)模型建立時(shí)的數(shù)據(jù)分配,選取70%的實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集,判別預(yù)測(cè)模型的準(zhǔn)確性。首先對(duì)數(shù)據(jù)進(jìn)行處理,得到數(shù)據(jù)集。數(shù)據(jù)集包括以下信息:質(zhì)量m,kg;行駛距離L,m;速度v,m/s;加速度a,m/s2,坡度α, CO,CO2,HC,NOx4種排放物的排放量。然后進(jìn)行數(shù)據(jù)清理,去除前10組數(shù)據(jù),避免因儀器開(kāi)機(jī)預(yù)熱造成的測(cè)量誤差。去除數(shù)據(jù)集中的突變值及異常值,由于公交車(chē)運(yùn)行過(guò)程中狀態(tài)是連續(xù)的,故4種尾氣排放量也是隨著時(shí)間而相對(duì)連續(xù)的數(shù)據(jù)。此時(shí)狀態(tài)的數(shù)據(jù)同上一狀態(tài)的數(shù)據(jù)相比,差別不能過(guò)大。通過(guò)數(shù)據(jù)的分析,將此連續(xù)數(shù)據(jù)的誤差定為20%,此時(shí)過(guò)濾的數(shù)據(jù)為28組。
為避免模型參數(shù)被分布范圍較大或較小的數(shù)據(jù)影響,對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理。其中將質(zhì)量m、行駛距離L,以及速度v,規(guī)整到[0,1]范圍內(nèi),采用的歸一化映射如下
式中,x為原始數(shù)值;xmin為數(shù)據(jù)集的最小值,xmax為數(shù)據(jù)集的最大值,x→y表示轉(zhuǎn)換后的變量值。
由于加速度a和坡度α的正負(fù)包含了加減速及上下坡信息,與發(fā)動(dòng)機(jī)工作狀態(tài)相關(guān),將其歸一化到[-1,1]范圍內(nèi),以不損失加減速及上下坡信息,采用的歸一化映射如下
式中各變量的含義同上。
步驟2。選用核函數(shù)。不同的問(wèn)題類(lèi)型選取不同的核函數(shù),預(yù)測(cè)模型一般選取應(yīng)用較為廣泛的高斯徑向基函數(shù)核函數(shù)(RBF)。
式中:K(x,xi)即為高斯函數(shù),xi是第i個(gè)樣本的輸入變量,可直接從數(shù)據(jù)庫(kù)提??;x是訓(xùn)練過(guò)程中的變量,‖x-xi‖2為2個(gè)特征向量之間的平方歐幾里得距離;σ為1個(gè)自由參數(shù)[24]。
高斯徑向基函數(shù)核函數(shù)的選用中,包含很多參數(shù),均用于LIBSVM訓(xùn)練的模型中。通過(guò)更改其中參數(shù)的值,可獲得較高的預(yù)測(cè)精度。這些參數(shù)主要包括以下幾個(gè)變量:e,設(shè)置終止準(zhǔn)則中的可容忍偏差,默認(rèn)值為0.001, 可調(diào)整為0.000 1等數(shù)值。數(shù)值越小,獲得的預(yù)測(cè)精度越高,但同時(shí)迭代次數(shù)過(guò)多,占用了過(guò)大的運(yùn)行空間,帶來(lái)了模型訓(xùn)練時(shí)間的無(wú)限度增長(zhǎng);p,調(diào)整epsilon-SVR的損失函數(shù)loss function中的epsilon參數(shù),表示衡量損失和錯(cuò)誤的程度,函數(shù)默認(rèn)0.1;n為調(diào)整分類(lèi)回歸的錯(cuò)誤率nu參數(shù),代表錯(cuò)誤集錯(cuò)誤的上限,默認(rèn)為0.5。
高斯徑向基函數(shù)核函數(shù)中的默認(rèn)參數(shù)僅僅為模型的初始化提供了一種參考,具體設(shè)置LNG公交車(chē)尾氣排放預(yù)測(cè)的參數(shù)需要進(jìn)行多次的調(diào)整。
步驟3。交叉驗(yàn)證選擇最佳參數(shù)C與g。使用 RBF 核函數(shù)時(shí),要考慮2個(gè)參數(shù)C與g。其中,C為懲罰系數(shù),即對(duì)誤差的寬容度。C越高,說(shuō)明越不能容忍出現(xiàn)誤差,但容易過(guò)擬合;C越小,則越容易欠擬合,C過(guò)大或過(guò)小,泛化能力變差。g是RBF函數(shù)自帶的一個(gè)參數(shù),隱含的決定了數(shù)據(jù)映射到新的特征空間后的分布,g越大,支持向量越少,g越小,支持向量越多,支持向量的個(gè)數(shù)影響著訓(xùn)練與預(yù)測(cè)的速度。因?yàn)閰?shù)的選擇并沒(méi)有一定的先驗(yàn)知識(shí),必須做某種類(lèi)型的模型選擇,目的是確定C和g使得模型能正確的預(yù)測(cè)未知數(shù)據(jù),有較高的預(yù)測(cè)精確率,通常采用交叉驗(yàn)證方法提高預(yù)測(cè)精度[25]。
通過(guò)非線(xiàn)性映射函數(shù)φ從低維空間映射到高維空間,從而將非線(xiàn)性模型轉(zhuǎn)化為線(xiàn)性回歸模型,即
g(xi)=wTφ(xi)+b
式中:b為閾值,w為多維空間權(quán)重向量;wT表示多維空間權(quán)重向量的轉(zhuǎn)置;g(xi)為模型轉(zhuǎn)換函數(shù);引入線(xiàn)性不敏感損失函數(shù)(進(jìn)行誤差判定。
式中,ε為損失函數(shù),F(xiàn)(w)為結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)。
根據(jù)統(tǒng)計(jì)學(xué)中的原則,模型采用最小化目標(biāo)函數(shù)的方式來(lái)求解和,即
步驟4。獲取LIBSVM模型。采用步驟3中獲得的最佳參數(shù)C與g對(duì)整個(gè)訓(xùn)練集進(jìn)行訓(xùn)練獲取LIBSVM模型。訓(xùn)練過(guò)程采用動(dòng)態(tài)更新的方式進(jìn)行,即模型總是利用當(dāng)前最新訓(xùn)練結(jié)果預(yù)測(cè)下一階段的值。
步驟5。利用模型進(jìn)行預(yù)測(cè)與驗(yàn)證。利用步驟1處理好的數(shù)據(jù),對(duì)測(cè)試集進(jìn)行模型驗(yàn)證。在LIBSVM模型中,引入均方誤差E和平方相關(guān)系數(shù)R2對(duì)所建立的回歸模型預(yù)測(cè)效果進(jìn)行判斷,其表達(dá)式為
式中:g(xi)*為參數(shù)樣本xi對(duì)應(yīng)的實(shí)際值。
步驟6。輸出模型的相關(guān)參數(shù)。模型在預(yù)測(cè)與驗(yàn)證時(shí),對(duì)于預(yù)測(cè)的結(jié)果,引入一些參數(shù)進(jìn)行表征,以驗(yàn)證除了預(yù)測(cè)精度以外,其模型的可實(shí)施性及通用性。