王晨曦
(漳州職業(yè)技術(shù)學(xué)院 計(jì) 算機(jī)工程系,福建 漳 州 363000)
支持向量機(jī)與其他軟計(jì)算方法相結(jié)合用于多屬性的預(yù)測(cè)與診斷取得了良好的結(jié)果,文獻(xiàn)[1-2]結(jié)合粗糙集屬性約簡(jiǎn)及支持向量機(jī)分類機(jī)理分別用于故障診斷與入侵檢測(cè);文獻(xiàn)[3]利用粗糙集減少對(duì)象數(shù)以及刪除冗余屬性來提高支持向量機(jī)性能;文獻(xiàn)[4]提出了一種基于粗糙集邊界的支持向量機(jī);文獻(xiàn)[5]提出了一種灰關(guān)聯(lián)因子分析和支持向量機(jī)的混合算法;文獻(xiàn)[6]利用模糊支持向量機(jī)結(jié)合遺傳算法改進(jìn)泛化性能來提高預(yù)測(cè)精度;文獻(xiàn)[7-8]將灰色系統(tǒng)與支持向量機(jī)進(jìn)行融合,并應(yīng)用于預(yù)測(cè)等方面。
本文針對(duì)多屬性且屬性值為連續(xù)的決策系統(tǒng),提出了灰粗糙支持向量回歸模型,并通過結(jié)合Pawlak屬性重要度與灰關(guān)聯(lián)度進(jìn)行約簡(jiǎn),不僅降低離散化帶來的信息損失,而且刪除冗余屬性,然后將約簡(jiǎn)后的訓(xùn)練集對(duì)支持向量回歸機(jī)進(jìn)行訓(xùn)練,再將約簡(jiǎn)后的測(cè)試集結(jié)合灰關(guān)聯(lián)度改變條件屬性權(quán)重,基于訓(xùn)練好的支持向量回歸機(jī)進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該模型適用于處理的預(yù)測(cè)對(duì)象,能明顯提高模型的預(yù)測(cè)精度。
灰關(guān)聯(lián)分析是事物之間或系統(tǒng)因素與主行為因素之間不確定性的關(guān)聯(lián)分析,是研究信息不完備系統(tǒng)的一種有效方法,能夠利用不完全的、隨機(jī)的表示系統(tǒng)行為特征的因素序列,通過一定的數(shù)據(jù)生成處理,計(jì)算出因素間的關(guān)聯(lián)系數(shù)和關(guān)聯(lián)度,找出其關(guān)聯(lián)性[9]。
設(shè)X0={x0(k)|k=1,2,…,n}為灰參考列,Xi={xi(k)|k=1,2,…,n}為灰比較列,i=1,2,…,m。X0、Xi(i=1,2,…,m)已經(jīng)過預(yù)處理,均無量綱,則各個(gè)灰比較因子相對(duì)于灰參考因子的灰關(guān)聯(lián)系數(shù)為:
其中,ξ∈(0,1)。則其灰關(guān)聯(lián)度為:
粗糙集理論是一種處理模糊和不確定性知識(shí)的數(shù)學(xué)工具,該理論在保持分類能力不變的前提下,通過知識(shí)約簡(jiǎn)導(dǎo)出問題的決策或分類規(guī)則[10]。決策表是一類特殊而重要的知識(shí)表達(dá)系統(tǒng),多數(shù)決策問題都可以用決策表來表達(dá)。
定義1 設(shè)S=(U,A,V,f)是一個(gè)信息系統(tǒng)(知識(shí)表達(dá)系統(tǒng)),其中A=C∪D,C∪D=?,C為條件屬性集合,D為決策屬性集。具有條件屬性和決策屬性的信息系統(tǒng)稱為決策信息系統(tǒng)。
定義2S= (U,C∪D,V,f) 是 一 個(gè)信息系統(tǒng),在任意子集B?C上,稱IND(B)為不可分辨關(guān)系,其中IND(B)={(x,y)∈U×U:x(a)=y(tǒng)(a)對(duì)每個(gè)a∈B}。
定義3 給定決策系統(tǒng)信息系統(tǒng)S=(U,C∪D,V,f) ,設(shè)X?U為一組對(duì)象,B?C為一組屬性。X相對(duì)于B的下近似為:
X相對(duì)于B的上近似為:
決策屬性D相對(duì)于B的正區(qū)域?yàn)椋?/p>
定義4 屬性a相對(duì)于R對(duì)于D的依賴程度的屬性重要性為:
SGF(a,R,D)反映了屬性a加入屬性集R后,R與D之間依賴程度的改變,進(jìn)而體現(xiàn)屬性a的重要性。
定義5 屬性a∈B?C是冗余的,若POSB(d)=POSB-{a}(d)。
支持向量回歸的基本思想是通過一個(gè)非線性映射將數(shù)據(jù)映射到高維特征空間,并在該空間內(nèi)進(jìn)行線性回歸[11-12]。設(shè)給定樣本數(shù)據(jù)為(x1,y1),(x1,y1),…,(xm,ym),其中,xi∈Rk為輸入變量,yi∈R為輸出變量,且yi=f(xi),i=1,2,…,m,f(x)為待估計(jì)的未知函數(shù),其表達(dá)式為:
其中,w為空間H中 的權(quán)向量;b∈R為偏置。于是LS-SVM估計(jì)非線性函數(shù)為如下特征空間中的最優(yōu)問題:
其中,ei∈Rk,i=1,2,…,m為 誤差變量。J(w,e)由正則化項(xiàng)wTw/2和SSE項(xiàng)組成,其中γ為實(shí)數(shù)常量,決定了兩者的相對(duì)重要性,為了避免過學(xué)習(xí),將γ設(shè)為較小的值。
一般地,由于w可能為無限維的,直接計(jì)算規(guī)劃(1)式是極其困難的,因此將這一規(guī)劃問題轉(zhuǎn)化到其對(duì)偶空間中,定義Lagrange函數(shù)為:
其中,ai∈R為L(zhǎng)agrange乘子,于是最優(yōu)解的條件為:
以上條件除了ai=γei外,與標(biāo)準(zhǔn)的SVM最優(yōu)條件很相似。其中ai=γei使得LS-SVM不再具有SVM的稀疏性。
利用(3)式消去w與ei得(4)式的解方程為:
其中,向量Im= (1,1,…,1)T;a=(a1,a2,…,am)T;y=(y1,y2,…,ym)T;Ω為矩陣,其定義為:Ω=(Ωij)m×m,Ωij=φ(xi)Tφ(xj)。
通過(5)式可求得a與b的值,則可得被估計(jì)函數(shù)f(x)的表達(dá)式為:
其中,核函數(shù)K(x,y)=φ(x)Tφ(y)。
對(duì)于多屬性且屬性值為連續(xù)的決策系統(tǒng),直接采用支持向量回歸機(jī)進(jìn)行預(yù)測(cè)時(shí),預(yù)測(cè)精度會(huì)受到冗余屬性的干擾。因此,離散化前,利用灰色關(guān)聯(lián)分析計(jì)算條件屬性對(duì)決策屬性的重要度以降低直接離散化后進(jìn)行約簡(jiǎn)造成的信息損失;離散化后,結(jié)合灰關(guān)聯(lián)度與正域?qū)Q策表進(jìn)行約簡(jiǎn)以去掉冗余屬性;利用網(wǎng)格搜索技術(shù)對(duì)LS-SVM回歸機(jī)進(jìn)行訓(xùn)練以尋找最優(yōu)參數(shù);最后根據(jù)屬性約簡(jiǎn)以及灰關(guān)聯(lián)度改變各個(gè)屬性的權(quán)重,形成相應(yīng)的測(cè)試樣本,將測(cè)試樣本通過訓(xùn)練后的LS-SVM進(jìn)行預(yù)測(cè)。整個(gè)過程如圖1所示。
圖1 基于灰粗糙支持向量回歸機(jī)的預(yù)測(cè)過程
為了驗(yàn)證灰色粗糙支持向量回歸模型的預(yù)測(cè)精度,本文采用1990—2002年的中國(guó)糧食產(chǎn)量作為數(shù)據(jù)集,見表1所列(數(shù)據(jù)來源于中國(guó)農(nóng)業(yè)統(tǒng)計(jì)年鑒),其中,a1、a2、a3、a4、a5、a6、a7、a8、a9、a10分別代表機(jī)械動(dòng)力、農(nóng)村耗電量、灌溉面積、化肥用量、受災(zāi)面積、預(yù)算支出、播種面積、農(nóng)藥用量、農(nóng)膜用量、勞動(dòng)力;d代表糧食總產(chǎn)量。1990—2000年為訓(xùn)練集,2001年及2002年為測(cè)試集。
表1 1990—2002年中國(guó)糧食產(chǎn)量數(shù)據(jù)集
根據(jù)本文提出的方法,采用如下步驟進(jìn)行預(yù)測(cè)。
(1)首先計(jì)算出每個(gè)條件屬性的灰關(guān)聯(lián)度r0i。對(duì)條件屬性和決策屬性分別利用初值化算子=xi/x0進(jìn)行預(yù)處理,并利用 Rosetta中的ManualScaler進(jìn)行離散化,其中區(qū)間[0,0.5)取為0,區(qū)間[0.5,1)取為1,區(qū)間[1,2)取為2。
(2)利用步驟(1)得到的各個(gè)條件屬性灰關(guān)聯(lián)度,結(jié)合Palwak屬性重要度對(duì)決策表進(jìn)行約簡(jiǎn),經(jīng) 約 簡(jiǎn) 后 得 到 的 條 件 屬 性 為 {a1,a3,a4,a5,a7,a10}。
(3)用屬性約簡(jiǎn)后的訓(xùn)練樣本進(jìn)行支持向量回歸機(jī)的學(xué)習(xí)訓(xùn)練,取核函數(shù)為徑向基函數(shù),利用網(wǎng)格搜索技術(shù)搜尋最優(yōu)參數(shù),以訓(xùn)練數(shù)據(jù)的樣本誤差來衡量。
(4)利用約簡(jiǎn)后的條件屬性與決策屬性組成新的決策系統(tǒng),根據(jù)灰色關(guān)聯(lián)度改變條件屬性權(quán)重,基于訓(xùn)練過的支持向量回歸機(jī)進(jìn)行預(yù)測(cè)。其預(yù)測(cè)結(jié)果及支持向量機(jī)預(yù)測(cè)實(shí)驗(yàn)結(jié)果顯示,采用SVM預(yù)測(cè)模型,2001年與2002年的相對(duì)誤差分別為1.2%和2.4%,而采用本文方法其相對(duì)誤差分別為0.97%和0.82%,本文提出的灰色粗糙支持向量回歸模型的預(yù)測(cè)相對(duì)誤差小于直接用SVM進(jìn)行預(yù)測(cè),這說明本文模型的預(yù)測(cè)精度高于SVM模型。
為了預(yù)測(cè)多屬性且屬性值連續(xù)的決策系統(tǒng),本文借鑒了灰色關(guān)聯(lián)分析原理與粗糙集屬性約簡(jiǎn)理論達(dá)到數(shù)據(jù)降維的目的,同時(shí)采用灰色關(guān)聯(lián)度改變條件屬性權(quán)重使樣本更具代表性。支持向量機(jī)訓(xùn)練樣本使其泛化性能最優(yōu)。結(jié)果表明,與單純用支持向量機(jī)進(jìn)行預(yù)測(cè)相比,本文提出的灰粗糙支持向量回歸模型不僅具有良好的預(yù)測(cè)精度,而且隨著屬性的減少,有效地減少了訓(xùn)練時(shí)間。
[1] 張建明,曾建武,謝 磊,等.基于粗糙集的支持向量機(jī)故障診斷 [J].清 華 大 學(xué) 學(xué) 報(bào):自 然 科 學(xué) 版,2007,47(2):1774-1777.
[2] 張藝榮,鮮 明,肖順平.一種基于粗糙集屬性約簡(jiǎn)的支持向量異常入侵檢測(cè)方法[J].計(jì)算機(jī)科學(xué),2006,33(6):64-68.
[3] Wang L S,Xu Y T,Zhao L S,et al.A kind of hybrid classifcation algorithm based on rough set and support vector machine[C]//2005International Conference on Machine Learning and Cybernetics,2005:1676-1679.
[4] Zhang J,Wang Y.A rough margin based support vector machine[J].Information Sciences,2008,178:2204-2214.
[5] 楊 明,張鳳鳴,胡永峰.基于灰色支持向量機(jī)理論的建模預(yù)測(cè)研究及應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(14):3297-3298.
[6] Jin B,Tang Y C,Zhang Y Q.Support vector machines with genetic fuzzy feature transformation for biomedical data classification[J].Information Sciences,2007,177:476-489.
[7] 譚 鵬,曹 平.基于灰色關(guān)聯(lián)計(jì)算機(jī)的地表沉降預(yù)測(cè)[J].中南大學(xué)學(xué)報(bào):自然科學(xué)版,2012,43(2):632-637.
[8] 林耀進(jìn),周忠眉,吳順祥.集成灰色支持向量機(jī)預(yù)測(cè)模型研究與應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2009,29(12):3287-3289.
[9] 劉思峰,郭天榜,黨耀國(guó).灰色系統(tǒng)理論及其應(yīng)用[M].第3版.北京:科學(xué)出版社,2004:110-125.
[10] Pawlak Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(1):341-356.
[11] Vapnik V N.Statistical learning theory[M].New York:Wiley,1998:87-110.
[12] 聶會(huì)星,梁 坤,徐樅巍.基于小波變換和支持向量機(jī)的人臉識(shí)別研究[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011,34(2):208-211.