尤明懿
(1.中國電子科技集團公司第三十六研究所,浙江 嘉興 314033;2.上海交通大學機械系統(tǒng)與振動國家重點實驗室,上海 200240)
從20世紀90年代中期開始,支持向量機(SVMs:Support Vector Machines)一直受到研究人員的極大關注。支持向量機通??捎糜诜诸怺1]、排序[2]、概率分布估計[3]與回歸分析[4]。
在回歸分析領域,支持向量回歸模型(記作SVR模型)通常處理數(shù)據集(xi,yi)ni=1,其中yi是樣本i的精確值,xi是相應的特征量。然而,在一些應用領域,目標精確值通常無法獲得,取而代之的是一個包含精確值的區(qū)間(li,ui),其中l(wèi)i、ui分別是區(qū)間的上下界。相應地,數(shù)據集(xi,yi)ni=1就變?yōu)椋▁i,li,ui)ni=1。由于刪失機制,這樣的數(shù)據在生存分析和可靠性試驗中很常見[5-6]。通常有3類刪失,即區(qū)間刪失(此時li和ui均為有限值),右刪失(此時li為有限值,ui為正無窮)和左刪失(此時li為負無窮)。
為了使支持向量回歸模型能處理類似(xi,li,ui)ni=1的數(shù)據集,Shivaswamy等[7]提出了一種新的支持向量回歸模型(記作SVCR模型)。SVCR模型與SVR模型形式類似,但可以處理刪失樣本。在文獻 [7]中,作者比較了訓練集中有50%樣本為刪失樣本至訓練集中有99.5%樣本為刪失樣本的情況下,SVCR模型和傳統(tǒng)SVR模型的表現(xiàn)。結果顯示,當訓練集中刪失樣本的比例較高時,SVCR模型的表現(xiàn)顯著優(yōu)于傳統(tǒng)SVR模型的表現(xiàn)。此外,基于對5個生存分析數(shù)據集的分析結果,SVCR模型對測試樣本精確值的估計也優(yōu)于傳統(tǒng)的統(tǒng)計模型(如:韋伯模型、對數(shù)正態(tài)分布模型)。本文即致力于對SVCR模型的拓展。
本節(jié)介紹SVR與SVCR模型,以更好地理解本文提出的拓展模型。為簡便計,本節(jié)僅考察線性SVR和SVCR模型并比較它們的區(qū)別。更復雜的核化(kernelized)SVR和SVCR模型與計算時間等考慮可參考文獻 [4,7]。
給定數(shù)據集(xi,yi)ni=1,回歸的問題即尋找一個m維空間至一維空間的映射函數(shù)f:Rm→R,使其對于變量xi較好地擬合目標值yi。當函數(shù)f為線性函數(shù),即f=wTx+b時,線性SVR模型為:
ξi和為非負中間變量。
從式(1)中可以發(fā)現(xiàn)SVR模型僅處理單值對象yi。SVR處理含刪失樣本的數(shù)據集的簡單方法是僅考慮數(shù)據集中的單值樣本,而忽略刪失樣本。更具體地, 即給定數(shù)據集(xi, li, ui)ni=1, SVR模型僅使用li=ui的樣本來估計參數(shù)w和b。為利用刪失樣本的潛在信息,Shivaswamy等[7]提出一個SVCR模型,即:
式(1)中,SVR模型使用了稱為 “ε不敏感”損失的損失函數(shù),即:
式(2)中采用的損失函數(shù)為:
使用式(4)中的損失函數(shù),如果擬合函數(shù)的輸出大于li或小于ui則給予懲罰。在li=yi=ui的特殊情況下,式(4)變?yōu)椋?/p>
式(5)中的損失函數(shù)即為最小模(least-modulus)損失函數(shù),它對未知的噪聲模型是魯棒的[8]。繼承了這個性質,式(3)中的 “ε不敏感”損失有一些額外的性質,總結如下:
a)它是最小模損失的推廣,即:當ε=0時,“ε不敏感”損失即為最小模損失。因此,通過選擇最優(yōu)的ε值,使用 “ε不敏感”損失函數(shù)的回歸模型的泛化性能至少和使用最小模損失的回歸模型一致。
b)通過定義ε可控制模型復雜度[9]。ε直接影響Vapnik-Chervonenkis(VC)維度,且該損失函數(shù)相對有限樣本的內在變化是魯棒的。
c)它賦予了支持向量回歸模型稀疏性的性質[8]。通常,一個較大的值對應于較少的支持向量,因而所需的計算時間較少,這對于數(shù)據量大的問題是十分重要的。
d)它使用戶能夠自定義一個能接受的精確度[10]。
因此,如果找到一個繼承了 “ε不敏感”損失函數(shù)優(yōu)點的式(4)中損失函數(shù)的拓展版本,使用新的損失函數(shù)的SVCR模型(記作ε-SVCR模型)有望更精確地進行目標值估計。
本節(jié)介紹ε-SVCR模型。首先引入損失函數(shù):max(0,(li-ε)-f(xi))+max(0,f(xi)-(ui+ε))(6)為直觀起見,圖1比較了SVR、SVCR和ε-SVCR模型的損失函數(shù)(分別記作Loss 1、Loss 2和 Loss 3)。
如圖1所示,ε-SVCR模型的損失函數(shù)(Loss 3)可以視為SVCR的損失函數(shù)(Loss2)的推廣,兩者在ε=0時等價。此外,當li=ui時即目標的精確值已知時,ε-SVCR模型的損失函數(shù)等價于SVR模型的損失函數(shù)(Loss 1)。
對照式(2),下面給出ε-SVCR模型的數(shù)學表達:
SVR模型流行的一個重要原因是線性SVR模型可以經過核化(kernelization)推廣至非線性回歸模型。通過使用某種映射函數(shù) :Rm→H將xi映射至希爾伯特空間H,SVR模型在空間H中進行回歸計算,因而可給出變量xi所在的輸入空間的任意復雜的函數(shù)。與SVR模型一樣,ε-SVCR模型也可進行核化,則式(7)變?yōu)椋?/p>
αi和為模型參數(shù)。
通過解式(8)可獲得αi和的最優(yōu)值,則在輸入空間x處的目標值可估計為:
值得指出的是, 通常僅一小部分(αi-)為非零值。
本節(jié)開展一個對比試驗以比較SVR、SVCR和ε-SVCR模型的表現(xiàn)。原來的包含252個非刪失樣本(即樣本精確值已知)的回歸數(shù)據集來源于StaLib[11]。選擇其中的一半作為訓練集,而將剩余的作為測試集。為研究從無刪失樣本到大部分樣本(如:95%)為刪失樣本的情況下,SVR、SVCR和ε-SVCR模型的表現(xiàn),將訓練樣本中的 η%調整為對目標精確值的區(qū)間刪失,其中η值如表1所示。
表1 η值
本文將目標精確值調整為區(qū)間值的方法,即將目標精確值si轉換為區(qū)間(li,ui),其中:
式(10)中:σ——訓練集中目標精確值的標準差;
δi——服從標準正態(tài)分布的隨機值。
考察各個η值情況下,SVR、SVCR和 ε-SVCR模型在估計測試集中目標精確值時的表現(xiàn),共得24組測試結果。
對于SVR、SVCR和ε-SVCR模型采用相同的訓練、模型選擇和測試過程。在每個訓練和模型選擇過程中,均選擇在一個5段交叉校驗過程中最小化平均絕對誤差(average absolute error)的模型參數(shù)。對應于式(4),平均絕對誤差定義為:
值得指出的是,SVR、SVCR和ε-SVCR模型訓練集的區(qū)別是:SVCR和ε-SVCR模型使用所有的訓練樣本,而SCR模型僅采用訓練集中目標絕對值已知的樣本(即:li=ui)。之后,采用測試集中的樣本測試所訓練的模型,并得到每個訓練樣本的絕對誤差(即:式(4)定義的AE)。使用多項式和高斯核函數(shù)的SVR、SVCR和ε-SVCR模型的測試樣本預測誤差盒形圖如圖2和3所示。
圖2和3中的結果顯示,當較大(≥90)時,SVCR模型的表現(xiàn)顯著優(yōu)于SVR模型的表現(xiàn),而當η較?。ā?5)時兩者的表現(xiàn)區(qū)別不大。這與文獻 [7]中的結論一致。此外,從圖2和3中可以觀察到,ε-SVCR模型的表現(xiàn)始終優(yōu)于SVCR模型的表現(xiàn);在η較大(≥90)時,改善比較顯著。
本文提出一個面向刪失樣本的ε-SVCR模型。通過采用一種新的 “ε不敏感”損失函數(shù),相對于SVCR模型,ε-SVCR模型的表現(xiàn)有所提升,這種提升在訓練樣本中刪失樣本較多時尤為顯著。通過在生存分析和可靠性試驗中采用ε-SVCR模型??梢云谕ㄟ^挖掘刪失樣本的信息以獲得更精確的目標值估計。
致謝
作者感謝P.K.Shivaswamy提供的SVCR模型計算平臺[12]。
[1]BURGES C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery, 1998,(2): 121-167.
[2]CHU W, KEERTHI S S.Support vector ordinal regression[J].Neural Computation, 2007, 19:792-815.
[3]VAPNIK V, MUKHERJEE S.Support vector method for multivariate density estimation[M].USA:MIT Press, Advances in Neural Information Processing Systems,2000:659-665.
[4]SMOLA A, SCHLKOPF B.A tutorial on support vector regression[J].Statistics and Computing, 2004, 14:199-222.
[5]MEEKER W Q, ESCOBAR L A.Statistics Methods for Reliability Data[M].New York: Johm Wiley&Sons.Inc.,1998.
[6]KALBFLEISCH J D, PRENTICE R L.The Statistical Analysis of Failure Time Data[M].New York: Johm Wiley&Sons.Inc., 2002.
[7]SHIVASWAMY P K, CHU W, JANSCHE M.A support vector approach to censored targets[C]//ICDM’07:Proceedings of the 17th IEEEE International Conference on Data Mining, 2007: 655-660.
[8]VAPNIK V.The Nature of Statistical Learning Theory[M].USA:Springer, 1999.
[9]CHERKASSKY V, MUIER F.Learning from Data:Concepts, Theory, and Methods(second edition).New York:Johm Wiley&Sons.Inc., 2007.
[10]PARRELLA F.Online Support Vector Regression[M/OL].Available at:http://onlinesvr.altervista.org
[11]Dataset available at:http://lib.stat.cmu.edu/datasets/bodyfat
[12]Code available at:http://www1.cs.columbia.edu/~pks2103/publications.html