劉恒源 倪中新 陸貴斌
(上海大學經(jīng)濟學院 上海 201800)
多類別概率估計不僅提供了分類結果,還提供了分類結果的可信度信息,因此在數(shù)據(jù)挖掘和實際應用中具有重要作用。例如,在癌癥診斷中,為調(diào)整治療方法和藥物劑量達到更好的效果,除了需要根據(jù)腫瘤的表型特征和基因組信息將患者標記為“A型”或“B型”之外,通常還希望報告一些有關分類決策的不確定性度量。一般來說,概率估計功能比分類功能更全面,也使分類任務更加靈活,體現(xiàn)在利用得到的條件概率pk(x)=p[Y=k|X=x],可以根據(jù)實際需求制定決策規(guī)則進行類別判斷(二分類決策規(guī)則等價于以閾值0.5為界進行分類)。另外,概率估計結果可用于ROC、AUC等指標的計算,為學習器的性能評估提供方面。
傳統(tǒng)上,對概率pk(x)=p[Y=k|X=x]的估計問題通常是通過多元logistic回歸之類的回歸技術或線性判別分析(LDA)和二次判別分析(QDA)之類的密度估計方法來解決。這些方法通常會對pk的函數(shù)形式(或其轉換形式)做出某些模型假設。例如,多元logistic回歸假設對數(shù)比率和X符合線性關系,LDA和QDA假設與每個子類關聯(lián)的協(xié)變量X服從多元高斯分布。因此,這些方法雖然被廣泛使用,但很難證明多元logistic回歸中協(xié)變量線性關系的假設是正確的,此外,通常多元數(shù)據(jù)的高斯分布假設也存在爭議。
支持向量機(SVM)由Vapnik等[1]提出,它不對數(shù)據(jù)分布進行假設,在文本分析[2-3]、生物醫(yī)藥[4-5]、圖像處理[6-7]和垃圾郵件檢測[8-9]等各種應用中顯示出較高的預測準確性,但標準的SVM(C-SVM)的限制在于它直接關注分類,而不提供類別的估計概率。為解決這一問題,Platt[10]假設二分類正類條件概率p(x)=p[Y=+1|X=x]與SVM輸出y∈0,1之間存在sigmoid連接函數(shù),形式為p(x)=1/(1+exp(ay+b)),但是這種較強線性的假設在實際應用中很難滿足。Wang等[11]提出了一種無模型的SVM概率估計方法,即沒有對pk(x)的形式或每個子類的數(shù)據(jù)分布進行任何假設。他們通過訓練一系列不同權重的二分類加權SVM(WSVM),然后結合所有WSVM的分類結果來構造p1(x),完成了二分類的SVM概率估計。Wu等[12]通過直接解決一系列多分類WSVM問題,將Wang等[11]的方案從二分類擴展應用到多分類。但由于直接求解多分類問題會增加復雜度,并且計算成本將隨類別數(shù)K指數(shù)增加。為了降低復雜度和計算成本,Wang等[13]將K分類任務分解為K(K-1)個一對一二分類任務,應用Wang等[11]的方法進行二分類概率估計,然后利用公式耦合得到多類別的概率估計。
盡管這些方法實現(xiàn)了SVM的概率估計功能,但由于標準的SVM基于無界的Hinge損失函數(shù),當某些樣本點遠離所屬類時(即訓練數(shù)據(jù)中的異常點或噪聲點),會造成較大的損失,因此SVM往往會受到這類樣本的強烈影響,導致分類和概率估計性能下降[14]。本文通過限制無邊界的Pinball損失提出一種穩(wěn)健的截斷Pinball損失并應用于SVM(T-Pin-SVM)以提高概率估計和分類的準確度。數(shù)值模擬表明所提出的T-Pin-SVM一定程度上彌補了C-SVM噪聲敏感的缺點,可以提供比C-SVM更高的概率估計精度。同時,相對于Pin-SVM,截斷也使得T-Pin-SVM的稀疏性增強,降低了測試階段的計算成本。另一方面,T-Pin-SVM涉及非凸優(yōu)化,這比C-SVM的二次凸規(guī)劃求解更具挑戰(zhàn)性,本文應用Difference Convex(DC)算法,通過求解一系列凸子問題解決非凸優(yōu)化。
本節(jié)提出了一種截斷Pinball損失函數(shù)應用于SVM(T-Pin-SVM),討論了它的噪聲魯棒性、稀疏性和Fisher一致性,并且給出了T-Pin-SVM應用于多分類概率估計的算法流程。
Pinball損失與分位數(shù)有關,其應用于SVM的合理性已在[15]中進行了全面的討論。我們提出了Pinball損失的改進版本,即截斷Pinball損失(見圖1),可以表示為:
式中:l1(u)=max{u-a,0},當α→+∞時,截斷Pinball等價于Pinball損失;當α→+∞且τ=0時,等價于Hinge損失,因此本文提出的截斷Pinball是Hinge和Pinball的廣義形式。
考慮K=2的二分類問題,標簽y被編碼為-1、1,SVM分類器表示為f(x)=wTφ(x)+b,其中φ(·)∈HK表示可再生內(nèi)核希爾伯特空間(RKHS),它可以將低維空間映射到高維空間,為解決線性不可分問題提供了可能。應用截斷Pinball損失的SVM稱為T-Pin-SVM,可以表示為:
(1)
某個權重πm(m=1,2,…,M)下的加權T-Pinball-SVM可以表示為:
(2)
式中:1-πm、πm(0≤π≤1)分別表示類別1、-1的權重。
1.1.1噪聲魯棒性和稀疏性
一般不要超過兩行。在二分類任務中,基于Hinge損失(l(u)=max{0,u})的C-SVM模型求解等價于兩類點到超平面的最小距離之和取最大,這意味著最終影響超平面的僅與少數(shù)具有最小距離的點有關,并且這些點通常位于超平面附近,因此C-SVM對超平面附近的噪聲敏感。另一方面,注意到當u≥0且遞增時,Hinge損失線性增長且無界的,這意味著當某些異常點完全偏離本身類別而混入其他類別時(如標簽錯誤),對其的懲罰較大而影響整體的損失函數(shù),因此C-SVM對這些位置的點同樣敏感。
基于Pinball損失(lτ(u)=max{u,-τu},0≤τ≤1)的Pin-SVM模型求解等價于兩類點到超平面的q分位數(shù)距離之和取最大。圖1顯示了基于兩種SVM的分類差異。在Pin-SVM中,由于某一類樣本點到超平面距離的集合取q分位數(shù)的點才會影響到超平面,因此即使超平面附近有噪聲點,其占比也相對較少,這使得Pin-SVM本身就具有一定的噪聲不敏感性,然而和Hinge損失相似,Pinball損失對錯誤分類的樣本懲罰是無界的。因此,為了增強噪聲魯棒性,本文利用參數(shù)a截斷Pinball損失以避免錯分類樣本的無界懲罰。a的取值決定了截斷的位置并影響了SVM的表現(xiàn),更多細節(jié)將會在實驗部分介紹。另外它與左側截斷不同[16],右側截斷更關注那些嚴重偏離所屬類的樣本點。
圖1 基于Hinge和Pinball的SVM分類差異
由于Pinball損失沒有水平區(qū)域,其次梯度在任何地方都不等于零,因此Pin-SVM失去了稀疏性,這將導致測試階段較高的計算成本。而對于T-Pin-SVM而言,式(1)的最優(yōu)化條件可以表示為:
0∈w-∑?L(1-yif(xi))
式中:0表示全0向量;?L(·)定義為次梯度函數(shù)。
結合圖2可以發(fā)現(xiàn),當a減小,更多的樣本點傾向于落入損失函數(shù)水平,次梯度為0,意味著w的分量為0,稀疏性增強。反之,a增大,稀疏性降低。因此,本文定義w的分量不等于0的樣本為支持向量(SVs),并用支持向量占訓練樣本的比例(SVs%)衡量稀疏性(在概率估計中通過平均所有權重下的支持向量比例后再平均K(K-1)個二分類任務的比例得到)。由于Pinball損失沒有水平區(qū)域,所以Pin-SVM的支持向量比例為常數(shù)。
圖2 Hinge、Pinball和截斷Pinball三種損失函數(shù)
1.1.2Fisher一致性
當0