聶茹佳, 黎文澤, 趙為華*, 張日權
(1. 南通大學理學院, 江蘇 南通 226019; 2. 上海對外經(jīng)貿大學統(tǒng)計與信息學院, 上海 201620)
支持向量機(support vector machine, SVM)是由Vapnik等在統(tǒng)計學習理論的基礎上提出并于20世紀90年代快速發(fā)展起來的一種新的機器學習算法[1].作為一種監(jiān)督學習方法, SVM被廣泛應用于分類問題, 因其同時考慮了經(jīng)驗風險和模型復雜度并結合VC(Vapnik-Chervonenkis)維理論, 所以SVM在解決非線性、有限樣本、高維數(shù)等實際問題中表現(xiàn)出良好的預測能力[2], 使其備受關注, 也涌現(xiàn)出大量的理論研究成果[3-6].當前支持向量機已經(jīng)廣泛應用于解決回歸問題(響應變量是連續(xù)型情形), 并稱其為支持向量回歸.回歸分析旨在探尋解釋變量和響應變量之間的關系,而分位數(shù)回歸[7](quantile regression, QR)通過最小化一個非對稱絕對誤差和來獲得響應變量的條件分位數(shù)估計, 它不僅能夠了解響應變量分布的中心趨勢, 而且能學習到響應變量分布的尾部趨勢, 從而比條件均值函數(shù)更全面地反映了響應變量的分布情況.支持向量分位數(shù)回歸(support vector quantile regression, SVQR)是支持向量回歸與分位數(shù)回歸兩種方法的結合, 不僅能夠充分發(fā)揮支持向量機利用核函數(shù)處理解釋變量與響應變量之間潛在的非線性關系的能力,而且能夠通過分位數(shù)回歸完整刻畫響應變量條件分布特征.特別地, 當解釋變量和響應變量之間潛在的關系是非線性時, 支持向量回歸能夠通過一個非線性映射將低維空間中的數(shù)據(jù)映射到高維特征空間中做線性回歸,因此這種方法有別于強調降低維數(shù)的傳統(tǒng)方法,其基本原理在于升高維數(shù), 而核函數(shù)在處理這類問題時具有較大的優(yōu)勢.Shim等[8]在支持向量回歸框架下提出基于加權二次損失函數(shù)研究SVQR模型; Xu等[9]提出一種新的支持向量加權分位數(shù)回歸方法, 并驗證了所提方法的有效性; Choi等[10]基于支持向量回歸思想研究十分位數(shù)回歸問題, 并提出基于迭代加權最小二乘法獲得參數(shù)估計的方法.同時, 為獲得非交叉分位數(shù)函數(shù)曲線的估計,在單調性的約束條件下, 已有一些研究者提出基于多個分位數(shù)水平的同時估計方法[11-14].眾所周知, 在回歸模型中, 稀疏性是一個非常理想的屬性, 而稀疏回歸模型使用較少的訓練數(shù)據(jù)點來構建回歸函數(shù), 在預測測試數(shù)據(jù)點的響應方面具有很高的時間效率.由于SVQR模型缺乏稀疏性以致于所有的訓練數(shù)據(jù)點都對經(jīng)驗風險有貢獻, 故為了提高SVQR模型的泛化能力, 須有效利用“ε-不敏感”方法將稀疏性帶回模型中.然而, 想要得到一個真正意義上的“ε-不敏感”彈球損失函數(shù)以獲得對現(xiàn)有SVQR 模型的預測效果有顯著的改進仍然比較困難.
Anand等[15]將一種新的損失函數(shù)應用到支持向量分位數(shù)回歸模型中, 使模型在具有稀疏性的同時能有效地提高其穩(wěn)定性, 具有更好的泛化能力.另一方面, 在實際數(shù)據(jù)分析中常遇到數(shù)據(jù)間存在非線性關系且數(shù)據(jù)的維度較高, 為避免回歸建模中的“維數(shù)災難”現(xiàn)象,統(tǒng)計學家提出了許多降維建模方法.變系數(shù)模型是一種常見的多元降維模型且能捕捉響應變量與解釋變量之間的動態(tài)非線性交互關系, 因而受到統(tǒng)計應用者的廣泛關注.Yoshida[16]研究了變系數(shù)模型的極值分位數(shù)回歸問題; Shim等[17]提出一種支持向量分位數(shù)變系數(shù)回歸模型, 并使用二次規(guī)劃和迭代加權最小二乘兩種方法獲得非參數(shù)函數(shù)估計, 但未將稀疏性帶入到變系數(shù)SVQR模型中.本文擬基于不對稱“ε-不敏感”的分位數(shù)損失函數(shù)提出分位數(shù)回歸估計方法, 并通過數(shù)值模擬研究新方法的有限樣本性能.
變系數(shù)模型的一般形式為
基于凸二次規(guī)劃理論可構造拉格朗日函數(shù)
(1)
代入式(1), 得最大化對偶優(yōu)化問題
(2)
根據(jù)Karush-Kuhn-Tucker(KKT)條件, 滿足約束條件
將對稱的“ε-不敏感”與非對稱的彈球損失函數(shù)結合起來, 則損失函數(shù)為
圖損失函數(shù)Fig.1 Asymmetric ε-insensitive loss function (u)
對于分位數(shù)回歸問題, 給定分位數(shù)τ∈(0,1), 上述損失函數(shù)亦可表示為
此時, SVQR模型為
進一步可以改寫成
有
其中自定義參數(shù)ε≥0.值得注意的是, 當ε=0時, 該模型即可簡化為普通的SVQR模型.同樣, 為了有效地解決原問題, 須推導出它的對偶問題, 通過引入拉格朗日乘子,得到原問題的拉格朗日函數(shù)
將上述問題代入拉格朗日函數(shù)即可得原問題的對偶問題
且滿足條件
(3)
為了比較SVQR模型及不對稱“ε-不敏感”的SVQR模型的模擬效果, 分別生成一個樣本容量n=300的訓練數(shù)據(jù)集和驗證數(shù)據(jù)集及100個容量為300的測試數(shù)據(jù)集.在模擬數(shù)據(jù)集的基礎上, 使用兩種SVQR方法對不同條件分位數(shù)函數(shù)進行估計, 主要步驟為: 1) 根據(jù)廣義近似交叉驗證(generalized approximate cross validation, GACV)準則在訓練數(shù)據(jù)集上尋找得到模型的最優(yōu)參數(shù)[18]; 2) 對測試數(shù)據(jù)集運用SVQR模型預測出系數(shù)函數(shù)的條件分位數(shù)值, 并與真實的條件分位數(shù)函數(shù)值進行比較, 利用評價指標求出均值, 得到相關結論.
表1 不對稱ε-SVQR模型在測試數(shù)據(jù)集上的RMSE平均值
圖3 系數(shù)函數(shù)βi(u)的τ=0.5分位數(shù)估計曲線Fig.3 The estimation curve with τ=0.5 of coefficient function βi(u)
從圖3可以發(fā)現(xiàn),u在[0.4,0.7]區(qū)間時系數(shù)函數(shù)β1(u)為負, 說明從六月到八月這3個月中, 隨著溫度的升高,人們對租賃自行車這種交通方式的需求減少, 且大約在七月前后的某個時間點, 溫度對租賃自行車總數(shù)的負相關性最強, 而在其余時間,即春、秋和冬3個季節(jié)中, 系數(shù)函數(shù)β1(u)均為正, 即溫度越高, 租賃自行車總數(shù)越高, 此時溫度對租賃自行車總數(shù)起著正相關的作用.系數(shù)函數(shù)β2(u)和β3(u)總為負, 說明濕度對租賃自行車總數(shù)起著負相關作用,即濕度越高, 租賃自行車總數(shù)越低, 且大約在u=0.8時(九月中下旬)負相關性最強.同樣, 風速對租賃自行車總數(shù)也起著負相關作用,表明風速越大,租賃自行車總數(shù)越低,且九月中下旬的負相關性也最強.
表2為分位數(shù)τ分別取不同值時不對稱ε-SVQR、SVQR和線性分位數(shù)回歸(linear quantile regression, LQR)模型下關于租賃自行車總數(shù)的RMSE值.結果表明,τ分別取0.1至0.9時, 使用不對稱“ε-不敏感”SVQR模型得到的RMSE值總比SVQR模型得到的RMSE值小, SVQR模型得到的RMSE值總比使用線性分位數(shù)回歸模型得到的RMSE值小, 說明在ε的非零值上取得了較好的RMSE值, 實例結果驗證了所提方法的有效性.
表2 不同模型在共享單車數(shù)據(jù)上的RMSE值
運用支持向量分位數(shù)回歸既能發(fā)揮支持向量機的優(yōu)勢有效地模擬系統(tǒng)中的非線性結構, 又能擁有分位數(shù)回歸完整描述響應變量的條件分布特征的能力, 本文提出了變系數(shù)模型,并通過數(shù)值模擬對比了SVQR模型及不對稱“ε-不敏感”SVQR模型的模擬效果.結果表明, 不對稱“ε-不敏感”SVQR模型的模擬效果更好.下一步工作將繼續(xù)對非交叉分位數(shù)的問題進行討論, 尋找更優(yōu)秀的解決方法, 如在小樣本情形可考慮貝葉斯方法研究支持向量回歸問題.