敖培++趙四方++馮志鵬++李延強
摘要:針對不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進ROF的集成SVM分類方法。實驗結(jié)果表明,采用本文提出的方法預測蛋白質(zhì)結(jié)晶偏好性,可以有效提高預測精度。
關鍵詞:支持向量機集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號:TM715 文獻標識碼:A 文章編號:1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強集成SVM基分類器之間的差異性,提出了一種基于改進的旋轉(zhuǎn)森林算法SVM訓練基分類器,并將此方法應用在蛋白質(zhì)結(jié)晶偏好預測上,取得了較好的預測效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進
為了處理不平衡數(shù)據(jù),這里采用了一種改進的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。
(2)對每個少數(shù)類樣本Xj的k個最近鄰進行判斷,當這k個樣本均為少數(shù)類實例時,保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時,其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個特征子集(無重復抽取),每個特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。
步驟4:重復以上步驟L次,就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個SVM分類器對測試樣本集進行分類,獲得預測函數(shù){f;}和預測標記{h;}。
步驟6:對預測函數(shù)和預測標記進行投票處理,獲得SVM集成分類器最終預測標記Hend。
3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測
本文實驗數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計算方法見文獻[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實驗序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進行預測,T取2000,K取3,采用3折交叉驗證法來估計預測誤差。為了驗證采用本文算法進行預測的效果,選擇集成RBF神經(jīng)網(wǎng)絡模型進行對比,集分類器個數(shù)均選擇為10。在數(shù)據(jù)集上進行10次實驗,實驗結(jié)果取10次實驗的平均值,如表1所示。從表中可以看出,采用本文方法的平均預測準確率達到85.24%,而集成RBF神經(jīng)網(wǎng)絡模型的測試準確率僅為79.04%。
4 結(jié)語
對于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進的方法用于對蛋白質(zhì)結(jié)晶偏好性進行預測。實驗結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡模型相比,本文方法具有較高預測精度。
參考文獻
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學,2013,40(3):266-270,290.
[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文,2014.endprint
摘要:針對不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進ROF的集成SVM分類方法。實驗結(jié)果表明,采用本文提出的方法預測蛋白質(zhì)結(jié)晶偏好性,可以有效提高預測精度。
關鍵詞:支持向量機集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號:TM715 文獻標識碼:A 文章編號:1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強集成SVM基分類器之間的差異性,提出了一種基于改進的旋轉(zhuǎn)森林算法SVM訓練基分類器,并將此方法應用在蛋白質(zhì)結(jié)晶偏好預測上,取得了較好的預測效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進
為了處理不平衡數(shù)據(jù),這里采用了一種改進的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。
(2)對每個少數(shù)類樣本Xj的k個最近鄰進行判斷,當這k個樣本均為少數(shù)類實例時,保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時,其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個特征子集(無重復抽?。?,每個特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。
步驟4:重復以上步驟L次,就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個SVM分類器對測試樣本集進行分類,獲得預測函數(shù){f;}和預測標記{h;}。
步驟6:對預測函數(shù)和預測標記進行投票處理,獲得SVM集成分類器最終預測標記Hend。
3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測
本文實驗數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計算方法見文獻[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實驗序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進行預測,T取2000,K取3,采用3折交叉驗證法來估計預測誤差。為了驗證采用本文算法進行預測的效果,選擇集成RBF神經(jīng)網(wǎng)絡模型進行對比,集分類器個數(shù)均選擇為10。在數(shù)據(jù)集上進行10次實驗,實驗結(jié)果取10次實驗的平均值,如表1所示。從表中可以看出,采用本文方法的平均預測準確率達到85.24%,而集成RBF神經(jīng)網(wǎng)絡模型的測試準確率僅為79.04%。
4 結(jié)語
對于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進的方法用于對蛋白質(zhì)結(jié)晶偏好性進行預測。實驗結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡模型相比,本文方法具有較高預測精度。
參考文獻
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學,2013,40(3):266-270,290.
[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文,2014.endprint
摘要:針對不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進ROF的集成SVM分類方法。實驗結(jié)果表明,采用本文提出的方法預測蛋白質(zhì)結(jié)晶偏好性,可以有效提高預測精度。
關鍵詞:支持向量機集成算法 旋轉(zhuǎn)森林 蛋白質(zhì)結(jié)晶
中圖分類號:TM715 文獻標識碼:A 文章編號:1007-9416(2014)08-0091-01
1 引言
為了解決數(shù)據(jù)的不平衡性和增強集成SVM基分類器之間的差異性,提出了一種基于改進的旋轉(zhuǎn)森林算法SVM訓練基分類器,并將此方法應用在蛋白質(zhì)結(jié)晶偏好預測上,取得了較好的預測效果。
2 基于不平衡數(shù)據(jù)集的SVM集成算法改進
為了處理不平衡數(shù)據(jù),這里采用了一種改進的SMOTE。為了提高SVM集成泛化的性能,這里采用隨機投影(RP)方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下:
步驟1:利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下:
(1)對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。
(2)對每個少數(shù)類樣本Xj的k個最近鄰進行判斷,當這k個樣本均為少數(shù)類實例時,保留Xj,否則從少數(shù)類樣本中刪除Xj。
(4)剔除產(chǎn)生的可能噪聲樣本,即當所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時,其才是滿足條件的虛擬少數(shù)樣本,否則,將其刪除。
(5)循環(huán)執(zhí)行(3)和(4),直到產(chǎn)生足夠多的樣本數(shù),即達到過抽樣參數(shù)T%。
步驟2:將樣本的特征隨即劃分為K個特征子集(無重復抽?。?,每個特征子集的特征數(shù)為M=D/K。
步驟3:采用RP方法,將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上,獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。
步驟4:重復以上步驟L次,就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。
步驟5:分別使用L個SVM分類器對測試樣本集進行分類,獲得預測函數(shù){f;}和預測標記{h;}。
步驟6:對預測函數(shù)和預測標記進行投票處理,獲得SVM集成分類器最終預測標記Hend。
3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測
本文實驗數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈,特征選取和計算方法見文獻[2]。經(jīng)過篩選,分別將166955條和5721條蛋白質(zhì)實驗序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進行預測,T取2000,K取3,采用3折交叉驗證法來估計預測誤差。為了驗證采用本文算法進行預測的效果,選擇集成RBF神經(jīng)網(wǎng)絡模型進行對比,集分類器個數(shù)均選擇為10。在數(shù)據(jù)集上進行10次實驗,實驗結(jié)果取10次實驗的平均值,如表1所示。從表中可以看出,采用本文方法的平均預測準確率達到85.24%,而集成RBF神經(jīng)網(wǎng)絡模型的測試準確率僅為79.04%。
4 結(jié)語
對于不平衡數(shù)據(jù)集分類問題,本文提出一種基于改進旋轉(zhuǎn)森林算法的SVM集成分類方法,并將改進的方法用于對蛋白質(zhì)結(jié)晶偏好性進行預測。實驗結(jié)果表明,與集成RBF神經(jīng)網(wǎng)絡模型相比,本文方法具有較高預測精度。
參考文獻
[1]姚旭,王曉丹,張玉璽,等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學,2013,40(3):266-270,290.
[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文,2014.endprint