亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于不平衡數(shù)據(jù)的蛋白質(zhì)結(jié)晶偏好性改進SVM集成預測

2014-12-13 08:51:18敖培趙四方馮志鵬李延強

數(shù)字技術與應用 2014年8期

敖培++趙四方++馮志鵬++李延強

摘要：針對不平衡數(shù)據(jù)集分類問題，本文提出一種基于改進ROF的集成SVM分類方法。實驗結(jié)果表明，采用本文提出的方法預測蛋白質(zhì)結(jié)晶偏好性，可以有效提高預測精度。

關鍵詞：支持向量機集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號：TM715 文獻標識碼：A 文章編號：1007-9416（2014）08-0091-01

1 引言

為了解決數(shù)據(jù)的不平衡性和增強集成SVM基分類器之間的差異性，提出了一種基于改進的旋轉(zhuǎn)森林算法SVM訓練基分類器，并將此方法應用在蛋白質(zhì)結(jié)晶偏好預測上，取得了較好的預測效果。

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進

為了處理不平衡數(shù)據(jù)，這里采用了一種改進的SMOTE。為了提高SVM集成泛化的性能，這里采用隨機投影（RP）方法作為旋轉(zhuǎn)森林的線性變換方法。具體算法如下：

步驟1：利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。

（2）對每個少數(shù)類樣本Xj的k個最近鄰進行判斷，當這k個樣本均為少數(shù)類實例時，保留Xj，否則從少數(shù)類樣本中刪除Xj。

（4）剔除產(chǎn)生的可能噪聲樣本，即當所產(chǎn)生的虛擬樣本的最鄰近樣本屬于少數(shù)類時，其才是滿足條件的虛擬少數(shù)樣本，否則，將其刪除。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個特征子集（無重復抽取），每個特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。

步驟4：重復以上步驟L次，就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個SVM分類器對測試樣本集進行分類，獲得預測函數(shù){f；}和預測標記{h；}。

步驟6：對預測函數(shù)和預測標記進行投票處理，獲得SVM集成分類器最終預測標記Hend。

3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測

本文實驗數(shù)據(jù)來源于PepcDB數(shù)據(jù)庫中的蛋白質(zhì)鏈，特征選取和計算方法見文獻[2]。經(jīng)過篩選，分別將166955條和5721條蛋白質(zhì)實驗序列作為不可結(jié)晶數(shù)據(jù)集合和可結(jié)晶數(shù)據(jù)集合。采用第3部分所提出的的方法進行預測，T取2000，K取3，采用3折交叉驗證法來估計預測誤差。為了驗證采用本文算法進行預測的效果，選擇集成RBF神經(jīng)網(wǎng)絡模型進行對比，集分類器個數(shù)均選擇為10。在數(shù)據(jù)集上進行10次實驗，實驗結(jié)果取10次實驗的平均值，如表1所示。從表中可以看出，采用本文方法的平均預測準確率達到85.24%，而集成RBF神經(jīng)網(wǎng)絡模型的測試準確率僅為79.04%。

4 結(jié)語

對于不平衡數(shù)據(jù)集分類問題，本文提出一種基于改進旋轉(zhuǎn)森林算法的SVM集成分類方法，并將改進的方法用于對蛋白質(zhì)結(jié)晶偏好性進行預測。實驗結(jié)果表明，與集成RBF神經(jīng)網(wǎng)絡模型相比，本文方法具有較高預測精度。

參考文獻

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學，2013，40（3）：266-270，290.

[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文，2014.endprint

關鍵詞：支持向量機集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號：TM715 文獻標識碼：A 文章編號：1007-9416（2014）08-0091-01

1 引言

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進

步驟1：利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。

（2）對每個少數(shù)類樣本Xj的k個最近鄰進行判斷，當這k個樣本均為少數(shù)類實例時，保留Xj，否則從少數(shù)類樣本中刪除Xj。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個特征子集（無重復抽?。?，每個特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。

步驟4：重復以上步驟L次，就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個SVM分類器對測試樣本集進行分類，獲得預測函數(shù){f；}和預測標記{h；}。

步驟6：對預測函數(shù)和預測標記進行投票處理，獲得SVM集成分類器最終預測標記Hend。

3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測

4 結(jié)語

參考文獻

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學，2013，40（3）：266-270，290.

[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文，2014.endprint

關鍵詞：支持向量機集成算法旋轉(zhuǎn)森林蛋白質(zhì)結(jié)晶

中圖分類號：TM715 文獻標識碼：A 文章編號：1007-9416（2014）08-0091-01

1 引言

2 基于不平衡數(shù)據(jù)集的SVM集成算法改進

步驟1：利用改進的SMOTE算法減小數(shù)據(jù)的不平衡性。具體算法如下：

（1）對少數(shù)類中的每個樣本Xj求它的k個最近鄰的樣本。

（2）對每個少數(shù)類樣本Xj的k個最近鄰進行判斷，當這k個樣本均為少數(shù)類實例時，保留Xj，否則從少數(shù)類樣本中刪除Xj。

（5）循環(huán)執(zhí)行（3）和（4），直到產(chǎn)生足夠多的樣本數(shù)，即達到過抽樣參數(shù)T%。

步驟2：將樣本的特征隨即劃分為K個特征子集（無重復抽?。?，每個特征子集的特征數(shù)為M=D/K。

步驟3：采用RP方法，將原始數(shù)據(jù)通過投影矩陣R投影到d維空間上，獲得各投影矩陣中的每個元素采用Binary方法產(chǎn)生[1]。

步驟4：重復以上步驟L次，就可以得到各個分類器的訓練集。這里的基分類器選擇為SVM。

步驟5：分別使用L個SVM分類器對測試樣本集進行分類，獲得預測函數(shù){f；}和預測標記{h；}。

步驟6：對預測函數(shù)和預測標記進行投票處理，獲得SVM集成分類器最終預測標記Hend。

3 基于改進SVM集成方法的蛋白質(zhì)結(jié)晶偏好性預測

4 結(jié)語

參考文獻

[1]姚旭，王曉丹，張玉璽，等.結(jié)合Rotation Forest和MultiBoost的SVM集成方法[J].計算機科學，2013，40（3）：266-270，290.

[2]王同友.基于集成學習的蛋白質(zhì)結(jié)晶偏好性預測 [D].吉林大學碩士學位論文，2014.endprint

數(shù)字技術與應用2014年8期

數(shù)字技術與應用的其它文章: 基于虛擬電阻法的LCL濾波器特性分析; 云計算軍事應用的SWOT分析及發(fā)展對策研究; 云計算在機場信息系統(tǒng)中的典型設計及應用; GIS在景區(qū)保護性規(guī)劃與管理中的應用分析; 基于自適應shearlet域約束下的圖像去噪研究; 淺談SNG在電視新聞直播中的應用