亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合采樣和集成學習的軟件缺陷預測

        2021-07-26 01:19:30楊昊天顧乾暉王嘉璐施愷杰徐力晨
        網絡安全技術與應用 2021年5期
        關鍵詞:分類實驗方法

        ◆楊昊天 顧乾暉 王嘉璐 施愷杰 徐力晨

        (南昌工程學院信息工程學院 江西 330096)

        軟件缺陷檢測是軟件工程的重要課題[1]。一些常見的機器學習方法,如支持向量機、決策樹、KNN、邏輯回歸、樸素貝葉斯等都能夠用來建立分類模型[2]。但是,對于軟件缺陷檢測問題,經典的學習方法效果并不理想。由于傳統(tǒng)分類器的訓練過程普遍遵循誤差最小化原則,當訓練數(shù)據(jù)不平衡時,分類面向多數(shù)類偏倚,因此最終的模型對少數(shù)類的分類性能較差,在嚴重情況下,模型甚至完全無效。類別不平衡指的是訓練數(shù)據(jù)中不同類別樣本的數(shù)量差異很大,其中某些類別的樣本數(shù)目要遠小于其他類別樣本的數(shù)目[3]。這種情形廣泛存在于現(xiàn)實應用中。不平衡的數(shù)據(jù)降低了少數(shù)類樣本的分類正確性[4]。

        不平衡學習算法目標可以簡單描述為在不嚴重降低多數(shù)類準確性的情況下獲得一個能夠為少數(shù)類提供高準確率的分類器[5]。類別不平衡學習一直是機器學習與數(shù)據(jù)挖掘領域的研究熱點與難點之一。目前,已有許多類別不平衡學習技術被提出,大致可以分為數(shù)據(jù)層處理技術、內置技術,混合技術。為了有效提升軟件缺陷預測精度,本文提出了一種將SMOTE_Tomek 采樣和集成學習算法XGBoost[3]相結合的分類預測模型。該模型先利用組合采樣方法SMOTE_Tomek 使失衡的數(shù)據(jù)平衡,同時濾除噪音樣本,然后再使用集成學習算法XGBoost 進行訓練得到分類模型。為了評估提出的分類模型的有效性,我們利用十個NASA 軟件缺陷數(shù)據(jù)集進行了廣泛的比較實驗。實驗結果驗證了本文提出的模型解決軟件缺陷預測問題的優(yōu)越性。

        1 XGBoost 集成學習

        XGBoost 是一種基于決策樹并使用梯度提升框架的集成學習算法。

        本文利用XGBoost 集成學習算法在平衡后的數(shù)據(jù)集上進行訓練。設每個數(shù)據(jù)集中有n 個樣本和m 個特征,記為:D={(xi,yi)}(|D|=n,xi∈Rm,yi∈R)。其中yi為實際缺陷標簽。根據(jù)XGBoost 算法中決策樹函數(shù)fk(x),預測缺陷標簽,其中k 為迭代次數(shù)。由損失函數(shù)和懲罰項Ω(fk)建立目標函數(shù)。損失函數(shù)衡量目標值yi與預測值之間的誤差,懲罰項用以避免過擬合,則目標函數(shù)可表示為

        其中γ為決策樹的復雜度,λ為懲罰因子,T 為決策樹的葉子節(jié)點數(shù)目,ω為數(shù)據(jù)分到決策樹中葉子節(jié)點的所在層數(shù)。將上式進行泰勒展開,則算法的第k 次的目標函數(shù)可近似表示為

        在模型訓練階段,每次迭代選擇最優(yōu)的fk(x),使得式(3)最小化。

        2 結合SMOTE_Tomek 的XGBoost 軟件缺陷預測

        采樣技術主要包括欠采樣和過采樣。常見的欠采樣方法主要有:隨機欠采樣、Tomek Links、NearMiss-1、NearMiss-2、NearMiss-3 等。下面以NASA 數(shù)據(jù)集中的PC3 樣本為例。圖1 展示了PC3 原始數(shù)據(jù)樣本的分布情況。

        圖1 PC3 原始數(shù)據(jù)樣本

        SMOTE 采樣方法在平衡數(shù)據(jù)的同時,造成了分類面的過度偏倚,因此提出了組合采樣技術SMOTE_Tomek。該方法可以很好地改善SMOTE 過采樣中的噪聲和邊界問題。該方法包含兩步:首先利用SMOTE 采樣對不平衡數(shù)據(jù)進行過采樣處理,然后再通過Tomek Links采樣對新生成的樣本中存在的噪聲進行刪除。圖2 展示了采用SMOTE_Tomek 采樣方法后的新數(shù)據(jù)樣本分布。

        圖2 SMOTE_Tomek 采樣

        3 實驗結果與分析

        3.1 數(shù)據(jù)集與評估指標

        本文實驗使用了十個美國國家航空航天局(NASA)的軟件缺陷數(shù)據(jù)集。這些數(shù)據(jù)集是公開并被廣泛使用于軟件缺陷預測的數(shù)據(jù)集。每個數(shù)據(jù)集對應NASA 某個軟件子系統(tǒng),其特征包括代碼行數(shù)、遞歸最大深度等。

        軟件缺陷預測是一個分類問題,分類問題中我們評估實驗效果可以通過混淆矩陣來計算,由混淆矩陣計算出精確率、召回率、準確率和F1 值。其中,F(xiàn)1 值表示的是精確率和召回率的調和平均值,它的值越大,模型的分類性能越好。

        3.2 分類性能比較與分析

        本文實驗的采樣階段分別比較了多種常用的欠采樣和過采樣。主要包括:隨機過采樣[6]、ADASYN、SMOTE,以及本文使用的SMOTE_Tomek 采樣方法等。為了驗證文中所提出的組合模型的性能,使用了不同的組合分類模型與之對比。表1 使用不同的采樣模型和XGBoost 分類模型相結合,隨機連續(xù)進行20 次實驗,計算出各個組合預測模型在十個NASA 數(shù)據(jù)庫中的準確率。

        圖3 八種采樣方法分別與XGBoost 分類器相組合的F1 值比較

        圖4 九種分類器分別與SOMTE_Tomek 采樣相組合的F1 值比較

        在NASA 數(shù)據(jù)集上,使用過采樣與XGBoost 的組合預測模型結果普遍優(yōu)于欠采樣與XGBoost 的組合模型。其中SMOTE_Tomek 與XGBoost 的組合模型有最優(yōu)的準確率。但是,對于不平衡數(shù)據(jù)的分類,準確率往往不是理想的比較指標。因此,我們進一步對各個組合模型的F1 值進行比較。在十個NASA 數(shù)據(jù)集的預測結果中,過采樣方法比欠采樣方法有更好的F1 值。由各個采樣方法在每個數(shù)據(jù)集的F1 值計算得到各個采樣方法的F1 均值,如表1所示。表1 的實驗結果表明,對于NASA 軟件缺陷數(shù)據(jù)集,SMOTE_Tomek 采樣方法與XGBoost 相組合的分類模型獲得最優(yōu)的F1 值,即有最好的分類性能。為了進一步驗證SMOTE_Tomek 采樣與XGBoost 組合的分類模型的優(yōu)越性,我們進一步比較了SMOTE_Tomek 采樣算法與其他主流分類器相組合的分類模型,實驗結果如表2所示。

        表1 10 個NASA 數(shù)據(jù)庫上的F1 均值

        表2 10 個NASA 數(shù)據(jù)庫上的F1 均值

        4 結束語

        本文提出了一種SMOTE_Tomek 組合采樣方法和XGBoost 集成學習相結合的分類模型。我們在十個NASA 數(shù)據(jù)集上的仿真實驗結果表明:該組合模型在軟件缺陷預測上有著非常出色的表現(xiàn),獲得了最好的平均準確率和平均F1 值。實驗結果證明了本文提出的分類模型能夠很好地處理軟件缺陷預測問題。

        猜你喜歡
        分類實驗方法
        記一次有趣的實驗
        分類算一算
        做個怪怪長實驗
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        可能是方法不對
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        久久99热精品免费观看欧美| 午夜亚洲www湿好爽| 日韩人妻中文字幕高清在线| 玖玖色玖玖草玖玖爱在线精品视频| 久久综合99re88久久爱| 亚洲a∨无码精品色午夜| 色视频线观看在线网站| 中文字幕天天躁日日躁狠狠躁免费| 精品久久久中文字幕人妻| 欧美日韩成人在线| 国产成人精品亚洲午夜| 国产成人精品aaaa视频一区 | 日日澡夜夜澡人人高潮| 99久久免费精品高清特色大片| 无码国产精品一区二区免费16| 亚洲区日韩精品中文字幕| 粉嫩的18在线观看极品精品| 一区二区三区中文字幕在线观看| 青青草中文字幕在线播放| 日本国产亚洲一区二区| 亚洲精品白浆高清久久久久久| 日韩放荡少妇无码视频| 18成人片黄网站www| 国产精品中文第一字幕| 国产精品久久久精品三级18| 亚洲免费精品一区二区| 日本区一区二区三视频| 色偷偷噜噜噜亚洲男人| 亚洲国产精品一区二区第四页| 亚洲av色香蕉一区二区蜜桃| 亚洲不卡高清av在线| 91色老久久偷偷精品蜜臀懂色| 无码中文字幕日韩专区| 无码人妻av一二区二区三区 | 亚洲欧美激情在线一区| 国产激情视频白浆免费| 色综合色综合久久综合频道| 久久亚洲春色中文字幕久久久综合| 日本少妇熟女一区二区| 免费a级毛片18禁网站免费| 97无码免费人妻超级碰碰夜夜|