亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        譜聚類欠取樣下自編碼網(wǎng)絡(luò)不平衡數(shù)據(jù)挖掘①

        2022-01-06 08:59:58王舒梵姜新盈
        計算機系統(tǒng)應(yīng)用 2021年10期
        關(guān)鍵詞:數(shù)據(jù)挖掘分類方法

        王舒梵,嚴 濤,姜新盈

        (上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計學(xué)院,上海 201620)

        1 引言

        信息化時代加快了數(shù)據(jù)量的增長速度,各行各業(yè)的數(shù)據(jù)總數(shù)日漸龐大,為在海量數(shù)據(jù)資源中挖掘出隱藏規(guī)律,聚類算法應(yīng)運而生且重要性日益顯著.在同一數(shù)據(jù)集中,若某類別樣本個數(shù)遠超出余下類別樣本個數(shù),則該數(shù)據(jù)集叫做不平衡數(shù)據(jù)[1].此類數(shù)據(jù)多用于故障診斷、目標檢測等實際應(yīng)用中,但當前算法大部分都是以數(shù)據(jù)集均衡分布為前提的,在處理不平衡數(shù)據(jù)時極易偏向多數(shù)類,產(chǎn)生錯分情況,降低分類準度,所以,研究不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘方法具有重要的實踐意義.

        向鴻鑫等人[2]通過總結(jié)常用的不平衡數(shù)據(jù)預(yù)處理方法與挖掘算法,從多維度梳理策略性能,分析各應(yīng)用領(lǐng)域的不平衡問題與解決方案后,實現(xiàn)不平衡數(shù)據(jù)挖掘方法綜述; 蔡莉等人[3]構(gòu)建出一種時空特征位置數(shù)據(jù)融合模型,通過數(shù)據(jù)與算法層面,解決不平衡數(shù)據(jù)的挖掘問題,利用架構(gòu)的綜合評價指標,反映聚類質(zhì)量,融合不平衡數(shù)據(jù)后,完成熱點區(qū)域挖掘; 文獻[4]中許統(tǒng)德等人設(shè)計的多層級聯(lián)式少數(shù)類聚類高精度數(shù)據(jù)挖掘算法中,在聚類欠采樣的前提下,聚類多數(shù)類樣本,獲取與少數(shù)類相同數(shù)量的質(zhì)心,架構(gòu)新的平衡訓(xùn)練集,采用合成少數(shù)類過采樣技術(shù)(Synthetic Minority Oversampling TEchnique,SMOTE)過采樣,級聯(lián)K-means聚類與C4.5決策樹算法,改善分類決策邊界.

        鑒于上述文獻方法在融合不平衡數(shù)據(jù)樣本時存在一定的盲目性,故基于譜聚類欠取樣,采用自編碼網(wǎng)絡(luò)來構(gòu)架一種不平衡數(shù)據(jù)挖掘方法.通過譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,使分類邊界適當偏移,提升劃分準確率; 利用自編碼器升、降維數(shù)據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu); 引入網(wǎng)絡(luò)調(diào)整操作,增加了目標領(lǐng)域網(wǎng)絡(luò)的學(xué)習空間,使其與目標領(lǐng)域樣本特征表示更匹配.

        2 譜聚類欠取樣分類

        譜聚類就是按照譜圖理論[5]完成數(shù)據(jù)分類,將聚類問題轉(zhuǎn)換成無向圖多路徑劃分問題.

        采用下列公式界定無向圖G的度矩陣:

        譜聚類算法流程具體描述如下:

        (3)經(jīng)過標準化處理建立拉普拉斯矩陣;

        在不平衡數(shù)據(jù)挖掘過程中,多數(shù)類數(shù)據(jù)通常會攜帶多個冗余數(shù)據(jù)信息與噪聲數(shù)據(jù),導(dǎo)致分類邊界偏移至少數(shù)類數(shù)據(jù)方向,加大錯分概率,若想解決該問題,就要對多數(shù)類數(shù)據(jù)實施相應(yīng)處理,即欠取樣處理,使分類邊界偏移至多數(shù)類數(shù)據(jù)方向.傳統(tǒng)欠取樣處理方法多為去除與邊界距離較遠的數(shù)據(jù)點,或隨機去除多數(shù)類數(shù)據(jù),這種不考慮數(shù)據(jù)信息的處理手段雖然均衡了不同類數(shù)據(jù)集,但分類界限調(diào)整得并不夠理想,因此,采用譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,獲取分類邊界偏移量.

        3 基于自編碼網(wǎng)絡(luò)的不平衡數(shù)據(jù)挖掘

        通過訓(xùn)練令網(wǎng)絡(luò)輸入與輸出相等,完成數(shù)據(jù)隱藏特征學(xué)習的一種神經(jīng)網(wǎng)絡(luò)模型就是自編碼器(Auto-Encoder,AE)[8],作為深度學(xué)習網(wǎng)絡(luò)的一種主要結(jié)構(gòu),自編碼網(wǎng)絡(luò)在深度神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練中被廣泛應(yīng)用.該網(wǎng)絡(luò)即便不用帶標簽數(shù)據(jù)樣本,也能夠達成訓(xùn)練目的,也就是說,其學(xué)習過程屬于無監(jiān)督學(xué)習.自編碼網(wǎng)絡(luò)中的編碼階段是輸入數(shù)據(jù)學(xué)習至高效表示特征,解碼階段是以習得的隱藏特征為依據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu).自編碼器經(jīng)過升、降維數(shù)據(jù),把提取出來的數(shù)據(jù)特征轉(zhuǎn)換為適用、高效的隱藏特征后,輸送至有監(jiān)督學(xué)習模型內(nèi),即可實現(xiàn)挖掘目標.圖1所示為自編碼器的基本框架形式,由輸入層、輸出層以及隱含層組成,近似于一個3層神經(jīng)網(wǎng)絡(luò)[9].

        圖1 自編碼器框架示意圖

        假設(shè)(x1,x2,···,xi)是一個輸入樣本,Sigmoid激活函數(shù)[10]用S表示,輸入層與隱含層間、隱含層與輸出層間的權(quán)值分別為w1與w2,則自編碼器前向傳播表達式如式(4)和式(5)所示.

        由于自編碼器的訓(xùn)練標準期望是輸入與輸出相等,所以,采用下列表達式描述自編碼器的最終學(xué)習結(jié)果:

        根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,升、降維處理初始數(shù)據(jù),通過堆疊多個自編碼器,結(jié)合約束條件,實現(xiàn)各層面的數(shù)據(jù)高效表示學(xué)習.

        利用無監(jiān)督學(xué)習與有監(jiān)督學(xué)習,在譜聚類欠取樣條件下架構(gòu)用于挖掘不平衡數(shù)據(jù)的自編碼網(wǎng)絡(luò).因為無標簽樣本數(shù)據(jù)在源領(lǐng)域與目標領(lǐng)域中均可輕易取得,因此,當最大均值差異[11]比預(yù)設(shè)閾值低時,直接跳過網(wǎng)絡(luò)調(diào)整階段,無監(jiān)督訓(xùn)練目標領(lǐng)域數(shù)據(jù); 反之,當最大均值差異比預(yù)設(shè)閾值高時,按照圖2中所示的自編碼網(wǎng)絡(luò)形式進行調(diào)整,并完成隨機初始化.網(wǎng)絡(luò)調(diào)整操作增加了目標領(lǐng)域網(wǎng)絡(luò)的學(xué)習空間,使其與目標領(lǐng)域樣本特征表示更匹配.

        圖2 自編碼網(wǎng)絡(luò)結(jié)構(gòu)示意圖

        在自編碼網(wǎng)絡(luò)中輸入譜聚類欠取樣處理的不平衡數(shù)據(jù)集合,依照以下流程實現(xiàn)數(shù)據(jù)挖掘:

        (2)若多數(shù)類數(shù)據(jù)樣本有n個,則高斯核[12]相似矩陣表達式如下:

        (4)根據(jù)各聚類結(jié)果以及聚類中心與少數(shù)類數(shù)據(jù)點的間距大小,選取代表性數(shù)據(jù)點,使分類界面偏移至多數(shù)類樣本,并最大程度刪除多數(shù)類數(shù)據(jù)點的邊界點.各聚類結(jié)果中,數(shù)據(jù)點選用數(shù)量隨著多數(shù)類樣本個數(shù)的增加而增多,隨著聚類中心與少數(shù)類數(shù)據(jù)點間距的增加而上升,基于此,采用下列選取公式,篩選出有效數(shù)據(jù)點.

        (6)訓(xùn)練上述多數(shù)類代表數(shù)據(jù)點與所有少數(shù)類數(shù)據(jù),將處理完的數(shù)據(jù)輸入自編碼網(wǎng)絡(luò),在相同數(shù)據(jù)空間中,實現(xiàn)其與譜聚類算法的無縫連接,選取相同參數(shù),令網(wǎng)絡(luò)和參數(shù)與譜聚類相似矩陣保持一致.

        (7)根據(jù)上述訓(xùn)練得出的分類界面,完成不平衡數(shù)據(jù)挖掘.

        4 不平衡數(shù)據(jù)挖掘模擬分析

        4.1 數(shù)據(jù)集選取

        選用具有不同實際應(yīng)用背景的UCI數(shù)據(jù)集[13],從中抽取sonar、breast-w、vehicle、artificial、pendigits、letter、page-blocks、car、seg1、yeast5等10組數(shù)據(jù)作為測試集(如表1所示),驗證挖掘策略的有效性.當數(shù)據(jù)包含多個類別時,設(shè)定任意一類為少數(shù)類,多數(shù)類則為其余各類別的合并結(jié)果,所有不平衡數(shù)據(jù)集均經(jīng)過譜聚類欠取樣處理.

        表1 UCI數(shù)據(jù)集具體信息統(tǒng)計表

        將表1中的不平衡度劃分成下列等級表,如表2所示.

        表2 不平衡度等級表

        sonar與breast-w兩個低度不平衡等級數(shù)據(jù)集的選取原因是驗證挖掘方法在處理一般數(shù)據(jù)集時的有效性.

        4.2 性能評估指標

        針對不平衡數(shù)據(jù)集,采用合理的查全率 Recall、查準率 Precision、綜合F-measure、AUC(Area Under ROC Curve,ROC曲線下方圖面積)值、G-means等類別不平衡評估指標,使少數(shù)類挖掘情況得以充分反映,各指標均以表3中所示的混淆矩陣為依據(jù)完成創(chuàng)建.

        表3 類別混淆矩陣表

        其中,具有描述少數(shù)類分類性能的指標為F-measure,是查全率與查準率的調(diào)和均值; AUC作為不同判決閾值對應(yīng)的分類性能反映指標,性能隨數(shù)值的增加而提升.各評估指標表達式分別如下所示:

        4.3 不平衡數(shù)據(jù)挖掘效果

        分別模擬文獻[2-4]方法以及本文方法在挖掘10組不平衡數(shù)據(jù)集時的效果,通過對比不同方法的評估指標數(shù)據(jù),驗證方法的適用性與可行性.對比結(jié)果如表4-表6所示.

        表4 各方法F-measure實驗數(shù)據(jù)結(jié)果比對表

        表5 各方法AUC值實驗數(shù)據(jù)結(jié)果比對表

        表6 各方法G-means實驗數(shù)據(jù)結(jié)果比對表

        結(jié)合上列各表可以看出,各方法少數(shù)類評估指標均隨著不平衡度的增加而略有下降; 少數(shù)類樣本數(shù)據(jù)個數(shù)總量相對較少,導(dǎo)致文獻[2-4]方法的F-measure值整體偏低; 造成文獻方法AUC值與G-means指標較低的原因是未考慮樣本屬性間的相關(guān)性,忽略了監(jiān)督判別性的類別標簽信息; 而本文方法因引用了自編碼網(wǎng)絡(luò),根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,實現(xiàn)了各層面的數(shù)據(jù)高效表示學(xué)習,通過對比最大均值差異比預(yù)設(shè)閾值,完成了網(wǎng)絡(luò)調(diào)整與隨機初始化,利用K-means算法與自編碼網(wǎng)絡(luò),充分結(jié)合了無監(jiān)督學(xué)習與有監(jiān)督學(xué)習形式,因此,取得了較為理想的少數(shù)類樣本分類效果.

        5 結(jié)論

        在多個實際應(yīng)用數(shù)據(jù)里找到可用且易于用戶理解的知識,這一過程就叫做數(shù)據(jù)挖掘.當挖掘的數(shù)據(jù)集內(nèi)某類別樣本個數(shù)與另外類別樣本個數(shù)相差較大時,該種數(shù)據(jù)集即為不平衡數(shù)據(jù).隨著信息時代與大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)入侵檢測、文本分類、醫(yī)療診斷等各種領(lǐng)域中普遍存在不平衡數(shù)據(jù),一旦出現(xiàn)錯分情況,將引發(fā)極大損失,因此,本文以自編碼網(wǎng)絡(luò)為核心,提出一種譜聚類欠取樣下的不平衡數(shù)據(jù)挖掘方法.由于時間限制,方法未對運行時間展開針對性的改善,準備將其作為下一步工作的研究重點,結(jié)合創(chuàng)新型、組合型算法,縮短挖掘時長; 譜聚類方法以圖譜理論為基礎(chǔ),因KNN圖復(fù)雜度相對更低,因此,在今后的研究中需探索一種近似于KNN圖的圖構(gòu)建方法,減小復(fù)雜度.

        猜你喜歡
        數(shù)據(jù)挖掘分類方法
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        最新亚洲人成网站在线观看 | 亚洲福利第一页在线观看| 国产乱子乱人伦电影在线观看| 亚洲av片在线观看| 97久久超碰国产精品旧版| 精品久久人妻av中文字幕| 欧美激情在线播放| 国产真实乱对白精彩久久老熟妇女 | 亚洲大尺度动作在线观看一区| 99热视热频这里只有精品| 美女胸又www又黄的网站| 内谢少妇xxxxx8老少交| 中国农村熟妇性视频| 成l人在线观看线路1| 无码成人aaaaa毛片| 97精品伊人久久大香线蕉app| 抽搐一进一出试看60秒体验区| 亚洲熟女综合一区二区三区| 手机看片福利一区二区三区| 国产山东熟女48嗷嗷叫| 精品无码国产污污污免费网站| 好大好硬好爽免费视频| 亚洲综合免费| 91精品国产91久久综合桃花| 亚洲高清精品50路| 日本高清免费播放一区二区| 日本黄色一区二区三区视频| 肉丝高跟国产精品啪啪| 一区二区三区在线蜜桃| 激情乱码一区二区三区| 久久精品国产亚洲av试看| 69久久精品亚洲一区二区| 国内精品少妇久久精品| 亚洲av成人波多野一区二区| 美女被躁到高潮嗷嗷免费观看| 久久综合五月天啪网亚洲精品| 亚洲成人av一区免费看| 国产交换精品一区二区三区| 国产成人亚洲系列毛片| 日韩精品一区二区三区人妻在线| 国产午夜免费一区二区三区视频|