亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

譜聚類欠取樣下自編碼網(wǎng)絡(luò)不平衡數(shù)據(jù)挖掘①

2022-01-06 08:59:58王舒梵姜新盈

計算機系統(tǒng)應(yīng)用 2021年10期

王舒梵,嚴濤,姜新盈

（上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計學(xué)院,上海 201620）

1 引言

信息化時代加快了數(shù)據(jù)量的增長速度,各行各業(yè)的數(shù)據(jù)總數(shù)日漸龐大,為在海量數(shù)據(jù)資源中挖掘出隱藏規(guī)律,聚類算法應(yīng)運而生且重要性日益顯著.在同一數(shù)據(jù)集中,若某類別樣本個數(shù)遠超出余下類別樣本個數(shù),則該數(shù)據(jù)集叫做不平衡數(shù)據(jù)[1].此類數(shù)據(jù)多用于故障診斷、目標檢測等實際應(yīng)用中,但當前算法大部分都是以數(shù)據(jù)集均衡分布為前提的,在處理不平衡數(shù)據(jù)時極易偏向多數(shù)類,產(chǎn)生錯分情況,降低分類準度,所以,研究不平衡數(shù)據(jù)集的數(shù)據(jù)挖掘方法具有重要的實踐意義.

向鴻鑫等人[2]通過總結(jié)常用的不平衡數(shù)據(jù)預(yù)處理方法與挖掘算法,從多維度梳理策略性能,分析各應(yīng)用領(lǐng)域的不平衡問題與解決方案后,實現(xiàn)不平衡數(shù)據(jù)挖掘方法綜述; 蔡莉等人[3]構(gòu)建出一種時空特征位置數(shù)據(jù)融合模型,通過數(shù)據(jù)與算法層面,解決不平衡數(shù)據(jù)的挖掘問題,利用架構(gòu)的綜合評價指標,反映聚類質(zhì)量,融合不平衡數(shù)據(jù)后,完成熱點區(qū)域挖掘; 文獻[4]中許統(tǒng)德等人設(shè)計的多層級聯(lián)式少數(shù)類聚類高精度數(shù)據(jù)挖掘算法中,在聚類欠采樣的前提下,聚類多數(shù)類樣本,獲取與少數(shù)類相同數(shù)量的質(zhì)心,架構(gòu)新的平衡訓(xùn)練集,采用合成少數(shù)類過采樣技術(shù)（Synthetic Minority Oversampling TEchnique,SMOTE）過采樣,級聯(lián)K-means聚類與C4.5決策樹算法,改善分類決策邊界.

鑒于上述文獻方法在融合不平衡數(shù)據(jù)樣本時存在一定的盲目性,故基于譜聚類欠取樣,采用自編碼網(wǎng)絡(luò)來構(gòu)架一種不平衡數(shù)據(jù)挖掘方法.通過譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,使分類邊界適當偏移,提升劃分準確率; 利用自編碼器升、降維數(shù)據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu); 引入網(wǎng)絡(luò)調(diào)整操作,增加了目標領(lǐng)域網(wǎng)絡(luò)的學(xué)習空間,使其與目標領(lǐng)域樣本特征表示更匹配.

2 譜聚類欠取樣分類

譜聚類就是按照譜圖理論[5]完成數(shù)據(jù)分類,將聚類問題轉(zhuǎn)換成無向圖多路徑劃分問題.

采用下列公式界定無向圖G的度矩陣:

譜聚類算法流程具體描述如下:

（3）經(jīng)過標準化處理建立拉普拉斯矩陣;

在不平衡數(shù)據(jù)挖掘過程中,多數(shù)類數(shù)據(jù)通常會攜帶多個冗余數(shù)據(jù)信息與噪聲數(shù)據(jù),導(dǎo)致分類邊界偏移至少數(shù)類數(shù)據(jù)方向,加大錯分概率,若想解決該問題,就要對多數(shù)類數(shù)據(jù)實施相應(yīng)處理,即欠取樣處理,使分類邊界偏移至多數(shù)類數(shù)據(jù)方向.傳統(tǒng)欠取樣處理方法多為去除與邊界距離較遠的數(shù)據(jù)點,或隨機去除多數(shù)類數(shù)據(jù),這種不考慮數(shù)據(jù)信息的處理手段雖然均衡了不同類數(shù)據(jù)集,但分類界限調(diào)整得并不夠理想,因此,采用譜聚類方法聚類多數(shù)類數(shù)據(jù),在更改數(shù)據(jù)空間結(jié)構(gòu)的基礎(chǔ)上,有選擇地欠取樣處理了多數(shù)類數(shù)據(jù)集,通過選取代表性數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),經(jīng)過數(shù)據(jù)篩選,獲取分類邊界偏移量.

3 基于自編碼網(wǎng)絡(luò)的不平衡數(shù)據(jù)挖掘

通過訓(xùn)練令網(wǎng)絡(luò)輸入與輸出相等,完成數(shù)據(jù)隱藏特征學(xué)習的一種神經(jīng)網(wǎng)絡(luò)模型就是自編碼器（Auto-Encoder,AE）[8],作為深度學(xué)習網(wǎng)絡(luò)的一種主要結(jié)構(gòu),自編碼網(wǎng)絡(luò)在深度神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練中被廣泛應(yīng)用.該網(wǎng)絡(luò)即便不用帶標簽數(shù)據(jù)樣本,也能夠達成訓(xùn)練目的,也就是說,其學(xué)習過程屬于無監(jiān)督學(xué)習.自編碼網(wǎng)絡(luò)中的編碼階段是輸入數(shù)據(jù)學(xué)習至高效表示特征,解碼階段是以習得的隱藏特征為依據(jù),實現(xiàn)初始數(shù)據(jù)重構(gòu).自編碼器經(jīng)過升、降維數(shù)據(jù),把提取出來的數(shù)據(jù)特征轉(zhuǎn)換為適用、高效的隱藏特征后,輸送至有監(jiān)督學(xué)習模型內(nèi),即可實現(xiàn)挖掘目標.圖1所示為自編碼器的基本框架形式,由輸入層、輸出層以及隱含層組成,近似于一個3層神經(jīng)網(wǎng)絡(luò)[9].

圖1 自編碼器框架示意圖

假設(shè)（x1,x2,···,xi）是一個輸入樣本,Sigmoid激活函數(shù)[10]用S表示,輸入層與隱含層間、隱含層與輸出層間的權(quán)值分別為w1與w2,則自編碼器前向傳播表達式如式（4）和式（5）所示.

由于自編碼器的訓(xùn)練標準期望是輸入與輸出相等,所以,采用下列表達式描述自編碼器的最終學(xué)習結(jié)果:

根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,升、降維處理初始數(shù)據(jù),通過堆疊多個自編碼器,結(jié)合約束條件,實現(xiàn)各層面的數(shù)據(jù)高效表示學(xué)習.

利用無監(jiān)督學(xué)習與有監(jiān)督學(xué)習,在譜聚類欠取樣條件下架構(gòu)用于挖掘不平衡數(shù)據(jù)的自編碼網(wǎng)絡(luò).因為無標簽樣本數(shù)據(jù)在源領(lǐng)域與目標領(lǐng)域中均可輕易取得,因此,當最大均值差異[11]比預(yù)設(shè)閾值低時,直接跳過網(wǎng)絡(luò)調(diào)整階段,無監(jiān)督訓(xùn)練目標領(lǐng)域數(shù)據(jù); 反之,當最大均值差異比預(yù)設(shè)閾值高時,按照圖2中所示的自編碼網(wǎng)絡(luò)形式進行調(diào)整,并完成隨機初始化.網(wǎng)絡(luò)調(diào)整操作增加了目標領(lǐng)域網(wǎng)絡(luò)的學(xué)習空間,使其與目標領(lǐng)域樣本特征表示更匹配.

圖2 自編碼網(wǎng)絡(luò)結(jié)構(gòu)示意圖

在自編碼網(wǎng)絡(luò)中輸入譜聚類欠取樣處理的不平衡數(shù)據(jù)集合,依照以下流程實現(xiàn)數(shù)據(jù)挖掘:

（2）若多數(shù)類數(shù)據(jù)樣本有n個,則高斯核[12]相似矩陣表達式如下:

（4）根據(jù)各聚類結(jié)果以及聚類中心與少數(shù)類數(shù)據(jù)點的間距大小,選取代表性數(shù)據(jù)點,使分類界面偏移至多數(shù)類樣本,并最大程度刪除多數(shù)類數(shù)據(jù)點的邊界點.各聚類結(jié)果中,數(shù)據(jù)點選用數(shù)量隨著多數(shù)類樣本個數(shù)的增加而增多,隨著聚類中心與少數(shù)類數(shù)據(jù)點間距的增加而上升,基于此,采用下列選取公式,篩選出有效數(shù)據(jù)點.

（6）訓(xùn)練上述多數(shù)類代表數(shù)據(jù)點與所有少數(shù)類數(shù)據(jù),將處理完的數(shù)據(jù)輸入自編碼網(wǎng)絡(luò),在相同數(shù)據(jù)空間中,實現(xiàn)其與譜聚類算法的無縫連接,選取相同參數(shù),令網(wǎng)絡(luò)和參數(shù)與譜聚類相似矩陣保持一致.

（7）根據(jù)上述訓(xùn)練得出的分類界面,完成不平衡數(shù)據(jù)挖掘.

4 不平衡數(shù)據(jù)挖掘模擬分析

4.1 數(shù)據(jù)集選取

選用具有不同實際應(yīng)用背景的UCI數(shù)據(jù)集[13],從中抽取sonar、breast-w、vehicle、artificial、pendigits、letter、page-blocks、car、seg1、yeast5等10組數(shù)據(jù)作為測試集（如表1所示）,驗證挖掘策略的有效性.當數(shù)據(jù)包含多個類別時,設(shè)定任意一類為少數(shù)類,多數(shù)類則為其余各類別的合并結(jié)果,所有不平衡數(shù)據(jù)集均經(jīng)過譜聚類欠取樣處理.

表1 UCI數(shù)據(jù)集具體信息統(tǒng)計表

將表1中的不平衡度劃分成下列等級表,如表2所示.

表2 不平衡度等級表

sonar與breast-w兩個低度不平衡等級數(shù)據(jù)集的選取原因是驗證挖掘方法在處理一般數(shù)據(jù)集時的有效性.

4.2 性能評估指標

針對不平衡數(shù)據(jù)集,采用合理的查全率 Recall、查準率 Precision、綜合F-measure、AUC（Area Under ROC Curve,ROC曲線下方圖面積）值、G-means等類別不平衡評估指標,使少數(shù)類挖掘情況得以充分反映,各指標均以表3中所示的混淆矩陣為依據(jù)完成創(chuàng)建.

表3 類別混淆矩陣表

其中,具有描述少數(shù)類分類性能的指標為F-measure,是查全率與查準率的調(diào)和均值; AUC作為不同判決閾值對應(yīng)的分類性能反映指標,性能隨數(shù)值的增加而提升.各評估指標表達式分別如下所示:

4.3 不平衡數(shù)據(jù)挖掘效果

分別模擬文獻[2-4]方法以及本文方法在挖掘10組不平衡數(shù)據(jù)集時的效果,通過對比不同方法的評估指標數(shù)據(jù),驗證方法的適用性與可行性.對比結(jié)果如表4-表6所示.

表4 各方法F-measure實驗數(shù)據(jù)結(jié)果比對表

表5 各方法AUC值實驗數(shù)據(jù)結(jié)果比對表

表6 各方法G-means實驗數(shù)據(jù)結(jié)果比對表

結(jié)合上列各表可以看出,各方法少數(shù)類評估指標均隨著不平衡度的增加而略有下降; 少數(shù)類樣本數(shù)據(jù)個數(shù)總量相對較少,導(dǎo)致文獻[2-4]方法的F-measure值整體偏低; 造成文獻方法AUC值與G-means指標較低的原因是未考慮樣本屬性間的相關(guān)性,忽略了監(jiān)督判別性的類別標簽信息; 而本文方法因引用了自編碼網(wǎng)絡(luò),根據(jù)各隱藏單元數(shù),獲取各維度隱藏特征,實現(xiàn)了各層面的數(shù)據(jù)高效表示學(xué)習,通過對比最大均值差異比預(yù)設(shè)閾值,完成了網(wǎng)絡(luò)調(diào)整與隨機初始化,利用K-means算法與自編碼網(wǎng)絡(luò),充分結(jié)合了無監(jiān)督學(xué)習與有監(jiān)督學(xué)習形式,因此,取得了較為理想的少數(shù)類樣本分類效果.

5 結(jié)論

在多個實際應(yīng)用數(shù)據(jù)里找到可用且易于用戶理解的知識,這一過程就叫做數(shù)據(jù)挖掘.當挖掘的數(shù)據(jù)集內(nèi)某類別樣本個數(shù)與另外類別樣本個數(shù)相差較大時,該種數(shù)據(jù)集即為不平衡數(shù)據(jù).隨著信息時代與大數(shù)據(jù)時代的來臨,網(wǎng)絡(luò)入侵檢測、文本分類、醫(yī)療診斷等各種領(lǐng)域中普遍存在不平衡數(shù)據(jù),一旦出現(xiàn)錯分情況,將引發(fā)極大損失,因此,本文以自編碼網(wǎng)絡(luò)為核心,提出一種譜聚類欠取樣下的不平衡數(shù)據(jù)挖掘方法.由于時間限制,方法未對運行時間展開針對性的改善,準備將其作為下一步工作的研究重點,結(jié)合創(chuàng)新型、組合型算法,縮短挖掘時長; 譜聚類方法以圖譜理論為基礎(chǔ),因KNN圖復(fù)雜度相對更低,因此,在今后的研究中需探索一種近似于KNN圖的圖構(gòu)建方法,減小復(fù)雜度.