亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主動學(xué)習(xí)的離群點(diǎn)集成挖掘方法研究

        2020-06-18 05:50:10趙曉永王寧寧
        關(guān)鍵詞:離群專家人類

        趙曉永,王寧寧,王 磊

        北京信息科技大學(xué) 信息管理學(xué)院,北京100129

        1 引言

        離群點(diǎn)是指與數(shù)據(jù)集中的其他數(shù)據(jù)有明顯偏離,使人懷疑這些數(shù)據(jù)點(diǎn)是由不同機(jī)制產(chǎn)生的[1]。離群點(diǎn)檢測(Outlier Detection),也稱為離群點(diǎn)挖掘(Outlier Mining),因其在金融欺詐、網(wǎng)絡(luò)入侵、故障檢測、生物信息等領(lǐng)域有著廣闊的應(yīng)用前景,受到了廣泛關(guān)注和研究。

        離群點(diǎn)檢測任務(wù)通常缺少可用的標(biāo)注數(shù)據(jù),且離群數(shù)據(jù)只占整個數(shù)據(jù)集的很小一部分,因此,相較于其他的數(shù)據(jù)挖掘任務(wù),離群點(diǎn)檢測的難度較大。目前對于離群點(diǎn)檢測的研究主要可分為以下幾類:(1)基于概率統(tǒng)計(jì)的檢測方法,包括基于直方圖[2-3]和圖基測試(Tukey Test)[4]的檢測方法等;(2)基于相似性的檢測方法,包括基于聚類[5-6]、近鄰距離[7-8]和密度[9-10]的檢測方法;(3)基于分類的方法,包括基于淺層神經(jīng)網(wǎng)絡(luò)、基于支持向量機(jī)的二元分類方法和深度自編碼器方法[11-12];(4)對高維數(shù)據(jù)的子空間劃分方法,包括孤立森林等[13-14];(5)基于信息論的檢測方法[15-17]。

        由于離群點(diǎn)檢測任務(wù)的復(fù)雜性,尚沒有單一的算法適合于所有的場景,因此研究人員提出了基于模型集成的檢測方法[18],以降低單一算法帶來的風(fēng)險。其中,文獻(xiàn)[19]設(shè)計(jì)了在離群點(diǎn)檢測中使用不同的特征子集的方法,并將它們組合以提供更有效的結(jié)果。文獻(xiàn)[20-22]中展示了如何組合來自離群值檢測算法發(fā)現(xiàn)的不同子空間的分?jǐn)?shù),以便提供統(tǒng)一且更穩(wěn)健的結(jié)果。文獻(xiàn)[23]借鑒隨機(jī)森林方法思想,提出了離群點(diǎn)檢測的孤立森林(Isolation Forest)概念,并在工業(yè)界中得到了廣泛的應(yīng)用。

        鑒于領(lǐng)域?qū)<抑R的應(yīng)用對提高離群點(diǎn)的識別效果總是非常明顯[1],研究人員嘗試將主動學(xué)習(xí)(Active Learning)應(yīng)用于離群點(diǎn)檢測,使得人類專家可以將領(lǐng)域知識,進(jìn)而將無監(jiān)督的離群點(diǎn)檢測問題轉(zhuǎn)換為有監(jiān)督的稀有類別檢測問題方面。文獻(xiàn)[24]中提出了基于主動學(xué)習(xí)的離群點(diǎn)檢測方法,從未標(biāo)記的數(shù)據(jù)迭代主動地學(xué)習(xí),在每次迭代中,算法確定有助于進(jìn)一步分類的“重要的”示例,呈現(xiàn)給人類專家,由其為這些示例進(jìn)行標(biāo)注,然后使用這些標(biāo)記后的數(shù)據(jù)對數(shù)據(jù)集進(jìn)行分類。

        結(jié)合多樣性模型集成和主動學(xué)習(xí)思想,本文提出了一種基于主動學(xué)習(xí)的離群點(diǎn)集成檢測方法OMAL(Outlier Mining based on Active Learning)。在主動學(xué)習(xí)框架指導(dǎo)下,首先根據(jù)各種基礎(chǔ)學(xué)習(xí)器的對比分析,選擇基于統(tǒng)計(jì)的HBOS、基于相似性的模型iORCA、基于軸平行子空間劃分的Isolation Forest共3個無監(jiān)督模型作為基學(xué)習(xí)器;然后,將各基學(xué)習(xí)器評判的離群分?jǐn)?shù)處于離群和正常邊界的數(shù)據(jù)合并后呈現(xiàn)給人類專家進(jìn)行標(biāo)注,這樣可以最大化人類專家反饋的信息量[24];從標(biāo)注的數(shù)據(jù)集和各基學(xué)習(xí)器投票產(chǎn)生的數(shù)據(jù)集中抽樣75%訓(xùn)練基于GBM(Gradient Boosting Machine)[25]的有監(jiān)督二元分類模型,將該模型應(yīng)用于全數(shù)據(jù)集,得出最終的挖掘結(jié)果;最后,使用文獻(xiàn)[26]和[27]中的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明本文提出方法的AUC(Area Under Curve)有了較為明顯的提升,且具有良好的運(yùn)行效率,具備較好的實(shí)用價值。

        2 方法設(shè)計(jì)

        2.1 OMAL總體框架

        在主動學(xué)習(xí)框架指導(dǎo)下,本文提出的離群點(diǎn)集成挖掘方法整體流程如圖1所示。

        圖1 OMAL整體流程圖

        首先使用分析對比后選擇的3個無監(jiān)督基學(xué)習(xí)器對原始數(shù)據(jù)進(jìn)行離群挖掘,根據(jù)各基學(xué)習(xí)器的輸出,采用算法1呈現(xiàn)出少量重要數(shù)據(jù)給專家進(jìn)行標(biāo)注,采用算法2的集成方式產(chǎn)生部分帶標(biāo)注的訓(xùn)練數(shù)據(jù)集,并與專家標(biāo)注的數(shù)據(jù)集整合后,去訓(xùn)練基于GBM的二元監(jiān)督分類模型,然后將該模型應(yīng)用到原始數(shù)據(jù)上,得到最終的離群挖掘結(jié)果。

        2.2 基學(xué)習(xí)器的選擇

        目前主要的無監(jiān)督離群檢測算法如表1。

        諸多學(xué)者已經(jīng)對上述算法進(jìn)行了多種對比研究,Sugiyama等人對比了iForest、FastVOA、iORCA、One Class SVM、LOF和子采樣Sugiyama-Borgwardt方法在多種數(shù)據(jù)集上的表現(xiàn),其中Sugiyama-Borgwardt、iORCA和iForest效果最佳,表明采樣能大幅提升處理性能,同時保證準(zhǔn)確性[7];Lazarevic等基于KDD Cup99數(shù)據(jù)集,對比了LOF、k-NN、PCA和One-Class SVM算法[19];Campos等人對基于距離(k NN k NNW)、密度(LOF、SimplifiedLOF、LoOP、COF、LDF、INFLO、LDOF、ODIN、KDEOS)和角度(FastABOD)的方法進(jìn)行了對比,結(jié)果表明k NN k NNW和LOF是這些方法中統(tǒng)計(jì)最優(yōu)的,特別是在離群點(diǎn)數(shù)量較多的情況下更為突出,在離群點(diǎn)數(shù)量較少的情況下,SimplifiedLOF和LoOP效果與LOF相近;LDF在某些情況下有最好的效果,但非常不穩(wěn)定,F(xiàn)astABOD非常穩(wěn)定,但效果較差[26]。Goldstein等人的研究表明,局部離群檢測算法(LOF、COF、INFLO、LoOP、LOCI、LDCOF、CMGOS)只適合于僅包含局部離群點(diǎn)的數(shù)據(jù)集,在包含有全局離群點(diǎn)的數(shù)據(jù)集上,會產(chǎn)生許多誤檢;相反,全局離群檢測算法(HBOS、Robust PCA、K-NN、uCBLOF、One-Class SVM)不僅可檢測全局離群點(diǎn),對于局部離群問題,可至少達(dá)到平均水平,在對數(shù)據(jù)集沒有先驗(yàn)知識的情況下,建議優(yōu)先選擇全局離群檢測算法[27]。Ding等人對比了SVDD、K-NN、K-Means和GMM在10個不同數(shù)據(jù)集上的離群檢測效果[28];Liu等人對比了iForest、SciForest、ORCA、One Class SVM、Random Forest和LOF在多個數(shù)據(jù)集上的表現(xiàn),指出iForest對全局離群點(diǎn)檢測問題最有效,SciForest對局部離群點(diǎn)檢測問題最有效[29-30]。Zimek等的研究表明,在無監(jiān)督的離群點(diǎn)集成算法中,采取多樣性的基模型有助于提升最終的效果,且不同類型的模型集成優(yōu)于不同參數(shù)的同類模型集成[31]。

        表1 主要的無監(jiān)督離群檢測算法

        綜合上述文獻(xiàn)的研究成果,結(jié)合本文研究方法的特點(diǎn),給出基學(xué)習(xí)器的選擇原則:

        (1)近線性時間復(fù)雜度。主動學(xué)習(xí)框架中需要人類專家參與,時效性是保證閉環(huán)順利進(jìn)行的核心要素,因此,各基學(xué)習(xí)器的時間復(fù)雜度是第一重要的選擇指標(biāo)。

        (2)模型的魯棒性。各基學(xué)習(xí)器需要在不同數(shù)據(jù)集上有穩(wěn)定的表現(xiàn)。

        (3)模型的多樣性。多樣性的模型集成可發(fā)現(xiàn)不同原因產(chǎn)生的離群點(diǎn),提升最終檢測效果。

        (4)模型可解釋性。模型可解釋性允許領(lǐng)域?qū)<腋玫乩斫饣鶎W(xué)習(xí)器發(fā)現(xiàn)的離群點(diǎn),從而更好地進(jìn)行標(biāo)注。

        因此,本文選擇了基于統(tǒng)計(jì)的HBOS、基于相似性的模型iORCA、基于軸平行子空間劃分的Isolation Forest共3種類別的、近線性時間復(fù)雜度的、無監(jiān)督模型作為基學(xué)習(xí)器。

        2.3 監(jiān)督模型訓(xùn)練集的構(gòu)造

        為了將離群點(diǎn)檢測轉(zhuǎn)換為有監(jiān)督的過程,需要構(gòu)造出用于訓(xùn)練的有標(biāo)注數(shù)據(jù)集,標(biāo)注主要來源于兩個方面:人類專家的標(biāo)注、基學(xué)習(xí)器的結(jié)果整合。

        為了減少人類專家的標(biāo)注工作量,同時最大化標(biāo)注的價值,需要將能夠?yàn)橄到y(tǒng)帶來最多反饋信息的數(shù)據(jù)呈現(xiàn)給人類專家[32],算法1描述了人類專家標(biāo)注訓(xùn)練集構(gòu)建的具體過程。

        算法1人類專家標(biāo)注訓(xùn)練集構(gòu)建算法

        輸入:各基學(xué)習(xí)器的輸出S1~S3

        輸出:帶標(biāo)注的數(shù)據(jù)集D

        (1)從各基學(xué)習(xí)器的輸出S1~S3中,根據(jù)學(xué)習(xí)器的評分,獲取處于離群和正常邊界的離群數(shù)據(jù)各m(m=min(10,可用數(shù)據(jù)))條、正常數(shù)據(jù)各n(n=min(5,可用數(shù)據(jù)))條,則從S1~S3中可得到待標(biāo)注離群數(shù)據(jù)集A1~A3(不超過30行)和待標(biāo)注的正常數(shù)據(jù)集N1~N3(不超過15行);

        (2)將A1~A3 N1~N3分別合并去重后可得待標(biāo)注離群數(shù)據(jù)集A、待標(biāo)注的正常數(shù)據(jù)集N;

        (3)在A和N中重復(fù)的數(shù)據(jù),將其從N中刪除;

        (4)將A和N按照離群程度降序排列后呈現(xiàn)給人類專家進(jìn)行標(biāo)注;

        (5)A和N合并為D并輸出,算法結(jié)束。

        基學(xué)習(xí)器的結(jié)果整合是集成學(xué)習(xí)的關(guān)鍵點(diǎn),但由于各學(xué)習(xí)器輸出結(jié)果的含義和尺度的差異,結(jié)果整合仍然是集成學(xué)習(xí)中的難點(diǎn)[31]。由于本文的方法并不需要將基學(xué)習(xí)器的模型進(jìn)行整合,因此無需對輸出結(jié)果在含義和尺度上進(jìn)行融合;另一方面,依據(jù)沒有免費(fèi)午餐定理NFL[33-34],在分布未知的多種數(shù)據(jù)集上,各基學(xué)習(xí)器的平均表現(xiàn)是相當(dāng)?shù)模虼瞬捎昧宋醇訖?quán)的簡單投票(Major Vote)方法,算法2描述了基學(xué)習(xí)器投票標(biāo)注訓(xùn)練集的具體過程。

        算法2基學(xué)習(xí)器投票標(biāo)注訓(xùn)練集算法

        輸入:各基學(xué)習(xí)器的輸出S1~S3

        輸出:帶標(biāo)注的數(shù)據(jù)集E

        (1)將各基學(xué)習(xí)器的輸出S1~S3拆分為離群數(shù)據(jù)集Sa1~Sa3和正常數(shù)據(jù)集Sn1~Sn3;

        (2)對Sa1~Sa3進(jìn)行簡單投票,將在一半以上數(shù)據(jù)集中出現(xiàn)的,作為訓(xùn)練用的離群數(shù)據(jù)集A;

        (3)從Sn1~Sn3的交集中抽樣75%,作為訓(xùn)練用的正常數(shù)據(jù)集N;

        (4)A和N合并為E并輸出,算法結(jié)束。

        將算法1和算法2的輸出結(jié)果D和E合并形成最終的訓(xùn)練數(shù)據(jù)集,當(dāng)遇到標(biāo)注沖突的數(shù)據(jù)時,以D中的標(biāo)注為準(zhǔn)。

        2.4 有監(jiān)督分類算法的選擇

        首先,由于離群數(shù)據(jù)的稀有特性,2.3節(jié)構(gòu)造出的訓(xùn)練數(shù)據(jù)集仍然是不平衡的,而常用的過采樣、欠采樣方法均不適于離群挖掘場景[35],因此,需要能夠支持不平衡數(shù)據(jù)集的二元分類算法;其次,人類專家標(biāo)注訓(xùn)練集后,會希望能盡快獲得最終的離群挖掘結(jié)果,這也就要求有監(jiān)督模型必須有較高的訓(xùn)練和預(yù)測性能。

        Friedman等人提出的GBM(Gradient Boosting Machine)是一種Boosting集成學(xué)習(xí)模型,支持不平衡數(shù)據(jù)集的二元分類,具有可高度定制的靈活性、訓(xùn)練速度快且可并行化、易于調(diào)參和可解釋性強(qiáng)等優(yōu)點(diǎn)[36],在各大數(shù)據(jù)挖掘競賽和工業(yè)界均有廣泛的應(yīng)用并取得了良好的效果[37],因此,本文選擇基于GBM的有監(jiān)督二元分類算法。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)環(huán)境為1臺8核32 GB內(nèi)存,500 GB硬盤容量的Dell R620服務(wù)器,操作系統(tǒng)為Ubuntu 16.04。

        測試數(shù)據(jù)為文獻(xiàn)[26]和[27]使用的30個公開數(shù)據(jù)集,這些數(shù)據(jù)集也被許多離群點(diǎn)挖掘的文獻(xiàn)使用,其中kdd99、shuttle和annthyroid數(shù)據(jù)集在兩篇文獻(xiàn)中分別做了不同的處理,數(shù)據(jù)集的情況如表2。

        OMAL算法中各基學(xué)習(xí)器HBOS、iORCA和iForest參數(shù)設(shè)定分別使用各算法提出者文獻(xiàn)中的推薦設(shè)定;并基于lightgbm實(shí)現(xiàn)有監(jiān)督二元分類監(jiān)督模型,設(shè)置unbalanced參數(shù)后可支持不平衡數(shù)據(jù)集二分類。將OMAL算法與各基學(xué)習(xí)器HBOS、iORCA和iForest獨(dú)立運(yùn)行時的結(jié)果進(jìn)行對比,各基學(xué)習(xí)器也采用各算法提出者文獻(xiàn)中的推薦設(shè)定。采用無監(jiān)督離群挖掘算法評價的事實(shí)標(biāo)準(zhǔn)AUC其作為評價指標(biāo)[1]。

        3.2 實(shí)驗(yàn)結(jié)果

        圖2顯示了本文使用的基學(xué)習(xí)器在各數(shù)據(jù)集上的運(yùn)行時長情況。得益于此三種基學(xué)習(xí)器的近似線性時間復(fù)雜度(參見2.2節(jié)),對于6萬行以內(nèi)的數(shù)據(jù)集,人類專家需要等待的時間均在3 s以內(nèi),由于大腦的短時記憶效應(yīng),此時間間隔內(nèi)人們不會感覺到明顯的等待[38]。

        圖3顯示了本文提出的OMAL算法與三種典型的基學(xué)習(xí)器方法的對比結(jié)果,可以看出,得益于人類專家反饋的信息,本文的OMAL方法在這些數(shù)據(jù)集上的AUC值都有了較為顯著的提升。

        表2 數(shù)據(jù)集情況

        圖2 基學(xué)習(xí)器運(yùn)行時長

        4 結(jié)論

        針對目前的離群點(diǎn)挖掘方法尚未有效解決專家知識應(yīng)用、擴(kuò)展性和準(zhǔn)確率三者之間的平衡問題,本文結(jié)合主動學(xué)習(xí)和模型集成,提出一種基于主動學(xué)習(xí)的離群點(diǎn)集成挖掘方法OMAL,結(jié)合多個無監(jiān)督基學(xué)習(xí)器的學(xué)習(xí)結(jié)果與人類專家知識,訓(xùn)練出有監(jiān)督的二元分類模型,在減少工作量、提升擴(kuò)展性的同時,達(dá)到了較高的準(zhǔn)確率。實(shí)驗(yàn)表明,OMAL方法在提供更好的離群點(diǎn)挖掘效果的同時,具有良好的運(yùn)行效率,具備較好的實(shí)用價值。不過,在主動學(xué)習(xí)過程中,如果能經(jīng)過人類專家的多輪指導(dǎo),可獲得更多的反饋信息,有助于提升系統(tǒng)效果,但如何呈現(xiàn)每輪次的待標(biāo)注數(shù)據(jù)以優(yōu)化信息反饋效率,如何處理每輪次標(biāo)注后的樣本集以優(yōu)化下輪無監(jiān)督學(xué)習(xí)器的輸出,如何根據(jù)每輪次的反饋調(diào)整各基學(xué)習(xí)器的權(quán)重,是需要進(jìn)一步研究的問題。

        圖3 算法AUC結(jié)果對比

        猜你喜歡
        離群專家人類
        致謝審稿專家
        人類能否一覺到未來?
        人類第一殺手
        好孩子畫報(2020年5期)2020-06-27 14:08:05
        1100億個人類的清明
        請叫我專家
        離群數(shù)據(jù)挖掘在發(fā)現(xiàn)房產(chǎn)銷售潛在客戶中的應(yīng)用
        人類正在消滅自然
        奧秘(2015年2期)2015-09-10 07:22:44
        專家面對面
        離群的小雞
        應(yīng)用相似度測量的圖離群點(diǎn)檢測方法
        国产二级一片内射视频插放| 国产精品综合女同人妖| 国产青青草在线观看视频| 久久婷婷人人澡人人爽人人爱| 国产精品久久久久久麻豆一区| 伊人狠狠色j香婷婷综合| 亚洲精品456在线播放狼人| 精品国产天堂综合一区在线| 无遮挡又黄又刺激又爽的视频| 国产综合久久久久影院| av在线资源一区二区| 国产精品亚洲精品日韩已方| 性一交一乱一伦一色一情孩交| 成人片99久久精品国产桃花岛| 国产情侣自拍偷拍精品| 国产三级a三级三级| 亚洲av日韩av高潮潮喷无码 | 亚洲精品99久久久久久| av在线入口一区二区| 精品国产青草久久久久福利| 中文字幕+乱码+中文字幕无忧| 国产大陆av一区二区三区| 开心久久综合婷婷九月| 国产精成人品日日拍夜夜免费 | 国产一区二区三区最新地址| 99久久精品费精品国产一区二| 日本色噜噜| 男女午夜视频一区二区三区| 美女国产毛片a区内射| 成人黄色网址| 中文字幕有码在线视频| 狂插美女流出白浆视频在线观看| 波多野结衣的av一区二区三区 | 东京无码熟妇人妻av在线网址| 久久久久国产亚洲AV麻豆| 日本国产一区在线观看| 狠狠的干性视频| 日本精品a在线观看| 亚洲一区二区三区亚洲| 欧洲熟妇色xxxx欧美老妇软件| 精品一区二区三区无码视频|