亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不平衡信息處理技術(shù)與研究現(xiàn)狀

        2018-03-27 04:42:34楊忠誠
        數(shù)字通信世界 2018年9期
        關(guān)鍵詞:成本方法研究

        楊忠誠

        (重慶財經(jīng)職業(yè)學(xué)院,重慶 402160)

        1 引言

        近期科學(xué)技術(shù)的發(fā)展使原始數(shù)據(jù)的增長和可用性以爆炸性的速度發(fā)生。這為知識發(fā)現(xiàn)和數(shù)據(jù)工程研究創(chuàng)造了巨大的機會,在從日常平民生活到國家安全,從企業(yè)信息處理到政府決策支持系統(tǒng),從微觀數(shù)據(jù)分析到宏觀規(guī)模等各種應(yīng)用中發(fā)揮重要作用知識發(fā)現(xiàn)。近年來,不平衡的學(xué)習(xí)問題引起了學(xué)術(shù)界、工業(yè)界和政府資助機構(gòu)的極大興趣。不平衡學(xué)習(xí)問題的根本問題是不平衡數(shù)據(jù)的能力嚴重影響大多數(shù)標(biāo)準(zhǔn)學(xué)習(xí)算法的性能。大多數(shù)標(biāo)準(zhǔn)算法假定或期望均衡的類別分布或相等的錯誤分類成本。因此,當(dāng)出現(xiàn)復(fù)雜的不平衡數(shù)據(jù)集時,這些算法無法正確表示數(shù)據(jù)的分布特征,從而導(dǎo)致數(shù)據(jù)類別之間的不準(zhǔn)確精度。當(dāng)翻譯成現(xiàn)實世界的領(lǐng)域時,不平衡的學(xué)習(xí)問題代表了一個重要問題,具有廣泛的影響,值得不斷探索。

        2 不平衡學(xué)習(xí)問題

        從技術(shù)上講,任何在其類別之間呈現(xiàn)不均等分布的數(shù)據(jù)集都可能被認為是不平衡的。學(xué)術(shù)圈的共識是,不平衡數(shù)據(jù)對應(yīng)的數(shù)據(jù)集表現(xiàn)出顯著的,有時甚至是極端的不平衡。具體來說,這種失衡形式被稱為一種“類間失衡”,兩類數(shù)據(jù)的比例為100:1、1000:1甚至10000:1的失衡情況并不少見,在每種情況下,一類數(shù)據(jù)量嚴重超出另一類。雖然這種描述似乎暗示所有階級間的不平衡本質(zhì)上是二元的(或兩類的),但我們注意到存在多類數(shù)據(jù),其中各類之間存在不平衡。在本文中,我們只簡要介紹多類不平衡學(xué)習(xí)問題,重點討論兩類不均衡學(xué)習(xí)問題。

        如果不平衡是數(shù)據(jù)空間性質(zhì)的直接結(jié)果,則稱這種形式的不平衡內(nèi)在的。但是,不平衡的數(shù)據(jù)并不完全限于固有品種,時間和存儲等可變因素也會產(chǎn)生不平衡的數(shù)據(jù)集。這種不平衡被認為是外在的,即不平衡不直接與數(shù)據(jù)空間的性質(zhì)有關(guān)。外在的不平衡與內(nèi)在的不平衡同樣有趣,因為很可能出現(xiàn)外部不平衡數(shù)據(jù)集所達到的數(shù)據(jù)空間可能完全不平衡的情況。

        3 不平衡學(xué)習(xí)問題研究現(xiàn)狀

        當(dāng)將標(biāo)準(zhǔn)學(xué)習(xí)算法應(yīng)用于不平衡數(shù)據(jù)時,描述少數(shù)群體概念的歸納規(guī)則通常比大多數(shù)概念的歸納規(guī)則更少且更弱,因為少數(shù)群體類別往往數(shù)量多或者數(shù)量少。為了提供對不平衡學(xué)習(xí)問題對標(biāo)準(zhǔn)學(xué)習(xí)算法的直接影響的具體理解,我們觀察了流行決策樹學(xué)習(xí)算法的案例研究。

        不平衡數(shù)據(jù)集利用了決策樹每個節(jié)點處分裂標(biāo)準(zhǔn)的不足之處。決策樹使用遞歸的,自上而下的貪婪搜索算法,該算法使用特征選擇方案來選擇最佳特征作為樹的每個節(jié)點處的分割準(zhǔn)則;然后為與分割特征對應(yīng)的每個可能值創(chuàng)建后繼(葉)。結(jié)果,訓(xùn)練集被連續(xù)分割成更小的子集,最終用于形成與類概念有關(guān)的不相交規(guī)則。這些規(guī)則最終結(jié)合起來,以便最終假設(shè)最小化每個類別的總錯誤率。在存在不平衡數(shù)據(jù)的情況下,這個過程的問題是雙重的。首先,數(shù)據(jù)空間的連續(xù)分區(qū)導(dǎo)致少數(shù)類例子的觀察次數(shù)越來越少,導(dǎo)致描述少數(shù)概念的葉子越來越少,并且可信度估計值也越來越弱。其次,依賴于不同特征空間連詞的概念可能沒有通過分區(qū)引入的稀疏性來解決。第一個問題與相對和絕對不平衡問題相關(guān),而第二個問題與類間不平衡和高維問題相關(guān)。在這兩種情況下,不平衡數(shù)據(jù)對決策樹分類性能的影響都是有害的。下面我們將評估所提出的解決不平衡數(shù)據(jù)影響的解決方案。

        3.1 非平衡學(xué)習(xí)的采樣方法

        通常,在不平衡學(xué)習(xí)應(yīng)用中使用抽樣方法包括通過一些機制修改不平衡數(shù)據(jù)集以提供均衡分布。研究表明,對于多個基本分類器,與不平衡數(shù)據(jù)集相比,平衡數(shù)據(jù)集提供了改進的整體分類性能。這些結(jié)果證明采用不平衡學(xué)習(xí)的抽樣方法是合理的。但是,它們并不意味著分類器不能從不平衡的數(shù)據(jù)集中學(xué)習(xí);相反,研究還表明,由某些不平衡數(shù)據(jù)集引發(fā)的分類器與由采樣技術(shù)平衡的相同數(shù)據(jù)集引起的分類器相當(dāng)。然而,對于大多數(shù)不平衡的數(shù)據(jù)集,抽樣技術(shù)的應(yīng)用的確有助于提高分類器的準(zhǔn)確性。

        3.2 代價敏感的方法

        雖然抽樣方法試圖通過考慮分配中類別示例的代表性比例來平衡分配,但成本敏感的學(xué)習(xí)方法會考慮與錯誤分類示例相關(guān)的成本。通過使用不同的成本矩陣來描述對任何特定數(shù)據(jù)示例進行錯誤分類的成本,而不是通過不同的抽樣策略來創(chuàng)建均衡的數(shù)據(jù)分布,而成本敏感的學(xué)習(xí)則針對不平衡的學(xué)習(xí)問題。最近的研究表明,成本敏感型學(xué)習(xí)與從不平衡數(shù)據(jù)中學(xué)習(xí)有密切聯(lián)系。成本敏感方法的理論基礎(chǔ)和算法可以自然地應(yīng)用于不平衡的學(xué)習(xí)問題。此外,各種實證研究表明,在某些應(yīng)用領(lǐng)域,包括某些特定的不平衡學(xué)習(xí)領(lǐng)域,成本敏感學(xué)習(xí)優(yōu)于抽樣方法。因此,成本敏感技術(shù)為不平衡學(xué)習(xí)領(lǐng)域的抽樣方法提供了可行的替代方案。

        3.3 基于核方法的主動學(xué)習(xí)方法

        雖然抽樣方法和成本敏感的學(xué)習(xí)方法似乎主導(dǎo)了當(dāng)前在不平衡學(xué)習(xí)方面的研究工作,但社區(qū)也采取了許多其他方法。由于基于內(nèi)核的學(xué)習(xí)方法為當(dāng)今的許多數(shù)據(jù)工程應(yīng)用提供了最先進的技術(shù),因此使用基于內(nèi)核的方法來理解不平衡學(xué)習(xí)最近自然引起了越來越多的關(guān)注。

        4 結(jié)束語

        在本文中,我們討論了知識發(fā)現(xiàn)和數(shù)據(jù)工程領(lǐng)域中一個具有挑戰(zhàn)性和關(guān)鍵性的問題,即不平衡學(xué)習(xí)問題。我們討論了不平衡學(xué)習(xí)問題的基本性質(zhì),解決這個問題的最先進的解決方案,以及用于評估這個問題的幾種主要評估技術(shù),為知識發(fā)現(xiàn)和數(shù)據(jù)工程研究人員和從業(yè)人員提供參考。

        猜你喜歡
        成本方法研究
        FMS與YBT相關(guān)性的實證研究
        遼代千人邑研究述論
        2021年最新酒駕成本清單
        河南電力(2021年5期)2021-05-29 02:10:00
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        溫子仁,你還是適合拍小成本
        電影(2018年12期)2018-12-23 02:18:48
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        捕魚
        自拍情爱视频在线观看| 成人免费无遮挡在线播放| 呦系列视频一区二区三区| 人妻夜夜爽天天爽一区| 亲子乱aⅴ一区二区三区下载| av网站免费线看| 五月天婷婷一区二区三区久久| 亚洲中文字幕国产综合| 久久久精品毛片免费观看| 日韩精品亚洲一区二区| 精品国产精品国产偷麻豆| 国产免费午夜a无码v视频 | 免费的一级毛片| 99久久99久久精品免观看| 久久激情人妻中文字幕| 免费看黄片视频在线观看| 亚洲av乱码二区三区涩涩屋| 久久久亚洲av波多野结衣| 天堂网在线最新版www| 国产成人精品999在线观看| 久久久久这里只有精品网| AV无码免费不卡在线观看| 精品日本一区二区视频| 久久一二区女厕偷拍图| 卡一卡二卡三无人区| 久久无码高潮喷水| 无码区a∨视频体验区30秒| 经典亚洲一区二区三区| 久久久国产精品黄毛片| 18禁在线永久免费观看| 亚洲乱亚洲乱少妇无码99p| 日韩无码电影| 91九色视频在线国产| 欧洲乱码伦视频免费| 国产av人人夜夜澡人人爽| 最新亚洲人AV日韩一区二区| 特级毛片a级毛片在线播放www| 亚洲网站一区在线播放| 亚洲欧美日韩在线不卡| 国产精品污www一区二区三区| 97无码人妻一区二区三区蜜臀|