亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種KD樹(shù)集成偏標(biāo)記學(xué)習(xí)算法

        2019-05-25 11:26:10盧勇全劉振丙顏振翔方旭升
        關(guān)鍵詞:集上分類器標(biāo)簽

        盧勇全, 劉振丙,2, 顏振翔, 方旭升

        (1.桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)

        偏標(biāo)記學(xué)習(xí)從本質(zhì)上看是屬于多類分類問(wèn)題的特例。多類分類問(wèn)題可以轉(zhuǎn)換為構(gòu)建多個(gè)二分類問(wèn)題來(lái)解決。然而現(xiàn)有的一對(duì)多或一對(duì)一方式構(gòu)建二類基分類器的算法中,很少考慮各個(gè)類別樣本數(shù)目之間的極度不平衡問(wèn)題,偏標(biāo)記學(xué)習(xí)在處理標(biāo)簽問(wèn)題上已經(jīng)是個(gè)難題,加上類不平衡問(wèn)題,則更加難以解決,且偏標(biāo)記樣本真實(shí)標(biāo)簽不可知,故該方法不能直接在偏標(biāo)記學(xué)習(xí)中使用。做交叉驗(yàn)證時(shí),有可能將類別少的數(shù)據(jù)集作為測(cè)試使用,從而導(dǎo)致此類別訓(xùn)練樣本缺失,若運(yùn)用標(biāo)簽劃分?jǐn)?shù)據(jù)集,則可能存在某類樣本數(shù)為0的情況,忽略此極有可能導(dǎo)致算法崩潰。如Lost[4]數(shù)據(jù)集中存在一類僅有4個(gè)樣本的數(shù)據(jù),在算法中若不對(duì)此情況進(jìn)行處理,會(huì)導(dǎo)致實(shí)驗(yàn)失敗。鑒于此,提出一種KD樹(shù)集成偏標(biāo)記學(xué)習(xí)算法(ensemble K-dimension tree for partial label learning,簡(jiǎn)稱PL-EKT),將樣本候選標(biāo)簽所攜帶的信息和樣本特征綜合利用,構(gòu)建多個(gè)二分類樣本集,采用集成學(xué)習(xí)中Stacking的方法處理偏標(biāo)記學(xué)習(xí)問(wèn)題。

        1 相關(guān)工作

        偏標(biāo)記學(xué)習(xí)的難度主要是由偏標(biāo)記數(shù)據(jù)集的偽標(biāo)簽造成的[7],為此,學(xué)者們提出了一系列算法。最為直觀的方法是對(duì)偏標(biāo)記的偽標(biāo)簽進(jìn)行操作,將樣本的偽標(biāo)簽去掉,也稱為消岐操作,即辨識(shí)消岐和平均消岐[8]。辨識(shí)消岐是將偏標(biāo)記的真實(shí)標(biāo)記作為隱變量,采用迭代的方式優(yōu)化內(nèi)嵌隱變量的目標(biāo)函數(shù)實(shí)現(xiàn)消岐[8]。平均消岐是賦予偏標(biāo)記對(duì)象的各個(gè)候選標(biāo)記相同的權(quán)重,通過(guò)綜合學(xué)習(xí)模型在各候選標(biāo)記上的輸出實(shí)現(xiàn)消岐[8]。在辨識(shí)消岐中,通過(guò)基于極大似然準(zhǔn)則的方法優(yōu)化參數(shù),解決偏標(biāo)記學(xué)習(xí)問(wèn)題。文獻(xiàn)[9]提出一種基于最大間隔偏標(biāo)記學(xué)習(xí)算法(PL-SVM),通過(guò)模型在Si和非Si上的最大輸出差異進(jìn)行優(yōu)化。文獻(xiàn)[10]提出了一種新的基于最大間隔的偏標(biāo)記學(xué)習(xí)算法(M3PL),直接優(yōu)化真實(shí)標(biāo)記與其他標(biāo)記的差異。在平均消岐中,文獻(xiàn)[11]提出一種代表性的惰性學(xué)習(xí)算法PL-KNN,類似KNN算法,通過(guò)距離度量的方式,根據(jù)示例的K個(gè)近鄰樣本進(jìn)行投票預(yù)測(cè)。文獻(xiàn)[12]提出了基于凸優(yōu)化的偏標(biāo)記學(xué)習(xí)算法CLPL,算法將問(wèn)題轉(zhuǎn)化為多個(gè)二分類問(wèn)題,通過(guò)在二類訓(xùn)練集上優(yōu)化特定的凸損失函數(shù)求解偏標(biāo)記學(xué)習(xí)問(wèn)題。

        在解決偏標(biāo)記學(xué)習(xí)問(wèn)題上,也有非消岐策略的方法。如文獻(xiàn)[13]提出的編碼解碼策略的輸出糾錯(cuò)編碼算法PL-ECOC,通過(guò)特定編碼和解碼方式實(shí)現(xiàn)二分類過(guò)程。在編碼階段,通過(guò)隨機(jī)生成的列編碼來(lái)劃分樣本正負(fù)集,從而構(gòu)建二分類器;在解碼階段,讓未見(jiàn)示例在二分類器上輸出特定長(zhǎng)度的碼字,將最接近的類別作為測(cè)試樣本的預(yù)測(cè)輸出。PALOC算法[14]、CORD算法[15]通過(guò)集成多個(gè)分類器,運(yùn)用模型投票的方法來(lái)解決偏標(biāo)記學(xué)習(xí)問(wèn)題。

        KD樹(shù)(K-dimension tree)是平衡二叉樹(shù),通過(guò)利用已有數(shù)據(jù)對(duì)K維空間進(jìn)行切分[16-17]。KD樹(shù)在進(jìn)行檢索時(shí),以目標(biāo)點(diǎn)為圓心,以目標(biāo)點(diǎn)到葉子節(jié)點(diǎn)樣本實(shí)例的距離為半徑,得到一個(gè)超球體,最近鄰的點(diǎn)一定在這個(gè)超球體內(nèi)部。然后返回葉子節(jié)點(diǎn)的父節(jié)點(diǎn),檢查另一個(gè)子節(jié)點(diǎn)包含的超矩形體是否與超球體相交,若相交,就尋找是否有與該子節(jié)點(diǎn)更近的近鄰,有的話就更新最近鄰節(jié)點(diǎn);若不相交,直接返回父節(jié)點(diǎn),在另一個(gè)子樹(shù)繼續(xù)搜索最近鄰節(jié)點(diǎn)。當(dāng)回溯到根節(jié)點(diǎn)時(shí),保存的最近鄰節(jié)點(diǎn)就是最終的最近鄰節(jié)點(diǎn)。

        集成學(xué)習(xí)通過(guò)聯(lián)合幾個(gè)模型來(lái)提高機(jī)器學(xué)習(xí)效果[18]。與單一模型相比,這種方法可以很好地提升模型的預(yù)測(cè)性能。其中Stacking是一種通過(guò)元分類器或元回歸器來(lái)綜合幾個(gè)分類模型和回歸模型的集成學(xué)習(xí)技術(shù)。基模型基于整個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,元模型再將基模型的輸出作為特征進(jìn)行訓(xùn)練。

        2 KD樹(shù)集成偏標(biāo)記學(xué)習(xí)

        在訓(xùn)練階段,通過(guò)充分利用樣本的候選標(biāo)簽和樣本特征所隱藏的信息,將樣本分成正負(fù)類。其中,1表示正類,0表示負(fù)類。劃分正負(fù)類數(shù)據(jù)集后,由于偏標(biāo)記樣本屬多分類,一般情況下屬于某一類樣本的數(shù)量并不多,大部分是其他類別的樣本。在初級(jí)模型訓(xùn)練階段,為了使樣本數(shù)量均衡,以小的樣本數(shù)量為標(biāo)準(zhǔn),允許在2倍內(nèi)波動(dòng),當(dāng)出現(xiàn)某一類樣本極少時(shí),利用KD樹(shù)搜索找出特征相似的樣本進(jìn)行補(bǔ)充,保證正負(fù)兩類樣本趨于均衡。完成數(shù)據(jù)集的劃分后,先訓(xùn)練出初級(jí)分類模型,再利用初級(jí)分類模型對(duì)樣本進(jìn)行預(yù)測(cè)并投票,將初級(jí)分類器的預(yù)測(cè)值加入到原樣本中形成新樣本。運(yùn)用集成學(xué)習(xí)的Stacking方法,再次進(jìn)行分類模型的訓(xùn)練,最終完成模型的訓(xùn)練。PL-EKT算法實(shí)現(xiàn)過(guò)程如下。

        輸入:D偏標(biāo)記樣本集

        輸出:根據(jù)式(8),返回x*的預(yù)測(cè)標(biāo)簽y*

        1K:檢索KD的最近K個(gè)樣本

        2x*:未見(jiàn)示例

        3 輸出y*:樣本x*的預(yù)測(cè)標(biāo)簽

        5 訓(xùn)練初級(jí)分類器Hab←β(D)

        6 根據(jù)式(6)預(yù)測(cè)標(biāo)簽,根據(jù)式(7)形成新特征并加入

        在預(yù)測(cè)階段,利用初級(jí)分類模型對(duì)未見(jiàn)樣本進(jìn)行投票,將投票結(jié)果作為新特征加入未見(jiàn)示例中,最后將加入了新特征的未見(jiàn)示例進(jìn)行最終預(yù)測(cè)。

        按照標(biāo)簽1、0,根據(jù)

        (1)

        (2)

        (3)

        Dab={T(x1)∪T(x2)…∪T(xk)}

        (4)

        (5)

        其中l(wèi)max和lmax為設(shè)置的樣本數(shù)目閾值范圍。

        數(shù)據(jù)集均衡化過(guò)程如下:

        1)根據(jù)式(1)劃分樣本;

        2)根據(jù)式(2)處理劃分樣本集公共部分,構(gòu)建KD樹(shù);

        5)樣本為空檢測(cè);

        6)若劃分結(jié)果不滿足式(5),則返回第2)步。

        (6)

        實(shí)現(xiàn)消岐操作。利用Hab構(gòu)建樣本新特征,

        (7)

        (8)

        其中γ為平衡因子。

        3 實(shí)驗(yàn)

        3.1 實(shí)驗(yàn)設(shè)置

        本次實(shí)驗(yàn)分別在UCI人工數(shù)據(jù)集和真實(shí)數(shù)據(jù)集2類不同數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。表2為2組人工UCI偏標(biāo)記數(shù)據(jù)集的特性,表3為4組真實(shí)偏標(biāo)記數(shù)據(jù)集的特性。

        表2 UCI數(shù)據(jù)集特性

        表3 真實(shí)數(shù)據(jù)集特性

        3.2 實(shí)驗(yàn)結(jié)果

        在UCI數(shù)據(jù)集中,研究提出的算法與各類算法分別在r=1,2,3,步長(zhǎng)p從0.1~0.7變化時(shí)的分類準(zhǔn)確率。采用10倍交叉驗(yàn)證結(jié)果做顯著程度為0.05的成對(duì)t檢驗(yàn),實(shí)驗(yàn)結(jié)果如圖1~3所示。

        圖1 r=1時(shí)p取0.1~0.7的分類精度

        圖2 r=2時(shí)p取0.1~0.7的分類精度

        圖3 r=3時(shí)p取0.1~0.7的分類精度

        通過(guò)觀察實(shí)驗(yàn)結(jié)果,可得出如下結(jié)論:

        1)在vehicle數(shù)據(jù)集上各算法魯棒性均較好,但在glasss數(shù)據(jù)集上,在不同參數(shù)下,各算法分類結(jié)果波動(dòng)較大,魯棒性不足。

        2)在vehicle數(shù)據(jù)集上,除了在個(gè)別步長(zhǎng)時(shí)劣于PL-ECOC算法,PL-EKT算法性能優(yōu)于其他算法。

        在真實(shí)數(shù)據(jù)集上,采用10倍交叉驗(yàn)證結(jié)果做顯著程度為0.05的成對(duì)t檢驗(yàn)。表4給出了各算法在真實(shí)數(shù)據(jù)集上分類精度。

        表4 各算法在真實(shí)數(shù)據(jù)集上分類精度

        從表4可看出:

        1)在Lost數(shù)據(jù)集上,PL-EKT算法性能比其他3種算法表現(xiàn)好。

        2)在MSRCv2數(shù)據(jù)集上,PL-EKT算法與PL-ECOC算法基本持平,但優(yōu)于其他算法。

        3)在BirdSong和Soccer Play數(shù)據(jù)集上,PL-EKT算法劣于PL-ECOC算法,優(yōu)于其他算法。

        PL-EKT偏標(biāo)記學(xué)習(xí)算法在2組UCI人工數(shù)據(jù)集和4組真實(shí)數(shù)據(jù)集上都具有較好的表現(xiàn)力。從整體上看,PL-EKT算法在UCI數(shù)據(jù)集中比其他算法分類精度高,且魯棒性相對(duì)較好;在真實(shí)數(shù)據(jù)集上,PL-EKT算法相比于其他算法也擁有較好的效果,僅在Birdsong數(shù)據(jù)集上劣于PL-ECOC算法。

        4 結(jié)束語(yǔ)

        為了充分利用候選標(biāo)記來(lái)劃分樣本,提出了KD樹(shù)集成偏標(biāo)記學(xué)習(xí)算法,通過(guò)KD樹(shù)均衡訓(xùn)練集,使得偏標(biāo)記學(xué)習(xí)算法有較好的泛化性能。實(shí)驗(yàn)結(jié)果表明,該算法在真實(shí)數(shù)據(jù)集上有較好的表現(xiàn)。但同時(shí)也存在一些不足的地方,在UCI數(shù)據(jù)集Glass上算法的魯棒性不夠,劃分子數(shù)據(jù)集仍會(huì)存在樣本均衡的問(wèn)題等,有待進(jìn)一步改進(jìn)。

        猜你喜歡
        集上分類器標(biāo)簽
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        復(fù)扇形指標(biāo)集上的分布混沌
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        標(biāo)簽化傷害了誰(shuí)
        基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
        韩日无码不卡| 色吊丝中文字幕| 欧美日韩一卡2卡三卡4卡 乱码欧美孕交 | 亚洲精品亚洲人成在线播放| 狠狠色丁香久久婷婷综合蜜芽五月| 欧美一级特黄AAAAAA片在线看| 囯产精品无码一区二区三区| 精品人妻一区二区三区蜜臀在线| 日韩三级一区二区不卡| 亚洲成在人线在线播放无码| 在线视频一区色| 亚洲视频高清| 久久综合九色综合久久久| 性人久久久久| 亚洲欧美日韩另类精品一区| 久久精品无码中文字幕| 久久久久久久综合日本| 日韩一级精品视频免费在线看 | a级毛片100部免费观看| 欧美自拍区| 人妻色中文字幕免费视频| 男人的天堂一区二av| 真实的国产乱xxxx在线| 亚洲依依成人亚洲社区| 99亚洲乱人伦精品| 五月开心六月开心婷婷网| 中文字幕日韩精品一区二区三区| 国产丰满老熟女重口对白| 亚洲av色香蕉一区二区蜜桃| 青青草激情视频在线播放| 777精品久无码人妻蜜桃| 日韩在线看片| 亚洲一区二区三区av天堂| 噜噜综合亚洲av中文无码| 最近免费中文字幕| 欧美xxxxx精品| 亚洲天堂二区三区三州| 性欧美牲交xxxxx视频欧美| 国产成+人+综合+亚洲 欧美| 国产一区二区三区亚洲天堂| 亚洲一区二区三区中文字幕网|