亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        標(biāo)簽帶噪聲數(shù)據(jù)的重加權(quán)半監(jiān)督分類方法

        2019-07-20 01:39:04魏鵬飛
        關(guān)鍵詞:分類器標(biāo)簽準(zhǔn)確率

        陳 倩,楊 旻,魏鵬飛

        (煙臺大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,山東 煙臺 264005)

        定義標(biāo)簽噪聲為:

        其中ρ+1,ρ-1∈[0,1)且ρ+1+ρ-1<1.

        目前,許多分類器的設(shè)計都是通過帶有標(biāo)簽的數(shù)據(jù)訓(xùn)練得到的,分類的準(zhǔn)確性依賴于數(shù)據(jù)標(biāo)簽的準(zhǔn)確性.但實際應(yīng)用中,由于種種原因,數(shù)據(jù)標(biāo)簽經(jīng)常被損壞,如何從帶有噪聲標(biāo)簽的數(shù)據(jù)中獲得分類器引起科研工程人員的廣泛關(guān)注.在全監(jiān)督學(xué)習(xí)的框架下,ANGLUIN和LAIRD[1]提出了隨機分類噪聲(RCN)模型,其中每個數(shù)據(jù)標(biāo)簽以概率P∈[0,0.5)獨立翻轉(zhuǎn);ASLAM和DECATUR[2]證明,如果函數(shù)類是有限的VC維度,利用0-1損失函數(shù)的RCN是PAC可學(xué)習(xí)的;KEARNS[3]還提出了學(xué)習(xí)RCN的統(tǒng)計查詢模型,FRENAY和VERLEYSEN[4]針對不同類型的標(biāo)簽噪聲帶來的后果進行了研究;SCOTT[5]通過“混合比例估計”給出了一種基于代理風(fēng)險最小化的存在噪聲標(biāo)簽的分類算法,LIU等[6]在此基礎(chǔ)上做了進一步改進,提出重要性重加權(quán)的方法.

        然而,對所有數(shù)據(jù)進行標(biāo)記往往費時費力,甚至很難完成,很多實際應(yīng)用中,往往只能得到小部分帶標(biāo)簽數(shù)據(jù).為此,本文將研究一部分?jǐn)?shù)據(jù)標(biāo)簽缺失,且標(biāo)簽又有噪聲的分類問題.我們著眼于二分類問題,主要步驟及思路如下:首先,利用已標(biāo)注數(shù)據(jù),采用密度估計方法評估標(biāo)簽的重要性,建立帶權(quán)的優(yōu)化目標(biāo)函數(shù),從而得到初始分類器;其次,用訓(xùn)練好的分類器分類無標(biāo)簽數(shù)據(jù),將置信度較高的一部分?jǐn)?shù)據(jù)移入訓(xùn)練集中;然后,再次進行重加權(quán)分類,得到新的分類器.重復(fù)上述過程,直到所有數(shù)據(jù)均已處理.

        本文主要創(chuàng)新改進之處在于:第一,針對的數(shù)據(jù)集僅有部分?jǐn)?shù)據(jù)帶標(biāo)簽且標(biāo)簽帶有噪聲,解決了標(biāo)注數(shù)據(jù)有限且?guī)г肼暤那闆r下分類的準(zhǔn)確性,節(jié)約了大量的標(biāo)注成本;第二,引入相對無約束最小二乘重要性擬合(RULSIF)算法[7]代替文獻[8]中采用的Kullback-Leibler重要性估計(KLIEP)算法進行標(biāo)簽重要性的估計,方法具有更好的準(zhǔn)確率.?dāng)?shù)值實驗表明,在典型數(shù)據(jù)集上本文提出的重加權(quán)半監(jiān)督方法獲得了與文獻[8]提出的全監(jiān)督方法相媲美的分類表現(xiàn).

        本文主要結(jié)構(gòu)如下:第1節(jié)介紹重要性重加權(quán)的基本概念以及條件概率密度估計方法;第2節(jié)建立重要性重加權(quán)的半監(jiān)督分類方法;第3節(jié)在部分典型數(shù)據(jù)集上,進行數(shù)值實驗,在不同噪聲率下給出了與全監(jiān)督方法的比對結(jié)果.

        1 重加權(quán)優(yōu)化目標(biāo)

        本節(jié)主要介紹全監(jiān)督情形下標(biāo)簽帶噪聲數(shù)據(jù)分類優(yōu)化方法.首先考慮分類的期望風(fēng)險

        實際應(yīng)用中用經(jīng)驗風(fēng)險近似期望風(fēng)險,故最優(yōu)分類器可由下述重加權(quán)優(yōu)化問題獲得:

        其中F是給定函數(shù)類.

        文獻[6]證明了如下2個結(jié)論,并將其用于權(quán)重的計算.

        定理1[6]噪聲樣本的權(quán)重滿足下述關(guān)系:

        (1)

        注意到該估計方法往往需要一定的先驗知識,并且對數(shù)據(jù)的適應(yīng)能力有局限性.

        當(dāng)樣本數(shù)量足夠大且維度較低時,可用帶窗的核密度(例如高斯核函數(shù))分別估計右端的3個概率.但是,這一密度估計方法在高維情況下效果欠佳,且需要大量的計算時間和存儲量,由于分別計算了3個概率密度,故誤差比較大.

        (c) 密度比估計方法

        c.1KLIEP算法[8]

        c.2RULSIF算法[7,12]

        對c.1中的w(x),通過最小化如下γ相關(guān)PE散度求解:

        其中γ為相關(guān)密度比,0≤γ≤1.進一步,記γ相關(guān)密度比

        RULSIF算法采用Gauss核函數(shù)擬合

        其中,θ=[θ2,θ2,…,θn]是待求的向量參數(shù),σ是核寬度.最后通過最小化平方損失來求得θ.

        密度比估計方法雖然需要求解額外的優(yōu)化問題,但適用于高維數(shù)據(jù),精度高于概率分類方法和核密度估計方法.本文的實驗將采用RULSIF算法,相比KLIEP算法,RULSIF在我們的實驗中對噪聲率的估計具有更好的準(zhǔn)確性.

        2 半監(jiān)督重加權(quán)分類

        實際問題中由于代價、風(fēng)險等多種原因,很難獲得所有數(shù)據(jù)的標(biāo)簽,半監(jiān)督學(xué)習(xí)[13]是近年來機器學(xué)習(xí)研究領(lǐng)域的一個熱點.相對于有監(jiān)督學(xué)習(xí)(只使用有標(biāo)簽數(shù)據(jù)訓(xùn)練)和無監(jiān)督學(xué)習(xí)(只使用無標(biāo)簽數(shù)據(jù)訓(xùn)練),半監(jiān)督學(xué)習(xí)應(yīng)用少量帶標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)訓(xùn)練分類器,大大減少了人工標(biāo)注代價,提高分類器性能.半監(jiān)督學(xué)習(xí)解決了2個問題,一個是利用現(xiàn)有數(shù)據(jù)模擬出真實數(shù)據(jù)在特征空間的分布特點,二是在此基礎(chǔ)上確定分類邊界.

        在半監(jiān)督分類研究方面,self-training[14]算法的學(xué)習(xí)過程用少部分有標(biāo)簽的數(shù)據(jù)來訓(xùn)練初始分類器,然后用訓(xùn)練好的初始分類器分類無標(biāo)簽數(shù)據(jù),將置信度比較高的一部分?jǐn)?shù)據(jù)移入訓(xùn)練集中,然后再用新的有標(biāo)簽數(shù)據(jù)集重新訓(xùn)練分類器并再次分類無標(biāo)簽數(shù)據(jù),不斷循環(huán),直至訓(xùn)練出的模型符合要求.其中挑選置信度高的數(shù)據(jù)移入訓(xùn)練集是基于類概率估計,若屬于某類的概率超過預(yù)定義閾值T,則為該數(shù)據(jù)分配標(biāo)簽.

        在有限數(shù)據(jù)帶標(biāo)簽且標(biāo)簽帶有噪聲的前提下,我們將結(jié)合self-training和重要性重加權(quán)提出半監(jiān)督重要性重加權(quán)算法.該算法基于數(shù)據(jù)具有連續(xù)性假設(shè),即特征空間相互靠近的點的標(biāo)簽相同的概率比較大.

        算法的主要思路是首先用已知標(biāo)簽數(shù)據(jù)結(jié)合重要性重加權(quán),建立帶權(quán)的優(yōu)化目標(biāo)函數(shù),得到初始分類器;然后利用初始分類器分類未帶標(biāo)簽數(shù)據(jù),每個缺失標(biāo)簽數(shù)據(jù)得到標(biāo)簽后,我們將輸出類別概率較高的數(shù)據(jù)加入訓(xùn)練集中;接著,用新得到的訓(xùn)練集再進行重加權(quán)分類,得到新的分類器.上述過程不斷重復(fù),直至所有數(shù)據(jù)都打上標(biāo)簽或是達到我們提前設(shè)置的循環(huán)次數(shù),算法即停止,輸出最優(yōu)分類器.接下來給出具體算法.

        半監(jiān)督重要性重加權(quán)分類算法:

        1) 初始化:令k=0,給定最大迭代次數(shù)Nmax,給定刪選閾值T;

        4) 若Hk+1≠?并且k

        上述算法中刪選閾值T主要用于將置信度高的數(shù)據(jù)加入訓(xùn)練集中,進而更新分類器,T的取值范圍一般在0.7與0.9之間,而Nmax是為了控制半監(jiān)督循環(huán)次數(shù).

        3 實驗及結(jié)果分析

        本文實驗的運行環(huán)境為:系統(tǒng)Ubuntu 16.04,CPU i5-7500,頻率3.4 GHz,內(nèi)存12 GB,Python 3.5,Pytorch 0.4.0.實驗數(shù)據(jù)采用UCI醫(yī)學(xué)分類數(shù)據(jù)集[15].實驗中采用的優(yōu)化求解器為BP神經(jīng)網(wǎng)絡(luò),我們選用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),最后的輸出經(jīng)softmax函數(shù)變換后屬于(0,1),表示該數(shù)據(jù)屬于某個類別的概率.

        實驗中每組數(shù)據(jù)都按比例7∶3分成訓(xùn)練集和測試集,訓(xùn)練集中隨機刪去部分?jǐn)?shù)據(jù)的標(biāo)簽,而保留的標(biāo)簽又根據(jù)給定噪聲率ρ+,ρ-隨機翻轉(zhuǎn),損失函數(shù)采用均方損失,利用BP網(wǎng)絡(luò)進行分類訓(xùn)練,設(shè)置類別的刪選概率閾值T=0.865,最大迭代次數(shù)Nmax=103.為了避免偏差,每組實驗進行5次,分類準(zhǔn)確率取5次實驗結(jié)果的平均準(zhǔn)確率作為最后的分類準(zhǔn)確率.

        表1—表3為不同數(shù)據(jù)集上的運行結(jié)果,其中第一行表示帶標(biāo)簽數(shù)據(jù)占整體數(shù)據(jù)的百分比(m/n),第一列表示噪聲率.

        表1 在THYROID數(shù)據(jù)集上的分類準(zhǔn)確率

        表1為THYROID數(shù)據(jù)集結(jié)果,特征維度5,樣本量215個,含正例65個,負例150個.

        表2 在HEART數(shù)據(jù)集上的分類準(zhǔn)確率

        表2為HEART數(shù)據(jù)集結(jié)果,特征維度13,樣本量270個,含正例120個,負例150個.

        表3 在GERMAN數(shù)據(jù)集上的分類準(zhǔn)確率

        表3為GERMAN數(shù)據(jù)集結(jié)果,特征維度20,樣本量1 000個,含正例300個,負例700個.

        通過表1-表3可發(fā)現(xiàn):(1)分類準(zhǔn)確率隨著數(shù)據(jù)維度的增加而逐漸降低,5維數(shù)據(jù)最高的分類準(zhǔn)確率高達85%以上,而在20維數(shù)據(jù)上最高的準(zhǔn)確率只有73.33%,這主要是因為特征維度的提高影響了權(quán)重估計的準(zhǔn)確性;(2)分類準(zhǔn)確率隨著噪聲率的提高而降低.(3)標(biāo)簽數(shù)據(jù)比例為80%,50%的情況下,半監(jiān)督的分類準(zhǔn)確率與全監(jiān)督接近,特別地,表3中噪聲率(ρ+=0.4,ρ-=0.4)時,50%對應(yīng)的半監(jiān)督準(zhǔn)確率高于全監(jiān)督,這一現(xiàn)象可能的原因是被保留標(biāo)簽的50%數(shù)據(jù)恰巧具有更好的可分性,而這些好的可分性在隨后的多次循環(huán)過程中得以累計,從而導(dǎo)致最后的準(zhǔn)確率提升.

        本節(jié)的實驗結(jié)果表明本文提出的方法在樣本數(shù)據(jù)質(zhì)量較差(標(biāo)簽不足且受損)的情況下,仍然取得了較好的分類準(zhǔn)確率.在未來的研究中可進一步考慮:(1)將方法推廣至多類問題;(2)標(biāo)簽帶噪聲的不完整數(shù)據(jù)的分類問題.

        猜你喜歡
        分類器標(biāo)簽準(zhǔn)確率
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        標(biāo)簽化傷害了誰
        亚洲男人堂色偷偷一区| 初尝人妻少妇中文字幕| 看av免费毛片手机播放| 欧美中文字幕在线| 五月婷婷激情六月开心| 亚洲熟女一区二区三区250p| 国产精品亚洲а∨无码播放不卡| 日本a级特黄特黄刺激大片| 国产福利小视频91| 一区二区三区日本高清| 少妇高潮无套内谢麻豆传| 日本伦理精品一区二区三区| 亚洲av无码一区二区三区乱子伦| 欧美午夜精品久久久久免费视| 91久国产在线观看| 午夜国产精品视频在线观看| 女人和拘做受全程看视频| 国产一级农村无码| 亚洲av有码精品天堂| 少妇高潮在线精品观看| 亚洲av天天做在线观看| 精品亚洲欧美高清不卡高清| 日本免费三片在线视频| 国产精品免费观看调教网| 久久精品国内一区二区三区| 丰满少妇棚拍无码视频| 极品美女调教喷水网站| 亚洲熟妇少妇任你躁在线观看无码| 91精品福利一区二区| 一级午夜理论片日本中文在线| 色欲色香天天天综合网www | 美女主播福利一区二区| 精品欧洲av无码一区二区| 中文字幕无码专区一VA亚洲V专| 中文字幕精品久久一区二区三区| 日日噜噜夜夜狠狠va视频v| 无码夜色一区二区三区| 日本中文字幕一区二区视频| 少妇被黑人整得嗷嗷叫视频| 国产呦系列呦交| 国产精品涩涩涩一区二区三区免费 |