亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于三元糾錯輸出編碼的偏標記學習算法*

        2018-09-12 02:22:04周斌斌張敏靈劉胥影
        計算機與生活 2018年9期
        關鍵詞:消歧集上分類器

        周斌斌,張敏靈+,劉胥影

        1.東南大學 計算機科學與工程學院,南京 210096

        2.東南大學 計算機網(wǎng)絡和信息集成教育部重點實驗室,南京 210096

        1 引言

        偏標記學習(partial label learning)是一類重要的弱監(jiān)督學習(weakly supervised learning)框架,在該框架下,每個訓練樣本在輸入空間由單個示例(特征向量)描述,而在輸出空間與一組候選標記集合(candidate label set)相關聯(lián),其中有且僅有一個是其真實標記[1-2]。偏標記學習的目標是學習一個從輸入空間到輸出空間的多類分類器。最近幾年,偏標記學習技術已經(jīng)廣泛應用于真實世界的問題中,例如文本挖掘[3]、圖片分類[4]、生態(tài)信息學[5]等領域。

        偏標記學習框架的形式化定義如下。設X=Rd代表樣本特征空間,Y={y1,y2,…,yq}代表樣本標記空間。給定偏標記訓練集D={(xi,Si)|1≤i≤m},其中xi∈X為d維特征向量,Si?Y為xi的候選標記集合,xi的真實標記yi未知但滿足條件yi∈Si。偏標記學習目標是基于訓練集D學習得到多類分類器f:X→Y。

        偏標記學習的難點在于樣本的真實標記隱藏在候選標記集合中,樣本的真實標記無法獲得。目前解決這個問題的基本策略是消歧。消歧思想是消除偏標記對象候選標記中偽標記引起的歧義性?,F(xiàn)有的消歧策略算法主要包括基于辨識的消歧(disambiguation of identification-based)和基于平均的消歧(disambiguation of averaging-based)。基于辨識的消歧將樣本的真實標記當作隱變量,通過迭代方式優(yōu)化內(nèi)嵌隱變量來實現(xiàn)消歧?;谄骄南鐚ζ珮擞洏颖镜母鱾€候選標記賦予相同的權重,通過綜合學習模型在各候選標記上的輸出來實現(xiàn)消歧[1,6-7]。

        然而,基于消歧的偏標記學習技術很大程度上會受到偽標記(即Si?{yi})帶來的不利影響。為了緩解這個不利影響,Zhang提出了一種基于糾錯輸出編碼(error-correcting output codes,ECOC[8-9])的非消歧策略的偏標記學習算法PL-ECOC[10](partial labelerror-correcting output codes),該方法將多類分類技術糾錯輸出編碼應用到偏標記學習中,通過編碼的方式將偏標記學習問題轉換為多個二類學習問題,然后對多個二類分類器集成得到最終的分類器。

        很明顯,候選標記數(shù)目越多,偏標記對象的偽標記信息就會越多,偏標記學習問題的難度越大,從而不利于偏標記問題的學習。因此可以通過減少候選標記的數(shù)目來降低偏標記學習的難度,從而有利于偏標記問題的學習。本文從該角度出發(fā),提出了一種基于三元糾錯輸出編碼的偏標記學習算法(partial labelternary error-correcting output codes,PL-TECOC),該算法類似于但不同于PL-ECOC且能獲得較好的分類性能,PL-TECOC算法采用三元編碼方式,即使用{+1,-1,0}進行編碼,在將偏標記學習問題轉換為多個二類學習問題的過程中,編碼“0”用于忽略相應的標記,只依靠非“0”標記完成二類學習問題訓練數(shù)據(jù)的構建,從而減少候選標記個數(shù)以降低偏標記學習問題的難度。

        本文的組織結構如下:第2章介紹偏標記學習的相關工作;第3章介紹本文提出的PL-TECOC算法;第4章是實驗部分,最后對本文進行總結和展望。

        2 相關工作

        目前,關于偏標記學習的算法主要分為基于辨識的消歧策略、基于平均的消歧策略以及基于非消歧的策略。

        基于辨識的消歧策略,現(xiàn)有方法將真實標記當作隱變量,然后通過迭代方式優(yōu)化內(nèi)嵌隱變量的目標函數(shù)來達成消歧。首先假設一個特定的參數(shù)模型F(x,y;θ)(θ為模型參數(shù)),然后把真實標記當作隱變量并且根據(jù)式子y?i=argmaxy∈SiF(xi,y;θ)來確定真實標記,最后通過EM[11-12]算法(expectation maximization algorithm)或其他算法來優(yōu)化基于最大似然準則函數(shù)或來優(yōu)化基于最大化間隔的準則函數(shù)定義的目標函數(shù)來迭代改良隱變量(真實標記)。

        基于平均的消歧策略,現(xiàn)有方法對偏標記樣本的各個候選標記賦予相同的權重,通過綜合學習模型在各候選標記上的輸出來實現(xiàn)消歧。常見方法包括基于k近鄰的偏標記方法,該方法通過對樣本近鄰的候選標記集合進行加權投票來預測樣本的類別標記,即,其中 I(·)為指示函數(shù),N(x*)為樣本x*的近鄰?;谕箖?yōu)化的偏標記學習方法通過最小化偏標記樣本在候選標記集合上經(jīng)驗損失(由決定)以及在非候選標記集合上的經(jīng)驗損失(由F(x,y;θ)y?Si決定)[1]來進行偏標記學習。

        以上是消歧策略,Zhang近年來提出了一種全新的非消歧策略算法PL-ECOC,它將多類學習的糾錯輸出編碼應用到偏標記學習中,通過編碼的方式將偏標記學習問題轉換為多個二類學習問題,最后對多個二類分類器集成以得到最終的學習器。

        3 基于三元糾錯輸出編碼的偏標記學習算法

        偏標記學習的任務是學習一個多類分類器f:X→Y,本質(zhì)上這是一個多類學習問題。在傳統(tǒng)監(jiān)督學習框架下,解決多類學習問題一種常見方式就是將多類學習問題分解為多個二類學習問題進行求解。常見的分解方式有一對一(one-vs-one)、一對多(one-vs-rest)和糾錯輸出編碼(ECOC),在偏標記學習問題中,由于訓練樣本的真實標記未知,無法直接使用一對一和一對多的分解策略,而糾錯輸出編碼可以多對多,因此可用為分解策略。

        本文提出的PL-TECOC算法旨在通過減少候選標記的數(shù)目來降低偏標記學習的難度。它對基于二元編碼的PL-ECOC算法進行擴展,采用三元編碼方式,即使用{+1,-1,0}進行編碼。在將偏標記學習問題轉換為多個二類學習問題的過程中,編碼“0”用于忽略相應的標記,只依據(jù)非0標記完成二類學習問題訓練數(shù)據(jù)的構造,從而減少候選標記個數(shù)以降低偏標記學習問題的難度。PL-TECOC算法主要分為編碼和解碼階段。

        在編碼階段,首先隨機生成一個編碼矩陣M∈{+1,0,-1}q×L,其中q為類別標記個數(shù),L為編碼長度。編碼矩陣M的每一行即M(j,:)是類別yi的一個L位編碼字,矩陣的每一列M(:,?)=σ=[σ1,σ2,…,σq]T代表q位的列編碼,其中 [σ1,σ2,…,σq]T∈{+1,0,-1}q,它根據(jù)式(1)將標記空間Y={y1,y2,…,yq}劃分為3個部分

        根據(jù)式(2)得知,對于偏標記訓練集的每個樣本xi,如果其候選標記集合包含于組成的并集合中且與的交集不為空時,則將該樣本歸為正類樣本;如果其候選標記集合包含于組成的并集合中且與的交集不為空時,則將該樣本歸為負類樣本,否則丟棄該樣本。這樣偏標記訓練集中的部分樣本可能既不屬于也不屬于因此,為了避免二類訓練集樣本數(shù)過少的問題,PL-TECOC設置一個閾值τ來減少其影響,即二類訓練集大小須要大于等于閾值τ。此外構建的二類訓練集存在類別不平衡問題,即一類樣本明顯少于另一類樣本。PLTECOC設置閾值υ來解決這個問題,即二類訓練集中兩類樣本數(shù)比例須小于等于參數(shù)υ。

        在解碼階段,類似于ECOC的解碼,將未知樣本x*預測為其編碼字h(x*)與標記編碼字最近的標記,見式(3)。

        其中h(x*)=[h1(x*),h2(x*),…,hL(x*)],關于如何計算h(x*)具體見算法1的算法偽碼。dist(·,·)為距離函數(shù),針對三元解碼,常見的方式有減弱的歐式解碼(attenuated Euclidean decoding,AED)、基于損失的解碼(lossbased decoding)以及基于概率的解碼(probabilisticbased decoding)等方式[15]。PL-TECOC采用減弱的歐式解碼,其定義為:

        PL-TECOC算法不同于PL-ECOC,主要體現(xiàn)在以下兩方面:(1)本算法采用三元編碼方式將偏標記學習問題轉換為多個二類學習問題,編碼“0”用于忽略相應的標記,只依據(jù)非0標記完成二類學習問題訓練數(shù)據(jù)的構造,從而減少候選標記個數(shù)以降低偏標記學習問題的難度。(2)在構建的二類訓練集存在類別不平衡問題,本算法通過設置一個閾值τ來減少其帶來的影響。

        算法1PL-TECOC算法

        輸入:D={(xi,Si)|1≤i≤m}為偏標記訓練集,L為編碼長度,Ψ為二類分類器,τ為二類訓練集大小的閾值,υ為二類訓練集不平衡比例的閾值,x*為測試樣本。

        輸出:y*為樣本x*的預測標記。

        訓練

        1.?=0

        2.While?≠L

        3. 隨機生成q位的列編碼σ=[σ1,σ2,…,σq]T∈{+1,0,-1}q

        5.根據(jù)式(2)將偏標記訓練集D={(xi,Si)|1≤i≤m}轉換為二類訓練集Bσ

        6. If|Bσ|≥τ并且

        7. ?=?+1

        8. 令M(:,?)=σ

        9.基于二類訓練集Bσ學習一個二類分類器即h?←Ψ(Bσ)

        10. End If

        11.End While

        測試

        12.根據(jù)訓練階段學習的二類分類器得到樣本x*的編碼字h(x*)=[h1(x*),h2(x*),…,hL(x*)]

        13.根據(jù)式(3)得到測試樣本x*的標記y*=f(x*)

        4 實驗及實驗結果

        4.1 實驗設置

        本文在人工數(shù)據(jù)集[16]和真實數(shù)據(jù)集上分別進行了實驗。數(shù)據(jù)集信息分別見表1和表2,包括樣本數(shù)、屬性數(shù)、類別數(shù),另外真實數(shù)據(jù)集還給出了樣本的平均候選標記集合大小。

        Table 1 UCI datasets表1 人工數(shù)據(jù)集

        對于人工數(shù)據(jù)集,根據(jù)常用的設置方法[1,5,10],通過控制ρ、r、ε這3個參數(shù)從多類數(shù)據(jù)集中生成人工偏標記數(shù)據(jù)集,其中ρ控制偏標記訓練樣本的比例(即|Si|>1),r控制候選標記中偽標記的個數(shù)(|Si|=r+1),ε控制一個額外候選標記y′≠y與真實標記y同時出現(xiàn)的概率。由表1可見,對于每個人工數(shù)據(jù)集,總共有28(4×7)個參數(shù)設置,于是生成28組不同設置的偏標記數(shù)據(jù)集。

        對于真實數(shù)據(jù)集,Lost[1]、Soccer Player[4]、LYN(Labeled Yahoo!News)[17]數(shù)據(jù)集來自于自動人臉識別,MSRCv2[5]數(shù)據(jù)集來自于目標分類,BirdSong[18]數(shù)據(jù)集來自于鳥類音節(jié)分類。對于自動人臉識別任務,將圖片或視頻上出現(xiàn)的人臉作為示例,然后從標題或字幕上抽取的人名作為候選標記,特別地,保留LYN數(shù)據(jù)集出現(xiàn)數(shù)目最多的Num(Num∈{10,20,50,100,200})個人物名字作為標記空間,這樣可以生成5個版本的LYN數(shù)據(jù)集,數(shù)據(jù)集命名為LYN Num。對于目標分類,MSRCv2數(shù)據(jù)集包括23個類別的1 758個圖像分割區(qū)域,每個圖分割區(qū)域代表一個示例,而其候選標記集合為出現(xiàn)在同一圖像的所有對象類別。對于鳥類音節(jié)分類,BirdSong數(shù)據(jù)集將鳥叫聲的音節(jié)作為一個示例,而將出現(xiàn)在音節(jié)10 s期間的鳥類當作候選標記集合。

        Tabel 2 Real-world datasets表2 真實數(shù)據(jù)集

        為了驗證提出算法的有效性,本文將和以下幾個常用的偏標記學習算法進行對比。

        (1)基于k近鄰的偏標記學習算法PL-KNN(partial labelknearest neighbor)[6]:一種基于平均消歧策略的偏標記學習算法,參數(shù)k設置為10。

        (2)基于凸優(yōu)化的偏標記學習算法CLPL(convex learning from partial labels)[1]:一種基于平均消歧策略的偏標記學習算法,二類分類器采用基于L2正則化鉸鏈損失(hingeloss)的SVM算法,使用Liblinear工具包實現(xiàn)。

        (3)基于最大間隔的偏標記學習算法PL-SVM(partial label support vector machine)[14]:一種基于辨識策略的偏標記學習算法,正則化參數(shù)從{10-3,10-2,…,103}這個范圍內(nèi)選擇,使用線性核。

        (4)基于最大似然的偏標記學習算法LSB-CMM(logistic stick-breaking conditional multinomial model)[5]:一種基于辨識策略的偏標記學習算法,其中混合成分個數(shù)設為q(即類別標記個數(shù))。

        (5)基于非消歧策略的偏標記學習算法PLECOC[10]:編碼長度設,二類訓練集大小閾值設為

        對于PL-TECOC算法,二類基分類器采用Libsvm[19]工具箱實現(xiàn)的支持向量機,二類訓練集大小閾值參數(shù)τ設為偏標記訓練集大小的1/10,即,編碼長度設為,二類訓練集不平衡的比例閾值υ設為4。在本文中,對于人工數(shù)據(jù)集和真實數(shù)據(jù)集均采用10倍交叉驗證實驗,并記錄各對比算法的準確率以及標準差。

        4.2 人工數(shù)據(jù)集實驗

        圖1到圖3展示了PL-TECOC和各種對比算法分別在r=1,2,3,ρ以步長0.1從0.1到0.7變化時的分類準確率。圖4展示了PL-TECOC和各種對比算法在ρ=1,r=1,ε以步長0.1從0.1到0.7變化時的分類準確率。(a)~(d)分別是4個數(shù)據(jù)集上對應的結果圖。

        圖1到圖4表明在所有情況下PL-TECOC的性能優(yōu)于或持平于其他對比算法?;陲@著程度為0.05的成對t檢驗,表3給出了在4個數(shù)據(jù)集上所有設置情況下PL-TECOC優(yōu)于/持平/劣于其各對比算法的次數(shù)。從表3可以得出以下結論:

        (1)在所有參數(shù)設置下的人工數(shù)據(jù)集上,對比算法的性能劣于PL-TECOC。

        Tabel 3 Win/tie/loss counts on classification performance of PL-TECOC against each compared algorithm表3 PL-TECOC分類性能優(yōu)于/持平/劣于其他對比算法的次數(shù)統(tǒng)計

        Fig.1 Classification accuracy of each compared algorithm under configurationr=1,ρ∈{0 .1,0.2,…,0.7}圖1 對應設置為r=1,ρ∈{0 .1,0.2,…,0.7}時各種算法的分類準確率

        Fig.2 Classification accuracy of each compared algorithm under configurationr=2,ρ∈{0 .1,0.2,…,0.7}圖2 對應設置為r=2,ρ∈{0 .1,0.2,…,0.7}時各種算法的分類準確率

        Fig.3 Classification accuracy of each compared algorithm under configurationr=3,ρ∈{0 .1,0.2,…,0.7}圖3 對應設置為r=3,ρ∈{0 .1,0.2,…,0.7}時各種算法的分類準確率

        Fig.4 Classification accuracy of each compared algorithm under configuration ρ=1,r=1,ε∈{0.1,0.2,…,0.7}圖4 對應設置為 ρ=1,r=1,ε∈{0 .1,0.2,…,0.7}時各種算法的分類準確率

        (2)和基于平均消歧策略方法相比,PL-TECOC分別在83.0%和86.6%的情況下優(yōu)于PL-KNN和CLPL。

        (3)和基于辨識消歧策略方法相比,PL-TECOC分別在100.0%和76.7%的情況下優(yōu)于PL-SVM和LSB-CMM。

        (4)和非消歧策略方法相比,PL-TECOC基本上與PL-ECOC持平。

        4.3 真實數(shù)據(jù)集實驗

        基于顯著程度為0.05時的成對t檢驗,表4給出了在真實數(shù)據(jù)集上PL-TECOC和各對比算法的性能表現(xiàn)。從表4可以看出:

        (1)在MSRCv2數(shù)據(jù)集上,PL-TECOC算法性能優(yōu)于其他所有對比算法。

        (2)在LYN100和LYN200數(shù)據(jù)集上,PL-TECOC持平于PL-ECOC,優(yōu)于其他對比算法。在LYN20數(shù)據(jù)集上,PL-TECOC持平于LSB-CMM,優(yōu)于其他對比算法。在BirdSong數(shù)據(jù)集上,PL-TECOC持平于PL-ECOC和LSB-CMM,優(yōu)于其他對比算法。

        (3)在Lost數(shù)據(jù)集上,PL-TECOC劣于CLPL和PL-SVM,優(yōu)于PL-KNN,持平于其他對比算法。在Soccer Player數(shù)據(jù)集上,PL-TECOC劣于PL-ECOC和LSB-CMM,優(yōu)于CLPL,持平于其他對比算法。

        (4)在LYN50數(shù)據(jù)集上,PL-TECOC劣于LSBCMM,優(yōu)于其他對比算法。

        4.4 算法的參數(shù)敏感性分析

        對PL-TECOC算法關于參數(shù)υ及L的敏感性進行了分析,圖5展示了PL-TECOC算法性能在不同參數(shù)設置下的變化情況。本文選擇了Lost、MSRCv2、BirdSong 3個數(shù)據(jù)集來進行參數(shù)的敏感性分析,對于其他的數(shù)據(jù)集也有類似的觀察結果。圖5(a)表示PL-TECOC隨著以步長10改變時分類準確率的變化。圖5(b)表示PL-TECOC隨著υ從3到7以步長1改變時分類準確率的變化。

        Table 4 Classification accuracy of each algorithm on real-world datasets表4各算法在真實數(shù)據(jù)集上的分類準確度

        Fig.5 Parameter sensitivity analysis for PL-TECOC on Lost,MSRCv2 and BirdSong datasets圖5 PL-TECOC在Lost、MSRCv2、BirdSong 3個數(shù)據(jù)集上的參數(shù)敏感性分析

        由圖5可見:對于參數(shù)L,PL-TECOC性能先提高后趨于穩(wěn)定。對于參數(shù)υ,PL-TECOC性能先呈現(xiàn)下降趨勢,最終趨于穩(wěn)定??偟膩碚f,參數(shù)υ對于算法性能影響明顯,因此對于該參數(shù)的選擇非常重要。

        5 總結與展望

        為了減少候選標記的數(shù)目以降低偏標記學習的難度,本文提出了一種基于三元糾錯輸出編碼技術的偏標記學習方法PL-TECOC。實驗表明該算法在人工數(shù)據(jù)集和真實數(shù)據(jù)集上均表現(xiàn)良好的性能。

        PL-TECOC算法的一個潛在缺點是在構建二類訓練集時一些偏標記訓練樣本會被剔除(見算法1步驟5),未來工作方向之一是如何有效地利用這些被踢除的偏標記樣本。另外,如何設計更好的編碼方式來解決偏標記學習問題也是一個值得研究的方向。

        猜你喜歡
        消歧集上分類器
        基于關聯(lián)圖和文本相似度的實體消歧技術研究*
        基于半監(jiān)督集成學習的詞義消歧
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        BP-GA光照分類器在車道線識別中的應用
        電子測試(2018年1期)2018-04-18 11:52:35
        藏文歷史文獻識別過程中藏文自由虛詞的自動識別及消歧算法的研究
        復扇形指標集上的分布混沌
        加權空-譜與最近鄰分類器相結合的高光譜圖像分類
        結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
        亚洲在线精品一区二区三区| 亚洲综合欧美在线| 久久精品国产屋| 国产一区二区在线中文字幕| 久久人妻av无码中文专区| 国产av丝袜旗袍无码网站| 夜夜春精品视频| 久久久国产精品五月天伊人| 亚洲国产精品久久婷婷| 精品区2区3区4区产品乱码9| 国产一区日韩二区欧美三区| 国产精品一区二区AV不卡| 91成人国产九色在线观看| 国产综合久久久久久鬼色| 国产精品户露av在线户外直播| 国产男女乱婬真视频免费| 亚洲不卡免费观看av一区二区| 中文字幕乱码高清完整版| 真人与拘做受免费视频| 亚洲av日韩aⅴ无码电影| 区二区三区亚洲精品无| 国产高清一区二区三区四区色| 又大又粗又爽18禁免费看| 成人无码午夜在线观看| 久久亚洲中文字幕精品一区四| 综合久久精品亚洲天堂| 无码人妻一区二区三区免费看| 久久99热久久99精品| 国产高清在线精品一区αpp| 免费在线观看草逼视频| 久久午夜福利电影| 国产亚洲av综合人人澡精品| 天天插视频| 国产精品中文字幕日韩精品| 日日麻批免费40分钟无码| 一本一道av无码中文字幕| 精品不卡久久久久久无码人妻| 免费黄网站永久地址进入| 18禁止进入1000部高潮网站| 美女又色又爽视频免费| 亚洲成在人线电影天堂色|