亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于協(xié)同訓(xùn)練半監(jiān)督的分類算法

        2021-12-17 09:17:46李延暉
        關(guān)鍵詞:分類監(jiān)督

        王 宇,李延暉

        (華中師范大學(xué)信息管理學(xué)院,武漢430079)

        從PC時代到移動互聯(lián)時代,從移動互聯(lián)網(wǎng)到產(chǎn)業(yè)互聯(lián)網(wǎng),各行各業(yè)的數(shù)據(jù)正以前所未有的速度在累計,大數(shù)據(jù)受到越來越多的關(guān)注.在由數(shù)據(jù)驅(qū)動的情報創(chuàng)新研究中,如:情報分析與智能服務(wù)、信息行為與用戶畫像、信息可視化與社交媒體信息傳播等,眾多學(xué)者已經(jīng)進(jìn)行了全面深入的研究.其中大多數(shù)研究是以文本內(nèi)容為主并且已經(jīng)形成了成熟的框架體系[1].圖像作為一類重要的信息載體,相比文本而言具有生動形象,直觀清晰的特點,同時蘊含著更加豐富的信息,對這些海量的圖像數(shù)據(jù)進(jìn)行挖掘利用對于具有很重要的價值.已有學(xué)者在網(wǎng)絡(luò)輿論監(jiān)測、情感識別、推薦系統(tǒng)、隱私保護(hù)、信息檢索等方向取得一些成果,如:詹必勝等針對數(shù)字圖像文件設(shè)計出一種新的輿情信息安全體系[2].曾金等對網(wǎng)站新聞圖像情感傾向進(jìn)行了分析研究[3].陳芬等提出了一種視覺情感識別模型,并實現(xiàn)了通過圖文結(jié)合的方式向用戶推薦符合其情感需求的電影[4].王樹義等構(gòu)建出了社交網(wǎng)絡(luò)圖像隱私自動分類器,可以對社交媒體用戶進(jìn)行隱私暴露預(yù)警提示[5].包翔和劉桂鋒提出一種基于特征包的圖像檢索系統(tǒng)框架,并通過數(shù)字圖書館的圖像資源進(jìn)行了實證檢驗[6].相比于較為成熟的文本數(shù)據(jù)分析,利用圖像進(jìn)行科學(xué)研究還有很大的空間.

        隨著互聯(lián)網(wǎng)數(shù)據(jù)的大爆發(fā),獲得大量未標(biāo)記樣本變得越來越容易,相反地獲得有標(biāo)記樣本卻變得越來越困難.半監(jiān)督學(xué)習(xí)(semi-supervised learning)[7]可以將少量有標(biāo)記樣本和大量未標(biāo)記樣本有機地利用起來,利用未標(biāo)記樣本數(shù)據(jù)中蘊含的有用結(jié)構(gòu)信息輔助學(xué)習(xí),不僅可以解決標(biāo)記樣本不足的現(xiàn)實問題,而且可以有效提高分類器的性能,提升分類的精度和效率.本研究提出一種基于半監(jiān)督學(xué)習(xí)的分類算法,利用少量標(biāo)記樣本數(shù)據(jù)作為初始訓(xùn)練樣本,使用大量未標(biāo)記的樣本輔助學(xué)習(xí),提高分類器的泛化性能,實現(xiàn)分類精度的提升,希望能為情報信息領(lǐng)域的數(shù)據(jù)分析提供一定的借鑒意義.

        1 相關(guān)研究綜述

        半監(jiān)督分類主要使用大量的無標(biāo)簽數(shù)據(jù)來提高分類器的性能和泛化能力,在文本分類、圖像處理、醫(yī)學(xué)診斷和感興趣信息推薦等領(lǐng)域中有廣泛的應(yīng)用,主要有四種主流類型[8],包括基于生成式模型的方法、半監(jiān)督 SVM 方法、基于圖的方法和基于分歧的方法.

        一般認(rèn)為,半監(jiān)督學(xué)習(xí)的研究開始于Shahshahani和Landgrebe[9],首次提出了半監(jiān)督學(xué)習(xí)的概念,并通過建立未標(biāo)注數(shù)據(jù)和學(xué)習(xí)目標(biāo)之間的聯(lián)系,提升了學(xué)習(xí)的泛化性能.李寧寧[10]使用半監(jiān)督協(xié)同訓(xùn)練方法進(jìn)行文本感情分類,利用未標(biāo)記的數(shù)據(jù),選取電子商務(wù)和醫(yī)療社交媒體兩個應(yīng)用領(lǐng)域,證明半監(jiān)督協(xié)同訓(xùn)練方法在不同數(shù)據(jù)分布情況下取得了較好的效果.李村合等[11]使用半監(jiān)督支持向量機對E-MIMLSVM+算法進(jìn)行改進(jìn),利用少量有標(biāo)簽樣本和大量沒有標(biāo)簽的樣本進(jìn)行學(xué)習(xí),有助于發(fā)現(xiàn)樣本內(nèi)部隱藏的結(jié)構(gòu)信息,證明改進(jìn)后的算法有效提高分類器的泛化性能.高飛等[12]提出了基于樣本類別確定度(CSS)的半監(jiān)督分類算法,利用SAR圖像測試,證實利用少量標(biāo)記樣本實現(xiàn)分類精度優(yōu)于監(jiān)督分類.趙建華[13]采用3個分類器作為基礎(chǔ)分類器,使用無標(biāo)記樣本的信息輔助學(xué)習(xí),增強分類器的差異性,同時保證較小的分類器分別分類誤差.韓彥嶺等[14]結(jié)合主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí),篩選出最優(yōu)代表性的半標(biāo)簽樣本,應(yīng)用于海冰圖像分類,實現(xiàn)了較高的分類精度,有效的解決了遙感海冰分類樣本少的問題.戴斌等[15]提出多類型文本的半監(jiān)督性別分類方法,基于微博產(chǎn)生的不同類型的文本對用戶的性別進(jìn)行分類,使用協(xié)同訓(xùn)練的半監(jiān)督學(xué)習(xí)方法,利用未標(biāo)記樣本數(shù)據(jù)輔助學(xué)習(xí),實驗結(jié)果表明其優(yōu)于其他現(xiàn)有的半監(jiān)督性別分類算法.劉欣媛[16]利用半監(jiān)督學(xué)習(xí)自動標(biāo)注語音數(shù)據(jù),然后使用按需加權(quán)決策樹分類優(yōu)化模型,實現(xiàn)了在小樣本的訓(xùn)練數(shù)據(jù)情況下,實現(xiàn)了較好的準(zhǔn)確性.在圖像分類領(lǐng)域,半監(jiān)督結(jié)合深度學(xué)習(xí)的算法[17-18]也受到廣泛的關(guān)注,由于其在少量標(biāo)注的樣本數(shù)據(jù)情況下借助大量無標(biāo)記數(shù)據(jù)可以實現(xiàn)較好的分類精度.

        相較于一般的協(xié)同訓(xùn)練,本文方法主要在樣本正確性判別和多樣性增強方面進(jìn)行了如下改進(jìn):1)利用了兩個分類器的預(yù)測標(biāo)簽一致作為高置信度的判斷條件;2)同時引入確定度閾值作為約束條件,在確保樣本高置信度的前提下,篩選出更具有代表性和多樣性的樣本,提高分類器的泛化性能.以手寫數(shù)字?jǐn)?shù)據(jù)和Landsat土壤數(shù)據(jù)作為數(shù)據(jù)集的實驗表明,本文提出的基于多分類器協(xié)同的半監(jiān)督樣本選擇方法可有效提高分類器的泛化能力,提升分類的精度.

        2 研究方法和過程

        2.1 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)的主要思想是在少量標(biāo)記樣本情況下,通過引入大量的未標(biāo)記樣本數(shù)據(jù)輔助模型學(xué)習(xí),以避免模型在訓(xùn)練集上出現(xiàn)過擬合等情況,解決監(jiān)督學(xué)習(xí)模型泛化能力弱的問題.

        因此,半監(jiān)督分類就是利用U和UC構(gòu)造一個盡可能反映樣本特征和標(biāo)簽真實關(guān)系的分類器,由貝葉斯公式可得:

        (1)

        后驗概率P(yi│x)代表在輸入樣本特征x的條件下,其標(biāo)記為yi的概率,其值越大,表明該樣本真實標(biāo)簽是yi的可能性越大.先驗概率P(yi)和P(x|yi)可以從標(biāo)記樣本集U中統(tǒng)計得到.當(dāng)我們有大量未標(biāo)記樣本的時候,可以使得計算得到P(x)更加精確,使得最后求得的后驗概率P(yi│x)更為精確,相應(yīng)的分類器的泛化性能也得到提高.

        Miller等[19]在1996年從理論上證明了未標(biāo)記樣本可以在分類過程中影響分類器的性能.雖然無標(biāo)記樣本沒有包含樣本的標(biāo)簽信息,但其有與標(biāo)記樣本相似的特征信息分布,可以有效輔助模型識別類別.圖1顯示了無標(biāo)記樣本輔助模型提升泛化能力的直觀示例.類別A和B是兩個類別,有標(biāo)記樣本和未標(biāo)記樣本,當(dāng)僅使用有標(biāo)記樣本建立分類器時,分類器決策邊界為紅色虛線,而加入未標(biāo)記樣本后,分類模型的決策邊界根據(jù)樣本的分類密度重新調(diào)整(黑色實線),決策邊界向右移動,使得分類器的泛化能力提高.

        2.2 分類算法

        2.2.1 支持向量機(support vector machines,SVM) SVM是由Vapnik[20]領(lǐng)導(dǎo)的AT&T Bell實驗室研究小組在20世紀(jì)60年代提出的一種新的監(jiān)督分類技術(shù).SVM是一種基于統(tǒng)計學(xué)習(xí)理論的新型機器學(xué)習(xí)方法,以結(jié)構(gòu)風(fēng)險最小化為理論基礎(chǔ),其本質(zhì)的思想是核函數(shù)方法,其被廣泛應(yīng)用于解決小樣本、高維度、非線性和局部極小值等領(lǐng)域[21].

        SVM通常用來分析線性問題,對于線性不可分問題可在高維空間內(nèi)轉(zhuǎn)化為線性可分問題,構(gòu)造最優(yōu)分類面.其目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險最小化原理構(gòu)造目標(biāo)函數(shù),將樣本盡可能地區(qū)分開來,通常分為兩類情況來討論:

        1)線性可分.在線性可分的情況下,存在一個超平面使得訓(xùn)練樣本完全分開.分割超平面可描述為:

        ωTx+b=0,

        (2)

        其中,ω是n維法向量,可以決定超平面的方向,b為偏移量,決定超平面與原點之間的距離.由于超平面是由法向量ω和位移b共同決定的,可將超平面記為(ω,b).

        樣本集中的樣本x與分割超平面的距離r可表示為:

        r=|ωTx+b|/‖ω‖.

        (3)

        最優(yōu)超平面是使得支持向量與超平面之間的距離和最大.

        2)線性不可分.對于線性不可分的情況,SVM引入核函數(shù),其可以將輸入特征空間中的線性不可分問題轉(zhuǎn)化為高維空間中的線性可分問題,極大的提高分類器對非線性問題的處理能力.其次,高維空間中的內(nèi)積運算均是通過原空間中的核函數(shù)來完成的,所以轉(zhuǎn)換為高維空間后只是改變了內(nèi)積運算,并沒有增加算法的復(fù)雜度[22].

        2.2.2 隨機森林(Random Forest,RF) RF算法主要是通過集成學(xué)習(xí)的思想將多個決策樹分類器集成到一起,對于每一個輸入的訓(xùn)練樣本,隨機森林都會產(chǎn)生N個分類預(yù)測結(jié)果,通過眾數(shù)投票得到最后的識別結(jié)果.隨機森林和Bagging算法類似,但是RF算法采用隨機選擇屬性方法,先從特征集中選擇特征子集,再根據(jù)每個決策樹選擇最優(yōu)屬性.RF算法結(jié)合多顆決策樹,然后采用投票策略,相比于單一決策樹,其泛化能力得到很大的提升.

        RF算法的流程如下:

        ① 利用Bootstrap從樣本集中隨機選擇T個訓(xùn)練集,S1,S2,…,ST;

        ②使用以上的訓(xùn)練集生成決策樹C1,C2,…,CT,從K個屬性中隨機選擇的k個屬性(k

        ③T顆決策樹形成隨機森林,通過投票表決形成最終的預(yù)測類別,具體投票的時候,得票最多的類別為隨機森林的最終結(jié)果:

        (4)

        其中,H(x)表示最終的輸出結(jié)果,hi(x)表示單個決策樹,I表示示性函數(shù),Y表示輸出變量.

        2.3 樣本增強算法流程

        2.3.1 算法輸入

        1)使用兩個分類算法作為監(jiān)督算法,分別是SVM(支持向量機)和RF(隨機森林),用于協(xié)同訓(xùn)練;

        2.3.2 算法步驟 協(xié)同訓(xùn)練得到增強樣本集的算法過程如下(流程如圖2所示):

        圖2 樣本增強算法流程 Fig.2 Sample enhancement algorithm flow

        ①樣本在兩個分類器中的預(yù)測標(biāo)簽一致:

        (5)

        ②樣本si在兩個分類器中的確定度滿足:

        (6)

        其中,Cersik代表樣本si的基于分類器k的確定度,其值等于分類器預(yù)測某個樣本屬于各類別后驗概率中的最大值與次大值之差,表示某個樣本屬于這一類別的可能性,值越大,表明分類器對該樣本的預(yù)測越準(zhǔn)確;當(dāng)采用確定度和后驗概率分別從候選無標(biāo)簽樣本中選擇高置信度樣本時,確定度作為置信度判別標(biāo)準(zhǔn),可以剔除分類器類別交界處低置信度的樣本,篩選出可信度高的樣本;ρ為設(shè)定的確定度閾值,需要人為調(diào)整.

        (7)

        (8)

        5)剔除候選樣本集中的增強樣本:

        (9)

        (10)

        (11)

        7)最后的增強樣本集:

        (12)

        其中,T為最后的迭代次數(shù),D為最終半監(jiān)督方法的增強樣本集.

        本算法采用了SVM和RF算法協(xié)同訓(xùn)練,采用了預(yù)測標(biāo)簽一致性和高確定度作為樣本正確性的判別標(biāo)準(zhǔn),加入了確定度最小值約束篩選出更加多樣性的增強樣本.

        3 實驗及結(jié)果分析

        3.1 數(shù)據(jù)集

        為了證明算法的有效性,采用Mnist數(shù)據(jù)集[23]和Landsat土壤數(shù)據(jù)集作為訓(xùn)練測試的樣本集.Mnist手寫數(shù)字示例如圖3所示,總共有70 000個樣本,每一個樣本是28×28像素大小的圖像,數(shù)值(整數(shù))范圍在0~255之間,標(biāo)簽為0~9,各個數(shù)字比例如表1所示,數(shù)據(jù)下載網(wǎng)址:http://yann.lecun.com/exdb/mnist/.Landsat.

        表1 Mnist數(shù)據(jù)集說明Tab.1 Description of Mnist data set

        圖3 Mnist字符庫部分樣本Fig.3 Some samples of Mnist character library

        土壤數(shù)據(jù)集共有6 435個標(biāo)記樣本,每個樣本有一個土壤標(biāo)簽和與之對應(yīng)的36個屬性.數(shù)據(jù)集中采用3×3鄰域中9個像素的多光譜值作為屬性值,每個鄰域中的中心像素的類別標(biāo)記為場景的類別.數(shù)據(jù)集共含有6個類別,各類別比例及含義如表2所示,數(shù)據(jù)下載及詳細(xì)介紹的網(wǎng)址:http://archive.ics.uci.edu/ml/datasets.php.

        表2 Landsat土壤數(shù)據(jù)集說明Tab.2 Description of Landsat soil data set

        本實驗中,Mnist數(shù)據(jù)集和Landsat土壤數(shù)據(jù)集的每一類別訓(xùn)練樣本分別為60個和200個,測試樣本分別為1 000個和200個,其余樣本剔除標(biāo)簽作為候選樣本集.為了保證本算法的科學(xué)性[24],使訓(xùn)練樣本和測試樣本的概率分布一致,訓(xùn)練樣本和測試樣本均采用隨機選擇的方法得到.

        3.2 算法評價指標(biāo)

        對于半監(jiān)督樣本增強效果的評價,主要是考量增強樣本集是否使得分類器泛化性能提高,因此,一般采用監(jiān)督分類對測試樣本集預(yù)測結(jié)果,并進(jìn)行精度評價.監(jiān)督學(xué)習(xí)采用兩個分類器(SVM和RF)投票得到最后的預(yù)測標(biāo)簽,具體投票規(guī)則如下:

        (13)

        該投票思路是分類器預(yù)測樣本得到確定度大的預(yù)測標(biāo)簽即為最終的投票預(yù)測標(biāo)簽.

        本文基于準(zhǔn)確率(accuracy)評價訓(xùn)練樣本對分類器泛化性能的影響,精度越大,表明構(gòu)建分類器模型泛化性能越好.對于給定的測試集,準(zhǔn)確率等于分類器正確預(yù)測樣本數(shù)與測試集總樣本數(shù)之比:

        (14)

        其中,TPi是指被分類器正確分類的測試類別i的樣本數(shù)目,n是總類別數(shù),P是測試樣本總數(shù).

        3.3 結(jié)果及分析

        3.3.1 半監(jiān)督學(xué)習(xí)結(jié)果 根據(jù)提出的算法,本實驗設(shè)置如下參數(shù):確定度變化閾值ε=0.01,確定度最大閾值ρmax=0.7,最小閾值ρmin=0.3.候選樣本集的平均確定度隨著迭代次數(shù)變化結(jié)果如圖4所示.圖4(a)和(b)分別表示了Mnist數(shù)據(jù)集和Landsat土壤數(shù)據(jù)集的確定度變化情況,可以看到隨著迭代次數(shù)的增加,兩個數(shù)據(jù)集的平均確定度在逐漸增加,且初始迭代時的增量較大(最大值分別為0.037和0.047),后續(xù)迭代過程中逐漸趨于穩(wěn)定,當(dāng)確定度增量(分別為0.005和0.006 3)小于預(yù)設(shè)值0.01,停止迭代.確定度隨著迭代次數(shù)由快到慢的逐漸增加,表明隨著分類器不斷的學(xué)習(xí),由增強樣本構(gòu)建的分類器模型對未標(biāo)記樣本預(yù)測置信度逐漸增加.為了驗證半監(jiān)督學(xué)習(xí)對分類器泛化性能的提升,用每一次迭代得到的增強樣本構(gòu)建分類器,預(yù)測測試集標(biāo)簽并計算精度,得到圖5所示結(jié)果.從圖5中可以看出,隨著迭代次數(shù)的增加,分類器預(yù)測準(zhǔn)確率在兩個數(shù)據(jù)集上均呈現(xiàn)逐漸增加趨勢,而且開始時增加速度較快,反映了分類器的泛化能力隨著半監(jiān)督學(xué)習(xí)過程逐漸提升.

        圖4 候選集樣本平均確定度變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.4 Changes in the average certainty of the candidate set samples ((a)Mnist data set,(b)Landsat data set)

        圖6顯示了兩個數(shù)據(jù)集中增強樣本數(shù)目的變化,經(jīng)過初次迭代后,Mnist數(shù)據(jù)集樣本總數(shù)由600增長到12 398,而Landsat土壤數(shù)據(jù)集樣本總數(shù)由1 200增長到1 703,隨著迭代次數(shù)增加,增長速度逐漸變慢.由圖5和圖6的對比分析可以發(fā)現(xiàn),增強樣本數(shù)目和模型準(zhǔn)確率變化趨勢一致,主要是由于增強樣本開始時的快速增長,導(dǎo)致樣本多樣性增加,進(jìn)一步使得構(gòu)建分類性能提升,后面增強樣本的數(shù)量趨于穩(wěn)定,其所構(gòu)建模型的準(zhǔn)確率也平穩(wěn)變化,趨于穩(wěn)定.為了更直觀地驗證半監(jiān)督學(xué)習(xí)的效果,圖7對比了兩個數(shù)據(jù)集中原始訓(xùn)練樣本和增強樣本構(gòu)建分類器分別預(yù)測測試集樣本的準(zhǔn)確率,發(fā)現(xiàn)全部類別的準(zhǔn)確率都得到提升.兩個數(shù)據(jù)集的總體準(zhǔn)確率分別提升5.97%和7.02%,Mnist數(shù)據(jù)集中數(shù)字5這類準(zhǔn)確率提升最高(提升11.9%,從79.3%到91.2%),Landsat土壤數(shù)據(jù)集中土壤3這一類準(zhǔn)確率提升最明顯(提升15.8%,從73.5%到89.3%),說明本文提出的協(xié)同半監(jiān)督方法可以有效利用未標(biāo)記樣本,在多個數(shù)據(jù)集上實現(xiàn)分類器泛化能力的提升.

        圖5 增強樣本構(gòu)建模型的精度變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.5 Accuracy changes of the model built by enhanced samples ((a)Mnist data set,(b)Landsat data set)

        圖6 增強樣本總數(shù)變化((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.6 Changes in the total number of enhanced samples ((a)Mnist data set,(b)Landsat data set)

        注:OA為所有類別總的準(zhǔn)確率.圖7 半監(jiān)督學(xué)習(xí)對分類器預(yù)測精度提升((a)數(shù)據(jù)集,(b)數(shù)據(jù)集)Fig.7 Semi-supervised learning to improve the prediction accuracy of the classifier ((a)Mnist data set,(b)Landsat data set)

        3.3.2 最大確定度和分類類別數(shù)目對準(zhǔn)確率的影響 為了探究最大概率和分類類別數(shù)對本方法的影響,做了如下研究:1)以0.1的間隔調(diào)整最大確定度值,探究確定度對最終分類器準(zhǔn)確率變化的影響;2)將Mnist數(shù)據(jù)集分類類別減少為5類(原始類別的一半),探究對最終分類器準(zhǔn)確率變化的影響.

        表3顯示了兩個數(shù)據(jù)集中隨著最大確定度ρmax的變化,由增強樣本構(gòu)建分類器的準(zhǔn)確率和增強樣本數(shù)變化.由圖可知當(dāng)ρmax分別為0.5和0.6時,兩個數(shù)據(jù)集的分類器準(zhǔn)確率均有最大值,ρmax為0.9時,分類器準(zhǔn)確率最小,增強樣本數(shù)最少.最大確定度閾值越大,表明篩選條件越嚴(yán)格,增強樣本數(shù)也就越少,這樣對未標(biāo)記樣本的利用就少,因此對最終分類器的準(zhǔn)確率提升有限;但是隨著最大確定度閾值的降低,更多的樣本會被納入到增強樣本中,同時也有一些錯誤樣本篩選進(jìn)來,導(dǎo)致分類器的準(zhǔn)確率降低.因此,選擇合適的篩選準(zhǔn)則對分類器泛化性能提升有一定的影響.

        表3 最大確定度對分類準(zhǔn)確率的影響Tab.3 The influence of maximum certainty on classification accuracy

        圖8顯示了基于Mnist手寫數(shù)據(jù)集中5個類別的半監(jiān)督學(xué)習(xí)結(jié)果,利用增強前后的樣本分別構(gòu)建SVM和RF分類器,然后采用確定度投票得到預(yù)測結(jié)果計算精度.圖8顯示所有的類別準(zhǔn)確率都得到提升,同樣數(shù)字5這一類變化最大,準(zhǔn)確率提升了13.6%,總體的準(zhǔn)確率提升6%,與10個類別的效果相差不大.由于類別較少,分類任務(wù)簡單化,故原始樣本和增強樣本得到準(zhǔn)確率都比10個類別的高.通過以上分析,可以得出分類任務(wù)中類別數(shù)目的變化對分類器泛化能力提升的影響較小.

        圖8 分類器預(yù)測準(zhǔn)確率變化Fig.8 The change of classifier's prediction accuracy

        3.3.3 對比實驗分析 為了驗證本研究提出算法的有效性,本研究將提出的算法與常用的監(jiān)督算法和半監(jiān)督協(xié)同學(xué)習(xí)算法進(jìn)行對比實驗.監(jiān)督算法采用K最鄰近分類(K nearest neighbor,KNN),半監(jiān)督學(xué)習(xí)算法采用Co-training和Co-forest作為對比算法.K最鄰近分類算法是較為成熟的監(jiān)督學(xué)習(xí)算法[25],其基本運算思想是首先確定分類的最終類別數(shù)目,并確定特征空間,然后以待分類對象和訓(xùn)練集樣本之間的距離作為判別標(biāo)準(zhǔn),確定該待分類對象的k個最近“鄰居”,最后通過各個鄰居的類別判斷待分類對象的類別.

        半監(jiān)督學(xué)習(xí)中,Co-training和Co-forest是比較常見的半監(jiān)督協(xié)同學(xué)習(xí)算法.Co-training的基本思想[26]是利用兩個分類算法根據(jù)數(shù)據(jù)集的不同視圖分別構(gòu)建有分歧的分類器,實驗中采用SVM和RF作為基分類器,然后從未標(biāo)記樣本中選擇一定數(shù)目置信度高的樣本增加到對方分類器的訓(xùn)練樣本中,不斷迭代更新分類器,直到分類器不再變化.Co-Forest采用了集成學(xué)習(xí)的方式[27],以隨機樹作為基分類器的集成分類器,可以使未標(biāo)記數(shù)據(jù)的置信度以更簡單有效的方式計算.對于單個基分類器hi(i∈{1,2,…,N}),它的協(xié)同分類器集合是Hi(除hi之外的所有子分類器).在迭代協(xié)同學(xué)習(xí)過程中,Hi可以將高置信度的未標(biāo)記樣本不斷加入到基分類器hi訓(xùn)練樣本中,從而提高基分類器hi的整體性能.

        圖9顯示了不同分類方法在兩個數(shù)據(jù)集上的精度表現(xiàn),KNN算法沒有進(jìn)行樣本增強,僅利用了原始樣本進(jìn)行了分類;而Co-training、Co-forest和本研究提出的算法均對原始樣本進(jìn)行了增強,圖中所示的準(zhǔn)確度是基于增強樣本的構(gòu)建分類器得到的.如圖9所示,不同方法在兩個數(shù)據(jù)集中具有相似的表現(xiàn),其中KNN僅利用了原始樣本集,因此,構(gòu)建的分類器的泛化性較差,精度為各個方法中最低;而三種半監(jiān)督方法由于利用了候選集中的未標(biāo)記樣本信息,經(jīng)過樣本增強后,分類精度都有較大的提升.本研究提出的算法具有最高的精度表現(xiàn),在Landsat土壤數(shù)據(jù)集和Mnist手寫數(shù)據(jù)集上較Co-training分別提升4.97%和3.24%,較Co-forest分別提升3.64%和2.81%,進(jìn)一步說明本研究提出算法的優(yōu)越性.通過分析兩個數(shù)據(jù)集在不同方法的表現(xiàn),可以發(fā)現(xiàn)各方法在Mnist數(shù)據(jù)集的精度高于Landsat土壤數(shù)據(jù)集,主要的原因是Landsat數(shù)據(jù)集類別均為土壤,區(qū)分難度較大,導(dǎo)致各分類算法的精度相對較低.

        圖9 不同方法的分類方法精度對比Fig.9 Comparison of accuracy of classification methods of different methods

        4 結(jié)論

        對圖像數(shù)據(jù)的分類算法研究對經(jīng)濟(jì)社會和科學(xué)研究都具有重要意義,本文研究了一種半監(jiān)督學(xué)習(xí)的樣本增強分類算法.利用兩個分類器協(xié)同訓(xùn)練,以手寫數(shù)字和Landsat土壤數(shù)據(jù)作為測試數(shù)據(jù)集,通過多分類器預(yù)測標(biāo)簽一致性和確定度約束兩個篩選規(guī)則,從未標(biāo)記樣本集中篩選出最有代表性的樣本構(gòu)成增強樣本集,以準(zhǔn)確率為評價標(biāo)準(zhǔn),驗證本算法對分類器泛化性能的影響.通過實驗,可以得到如下結(jié)論.

        1)本文利用多分類器協(xié)同訓(xùn)練,對未標(biāo)記樣本預(yù)測標(biāo)簽和類別確定度進(jìn)行約束處理,可以保證篩選出樣本的可靠性和多樣性,并實現(xiàn)了對分類器泛化能力的提升.

        2)對未標(biāo)記樣本確定度取不同閾值,會影響增強樣本的正確性,進(jìn)而影響構(gòu)建分類器的準(zhǔn)確率.

        3)分類任務(wù)中類別的數(shù)目變化對半監(jiān)督學(xué)習(xí)效果影響很小.

        4)通過與KNN、Co-training和Co-forest算法的對比實驗,可以發(fā)現(xiàn)本研究提出的算法獲取的增強樣本在分類精度上有較明顯的優(yōu)勢.

        在后期的工作中,可以進(jìn)一步探究在少樣本的情況下,利用半監(jiān)督算法得到的增強樣本在深度學(xué)習(xí)算法中的應(yīng)用,因為深度學(xué)習(xí)需要大量的訓(xùn)練樣本,同時也有一定的容錯能力,故可以探究利用半監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)結(jié)合對分類準(zhǔn)確率的提升效果.

        猜你喜歡
        分類監(jiān)督
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        監(jiān)督見成效 舊貌換新顏
        夯實監(jiān)督之基
        給塑料分分類吧
        績效監(jiān)督:從“管住”到“管好”
        浙江人大(2014年5期)2014-03-20 16:20:28
        精品88久久久久88久久久| 亚洲欧美激情精品一区二区| 蜜桃视频在线免费观看| 蜜桃视频一区二区在线观看| 亚洲av无码乱码国产精品久久| 免费无码毛片一区二区app| 日韩制服国产精品一区| 久久精品无码一区二区三区蜜费| 亚洲国模一区二区三区视频| 国产精品自在在线午夜出白浆| 亚洲一区二区三区一区| 亚洲综合在不卡在线国产另类 | 国产精品亚洲А∨天堂免下载| 亚洲精品一区二区视频| 国产二区中文字幕在线观看| 美女视频一区二区三区在线| 国内永久福利在线视频图片| 国模吧无码一区二区三区| 精品亚洲成在人线av无码| 好大好硬好爽免费视频| 国产精品亚洲专区无码web| 国产V亚洲V天堂A无码| 久久精品日韩免费视频| 极品一区二区在线视频| 人人超碰人人爱超碰国产| 亚洲色爱免费观看视频| 国产精品免费久久久久影院| 国产在线高清无码不卡| 免费av在线 国产精品| 国产91色综合久久高清| 无码无套少妇毛多18pxxxx| 亚洲国产精品va在线播放| 中文字幕在线久热精品| 加勒比亚洲视频在线播放| 亚洲白嫩少妇在线喷水| 大桥未久av一区二区三区| 中文在线8资源库| 亚洲中文字幕第一页在线| 久久综合给合久久狠狠狠9| 最近中文字幕一区二区三区| 久久久精品国产免大香伊|