亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法

        2022-05-13 05:32:50王杰張松巖梁吉業(yè)
        大數(shù)據(jù) 2022年3期
        關(guān)鍵詞:錯(cuò)誤率流形正則

        王杰,張松巖,梁吉業(yè)

        1. 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;

        2. 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006

        0 引言

        隨著互聯(lián)網(wǎng)和信息產(chǎn)業(yè)的飛速發(fā)展,人們采集與獲取數(shù)據(jù)的能力大大提高,信息量以前所未有的速度增長(zhǎng)。世界已進(jìn)入大數(shù)據(jù)時(shí)代[1],這些大數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值,對(duì)于社會(huì)、經(jīng)濟(jì)、科學(xué)等各個(gè)方面都具有重要的戰(zhàn)略意義[2-5],為人們更深入地感知、認(rèn)識(shí)和控制物理世界提供了前所未有的豐富信息。大數(shù)據(jù)時(shí)代的到來引發(fā)了深度學(xué)習(xí)的研究熱潮并取得了巨大的成功,但訓(xùn)練一個(gè)深度網(wǎng)絡(luò)模型往往需要大量具有高質(zhì)量標(biāo)記的訓(xùn)練樣本[6-7]。對(duì)于許多深度學(xué)習(xí)任務(wù)來說,獲取大量用于訓(xùn)練的有標(biāo)記樣本的成本是極其昂貴的,且需要耗費(fèi)大量的時(shí)間,與此同時(shí),無標(biāo)記樣本的獲取相對(duì)容易且廉價(jià)。因此,如何利用大量無標(biāo)記樣本來輔助提高學(xué)習(xí)方法的泛化性能,已成為一個(gè)重要研究問題。

        為了應(yīng)對(duì)這一問題,半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)應(yīng)運(yùn)而生,其目的是通過在模型訓(xùn)練中引入無標(biāo)記樣本來解決傳統(tǒng)監(jiān)督學(xué)習(xí)在訓(xùn)練樣本不足時(shí)性能差的問題[8]。近年來,隨著深度學(xué)習(xí)的興起,半監(jiān)督深度學(xué)習(xí)取得了很多顯著的成果并受到越來越多的關(guān)注,其中基于一致性正則的方法[9-14]是半監(jiān)督深度學(xué)習(xí)[15]研究中的熱點(diǎn)問題之一。一致性是指模型對(duì)擾動(dòng)后訓(xùn)練樣本的預(yù)測(cè)結(jié)果應(yīng)與原預(yù)測(cè)結(jié)果保持一致。由于這類方法并不依賴于樣本的真實(shí)標(biāo)記,因此可以使用大量的無標(biāo)記數(shù)據(jù)。一致性正則鼓勵(lì)預(yù)測(cè)函數(shù)對(duì)樣本的鄰域具有光滑性,使得樣本點(diǎn)局部的預(yù)測(cè)是平滑的,這種具有局部平滑性的模型更容易推廣。然而,基于一致性正則的方法僅僅考慮模型對(duì)樣本的鄰域具有光滑性,沒有考慮數(shù)據(jù)流形結(jié)構(gòu),可能會(huì)使得一部分相近的樣本得到差異很大的輸出,導(dǎo)致分類器性能下降。如圖1(a)所示,盡管內(nèi)外圈的樣本點(diǎn)均局部平滑,但外圍點(diǎn)中出現(xiàn)了兩處低密度空白區(qū)域,這樣分類面可能會(huì)位于該低密度區(qū)域,使得外圈中右側(cè)的樣本錯(cuò)分,造成分類性能下降。圖1中紅色和黑色的實(shí)心點(diǎn)為兩類有標(biāo)記樣本,空心點(diǎn)為無標(biāo)記樣本,紫色的虛線圈為樣本點(diǎn)鄰域的一致性表示,藍(lán)色、綠色和黃色的實(shí)線為可能的分類面。

        圖1 基于一致性正則、流形正則的半監(jiān)督學(xué)習(xí)方法以及本文提出方法的示意圖

        為了應(yīng)對(duì)上述問題,本文提出一種融合一致性正則與流形正則的半監(jiān)督深度算法SmoothMatch。流形正則[16-20]是基于半監(jiān)督學(xué)習(xí)中常見的流形假設(shè),即假設(shè)數(shù)據(jù)分布在流形上,鄰近的樣本擁有相似的輸出值。這里的鄰近程度常用相似程度來刻畫。流形是在局部與歐氏空間同胚的空間,換言之,它在局部具有歐氏空間的性質(zhì),能用歐氏距離進(jìn)行距離計(jì)算。針對(duì)每個(gè)樣本點(diǎn),基于歐氏距離找出其鄰近樣本點(diǎn),然后建立一個(gè)鄰近連接圖,圖中鄰近點(diǎn)之間存在連接,而非鄰近點(diǎn)之間不存在連接。這類方法將有標(biāo)記樣本和無標(biāo)記樣本映射為圖,以近似刻畫數(shù)據(jù)的流形分布,從而可以充分利用數(shù)據(jù)中蘊(yùn)含的流形結(jié)構(gòu)信息。但這類方法只能保證在構(gòu)造的圖上保持局部相似性,即相連的樣本有相似的輸出。當(dāng)樣本擾動(dòng)方向不是沿著圖所近似的流形時(shí),預(yù)測(cè)函數(shù)對(duì)擾動(dòng)的樣本的預(yù)測(cè)可能會(huì)發(fā)生很大的改變,即模型不能為未見到的樣本點(diǎn)提供合理的輸出。如圖1(b)所示,黃色、藍(lán)色分類面分別靠近外圈和內(nèi)圈的數(shù)據(jù)點(diǎn),這會(huì)導(dǎo)致學(xué)習(xí)器的泛化性能降低。本文提出的算法綜合了兩類方法的優(yōu)點(diǎn),如圖1(c)所示,本文提出的算法不僅考慮了每個(gè)樣本點(diǎn)的局部預(yù)測(cè)平滑,也考慮了真實(shí)的鄰近(相連)樣本具有平滑性,使得模型充分利用了數(shù)據(jù)的結(jié)構(gòu)(流形)信息,進(jìn)而可以將分類邊界推向合理的低密度區(qū)域,有效地提高半監(jiān)督深度學(xué)習(xí)算法的性能。在多個(gè)圖像和文本標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與相關(guān)算法/模型相比,本文所提算法SmoothMatch的性能有明顯提高。

        1 相關(guān)工作

        1.1 半監(jiān)督學(xué)習(xí)

        半監(jiān)督學(xué)習(xí)是近20年發(fā)展起來的一類新型機(jī)器學(xué)習(xí)方法,目前半監(jiān)督分類算法可以大致分為如下幾類:基于支持向量機(jī)(support vector machine,SVM)的半監(jiān)督算法[21]、基于協(xié)同訓(xùn)練的算法[22-23]、基于生成式的算法[24-25]、基于圖的半監(jiān)督算法[16-20],以及半監(jiān)督深度學(xué)習(xí)算法[15]?;谝恢滦哉齽t的半監(jiān)督學(xué)習(xí)算法[9-14]是半監(jiān)督深度學(xué)習(xí)算法中一類非常重要的學(xué)習(xí)范式。除此之外,半監(jiān)督學(xué)習(xí)算法還包括半監(jiān)督聚類[26]和半監(jiān)督回歸[27]等算法。下面著重回顧與本文相關(guān)的基于圖的半監(jiān)督學(xué)習(xí)算法和基于一致性正則的半監(jiān)督學(xué)習(xí)算法。

        1.2 基于圖的半監(jiān)督學(xué)習(xí)算法

        基于圖的半監(jiān)督學(xué)習(xí)利用有標(biāo)記和無標(biāo)記樣本之間的聯(lián)系得到一個(gè)關(guān)于樣本空間的圖結(jié)構(gòu),然后利用這個(gè)圖結(jié)構(gòu)將標(biāo)記從有標(biāo)記樣本“傳播”到無標(biāo)記樣本。如Zhu X J等人[16]提出了一種基于高斯隨機(jī)場(chǎng)模型的半監(jiān)督學(xué)習(xí)算法,該算法將有標(biāo)記和無標(biāo)記的數(shù)據(jù)表示為一個(gè)加權(quán)圖,邊上的權(quán)重表示數(shù)據(jù)之間的相似性。然后,學(xué)習(xí)問題被表述為圖上的高斯隨機(jī)場(chǎng);Belkin M等人[17]引入圖拉普拉斯正則化,將直推式圖半監(jiān)督學(xué)習(xí)拓展到歸納式,可以對(duì)訓(xùn)練集中沒有出現(xiàn)過的樣本進(jìn)行分類,使得模型具備一定的通用性和泛化能力;Bai L等人[18]提出了一種新的標(biāo)記傳播算法,該算法將標(biāo)記的成對(duì)關(guān)系作為約束條件,建立有約束的標(biāo)記傳播。Wang J等人[19]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的半監(jiān)督分類算法,該算法融合多個(gè)圖神經(jīng)網(wǎng)絡(luò)的結(jié)果,在保證有標(biāo)記節(jié)點(diǎn)分類正確的同時(shí),利用大量無標(biāo)記節(jié)點(diǎn)的偽標(biāo)記信息最大化多個(gè)圖神經(jīng)網(wǎng)絡(luò)的多樣性,從而提升圖半監(jiān)督學(xué)習(xí)的性能。Liang J Y等人[20]提出了一種自適應(yīng)構(gòu)圖的方法,將構(gòu)圖和標(biāo)記推理集成到統(tǒng)一的優(yōu)化框架中,實(shí)現(xiàn)二者的相互指導(dǎo)和動(dòng)態(tài)提升,從而實(shí)現(xiàn)魯棒的圖半監(jiān)督學(xué)習(xí)。

        1.3 基于一致性正則的半監(jiān)督學(xué)習(xí)算法

        基于一致性正則的方法分為基于樣本擾動(dòng)的方法與基于模型擾動(dòng)的方法。雖然二者在具體實(shí)現(xiàn)上有諸多不同,但目的都是最小化模型預(yù)測(cè)的一致性損失。

        基于樣本擾動(dòng)的方法將原樣本和擾動(dòng)后的樣本輸入同一個(gè)模型中,然后最小化二者預(yù)測(cè)的不一致性。該類方法依賴于數(shù)據(jù)增廣技術(shù)。為了產(chǎn)生高質(zhì)量的擾動(dòng)樣本,近年來研究者提出了大量數(shù)據(jù)增廣技術(shù),如Miyato T等人[12]提出了虛擬對(duì)抗訓(xùn)練(virtual adversarial training,VAT)模型,其主要思想是找到使模型輸出偏差最大的方向,然后在這個(gè)方向上對(duì)輸入產(chǎn)生擾動(dòng);Verma V等人[13]提出了插值一致性訓(xùn)練(interpolation consistency training,ICT)模型,該模型將一個(gè)樣本點(diǎn)沿另一個(gè)樣本點(diǎn)的方向做擾動(dòng),模型對(duì)兩個(gè)樣本點(diǎn)間插值的預(yù)測(cè)結(jié)果應(yīng)與模型對(duì)兩個(gè)樣本點(diǎn)預(yù)測(cè)結(jié)果的插值一致;谷歌的Berthelot D等人[9]融合多種數(shù)據(jù)增廣技術(shù)提出了MixMatch算法,達(dá)到非常低的分類錯(cuò)誤率。

        基于模型擾動(dòng)的方法將訓(xùn)練樣本輸入結(jié)構(gòu)相同但參數(shù)不同的兩個(gè)或多個(gè)網(wǎng)絡(luò)中,實(shí)現(xiàn)模型預(yù)測(cè)的一致性。其中,Laine S等人[10]提出了Π模型和temporal ensembling模型。Π模型將訓(xùn)練樣本輸入兩個(gè)結(jié)構(gòu)相同的網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)使用隨機(jī)Dropout技術(shù)產(chǎn)生不同的網(wǎng)絡(luò)參數(shù),最后最小化兩個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,從而達(dá)到一致性正則化的目的;temporal ensembling模型首先計(jì)算訓(xùn)練樣本在前幾個(gè)訓(xùn)練輪次(epoch)中預(yù)測(cè)的平均值,然后最小化該平均值與當(dāng)前epoch的預(yù)測(cè)值,利用多個(gè)epoch的預(yù)測(cè)來實(shí)現(xiàn)一致性。Tarvainen A等人[11]提出了mean teacher模型,與temporal ensembling對(duì)前幾輪的預(yù)測(cè)進(jìn)行平均不同,mean teacher對(duì)前幾輪的模型參數(shù)進(jìn)行平均,并最小化該模型與當(dāng)前模型的預(yù)測(cè)值,從而實(shí)現(xiàn)模型擾動(dòng)的一致性。

        然而上述基于一致性正則的方法僅僅計(jì)算樣本鄰域內(nèi)的一致性,并沒有考慮數(shù)據(jù)點(diǎn)之間的連接,這樣可能會(huì)缺失樣本數(shù)據(jù)結(jié)構(gòu)中的信息。因此,筆者將基于一致性正則的方法與基于流形正則的方法結(jié)合,提出一種融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法SmoothMatch。

        2 融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法

        在詳細(xì)介紹算法之前,首先介紹算法中用到的部分變量:假設(shè)數(shù)據(jù)集D里有N個(gè)樣本,其中為有標(biāo)記樣本集合,標(biāo)記,共K個(gè)類別;為無標(biāo)記樣本集合。

        本文提出一種融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法SmoothMatch,其不僅對(duì)樣本局部區(qū)域的擾動(dòng)施加平滑約束,同時(shí)考慮了樣本點(diǎn)之間的結(jié)構(gòu)信息。算法的總體損失函數(shù)如下:

        總體損失主要由3項(xiàng)構(gòu)成:①對(duì)于有標(biāo)記樣本,比較模型的預(yù)測(cè)結(jié)果與樣本的真實(shí)標(biāo)記,計(jì)算交叉熵?fù)p失?s;②對(duì)于無標(biāo)記樣本,采用數(shù)據(jù)增廣技術(shù)Augment(xu)計(jì)算一致性損失?s;③從有標(biāo)記樣本和無標(biāo)記樣本中抽取樣本,將這些樣本進(jìn)行特征空間映射并構(gòu)圖,最后計(jì)算平滑性損失?s。λc與λs為防止某一項(xiàng)損失過大或過小而平衡3項(xiàng)損失的權(quán)值參數(shù)。算法整體框架如圖2所示。

        圖2 算法整體框架

        2.1 樣本鄰域內(nèi)的一致性損失

        本節(jié)使用ICT模型[13]中的數(shù)據(jù)增廣方法Mixup來計(jì)算一致性損失。Mixup的基本計(jì)算式如下:

        其中,λ為服從β分布的權(quán)值參數(shù),Mixλ(a,b)為a和b之間的插值。

        給定一個(gè)小批量(mini-batch)數(shù)據(jù)集中的任意兩個(gè)樣本點(diǎn)xi與xj以及模型預(yù)測(cè)結(jié)果f(xi,θ)和f(xj,θ) ,根據(jù)式(2)可以得到這兩個(gè)樣本點(diǎn)間的插值,則模型對(duì)該插值的預(yù)測(cè)結(jié)果為同時(shí)可以得到模型對(duì)樣本點(diǎn)xi與xj預(yù)測(cè)結(jié)果的插值一致性 損 失 便是要求保持一致。因此,在一個(gè)mini-batch數(shù)據(jù)集內(nèi)的一致性損失為:

        2.2 樣本間的平滑性損失

        在大數(shù)據(jù)環(huán)境下,刻畫樣本間平滑性損失的流形正則項(xiàng)面臨如下挑戰(zhàn)。①大多數(shù)現(xiàn)有的構(gòu)圖方法是對(duì)輸入空間的距離度量,但該類方法有很大的局限性。例如對(duì)于圖像樣本,其輸入是多通道像素值,然而像素距離并不能很好地反映樣本間的語義相似性。②傳統(tǒng)基于圖的算法計(jì)算整個(gè)數(shù)據(jù)集的鄰接矩陣并在此基礎(chǔ)上構(gòu)圖,耗費(fèi)的時(shí)間過長(zhǎng)、空間復(fù)雜度過高。③傳統(tǒng)方法構(gòu)建的是靜態(tài)固定的圖,因此不能利用分類器提取的知識(shí)進(jìn)行圖的動(dòng)態(tài)調(diào)整。

        為了解決這些問題,本文提出在minibatch數(shù)據(jù)集內(nèi)構(gòu)圖并計(jì)算平滑性損失的方法。在樣本的標(biāo)記空間計(jì)算樣本相似度,并采用動(dòng)態(tài)構(gòu)圖的方式,隨著學(xué)習(xí)不斷更新圖結(jié)構(gòu),從而更好地指導(dǎo)學(xué)習(xí)器學(xué)習(xí)樣本間的平滑。

        (1)構(gòu)圖與鄰接矩陣的計(jì)算

        在每一個(gè)mini-batch數(shù)據(jù)集內(nèi),用其中的數(shù)據(jù)構(gòu)造K近鄰(K-nearest neighbor,KNN)圖,與傳統(tǒng)構(gòu)圖不同的是,這里使用樣本的標(biāo)記空間度量樣本間的相似度,權(quán)值矩陣計(jì)算如下:

        其中,δ>0是指定的高斯函數(shù)帶寬參數(shù),f(xi)是模型對(duì)樣本的預(yù)測(cè)。

        (2)平滑性損失計(jì)算

        給定鄰接矩陣W與樣本特征表達(dá)后,平滑性損失如下:

        其中,h:X →Rp為輸入空間到網(wǎng)絡(luò)倒數(shù)第二層的映射。

        2.3 算法實(shí)現(xiàn)細(xì)節(jié)

        SmoothMatch的整體損失函數(shù)如下:

        其中,wc(t)和ws(t)是隨epoch迭代線性上升的權(quán)值函數(shù)。算法流程如下。

        輸入:有標(biāo)記樣本集合L,無標(biāo)記樣本集合u,隨epoch迭代線性上升的權(quán)值函數(shù)wc(t)和ws(t),模型f(xi;θ),損失平衡項(xiàng)λc與λs,模型迭代次數(shù)numepochs

        輸出:更新后的模型參數(shù)θ

        3 實(shí)驗(yàn)設(shè)計(jì)與分析

        為了測(cè)試SmoothMatch算法的有效性,在3個(gè)圖像數(shù)據(jù)集以及兩個(gè)英文文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),圖像數(shù)據(jù)集分別為CIFAR-10、CIFAR-100和SVHN,文本數(shù)據(jù)集分別為IMDB和Yahoo!Answers。數(shù)據(jù)集介紹見表1。

        表1 數(shù)據(jù)集介紹

        本文數(shù)據(jù)遵循參考文獻(xiàn)[28]的劃分方法,對(duì)于圖像數(shù)據(jù)集,CIFAR-10與CIFAR-100分別包括45 000個(gè)訓(xùn)練樣本、5 000個(gè)驗(yàn)證樣本和10 000個(gè)測(cè)試樣本,SVHN數(shù)據(jù)集包括65 932個(gè)訓(xùn)練樣本、7 325個(gè)驗(yàn)證樣本和26 032個(gè)測(cè)試樣本;對(duì)于文本數(shù)據(jù)集,IMDB數(shù)據(jù)集包括63 000個(gè)訓(xùn)練樣本、7 000個(gè)驗(yàn)證樣本和25 000個(gè)測(cè)試樣本,Yahoo!Answers數(shù)據(jù)集包括45 000個(gè)訓(xùn)練樣本、5 000個(gè)驗(yàn)證樣本和60 000個(gè)測(cè)試樣本。為了測(cè)試算法在半監(jiān)督學(xué)習(xí)環(huán)境下的性能,標(biāo)準(zhǔn)做法是將大部分訓(xùn)練樣本視為無標(biāo)記數(shù)據(jù),只隨機(jī)抽取并使用小部分有標(biāo)記數(shù)據(jù)。

        3.1 基線方法

        對(duì)于圖像數(shù)據(jù)集,對(duì)比Π模型[10]、mean teacher模型[11]、VAT模型[12]、MixMatch算法[9]以及本文的SmoothMatch算法的實(shí)驗(yàn)結(jié)果。為了確保對(duì)比實(shí)驗(yàn)一致,實(shí)驗(yàn)使用Wide ResNet-28模型,模型結(jié)構(gòu)與詳細(xì)說明參照參考文獻(xiàn)[28],學(xué)習(xí)率衰減值為0.999,權(quán)值衰減值為0.02。

        對(duì)于文本數(shù)據(jù)集,對(duì)比Xie Q Z等人[14]提出的一致性算法UDA,以及預(yù)訓(xùn)練的BERT模型[29]。對(duì)于英文文本的數(shù)據(jù)增廣,使用德語作為中間語言的回譯過程,即將一個(gè)英文樣本先翻譯為德語,再翻譯回英文樣本。

        關(guān)于超參數(shù)λc與λs,根據(jù)參考文獻(xiàn)[28]的建議將CIFAR-10、CIFAR-100和SVHN的λc分別固定為75、150和250,并將IMDB和Yahoo!Answers的λc固定為100。各個(gè)數(shù)據(jù)集的λs從集合中遍歷取值,并用驗(yàn)證集交叉驗(yàn)證取得最優(yōu)值。模型的迭代次數(shù)由驗(yàn)證集損失確定,即當(dāng)驗(yàn)證集的損失在一定迭代次數(shù)(本文為50次)內(nèi)變化不大時(shí),停止模型的迭代。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        對(duì)于CIFAR-10和SVHN數(shù)據(jù)集,在250、500和1 000這3個(gè)不同數(shù)量標(biāo)記樣本上評(píng)估5種算法/模型的錯(cuò)誤率,結(jié)果見表2和表3。對(duì)于CIFAR-100數(shù)據(jù)集,使用10 000個(gè)有標(biāo)記樣本對(duì)5種算法模型進(jìn)行實(shí)驗(yàn),結(jié)果見表4。

        表2 5種算法/模型在CIFAR-10數(shù)據(jù)集上不同標(biāo)記樣本數(shù)下的錯(cuò)誤率

        表3 5種算法/模型在SVHN數(shù)據(jù)集上不同標(biāo)記樣本數(shù)下的錯(cuò)誤率

        表4 5種算法/模型在CIFAR-100數(shù)據(jù)集10 000個(gè)標(biāo)記樣本下的錯(cuò)誤率

        由表2~表4可以得到如下結(jié)論。①SmoothMatch算法在3個(gè)圖像數(shù)據(jù)集的各種標(biāo)記樣本數(shù)量下的準(zhǔn)確性優(yōu)于其他方法,例如,在CIFAR-10數(shù)據(jù)集上,在僅有250個(gè)有標(biāo)記樣本下SmoothMatch算法的錯(cuò)誤率為14.40%,而相同條件下的MixMatch算法錯(cuò)誤率為17.60%;在SVHN數(shù)據(jù)集上,當(dāng)有250個(gè)有標(biāo)記樣本時(shí),SmoothMatch明顯優(yōu)于Π模型,這表明了融合一致性正則和流形正則的有效性。②隨著有標(biāo)記樣本數(shù)量的增加,上述幾種方法的錯(cuò)誤率均降低,這是因?yàn)橛袠?biāo)記樣本越多,所提供的監(jiān)督信息越多,分類器能更好地?cái)M合數(shù)據(jù)。特別地,在CIFAR-10數(shù)據(jù)集上,mean teacher模型的錯(cuò)誤率有明顯的降低,這說明該方法對(duì)有標(biāo)記數(shù)據(jù)的依賴性很強(qiáng),而本文所提算法由于可以充分利用數(shù)據(jù)的流形結(jié)構(gòu),能夠使相似(相連)的樣本有相似的輸出,從而降低了對(duì)有標(biāo)記樣本的依賴性,可以在有標(biāo)記樣本較少的情況下達(dá)到不錯(cuò)的效果。

        此外,筆者還驗(yàn)證了SmoothMatch算法在文本分類任務(wù)上的表現(xiàn)。IMDB和Yahoo!Answer數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見表5和表6。

        由表5和表6可以得到,SmoothMatch算法在兩個(gè)文本數(shù)據(jù)集上均優(yōu)于UDA算法和BERT模型。特別地,在IMDB數(shù)據(jù)集上,SmoothMatch算法在有標(biāo)記樣本數(shù)為20時(shí)的錯(cuò)誤率為12.27%,明顯優(yōu)于BERT在有標(biāo)記樣本數(shù)為100時(shí)的結(jié)果,這說明了所提算法的優(yōu)越性。

        表5 3種算法/模型在IMDB數(shù)據(jù)集上不同標(biāo)記樣本數(shù)下的錯(cuò)誤率

        表6 3種算法/模型在Yahoo!Answer數(shù)據(jù)集上不同標(biāo)記樣本數(shù)下的錯(cuò)誤率

        圖像數(shù)據(jù)集和文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,融合一致性正則和流形正則的方法在考慮樣本局部預(yù)測(cè)平滑的同時(shí),充分利用了數(shù)據(jù)的流形結(jié)構(gòu),使得相似的樣本有相似的輸出,提高了模型的泛化性能。

        3.3 參數(shù)分析

        為了進(jìn)一步分析一致性正則和流形正則對(duì)模型的影響,在3個(gè)圖像數(shù)據(jù)集上對(duì)比了SmoothMatch算法在不同λs/λc比值下的錯(cuò)誤率。3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖3所示。

        圖3 3個(gè)圖像數(shù)據(jù)集上SmoothMatch算法在不同 λ s /λc比值下的錯(cuò)誤率

        可以看出,當(dāng)λs/λc為0,即只利用一致性損失優(yōu)化目標(biāo)函數(shù)時(shí),其錯(cuò)誤率均處于較高水平。但隨著平滑性損失權(quán)值λs的提高,錯(cuò)誤率逐漸降低,到λs/λc為0.1時(shí)到達(dá)最優(yōu)。由此可見,平滑性損失的加入使得模型對(duì)同一類樣本的低維表示更集中,相鄰的樣本得到相似的輸出,從而提高了模型的魯棒性。而若繼續(xù)加大sλ,則弱化了模型的一致性正則,使得樣本點(diǎn)局部鄰域的預(yù)測(cè)不平滑,導(dǎo)致錯(cuò)誤率逐漸提高,模型的性能降低。這說明了一致性正則與流形正則的合理結(jié)合確實(shí)能夠提高算法的性能。

        4 結(jié)束語

        本文針對(duì)基于一致性正則的半監(jiān)督深度學(xué)習(xí)算法可能會(huì)使得一部分相近的樣本得到差異很大的輸出,進(jìn)而導(dǎo)致學(xué)習(xí)器性能退化的問題,提出了一種融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法。該算法在對(duì)模型施加一致性約束的同時(shí),對(duì)樣本構(gòu)圖并加入平滑性損失,實(shí)現(xiàn)了每個(gè)樣本點(diǎn)局部鄰域的平滑以及樣本點(diǎn)之間的平滑,從而提高半監(jiān)督學(xué)習(xí)算法的泛化性能。在多個(gè)圖像和文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,融合一致性正則與流形正則的半監(jiān)督深度學(xué)習(xí)算法獲得了更優(yōu)的性能。

        猜你喜歡
        錯(cuò)誤率流形正則
        限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
        緊流形上的Schr?dinger算子的譜間隙估計(jì)
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
        Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
        剩余有限Minimax可解群的4階正則自同構(gòu)
        類似于VNL環(huán)的環(huán)
        正視錯(cuò)誤,尋求策略
        教師·中(2017年3期)2017-04-20 21:49:49
        解析小學(xué)高段學(xué)生英語單詞抄寫作業(yè)錯(cuò)誤原因
        基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
        有限秩的可解群的正則自同構(gòu)
        午夜一区二区三区观看| 亚洲AV无码精品色午夜超碰| 北岛玲精品一区二区三区| 国产成人精品久久二区二区91| 久久久久久久亚洲av无码| 天天爽夜夜爽夜夜爽| 国产精品1区2区| 日韩av一区二区无卡| 国产一区二区三区精品免费av| 55夜色66夜色国产精品视频| 免费人成在线观看播放国产| 精品自拍偷拍一区二区三区| 音影先锋中文字幕在线| 中文字幕天天躁日日躁狠狠躁免费 | 日韩熟女精品一区二区三区视频 | 精品国产3p一区二区三区| 日本精品一区二区三区二人码| 欧美精品人人做人人爱视频| 国产精品丝袜在线不卡| 在线观看国产av一区二区| 欧美又大粗又爽又黄大片视频| 午夜无码国产理论在线| 精品国产福利片在线观看| 蜜桃av在线播放视频| 又色又爽又黄的视频软件app| 少妇人妻真实偷人精品视频| 国产精品亚洲A∨无码遮挡| 日本一区二区免费高清| 久久精品国产亚洲av无码娇色| 欧美激情区| 亚洲精品女同在线观看| 无码av天天av天天爽| 国产乱人伦精品一区二区| 麻豆国产成人AV网| 人妻精品人妻一区二区三区四区| 国产精品无码aⅴ嫩草| 99久久综合精品五月天| 一区二区三区黄色一级片| 国产精品免费观看调教网| 88国产精品视频一区二区三区| 国产在线观看精品一区二区三区 |