亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于配對(duì)排序損失的文本多標(biāo)簽學(xué)習(xí)算法

        2020-10-21 00:57:58顧天飛彭敦陸
        關(guān)鍵詞:排序標(biāo)簽損失

        顧天飛,彭敦陸

        (上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海200093)

        1 引 言

        文本分類是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)重要任務(wù),是構(gòu)建信息檢索、對(duì)話機(jī)器人等復(fù)雜系統(tǒng)的基礎(chǔ).多分類假設(shè)類別之間是互斥的,即一篇文檔有且只能歸屬于單個(gè)類別.而事實(shí)上,對(duì)象是多語(yǔ)義的,比如一篇新聞能同時(shí)標(biāo)注上“體育”和“足球”標(biāo)簽.所以,多標(biāo)簽更適合用來(lái)對(duì)現(xiàn)實(shí)問(wèn)題進(jìn)行建模,并有其實(shí)際的應(yīng)用背景和學(xué)術(shù)價(jià)值.

        多標(biāo)簽學(xué)習(xí)存在多標(biāo)簽分類和標(biāo)簽排序兩類任務(wù)[11],前者將標(biāo)簽集劃分為與樣本相關(guān)和不相關(guān)兩部分,后者則預(yù)測(cè)標(biāo)簽之間的前后關(guān)系.上述兩項(xiàng)任務(wù)存在共通性,多標(biāo)簽分類和標(biāo)簽排序之間是可以相互轉(zhuǎn)換的,文獻(xiàn)引入校準(zhǔn)標(biāo)簽對(duì)排序的標(biāo)簽進(jìn)行劃分[14],而采用判別模型完成多標(biāo)簽分類時(shí),樣本對(duì)標(biāo)簽的后驗(yàn)概率天然具有可排序性[5].故而,學(xué)界和業(yè)界開(kāi)始嘗試將兩項(xiàng)任務(wù)聯(lián)合起來(lái)進(jìn)行解決,并運(yùn)用于不同的應(yīng)用領(lǐng)域[6,9,16].大體上,這類方法基于以下思想,得分較高的標(biāo)簽更能體現(xiàn)樣本的語(yǔ)義,模型應(yīng)使正標(biāo)簽集排在負(fù)標(biāo)簽集之前,這樣篩選出來(lái)的標(biāo)簽也更加精準(zhǔn)[16],從這一角度看,標(biāo)簽排序考慮到了標(biāo)簽的相對(duì)關(guān)系.

        對(duì)于文本處理,過(guò)去的研究普遍采用文本特征手工提取的方式[19,20].得益于深度學(xué)習(xí)的發(fā)展,端到端的深度表征模型已成為當(dāng)今的主流[1-5,7,8,15].與此同時(shí),深度模型的性能受到標(biāo)注數(shù)據(jù)缺失和語(yǔ)義提取不足的限制.為此,本研究引入遷移學(xué)習(xí),將BERT[1]作為模型的特征提取部分,將多標(biāo)簽分類和排序共同納入考慮,利用標(biāo)簽之間的相對(duì)關(guān)系來(lái)增強(qiáng)多標(biāo)簽預(yù)測(cè)的有效性.文獻(xiàn)普遍采用錯(cuò)誤排序統(tǒng)計(jì)[10]和鉸鏈損失[9]刻畫(huà)多標(biāo)簽排序誤差,但這些損失函數(shù)通常難以優(yōu)化,尤其在深度模型的背景下.故本文采用一種替代的配對(duì)排序損失,該損失函數(shù)在實(shí)數(shù)域上可微,同時(shí)也是鉸鏈損失的邊界.此外,為了更準(zhǔn)確地獲得文本實(shí)例對(duì)應(yīng)的標(biāo)簽集,標(biāo)簽的篩選被看作為一項(xiàng)二值分類,用一個(gè)輔助網(wǎng)絡(luò)構(gòu)建篩選標(biāo)簽的閾值.

        本文的貢獻(xiàn)如下:1)將遷移模型BERT運(yùn)用于文本多標(biāo)簽學(xué)習(xí);2)提出配對(duì)排序目標(biāo)函數(shù)對(duì)標(biāo)簽排序任務(wù)進(jìn)行建模,并給出了相應(yīng)的理論分析.最后,為了決斷出精準(zhǔn)的標(biāo)簽集,算法引入額外的輔助網(wǎng)絡(luò)進(jìn)行閾值預(yù)測(cè).

        2 相關(guān)工作

        一般地,解決多標(biāo)簽任務(wù)存在兩類思路,問(wèn)題轉(zhuǎn)換和算法適應(yīng)[11].前者將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為二值分類[11]、多分類[12]或標(biāo)簽排序[14],后者則修改現(xiàn)有的學(xué)習(xí)算法以適應(yīng)多標(biāo)簽領(lǐng)域[13].上述技術(shù)主要集中于傳統(tǒng)機(jī)器學(xué)習(xí),往往存在嚴(yán)重的性能瓶頸,計(jì)算規(guī)模和標(biāo)簽空間呈正比[10-14].如今,神經(jīng)網(wǎng)絡(luò)在模式識(shí)別領(lǐng)域獲得了巨大的成功,其中很大一部分運(yùn)用到了多標(biāo)簽學(xué)習(xí)中[3,5-9].

        傳統(tǒng)的文本分類算法受限于語(yǔ)義和句法信息提取能力的不足,深度模型已經(jīng)成為了該領(lǐng)域的主流.文獻(xiàn)[15]率先采用詞向量word2vec[17]進(jìn)行詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,獲得了顯著的性能提升.該模型奠定了深度文本分類的一種范式,即模型一般由詞嵌入層、銜接模型和分類器三部分組成.如何通過(guò)海量的語(yǔ)料庫(kù)無(wú)監(jiān)督學(xué)習(xí)到詞的表示是一項(xiàng)熱門(mén)研究,Word2vec[17]通過(guò)對(duì)詞語(yǔ)上下文和語(yǔ)義關(guān)系進(jìn)行建模,將詞語(yǔ)嵌入到稠密的歐式空間中.BERT[1]由多層Transformer[4]構(gòu)建而成,能解析出更深層的語(yǔ)義,并能適用于各項(xiàng)下游任務(wù).

        文本多標(biāo)簽學(xué)習(xí)需要考慮到兩方面,文本信息的提取和標(biāo)簽之間的相關(guān)性,現(xiàn)有的研究基本上是圍繞這兩方面展開(kāi)的.一部分研究構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的模型[5,7,8],文獻(xiàn)[3]采用了二值交叉損失對(duì)多標(biāo)簽進(jìn)行建模,文獻(xiàn)[8]引入指示神經(jīng)元對(duì)標(biāo)簽共現(xiàn)進(jìn)行建模,以利用標(biāo)簽的信息,文獻(xiàn)[5]將標(biāo)簽預(yù)測(cè)看作為序列生成,引入循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建標(biāo)簽之間的關(guān)系.文本序列的各個(gè)位置對(duì)標(biāo)簽的影響是不同的,SGM[3]利用注意力機(jī)制加強(qiáng)模型的關(guān)注性.

        排序?qū)W習(xí)的目的是通過(guò)機(jī)器學(xué)習(xí)算法對(duì)項(xiàng)目進(jìn)行排序,在信息檢索、推薦系統(tǒng)中運(yùn)用極為廣泛.多標(biāo)簽學(xué)習(xí)存在以下假設(shè),與樣本相關(guān)的標(biāo)簽在排序上高于不相關(guān)的標(biāo)簽,所以排序任務(wù)能很好的刻畫(huà)這種標(biāo)簽關(guān)系.文獻(xiàn)[16]最早將文本多標(biāo)簽分類看作為一項(xiàng)排序任務(wù),并利用配對(duì)排序損失刻畫(huà)誤差,但文獻(xiàn)僅在多層感知機(jī)模型上驗(yàn)證了損失函數(shù)的有效性.配對(duì)排序損失也可以應(yīng)用于圖像檢測(cè)領(lǐng)域[6,9],但研究中普遍采用的鉸鏈損失存在訓(xùn)練困難的問(wèn)題.為了彌補(bǔ)上述缺點(diǎn),本研究在深度文本多標(biāo)簽學(xué)習(xí)背景下,嘗試了語(yǔ)言模型的遷移學(xué)習(xí),并著重了探討了配對(duì)損失的使用.

        3 本文工作

        本章將首先給出問(wèn)題的定義,然后提出結(jié)合BERT的文本特征提取模型,最后給出配對(duì)排序和標(biāo)簽閾值預(yù)測(cè)的設(shè)計(jì),以及相關(guān)的目標(biāo)函數(shù).

        3.1 問(wèn)題描述

        定義1.多標(biāo)簽排序任務(wù),給定樣本x,若s*為理想的映射函數(shù),則需滿足以下性質(zhì):

        (1)

        3.2 多標(biāo)簽文本學(xué)習(xí)模型

        在深度自然語(yǔ)言處理中,一個(gè)端到端模型一般由以下幾個(gè)步驟組成,首先將原始文本序列嵌入至稠密的表征詞嵌入h1,h2,…,hl,其次通過(guò)銜接模型將詞嵌入序列轉(zhuǎn)化為定長(zhǎng)的表征向量,最終輸入到文本分類器中.對(duì)詞嵌入表征的研究和應(yīng)用向來(lái)受到學(xué)界和業(yè)界的廣泛關(guān)注,通過(guò)預(yù)訓(xùn)練詞向量使詞嵌入涵蓋語(yǔ)義和語(yǔ)法信息.然而,類似于Word2vec詞向量模型存在無(wú)法解析一詞多義,上下文信息缺失等缺點(diǎn),往往對(duì)性能的提升并不明顯.BERT作為一種語(yǔ)言遷移模型,可以較好地彌補(bǔ)上述缺陷.

        在詞嵌入階段,bert(·)將原始文本序列x中的每個(gè)元素映射到固定尺寸的嵌入,映射方式如下:

        h1,h2,…,hl=bert(w1,w2,…,wl)

        (2)

        這里,h∈d,d>L的維度由bert(·)決定.銜接模型用于對(duì)嵌入進(jìn)行整合,文獻(xiàn)中,通常會(huì)壘砌大量模型[5,15],對(duì)于這一環(huán)節(jié)本研究不做過(guò)多地復(fù)雜化,采用均值操作mean(·)將嵌入序列轉(zhuǎn)化為d維的特征向量f:

        (3)

        接下來(lái),考慮標(biāo)簽相關(guān)性得分的建模,由d維特征向量向L維向量映射,形式化為:

        s=relu(Wsf+bs)

        (4)

        其中,Ws∈L×d為權(quán)重矩陣,bs∈L為偏置向量.式(4)中的relu(·)為神經(jīng)網(wǎng)絡(luò)的激活函數(shù).至此,對(duì)某個(gè)輸入樣本x,便能得到模型對(duì)各個(gè)類別的打分s,即為類別對(duì)樣本的相關(guān)性.多標(biāo)簽和多類別分類在判決函數(shù)上存在一定差異.多類別假設(shè)類別之間是相互獨(dú)立的,故而往往取得分最大的類別作為輸出標(biāo)簽.在多標(biāo)簽分類中,每個(gè)實(shí)例對(duì)應(yīng)的標(biāo)簽數(shù)是不同的.簡(jiǎn)單的做法是取前k最大得分或設(shè)置全局閾值(將得分大于某一閾值的標(biāo)簽篩選出來(lái)),這些方法會(huì)造成額外的預(yù)測(cè)誤差.本研究將采取一種更靈活的做法,即讓g(·)作為一項(xiàng)可學(xué)習(xí)的函數(shù),為每個(gè)標(biāo)簽自動(dòng)地學(xué)習(xí)得到適應(yīng)于樣本特征f的閾值.閾值建模類似于標(biāo)簽相關(guān)性得分模型:

        θ=relu(Wthrf+bthr)

        (5)

        模型的預(yù)測(cè)同時(shí)依賴于式(4)和式(5):

        (6)

        上式中,si,k表示樣本與標(biāo)簽的相關(guān)性得分si的第k分量,θi,k表示閾值的第k分量.圖1為模型的整體框架.

        3.3 多標(biāo)簽配對(duì)排序損失

        上節(jié)介紹了結(jié)合語(yǔ)言遷移模型的多標(biāo)簽分類模型,本節(jié)將引出如何對(duì)模型參數(shù)進(jìn)行優(yōu)化.形式上,需要解決如下優(yōu)化問(wèn)題:

        (7)

        這里,l為每個(gè)樣本上的損失項(xiàng),R為模型參數(shù)的正則項(xiàng),Φs=[Ws,bs]為標(biāo)簽相關(guān)性得分模型的參數(shù).在訓(xùn)練式(7)時(shí),解凍bert,對(duì)其進(jìn)行參數(shù)微調(diào).由定義1可得,屬于Y的標(biāo)簽得分需盡可能地大,反之亦然.借鑒三元損失,易對(duì)損失進(jìn)行建模:

        圖1 算法框架Fig.1 Architecture of algorithm

        (8)

        式(8)采用了鉸鏈損失,α是一項(xiàng)超參數(shù),用來(lái)設(shè)定相關(guān)與不相關(guān)標(biāo)簽之間的邊界.該損失函數(shù)是非光滑的,在x=0處不可微,從而造成了優(yōu)化的困難.為解決上述問(wèn)題,本研究考慮引入替代損失:

        (9)

        圖2 損失函數(shù)ls的性質(zhì)Fig.2 Property of loss function ls

        上式中,β是常系數(shù).替代損失式(9)是式(8)光滑的近似.由圖2中實(shí)線可見(jiàn),該損失函數(shù)為實(shí)數(shù)域上處處可微的凸函數(shù),在+上為鉸鏈損失的邊界,當(dāng)且僅當(dāng),β=ea-1.此外,β值越小,則實(shí)線越接近y=0.章節(jié)4給出了相應(yīng)的梯度求解,并且從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測(cè)角度進(jìn)行理論分析.

        (10)

        3.4 閾值模型損失

        式(5)為閾值回歸模型,根據(jù)樣本特征為每個(gè)標(biāo)簽學(xué)習(xí)篩選閾值θ,并通過(guò)式(6)得到最終的預(yù)測(cè)標(biāo)簽集.對(duì)某個(gè)標(biāo)簽來(lái)說(shuō),預(yù)測(cè)可以轉(zhuǎn)換為一項(xiàng)二值問(wèn)題,得分大于閾值為正樣本,反之作為負(fù)樣本.于是,閾值參數(shù)的目標(biāo)函數(shù)可以寫(xiě)成以下形式:

        (11)

        4 理論分析

        本章首先對(duì)優(yōu)化目標(biāo)函數(shù)進(jìn)行梯度計(jì)算,考慮式(10)對(duì)sm和sn的梯度為:

        (12)

        (13)

        整合式(12)和式(13)可以得到:

        (14)

        這里,ξn,m為L(zhǎng)維向量,其中第n項(xiàng)為+1,第m項(xiàng)為-1,其余項(xiàng)為0,以上計(jì)算結(jié)果說(shuō)明說(shuō)明了目標(biāo)函數(shù)在實(shí)數(shù)域上式處處可微的.文獻(xiàn)[18]從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測(cè)角度,證明了排序統(tǒng)計(jì)的有效性.相同地,對(duì)損失函數(shù)式(9)進(jìn)行理論分析,式(10)作為簡(jiǎn)化版本同理可得.考慮貝葉斯預(yù)測(cè)準(zhǔn)則:

        sk(x)=p(k∈Y|x)=∑Y∈y,k∈Yp(Y|x)

        (15)

        上式?jīng)Q定了標(biāo)簽λk的得分即相應(yīng)的排序,p(k∈Y|x)為標(biāo)簽域中所有可能的標(biāo)簽集的邊際分布.

        定理1.采用損失函數(shù)式(9)能達(dá)到經(jīng)驗(yàn)損失最小化.

        證明:考慮損失函數(shù)經(jīng)驗(yàn)誤差最小化:

        R(s)=[ls(s(x),Y)]

        (16)

        將式(16)改寫(xiě)成條件經(jīng)驗(yàn)損失的形式:

        R(s|x)=[ls(s(x),Y)|x]

        (17)

        這里,γm,n=ln (1+esTξm,n).現(xiàn)需找到使經(jīng)驗(yàn)損失最小化的得分函數(shù)s*,即盡可能滿足定義1.計(jì)算式(17)的一階和二階導(dǎo):

        (18)

        (19)

        (20)

        (21)

        替換式(21)中的(n,m),得到:

        (22)

        (23)

        (24)

        式(24)易得p(m∈Y|x)>p(n∈Y|x),基本滿足貝葉斯預(yù)測(cè)準(zhǔn)則.綜上,以式(9)作為排序損失,能達(dá)到經(jīng)驗(yàn)損失最小化.

        5 實(shí)驗(yàn)評(píng)估

        本章節(jié)將在真實(shí)的中文文本數(shù)據(jù)集上驗(yàn)證本文所提算法的性能,實(shí)驗(yàn)首先對(duì)比了不同的標(biāo)簽決斷方法和損失函數(shù)的表現(xiàn),最后與一些主流的方法進(jìn)行比較.

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        本實(shí)驗(yàn)選用了法研杯比賽CAIL2018(1)https://github.com/thunlp/CAIL罪名預(yù)測(cè)任務(wù),來(lái)進(jìn)行算法驗(yàn)證.為減少訓(xùn)練時(shí)間,選取了187100份樣本,并根據(jù)8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集,測(cè)試集和驗(yàn)證集.多標(biāo)簽數(shù)據(jù)集存在額外的性質(zhì),表1給出相關(guān)的信息.在文獻(xiàn)中,Card和Dens分別表示樣本所屬標(biāo)簽平均數(shù)量和標(biāo)簽密度.標(biāo)簽集數(shù)量較大說(shuō)明存在大量標(biāo)簽共現(xiàn)的情況,如何利用上標(biāo)簽的關(guān)系顯得額外重要.

        表1 多標(biāo)簽信息Table 1 Data set information

        5.2 實(shí)驗(yàn)設(shè)置

        1)實(shí)驗(yàn)平臺(tái):本研究中所有的代碼都由Python編寫(xiě),模型基于Tensorflow搭建.采用哈工大提供的BERT(2)https://github.com/ymcui/Chinese-BERT-wwm預(yù)訓(xùn)練模型,該版本在海量的中文語(yǔ)料庫(kù)上完成訓(xùn)練,并在各項(xiàng)中文任務(wù)驗(yàn)證了其有效性.設(shè)備系統(tǒng)為Ubuntu16.04,配備兩塊NVIDIA GeForce 1080Ti顯卡,內(nèi)存為64G.

        2)數(shù)據(jù)預(yù)處理:原始文本數(shù)據(jù)已經(jīng)做了脫敏處理,本實(shí)驗(yàn)將作進(jìn)一步地優(yōu)化,去除了文檔中的特殊符號(hào),西文字符等.由于文書(shū)是存在格式的,其中有些子句實(shí)際上是無(wú)用的,比如“人民檢察院指控”,“公訴機(jī)關(guān)指控”或者文書(shū)審理日期等,實(shí)驗(yàn)中將上述字符串從文檔中剔除.為處理數(shù)據(jù)集存在的多標(biāo)簽不平衡問(wèn)題,這里首先按照50:50的比例將標(biāo)簽集劃分為多數(shù)類和少數(shù)類,并對(duì)少數(shù)類進(jìn)行上采樣處理.

        3)實(shí)驗(yàn)參數(shù)設(shè)置:第一階段對(duì)標(biāo)簽得分模型進(jìn)行優(yōu)化,該階段解凍bert的參數(shù),做參數(shù)微調(diào).第二階段凍結(jié)bert,僅對(duì)閾值模型進(jìn)行優(yōu)化.兩個(gè)階段皆采用ADAM優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001.BERT模型輸入序列的尺寸上存在限制,最大輸入為512,訓(xùn)練中將長(zhǎng)文本按200字符為單位進(jìn)行分割,模型預(yù)測(cè)過(guò)程中,將由各個(gè)劃分的特征均值作為完整文本的特征.式(10)配對(duì)子采樣的數(shù)量為120.由式(14)可知,超參數(shù)β是一項(xiàng)平滑參數(shù),對(duì)梯度的尺度和訓(xùn)練的收斂性存在一定影響,與學(xué)習(xí)率的功能是相似的.β過(guò)大會(huì)使損失函數(shù)趨向于線性,過(guò)小則趨向于為零,在超參數(shù)調(diào)優(yōu)過(guò)程中,嘗試了區(qū)間0.1至2都能使訓(xùn)練收斂,故方便起見(jiàn)這里設(shè)置為1.

        4)評(píng)價(jià)指標(biāo):本研究同時(shí)考慮到了多標(biāo)簽的分類和排序兩方面,所以實(shí)驗(yàn)也將從這兩方面對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估.下面所闡述的評(píng)價(jià)指標(biāo)都參考自文獻(xiàn)[11],采用宏觀和微觀F1得分衡量分類性能:

        (25)

        (26)

        這里,eval=2·prec·recall/(prec+recall)為F1得分,用于調(diào)和準(zhǔn)確率prec=TP/(TP+FP),召回率recall=TP/(TP+FN).在以上式子中,TP表示為真正樣本,F(xiàn)P為假正樣本,TN為真負(fù)樣本,F(xiàn)N為假負(fù)樣本.用排序誤差衡量排序性能:

        RankL=

        (27)

        排序損失RankL統(tǒng)計(jì)預(yù)測(cè)結(jié)果中的對(duì)誤排標(biāo)簽對(duì),數(shù)值越小越好.

        5.3 實(shí)驗(yàn)結(jié)果分析

        本章節(jié)將通過(guò)實(shí)驗(yàn)評(píng)估本文所提算法的有效性.

        實(shí)驗(yàn)1.不同標(biāo)簽決斷方法

        在章節(jié)3.2中提到了其它兩種標(biāo)簽決斷方法,Top-k和全局閾值,在使用中,k值取1、3和5,閾值從0.05-0.95按照0.01為間隔,表2展示測(cè)試集上最優(yōu)得分.值得注意的是,本文提出的得分模型其輸出是映射到實(shí)數(shù)域上的,所以通過(guò)sigmoid將其約束到概率空間中.相對(duì)來(lái)說(shuō),宏觀和微觀指標(biāo)衡量了模型的整體分類性能,對(duì)標(biāo)簽的誤選較為敏感,Top-k和全局閾值是靜態(tài)的刷選策略,而沒(méi)有考慮到了樣本特征本身所攜帶的信息,從而造成得分上的下滑.并且,在使用這些算法的時(shí)候往往會(huì)遇到超參的優(yōu)化問(wèn)題.表2中的結(jié)果說(shuō)明在多標(biāo)簽領(lǐng)域,標(biāo)簽決斷對(duì)最終預(yù)測(cè)結(jié)果的影響非常大.相比于全局閾值,閾值預(yù)測(cè)方法在分類指標(biāo)上能提供2%的提升,排序指標(biāo)上也是表現(xiàn)最優(yōu)的.

        表2 標(biāo)簽決斷技術(shù)的對(duì)比Table 2 Comparison of label decision

        實(shí)驗(yàn)2.不同訓(xùn)練方式

        本實(shí)驗(yàn)將配對(duì)排序損失和其它幾種目標(biāo)函數(shù)進(jìn)行比較:

        1)二值交叉損失[5](BCE):

        (28)

        BCE相當(dāng)于標(biāo)簽轉(zhuǎn)換,類似于參數(shù)共享的二值分類模型;

        2)鉸鏈損失式(8);

        3)BP-MLL[8]基于指數(shù)損失.為了確保方法之間的可對(duì)比性,實(shí)驗(yàn)采用同一套數(shù)據(jù)預(yù)處理技術(shù),并且默認(rèn)采用閾值預(yù)測(cè)技術(shù).表3展示了各種訓(xùn)練方式之間的性能對(duì)比.可以看到BCE在微觀指標(biāo)上的表現(xiàn)略微占有,但在其余指標(biāo)上,文本的算法存在競(jìng)爭(zhēng)性的優(yōu)勢(shì).這是由于BCE注重整體的分類誤差,配對(duì)排序損失則考慮錯(cuò)誤的排序?qū)?宏觀指標(biāo)是標(biāo)簽F1得分的平均,本文的算法在MacroF1上的優(yōu)勢(shì)也體現(xiàn)了數(shù)據(jù)不平衡對(duì)配對(duì)排序損失的影響較低.

        表3 訓(xùn)練方式之間的對(duì)比Table 3 Comparison of training approaches

        實(shí)驗(yàn)3.不同模型進(jìn)行對(duì)比

        前兩項(xiàng)實(shí)驗(yàn)分別從標(biāo)簽決斷和訓(xùn)練方式做了對(duì)比,本實(shí)驗(yàn)將選取一些常用的多標(biāo)簽算法進(jìn)行完整的對(duì)比:

        1)二值相關(guān)BR[11]為每個(gè)標(biāo)簽訓(xùn)練一個(gè)SVM分類器;

        2)ML-KNN[13]將KNN拓展到多標(biāo)簽領(lǐng)域,是一種惰性學(xué)習(xí)器;

        3)卷積神經(jīng)網(wǎng)絡(luò)CNN[5]是最常用的深度文本模型;

        4)CNN-RNN[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)簽之間的關(guān)系進(jìn)行建模.

        接下來(lái)將對(duì)上述算法的執(zhí)行流程做一定闡述,對(duì)于詞級(jí)模型,首先中文文書(shū)進(jìn)行分詞,算法1)2)采用TF-IDF算法進(jìn)行特征提取,算法3)4)則將詞嵌入至定長(zhǎng)向量.

        表4 不同算法性能對(duì)比Table 4 Performance comparison of different algorithms

        表4展示了在全數(shù)據(jù)上,不同算法之間的性能比較.圖3展示了在不同比例數(shù)據(jù)集上的分類性能.實(shí)驗(yàn)結(jié)果顯示,隨著數(shù)據(jù)規(guī)模的增大,深度學(xué)習(xí)算法能獲得更好的表現(xiàn).相比于另兩種深度模型CNN和CNN-RNN,本文提出的算法的整體性能都較優(yōu).這是由于研究在文本特征提取和標(biāo)簽決斷上都做了考慮.遷移的BERT模型能提供數(shù)據(jù)集之外的語(yǔ)義知識(shí)并且具有更多的參數(shù)量,由圖3可見(jiàn),模型表現(xiàn)受到數(shù)據(jù)集尺寸的波動(dòng)較小.配對(duì)排序損失能鋪?zhàn)降綐?biāo)簽之間的排序關(guān)系,使相關(guān)度較高的標(biāo)簽?zāi)塬@得更大的得分,同時(shí),自適應(yīng)的標(biāo)簽閾值學(xué)習(xí)能幫助算法得到更精準(zhǔn)的預(yù)測(cè)結(jié)果.

        圖3 不同比例數(shù)據(jù)集上的對(duì)比Fig.3 Comparison with different dataset proportion

        6 總 結(jié)

        多標(biāo)簽文本學(xué)習(xí)能幫助用戶對(duì)文檔進(jìn)行有效管理,加強(qiáng)多媒體系統(tǒng)的可用性.傳統(tǒng)的,基于機(jī)器學(xué)習(xí)的算法受限于特征提取和模型容量,存在嚴(yán)重性能瓶頸.本文提出的算法利用中文BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)文書(shū)進(jìn)行特征提取,模型架構(gòu)上更精煉且高.算法選用配對(duì)排序損失作為目標(biāo)函數(shù),以鋪?zhàn)降綐?biāo)簽之間的關(guān)系.此外,為了更精準(zhǔn)地得到結(jié)果,引入輔助的閾值預(yù)測(cè)模型,對(duì)標(biāo)簽預(yù)測(cè)進(jìn)行建模.實(shí)驗(yàn)在法條預(yù)測(cè)和罪名推薦兩項(xiàng)任務(wù)上驗(yàn)證了算法的有效性.作為自然語(yǔ)言處理的一項(xiàng)子任務(wù),BERT對(duì)多標(biāo)簽文本分類也是適用的,將閾值預(yù)測(cè)看作一項(xiàng)學(xué)習(xí)任務(wù),相比Top-k和全局閾值,在測(cè)試集上表現(xiàn)更優(yōu)異.未來(lái)我們將在更多的多標(biāo)簽數(shù)據(jù)集上對(duì)算法進(jìn)行驗(yàn)證,并將對(duì)標(biāo)簽之間的相關(guān)性做進(jìn)一步探討.

        猜你喜歡
        排序標(biāo)簽損失
        少問(wèn)一句,損失千金
        排序不等式
        胖胖損失了多少元
        恐怖排序
        節(jié)日排序
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        標(biāo)簽化傷害了誰(shuí)
        99热精品成人免费观看| 手机在线观看免费av网站| 久久亚洲中文字幕精品一区| 真人新婚之夜破苞第一次视频| 中文字幕天堂网| 亚洲中文字幕永久网站| 久久黄色国产精品一区视频| 真实国产老熟女无套中出| 一个人看的www免费视频中文| 香蕉久久夜色精品国产| 99久久婷婷国产精品综合| 国产精品538一区二区在线| 欧美极品少妇性运交| 国产杨幂AV在线播放| 人妖一区二区三区在线| 国产精品永久免费| 五月婷一本到五月天| 日韩人妖一区二区三区| 99噜噜噜在线播放| 成人无码免费一区二区三区| 人妻精品一区二区三区视频| 国产精品女同av在线观看 | 国产成人精品午夜视频| 国产特级全黄一级毛片不卡| 久久国产精品av在线观看| 日本强伦姧人妻一区二区| 97se亚洲精品一区| 国产人成无码视频在线1000| 亚洲中文字幕乱码一二三| 国产精品免费_区二区三区观看| 国产白丝在线| 国产自拍在线视频观看| 疯狂三人交性欧美| 日韩一线无码av毛片免费| 日本熟妇高潮爽视频在线观看| 国产精品黑丝美女啪啪啪| 午夜男女爽爽爽在线视频| 国产高清天干天天视频| 久久精品国产亚洲av不卡国产| 成人免费777777被爆出| 亚洲欧美日韩中文字幕网址|