亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于配對(duì)排序損失的文本多標(biāo)簽學(xué)習(xí)算法

2020-10-21 00:57:58顧天飛彭敦陸

小型微型計(jì)算機(jī)系統(tǒng) 2020年10期

顧天飛，彭敦陸

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海200093)

1 引言

文本分類是自然語(yǔ)言處理領(lǐng)域中的一項(xiàng)重要任務(wù)，是構(gòu)建信息檢索、對(duì)話機(jī)器人等復(fù)雜系統(tǒng)的基礎(chǔ).多分類假設(shè)類別之間是互斥的，即一篇文檔有且只能歸屬于單個(gè)類別.而事實(shí)上，對(duì)象是多語(yǔ)義的，比如一篇新聞能同時(shí)標(biāo)注上“體育”和“足球”標(biāo)簽.所以，多標(biāo)簽更適合用來(lái)對(duì)現(xiàn)實(shí)問(wèn)題進(jìn)行建模，并有其實(shí)際的應(yīng)用背景和學(xué)術(shù)價(jià)值.

多標(biāo)簽學(xué)習(xí)存在多標(biāo)簽分類和標(biāo)簽排序兩類任務(wù)[11]，前者將標(biāo)簽集劃分為與樣本相關(guān)和不相關(guān)兩部分，后者則預(yù)測(cè)標(biāo)簽之間的前后關(guān)系.上述兩項(xiàng)任務(wù)存在共通性，多標(biāo)簽分類和標(biāo)簽排序之間是可以相互轉(zhuǎn)換的，文獻(xiàn)引入校準(zhǔn)標(biāo)簽對(duì)排序的標(biāo)簽進(jìn)行劃分[14]，而采用判別模型完成多標(biāo)簽分類時(shí)，樣本對(duì)標(biāo)簽的后驗(yàn)概率天然具有可排序性[5].故而，學(xué)界和業(yè)界開(kāi)始嘗試將兩項(xiàng)任務(wù)聯(lián)合起來(lái)進(jìn)行解決，并運(yùn)用于不同的應(yīng)用領(lǐng)域[6，9，16].大體上，這類方法基于以下思想，得分較高的標(biāo)簽更能體現(xiàn)樣本的語(yǔ)義，模型應(yīng)使正標(biāo)簽集排在負(fù)標(biāo)簽集之前，這樣篩選出來(lái)的標(biāo)簽也更加精準(zhǔn)[16]，從這一角度看，標(biāo)簽排序考慮到了標(biāo)簽的相對(duì)關(guān)系.

對(duì)于文本處理，過(guò)去的研究普遍采用文本特征手工提取的方式[19，20].得益于深度學(xué)習(xí)的發(fā)展，端到端的深度表征模型已成為當(dāng)今的主流[1-5，7，8，15].與此同時(shí)，深度模型的性能受到標(biāo)注數(shù)據(jù)缺失和語(yǔ)義提取不足的限制.為此，本研究引入遷移學(xué)習(xí)，將BERT[1]作為模型的特征提取部分，將多標(biāo)簽分類和排序共同納入考慮，利用標(biāo)簽之間的相對(duì)關(guān)系來(lái)增強(qiáng)多標(biāo)簽預(yù)測(cè)的有效性.文獻(xiàn)普遍采用錯(cuò)誤排序統(tǒng)計(jì)[10]和鉸鏈損失[9]刻畫(huà)多標(biāo)簽排序誤差，但這些損失函數(shù)通常難以優(yōu)化，尤其在深度模型的背景下.故本文采用一種替代的配對(duì)排序損失，該損失函數(shù)在實(shí)數(shù)域上可微，同時(shí)也是鉸鏈損失的邊界.此外，為了更準(zhǔn)確地獲得文本實(shí)例對(duì)應(yīng)的標(biāo)簽集，標(biāo)簽的篩選被看作為一項(xiàng)二值分類，用一個(gè)輔助網(wǎng)絡(luò)構(gòu)建篩選標(biāo)簽的閾值.

本文的貢獻(xiàn)如下：1)將遷移模型BERT運(yùn)用于文本多標(biāo)簽學(xué)習(xí)；2)提出配對(duì)排序目標(biāo)函數(shù)對(duì)標(biāo)簽排序任務(wù)進(jìn)行建模，并給出了相應(yīng)的理論分析.最后，為了決斷出精準(zhǔn)的標(biāo)簽集，算法引入額外的輔助網(wǎng)絡(luò)進(jìn)行閾值預(yù)測(cè).

2 相關(guān)工作

一般地，解決多標(biāo)簽任務(wù)存在兩類思路，問(wèn)題轉(zhuǎn)換和算法適應(yīng)[11].前者將多標(biāo)簽學(xué)習(xí)轉(zhuǎn)化為二值分類[11]、多分類[12]或標(biāo)簽排序[14]，后者則修改現(xiàn)有的學(xué)習(xí)算法以適應(yīng)多標(biāo)簽領(lǐng)域[13].上述技術(shù)主要集中于傳統(tǒng)機(jī)器學(xué)習(xí)，往往存在嚴(yán)重的性能瓶頸，計(jì)算規(guī)模和標(biāo)簽空間呈正比[10-14].如今，神經(jīng)網(wǎng)絡(luò)在模式識(shí)別領(lǐng)域獲得了巨大的成功，其中很大一部分運(yùn)用到了多標(biāo)簽學(xué)習(xí)中[3，5-9].

傳統(tǒng)的文本分類算法受限于語(yǔ)義和句法信息提取能力的不足，深度模型已經(jīng)成為了該領(lǐng)域的主流.文獻(xiàn)[15]率先采用詞向量word2vec[17]進(jìn)行詞嵌入和卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器，獲得了顯著的性能提升.該模型奠定了深度文本分類的一種范式，即模型一般由詞嵌入層、銜接模型和分類器三部分組成.如何通過(guò)海量的語(yǔ)料庫(kù)無(wú)監(jiān)督學(xué)習(xí)到詞的表示是一項(xiàng)熱門(mén)研究，Word2vec[17]通過(guò)對(duì)詞語(yǔ)上下文和語(yǔ)義關(guān)系進(jìn)行建模，將詞語(yǔ)嵌入到稠密的歐式空間中.BERT[1]由多層Transformer[4]構(gòu)建而成，能解析出更深層的語(yǔ)義，并能適用于各項(xiàng)下游任務(wù).

文本多標(biāo)簽學(xué)習(xí)需要考慮到兩方面，文本信息的提取和標(biāo)簽之間的相關(guān)性，現(xiàn)有的研究基本上是圍繞這兩方面展開(kāi)的.一部分研究構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)的模型[5，7，8]，文獻(xiàn)[3]采用了二值交叉損失對(duì)多標(biāo)簽進(jìn)行建模，文獻(xiàn)[8]引入指示神經(jīng)元對(duì)標(biāo)簽共現(xiàn)進(jìn)行建模，以利用標(biāo)簽的信息，文獻(xiàn)[5]將標(biāo)簽預(yù)測(cè)看作為序列生成，引入循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建標(biāo)簽之間的關(guān)系.文本序列的各個(gè)位置對(duì)標(biāo)簽的影響是不同的，SGM[3]利用注意力機(jī)制加強(qiáng)模型的關(guān)注性.

排序?qū)W習(xí)的目的是通過(guò)機(jī)器學(xué)習(xí)算法對(duì)項(xiàng)目進(jìn)行排序，在信息檢索、推薦系統(tǒng)中運(yùn)用極為廣泛.多標(biāo)簽學(xué)習(xí)存在以下假設(shè)，與樣本相關(guān)的標(biāo)簽在排序上高于不相關(guān)的標(biāo)簽，所以排序任務(wù)能很好的刻畫(huà)這種標(biāo)簽關(guān)系.文獻(xiàn)[16]最早將文本多標(biāo)簽分類看作為一項(xiàng)排序任務(wù)，并利用配對(duì)排序損失刻畫(huà)誤差，但文獻(xiàn)僅在多層感知機(jī)模型上驗(yàn)證了損失函數(shù)的有效性.配對(duì)排序損失也可以應(yīng)用于圖像檢測(cè)領(lǐng)域[6，9]，但研究中普遍采用的鉸鏈損失存在訓(xùn)練困難的問(wèn)題.為了彌補(bǔ)上述缺點(diǎn)，本研究在深度文本多標(biāo)簽學(xué)習(xí)背景下，嘗試了語(yǔ)言模型的遷移學(xué)習(xí)，并著重了探討了配對(duì)損失的使用.

3 本文工作

本章將首先給出問(wèn)題的定義，然后提出結(jié)合BERT的文本特征提取模型，最后給出配對(duì)排序和標(biāo)簽閾值預(yù)測(cè)的設(shè)計(jì)，以及相關(guān)的目標(biāo)函數(shù).

3.1 問(wèn)題描述

定義1.多標(biāo)簽排序任務(wù)，給定樣本x，若s*為理想的映射函數(shù)，則需滿足以下性質(zhì)：

(1)

3.2 多標(biāo)簽文本學(xué)習(xí)模型

在深度自然語(yǔ)言處理中，一個(gè)端到端模型一般由以下幾個(gè)步驟組成，首先將原始文本序列嵌入至稠密的表征詞嵌入h1，h2，…，hl，其次通過(guò)銜接模型將詞嵌入序列轉(zhuǎn)化為定長(zhǎng)的表征向量，最終輸入到文本分類器中.對(duì)詞嵌入表征的研究和應(yīng)用向來(lái)受到學(xué)界和業(yè)界的廣泛關(guān)注，通過(guò)預(yù)訓(xùn)練詞向量使詞嵌入涵蓋語(yǔ)義和語(yǔ)法信息.然而，類似于Word2vec詞向量模型存在無(wú)法解析一詞多義，上下文信息缺失等缺點(diǎn)，往往對(duì)性能的提升并不明顯.BERT作為一種語(yǔ)言遷移模型，可以較好地彌補(bǔ)上述缺陷.

在詞嵌入階段，bert(·)將原始文本序列x中的每個(gè)元素映射到固定尺寸的嵌入，映射方式如下：

h1，h2，…，hl=bert(w1，w2，…，wl)

(2)

這里，h∈d，d>L的維度由bert(·)決定.銜接模型用于對(duì)嵌入進(jìn)行整合，文獻(xiàn)中，通常會(huì)壘砌大量模型[5，15]，對(duì)于這一環(huán)節(jié)本研究不做過(guò)多地復(fù)雜化，采用均值操作mean(·)將嵌入序列轉(zhuǎn)化為d維的特征向量f：

(3)

接下來(lái)，考慮標(biāo)簽相關(guān)性得分的建模，由d維特征向量向L維向量映射，形式化為：

s=relu(Wsf+bs)

(4)

其中，Ws∈L×d為權(quán)重矩陣，bs∈L為偏置向量.式(4)中的relu(·)為神經(jīng)網(wǎng)絡(luò)的激活函數(shù).至此，對(duì)某個(gè)輸入樣本x，便能得到模型對(duì)各個(gè)類別的打分s，即為類別對(duì)樣本的相關(guān)性.多標(biāo)簽和多類別分類在判決函數(shù)上存在一定差異.多類別假設(shè)類別之間是相互獨(dú)立的，故而往往取得分最大的類別作為輸出標(biāo)簽.在多標(biāo)簽分類中，每個(gè)實(shí)例對(duì)應(yīng)的標(biāo)簽數(shù)是不同的.簡(jiǎn)單的做法是取前k最大得分或設(shè)置全局閾值(將得分大于某一閾值的標(biāo)簽篩選出來(lái))，這些方法會(huì)造成額外的預(yù)測(cè)誤差.本研究將采取一種更靈活的做法，即讓g(·)作為一項(xiàng)可學(xué)習(xí)的函數(shù)，為每個(gè)標(biāo)簽自動(dòng)地學(xué)習(xí)得到適應(yīng)于樣本特征f的閾值.閾值建模類似于標(biāo)簽相關(guān)性得分模型：

θ=relu(Wthrf+bthr)

(5)

模型的預(yù)測(cè)同時(shí)依賴于式(4)和式(5)：

(6)

上式中，si，k表示樣本與標(biāo)簽的相關(guān)性得分si的第k分量，θi，k表示閾值的第k分量.圖1為模型的整體框架.

3.3 多標(biāo)簽配對(duì)排序損失

上節(jié)介紹了結(jié)合語(yǔ)言遷移模型的多標(biāo)簽分類模型，本節(jié)將引出如何對(duì)模型參數(shù)進(jìn)行優(yōu)化.形式上，需要解決如下優(yōu)化問(wèn)題：

(7)

這里，l為每個(gè)樣本上的損失項(xiàng)，R為模型參數(shù)的正則項(xiàng)，Φs=[Ws，bs]為標(biāo)簽相關(guān)性得分模型的參數(shù).在訓(xùn)練式(7)時(shí)，解凍bert，對(duì)其進(jìn)行參數(shù)微調(diào).由定義1可得，屬于Y的標(biāo)簽得分需盡可能地大，反之亦然.借鑒三元損失，易對(duì)損失進(jìn)行建模：

圖1 算法框架Fig.1 Architecture of algorithm

(8)

式(8)采用了鉸鏈損失，α是一項(xiàng)超參數(shù)，用來(lái)設(shè)定相關(guān)與不相關(guān)標(biāo)簽之間的邊界.該損失函數(shù)是非光滑的，在x=0處不可微，從而造成了優(yōu)化的困難.為解決上述問(wèn)題，本研究考慮引入替代損失：

(9)

圖2 損失函數(shù)ls的性質(zhì)Fig.2 Property of loss function ls

上式中，β是常系數(shù).替代損失式(9)是式(8)光滑的近似.由圖2中實(shí)線可見(jiàn)，該損失函數(shù)為實(shí)數(shù)域上處處可微的凸函數(shù)，在+上為鉸鏈損失的邊界，當(dāng)且僅當(dāng)，β=ea-1.此外，β值越小，則實(shí)線越接近y=0.章節(jié)4給出了相應(yīng)的梯度求解，并且從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測(cè)角度進(jìn)行理論分析.

(10)

3.4 閾值模型損失

式(5)為閾值回歸模型，根據(jù)樣本特征為每個(gè)標(biāo)簽學(xué)習(xí)篩選閾值θ，并通過(guò)式(6)得到最終的預(yù)測(cè)標(biāo)簽集.對(duì)某個(gè)標(biāo)簽來(lái)說(shuō)，預(yù)測(cè)可以轉(zhuǎn)換為一項(xiàng)二值問(wèn)題，得分大于閾值為正樣本，反之作為負(fù)樣本.于是，閾值參數(shù)的目標(biāo)函數(shù)可以寫(xiě)成以下形式：

(11)

4 理論分析

本章首先對(duì)優(yōu)化目標(biāo)函數(shù)進(jìn)行梯度計(jì)算，考慮式(10)對(duì)sm和sn的梯度為：

(12)

(13)

整合式(12)和式(13)可以得到：

(14)

這里，ξn，m為L(zhǎng)維向量，其中第n項(xiàng)為+1，第m項(xiàng)為-1，其余項(xiàng)為0，以上計(jì)算結(jié)果說(shuō)明說(shuō)明了目標(biāo)函數(shù)在實(shí)數(shù)域上式處處可微的.文獻(xiàn)[18]從經(jīng)驗(yàn)誤差最小化和貝葉斯最優(yōu)預(yù)測(cè)角度，證明了排序統(tǒng)計(jì)的有效性.相同地，對(duì)損失函數(shù)式(9)進(jìn)行理論分析，式(10)作為簡(jiǎn)化版本同理可得.考慮貝葉斯預(yù)測(cè)準(zhǔn)則：

sk(x)=p(k∈Y|x)=∑Y∈y，k∈Yp(Y|x)

(15)

上式?jīng)Q定了標(biāo)簽λk的得分即相應(yīng)的排序，p(k∈Y|x)為標(biāo)簽域中所有可能的標(biāo)簽集的邊際分布.

定理1.采用損失函數(shù)式(9)能達(dá)到經(jīng)驗(yàn)損失最小化.

證明：考慮損失函數(shù)經(jīng)驗(yàn)誤差最小化：

R(s)=[ls(s(x)，Y)]

(16)

將式(16)改寫(xiě)成條件經(jīng)驗(yàn)損失的形式：

R(s|x)=[ls(s(x)，Y)|x]

(17)

這里，γm，n=ln (1+esTξm，n).現(xiàn)需找到使經(jīng)驗(yàn)損失最小化的得分函數(shù)s*，即盡可能滿足定義1.計(jì)算式(17)的一階和二階導(dǎo)：

(18)

(19)

(20)

(21)

替換式(21)中的(n，m)，得到：

(22)

(23)

(24)

式(24)易得p(m∈Y|x)>p(n∈Y|x)，基本滿足貝葉斯預(yù)測(cè)準(zhǔn)則.綜上，以式(9)作為排序損失，能達(dá)到經(jīng)驗(yàn)損失最小化.

5 實(shí)驗(yàn)評(píng)估

本章節(jié)將在真實(shí)的中文文本數(shù)據(jù)集上驗(yàn)證本文所提算法的性能，實(shí)驗(yàn)首先對(duì)比了不同的標(biāo)簽決斷方法和損失函數(shù)的表現(xiàn)，最后與一些主流的方法進(jìn)行比較.

5.1 實(shí)驗(yàn)數(shù)據(jù)

本實(shí)驗(yàn)選用了法研杯比賽CAIL2018(1)https：//github.com/thunlp/CAIL罪名預(yù)測(cè)任務(wù)，來(lái)進(jìn)行算法驗(yàn)證.為減少訓(xùn)練時(shí)間，選取了187100份樣本，并根據(jù)8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集，測(cè)試集和驗(yàn)證集.多標(biāo)簽數(shù)據(jù)集存在額外的性質(zhì)，表1給出相關(guān)的信息.在文獻(xiàn)中，Card和Dens分別表示樣本所屬標(biāo)簽平均數(shù)量和標(biāo)簽密度.標(biāo)簽集數(shù)量較大說(shuō)明存在大量標(biāo)簽共現(xiàn)的情況，如何利用上標(biāo)簽的關(guān)系顯得額外重要.

表1 多標(biāo)簽信息Table 1 Data set information

5.2 實(shí)驗(yàn)設(shè)置

1)實(shí)驗(yàn)平臺(tái)：本研究中所有的代碼都由Python編寫(xiě)，模型基于Tensorflow搭建.采用哈工大提供的BERT(2)https：//github.com/ymcui/Chinese-BERT-wwm預(yù)訓(xùn)練模型，該版本在海量的中文語(yǔ)料庫(kù)上完成訓(xùn)練，并在各項(xiàng)中文任務(wù)驗(yàn)證了其有效性.設(shè)備系統(tǒng)為Ubuntu16.04，配備兩塊NVIDIA GeForce 1080Ti顯卡，內(nèi)存為64G.

2)數(shù)據(jù)預(yù)處理：原始文本數(shù)據(jù)已經(jīng)做了脫敏處理，本實(shí)驗(yàn)將作進(jìn)一步地優(yōu)化，去除了文檔中的特殊符號(hào)，西文字符等.由于文書(shū)是存在格式的，其中有些子句實(shí)際上是無(wú)用的，比如“人民檢察院指控”，“公訴機(jī)關(guān)指控”或者文書(shū)審理日期等，實(shí)驗(yàn)中將上述字符串從文檔中剔除.為處理數(shù)據(jù)集存在的多標(biāo)簽不平衡問(wèn)題，這里首先按照50：50的比例將標(biāo)簽集劃分為多數(shù)類和少數(shù)類，并對(duì)少數(shù)類進(jìn)行上采樣處理.

3)實(shí)驗(yàn)參數(shù)設(shè)置：第一階段對(duì)標(biāo)簽得分模型進(jìn)行優(yōu)化，該階段解凍bert的參數(shù)，做參數(shù)微調(diào).第二階段凍結(jié)bert，僅對(duì)閾值模型進(jìn)行優(yōu)化.兩個(gè)階段皆采用ADAM優(yōu)化器，學(xué)習(xí)率設(shè)置為0.001.BERT模型輸入序列的尺寸上存在限制，最大輸入為512，訓(xùn)練中將長(zhǎng)文本按200字符為單位進(jìn)行分割，模型預(yù)測(cè)過(guò)程中，將由各個(gè)劃分的特征均值作為完整文本的特征.式(10)配對(duì)子采樣的數(shù)量為120.由式(14)可知，超參數(shù)β是一項(xiàng)平滑參數(shù)，對(duì)梯度的尺度和訓(xùn)練的收斂性存在一定影響，與學(xué)習(xí)率的功能是相似的.β過(guò)大會(huì)使損失函數(shù)趨向于線性，過(guò)小則趨向于為零，在超參數(shù)調(diào)優(yōu)過(guò)程中，嘗試了區(qū)間0.1至2都能使訓(xùn)練收斂，故方便起見(jiàn)這里設(shè)置為1.

4)評(píng)價(jià)指標(biāo)：本研究同時(shí)考慮到了多標(biāo)簽的分類和排序兩方面，所以實(shí)驗(yàn)也將從這兩方面對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)估.下面所闡述的評(píng)價(jià)指標(biāo)都參考自文獻(xiàn)[11]，采用宏觀和微觀F1得分衡量分類性能：

(25)

(26)

這里，eval=2·prec·recall/(prec+recall)為F1得分，用于調(diào)和準(zhǔn)確率prec=TP/(TP+FP)，召回率recall=TP/(TP+FN).在以上式子中，TP表示為真正樣本，F(xiàn)P為假正樣本，TN為真負(fù)樣本，F(xiàn)N為假負(fù)樣本.用排序誤差衡量排序性能：

RankL=

(27)

排序損失RankL統(tǒng)計(jì)預(yù)測(cè)結(jié)果中的對(duì)誤排標(biāo)簽對(duì)，數(shù)值越小越好.

5.3 實(shí)驗(yàn)結(jié)果分析

本章節(jié)將通過(guò)實(shí)驗(yàn)評(píng)估本文所提算法的有效性.

實(shí)驗(yàn)1.不同標(biāo)簽決斷方法

在章節(jié)3.2中提到了其它兩種標(biāo)簽決斷方法，Top-k和全局閾值，在使用中，k值取1、3和5，閾值從0.05-0.95按照0.01為間隔，表2展示測(cè)試集上最優(yōu)得分.值得注意的是，本文提出的得分模型其輸出是映射到實(shí)數(shù)域上的，所以通過(guò)sigmoid將其約束到概率空間中.相對(duì)來(lái)說(shuō)，宏觀和微觀指標(biāo)衡量了模型的整體分類性能，對(duì)標(biāo)簽的誤選較為敏感，Top-k和全局閾值是靜態(tài)的刷選策略，而沒(méi)有考慮到了樣本特征本身所攜帶的信息，從而造成得分上的下滑.并且，在使用這些算法的時(shí)候往往會(huì)遇到超參的優(yōu)化問(wèn)題.表2中的結(jié)果說(shuō)明在多標(biāo)簽領(lǐng)域，標(biāo)簽決斷對(duì)最終預(yù)測(cè)結(jié)果的影響非常大.相比于全局閾值，閾值預(yù)測(cè)方法在分類指標(biāo)上能提供2%的提升，排序指標(biāo)上也是表現(xiàn)最優(yōu)的.

表2 標(biāo)簽決斷技術(shù)的對(duì)比Table 2 Comparison of label decision

實(shí)驗(yàn)2.不同訓(xùn)練方式

本實(shí)驗(yàn)將配對(duì)排序損失和其它幾種目標(biāo)函數(shù)進(jìn)行比較：

1)二值交叉損失[5](BCE)：

(28)

BCE相當(dāng)于標(biāo)簽轉(zhuǎn)換，類似于參數(shù)共享的二值分類模型；

2)鉸鏈損失式(8)；

3)BP-MLL[8]基于指數(shù)損失.為了確保方法之間的可對(duì)比性，實(shí)驗(yàn)采用同一套數(shù)據(jù)預(yù)處理技術(shù)，并且默認(rèn)采用閾值預(yù)測(cè)技術(shù).表3展示了各種訓(xùn)練方式之間的性能對(duì)比.可以看到BCE在微觀指標(biāo)上的表現(xiàn)略微占有，但在其余指標(biāo)上，文本的算法存在競(jìng)爭(zhēng)性的優(yōu)勢(shì).這是由于BCE注重整體的分類誤差，配對(duì)排序損失則考慮錯(cuò)誤的排序?qū)?宏觀指標(biāo)是標(biāo)簽F1得分的平均，本文的算法在MacroF1上的優(yōu)勢(shì)也體現(xiàn)了數(shù)據(jù)不平衡對(duì)配對(duì)排序損失的影響較低.

表3 訓(xùn)練方式之間的對(duì)比Table 3 Comparison of training approaches

實(shí)驗(yàn)3.不同模型進(jìn)行對(duì)比

前兩項(xiàng)實(shí)驗(yàn)分別從標(biāo)簽決斷和訓(xùn)練方式做了對(duì)比，本實(shí)驗(yàn)將選取一些常用的多標(biāo)簽算法進(jìn)行完整的對(duì)比：

1)二值相關(guān)BR[11]為每個(gè)標(biāo)簽訓(xùn)練一個(gè)SVM分類器；

2)ML-KNN[13]將KNN拓展到多標(biāo)簽領(lǐng)域，是一種惰性學(xué)習(xí)器；

3)卷積神經(jīng)網(wǎng)絡(luò)CNN[5]是最常用的深度文本模型；

4)CNN-RNN[7]采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)簽之間的關(guān)系進(jìn)行建模.

接下來(lái)將對(duì)上述算法的執(zhí)行流程做一定闡述，對(duì)于詞級(jí)模型，首先中文文書(shū)進(jìn)行分詞，算法1)2)采用TF-IDF算法進(jìn)行特征提取，算法3)4)則將詞嵌入至定長(zhǎng)向量.

表4 不同算法性能對(duì)比Table 4 Performance comparison of different algorithms

表4展示了在全數(shù)據(jù)上，不同算法之間的性能比較.圖3展示了在不同比例數(shù)據(jù)集上的分類性能.實(shí)驗(yàn)結(jié)果顯示，隨著數(shù)據(jù)規(guī)模的增大，深度學(xué)習(xí)算法能獲得更好的表現(xiàn).相比于另兩種深度模型CNN和CNN-RNN，本文提出的算法的整體性能都較優(yōu).這是由于研究在文本特征提取和標(biāo)簽決斷上都做了考慮.遷移的BERT模型能提供數(shù)據(jù)集之外的語(yǔ)義知識(shí)并且具有更多的參數(shù)量，由圖3可見(jiàn)，模型表現(xiàn)受到數(shù)據(jù)集尺寸的波動(dòng)較小.配對(duì)排序損失能鋪?zhàn)降綐?biāo)簽之間的排序關(guān)系，使相關(guān)度較高的標(biāo)簽?zāi)塬@得更大的得分，同時(shí)，自適應(yīng)的標(biāo)簽閾值學(xué)習(xí)能幫助算法得到更精準(zhǔn)的預(yù)測(cè)結(jié)果.

圖3 不同比例數(shù)據(jù)集上的對(duì)比Fig.3 Comparison with different dataset proportion

6 總結(jié)

多標(biāo)簽文本學(xué)習(xí)能幫助用戶對(duì)文檔進(jìn)行有效管理，加強(qiáng)多媒體系統(tǒng)的可用性.傳統(tǒng)的，基于機(jī)器學(xué)習(xí)的算法受限于特征提取和模型容量，存在嚴(yán)重性能瓶頸.本文提出的算法利用中文BERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)文書(shū)進(jìn)行特征提取，模型架構(gòu)上更精煉且高.算法選用配對(duì)排序損失作為目標(biāo)函數(shù)，以鋪?zhàn)降綐?biāo)簽之間的關(guān)系.此外，為了更精準(zhǔn)地得到結(jié)果，引入輔助的閾值預(yù)測(cè)模型，對(duì)標(biāo)簽預(yù)測(cè)進(jìn)行建模.實(shí)驗(yàn)在法條預(yù)測(cè)和罪名推薦兩項(xiàng)任務(wù)上驗(yàn)證了算法的有效性.作為自然語(yǔ)言處理的一項(xiàng)子任務(wù)，BERT對(duì)多標(biāo)簽文本分類也是適用的，將閾值預(yù)測(cè)看作一項(xiàng)學(xué)習(xí)任務(wù)，相比Top-k和全局閾值，在測(cè)試集上表現(xiàn)更優(yōu)異.未來(lái)我們將在更多的多標(biāo)簽數(shù)據(jù)集上對(duì)算法進(jìn)行驗(yàn)證，并將對(duì)標(biāo)簽之間的相關(guān)性做進(jìn)一步探討.