亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法

        2022-03-11 02:46:04宋澤宇李德玉王素格
        模式識別與人工智能 2022年2期
        關(guān)鍵詞:集上標(biāo)簽語義

        宋澤宇 李 旸 李德玉,3 王素格,3

        近年來,深度學(xué)習(xí)的發(fā)展使司法大數(shù)據(jù)越來越受到人們的關(guān)注,催生出很多面向司法領(lǐng)域的應(yīng)用,智慧法院建設(shè)也被納入國家司法建設(shè)進(jìn)程.在司法領(lǐng)域,法官閱讀案情描述,依據(jù)相關(guān)法律條文,最終確定案件罪名.然而,在同一案件中,通常存在多個(gè)要素標(biāo)簽,這些標(biāo)簽的準(zhǔn)確識別與分類對于案情摘要、可解釋類案件推送等司法領(lǐng)域的實(shí)際業(yè)務(wù)具有重要的支撐作用.

        目前,學(xué)者們已提出許多方法用于解決多標(biāo)簽分類問題,主要是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法,包含問題轉(zhuǎn)換方法和算法適應(yīng)方法兩類.

        問題轉(zhuǎn)換方法通過分解樣本集,將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為傳統(tǒng)的多個(gè)單標(biāo)簽分類任務(wù),該策略與算法無關(guān).常見的是二元相關(guān)算法(Binary Correla-tion, BR)[1],核心思想是將每個(gè)標(biāo)簽視為一個(gè)單獨(dú)的二類變量,分別為每個(gè)標(biāo)簽訓(xùn)練一個(gè)二元分類器,不考慮標(biāo)簽間的相關(guān)性[2],但會(huì)造成預(yù)測性能下降.為了捕捉標(biāo)簽間的關(guān)系,標(biāo)簽集算法(Label Powerset, LP)將所有標(biāo)簽可能的組合取值視為一個(gè)新類,但是,由于標(biāo)簽的可能組合取值隨標(biāo)簽數(shù)指數(shù)增長,訓(xùn)練較復(fù)雜[3].分類器鏈算法(Classifier Chain, CC)以“鏈”的方式連接標(biāo)簽,一個(gè)標(biāo)簽的預(yù)測值可幫助預(yù)測另一個(gè)標(biāo)簽的不確定性,但只能捕捉標(biāo)簽的低階相關(guān)性[4].

        算法適應(yīng)方法是對已有算法進(jìn)行適當(dāng)變換,以適應(yīng)多標(biāo)簽分類問題.Elisseeff等[5]提出排序支持向量機(jī)(Rank-Support Vector Machine, Rank-SVM),采用基于多標(biāo)簽熵的決策樹進(jìn)行多標(biāo)簽分類.針對司法領(lǐng)域,Thompson[6]采用最近鄰算法和決策樹算法等,實(shí)現(xiàn)裁判文書的分類.針對罪名標(biāo)簽預(yù)測中的多標(biāo)簽問題,ulea等[7]采用支持向量機(jī)(SVM)進(jìn)行分類,并以犯罪事實(shí)、犯罪時(shí)間等作為特征,取得較優(yōu)效果.

        隨著深度學(xué)習(xí)的快速發(fā)展,各種神經(jīng)網(wǎng)絡(luò)模型開始用于多標(biāo)簽文本分類(Multi-label Text Classi-fication, MLTC)任務(wù)中.Conneau等[8]和Yao等[9]將多標(biāo)簽分類視為一系列單標(biāo)簽文本分類任務(wù).Reyes等[10]簡單地將單標(biāo)簽文本分類擴(kuò)展到MLTC.但是這種簡化往往使分類性能下降,原因之一是單標(biāo)簽文本分類不涉及標(biāo)簽依賴問題,而多標(biāo)簽文本分類任務(wù)中各標(biāo)簽之間可能存在語義依賴.另外,當(dāng)涉及某些標(biāo)簽的訓(xùn)練數(shù)據(jù)不足時(shí),標(biāo)簽間的語義依賴作用更明顯[11].Liu等[12]設(shè)計(jì)極端多標(biāo)簽-卷積神經(jīng)網(wǎng)絡(luò)模型(Extreme Multi-label-CNN, XML-CNN),側(cè)重于文檔表示,忽略標(biāo)簽間的相關(guān)性.卷積神經(jīng)網(wǎng)絡(luò)-循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network-Recurrent Neural Network, CNN-RNN)[13]和序列生成模型(Sequence Generation Model, SGM)[14]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)解碼器生成一系列可能的標(biāo)簽.在司法領(lǐng)域中,Ye等[15]從自然語言生成(Natural Language Generation, NLG)的角度,使用基于編碼端罪名標(biāo)簽的集合到集合(Sequence-to-Sequence, seq2seq)模型,生成判決觀點(diǎn).

        雖然標(biāo)簽差異可通過關(guān)注解碼器的狀態(tài)捕捉,但任何兩個(gè)標(biāo)簽的相關(guān)性并不能通過固定的遞歸解碼器動(dòng)態(tài)建模.Yang等[16]提出分層注意力網(wǎng)絡(luò)(Hierarchical Attention Network, HAN),使用分層注意的門控循環(huán)單元(Gate Recurrent Unit, GRU)進(jìn)行多標(biāo)簽文檔分類.Yang等[17]提出序列到集合(Sequence-to-Set, Seq2set)模型,利用集合的無序性,降低錯(cuò)誤標(biāo)簽序列帶來的影響,不僅捕捉標(biāo)簽之間的相互關(guān)系,而且減少對標(biāo)簽序列的依賴,分類性能得到一定提高.在司法領(lǐng)域中,Luo等[18]使用注意力機(jī)制,將法律條文信息融入文本建模部分,用于輔助罪名預(yù)測的多標(biāo)簽文本分類.

        在實(shí)際應(yīng)用中,多標(biāo)簽文本分類任務(wù)中的標(biāo)簽具有語義信息,上述方法將標(biāo)簽看成原子符號,忽略關(guān)聯(lián)于標(biāo)簽的文本內(nèi)容的潛在知識.一些研究者希望利用標(biāo)簽信息捕獲單詞間的相似性和規(guī)律性.Du等[19]交互單詞表示和標(biāo)簽表示,獲得每個(gè)詞與標(biāo)簽的匹配得分,度量詞與標(biāo)簽的關(guān)聯(lián),但并未考慮不同標(biāo)簽應(yīng)關(guān)注不同文檔更深層語義表示.Byrd等[20]通過欠采樣標(biāo)簽類別對應(yīng)較多的文本、Chawla等[21]利用過采樣標(biāo)簽類別對應(yīng)較少的文本、Cui等[22]通過在損失函數(shù)中為“尾標(biāo)簽”分配較大權(quán)重的方式,處理標(biāo)簽分布極端不平衡的問題.

        多標(biāo)簽文本分類是研究單個(gè)篇章中存在多個(gè)標(biāo)簽的情況,從不同標(biāo)簽在篇章中的位置來看,語義關(guān)聯(lián)較強(qiáng)的標(biāo)簽往往在文本中距離較近.當(dāng)文本內(nèi)容較長時(shí),復(fù)雜的標(biāo)簽語義關(guān)聯(lián)信息可能隱藏在繁雜或冗余的內(nèi)容中.此外,法律文本數(shù)據(jù)集上也同樣存在部分標(biāo)簽訓(xùn)練數(shù)據(jù)不足,導(dǎo)致標(biāo)簽分布不平衡的問題,即大量“尾部標(biāo)簽”僅包含在較少的正面文本中.因此,針對上述標(biāo)簽關(guān)聯(lián)的信息,并結(jié)合法律文本分類的角度,需要解決如下3方面的問題:1)如何從法律文本中充分捕獲細(xì)粒度的文本語義信息;2)如何從每個(gè)法律文本中提取與相應(yīng)標(biāo)簽相關(guān)的區(qū)別性信息;3)如何準(zhǔn)確挖掘法律標(biāo)簽之間的依賴性或相關(guān)性關(guān)系.

        為此,本文提出融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法(Multi-label Classification of Legal Text with Fusion of Label Relations, MLC-FLR),利用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)的特征矩陣和相關(guān)矩陣,捕捉和探索標(biāo)簽之間的關(guān)鍵依賴關(guān)系,建立標(biāo)簽間的依賴結(jié)構(gòu).再利用不同樣本對于標(biāo)簽的關(guān)注度也不同這一特性,提出標(biāo)簽注意機(jī)制,從樣本內(nèi)容信息中識別與標(biāo)簽相關(guān)的文本表示.最后,將兩者結(jié)合并輸入到編碼器中進(jìn)行分類.在3個(gè)法律數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法性能較優(yōu).

        1 融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法

        圖1 MLC-FLR框圖

        1.1 詞的向量化表示

        為了更好地表示文本內(nèi)容,使用預(yù)先訓(xùn)練的Bert模型實(shí)現(xiàn)每個(gè)詞的上下文感知表示[23].

        1.2 文本和標(biāo)簽的表示

        為了捕獲每個(gè)詞的前向和后向上下文語義,采用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long-Short Term Memory, Bi-LSTM),獲得法律文本和標(biāo)簽的隱層語義表示.

        將法律文本的嵌入向量X=[x1,x2,…,xn]輸入Bi-LSTM,通過時(shí)刻i-1和輸入更新時(shí)刻i的隱層狀態(tài)分別為:

        1.3 標(biāo)簽圖

        已有研究表明,在多標(biāo)簽文本分類中,通常標(biāo)簽之間具有相關(guān)性,如何準(zhǔn)確捕獲隱藏在數(shù)據(jù)中的標(biāo)簽關(guān)系是多標(biāo)簽分類的重要問題.本文使用標(biāo)簽圖反映標(biāo)簽關(guān)系,設(shè)計(jì)基于鄰近度的相似標(biāo)簽圖構(gòu)造方法,用于模擬標(biāo)簽之間的相關(guān)關(guān)系.方法將每個(gè)標(biāo)簽視為一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)收集所有鄰居的特征以形成表示.每條邊反映節(jié)點(diǎn)之間的語義相關(guān)性:如果標(biāo)簽共現(xiàn),存在邊;否則,不存在邊.

        設(shè)標(biāo)簽圖G=(V,E),其中,V為節(jié)點(diǎn)集,每個(gè)節(jié)點(diǎn)表示一個(gè)標(biāo)簽,E為邊集,每個(gè)邊表示其連接的2個(gè)標(biāo)簽具有相關(guān)性,邊上的權(quán)重表示標(biāo)簽相關(guān)性的強(qiáng)弱.標(biāo)簽圖可用鄰接矩陣A∈Rk×k表示,Aij表示第i個(gè)標(biāo)簽和第j個(gè)標(biāo)簽的相關(guān)性大小.

        一個(gè)多標(biāo)簽文本數(shù)據(jù)集的標(biāo)簽圖可通過學(xué)習(xí)的方式獲得,具有k個(gè)節(jié)點(diǎn)vi∈V,邊(vi,vj)∈E,鄰接矩陣A,共現(xiàn)矩陣M∈Rk×k和頻率向量F∈Rk.通過數(shù)據(jù)驅(qū)動(dòng)的方式建立鄰接矩陣.首先,利用樣本在訓(xùn)練集上的標(biāo)簽標(biāo)注統(tǒng)計(jì)所有標(biāo)簽對之間的出現(xiàn)次數(shù),得到共現(xiàn)矩陣M,頻率向量F,其中,k為標(biāo)簽數(shù),F(xiàn)i為標(biāo)簽i在訓(xùn)練集中的頻率.利用這個(gè)標(biāo)簽共現(xiàn)矩陣和頻率向量,可得到歸一化的鄰接矩陣A=M/F.這類似于相關(guān)矩陣如何內(nèi)置[24],除了不采用二值化.

        標(biāo)簽嵌入由標(biāo)簽共存圖確定,并捕獲由圖結(jié)構(gòu)定義的標(biāo)簽語義信息.圖卷積網(wǎng)絡(luò)(GCN)聚合所有相鄰節(jié)點(diǎn)的值以更新當(dāng)前節(jié)點(diǎn).每個(gè)卷積層只處理一階鄰域信息.多階鄰域信息可通過堆疊幾個(gè)卷積層實(shí)現(xiàn).對于每個(gè)節(jié)點(diǎn)vi∈V,使用標(biāo)簽在經(jīng)過Bi-LSTM后得到最后一個(gè)隱層表示作為節(jié)點(diǎn)特征,標(biāo)簽集Y中的k個(gè)標(biāo)簽形成Hk×d,為了區(qū)分,記作M.標(biāo)簽嵌入可表示為

        H(l)=σ(AHlW0),H(l+1)=σ(AHlWl),

        其中,σ(·)表示激活函數(shù),A表示鄰接矩陣,Wl表示第l層的卷積權(quán)重.輸出H(l+1)為融合共現(xiàn)標(biāo)簽關(guān)系的特征表示.

        1.4 標(biāo)簽注意力機(jī)制

        由于多標(biāo)簽文本可由一個(gè)或多個(gè)標(biāo)簽進(jìn)行標(biāo)記,并且對于每個(gè)文本,具有與其對應(yīng)標(biāo)簽最相關(guān)的上下文,即一個(gè)文本中的單詞對每個(gè)標(biāo)簽的貢獻(xiàn)不同,因此,為了得到具有與標(biāo)簽相關(guān)的法律文本表示,本文設(shè)計(jì)標(biāo)簽注意力機(jī)制,更好地從每個(gè)法律文本中提取相應(yīng)標(biāo)簽的區(qū)別性信息.

        qj(e)=softmax(Vj(e,1),Vj(e,2),…,Vj(e,m)).

        然后將qj(e)按行進(jìn)行max運(yùn)算,并將得到所有最大值進(jìn)行拼接,得到最大相關(guān)矩陣:

        Bj=max(qj(1))⊕max(qj(2))⊕…⊕

        max(qj(n))∈Rn×1.

        將得到的Bj與1.2節(jié)得到的法律文本隱層表示Ht進(jìn)行點(diǎn)積,得到與標(biāo)簽yj相關(guān)的法律文本表示:

        同樣,針對法律文本與所有標(biāo)簽執(zhí)行上述過程,得到k個(gè)融合標(biāo)簽信息的法律文本表示,再將其拼接,可得

        至此,得到標(biāo)簽的圖表示H(l+1)和標(biāo)簽相關(guān)的文檔表示Mt,前者側(cè)重于標(biāo)簽內(nèi)容的表示,后者在一定程度上反映文本內(nèi)容與標(biāo)簽之間的語義關(guān)聯(lián),將兩者相乘并進(jìn)行分類:

        f=H(l+1)Mt.

        1.5 分類器的構(gòu)建

        利用標(biāo)簽注意力機(jī)制,獲得標(biāo)簽相關(guān)的法律文本表示f后,再通過全連接層和sigmoid函數(shù)構(gòu)建多標(biāo)簽分類器:

        其中,W為可訓(xùn)練模型參數(shù),sigmoid函數(shù)將輸出值轉(zhuǎn)化為概率.

        交叉熵?fù)p失可作為損失函數(shù),已被證明適用于多標(biāo)簽文本分類任務(wù)[25],具體公式如下:

        我的接近并最終投身文學(xué),近一甲子矣。在此漫漫歲月,雖無驕人成績,所幸終日矻矻,與文學(xué)相伴了一生。朋友曾與我談及一同起步的同行許多已巍然成樹,嘆息我等才情有限,始終不成氣候,最多算棵草而已,很沒勁。我同意他的比喻,卻不同意他的自卑。沒有長成樹木,長成了草,也是文學(xué)原野上的生命。而且,一粒種子,能長成一棵草,生動(dòng)地活著,其實(shí)也并不容易。說樹不是一天長成的,草又何嘗不是?天時(shí)地利人和,一樣不能少。就一個(gè)寫作者而言,不說社會(huì)歷史那么高大上的原因了,僅僅稿件的發(fā)表就不知耗費(fèi)了編輯們多少辛勞。

        2 實(shí)驗(yàn)及結(jié)果分析

        本文在NVIDIA 1080Ti上使用Pytorch完成實(shí)驗(yàn),GCN嵌入維度設(shè)為768維,批處理大小為8,Bert的詞向量維度為768維,在維基百科上進(jìn)行預(yù)訓(xùn)練,使用自適應(yīng)矩估計(jì)(Adaptive Moment Estimation, Adam)優(yōu)化器最小化最終目標(biāo)函數(shù),學(xué)習(xí)率為2e-5,設(shè)置失活率為0.5,降低過擬合的影響.

        2.1 實(shí)驗(yàn)數(shù)據(jù)集及評價(jià)指標(biāo)

        本文的數(shù)據(jù)來源于2019 “中國法研杯”司法人工智能挑戰(zhàn)賽,該數(shù)據(jù)集來源于中國裁判文書網(wǎng),包括婚姻家庭(Divorce)、勞動(dòng)爭議(Labor)和借款合同(Loan)領(lǐng)域.自行將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集[26],數(shù)據(jù)集具體信息如表1所示.

        表1 數(shù)據(jù)集信息

        本文采用的評價(jià)指標(biāo)為漢明損失(Hamming Loss)、Macro-F1和Micro-F1.

        漢明損失評估被錯(cuò)誤分類的標(biāo)簽對的個(gè)數(shù):

        數(shù)值越小表明模型分類能力越強(qiáng).

        Macro-F1先計(jì)算每個(gè)類別的F1值,再對所有類求平均值:

        Micro-F1先計(jì)算所有類別總的精確率和召回率,再計(jì)算F1值:

        其中,TPi表示被正確分類的正例,F(xiàn)Ni表示正例被錯(cuò)分為負(fù)例,F(xiàn)Pi表示負(fù)例被錯(cuò)分為正例.

        2.2 對比方法

        本文選擇如下5種對比方法.

        1)SGM[14].將多標(biāo)簽分類任務(wù)看作序列生成問題,不但考慮標(biāo)簽間的相關(guān)性,還自動(dòng)獲取輸入文本的關(guān)鍵信息.

        2)SGM+GE[14].該方法是對SGM的改進(jìn),提出帶有全局嵌入(Global Embedding, GE)的解碼器結(jié)構(gòu).

        3)基于語義單元的多標(biāo)簽文本分類(Seman-tic-Unit-Based Dilated Convolution for Multi-label Text Classification, SU4MLC)[27].通過多層擴(kuò)展卷積產(chǎn)生更高層次的語義單位表示,并產(chǎn)生相應(yīng)的混合注意機(jī)制,在詞級和語義單位級提取信息.

        4)Seq2set[17].利用集合的無序性,降低錯(cuò)誤的標(biāo)簽序列帶來的影響,不僅捕捉標(biāo)簽之間的相互關(guān)系,而且減少對標(biāo)簽序列的依賴.

        5)特定標(biāo)簽的注意力網(wǎng)絡(luò)(Label Specific Atten-tion Network, LSAN)[28].對于文檔內(nèi)容和標(biāo)簽文本,借助自注意力和標(biāo)簽注意力機(jī)制,學(xué)習(xí)特定于標(biāo)簽的文檔表示,最終有效集成這兩部分,提高最終預(yù)測性能.

        上述5種對比方法均采用原文代碼.

        2.3 實(shí)驗(yàn)結(jié)果對比

        各方法在Divorce、Labor、Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示,表中漢明損失值越小越好,Macro-F1、Micro-F1值越大越好,黑體數(shù)字為最優(yōu)結(jié)果.

        由表2可知,除去Loan數(shù)據(jù)集上的Micro-F1指標(biāo),MLC-FLR的其余指標(biāo)值均優(yōu)于其它方法,說明MLC-FLR對法律文書多標(biāo)簽分類的有效性.由于SGM、SGM+GE和MU4MLC的主體都是將多標(biāo)簽分類作為序列生成問題進(jìn)行處理,SGM+GE效果最優(yōu),其原因是SGM+GE加入全局嵌入,有效減少錯(cuò)誤傳播.Seq2set的結(jié)果優(yōu)于SGM、SGM+GE和MU4MLC,是因?yàn)镾eq2set利用集合的無序性,降低錯(cuò)誤標(biāo)簽序列帶來的影響,較好地捕捉標(biāo)簽間的關(guān)系.相比SGM、SGM+GE、MU4MLC、Seq2set,LSAN的Macro-F1值有很大的提升,說明有效的集成標(biāo)簽語義和文檔內(nèi)容可提高分類性能.在3個(gè)數(shù)據(jù)集上,Micro-F1值均大于Macro-F1值,主要原因是數(shù)據(jù)類別不均衡造成的,樣本數(shù)目較多的類別結(jié)果影響整體性能.MLC-FLR的Micro-F1與Macro-F1差值最小,說明本文對少數(shù)類數(shù)據(jù)標(biāo)簽的標(biāo)注性能有所提升.

        在3個(gè)數(shù)據(jù)集上的標(biāo)簽頻率分布如圖2所示.由圖可知,Labor數(shù)據(jù)集上尾標(biāo)簽出現(xiàn)頻率大多分布在100次左右,Divorce數(shù)據(jù)集上標(biāo)簽頻率明顯高于Labor數(shù)據(jù)集.漢明損失用于衡量被錯(cuò)誤標(biāo)記的標(biāo)簽個(gè)數(shù),只有少量尾標(biāo)簽的預(yù)測錯(cuò)誤不會(huì)對漢明損失產(chǎn)生較大的影響,因此相比而言Labor數(shù)據(jù)集上的漢明損失值更低.

        圖2 標(biāo)簽頻率分布圖

        在Loan數(shù)據(jù)集上,MLC-FLR的Micro-F1值較低,原因如下:一方面,Loan數(shù)據(jù)集的大小明顯小于Divorce、Loan數(shù)據(jù)集,使方法不能充分學(xué)習(xí)標(biāo)簽的特征;另一方面,Loan數(shù)據(jù)集同樣含有相對較多的長尾標(biāo)簽,而MLC-FLR是基于訓(xùn)練集構(gòu)建標(biāo)簽之間的關(guān)系,對于不均衡且數(shù)據(jù)量較小的文本,構(gòu)建的共現(xiàn)矩陣較稀疏,影響最終結(jié)果.因此,采用隨機(jī)采樣的方式,從呈現(xiàn)長尾分布的數(shù)據(jù)樣本集中隨機(jī)重復(fù)抽取樣本(有放回),可得到更多的樣本.

        在數(shù)據(jù)是否增強(qiáng)的情況下,MLC-FLR在Loan數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3所示.由表可看出,在進(jìn)行少量數(shù)據(jù)增強(qiáng)的情況下,MLC-FLR取得不錯(cuò)結(jié)果,從而證實(shí)上述分析的合理性.

        表3 數(shù)據(jù)是否增強(qiáng)時(shí)MLC-FLR的指標(biāo)值

        2.4 消融實(shí)驗(yàn)結(jié)果

        MLC-FLR主要由2個(gè)協(xié)同工作的關(guān)鍵模塊組成,即標(biāo)簽圖嵌入模塊和標(biāo)簽注意力模塊.本節(jié)通過消融實(shí)驗(yàn)驗(yàn)證每個(gè)模塊的效果.

        為了證實(shí)每個(gè)模塊的重要性,定義LAM為去除標(biāo)簽圖嵌入模塊的模型,LAM-W為LAM中的詞嵌入采用Word2vec(Word to Vector)的模型,GCN-LAM-W為MLC-FLR中的詞嵌入采用Word2vec的模型.分別在3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示.

        由表4可看出,對比使用Bert作為詞嵌入的MLC-FLR和LAM,指標(biāo)值說明標(biāo)簽圖在實(shí)驗(yàn)中的有效性,標(biāo)簽之間的關(guān)系形成的標(biāo)簽圖更有效地捕獲標(biāo)簽之間的關(guān)系,提升方法的分類能力.相比使用Word2vec作為詞嵌入的LAM-W和MLC-FLR-W,指標(biāo)值同樣表明MLC-FLR-W的分類效果優(yōu)于LAM-W,指標(biāo)值說明標(biāo)簽圖在分類中的重要性,而LAM-W更側(cè)重于捕獲文本信息,僅用于提取與相應(yīng)標(biāo)簽相關(guān)的區(qū)別性信息,而加入標(biāo)簽圖嵌入時(shí)可更有效地捕獲標(biāo)簽之間的關(guān)系,但同時(shí)二者都不可或缺,結(jié)合兩部分,才能有助于更好地提升方法的分類性能.

        表4 各方法在3個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果

        3 結(jié) 束 語

        針對多標(biāo)簽文本分類問題,本文提出融合標(biāo)簽關(guān)系的法律文本多標(biāo)簽分類方法(MLC-FLR).為了充分挖掘標(biāo)簽之間的相關(guān)關(guān)系,提出基于鄰近度的相似標(biāo)簽圖構(gòu)造方法,利用GCN得到標(biāo)簽的帶有關(guān)系特征的語義嵌入.此外,提出特定標(biāo)簽的注意力機(jī)制,用于獲取具有標(biāo)簽特征的文本表示,捕獲有用的標(biāo)簽特定信息.最終結(jié)合兩者用于分類.在3個(gè)法律數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果說明本文方法的有效性.在對Loan數(shù)據(jù)集進(jìn)行分類時(shí),MLC-FLR在Micro-F1值上并未取得最優(yōu)結(jié)果,經(jīng)過仔細(xì)分析發(fā)現(xiàn),該方法對于類似于Loan這樣的數(shù)據(jù)分布極不均衡的數(shù)據(jù)集或小樣本數(shù)據(jù)集,效果并不理想.因此,下一階段的任務(wù)主要是研究在數(shù)據(jù)分布不均衡或處理小樣本數(shù)據(jù)時(shí),如何提升方法的分類性能.

        猜你喜歡
        集上標(biāo)簽語義
        Cookie-Cutter集上的Gibbs測度
        語言與語義
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        復(fù)扇形指標(biāo)集上的分布混沌
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
        認(rèn)知范疇模糊與語義模糊
        男人的天堂中文字幕熟女人妻| 日韩亚洲欧美精品| 中文字幕在线观看乱码一区| 亚洲中文字幕一区精品| 久久婷婷五月综合色丁香| 军人粗大的内捧猛烈进出视频| 国产亚洲一本大道中文在线 | 亚洲av香蕉一区二区三区av| 亚洲精品无码专区| 曰本女人与公拘交酡免费视频 | 少妇太爽了在线观看| 国产码欧美日韩高清综合一区| 亚洲国产av高清一区二区三区 | 国产成人久久精品一区二区三区| 亚洲一二三区在线观看| 最近亚洲精品中文字幕| 男人天堂亚洲天堂av| 国产成人av一区二区三区 | 日韩成人精品在线| 亚洲成生人免费av毛片| 国产精品偷窥熟女精品视频| 欧美bbw极品另类| 日韩亚洲制服丝袜中文字幕| 日本女优禁断视频中文字幕| 亚洲国产精品久久久久秋霞小说 | 女同另类一区二区三区| 成人片黄网站a毛片免费| 少妇饥渴xxhd麻豆xxhd骆驼| 国语憿情少妇无码av| 免费一区二区在线观看视频在线| 日日碰狠狠添天天爽五月婷| 青青操国产在线| 美女偷拍一区二区三区| 国产精品久久久久久久久久红粉| 国产内射999视频一区| 亚洲香蕉毛片久久网站老妇人| 精品亚洲国产日韩av一二三四区| 日本午夜精品一区二区三区电影| 亚洲免费黄色| 日本高清色一区二区三区| 男人添女人囗交做爰视频|