亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MSML-BERT模型的層級多標(biāo)簽文本分類方法研究

        2022-08-09 05:47:50劉貴全
        計算機工程與應(yīng)用 2022年15期
        關(guān)鍵詞:層級標(biāo)簽分類

        黃 偉,劉貴全

        1.中國科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)學(xué)院,合肥 230027

        2.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,合肥 230027

        3.中國科學(xué)技術(shù)大學(xué) 大數(shù)據(jù)分析與應(yīng)用安徽省重點實驗室,合肥 230027

        文本是當(dāng)今世界最重要的信息載體之一,文本數(shù)據(jù)有很多來源,包括:網(wǎng)絡(luò)數(shù)據(jù)、電子郵件、日常聊天、社交媒體、票證和用戶評論等[1]。然而在信息爆炸的時代,由于文本的非結(jié)構(gòu)化性質(zhì),人工處理和分類大量文本數(shù)據(jù)既耗時又具有挑戰(zhàn)性。此外,采用人工的方式分類文本很容易受到外界因素的影響,比如疲勞作業(yè)和缺乏專業(yè)知識。因此,隨著工業(yè)應(yīng)用中文本數(shù)據(jù)規(guī)模的逐漸擴大,自動文本分類技術(shù)變得越來越重要[2]。多標(biāo)簽文本分類(multi-label text classification,MTC)是自然語言處理領(lǐng)域中重要且經(jīng)典的問題,旨在為句子、段落和文檔等文本單元分配一個或多個標(biāo)簽,比如一段新聞文本,可能同時具有“財經(jīng)”“體育”和“足球”等標(biāo)簽[3]。

        本文所要研究的是層級多標(biāo)簽文本分類(hierarchical multi-label text classification,HMTC)任務(wù),可以視為是MTC的一個特殊的子任務(wù),但是比普通的MTC任務(wù)更具有挑戰(zhàn)性[4]。對于HMTC任務(wù),文本對應(yīng)的多個標(biāo)簽可以組織成樹狀的層級結(jié)構(gòu)。如圖1(a)所示,該圖展示了隨機的一條文本對應(yīng)的層級標(biāo)簽結(jié)構(gòu),圖中所有的圓圈代表語料庫中所有的標(biāo)簽構(gòu)成的總體標(biāo)簽結(jié)構(gòu),而其中有顏色的圓圈代表該條文本對應(yīng)的標(biāo)簽構(gòu)成了總體標(biāo)簽結(jié)構(gòu)中的一個子結(jié)構(gòu),即該條文本對應(yīng)的標(biāo)簽有“News”“Sports”“Football”“Features”“Arts”和“Movie”。本文聚焦于多路徑(Multi-path)、強制性(Mandatory)的HMTC任務(wù),這是現(xiàn)實應(yīng)用中最常見的場景,其中多路徑表示文本的多個標(biāo)簽在層級標(biāo)簽結(jié)構(gòu)中具有一條或多條標(biāo)簽路徑,同時強制性指不同標(biāo)簽路徑的長度相等[5-6]。HMTC被廣泛地應(yīng)用于問答系統(tǒng)[7]、電子商務(wù)中的產(chǎn)品歸類[8]和付費搜索營銷中的競價策略[9]等,在這些場景中文本的多個標(biāo)簽通常都被組織成層級結(jié)構(gòu)。

        圖1 標(biāo)簽層級結(jié)構(gòu)以及層級建模方式Fig.1 Label hierarchy and hierarchy modeling

        如何有效地利用層級結(jié)構(gòu)信息是HMTC任務(wù)中最關(guān)鍵的問題[4]。許多研究在處理HMTC問題的過程中完全或者部分忽略了這種層級結(jié)構(gòu)信息,導(dǎo)致模型整體的性能較低,尤其是在對較低層級標(biāo)簽的預(yù)測上面表現(xiàn)不佳[10]?,F(xiàn)有研究證明,引入層級結(jié)構(gòu)信息可以提高對層級標(biāo)簽的預(yù)測能力,從而提高HMTC任務(wù)的整體性能[11-12]。許多研究提出構(gòu)建一系列獨立訓(xùn)練并且按順序預(yù)測的局部分類器來解決HMTC問題,但是這種方式僅能實現(xiàn)局部最優(yōu)并且會造成誤差的傳播[13-14]。最近一些研究通過引入各種結(jié)構(gòu)(比如雙向樹形長短期記憶網(wǎng)絡(luò)或圖卷積網(wǎng)絡(luò)[15]、基于注意力的遞歸神經(jīng)網(wǎng)絡(luò)[16]等)來設(shè)計端到端的全局模型,這些模型往往使用相同的模型結(jié)構(gòu)來預(yù)測不同層級的標(biāo)簽,忽略了不同層級和粒度的標(biāo)簽之間的差異性和多樣性,影響了各層級標(biāo)簽的預(yù)測性能。另外,這些模型在利用標(biāo)簽結(jié)構(gòu)時通常采用編碼總體層級結(jié)構(gòu)信息(如圖1(b)所示)的方法,但是他們并沒有顯式和充分地建模層級依賴關(guān)系(如圖1(c)所示)以及引入了不必要的噪音,進而導(dǎo)致對較低層級長尾標(biāo)簽的預(yù)測性能較差,并且會造成標(biāo)簽不一致(Label Inconsistency)問題(一個標(biāo)簽節(jié)點被預(yù)測出來,但是其對應(yīng)的父節(jié)點標(biāo)簽沒有被預(yù)測出來,不符合現(xiàn)實應(yīng)用場景)[5]。

        因此當(dāng)前HMTC方法面臨的兩大問題為:(1)使用相同的模型結(jié)構(gòu)來預(yù)測不同層級的標(biāo)簽,忽略了不同層級和粒度的標(biāo)簽之間的差異性和多樣性,導(dǎo)致對各層級標(biāo)簽的預(yù)測性能較差;(2)沒有顯式和充分地建模層級依賴關(guān)系以及引入了不必要的噪音,造成對下層長尾標(biāo)簽的預(yù)測性能尤其差,并且會導(dǎo)致標(biāo)簽不一致問題。針對以上問題,本文創(chuàng)造性地將多任務(wù)學(xué)習(xí)(multi-task learning,MTL)架構(gòu)引入HMTC任務(wù)中,并基于此提出了MSML-BERT(multi-scale multi-layer BERT)模型。該模型將標(biāo)簽結(jié)構(gòu)中每一層的標(biāo)簽分類網(wǎng)絡(luò)視為一個學(xué)習(xí)任務(wù),通過任務(wù)間知識的共享和傳遞,提高HMTC任務(wù)的總體性能。

        在多任務(wù)架構(gòu)的基礎(chǔ)之上,針對問題(1),本文設(shè)計了多尺度特征抽取模塊(multi-scale feature extraction module,MSFEM)用于捕捉不同尺度和粒度的特征,形成不同層級分類任務(wù)所需要的各種知識,以提高各層任務(wù)的預(yù)測性能;進一步,針對問題(2),本文設(shè)計了多層級信息傳播模塊(multi-layer information propagation module,MLIPM),用于充分建模層級依賴,并將上層的特征表示中關(guān)鍵的信息傳播到下層特征表示中去,從而利用上層任務(wù)的知識來幫助下層的預(yù)測任務(wù),以提高對底層長尾標(biāo)簽的預(yù)測性能,并降低預(yù)測的標(biāo)簽不一致性。在該模塊中,本文設(shè)計了層次化門控機制(hierarchical gating mechanism),為了過濾不同層級任務(wù)之間的知識流動,保留有效知識而丟棄無效知識。最終,將MSML-BERT模型與目前主流的展平、局部和全局模型在經(jīng)典的文本分類數(shù)據(jù)集RCV1-V2、NYT和WOS上進行了大量的對比實驗,結(jié)果顯示該模型顯著地超過其他模型。另外,通過分層表現(xiàn)分析,證明了該模型在所有層級的表現(xiàn)上均顯著地優(yōu)于其他模型,尤其是對下層長尾標(biāo)簽具有更好的性能。然后,通過標(biāo)簽一致性分析,證明了該模型在具有強大的HMTC性能的同時,仍然保持較低的不一致比率,更加滿足現(xiàn)實場景的應(yīng)用需求。并且,通過消融實驗證明了各個模塊的有效性。

        綜上,本文的具體貢獻如下:

        (1)首次將多任務(wù)學(xué)習(xí)架構(gòu)引入HMTC任務(wù)中,提出MSML-BERT模型,通過各層級任務(wù)之間知識的共享和傳遞,提高HMTC任務(wù)的總體性能。

        (2)設(shè)計了多尺度特征抽取模塊(MSFEM),用于捕捉不同尺度和粒度的特征,以形成不同層級任務(wù)所需要的各種知識,以提高各層級任務(wù)的表現(xiàn)。

        (3)設(shè)計了多層級信息傳播模塊(MLIPM),用于建模層級依賴,在不同層級之間傳遞知識,以提升對下層長尾標(biāo)簽的預(yù)測表現(xiàn),并降低預(yù)測的標(biāo)簽不一致性。在該模塊中,設(shè)計了層次化門控機制(HGM),用于過濾不同層級任務(wù)之間的知識流動。

        (4)在數(shù)據(jù)集RCV1-V2、NYT和WOS上與當(dāng)前的主流方法進行了大量的對比實驗,結(jié)果表明本文的方法顯著超過了其他方法。分層分析表明該方法在各層級標(biāo)簽尤其是下層的長尾標(biāo)簽上的表現(xiàn)顯著超過其他方法。通過標(biāo)簽一致性分析表明該方法能保持較低的標(biāo)簽不一致比率。

        1 相關(guān)工作

        1.1 層級多標(biāo)簽文本分類

        在步入大數(shù)據(jù)時代之后,隨著實際應(yīng)用中將標(biāo)簽體系組織成層級結(jié)構(gòu)的場景越來越多,HMTC任務(wù)也因此獲得了廣泛的關(guān)注[1]。根據(jù)探索層級標(biāo)簽結(jié)構(gòu)方式的不同,HMTC方法主要可以分為:展平方法、局部方法和全局方法[4]。

        展平方法是處理HMTC問題最簡單的方法,這種方法假設(shè)層級結(jié)構(gòu)中的所有標(biāo)簽都是獨立的,并統(tǒng)一地對所有層級的標(biāo)簽進行展平的分類[10]。有些展平方法采用普通MTC的方式展平地預(yù)測所有層級的標(biāo)簽,而有些展平方法只預(yù)測葉子節(jié)點標(biāo)簽并啟發(fā)式地添加它們的祖先節(jié)點標(biāo)簽,這是不合理的,因為層級結(jié)構(gòu)信息都在一定程度上被忽略了。最近,一些神經(jīng)網(wǎng)絡(luò)方法在文本分類任務(wù)上取得了成功。RCNN[17]模型通過使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)來引入上下文信息進行后續(xù)的文本分類。Text-CNN[18]模型利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的特征抽取能力,使用不同尺寸的卷積核提取不同粒度的特征進行后續(xù)分類。Bi-BloSAN[19]模型將文本序列分成多個塊,并分別使用塊內(nèi)注意力機制和塊間注意力機制來捕捉局部和全局的上下文相關(guān)性。Peng等[20]通過修改以上經(jīng)典的RCNN、Text-CNN和Bi-BloSAN等模型的輸出層結(jié)構(gòu),并將它們應(yīng)用于HMTC任務(wù)。Liu等[21]修改了Text-CNN模型的結(jié)構(gòu)并提出了XML-CNN模型,通過增加瓶頸隱層和動態(tài)最大池化操作,用于解決HMTC任務(wù)。

        局部方法訓(xùn)練一系列獨立運行的局部分類器,并且預(yù)測通常以自上而下的順序進行,因此在某一層產(chǎn)生的錯誤分類將會向下傳播,這很容易讓模型的預(yù)測產(chǎn)生偏差。Cai等[11]將支持向量機(support vector machine,SVM)擴展成為層級分類方法,該方法以反映層級標(biāo)簽結(jié)構(gòu)的方式構(gòu)建判別函數(shù),稱為HSVM模型。Ruiz等[22]提出HME模型,采用分而治之的原則,為標(biāo)簽結(jié)構(gòu)的每一層單獨構(gòu)建分類器來處理。Bi等[23]提出CSSA模型,通過貝葉斯最優(yōu)化的方式進行預(yù)測以降低總體風(fēng)險,但是該模型仍然是以局部的方式進行訓(xùn)練的。Cerri等[24]提出HMC-LMLP模型,該模型通過增量訓(xùn)練的方式訓(xùn)練一組神經(jīng)網(wǎng)絡(luò),每個神經(jīng)網(wǎng)絡(luò)負責(zé)預(yù)測給定層級的標(biāo)簽類別。

        全局方法使用單個分類器并且更顯式地對標(biāo)簽層次結(jié)構(gòu)進行建模,模型通常采用端到端的方式訓(xùn)練并且對所有標(biāo)簽進行一次性地預(yù)測。Vens等[12]提出了Clus-HMC模型,該模型基于樹方法,使用單個決策樹(decision tree)來處理整個標(biāo)簽層級結(jié)構(gòu)。Borges等[25]提出使用競爭性神經(jīng)網(wǎng)絡(luò)(competitive neural network)來解決多標(biāo)簽分類,稱為MHC-CNN模型。Huang等[16]提出HARNN模型,通過使用分層注意力機制來捕捉文本和標(biāo)簽層級結(jié)構(gòu)之間的關(guān)聯(lián),逐層地預(yù)測文本的多個標(biāo)簽。Zhou等[15]利用雙向樹形長短期記憶網(wǎng)絡(luò)(bidirectional tree long short-term memory,Bi-TreeLSTM)和圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)結(jié)構(gòu)來建模層次關(guān)系,并且對層級的標(biāo)簽進行展平化的預(yù)測。Peng等[20]提出HE-AGCRCNN模型,通過聯(lián)合使用CNN、RNN、GCN和Capsule network結(jié)構(gòu)來建模層次關(guān)系,進而提高HMTC任務(wù)的性能。

        1.2 多任務(wù)學(xué)習(xí)

        多任務(wù)學(xué)習(xí)受到人類學(xué)習(xí)過程的啟發(fā),旨在用有限的標(biāo)記數(shù)據(jù),借助于公共知識來提高多個相關(guān)任務(wù)的泛化性能[26-27]。

        隨著深度學(xué)習(xí)的蓬勃發(fā)展,近期的多任務(wù)學(xué)習(xí)方法主要分為兩類:硬參數(shù)共享方法和軟參數(shù)共享方法。其中,在硬參數(shù)共享方法中,每個任務(wù)的模型由共享層和任務(wù)特定層兩個部分組成,共享層用于學(xué)習(xí)和共享通用的知識和表征,而任務(wù)特定層用于彌補不同任務(wù)之間的差異以及提高不同任務(wù)的泛化性[28]。而在軟參數(shù)共享方法中,不同的任務(wù)擁有獨立的模型,并且使用正則化的方法作用于不同模型參數(shù)之間的距離上,以使得相似任務(wù)的模型參數(shù)也相似[29]。

        多任務(wù)學(xué)習(xí)在現(xiàn)實世界的任務(wù)中有很多的應(yīng)用,比如在自然語言處理領(lǐng)域[30]、計算機視覺領(lǐng)域[31]等。多任務(wù)學(xué)習(xí)還與其他領(lǐng)域的知識相結(jié)合,產(chǎn)生了多任務(wù)多視角學(xué)習(xí)[32]、多任務(wù)強化學(xué)習(xí)[33]等。由于在HMTC任務(wù)中,不同層級的分類任務(wù)之間往往既存在共性又存在差異性,因此本文首次提出將多任務(wù)學(xué)習(xí)方法應(yīng)用于HMTC任務(wù)中,將標(biāo)簽層級結(jié)構(gòu)中每一層的標(biāo)簽分類問題都視為一個單獨的任務(wù)去處理。本文采取的多任務(wù)學(xué)習(xí)方法是硬參數(shù)共享方法,模型包括共享層和任務(wù)特定層。本文提出的MSML-BERT模型借助于多任務(wù)學(xué)習(xí)的優(yōu)勢,以提高不同層分類任務(wù)的表現(xiàn),同時提高HMTC任務(wù)整體的性能和泛化性。

        2 基于MSML-BERT模型的層級多標(biāo)簽文本分類方法

        首先,給出HMTC任務(wù)的問題定義:語料庫中的所有標(biāo)簽組織成一個總體的標(biāo)簽層級結(jié)構(gòu),將該結(jié)構(gòu)定義為T,一共有L層。語料庫中所有標(biāo)簽組成一個標(biāo)簽集合S。任意一條文本作為模型的輸入,定義為X。該條文本對應(yīng)的標(biāo)簽集合定義為Y,該條文本對應(yīng)的不同層的標(biāo)簽子集合分別定義為Y1,Y2,…,Y L。HMTC任務(wù)的目的是:設(shè)計一個模型,在給定任意一條文本輸入X的情況下,預(yù)測出該條文本對應(yīng)的標(biāo)簽集合Y,并且該標(biāo)簽集合Y中的多個標(biāo)簽要盡量滿足標(biāo)簽結(jié)構(gòu)T的約束。在MSML-BERT模型中,將任意一個神經(jīng)網(wǎng)絡(luò)定義為f(θ),其中θ為待估參數(shù)。

        如圖2所示,MSML-BERT模型是一個多任務(wù)學(xué)習(xí)的架構(gòu),包括共享層和任務(wù)特定層。其中BERT模型充當(dāng)了整體模型的共享層,用于學(xué)習(xí)和共享通用的特征和知識。而不同層級的標(biāo)簽分類網(wǎng)絡(luò)構(gòu)成了不同的任務(wù)特定層,用于彌補不同任務(wù)之間的差異,并且學(xué)習(xí)每一個任務(wù)特定的特征表示。

        圖2 MSML-BERT模型的總體結(jié)構(gòu)Fig.2 Entire architecture of MSML-BERT

        進一步地,任務(wù)特定層包括了多尺度特征抽取模塊(MSFEM)和多層級信息傳播模塊(MLIPM)。

        其中MSFEM用于根據(jù)不同層分類任務(wù)的需求,捕捉不同尺度的特征。而MLIPM用于將上層特征表示中有價值的信息傳遞到下層表示,幫助下層的標(biāo)簽分類任務(wù),進而提升HMTC任務(wù)的整體性能。

        2.1 模型共享層(Shared Layer)

        本文采用預(yù)訓(xùn)練BERT[34]模型來作為MSML-BERT模型的共享層部分。BERT模型由堆疊了12層的Transformer Encoder[35]結(jié)構(gòu)組成。Transformer Encoder結(jié)構(gòu)主要包括兩個子層:多頭自注意力機制(multi-head self-attention mechanism)和前饋網(wǎng)絡(luò)(feed-forward networks)。并且為了使模型能夠有效地訓(xùn)練和加速收斂,在每個子層后面采用了殘差連接(residual connection)和層歸一化(layer normalization)的操作。通過多個Transformer Encoder結(jié)構(gòu)的不斷堆疊,BERT最終能夠輸出一個結(jié)合上下文信息的高級語義表征。然后,會將該語義表征傳入后續(xù)不同的任務(wù)特定層進行處理,以用于不同層的分類任務(wù)。

        2.1.1 Transformer Encoder結(jié)構(gòu)

        Transformer Encoder結(jié)構(gòu)是BERT模型的基本組成單元,其基本結(jié)構(gòu)如圖3所示。每個Transformer Encoder結(jié)構(gòu)包含兩個子層:多頭自注意力機制和前饋網(wǎng)絡(luò)。同時,為了模型能夠有效地訓(xùn)練和加速收斂,每個子層后面還采用了殘差連接和層歸一化的操作。

        圖3 Transformer Encoder結(jié)構(gòu)Fig.3 Structure of Transformer Encoder

        2.1.2 多頭自注意力機制

        在文本分類中,自注意力機制是一種非常有效的方法,通過分配不同的權(quán)重來突出文本語義表征中的不同部分。首先,將輸入的文本X分別映射為矩陣Q、K和V,然后自注意力機制計算如下:

        公式(1)是單頭自注意力機制的計算過程,然而通常使用多頭自注意力機制進行并行計算,用于捕捉不同維度的文本特征,計算方式如下:

        其中W Qi、W Ki、W Vi和W O都是系數(shù)矩陣,head i表示第i頭的自注意力計算結(jié)果。

        2.1.3 前饋網(wǎng)絡(luò)

        除了多頭注意力機制,Transformer Encoder結(jié)構(gòu)還包括前饋網(wǎng)絡(luò)子層。該子層由兩個線性變換組成,并且在兩次線性變換中間穿插一個relu激活函數(shù):

        其中,W1和W2為系數(shù)矩陣,b1和b2為偏置項。前饋網(wǎng)絡(luò)能夠增強Transformer Encoder的非線性擬合能力。

        2.1.4 殘差連接和層歸一化

        殘差連接最先由計算機視覺領(lǐng)域提出,用于解決深層神經(jīng)網(wǎng)絡(luò)的梯度消失問題[36]。層歸一化是跨特征維度進行歸一化計算,為了讓深層神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分布更加穩(wěn)定[37]。

        因為BERT模型是由多層堆疊的Transformer Encoder構(gòu)成的,并且每層結(jié)構(gòu)中又包括多頭注意力機制和前饋網(wǎng)絡(luò)子層,因此BERT的模型結(jié)構(gòu)非常深,所以采用了殘差連接和層歸一化操作來防止梯度消失,同時也避免每一層數(shù)據(jù)分布不穩(wěn)定的情況。公式如下:

        其中,Sublayer表示自注意力機制或者前饋網(wǎng)絡(luò)子層,Layer Norm表示層歸一化操作,x表示子層的輸入,y表示經(jīng)過殘差連接和層歸一化操作之后的輸出。

        2.2 任務(wù)特定層(Task-specific Layers)

        共享層的BERT模型輸出一個通用的高級語義表示,隨后會將該語義表示傳入后續(xù)不同的任務(wù)特定層進行處理,以用于不同層的分類任務(wù)。根據(jù)層級標(biāo)簽結(jié)構(gòu)的層數(shù)構(gòu)建任務(wù)特定層,將每一層的標(biāo)簽分類問題都視為一個單獨的任務(wù)。

        任務(wù)特定層包括了MSFEM和MLIPM。一方面,MSFEM采用不同尺寸的CNN來捕捉多尺度的深層次結(jié)構(gòu)特征,然后不同尺度的特征將用于不同層的標(biāo)簽的分類任務(wù)。并且CNN的計算可以并行化,運算速度快,將CNN用在不同的任務(wù)特定層中以提高各層任務(wù)的分類性能。另一方面,受到用于優(yōu)化推薦任務(wù)的個性化特征門控機制的啟發(fā)[38],本文設(shè)計了一個層次化門控機制(hierarchical gating mechanism,HGM)。MLIPM通過使用HGM,將上層任務(wù)中有價值的信息和有用的特征傳遞到下層任務(wù)中,同時丟棄那些冗余的特征。

        2.2.1 多尺度特征抽取模塊(MSFEM)

        已知任意一條文本X經(jīng)過共享的BERT層,得到該條文本的通用特征表示E∈?n×d,其中n表示輸入文本的長度,d表示文本中每一個字向量的維度。

        其中,E i∈?d表示文本中第i個字對應(yīng)的字向量,E i:i+j表示字向量E i,E i+1,…,E i+j的拼接。

        在通用文本表征E的基礎(chǔ)上,MSFEM為不同層級的分類任務(wù)抽取多尺度的特征。該模塊針對層級結(jié)構(gòu)的不同層次,采用不同尺寸的一維卷積核作用于通用文本表征E,一維卷積核的高度與字向量的維度d相同,但是不同層級對應(yīng)的一維卷積核的寬度不同。第l層的一維卷積核的寬度為h l(1≤l≤L),且滿足h1>…>h l>…>h L。對于較上的層級采用較寬的一維卷積核提取粗粒度特征,對于較下的層級采用較窄的一維卷積核提取細粒度特征。

        對于標(biāo)簽結(jié)構(gòu)的第l層,采用K個寬度為h l的一維卷積核作用于文本表征E上以提取特征圖M l,具體過程如公式(7)~(9)所示:

        其中,W lk是標(biāo)簽結(jié)構(gòu)中第l層所對應(yīng)的第k個(1≤k≤K)一維卷積核權(quán)重矩陣,該一維卷積核作用于字向量窗口E i:i+hl-1產(chǎn)生一個新特征r i,其中b是偏置項,relu是激活函數(shù)。一維卷積核作用于每一個可能的字向量窗口上得到特征向量R,多個特征向量組合得到第l層對應(yīng)的特征圖M l。

        最大池化操作作用于特征圖M l中的每一個特征向量R i,得到相應(yīng)最顯著的特征r?i。最終,將所有顯著的特征拼接,得到對應(yīng)層級結(jié)構(gòu)中第l層的獨立特征表示為F′l,具體公式如下:

        至此,MSFEM為層級結(jié)構(gòu)的每一層產(chǎn)生一個獨立的特征表示F′l,用于該層的分類任務(wù)。

        2.2.2 多層級信息傳播模塊(MLIPM)

        上文通過MSFEM學(xué)習(xí)的文本在各個層級的特征表示F′l是相互獨立的。根據(jù)文獻[6]可知,同屬于一個父類的類別共享某些公共的特征和信息,低層級的特征表示應(yīng)該包含某些高層級的表示信息。因此,本文設(shè)計了MLIPM,將上層特征表示中有價值的信息傳遞到下層,通過將上層的某些特征信息與本層特征信息融合以產(chǎn)生本層的層次化表征,用于本層的分類任務(wù)。MLIPM塊中采用了一個層次化門控機制(HGM),用來決定哪部分上層特征表示被保留到下層表示中,同時決定哪部分上層特征表示被舍棄。因此,第l層最終的層次化特征表示F l,應(yīng)該由本層的獨立特征表示F′l和上一層的層次化特征表示F l-1聯(lián)合決定,具體計算過程如下:

        其中,HGM表示層次化門控機制(hierarchical gating mechanism)。

        具體來說,對于上層的層次化特征表示F l-1,下層的獨立特征F′l表示只關(guān)注其中的有效特征部分,而忽略其他沒有價值的信息。因此,HGM可以根據(jù)本層獨立特征表示F′l的需求來量身定制地選擇繼承上層的層次化特征表示F l-1中有價值的那部分信息。如圖4所示,HGM以上一層的層次化特征表示F l-1和本層的獨立特征表示F′l作為輸入,以本層最終的層次化特征表示F l作為輸出。其中H Gating表示層次化門控單元,?表示逐元素乘法,⊕表示拼接操作。

        圖4 HGM的結(jié)構(gòu)Fig.4 Structure of HGM

        HGM的具體計算過程如下:

        其中,W l-1和W l為權(quán)重參數(shù)矩陣,b為偏置項,σ為sigmoid激活函數(shù)。通過將W l-1和W l分別作用于F l-1和F′l并且通過sigmoid激活函數(shù)得到相應(yīng)的門控分數(shù)。進一步,上層的層次化特征表示F l-1在門控分數(shù)的作用下生成中間表示F*l-1。最后,將上層對應(yīng)的中間表示F*l-1與本層的獨立的特征表示F′l拼接,從而得到最終的第l層的層次化特征表示F l。

        2.2.3 模型輸出

        本文采用多任務(wù)學(xué)習(xí)的框架來處理HMTC任務(wù),將每一層的多標(biāo)簽分類視為是一個任務(wù)。對于第l層的多標(biāo)簽分類任務(wù),層次化特征表示F l首先被送入一個全連接層,如下公式所示:

        其中,Wo表示全連接層的系數(shù)矩陣,b o表示偏置項,relu表示非線性激活函數(shù),O l表示第l層對應(yīng)的全連接層的輸出。

        最后,將第l層的全連接層輸出O l逐元素地送入sigmoid激活函數(shù)進行輸出,如下:

        其中,σ表示sigmoid激活函數(shù),表示層級結(jié)構(gòu)中第l層的第j個類別的輸出概率。

        因此,第l層的損失函數(shù)可以定義為:

        其中,ylj是層級結(jié)構(gòu)中第l層的第j個類別的期望輸出,|l|表示層次結(jié)構(gòu)中第l層的總的類別數(shù)目。

        MSML-BERT模型的總損失Ltotal為所有層的分類任務(wù)的損失之和,如下所示:

        3 實驗

        3.1 實驗準(zhǔn)備

        3.1.1 數(shù)據(jù)集和數(shù)據(jù)預(yù)處理

        選擇了三個經(jīng)典的文本分類公開數(shù)據(jù)集用于HMTC實驗,包括:RCV1-V2(reuters corpus volume I)數(shù)據(jù)集[39]、NYT(the New York Times annotated corpus)數(shù)據(jù)集[40]和WOS(Web of science)數(shù)據(jù)集[14]。其中,RCV1-V2數(shù)據(jù)集和NYT數(shù)據(jù)集都是新聞文本語料庫,而WOS數(shù)據(jù)集包括來自Web of Science的已經(jīng)發(fā)表論文的摘要。這些數(shù)據(jù)集的標(biāo)簽都組織成樹狀的層級結(jié)構(gòu)。

        根據(jù)前文,專注于多路徑和強制性場景的HMTC任務(wù),因此需要對這幾個數(shù)據(jù)集做一定的預(yù)處理[6]。對于RCV1-V2和NYT數(shù)據(jù)集,選擇滿足多路徑和強制性要求的那部分數(shù)據(jù),即層級標(biāo)簽結(jié)構(gòu)具有一條或者多條路徑,并且不同路徑的長度都等于3。由于WOS數(shù)據(jù)集本身就滿足強制性需求,不需要對其進行預(yù)處理,但是需要注意WOS數(shù)據(jù)集對應(yīng)的層級標(biāo)簽結(jié)構(gòu)中路徑的長度為2。然后隨機地將這些數(shù)據(jù)集劃分成訓(xùn)練集、驗證集和測試集。相關(guān)數(shù)據(jù)的統(tǒng)計信息詳見表1。

        表1 數(shù)據(jù)集的統(tǒng)計信息Table 1 Statistics of datasets

        3.1.2 評價指標(biāo)

        選取用于HMTC任務(wù)中常用的評價指標(biāo)Micro-F1值和Macro-F1值[15],來衡量各個模型的表現(xiàn)。

        (1)Micro-F1值

        Micro-F1值是考慮到所有標(biāo)簽的整體精確率和召回率的F1值。用TPt、FP t、FN t分別表示總體標(biāo)簽集合S中第t個標(biāo)簽的真陽性、假陽性、假陰性。那么Micro-F1值的計算如下所示:

        (2)Macro-F1值

        Macro-F1值是另一種F1值,它計算標(biāo)簽結(jié)構(gòu)中所有不同的類別標(biāo)簽的平均F1值。Macro-F1賦予每個標(biāo)簽相同的權(quán)重。形式上,Macro-F1值定義如下:

        總的來說,Micro-F1值對所有的樣本進行均等加權(quán),而Macro-F1值對所有的標(biāo)簽進行均等加權(quán)。由于Micro-F1值對出現(xiàn)更頻繁的標(biāo)簽賦予更大的權(quán)重,Macro-F1對所有標(biāo)簽賦予相同的權(quán)重,因此Macro-F1值對更難預(yù)測的底層標(biāo)簽更加敏感。

        3.1.3 實驗設(shè)置

        MSML-BERT模型中共享層部分采用的是BERTbase模型[34]。BERT-base中包含的參數(shù)量約為109×106。BERT-base中有12層Transformer Encoder結(jié)構(gòu),每層的嵌入維度為768,前向?qū)泳S度為3 072,注意力頭數(shù)為12。在訓(xùn)練(training)和推理(inference)階段,BERT編碼器的最大長度設(shè)置為300。MSML-BERT模型在訓(xùn)練階段的總損失是每個層級任務(wù)的損失之和,每個任務(wù)的損失的系數(shù)均設(shè)置為0.3。本文在訓(xùn)練MSML-BERT模型時選擇Adam優(yōu)化器,并將學(xué)習(xí)率設(shè)置為3×10-4,將batch size設(shè)置為15。其他的一些諸如dropout比率,權(quán)重衰減率等超參數(shù)的設(shè)置與原始預(yù)訓(xùn)練模型保持一致。本文使用Pytorch框架來實現(xiàn)MSML-BERT模型,并在GeForceRTX 2080 TiGPU上面進行實驗。

        3.2 實驗結(jié)果

        本文提出的MSML-BERT模型與其他目前主流的模型在RCV1-V2、NYT和WOS數(shù)據(jù)集上進行了詳細的實驗對比,具體的實驗結(jié)果如表2和表3所示。選擇的基線方法包括展平方法、局部方法和全局方法。其中展平方法包括RCNN模型[17]、Text-CNN模型[18]、Bi-BloSAN模型[19]和XML-CNN模型[21],局部方法包括HSVM模型[11]、HME模型[22]、CSSA模型[23]和HMC-LMLP模型[24],全局方法包括Clus-HMC模型[12]、MHC-CNN模型[25]、HARNN模型[16]、HiAGM模型[15]和HE-AGCRCNN模型[20]。為了更加明確地對比不同方法的性能,表2和表3中的每一類方法都按照性能由低到高的順序排列。

        表2 Micro-F1指標(biāo)上的表現(xiàn)Table 2 Performanceon Micro-F1

        表3 Macro-F1指標(biāo)上的表現(xiàn)Table 3 Performance on Macro-F1

        所有模型在Micro-F1指標(biāo)上的實驗結(jié)果如表2所示,在三個文本分類公開數(shù)據(jù)集上,本文提出的MSMLBERT模型相比其他所有的展平方法、局部方法和全局方法均取得了更好的表現(xiàn),這體現(xiàn)了MSML-BERT模型在解決HMTC問題上的優(yōu)越性。MSML-BERT模型在RCV1-V2、NYT和WOS數(shù)據(jù)集上面取得的最好的Micro-F1值表現(xiàn)分別為81.8%、75.4%和85.5%,這說明了MSMLBERT模型在充分挖掘了層級標(biāo)簽結(jié)構(gòu),通過建模層次依賴有效地提升了HMTC任務(wù)的整體性能。

        所有模型在Macro-F1指標(biāo)上的實驗結(jié)果如表3所示,取得了與Micro-F1指標(biāo)上相一致的結(jié)論,即MSMLBERT模型在Macro-F1值指標(biāo)上超過了其他所有的展平方法、局部方法和全局方法。MSML-BERT模型在RCV1-V2、NYT和WOS數(shù)據(jù)集上面取得的最好的Macro-F1值表現(xiàn)分別為59.7%、50.6%和62.9%。該模型在Macro-F1指標(biāo)上取得了巨大的提升,結(jié)合Macro-F1指標(biāo)對稀疏標(biāo)簽更加敏感的特性,可知MSML-BERT模型在預(yù)測下層的稀疏標(biāo)簽上具有更大的優(yōu)勢,這是因為本文的模型通過對層級依賴的建模,利用了從上層學(xué)到的知識來幫助下層標(biāo)簽的預(yù)測。

        3.3 性能分析

        首先,本文進一步做了消融實驗來分別驗證MSFEM和MLIPM的有效性。接著,本文做了模型的分層表現(xiàn)分析來進一步探究模型在不同層級上面的具體表現(xiàn)。最后,本文做了模型預(yù)測的標(biāo)簽一致性分析,來驗證模型是否符合現(xiàn)實應(yīng)用場景的需求。

        3.3.1 消融實驗

        本文使用MSML-BERT在RCV1-V2數(shù)據(jù)集上面做了消融實驗分析,實驗結(jié)果如表4所示。在表4中,BERT表示采用普通MTC的方式,直接使用BERT模型統(tǒng)一對所有層級的標(biāo)簽進行一次性的展平分類;MS-BERT相比BERT多了MSFEM,表示采用多任務(wù)架構(gòu),分別處理每一層的標(biāo)簽分類任務(wù),使用MSFEM抽取多尺度的特征,用于不同層的標(biāo)簽分類任務(wù);MSMLBERT即是本文提出的最終模型,在MS-BERT的基礎(chǔ)之上又多了MLIPM,該模塊用于將上層中的有效信息傳播到下層,以幫助下層的標(biāo)簽分類任務(wù)。

        表4 MSML-BERT模型的消融分析Table 4 Ablation analysis of MSML-BERT

        表4的前兩行說明了MSFEM的有效性。通過MSFEM,模型可以捕捉不同層分類任務(wù)所需要的多尺度的特征,使得模型能夠充分挖掘?qū)蛹壗Y(jié)構(gòu)的信息。因此,該模塊提高了每一個層級的分類性能,進而提升HMTC任務(wù)整體的表現(xiàn)。該模塊使得模型的Micro-F1指標(biāo)和Macro-F1指標(biāo)分別提高了0.9和1.6個百分點。

        類似地,表4的后兩行說明了MLIPM的有效性。借助于MLIPM,模型將上層表征中的有效信息傳播到下層表征中去,然后對不同層級的多尺度特征做充分的融合,使得模型能夠很好地建模層次依賴關(guān)系。借助于該模塊,模型提高了下層標(biāo)簽的預(yù)測表現(xiàn),同時也提高了整體任務(wù)的性能。該模塊使得模型的Micro-F1指標(biāo)和Macro-F1指標(biāo)分別提高了2.3和1.9個百分點。

        3.3.2 分層表現(xiàn)分析

        在HMTC任務(wù)中,除了預(yù)測整個標(biāo)簽層級結(jié)構(gòu)中的所有標(biāo)簽,準(zhǔn)確地預(yù)測每個層級的標(biāo)簽類別也同樣重要。因此,本文在每個層級上都將MSML-BERT模型與其他模型的表現(xiàn)做了對比。實驗在RCV1-V2數(shù)據(jù)集上進行,并且選用對模型表現(xiàn)更敏感的Macro-F1值作為對比指標(biāo)。

        關(guān)于不同層級的表現(xiàn),本文將所提出的方法與表2、表3中的所有展平方法、局部方法和全局方法進行了對比,結(jié)果顯示本文提出的MSML-BERT模型在每個層級上都獲得了最好的表現(xiàn)并且顯著地優(yōu)于其他模型。由于其他方法的分層表現(xiàn)比較接近,在圖上顯示比較密集,為了獲得更加清晰的視圖,本文在對比的展平方法、局部方法和全局方法中分別選取兩種在分層性能上表現(xiàn)最好的方法展示于圖中,詳細結(jié)果見圖5。該圖顯示,MSML-BERT在標(biāo)簽結(jié)構(gòu)的所有層級上的Macro-F1值表現(xiàn)都優(yōu)于其他方法,這是因為MSML-BERT模型相比其他模型更加充分挖掘了層級結(jié)構(gòu)信息,同時也因為MSML-BERT模型建模了層級依賴關(guān)系。

        圖5 模型在不同層級上的表現(xiàn)Fig.5 Model performance in different layers

        此外,圖5顯示隨著層次的深入,MSML-BERT模型與其他模型之間的差距也越來越大。這說明隨著層級的增長,標(biāo)簽預(yù)測變得越來越困難,MSML-BERT利用從上層表征中學(xué)習(xí)到的知識來幫助下層長尾標(biāo)簽分類的策略變得越來越有價值。

        3.3.3 標(biāo)簽一致性分析

        標(biāo)簽不一致問題是HMTC任務(wù)中的一個嚴(yán)重的問題,因為它違反了實際應(yīng)用場景的需求,但是標(biāo)簽不一致很難被諸如Micro-F1值的這種標(biāo)準(zhǔn)評價指標(biāo)所反映出來[5]。標(biāo)簽不一致經(jīng)常發(fā)生在那些采用統(tǒng)一的方式處理不同層的標(biāo)簽分類任務(wù)的方法中,這些方法往往采用統(tǒng)一的方式處理不同層級的標(biāo)簽分類任務(wù),獨立地預(yù)測所有標(biāo)簽,一定程度上忽略了標(biāo)簽層級結(jié)構(gòu)信息,因此會導(dǎo)致標(biāo)簽不一致性的出現(xiàn)。

        現(xiàn)有研究中通常使用標(biāo)簽不一致比率來衡量標(biāo)簽不一致性,標(biāo)簽不一致比率為具有不一致標(biāo)簽的預(yù)測數(shù)與總預(yù)測數(shù)的比例。值得一提的是,本文提出的MSML-BERT模型在具有出色的分類性能的同時,也保持了較低的標(biāo)簽不一致比率,使得標(biāo)簽不一致比率顯著低于其他方法。本文在RCV1-V2數(shù)據(jù)集上做了MSML-BERT與其他模型的標(biāo)簽不一致性對比實驗。實驗結(jié)果表明MSML-BERT模型與其他所有的對比模型相比,具有最低的不一致比率,為了表格更加簡潔,本文在對比的展平方法、局部方法和全局方法中分別選取兩種不一致率最低的方法展示于表格中,實驗結(jié)果詳見表5。這是因為該模型分別把每一層的標(biāo)簽分類問題當(dāng)做一個單獨的任務(wù)去處理,同時本文在處理當(dāng)前層任務(wù)的時候,也會結(jié)合使用其他層的信息,因此能夠獲得較低的標(biāo)簽不一致比率。

        表5 標(biāo)簽不一致比率Table 5 Label inconsistency ratio

        4 結(jié)束語

        本文首次將多任務(wù)學(xué)習(xí)框架引入HMTC任務(wù)中,并提出了MSML-BERT模型,通過各層級任務(wù)之間知識的共享和傳遞,提高模型在HMTC任務(wù)上的整體性能。基于此,設(shè)計了多尺度特征抽取模塊,用于捕捉不同粒度和尺度的特征,形成不同層任務(wù)所需的知識,以提高各層級任務(wù)的性能。同時設(shè)計了多層級信息傳播模塊,用于充分建模層級依賴信息,將上層任務(wù)的知識傳遞到下層任務(wù)中,以提升對底層長尾標(biāo)簽的預(yù)測性能。在RCV1-V2、NYT和WOS數(shù)據(jù)集上進行了大量的實驗,結(jié)果顯示該模型的整體性能顯著超過其他模型。分層表現(xiàn)分析顯示該模型在各層標(biāo)簽尤其是底層長尾標(biāo)簽上的表現(xiàn)顯著優(yōu)于其他模型。標(biāo)簽一致性分析表明本文方法具有更低的標(biāo)簽不一致比率,具有更好的現(xiàn)實應(yīng)用價值。

        猜你喜歡
        層級標(biāo)簽分類
        分類算一算
        軍工企業(yè)不同層級知識管理研究實踐
        基于軍事力量層級劃分的軍力對比評估
        分類討論求坐標(biāo)
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        數(shù)據(jù)分析中的分類討論
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        教你一招:數(shù)的分類
        標(biāo)簽化傷害了誰
        任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
        亚洲欧美国产精品久久久| 成熟的女人毛茸茸色视频| 在线亚洲精品一区二区三区| 国产精品久久av色婷婷网站| 国产精品亚洲综合久久系列| 嗯啊好爽高潮了在线观看| 亚洲av中文无码字幕色本草| 国产真实乱对白精彩| 亚洲精品无码高潮喷水在线| 国产精品九九热| 国产成人永久在线播放| 中文字幕你懂的一区二区| 极品精品视频在线观看| 久久精品国产亚洲av天美| 精品熟人妻一区二区三区四区不卡| 日韩内射美女片在线观看网站| 亚洲精品久久久久中文字幕一福利 | 亚洲中文字幕诱惑第一页| 在线观看国产精品一区二区不卡| 一区二区三区中文字幕在线观看 | 男女猛烈拍拍拍无挡视频| 婷婷色香五月综合激激情| 天天燥日日燥| 亚洲免费av电影一区二区三区| 日韩在线观看网址| 久久精品有码中文字幕1| 国产成人精品中文字幕| 亚洲最新精品一区二区| 亚洲精品国产第一综合色吧 | 国产又色又爽无遮挡免费软件| 久久无码人妻精品一区二区三区| 香蕉视频www.5.在线观看| 久久久精品国产视频在线| 琪琪av一区二区三区| 各类熟女熟妇激情自拍| 久久久久久久亚洲av无码| 国产农村妇女精品一二区| 欧美性猛交xxxx黑人猛交| 国产精品九九热| 国产猛男猛女超爽免费av| 日韩中文字幕有码午夜美女|