亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于局部注意力機(jī)制的弱監(jiān)督長文檔分類①

        2022-01-06 08:04:50馬雯琦
        關(guān)鍵詞:分類特征模型

        馬雯琦, 何 躍

        1(中國科學(xué)技術(shù)大學(xué) 管理學(xué)院, 合肥 230026)

        2(四川大學(xué) 商學(xué)院, 成都 610065)

        文本分類是自然語言處理中一類重要任務(wù)[1], 包括主題標(biāo)注[2]、情感分類[3]、垃圾郵件檢測[4]等應(yīng)用.文檔是文本的一種常見形式, 現(xiàn)實世界中, 存在大量長文檔, 例如學(xué)術(shù)期刊論文、商業(yè)報告和書籍等.文檔分類可用于滿足檢索、查詢等需求, 也可用于識別并過濾暴力、色情、種族歧視等劣質(zhì)內(nèi)容.從內(nèi)容結(jié)構(gòu)上看,文檔具有層級結(jié)構(gòu), 即詞語組成句子, 句子組成文檔[1].文檔的特征提取和向量表示是文檔分類中的關(guān)鍵[5].傳統(tǒng)的文本分類方法, 例如詞袋模型[6]、n-Grams[7]使用統(tǒng)計學(xué)方法把文檔表示為N維特征向量, 并交由SVM[8]或樸素貝葉斯[9]模型來做分類.這些方法簡單穩(wěn)健, 但是忽略了文檔的結(jié)構(gòu)信息, 丟棄了部分句子間和詞語間的關(guān)系.

        近年來, 基于深度學(xué)習(xí)的方法展示出相比于傳統(tǒng)分類方法的優(yōu)越性.Kim[10]使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的變體模型自動地從由詞向量表示的句子中抽取特征, 再把特征輸入到分類網(wǎng)絡(luò)中預(yù)測句子類別.Lee等人[11]提出一種同時使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和CNN的模型, 能夠序列地對抽取到的卷積特征進(jìn)行編碼, 該模型在短文本分類任務(wù)上取得最高水平的(state-ofthe-art)結(jié)果.這些模型在進(jìn)行特征抽取時, 使用整個文本的內(nèi)容, 在處理句子或者影評、短信等形式的短文本時, 計算開銷是可以容忍的.然而, 如果直接套用在長文檔上, 一方面, 由于長文檔的內(nèi)容量往往是普通短文本的成百上千倍, 表示長文檔的特征向量將是超高維的, 極大增加內(nèi)存壓力; 另一方面, 參照人類閱讀習(xí)慣, 人類僅根據(jù)少數(shù)重要的文檔片段便能判斷文檔類別, 所有詞語或句子對文檔分類結(jié)果的貢獻(xiàn)并不是均等的[12], 那么使用整個文檔內(nèi)容構(gòu)建表示向量就是不必要的.從這個角度出發(fā), 如何從文檔中選取出最重要的、包含判別信息的文檔片段, 是設(shè)計可行且高效的文檔分類方法的關(guān)鍵.Yang等人[1]提出用于文檔分類的層級注意力網(wǎng)絡(luò)(HAN), 與文檔的層級結(jié)構(gòu)相對應(yīng),HAN也具有層級結(jié)構(gòu), 它的兩級注意力機(jī)制分別關(guān)注句子層面和詞語層面, 使模型在構(gòu)造文檔表示時對重要性強和重要性弱的內(nèi)容做不同程度的關(guān)注.與Yang等人的思想相類似, He等人[12]同樣使用注意力機(jī)制篩選重要的文檔信息, 模型性能顯著高于基準(zhǔn)模型Kim[10].然而, He等人[12]中用于抽取文本特征的CNN與基準(zhǔn)模型Kim[10]的設(shè)計完全相同, 側(cè)重提取短語范圍內(nèi)的詞語關(guān)系, 可能不擅長處理包含長句的文檔片段; 此外,He等人[12]使用不可微分的硬注意力機(jī)制[13], 大大增加模型訓(xùn)練難度.本研究對He等人[12]的模型做出改進(jìn),提出基于局部注意力[14]的長文檔分類(Local-Attentionbased Long Document Classification, LALDC)模型,LALDC利用循環(huán)注意力學(xué)習(xí), 序列地預(yù)測重要文檔片段的位置, 并抽取該位置附近的文本特征, 經(jīng)過若干次循環(huán), 抽取到的特征向量被整合起來作為文檔的摘要特征, 輸入后續(xù)分類網(wǎng)絡(luò), 獲得預(yù)測結(jié)果.LALDC的設(shè)計結(jié)構(gòu)使它能夠很好地適應(yīng)長文檔分類任務(wù), 原因在于, LALDC沒有使用文檔所有的細(xì)節(jié)信息[15], 僅僅使用少數(shù)文檔片段構(gòu)造判別特征, 就足以支撐分類任務(wù).

        此外, 訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)需要大量標(biāo)記數(shù)據(jù), 而獲取標(biāo)記數(shù)據(jù)往往成本高昂, 缺乏標(biāo)記數(shù)據(jù)造成的弱監(jiān)督是阻礙模型性能提升的瓶頸.目前, 對弱監(jiān)督學(xué)習(xí)還沒有嚴(yán)格的定義.Zhou[16]把弱監(jiān)督分為3種類型:(1) 不完全監(jiān)督, 訓(xùn)練數(shù)據(jù)中僅有一小部分帶有標(biāo)簽;(2) 不確切監(jiān)督, 訓(xùn)練數(shù)據(jù)的標(biāo)簽是粗粒度的; (3) 不精確監(jiān)督, 訓(xùn)練數(shù)據(jù)的標(biāo)簽不總是真實的.本研究面臨的弱監(jiān)督屬于第1種類型.Meng等人[17]提出一種弱監(jiān)督方法, 解決使用深度學(xué)習(xí)做文本分類任務(wù)時經(jīng)常面臨的數(shù)據(jù)缺失問題.該方法由兩個模塊構(gòu)成: (1) 偽文檔生成模塊, 利用種子信息(例如少量標(biāo)記文檔、類別關(guān)鍵詞、類別名稱等)生成偽標(biāo)記文檔, 用于對基于CNN或RNN的模型做預(yù)訓(xùn)練; (2) 自訓(xùn)練模塊, 在真實的未標(biāo)記數(shù)據(jù)上通過Bootstrap方法對模型做參數(shù)微調(diào).Meng等人[17]的方法能夠靈活處理不同類型的弱監(jiān)督信號, 并容易整合到現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)模型中.然而, 使用該方法生成的偽文檔中, 詞語之間沒有前后語義關(guān)系, 并不符合真實文檔的情況.本研究借鑒Meng等人的偽文檔生成模塊, 并做出實質(zhì)性改進(jìn), 提出偽文檔生成(Pseudo-Document Generation, PDG)模型, 利用弱監(jiān)督信號生成接近真實文檔的偽標(biāo)記文檔, 能夠增強訓(xùn)練數(shù)據(jù), 提升模型精度.

        綜上所述, 本研究的貢獻(xiàn)主要在兩方面: PDG模型用于生成偽文檔, 緩解數(shù)據(jù)不足造成的模型精度難以提升的問題; LALDC模型用于長文檔分類, 解決過往的深度神經(jīng)網(wǎng)絡(luò)模型難以適應(yīng)長文檔的問題, 在模型精度、訓(xùn)練和推斷速度上均具有實際應(yīng)用的價值.

        1 研究設(shè)計

        本研究可拆分為偽文檔生成、長文檔分類兩部分.首先使用PDG模型生成偽文檔以增強訓(xùn)練數(shù)據(jù), 然后使用LALDC 模型預(yù)測文檔所屬類別.圖1展示了整個流程.

        圖1 弱監(jiān)督長文檔分類的流程

        1.1 偽文檔生成模型

        Meng等人[17]利用種子信息捕捉詞語、文檔、類別之間的語義相關(guān)性, 假設(shè)詞語和文檔共享一個聯(lián)合語義空間, 基于這個空間學(xué)習(xí)出能夠為每個類別生成偽文檔的生成模型.具體而言, 使用Skip-Gram模型[18]學(xué)習(xí)出語料庫中所有詞語的p維向量表示并做歸一化,使得所有詞向量都處在p維單位球空間上, 也就是聯(lián)合語義空間.對于標(biāo)記文檔形式的種子信息, 先使用TFIDF加權(quán)法提取每個類別的種子關(guān)鍵詞, 再從語義空間中尋找與種子關(guān)鍵詞平均相似度最高的前t個類別關(guān)鍵詞, 使用它們?nèi)M合一個von Mises Fisher (vMF)分布[19], 也就是該類別在Rp中單位球上的語義模型.

        偽文檔生成過程中, Meng等人[17]使用了生成式混合模型: 從由背景分布(整個語料庫的分布)和特定類別的vMF分布構(gòu)成的混合分布中重復(fù)做單詞采樣來生成偽文檔.這個方法看似高效穩(wěn)定, 但由于每次采樣都是獨立的, 導(dǎo)致生成的偽文檔中詞語亂序, 不符合一篇文檔在意思表達(dá)上應(yīng)該連貫通順的認(rèn)知.為使生成的詞語之間具有時序上的聯(lián)系, 本研究使用基于門控循環(huán)單元(GRU)[20]的循環(huán)神經(jīng)網(wǎng)絡(luò)生成具有意義的偽文檔.具體而言, 基于整個語料庫訓(xùn)練GRU語言模型, 對于每個類別, 從該類別的vMF分布中采樣1個詞嵌入向量, 并使用嵌入空間中最接近這個向量的詞語作為序列的第1個詞語, 然后把這個序列輸入到GRU模型中生成下一個詞語, 把它拼接到序列末尾并重復(fù)上個步驟, 直到序列長度等于一個事先設(shè)定好的參數(shù), 最終的序列就作為該類別的一篇偽文檔.圖2展示了整個流程.

        圖2 使用PDG模型生成偽文檔的流程

        1.2 基于局部注意力機(jī)制的長文檔分類模型

        LALDC由3個子網(wǎng)絡(luò)和1個初始特征組成: 摘要網(wǎng)絡(luò)、定位網(wǎng)絡(luò)、分類網(wǎng)絡(luò)和初始文檔表示, 模型架構(gòu)如圖3所示.在每個時間步, 給定由定位網(wǎng)絡(luò)輸出的位置post, 摘要網(wǎng)絡(luò)從post前后的文檔片段所包含的詞語中抽取局部特征.LALDC的關(guān)鍵點在于能否準(zhǔn)確找到包含判別信息的文檔片段所在的位置, 定位網(wǎng)絡(luò)通過循環(huán)注意力機(jī)制完成這一任務(wù), 它基于觀察到的上下文信息, 決定要把注意力放在文檔的哪個片段, 使得摘要網(wǎng)絡(luò)抽取到的信息足以支撐后續(xù)分類任務(wù).初始文檔表示包含文檔的初始上下文信息, 為定位網(wǎng)絡(luò)提供了第1個輸入, 使得定位網(wǎng)絡(luò)在第1個時間步就能準(zhǔn)確找出位置.幾輪特征抽取后, 得到原文檔的摘要特征, 隨后輸入到分類網(wǎng)絡(luò)中預(yù)測文檔類別.此外, LALDC使用Embedding層把文檔中的詞語轉(zhuǎn)換為詞向量(由預(yù)訓(xùn)練好的GloVe[21]表示).

        圖3 LALDC的模型架構(gòu)

        (1) 摘要網(wǎng)絡(luò)

        在第t個時間步, 摘要網(wǎng)絡(luò)從由位置post決定的文檔片段中抽取特征.通過卷積和池化操作, 把詞向量編碼成特征向量, 并連結(jié)位置特征pt, 一起映射為長度固定的特征st, 作為定位網(wǎng)絡(luò)的輸入.Kim[10]提出用于句子分類的CNN模型, 抽取文本特征的卷積核窗口大小為3、4、5, 模型在多個數(shù)據(jù)集上表現(xiàn)優(yōu)異.Zhang等人[22]對用于句子分類的CNN做了全面實驗分析, 指出對于非常長的句子, 應(yīng)當(dāng)嘗試加入更大窗口的卷積核, 以捕捉更大范圍內(nèi)詞語間的關(guān)系.He等人[12]使用與文獻(xiàn)[10]中同樣窗口大小的卷積核抽取文檔片段的特征.考慮到文檔片段在長度上是超過普通句子的, 可能包含多個長句, 參考文獻(xiàn)[22], 本研究設(shè)計的摘要網(wǎng)絡(luò)同樣使用多核CNN, 卷積核窗口大小為3、5、7、10, 全面捕捉短語和長句的特征, 如圖4所示.

        圖4 摘要網(wǎng)絡(luò)

        (2) 定位網(wǎng)絡(luò)

        定位網(wǎng)絡(luò)的核心是使用GRU[20]的循環(huán)神經(jīng)網(wǎng)絡(luò)和局部注意力機(jī)制[14].在第t個時間步, 定位網(wǎng)絡(luò)的GRU接收由摘要網(wǎng)絡(luò)生成的特征向量st作為輸入, 結(jié)合隱藏狀態(tài)ht產(chǎn)生下一個狀態(tài)向量ht+1.接下來, 注意力層根據(jù)狀態(tài)向量ht+1計算下一個應(yīng)該被摘要網(wǎng)絡(luò)“看到”的文檔片段的位置post+1.通過這樣的循環(huán)計算, LALDC在若干次特征抽取后形成包含判別信息的摘要特征, 作為類別預(yù)測的依據(jù).提升模型性能的關(guān)鍵在于, 訓(xùn)練定位網(wǎng)絡(luò), 使它總是把注意力放在重要的文檔片段.

        軟注意力(Soft Attention)[23]針對文檔中的每個句子或每個單詞, 計算權(quán)重向量作為注意力概率分布, 非常適合短文本任務(wù), 比如情感分析、句子分類等.然而,對于長文檔, 由于句子和單詞的數(shù)量過多, 為一整篇文檔計算注意力概率的開銷過大, 不具有實踐意義[14].He等人[12]使用硬注意力(Hard Attention)機(jī)制[18]來避免軟注意力機(jī)制造成的龐大計算開銷, 在每個時間步,硬注意力直接從整個文檔中隨機(jī)采樣一組詞語, 提高了計算效率.然而, 由于硬注意力的選取過程是離散的,導(dǎo)致模型不可微分, 需要更復(fù)雜的技術(shù)(比如減方差、強化學(xué)習(xí))來訓(xùn)練[14].局部注意力[14]可以看作是軟注意力和硬注意力的混合體, 它在計算上比軟注意力開銷更少, 同時, 與硬注意力不同, 局部注意力幾乎處處可微, 更易于實施和訓(xùn)練.LALDC的定位網(wǎng)絡(luò)設(shè)計為循環(huán)局部注意力模型, 如圖5所示.

        圖5 定位網(wǎng)絡(luò)

        每次循環(huán)局部注意力有選擇性地關(guān)注一個較小的上下文窗口.具體而言, 在第t個時間步, 模型根據(jù)隱藏狀態(tài)ht生成對齊位置(aligned position)apt, 計算窗口[apt-D,apt+D]內(nèi)對象的局部權(quán)重(注意力分布),D根據(jù)經(jīng)驗來選擇.隨后, 上下文向量ct計算為該窗口內(nèi)對象的加權(quán)平均(這一步類似于軟注意力).最后, 預(yù)測接下來應(yīng)該抽取特征的片段位置post.

        (3) 初始文檔表示

        由于定位網(wǎng)絡(luò)需要文檔的上下文信息來預(yù)測注意力的位置, 僅使用片段信息可能不夠, 此外, 定位網(wǎng)絡(luò)作出第1次預(yù)測之前, GRU需要接收初始文檔信息作為輸入來產(chǎn)生第1個隱藏狀態(tài).因此, 對原始文檔做隨機(jī)采樣, 并編碼成代表初始文檔信息的向量, 作為定位網(wǎng)絡(luò)的第1個輸入.具體而言, 從原始文檔中隨機(jī)采樣K組詞語(每次采樣的窗口大小相同), 每組詞語由Embedding編碼成詞向量, 再輸入到摘要網(wǎng)絡(luò)中抽取特征, 初始文檔表示s0計算為K個特征向量的加和, 這一過程如圖6所示.

        圖6 初始文檔表示

        (4) 分類網(wǎng)絡(luò)

        分類網(wǎng)絡(luò)接收摘要網(wǎng)絡(luò)經(jīng)過若干輪循環(huán)后生成的摘要特征作為輸入, 目標(biāo)是正確預(yù)測文檔所屬類別, 該網(wǎng)絡(luò)設(shè)計為典型的全連接層+Softmax層的結(jié)構(gòu).

        (5) 模型優(yōu)化

        由于LALDC各個子網(wǎng)絡(luò)都是可微分的, 因此使用典型的有監(jiān)督學(xué)習(xí)訓(xùn)練方法, 通過最小化一個平滑交叉熵?fù)p失函數(shù)來優(yōu)化參數(shù), 如算法1所示.

        算法1.LALDC參數(shù)優(yōu)化算法1.Input: 文檔Doc, 最大迭代次數(shù)maxIter, 定位網(wǎng)絡(luò)循環(huán)次數(shù)T 2.for i = 1, 2, …, maxIter do初始化摘要特征Simages/BZ_62_1796_2043_1825_2068.pngimages/BZ_62_2175_2043_2233_2068.png獲取文檔Doc的初始文檔表示, 輸入到定位網(wǎng)絡(luò)以預(yù)測3.for t = 1, 2, …, T do images/BZ_62_1590_2143_1645_2168.png images/BZ_62_2045_2143_2070_2168.png摘要網(wǎng)絡(luò)在 附近的文檔片段上抽取特征 , 更新S if t < Timages/BZ_62_1690_2243_1715_2268.pngimages/BZ_62_1932_2243_2015_2268.png定位網(wǎng)絡(luò)接收 作為輸入, 預(yù)測else分類網(wǎng)絡(luò)接收S作為輸入, 預(yù)測文檔Doc的類別4.end for 5.更新參數(shù)6.end for 7.Output: 預(yù)測標(biāo)簽

        2 實驗

        2.1 arXiv數(shù)據(jù)集

        常用的文檔分類基準(zhǔn)數(shù)據(jù)集, 例如IMDB review、Yahoo Answer、Amazon review等, 它們的平均單篇文檔所含單詞數(shù)都不超過350個詞語, 也就是說這些數(shù)據(jù)集大部分是短文檔, 并不符合一般長文檔(比如學(xué)術(shù)論文、書籍等)的字?jǐn)?shù)情況, 因此使用這些數(shù)據(jù)集來檢驗本研究的模型是不適合的.He等人[12]使用自主收集的arXiv論文數(shù)據(jù)集來評估長文檔分類模型, 為便于與基準(zhǔn)模型做比較, 本研究同樣使用該數(shù)據(jù)集.

        arXiv是一個收集物理學(xué)、數(shù)學(xué)、計算機(jī)科學(xué)和生物學(xué)等領(lǐng)域預(yù)發(fā)表論文的網(wǎng)站.arXiv數(shù)據(jù)集包含31 363篇論文, 分為10個類別, 通過arXiv sanity preserver程序[24]收集.注意到某些類別屬于同一個大類, 比如cs.AI、cs.CE、cs.DS等都屬于計算機(jī)科學(xué), 大大增加了正確區(qū)分不同類別論文的難度.對數(shù)據(jù)的清洗包括:只保留有意義的英語單詞, 丟棄詞數(shù)少于1000的文檔,過長的文檔被截斷為前10 000個詞.表1展示了數(shù)據(jù)集的詳細(xì)信息.

        表1 arXiv數(shù)據(jù)集的統(tǒng)計信息

        2.2 基準(zhǔn)模型

        使用兩組基準(zhǔn)模型.一是Kim[10]中做句子分類的CNN模型, 為簡潔, 稱作TextCNN; 二是He等人[12]基于硬注意力機(jī)制的長文檔分類模型, 稱作HeLDC.為使TextCNN適合長文檔分類, 對它稍做調(diào)整, 具體如下: 與本研究的LALDC基本思想類似, 從原始文檔中隨機(jī)抽取K個長度為w的片段, 把每個片段分別作為TextCNN的輸入, 卷積池化后得到特征向量, 把這些向量做加和, 再輸入到后續(xù)的分類網(wǎng)絡(luò)做預(yù)測.

        2.3 實驗設(shè)置

        (1) 文檔表示

        使用開源的GloVe[21]作為初始化詞向量, 向量維數(shù)為100.所有不在GloVe中的詞語都被隨機(jī)初始化,Embedding層與后續(xù)網(wǎng)絡(luò)一起聯(lián)合訓(xùn)練(jointly-train).

        (2) 訓(xùn)練參數(shù)

        使用TensorFlow搭建模型, 定位網(wǎng)絡(luò)中GRU大小為256, 局部注意力窗口D為12; 摘要網(wǎng)絡(luò)使用3、5、7、10四種窗口大小的卷積層, 每層有100個核; 使用ADAM優(yōu)化算法[25], 初始學(xué)習(xí)率為0.001, dropout概率為0.5, batch大小為64.

        (3) 評價指標(biāo)

        arXiv數(shù)據(jù)集各類別文檔數(shù)量相差較小, 可采用精度(accuracy)評估模型性能.

        2.4 結(jié)果分析

        (1) 實驗1

        為了驗證弱監(jiān)督情況下, 生成偽文檔能夠增強訓(xùn)練數(shù)據(jù), 同時評估LALDC與基準(zhǔn)模型的性能, 設(shè)計以下實驗.從arXiv數(shù)據(jù)集中選取0.2比例的文檔作為訓(xùn)練集TrainSet, 剩余文檔作為測試集TestSet.使用PDG模型為每個類別生成200、300、400、500篇偽文檔, 和TrainSet一起構(gòu)成5組訓(xùn)練數(shù)據(jù), 即TrainSet、TrainSet+200篇偽文檔、TrainSet+300篇偽文檔等依此類推.使用這5組數(shù)據(jù)訓(xùn)練LALDC和基準(zhǔn)模型, 每次抽取特征的文檔片段窗口大小w為40, 抽取次數(shù)為14.使用TestSet檢驗?zāi)P托阅? 實驗結(jié)果如圖7所示.

        圖7 不同數(shù)量的偽文檔對訓(xùn)練數(shù)據(jù)的增強作用

        結(jié)果表明, 偽文檔確實能夠增強訓(xùn)練數(shù)據(jù), 提升模型訓(xùn)練效果.此外, 如果生成的偽文檔數(shù)量過少, 則沒有充分利用種子信息, 對模型性能提升較小, 如果生成的偽文檔數(shù)量過多, 則會攜帶過多噪聲, 降低泛化能力,在本次實驗中, 生成400篇偽文檔是比較好的選擇.比較3種模型, TextCNN明顯比HeLDC和LALDC遜色很多.從模型結(jié)構(gòu)分析, 同樣是使用CNN抽取文本特征, 影響性能的關(guān)鍵在于正確選擇出包含判別信息的文檔片段.對于TextCNN, 實驗設(shè)計為隨機(jī)從原始文檔中抽取片段作為輸入, 而并沒有去“預(yù)測”重要的片段應(yīng)該在的位置.HeLDC和LALDC都使用循環(huán)注意力機(jī)制去序列地預(yù)測下一個應(yīng)被看到的文檔片段, 毫無疑問, 這種選取方式更可能捕捉到判別信息, 支撐后續(xù)分類任務(wù).LALDC的表現(xiàn)略優(yōu)于HeLDC, 原因在于本研究設(shè)計的CNN層(摘要網(wǎng)絡(luò))能夠同時抽取短語和長句范圍內(nèi)的詞語關(guān)系, 而HeLDC只能捕捉短語級特征; 此外, 本研究使用局部注意力機(jī)制, 注意力向量是窗口內(nèi)對象的加權(quán)平均, 相比于HeLDC使用的硬注意力機(jī)制, 局部注意力向量包含更大范圍的信息, 有助于更準(zhǔn)確地預(yù)測重要文檔片段的位置.

        (2) 實驗2

        為了評估本研究基于GRU語言模型的PDG與Meng等人[17]的生成式混合模型(以下簡稱為GM模型)在偽文檔質(zhì)量上的差異, 同時觀察不同監(jiān)督強度下偽文檔的數(shù)據(jù)增強作用, 設(shè)計以下實驗.從arXiv數(shù)據(jù)集中選取0.2-0.8之間不同比例的文檔作為訓(xùn)練集TrainSet,剩余文檔作為測試集TestSet, 構(gòu)成不同標(biāo)記率的數(shù)據(jù)集.參考實驗1的結(jié)果, 對于每個數(shù)據(jù)集, 分別使用PDG模型和GM模型為每個類別生成400篇偽文檔, 和TrainSet一起構(gòu)成3組訓(xùn)練數(shù)據(jù), 即TrainSet、TrainSet+PDG生成的偽文檔、TrainSet+GM生成的偽文檔.使用這3組數(shù)據(jù)訓(xùn)練LALDC和基準(zhǔn)模型, 每次抽取特征的文檔片段窗口大小w為40, 抽取次數(shù)為14.使用TestSet檢驗?zāi)P托阅? 實驗結(jié)果如圖8所示.

        圖8 不同數(shù)據(jù)標(biāo)記率下兩種偽文檔對測試精度的影響

        結(jié)果表明, 在數(shù)據(jù)標(biāo)記率較低時(0.2和0.4), 使用PDG生成的偽文檔對測試精度具有顯著提升效果, 而在所有數(shù)據(jù)標(biāo)記率下, 使用GM生成的偽文檔反而降低了測試精度.從模型結(jié)構(gòu)分析, PDG和GM都使用vMF分布建立語義模型, 差別在于后續(xù)生成偽文檔的方式, PDG使用GRU語言模型生成的偽文檔語句間具有前后語義關(guān)系, 更接近真實文檔, 對訓(xùn)練數(shù)據(jù)有切實的增強作用; 而GM通過從混合分布中重復(fù)做詞語采樣來生成偽文檔, 實質(zhì)上是詞語的無序堆砌, 類似于真實文檔被打亂語序后的樣子, 反而會給訓(xùn)練數(shù)據(jù)帶來噪聲.因此, PDG生成的偽文檔質(zhì)量更高, 更適合于本研究的分類任務(wù).此外, 觀察到隨著數(shù)據(jù)標(biāo)記率提高,PDG偽文檔對測試精度的提升幅度逐漸減弱, 也就是說, 強監(jiān)督情況下, 訓(xùn)練集本身已能夠提供充足信息, 沒有偽文檔并不影響模型訓(xùn)練, 弱監(jiān)督情況下, 偽文檔能夠發(fā)揮更明顯的作用, 緩解缺乏訓(xùn)練數(shù)據(jù)造成的困擾.

        (3) 實驗3

        把重點放在長文檔分類模型本身, 為了觀察調(diào)整窗口w的大小、抽取特征的次數(shù)會如何影響模型性能,同時檢驗LALDC的運行效率, 設(shè)計以下實驗.從arXiv數(shù)據(jù)集中選取0.8比例的文檔作為訓(xùn)練集TrainSet,剩余文檔作為測試集TestSet, 參考實驗2的結(jié)果, 不使用偽文檔.設(shè)計20、40兩種窗口大小, 10、14、18三種抽取次數(shù), 共6種組合, 觀察LALDC和基準(zhǔn)模型基于看到的200、280、360、400、560、720個詞語對文檔做類別預(yù)測的精度, 同時記錄模型在訓(xùn)練和推斷階段的用時.實驗結(jié)果如圖9、表2所示.

        表2 模型運行效率(窗口大小為40)

        圖9 模型看到的詞語總數(shù)對測試精度的影響

        結(jié)果表明, 給定抽取特征的次數(shù), 更大的摘要窗口總是產(chǎn)生更高的測試精度, 總體而言, 模型看到的詞語數(shù)量越多, 抽取到的特征越豐富, 預(yù)測精度越高.與基準(zhǔn)模型相比, LALDC在看到同樣數(shù)量詞語的情況下,測試精度顯著高于TextCNN與HeLDC.此外, HeLDC、TextCNN在看到720個詞語時分別產(chǎn)生81.2%、77.6%的精度, 與HeLDC相比, LALDC僅看到一半數(shù)量(360個)詞語就能產(chǎn)生80.5%的精度, 與TextCNN相比, LALDC僅看到不足 1/3 (即200個)詞語就能產(chǎn)生77.4%的精度.也就是說, LALDC只需看到數(shù)量少得多的詞語, 就能達(dá)到與基準(zhǔn)模型同等的預(yù)測精度.觀察LALDC與基準(zhǔn)模型的精度差距, 發(fā)現(xiàn)當(dāng)窗口w變大時(由20變?yōu)?0), 差距明顯增加, 即LALDC在使用大窗口時優(yōu)勢更加顯著.這與本研究設(shè)計的摘要網(wǎng)絡(luò)密切相關(guān), 根據(jù)前文分析, LALDC能夠抽取長句范圍內(nèi)的詞語關(guān)系, HeLDC不具備這個能力.當(dāng)窗口大小為40時, 定位的文檔片段更可能包含完整長句, LALDC的優(yōu)勢就展現(xiàn)出來了.

        最后, 在模型效率和實踐性方面, TextCNN由于模型結(jié)構(gòu)簡單, 在訓(xùn)練時收斂速度最快, 但是最多能達(dá)到77.63%的預(yù)測精度.HeLDC雖然訓(xùn)練用時較長, 但它最高能達(dá)到81.16%的預(yù)測精度, 彌補了訓(xùn)練收斂速度慢的缺陷.本研究提出的LALDC比兩個基準(zhǔn)模型的預(yù)測精度更高, 但在訓(xùn)練用時上介于兩者之間, 原因在于, LALDC相較于HeLDC, 模型參數(shù)數(shù)量更少, 因此更易于訓(xùn)練.例如, 同樣是使用循環(huán)注意力機(jī)制, HeLDC中的循環(huán)神經(jīng)網(wǎng)絡(luò)使用LSTM單元, 而LALDC使用GRU, 這是因為GRU的實驗效果與LSTM相似, 但是更易于計算[26].更進(jìn)一步地, LALDC在預(yù)測精度最高時, 每批次(64個樣本)的訓(xùn)練和測試用時分別為0.69 s、0.51 s, 意味著LALDC在訓(xùn)練和測試階段每秒鐘分別處理93篇、125篇長文檔, 這樣的計算效率應(yīng)該是可以被實際應(yīng)用接受的.

        3 結(jié)論與展望

        本研究提出弱監(jiān)督情況下基于局部注意力機(jī)制的長文檔分類方法, 在偽文檔生成和長文檔分類兩方面均做出貢獻(xiàn).PDG利用少量種子信息產(chǎn)生能夠增強訓(xùn)練數(shù)據(jù)的偽文檔, 在弱監(jiān)督情況下顯著提升預(yù)測精度.LALDC使用局部注意力機(jī)制, 既能規(guī)避軟注意力龐大的計算開銷, 又比硬注意力更易于訓(xùn)練.通過循環(huán)注意力學(xué)習(xí), LALDC序列地預(yù)測重要文檔片段所在位置并抽取特征, 直到摘要特征能夠支撐后續(xù)分類任務(wù).與兩個基準(zhǔn)模型相比, LALDC在觀察到更少文檔信息的情況下, 就達(dá)到基準(zhǔn)模型的預(yù)測精度, 而在觀察到充足文檔信息時, LALDC的性能顯著高于基準(zhǔn)模型.同時,LALDC的訓(xùn)練和測試用時處于兩個基準(zhǔn)模型之間, 具有實際應(yīng)用的價值.

        受歐陽文俊和徐林莉[27]、Yang等人[1]提出的層級注意力模型的啟發(fā), 在未來研究中, 可以對LALDC中的定位網(wǎng)絡(luò)做進(jìn)一步改進(jìn).考慮使用層級注意力機(jī)制, 同時關(guān)注句子層面和單詞層面.這一嘗試可能使分類模型進(jìn)行更細(xì)粒度的計算, 不僅定位出文檔中重要的句子, 還能從句子中抽取重要詞匯的信息.

        猜你喜歡
        分類特征模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        日本一区二区三区视频在线观看| 图图国产亚洲综合网站| 国内精品久久久久久久亚洲| 日本视频一区二区这里只有精品| 国产一级二级三级在线观看视频| 亚欧美日韩香蕉在线播放视频| 亚洲女人被黑人巨大进入| 午夜无码熟熟妇丰满人妻| 东京热加勒比国产精品| 国产老熟妇精品观看| 亚洲av永久无码天堂网手机版| 国产在线不卡视频| 亚洲一区亚洲二区中文字幕| 国产精品无码翘臀在线观看 | 日本丰满熟妇bbxbbxhd| 精选麻豆国产AV| 自拍偷拍亚洲视频一区二区三区 | 亚洲av无码专区亚洲av伊甸园| 午夜大片又黄又爽大片app | 国产精品黄色在线观看| 一边摸一边抽搐一进一出口述| 摸进她的内裤里疯狂揉她动视频| 一区二区三区内射视频在线观看 | 后入丝袜美腿在线观看| 精精国产xxxx视频在线播放| 精品国产免费Av无码久久久| 中文字幕人妻乱码在线| 蜜臀久久99精品久久久久久| 欧美天欧美天堂aⅴ在线| 亚洲中文一本无码AV在线无码| 亚洲乱码中文字幕三四区| 香蕉免费一区二区三区| 精品性影院一区二区三区内射| 青青草针对华人超碰在线| 国产成人77亚洲精品www | 亚洲国产成人久久一区www妖精| 极品少妇在线观看视频| 久久精品第九区免费观看| 日日躁夜夜躁狠狠久久av| 无码AV无码免费一区二区| 日本一区二区三区四区高清不卡 |