亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于WSD層級記憶網(wǎng)絡(luò)建模的文檔表示方法

2020-08-07 10:06:44張柯文朱全銀方強(qiáng)強(qiáng)馬甲林成潔怡丁行碩

淮陰工學(xué)院學(xué)報 2020年3期

張柯文，李翔，朱全銀，方強(qiáng)強(qiáng)，馬甲林，成潔怡，丁行碩

(淮陰工學(xué)院計算機(jī)與軟件工程學(xué)院，江蘇淮安 223005)

文檔層級結(jié)構(gòu)關(guān)系建模可以針對文檔的詞句級聯(lián)的上下文信息進(jìn)行文檔表示，也是自然語言處理領(lǐng)域研究的基礎(chǔ)。在過去的研究中，研究者們通過傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行文檔建模表示，Wu等[1]通過凸松弛將特征變換與SVM學(xué)習(xí)相結(jié)合，以人工標(biāo)注對訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取和學(xué)習(xí)構(gòu)建文檔模型，實(shí)現(xiàn)文檔分類，Chen[2]提出改進(jìn)TF-IDF用于處理包含大量新聞的新聞分類。Jian[3]提出的BOLS- SVM算法對于在線預(yù)測任務(wù)特別有用，這類方法在過去取得了顯著的成果，然而性能卻依賴于復(fù)雜的人工規(guī)則和特征工程。為解決該問題，研究者們采用深度學(xué)習(xí)進(jìn)行文檔建模，笱程成等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)預(yù)測社交消息，通過記憶獲取到的語義信息，可以捕捉到更廣范圍的特征信息，這些深度網(wǎng)絡(luò)模型在訓(xùn)練過程中關(guān)注訓(xùn)練目標(biāo)的特征信息，較傳統(tǒng)方法而言取得了更好的效果。Tang 等[5]改進(jìn)了門控循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文檔建模來進(jìn)行情感分析，通過雙層Bi-GRU實(shí)現(xiàn)句間內(nèi)在語義編碼可以較好地捕捉句間語義信息。這些方法通常以句子作為輸入，通過詞向量關(guān)注訓(xùn)練目標(biāo)的特征信息。然而，這種文檔分類方法忽視了文檔層級結(jié)構(gòu)和上下文的語義關(guān)系。

因此，本文提出的文檔表示算法主要是根據(jù)詞句文檔組成的層次關(guān)系，針對詞句級聯(lián)，從詞到句通過Bert模型學(xué)習(xí)詞向量中的語義信息，句到文檔引入記憶網(wǎng)絡(luò)獲取句子之間的語義聯(lián)系，實(shí)現(xiàn)文檔分類?？傮w思路是：首先，通過Bert算法基于詞向量得到相似句子文本的句嵌入矩陣，以獲得詞語之間語義信息；然后，將句子映射到句嵌入矩陣空間得到句子的向量化表示；最后，為保留文檔內(nèi)部語義聯(lián)系，將文檔分句后的序列數(shù)據(jù)輸入Bi-LSTM(Bidirectional Long Short Term Memory Network，BiLSTM)模型中，獲取每個句子的注意力權(quán)重，得到文檔的向量化表示。本方法充分考慮到了詞句級聯(lián)的層次關(guān)系，增加文檔建模內(nèi)部的語義聯(lián)系。對于類間數(shù)據(jù)相似性較高的文檔分類更加準(zhǔn)確，滿足對文檔模型高效的分類要求，在實(shí)際應(yīng)用中具有一定的可行性。

1 相關(guān)技術(shù)

本文通過對文檔預(yù)處理，以定長的句向量作為輸入，引入Bert語言模型實(shí)現(xiàn)句子的向量化表示，通過Bi-LSTM獲取句向量間的上下文關(guān)系，結(jié)合注意力機(jī)制保留句子之間復(fù)雜的語義關(guān)系，實(shí)現(xiàn)文檔的篇章向量表示，進(jìn)行文檔分類。

1.1 文檔預(yù)處理

數(shù)據(jù)預(yù)處理后數(shù)據(jù)質(zhì)量的好壞影響整個自然語言處理系統(tǒng)的性能。中文文本不同于英文文本，在詞與詞之間沒有明顯的界限，通常有著不可分割的語義聯(lián)系。唐明等[6]利用TF-IDF算法計算每篇文檔中詞的權(quán)重，并結(jié)合word2vec詞向量生成文檔向量，最后將其應(yīng)用于中文文檔分類。何炎祥等[7]通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)來獲取鄰近詞匯間的關(guān)聯(lián)，注重捕捉局部間的特征。在這類詞嵌入文檔模型中，通常先對文檔進(jìn)行分詞、去停用詞等處理，利用結(jié)巴分詞將文檔切分成若干個有意義的詞匯，同時過濾掉一些高頻卻沒有意義的噪點(diǎn)。該處理雖然可以去除噪點(diǎn)對文檔分類的影響，卻忽視了詞與詞、句與句之間的語義聯(lián)系，如前后文之間的因果關(guān)系等。本文利用文檔層級結(jié)構(gòu)的特點(diǎn)，以句子作為基本單元保留詞句層級之間的語義關(guān)系。

1.2 Bert算法

文檔向量化是文檔表示的重要方式，將文檔表示成機(jī)器學(xué)習(xí)能夠處理和表達(dá)文檔語義的向量。李雙印等[8]提出了一種文檔建模方法，設(shè)計一種能夠同時利用單詞和標(biāo)簽信息，以及自動利用標(biāo)簽種類信息，對半結(jié)構(gòu)化文檔進(jìn)行有效的建模，實(shí)現(xiàn)文檔的向量化表示，但這種方法很少考慮單個詞對整篇文檔的影響力。這種詞嵌入的方法實(shí)現(xiàn)文檔的向量化，忽略了詞到句，句到文檔的組成特點(diǎn)，不能充分獲取文檔的語義關(guān)系。

2018年 Google[9]發(fā)布了基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型(Bi- directional Encoder Representation from Transformers，Bert)可以較好地表示詞和句子以理解其潛在的含義和關(guān)系，在情感分類、命名實(shí)體識別等任務(wù)中取得了很好的效果。Bert生成句向量的優(yōu)點(diǎn)在于它可充分理解句意，并且排除詞向量加權(quán)引起的誤差。Bert模型使用三層嵌入層聯(lián)合調(diào)節(jié)上下文對文本訓(xùn)練，很好保留上下文語義聯(lián)系，其輸入如圖1所示。

圖1 Bert輸入表示

對于輸入的文本數(shù)據(jù)將一對文本句標(biāo)記為句子對。每個句子對被組合為一個序列，序列的第一個詞以特殊的標(biāo)記[CLS]表示，通過特殊標(biāo)記[SEP]將每個句子分開。然后，將學(xué)習(xí)的每個句子分別嵌入到句子的每個標(biāo)記中，構(gòu)成句向量空間矩陣。通過數(shù)據(jù)映射得到句子向量，如圖2所示。

圖2 句子向量表示圖

1.3 雙向長短時記憶網(wǎng)絡(luò)

雙向長短時記憶網(wǎng)絡(luò)是對于長短時記憶網(wǎng)絡(luò)LSTM的變體。LSTM是改進(jìn)后的循環(huán)網(wǎng)絡(luò)，有效解決了梯度爆炸或者梯度消失的問題。通過引入基于門控單元，在神經(jīng)元中加入輸入門、輸出門、忘記門以及記憶單元來改善梯度消失的問題，同時也增強(qiáng)了句子序列之間的記憶程度。LSTM設(shè)計結(jié)構(gòu)如圖3所示。

圖3 LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖

神經(jīng)元核心思想是通過采樣前一時刻的上下文信息產(chǎn)生下一時刻的輸出信息。假設(shè)t時刻的記憶內(nèi)容c，通過與門控輸出Гo相乘，即可獲得該時刻的輸出信息：

α=Γo*c

(1)

該時刻的輸出信息由LSTM循環(huán)單元的三個門控單元控制，分別是更新門、遺忘門和輸出門。

Γu=δ(wu[α,x]+bu)

(2)

Γf=δ(wf[α,x]+bf)

(3)

Γo=δ(wo[α,x]+bo)

(4)

(5)

其中，wc和bc為記憶信息的權(quán)重矩陣和偏置項。因此，通過求解式(5)，進(jìn)而通過式(6)實(shí)現(xiàn)LSTM更新的記憶內(nèi)容c的計算。

(6)

然而，LSTM對于序列數(shù)據(jù)只能從前往后傳遞序列信息，而對于基于上下文的文檔表示序列，忽略了后文對語義之間的影響。Chen 等[10]使用大型語料訓(xùn)練Bi-LSTM模型，使用時，固定Bi-LSTM參數(shù)，獲取Bi-LSTM的輸出，經(jīng)映射并加權(quán)相加后得到上下文信息，明顯改善了NLP的技術(shù)發(fā)展水平。因此使用雙向長短時記憶網(wǎng)絡(luò)可較好地捕獲文檔句子前后之間的語義信息，其結(jié)構(gòu)如圖4所示。

圖4 BiLSTM結(jié)構(gòu)圖

最后輸出結(jié)果為隱藏層單向和反向輸出的拼接結(jié)果。其拼接公式如式(7)～(9)所示：

(7)

(8)

ht=Lt+L't

(9)

其中，Lt和L't分別為t時刻LSTM前向語義輸出和后向語義輸出，前向與后向的語義信息合并后得到包含序列上下文信息的t時刻隱藏層的語義輸出ht。

1.4 注意力機(jī)制

注意力機(jī)制在自然語言處理的序列模型中取得了很大的成就。Zhao 等[11]引入注意機(jī)制進(jìn)行神經(jīng)機(jī)器翻譯，Yang 等[12]提出了一個詞典增強(qiáng)的LSTM 與注意力機(jī)制的目標(biāo)依賴情感分類模型。在BiLSTM神經(jīng)網(wǎng)絡(luò)中結(jié)合Attention機(jī)制，在不同時刻計算輸出特征向量的權(quán)重，突出句子的重要特征，從而增加文檔表示之間的語義聯(lián)系，使整個模型獲得更好的效果，結(jié)構(gòu)如圖5所示。

圖5 BiLSTM+Attention結(jié)構(gòu)

通過計算每時刻隱藏層的輸出，在整個文本中向量表示的匹配得分占總體得分的比重，計算如式(10)～(12)所示，得到隱藏層輸出的權(quán)重矩陣，從而獲得文檔句子之間的重要信息。

score(hi)=vTtanh(w1h1+b1)

(10)

(11)

(12)

其中，score(hi)為包含語義信息的hi輸入到單層感知機(jī)中獲得單篇文檔隱藏層的輸出，文檔內(nèi)各句子注意力權(quán)重矩陣ai由式(11)計算得到，通過權(quán)重矩陣ai與文本特征向量hi進(jìn)行加權(quán)和，得到包含文檔各句子重要性信息的向量ci。

2 WSD層級網(wǎng)絡(luò)文檔表示模型

文中分類方法采用了多種現(xiàn)有算法相結(jié)合的聯(lián)合建模策略，對篇章級文檔詞句級聯(lián)關(guān)系進(jìn)行層級建模并進(jìn)行分類。本設(shè)計的聯(lián)合建模策略是基于Bert語言模型和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行的，其中，通過Bert建模實(shí)現(xiàn)句向量表示，利用雙向長短時記憶網(wǎng)絡(luò)和Attention機(jī)制保留句子之間復(fù)雜的語言關(guān)系。因此，考慮到算法的復(fù)雜度以及獲取文檔詞句之間的語義聯(lián)系，利用Bert算法和雙向長短時記憶網(wǎng)絡(luò)，合理分配算法比重進(jìn)行語義建模，實(shí)現(xiàn)文檔分類，其基于WSD層級記憶文檔表示的分類機(jī)制如圖6所示。算法流程包括四個部分，數(shù)據(jù)預(yù)處理，文檔向量化，神經(jīng)網(wǎng)絡(luò)建模和分類訓(xùn)練與評估。

圖6 WSD層級網(wǎng)絡(luò)文檔分類模型流程圖

(13)

其中，w2和b2為向量化文檔ci的權(quán)重矩陣和偏置項。具體步驟如表1所示：

文檔表示為：Text={s1,s2,s3…sn}

數(shù)據(jù)集表示為：

D={Text1,Text2,Text3…Textm}

表1 基于WSD層級網(wǎng)絡(luò)文檔分類模型算法步驟

這種聯(lián)合建模策略有效的利用了各類算法的優(yōu)勢進(jìn)行文檔層級結(jié)構(gòu)建模，有效獲取文檔詞句之間的上下文語義聯(lián)系。通過Bert算法和雙向長短時記憶網(wǎng)絡(luò)結(jié)合注意力機(jī)制實(shí)現(xiàn)文檔的向量化建模，對樣本訓(xùn)練分類，有效加強(qiáng)了對分類樣本詞句內(nèi)部的含義和語義關(guān)系的特征表示，提高了分類模型的準(zhǔn)確率。因此，是一種較為理想的文檔分類方法。

3 實(shí)驗(yàn)結(jié)果和分析

3.1 數(shù)據(jù)集

本實(shí)驗(yàn)采用THUCNEWS和CHEM&ENGNEWS兩個數(shù)據(jù)集。

THUCNEWS是清華大學(xué)根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成，包含74萬篇新聞文檔。其中，選取65 000條數(shù)據(jù)進(jìn)行分類驗(yàn)證，將其以0.64，0.16，0.2的比例分為訓(xùn)練集，驗(yàn)證集和測試集。

CHEM&ENGNEWS是來自11個不同化工網(wǎng)站的新聞資訊，包含22萬篇新聞文檔，大小約為2GB，根據(jù)網(wǎng)站的來源分類成十個類別，包括Coal，Corportate，Social，Plastic，Industry，Mineral，Technology，ChemicalEquipment，Petrochemical和NatureG-as。在采樣過程中與基于Bagging的集成學(xué)習(xí)方法結(jié)合，生成十個平衡數(shù)據(jù)集，64%的樣本置于訓(xùn)練集中，剩下的抽取16%和20%分為驗(yàn)證集和測試集，從而降低方差防止過擬合，增強(qiáng)算法的魯棒性。

3.2 實(shí)驗(yàn)過程

3.2.1實(shí)驗(yàn)設(shè)計

基于LSTM模型，對兩種數(shù)據(jù)集進(jìn)行新聞文檔分類。為驗(yàn)證所提出WSD層級記憶網(wǎng)絡(luò)建模算法對文檔分類的可行性及優(yōu)勢，通過不同預(yù)訓(xùn)練算法包括TF-IDF、Word2vec等語言模型，對不同LSTM的變體進(jìn)行大量對比實(shí)驗(yàn)。

3.2.2實(shí)驗(yàn)參數(shù)

針對新聞文檔數(shù)據(jù)，對實(shí)驗(yàn)算法參數(shù)進(jìn)行了合理設(shè)置，對比實(shí)驗(yàn)中Word2vec和TF-IDF算法中采用結(jié)巴分詞[14]，每篇文檔文本基于詞向量表示，其中詞向量設(shè)置為200維的連續(xù)值，詞量大小參數(shù)值為6000；本算法使用句向量表示文檔，每篇文檔固定長度設(shè)為30，最大句子長度為100，即長度超過100的句子基于特定目標(biāo)詞進(jìn)行切割，長度不足100的以0向量填充句子的輸入矩陣。在訓(xùn)練時對驗(yàn)證集準(zhǔn)確率進(jìn)行監(jiān)控，當(dāng)訓(xùn)練步數(shù)超過1000步?jīng)]有改變時則停止訓(xùn)練，從而提高學(xué)習(xí)效率，以避免過擬合問題。

3.2.3評價指標(biāo)

通過精確率P、召回率R和F1_score來評價分類模型效果[15]。準(zhǔn)確率為被識別為該分類的正確分類記錄數(shù)與被識別為該分類的記錄數(shù)之比；召回率為被識別為該分類的正確分類記錄數(shù)與測試集中該分類的記錄總數(shù)之比，召回率是覆蓋面的度量，衡量了分類器對正例的識別能力；F1_score就是精確值和召回率的調(diào)和均值，其公式為：

(14)

該評價指標(biāo)適用于對來自相同源的不同數(shù)據(jù)集運(yùn)行不同方法的情況，以及在相同數(shù)據(jù)上獲得競爭結(jié)果的標(biāo)準(zhǔn)情況。

3.3 實(shí)驗(yàn)結(jié)果及比較

在THUCNEWS數(shù)據(jù)集中進(jìn)行分類實(shí)驗(yàn)，實(shí)驗(yàn)分別通過TF-IDF，Word2vec以及本文所采用的Bert模型進(jìn)行語言預(yù)處理，同時分別與傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM、傳統(tǒng)LSTM以及基于注意力機(jī)制的BiLSTM算法結(jié)合，對實(shí)驗(yàn)結(jié)果進(jìn)行分析，見表2。由于該數(shù)據(jù)集的分類較為精準(zhǔn)，類間數(shù)據(jù)界限分明且數(shù)據(jù)量相對平衡，基于機(jī)器學(xué)習(xí)SVM算法上達(dá)到95.2%，在傳統(tǒng)LSTM算法上準(zhǔn)確率為94.8%，基于word2vec-LSTM算法準(zhǔn)確率達(dá)96.53%，基于本文提出的組合算法準(zhǔn)確率達(dá)95.07%。

在CHEM&ENGNEWS數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，分別使用三種語言模型進(jìn)行語言預(yù)處理，在LSTM及其變體進(jìn)行實(shí)驗(yàn)比較，本算法和BiLSTM兩種方法的訓(xùn)練loss曲線和accuracy曲線如圖7所示，訓(xùn)練損失率在10%～15%，準(zhǔn)確率在90%以上。進(jìn)一步驗(yàn)證了該組合算法的準(zhǔn)確性和穩(wěn)定性，在類間數(shù)據(jù)相似度高且類間數(shù)據(jù)分布不平衡的數(shù)據(jù)集上同樣取得了很好的效果。在此輪實(shí)驗(yàn)的驗(yàn)證基礎(chǔ)上對10 998篇文檔進(jìn)行分類預(yù)測分析，如表4所示，完全正確分類的新聞文檔數(shù)為10 550篇，錯誤數(shù)為448篇，準(zhǔn)確率為95%，損失率為18%，實(shí)驗(yàn)分類準(zhǔn)確率較高證明本算法在實(shí)際應(yīng)用中的可行性，能夠達(dá)到一定的分類精度。

(a)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練loss曲線圖 (b)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練accuracy曲線圖

(c)BiLSTM訓(xùn)練訓(xùn)練loss曲線圖 (d)BiLSTM訓(xùn)練accuracy曲線圖圖7 訓(xùn)練集日志

表2 THUCNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

表3 CHEM&ENGNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

表4 10 998篇CHEM&ENGNEWS文檔分類實(shí)驗(yàn)結(jié)果

3.4 實(shí)驗(yàn)總結(jié)

通過兩輪實(shí)驗(yàn)結(jié)果比較，對65 000篇分類較為精準(zhǔn)的THUCNEWS文檔數(shù)據(jù)集進(jìn)行文檔建模表示進(jìn)行分類，基于WSD層級記憶網(wǎng)絡(luò)文檔建模表示的分類算法達(dá)到95.07%，比較其他四種分類較高的算法，分類準(zhǔn)確率都達(dá)到了90%以上，證明了本算法在分類準(zhǔn)確的同時，還保證了算法的穩(wěn)定性；對于類間相似度較高的CHEM&ENGNEWS文檔數(shù)據(jù)集實(shí)驗(yàn)中，本算法的分類準(zhǔn)確率達(dá)到了96.24%，較其他4種參比方法提高7.06%～18.31%。表明本方法對于類間文本特征相似度很高的數(shù)據(jù)集具有很好的分類效果，在實(shí)際應(yīng)用中具有一定的可行性。

4 結(jié)語

本文提出一種基于WSD層級記憶網(wǎng)絡(luò)算法進(jìn)行文檔建模分類的方法，通過記憶網(wǎng)絡(luò)學(xué)習(xí)獲取上下文語義關(guān)系，克服了文檔數(shù)據(jù)集類間相似性高及類間數(shù)據(jù)不平衡的問題。通過實(shí)驗(yàn)驗(yàn)證本算法在實(shí)際應(yīng)用中的可行性，并能夠達(dá)到一定的準(zhǔn)確分類效果。本算法還存在問題需要進(jìn)一步探討，在句向量表示時基于Bert模型只能表示固定長度的句子，對于長句子損失較多，下一步工作將研究如何增強(qiáng)模型的魯棒性，以使用不同長度的文檔進(jìn)行分類。