亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于WSD層級記憶網(wǎng)絡(luò)建模的文檔表示方法

        2020-08-07 10:06:44張柯文朱全銀方強(qiáng)強(qiáng)馬甲林成潔怡丁行碩
        淮陰工學(xué)院學(xué)報 2020年3期
        關(guān)鍵詞:層級文檔語義

        張柯文,李 翔,朱全銀,方強(qiáng)強(qiáng),馬甲林,成潔怡,丁行碩

        (淮陰工學(xué)院 計算機(jī)與軟件工程學(xué)院,江蘇 淮安 223005)

        文檔層級結(jié)構(gòu)關(guān)系建模可以針對文檔的詞句級聯(lián)的上下文信息進(jìn)行文檔表示,也是自然語言處理領(lǐng)域研究的基礎(chǔ)。在過去的研究中,研究者們通過傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行文檔建模表示,Wu等[1]通過凸松弛將特征變換與SVM學(xué)習(xí)相結(jié)合,以人工標(biāo)注對訓(xùn)練數(shù)據(jù)集進(jìn)行特征提取和學(xué)習(xí)構(gòu)建文檔模型,實(shí)現(xiàn)文檔分類,Chen[2]提出改進(jìn)TF-IDF用于處理包含大量新聞的新聞分類。Jian[3]提出的BOLS- SVM算法對于在線預(yù)測任務(wù)特別有用,這類方法在過去取得了顯著的成果,然而性能卻依賴于復(fù)雜的人工規(guī)則和特征工程。為解決該問題,研究者們采用深度學(xué)習(xí)進(jìn)行文檔建模,笱程成等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)預(yù)測社交消息,通過記憶獲取到的語義信息,可以捕捉到更廣范圍的特征信息,這些深度網(wǎng)絡(luò)模型在訓(xùn)練過程中關(guān)注訓(xùn)練目標(biāo)的特征信息,較傳統(tǒng)方法而言取得了更好的效果。Tang 等[5]改進(jìn)了門控循環(huán)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)文檔建模來進(jìn)行情感分析,通過雙層Bi-GRU實(shí)現(xiàn)句間內(nèi)在語義編碼可以較好地捕捉句間語義信息。這些方法通常以句子作為輸入,通過詞向量關(guān)注訓(xùn)練目標(biāo)的特征信息。然而,這種文檔分類方法忽視了文檔層級結(jié)構(gòu)和上下文的語義關(guān)系。

        因此,本文提出的文檔表示算法主要是根據(jù)詞句文檔組成的層次關(guān)系,針對詞句級聯(lián),從詞到句通過Bert模型學(xué)習(xí)詞向量中的語義信息,句到文檔引入記憶網(wǎng)絡(luò)獲取句子之間的語義聯(lián)系,實(shí)現(xiàn)文檔分類??傮w思路是:首先,通過Bert算法基于詞向量得到相似句子文本的句嵌入矩陣,以獲得詞語之間語義信息;然后,將句子映射到句嵌入矩陣空間得到句子的向量化表示;最后,為保留文檔內(nèi)部語義聯(lián)系,將文檔分句后的序列數(shù)據(jù)輸入Bi-LSTM(Bidirectional Long Short Term Memory Network,BiLSTM)模型中,獲取每個句子的注意力權(quán)重,得到文檔的向量化表示。本方法充分考慮到了詞句級聯(lián)的層次關(guān)系,增加文檔建模內(nèi)部的語義聯(lián)系。對于類間數(shù)據(jù)相似性較高的文檔分類更加準(zhǔn)確,滿足對文檔模型高效的分類要求,在實(shí)際應(yīng)用中具有一定的可行性。

        1 相關(guān)技術(shù)

        本文通過對文檔預(yù)處理,以定長的句向量作為輸入,引入Bert語言模型實(shí)現(xiàn)句子的向量化表示,通過Bi-LSTM獲取句向量間的上下文關(guān)系,結(jié)合注意力機(jī)制保留句子之間復(fù)雜的語義關(guān)系,實(shí)現(xiàn)文檔的篇章向量表示,進(jìn)行文檔分類。

        1.1 文檔預(yù)處理

        數(shù)據(jù)預(yù)處理后數(shù)據(jù)質(zhì)量的好壞影響整個自然語言處理系統(tǒng)的性能。中文文本不同于英文文本,在詞與詞之間沒有明顯的界限,通常有著不可分割的語義聯(lián)系。唐明等[6]利用TF-IDF算法計算每篇文檔中詞的權(quán)重,并結(jié)合word2vec詞向量生成文檔向量,最后將其應(yīng)用于中文文檔分類。何炎祥等[7]通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來獲取鄰近詞匯間的關(guān)聯(lián),注重捕捉局部間的特征。在這類詞嵌入文檔模型中,通常先對文檔進(jìn)行分詞、去停用詞等處理,利用結(jié)巴分詞將文檔切分成若干個有意義的詞匯,同時過濾掉一些高頻卻沒有意義的噪點(diǎn)。該處理雖然可以去除噪點(diǎn)對文檔分類的影響,卻忽視了詞與詞、句與句之間的語義聯(lián)系,如前后文之間的因果關(guān)系等。本文利用文檔層級結(jié)構(gòu)的特點(diǎn),以句子作為基本單元保留詞句層級之間的語義關(guān)系。

        1.2 Bert算法

        文檔向量化是文檔表示的重要方式,將文檔表示成機(jī)器學(xué)習(xí)能夠處理和表達(dá)文檔語義的向量。李雙印等[8]提出了一種文檔建模方法,設(shè)計一種能夠同時利用單詞和標(biāo)簽信息,以及自動利用標(biāo)簽種類信息,對半結(jié)構(gòu)化文檔進(jìn)行有效的建模,實(shí)現(xiàn)文檔的向量化表示,但這種方法很少考慮單個詞對整篇文檔的影響力。這種詞嵌入的方法實(shí)現(xiàn)文檔的向量化,忽略了詞到句,句到文檔的組成特點(diǎn),不能充分獲取文檔的語義關(guān)系。

        2018年 Google[9]發(fā)布了基于雙向 Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型(Bi- directional Encoder Representation from Transformers,Bert)可以較好地表示詞和句子以理解其潛在的含義和關(guān)系,在情感分類、命名實(shí)體識別等任務(wù)中取得了很好的效果。Bert生成句向量的優(yōu)點(diǎn)在于它可充分理解句意,并且排除詞向量加權(quán)引起的誤差。Bert模型使用三層嵌入層聯(lián)合調(diào)節(jié)上下文對文本訓(xùn)練,很好保留上下文語義聯(lián)系,其輸入如圖1所示。

        圖1 Bert輸入表示

        對于輸入的文本數(shù)據(jù)將一對文本句標(biāo)記為句子對。每個句子對被組合為一個序列,序列的第一個詞以特殊的標(biāo)記[CLS]表示,通過特殊標(biāo)記[SEP]將每個句子分開。然后,將學(xué)習(xí)的每個句子分別嵌入到句子的每個標(biāo)記中,構(gòu)成句向量空間矩陣。通過數(shù)據(jù)映射得到句子向量,如圖2所示。

        圖2 句子向量表示圖

        1.3 雙向長短時記憶網(wǎng)絡(luò)

        雙向長短時記憶網(wǎng)絡(luò)是對于長短時記憶網(wǎng)絡(luò)LSTM的變體。LSTM是改進(jìn)后的循環(huán)網(wǎng)絡(luò),有效解決了梯度爆炸或者梯度消失的問題。通過引入基于門控單元,在神經(jīng)元中加入輸入門、輸出門、忘記門以及記憶單元來改善梯度消失的問題,同時也增強(qiáng)了句子序列之間的記憶程度。LSTM設(shè)計結(jié)構(gòu)如圖3所示。

        圖3 LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖

        神經(jīng)元核心思想是通過采樣前一時刻的上下文信息產(chǎn)生下一時刻的輸出信息。假設(shè)t時刻的記憶內(nèi)容c,通過與門控輸出Гo相乘,即可獲得該時刻的輸出信息:

        α=Γo*c

        (1)

        該時刻的輸出信息由LSTM循環(huán)單元的三個門控單元控制,分別是更新門、遺忘門和輸出門。

        Γu=δ(wu[α,x]+bu)

        (2)

        Γf=δ(wf[α,x]+bf)

        (3)

        Γo=δ(wo[α,x]+bo)

        (4)

        (5)

        其中,wc和bc為記憶信息的權(quán)重矩陣和偏置項。因此,通過求解式(5),進(jìn)而通過式(6)實(shí)現(xiàn)LSTM更新的記憶內(nèi)容c的計算。

        (6)

        然而,LSTM對于序列數(shù)據(jù)只能從前往后傳遞序列信息,而對于基于上下文的文檔表示序列,忽略了后文對語義之間的影響。Chen 等[10]使用大型語料訓(xùn)練Bi-LSTM模型,使用時,固定Bi-LSTM參數(shù),獲取Bi-LSTM的輸出,經(jīng)映射并加權(quán)相加后得到上下文信息,明顯改善了NLP的技術(shù)發(fā)展水平。因此使用雙向長短時記憶網(wǎng)絡(luò)可較好地捕獲文檔句子前后之間的語義信息,其結(jié)構(gòu)如圖4所示。

        圖4 BiLSTM結(jié)構(gòu)圖

        最后輸出結(jié)果為隱藏層單向和反向輸出的拼接結(jié)果。其拼接公式如式(7)~(9)所示:

        (7)

        (8)

        ht=Lt+L't

        (9)

        其中,Lt和L't分別為t時刻LSTM前向語義輸出和后向語義輸出,前向與后向的語義信息合并后得到包含序列上下文信息的t時刻隱藏層的語義輸出ht。

        1.4 注意力機(jī)制

        注意力機(jī)制在自然語言處理的序列模型中取得了很大的成就。Zhao 等[11]引入注意機(jī)制進(jìn)行神經(jīng)機(jī)器翻譯,Yang 等[12]提出了一個詞典增強(qiáng)的LSTM 與注意力機(jī)制的目標(biāo)依賴情感分類模型。在BiLSTM神經(jīng)網(wǎng)絡(luò)中結(jié)合Attention機(jī)制,在不同時刻計算輸出特征向量的權(quán)重,突出句子的重要特征,從而增加文檔表示之間的語義聯(lián)系,使整個模型獲得更好的效果,結(jié)構(gòu)如圖5所示。

        圖5 BiLSTM+Attention結(jié)構(gòu)

        通過計算每時刻隱藏層的輸出,在整個文本中向量表示的匹配得分占總體得分的比重,計算如式(10)~(12)所示,得到隱藏層輸出的權(quán)重矩陣,從而獲得文檔句子之間的重要信息。

        score(hi)=vTtanh(w1h1+b1)

        (10)

        (11)

        (12)

        其中,score(hi)為包含語義信息的hi輸入到單層感知機(jī)中獲得單篇文檔隱藏層的輸出,文檔內(nèi)各句子注意力權(quán)重矩陣ai由式(11)計算得到,通過權(quán)重矩陣ai與文本特征向量hi進(jìn)行加權(quán)和,得到包含文檔各句子重要性信息的向量ci。

        2 WSD層級網(wǎng)絡(luò)文檔表示模型

        文中分類方法采用了多種現(xiàn)有算法相結(jié)合的聯(lián)合建模策略,對篇章級文檔詞句級聯(lián)關(guān)系進(jìn)行層級建模并進(jìn)行分類。本設(shè)計的聯(lián)合建模策略是基于Bert語言模型和深度神經(jīng)網(wǎng)絡(luò)進(jìn)行的,其中,通過Bert建模實(shí)現(xiàn)句向量表示,利用雙向長短時記憶網(wǎng)絡(luò)和Attention機(jī)制保留句子之間復(fù)雜的語言關(guān)系。因此,考慮到算法的復(fù)雜度以及獲取文檔詞句之間的語義聯(lián)系,利用Bert算法和雙向長短時記憶網(wǎng)絡(luò),合理分配算法比重進(jìn)行語義建模,實(shí)現(xiàn)文檔分類,其基于WSD層級記憶文檔表示的分類機(jī)制如圖6所示。算法流程包括四個部分,數(shù)據(jù)預(yù)處理,文檔向量化,神經(jīng)網(wǎng)絡(luò)建模和分類訓(xùn)練與評估。

        圖6 WSD層級網(wǎng)絡(luò)文檔分類模型流程圖

        (13)

        其中,w2和b2為向量化文檔ci的權(quán)重矩陣和偏置項。具體步驟如表1所示:

        文檔表示為:Text={s1,s2,s3…sn}

        數(shù)據(jù)集表示為:

        D={Text1,Text2,Text3…Textm}

        表1 基于WSD層級網(wǎng)絡(luò)文檔分類模型算法步驟

        這種聯(lián)合建模策略有效的利用了各類算法的優(yōu)勢進(jìn)行文檔層級結(jié)構(gòu)建模,有效獲取文檔詞句之間的上下文語義聯(lián)系。通過Bert算法和雙向長短時記憶網(wǎng)絡(luò)結(jié)合注意力機(jī)制實(shí)現(xiàn)文檔的向量化建模,對樣本訓(xùn)練分類,有效加強(qiáng)了對分類樣本詞句內(nèi)部的含義和語義關(guān)系的特征表示,提高了分類模型的準(zhǔn)確率。因此,是一種較為理想的文檔分類方法。

        3 實(shí)驗(yàn)結(jié)果和分析

        3.1 數(shù)據(jù)集

        本實(shí)驗(yàn)采用THUCNEWS和CHEM&ENGNEWS兩個數(shù)據(jù)集。

        THUCNEWS是清華大學(xué)根據(jù)新浪新聞RSS訂閱頻道2005-2011年間的歷史數(shù)據(jù)篩選過濾生成,包含74萬篇新聞文檔。其中,選取65 000條數(shù)據(jù)進(jìn)行分類驗(yàn)證,將其以0.64,0.16,0.2的比例分為訓(xùn)練集,驗(yàn)證集和測試集。

        CHEM&ENGNEWS是來自11個不同化工網(wǎng)站的新聞資訊,包含22萬篇新聞文檔,大小約為2GB,根據(jù)網(wǎng)站的來源分類成十個類別,包括Coal,Corportate,Social,Plastic,Industry,Mineral,Technology,ChemicalEquipment,Petrochemical和NatureG-as。在采樣過程中與基于Bagging的集成學(xué)習(xí)方法結(jié)合,生成十個平衡數(shù)據(jù)集,64%的樣本置于訓(xùn)練集中,剩下的抽取16%和20%分為驗(yàn)證集和測試集,從而降低方差防止過擬合,增強(qiáng)算法的魯棒性。

        3.2 實(shí)驗(yàn)過程

        3.2.1實(shí)驗(yàn)設(shè)計

        基于LSTM模型,對兩種數(shù)據(jù)集進(jìn)行新聞文檔分類。為驗(yàn)證所提出WSD層級記憶網(wǎng)絡(luò)建模算法對文檔分類的可行性及優(yōu)勢,通過不同預(yù)訓(xùn)練算法包括TF-IDF、Word2vec等語言模型,對不同LSTM的變體進(jìn)行大量對比實(shí)驗(yàn)。

        3.2.2實(shí)驗(yàn)參數(shù)

        針對新聞文檔數(shù)據(jù),對實(shí)驗(yàn)算法參數(shù)進(jìn)行了合理設(shè)置,對比實(shí)驗(yàn)中Word2vec和TF-IDF算法中采用結(jié)巴分詞[14],每篇文檔文本基于詞向量表示,其中詞向量設(shè)置為200維的連續(xù)值,詞量大小參數(shù)值為6000;本算法使用句向量表示文檔,每篇文檔固定長度設(shè)為30,最大句子長度為100,即長度超過100的句子基于特定目標(biāo)詞進(jìn)行切割,長度不足100的以0向量填充句子的輸入矩陣。在訓(xùn)練時對驗(yàn)證集準(zhǔn)確率進(jìn)行監(jiān)控,當(dāng)訓(xùn)練步數(shù)超過1000步?jīng)]有改變時則停止訓(xùn)練,從而提高學(xué)習(xí)效率,以避免過擬合問題。

        3.2.3評價指標(biāo)

        通過精確率P、召回率R和F1_score來評價分類模型效果[15]。準(zhǔn)確率為被識別為該分類的正確分類記錄數(shù)與被識別為該分類的記錄數(shù)之比;召回率為被識別為該分類的正確分類記錄數(shù)與測試集中該分類的記錄總數(shù)之比,召回率是覆蓋面的度量,衡量了分類器對正例的識別能力;F1_score就是精確值和召回率的調(diào)和均值,其公式為:

        (14)

        該評價指標(biāo)適用于對來自相同源的不同數(shù)據(jù)集運(yùn)行不同方法的情況,以及在相同數(shù)據(jù)上獲得競爭結(jié)果的標(biāo)準(zhǔn)情況。

        3.3 實(shí)驗(yàn)結(jié)果及比較

        在THUCNEWS數(shù)據(jù)集中進(jìn)行分類實(shí)驗(yàn),實(shí)驗(yàn)分別通過TF-IDF,Word2vec以及本文所采用的Bert模型進(jìn)行語言預(yù)處理,同時分別與傳統(tǒng)機(jī)器學(xué)習(xí)算法SVM、傳統(tǒng)LSTM以及基于注意力機(jī)制的BiLSTM算法結(jié)合,對實(shí)驗(yàn)結(jié)果進(jìn)行分析,見表2。由于該數(shù)據(jù)集的分類較為精準(zhǔn),類間數(shù)據(jù)界限分明且數(shù)據(jù)量相對平衡,基于機(jī)器學(xué)習(xí)SVM算法上達(dá)到95.2%,在傳統(tǒng)LSTM算法上準(zhǔn)確率為94.8%,基于word2vec-LSTM算法準(zhǔn)確率達(dá)96.53%,基于本文提出的組合算法準(zhǔn)確率達(dá)95.07%。

        在CHEM&ENGNEWS數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),分別使用三種語言模型進(jìn)行語言預(yù)處理,在LSTM及其變體進(jìn)行實(shí)驗(yàn)比較,本算法和BiLSTM兩種方法的訓(xùn)練loss曲線和accuracy曲線如圖7所示,訓(xùn)練損失率在10%~15%,準(zhǔn)確率在90%以上。進(jìn)一步驗(yàn)證了該組合算法的準(zhǔn)確性和穩(wěn)定性,在類間數(shù)據(jù)相似度高且類間數(shù)據(jù)分布不平衡的數(shù)據(jù)集上同樣取得了很好的效果。在此輪實(shí)驗(yàn)的驗(yàn)證基礎(chǔ)上對10 998篇文檔進(jìn)行分類預(yù)測分析,如表4所示,完全正確分類的新聞文檔數(shù)為10 550篇,錯誤數(shù)為448篇,準(zhǔn)確率為95%,損失率為18%,實(shí)驗(yàn)分類準(zhǔn)確率較高證明本算法在實(shí)際應(yīng)用中的可行性,能夠達(dá)到一定的分類精度。

        (a)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練loss曲線圖 (b)WSD層級記憶網(wǎng)絡(luò)算法訓(xùn)練accuracy曲線圖

        (c)BiLSTM訓(xùn)練訓(xùn)練loss曲線圖 (d)BiLSTM訓(xùn)練accuracy曲線圖圖7 訓(xùn)練集日志

        表2 THUCNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

        表3 CHEM&ENGNEWS數(shù)據(jù)集實(shí)驗(yàn)比較

        表4 10 998篇CHEM&ENGNEWS文檔分類實(shí)驗(yàn)結(jié)果

        3.4 實(shí)驗(yàn)總結(jié)

        通過兩輪實(shí)驗(yàn)結(jié)果比較,對65 000篇分類較為精準(zhǔn)的THUCNEWS文檔數(shù)據(jù)集進(jìn)行文檔建模表示進(jìn)行分類,基于WSD層級記憶網(wǎng)絡(luò)文檔建模表示的分類算法達(dá)到95.07%,比較其他四種分類較高的算法,分類準(zhǔn)確率都達(dá)到了90%以上,證明了本算法在分類準(zhǔn)確的同時,還保證了算法的穩(wěn)定性;對于類間相似度較高的CHEM&ENGNEWS文檔數(shù)據(jù)集實(shí)驗(yàn)中,本算法的分類準(zhǔn)確率達(dá)到了96.24%,較其他4種參比方法提高7.06%~18.31%。表明本方法對于類間文本特征相似度很高的數(shù)據(jù)集具有很好的分類效果,在實(shí)際應(yīng)用中具有一定的可行性。

        4 結(jié)語

        本文提出一種基于WSD層級記憶網(wǎng)絡(luò)算法進(jìn)行文檔建模分類的方法,通過記憶網(wǎng)絡(luò)學(xué)習(xí)獲取上下文語義關(guān)系,克服了文檔數(shù)據(jù)集類間相似性高及類間數(shù)據(jù)不平衡的問題。通過實(shí)驗(yàn)驗(yàn)證本算法在實(shí)際應(yīng)用中的可行性,并能夠達(dá)到一定的準(zhǔn)確分類效果。本算法還存在問題需要進(jìn)一步探討,在句向量表示時基于Bert模型只能表示固定長度的句子,對于長句子損失較多,下一步工作將研究如何增強(qiáng)模型的魯棒性,以使用不同長度的文檔進(jìn)行分類。

        猜你喜歡
        層級文檔語義
        有人一聲不吭向你扔了個文檔
        軍工企業(yè)不同層級知識管理研究實(shí)踐
        基于軍事力量層級劃分的軍力對比評估
        語言與語義
        基于RI碼計算的Word復(fù)制文檔鑒別
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        認(rèn)知范疇模糊與語義模糊
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        国产精品户露av在线户外直播| 黄射视频在线观看免费| 免费无遮挡无码永久在线观看视频| 欧美一区二区三区激情| 人妻少妇精品无码专区二| 日韩av不卡一二三区| 日韩人妻中文字幕专区| 亚洲成a人无码| 热の国产AV| 看全色黄大黄大色免费久久| 中文字幕色偷偷人妻久久一区| 色诱视频在线观看| 无码毛片aaa在线| 国产精品狼人久久久影院| 日本一区二区免费在线看| 久久精品国产精油按摩| 精品免费在线| 精品中文字幕日本久久久| 我要看免费久久99片黄色| 无遮挡h肉动漫在线观看| 亚洲最大成av人网站| 国产视频一区二区三区在线看| 国产情侣一区二区三区| 日本边添边摸边做边爱的网站| 被欺辱的高贵人妻被中出| 女同在线网站免费观看| 亚洲av乱码一区二区三区按摩| 97人人超碰国产精品最新o| 亚洲精品天堂在线观看| 国产真实乱对白在线观看| 强迫人妻hd中文字幕| 超碰97人人射妻| 亚洲av日韩精品久久久久久| 久久国产高潮流白浆免费观看| 亚洲av无一区二区三区久久蜜桃| 痉挛高潮喷水av无码免费 | 国产精品九九久久一区hh| 亚洲综合久久中文字幕专区一区 | 亚洲av高清天堂网站在线观看| 国产免费av片无码永久免费| 国产AV无码一区精品天堂|