亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多特征融合的越南語(yǔ)關(guān)鍵詞生成方法

        2022-02-21 12:48:20陳瑞清高盛祥余正濤張迎晨
        關(guān)鍵詞:特征模型

        陳瑞清,高盛祥**,余正濤,張迎晨,張 磊,楊 艦

        (1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

        隨著“一帶一路”倡議推進(jìn),中國(guó)與越南在政治、經(jīng)濟(jì)、文化等方面的交流日益密切.當(dāng)今社會(huì),互聯(lián)網(wǎng)新聞報(bào)道作為信息傳播的重要載體,成為人們了解越南國(guó)家的主要方式.面對(duì)互聯(lián)網(wǎng)每天產(chǎn)生數(shù)以百萬計(jì)的新聞,語(yǔ)言理解成為了艱巨挑戰(zhàn).如何從海量越南新聞報(bào)道中獲取關(guān)鍵信息,提高信息使用率,對(duì)面向越南新聞?shì)浨榉治?、跨語(yǔ)言新聞事件檢索等領(lǐng)域具有重要研究?jī)r(jià)值.

        在自然語(yǔ)言處理任務(wù)中,越南語(yǔ)關(guān)鍵詞通常作為多詞單元以簡(jiǎn)短的文本總結(jié)了越南語(yǔ)文檔的基本思想,對(duì)文本摘要、信息檢索和文本分類等下游任務(wù)非常有利[1-2].越南語(yǔ)關(guān)鍵詞生成任務(wù)的主要目標(biāo)是在給定源文檔的情況下自動(dòng)生成簡(jiǎn)潔凝練、代表文檔主要內(nèi)容的關(guān)鍵詞.根據(jù)關(guān)鍵詞的生成方式不同,可將關(guān)鍵詞生成的方法分為兩種類型:抽取式方法和生成式方法[3].目前越南語(yǔ)關(guān)鍵詞研究大多使用抽取式方法,首先利用詞匯特征(詞性標(biāo)簽)、詞頻特征(Term Frequency-Inverse Document Frequency,TF-IDF)、外部信息特征(標(biāo)題)等得到候選關(guān)鍵詞集合,然后通過排序算法對(duì)候選詞集進(jìn)行排序,排名最高的候選詞最終選擇作為關(guān)鍵詞[4].文獻(xiàn)[4]基于本體論提出了針對(duì)特定領(lǐng)域的關(guān)鍵詞提取算法,該算法基于本體自動(dòng)提取文檔的關(guān)鍵詞,并使用提取出的關(guān)鍵詞來計(jì)算兩篇文章的相似度,在越南勞工和就業(yè)報(bào)紙?jiān)诰€網(wǎng)站上取得了不錯(cuò)的效果.文獻(xiàn)[5]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的混合深度學(xué)習(xí)解決方案用于越南語(yǔ)文本中的關(guān)鍵字提取,提出的模型具有更高的準(zhǔn)確性和F1 得分.文獻(xiàn)[6]利用基于規(guī)則的方法從越南單語(yǔ)文檔中自動(dòng)提取英語(yǔ)?越南語(yǔ)雙語(yǔ)術(shù)語(yǔ).抽取式方法在越南語(yǔ)上的研究取得了不錯(cuò)的進(jìn)展,但仍存在一定的局限性,例如,對(duì)于不存在于源文檔中的關(guān)鍵詞,抽取模型就無法預(yù)測(cè)這些詞語(yǔ)[1].

        與抽取式方法相比,生成式方法不僅可以提取源文檔中出現(xiàn)的關(guān)鍵詞,還可以生成源文檔中不存在的關(guān)鍵詞.它與人類思考方式更接近,通過理解整個(gè)文檔后,重新組織語(yǔ)言生成源文檔中已出現(xiàn)的關(guān)鍵詞和不存在的關(guān)鍵詞.文獻(xiàn)[1]采用了編碼器?解碼器結(jié)構(gòu),注意力機(jī)制和復(fù)制機(jī)制相結(jié)合的CopyRNN 模型,并在大規(guī)模數(shù)據(jù)集上訓(xùn)練關(guān)鍵詞生成模型.帶有門控循環(huán)單元的雙向RNN 在從大多數(shù)數(shù)據(jù)集中提取文檔已出現(xiàn)的關(guān)鍵詞時(shí)效果沒有非深度學(xué)習(xí)方法好,但是CopyRNN 也有不錯(cuò)的性能.文獻(xiàn)[7]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的CopyCNN模型,提高了關(guān)鍵詞的生成速度.盡管如此,Copy-RNN 和CopyCNN 網(wǎng)絡(luò)將標(biāo)題和正文平等對(duì)待,將標(biāo)題和正文連接為唯一的源文本作為輸入,而忽略了標(biāo)題和關(guān)鍵詞之間的語(yǔ)義相似性.文獻(xiàn)[8]將標(biāo)題信息用于指導(dǎo)編碼,顯著提升了生成關(guān)鍵詞的質(zhì)量.文獻(xiàn)[9]通過引入主題模型使關(guān)鍵詞生成模型能夠挖掘文檔中的潛在主題,提高了關(guān)鍵詞與源文本的主題契合度.文獻(xiàn)[10]通過強(qiáng)化學(xué)習(xí)方法,增加了生成關(guān)鍵詞的多樣性.文獻(xiàn)[11]選擇transformer作為編碼器和解碼器,利用跨文檔注意力機(jī)制獲得相關(guān)文檔的潛在主題,以幫助在解碼器生成更好的關(guān)鍵詞.實(shí)驗(yàn)證明,與基于CNN、RNN 的生成模型相比,基于transformer 的關(guān)鍵詞生成模型能夠產(chǎn)生高度準(zhǔn)確和多樣的關(guān)鍵詞,說明了transfomer 在關(guān)鍵詞生成方面的強(qiáng)大能力.現(xiàn)有研究通常依賴大規(guī)模關(guān)鍵詞訓(xùn)練數(shù)據(jù),在英文關(guān)鍵詞生成任務(wù)中取得的良好結(jié)果[8].

        雖然英語(yǔ)關(guān)鍵詞生成已經(jīng)取得了很好的進(jìn)展,但由于越南語(yǔ)高質(zhì)量關(guān)鍵詞新聞數(shù)據(jù)集稀少,遠(yuǎn)低于英文訓(xùn)練樣本規(guī)模,生成過程中考慮的特征信息不足,同樣的生成方法在越南語(yǔ)上效果卻不理想.在表1 利用CopyRNN 方法生成的present keyphrases中,信息)”在此篇新聞中并不屬于重要信息,不能作為關(guān)鍵詞.飛機(jī))”與真實(shí)關(guān)鍵詞飛機(jī)制造商)”屬于不同實(shí)體,也不能作為準(zhǔn)確的關(guān)鍵詞使用.此外,手機(jī))”、“美國(guó)人)”等關(guān)鍵詞均與參考標(biāo)準(zhǔn)關(guān)鍵詞(ground truth)無關(guān),無關(guān)的關(guān)鍵詞占比53%.

        表1 越南語(yǔ)關(guān)鍵詞生成舉例Tab.1 Example of Vietnamese keyphrase generation

        越南語(yǔ)構(gòu)詞的主要特點(diǎn)是每一個(gè)音節(jié)作為獨(dú)立的單位,具有實(shí)際語(yǔ)義,又可作為構(gòu)成多音節(jié)詞的基礎(chǔ).越南語(yǔ)兼類詞具有多個(gè)詞性,主要集中在名詞、動(dòng)詞、形容詞和量詞等詞性之間的轉(zhuǎn)化上[12],例如困難、困難的,名詞兼形容詞),鹽,名詞兼動(dòng)詞),一斤鹽),腌菜);在某些詞前出現(xiàn)其他詞時(shí),這些詞的詞性會(huì)發(fā)生轉(zhuǎn)變,例如動(dòng)詞前有事)事情)”時(shí),該動(dòng)詞會(huì)變成名詞使用.兼類詞在不同語(yǔ)境下顯示的詞性不同,所表達(dá)的含義也不一樣,對(duì)越南語(yǔ)關(guān)鍵詞生成效果有重要影響.

        越南語(yǔ)新聞與中文新聞結(jié)構(gòu)相似,由標(biāo)題、新聞內(nèi)容等信息組成.越南語(yǔ)新聞標(biāo)題表述完整,具有實(shí)際的語(yǔ)義,通常是主謂結(jié)構(gòu)或動(dòng)賓結(jié)構(gòu)并且包含了能夠凸顯新聞核心內(nèi)容的關(guān)鍵詞語(yǔ).新聞的正文通常在第一段交代新聞事件的時(shí)間、地點(diǎn)、人物、動(dòng)作和對(duì)象等關(guān)鍵信息,后續(xù)段落則圍繞這些關(guān)鍵信息進(jìn)行展開.

        為了提升生成的越南語(yǔ)新聞關(guān)鍵詞與新聞文檔的相關(guān)性,本文提出了一種多特征融合的越南語(yǔ)生成模型.通過融入越南語(yǔ)詞性、新聞實(shí)體、詞匯位置、新聞標(biāo)題等特征,模型能夠在生成關(guān)鍵詞的過程中考慮更多的特征信息,以提高生成越南語(yǔ)新聞關(guān)鍵詞的準(zhǔn)確率.本文的主要貢獻(xiàn)有:

        (1)利用越南語(yǔ)詞性、新聞實(shí)體、詞匯位置、新聞標(biāo)題等特征進(jìn)行越南語(yǔ)關(guān)鍵詞生成,有效緩解了越南語(yǔ)關(guān)鍵詞數(shù)據(jù)集稀缺,訓(xùn)練樣本不足導(dǎo)致生成關(guān)鍵詞不準(zhǔn)確的問題;

        (2)通過雙向注意力機(jī)制對(duì)上下文和新聞標(biāo)題的語(yǔ)義向量進(jìn)行融合,有效增強(qiáng)了新聞標(biāo)題在生成過程中的指導(dǎo)作用,保持新聞標(biāo)題與生成關(guān)鍵詞語(yǔ)義上的一致性.

        1 基于越南語(yǔ)新聞特征的詞匯表示

        關(guān)鍵詞生成任務(wù)中的主要挑戰(zhàn)就是要確定文檔所圍繞的關(guān)鍵概念和關(guān)鍵實(shí)體.為了實(shí)現(xiàn)此目標(biāo),我們使用了基于詞嵌入的表示形式并融入了其他特征比如越南語(yǔ)詞性特征、新聞實(shí)體特征、詞匯位置特征[13]等.

        1.1 越南語(yǔ)詞性特征詞性是詞匯基本的語(yǔ)法屬性,決定了詞匯的語(yǔ)義傾向性[14].詞性能夠提供詞語(yǔ)的抽象表示,對(duì)解決詞語(yǔ)歧義問題具有重要的作用.兼類詞的詞性會(huì)受到前后兩個(gè)詞的詞性影響,如果子)”有量(單位)詞和名詞兩種詞性,在一個(gè)球)”中,由于一)”是數(shù)詞,“bong”是名詞,從而可以判斷是量詞.與其他詞性的詞匯相比,在關(guān)鍵詞生成任務(wù)中名詞和動(dòng)詞通常包含了文檔關(guān)鍵信息,對(duì)越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集詞性分布統(tǒng)計(jì)如圖1 所示.可以看出,越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集中的詞性組成不是均勻分布,而是主要集中在幾類詞性上,這說明詞性對(duì)關(guān)鍵詞生成具有較強(qiáng)的指示作用.本文采用VnCoreNLP 越南語(yǔ)自然語(yǔ)言處理工具包[15]對(duì)越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集進(jìn)行詞性標(biāo)注,共26 種詞性.以句子為例,詞性標(biāo)注結(jié)果如圖2 所示.將詞性向量化表示后與詞向量拼接,使詞向量包含詞性特征.

        圖1 越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集詞性分布Fig.1 Part-of-speech distribution of Vietnamese news keyphrases dataset

        圖2 VnCoreNLP 解析結(jié)果Fig.2 The analysis results of VnCoreNLP

        1.2 新聞實(shí)體特征實(shí)體是人們最關(guān)注的詞匯,往往是信息抽取的焦點(diǎn),通常包括人名、地名、機(jī)構(gòu)名、時(shí)間、專有名詞等具有特定意義的實(shí)體[14].在關(guān)鍵詞生成任務(wù)中,新聞實(shí)體包含了代表新聞文檔主題的關(guān)鍵信息.本文用VnCoreNLP 越南語(yǔ)自然語(yǔ)言處理工具包對(duì)越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集進(jìn)行新聞實(shí)體識(shí)別,標(biāo)注的實(shí)體共計(jì)9 類:“B-LOC”,“I-LOC”,“B-MISC”,“I-MISC”,“B-ORG”,“IORG”,“B-PER”,“I-PER”,“O”,B 表示開始,I 表示內(nèi)部,O 表示非實(shí)體,如B/I-XXX,其中B/I 表示這個(gè)詞屬于實(shí)體的開始或內(nèi)部,XXX 表示實(shí)體的類型,分為人名PER、地名LOC、組織機(jī)構(gòu)名ORG、其他MISC 4 類.以句子為例,實(shí)體識(shí)別結(jié)果如圖2 所示.將實(shí)體向量化表示后與詞向量拼接,使詞向量包含新聞實(shí)體特征.

        1.3 詞匯位置特征新聞文檔的第一句或第一段通常涵蓋整篇文章的主旨信息,文檔的前半部分內(nèi)容比后半部分內(nèi)容更重要[13].越南語(yǔ)新聞文檔采用倒金字塔寫作方式,最重要的信息在標(biāo)題中就會(huì)體現(xiàn)出來,新聞主題在第一段出現(xiàn)的可能性最大,最后一段往往屬于對(duì)前面幾段內(nèi)容的總結(jié).因此計(jì)算詞匯的位置特征來表示不同位置詞匯的重要性,計(jì)算公式如下:

        其中,l代表詞匯的位置特征,i代表新聞文本中第i個(gè)詞匯的位置,n代表該新聞文本中總的詞匯數(shù)目.l的值越大,說明該位置的詞匯越重要.

        本文將詞轉(zhuǎn)化為原始詞向量,通過詞向量拼接的方式在原始詞向量后面添加向量化后的詞性、新聞實(shí)體、位置等特征,最終輸入編碼器的詞向量表示為:

        其中,w、p、n、l 分別代表詞、詞性、命名實(shí)體、詞位置,rw代表原始詞向量,rp代表詞性標(biāo)注后的詞向量,rn代表新聞實(shí)體識(shí)別后的詞向量,rl代表詞的 位置特征.

        2 多特征融合的越南語(yǔ)關(guān)鍵詞生成模型

        2.1 模型總體架構(gòu)關(guān)鍵詞生成模型將給定的上下文x=(x1,···,xn)作為輸入,得到一組關(guān)鍵詞序列y=(y1,···,yn)作為輸出.模型如圖3 所示,分為拼接層、編碼層、雙向注意力層、合并層和解碼層.首先將通過越南語(yǔ)詞性標(biāo)注工具和命名實(shí)體工具得到對(duì)應(yīng)詞性標(biāo)簽和新聞實(shí)體,并將詞性,新聞實(shí)體以及位置特征向量化表示后與詞向量拼接;然后雙向注意力層為每個(gè)上下文中的單詞收集相關(guān)的標(biāo)題信息,以反映上下文的重要部分.該層的輸入是上下文X=(x1,x2,···,xi)和標(biāo)題T=(t1,t2,···,tj)的上下文向量表示,輸出是上下文的標(biāo)題感知向量表征G=(g1,g2,···,gi);最后,合并層將匯總的標(biāo)題信息合并到每個(gè)上下文單詞中,從而產(chǎn)生最終的融合標(biāo)題信息的上下文表征.在得到標(biāo)題感知的上下文表征之后,我們使用基于注意力的解碼器[16]并結(jié)合了復(fù)制機(jī)制[17]來生成關(guān)鍵詞.

        圖3 越南語(yǔ)關(guān)鍵詞生成框架Fig.3 The framework of Vietnamese keyphrase generation

        2.2 融合越南語(yǔ)新聞特征的關(guān)鍵詞生成本模型在輸入層添加了一個(gè)拼接層,用于將原始詞向量與詞性、新聞實(shí)體、詞匯位置等語(yǔ)言特征拼接后生成最終輸入模型的詞向量.原始向量進(jìn)入特征拼接層,拼接層根據(jù)式(1)計(jì)算該文章中詞匯的位置信息,將每個(gè)詞匯的詞性標(biāo)記和新聞實(shí)體標(biāo)記映射為詞性嵌入和新聞實(shí)體嵌入.將每個(gè)詞匯的詞性嵌入、新聞實(shí)體嵌入、詞匯位置l與原始詞向量拼接在一起,最終構(gòu)成一個(gè)512 維的向量

        門控循環(huán)單元網(wǎng)絡(luò)(Gated Recurrent Unit networks,GRU)單元結(jié)構(gòu)[18]具有更新門和重置門,更新門決定是否使用候選隱藏狀態(tài)來更新隱藏狀態(tài),重置門決定前一層的隱藏狀態(tài)信息有多少被遺忘.計(jì)算公式如下:

        其中,*表示元素乘積,Wz和Wr分別更新門zt和重置門rt的權(quán)重矩陣,Ws為輸出時(shí)的權(quán)重矩陣,xt為t時(shí)刻的輸入向量,s?t和st表示t時(shí)刻的候選狀態(tài)和輸出狀態(tài)bs、br、bz為常數(shù),δ 為sigmoid 激活函數(shù).

        其中,G 表示GRU 網(wǎng)絡(luò),xi和tj是第i個(gè)上下文詞和第j個(gè)標(biāo)題詞的詞向量,雙向GRU 對(duì)應(yīng)的最終隱狀態(tài)由兩個(gè)方向的隱狀態(tài)拼接表示為hi=

        標(biāo)題對(duì)于生成能夠準(zhǔn)確描述文檔的關(guān)鍵詞提供了很好的參考信息.為了有效利用標(biāo)題中的相關(guān)信息,我們采用了類似BIDAF[19]的雙向注意力機(jī)制來建模標(biāo)題與上下文的交互.對(duì)于每一個(gè)上下文詞,標(biāo)題可看作類似查詢的輸入.

        雙向注意力層的輸入分別是上下文和標(biāo)題的向量表征hi和qj.在這一層中,通過從上下文到標(biāo)題以及從標(biāo)題到上下文兩個(gè)方向計(jì)算注意力.首先計(jì)算相似度矩陣S,計(jì)算公式如下:

        其中,Sij表示第i個(gè)上下文詞和第j個(gè)標(biāo)題詞的相似度,α 是一個(gè)可訓(xùn)練的標(biāo)量函數(shù),對(duì)其兩個(gè)輸入向量相似性進(jìn)行編碼,hi是H的第i個(gè)列向量,qj是Q的 第j個(gè)列向量.我們選擇 α(H,Q)=其中“;”表示向量拼接,“ ?”表示矩陣乘法,W(s)是可訓(xùn)練參數(shù),T 表示轉(zhuǎn)置.

        (1)從上下文到標(biāo)題的注意力:上下文到標(biāo)題的注意力表示哪一個(gè)標(biāo)題詞與上下文詞最相關(guān).ai代表標(biāo)題詞與第i個(gè)上下文詞的注意力權(quán)重,其中注意力的計(jì)算公式如下:

        其中,softmax 為歸一化指數(shù)函數(shù),μi為歸一化后上下文文本第i個(gè)詞與標(biāo)題文本中每一個(gè)詞的相似度,ai為標(biāo)題相對(duì)于上下文最重要的詞加權(quán)求和后的注意力.

        (2)從標(biāo)題到上下文的注意力:標(biāo)題到上下文的注意力表示哪一個(gè)上下文詞與標(biāo)題詞最相關(guān).注意力權(quán)重的計(jì)算公式如下:

        補(bǔ)機(jī)(重聯(lián)機(jī)車)自動(dòng)制動(dòng)手柄應(yīng)用銷子固定在重聯(lián)位,單獨(dú)制動(dòng)手柄應(yīng)放置在運(yùn)轉(zhuǎn)位。此位置為本機(jī)機(jī)車在運(yùn)轉(zhuǎn)位時(shí),補(bǔ)機(jī)(重聯(lián)機(jī)車)受機(jī)車間制動(dòng)管軟管、總風(fēng)軟管、平均軟管壓力控制,而發(fā)生作用的位置,其緩解應(yīng)和本機(jī)同步。

        其中,col(S)為相似度矩陣中相似度最大的列,v為歸一化后標(biāo)題詞與最相關(guān)上下文詞的相似度,hi為上下文向量,bi為上下文相對(duì)于標(biāo)題最重要的詞加權(quán)求和后的注意力.

        最后,將上下文詞向量和注意力向量組合在一起產(chǎn)生G=[g1,g2,···,gi],G的定義如下:

        合并層對(duì)上下文向量hi和聚合相關(guān)標(biāo)題信息的向量gi進(jìn)行編碼,最后得到融合標(biāo)題信息的上下文表示,計(jì)算公式如下:

        解碼層使用了一個(gè)基于注意力的單向GRU[16]進(jìn)行解碼,計(jì)算公式如下:

        其中,t=1,2,···,Ly,Ly是生成的關(guān)鍵詞長(zhǎng)度,et-1是第t-1 個(gè)預(yù)測(cè)關(guān)鍵詞的詞嵌入,e0是起始符的詞嵌入,attn 代表注意力權(quán)重計(jì)算,tanh 是雙曲正切激活函數(shù),為融合標(biāo)題信息和上下文信息的向量,ht為時(shí)間步長(zhǎng)t的隱狀態(tài)向量,為注意力向量,w為參數(shù)矩陣.

        計(jì)算當(dāng)前步驟在預(yù)定義詞匯表v上的預(yù)測(cè)概率分布的公式如下:

        其中,Pv為關(guān)鍵詞生成的概率,x為上下文序列,t為標(biāo)題序列,yt?1=[y1,···,yt?1] 是先前的預(yù)測(cè)單詞序列,bv∈R|v|是可訓(xùn)練的參數(shù)向量.

        其中,sigmoid 為激活函數(shù),wg和bg是可訓(xùn)練的參數(shù).

        接下來,gt用于確定是否將源文檔中的單詞復(fù)制為第t個(gè)目標(biāo)關(guān)鍵詞.gt對(duì)詞匯分布和注意力分布進(jìn)行加權(quán)平均,得到了擴(kuò)展詞匯表上的以下概率分布,使用Pv(yt)和P(yt)來分別表示Pv(yt|yt?1,x,t)和P(yt|yt?1,x,t),計(jì)算公式如下:

        2.3 訓(xùn)練本模型選擇負(fù)對(duì)數(shù)似然損失作為損失函數(shù),計(jì)算公式如下:

        其中,Ly是目標(biāo)關(guān)鍵詞y的長(zhǎng)度,yt是y中的第t個(gè) 詞語(yǔ),θ 代表所有可訓(xùn)練的參數(shù).

        2.4 關(guān)鍵詞生成流程關(guān)鍵詞生成流程如圖4 所示,具體步驟如下:

        圖4 越南語(yǔ)關(guān)鍵詞生成流程Fig.4 The process of Vietnamese keyphrase generation

        步驟 1讀取越南語(yǔ)新聞文檔,分為上下文(標(biāo)題+正文)和標(biāo)題信息.

        步驟 2預(yù)處理.對(duì)越南語(yǔ)新聞文檔進(jìn)行分詞,得到分詞后的詞匯表vocab,并為詞匯表中的詞生成詞性標(biāo)志和新聞實(shí)體標(biāo)志.

        步驟3 將詞匯表中的詞匯、詞性標(biāo)志和新聞實(shí)體標(biāo)志向量化,獲得原始詞向量rw、詞性標(biāo)志向量rp和新聞實(shí)體向量rn,并根據(jù)式(1)計(jì)算詞的位置特征值rl并拼接語(yǔ)言特征向量

        步驟 4計(jì)算編碼層、雙向注意力層、合并層的隱藏狀態(tài),根據(jù)式(18)計(jì)算輸出yt的概率,利用波束搜索算法選擇top10 分?jǐn)?shù)迭代預(yù)測(cè)關(guān)鍵詞.

        步驟 5輸出最終關(guān)鍵詞.

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)準(zhǔn)備我們從3 個(gè)具有高質(zhì)量關(guān)鍵詞的越南語(yǔ)新聞網(wǎng)站爬取了20 000 篇越南語(yǔ)新聞文檔,新聞文檔中的關(guān)鍵詞由作者分配,但這樣的新聞文檔數(shù)量有限.經(jīng)過數(shù)據(jù)清洗后,選擇篇幅字?jǐn)?shù)在200~450,關(guān)鍵詞數(shù)量大于4 個(gè)的新聞文檔,最終留下13 000 篇新聞.其中9 000 篇用作訓(xùn)練集,2 000篇用作驗(yàn)證集,2 000 篇用作測(cè)試集.驗(yàn)證集和測(cè)試集是隨機(jī)選擇的.具體數(shù)據(jù)如表2 所示.數(shù)據(jù)以json 的格式儲(chǔ)存,每篇新聞包含3 個(gè)字段:{title,content,keyphrases}

        表2 越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)統(tǒng)計(jì)Tab.2 The statistics of Vietnamese news keyphrase dataset

        參照文獻(xiàn)[1]的方法對(duì)數(shù)據(jù)進(jìn)行相同的預(yù)處理,并將所有數(shù)字替換為.將每個(gè)文檔的標(biāo)題和上下文(標(biāo)題+正文)分別用作輸入文本,并將其所有關(guān)鍵詞連接成單個(gè)序列作為輸出.在輸出序列中,關(guān)鍵詞以一定順序排列:已出現(xiàn)的關(guān)鍵詞在未出現(xiàn)的關(guān)鍵詞之前,其中已出現(xiàn)的關(guān)鍵詞根據(jù)其在輸入文檔中的首次出現(xiàn)的重新順序排列,所有未出現(xiàn)的關(guān)鍵詞保持其原始順序.

        3.2 實(shí)驗(yàn)設(shè)置在訓(xùn)練階段,根據(jù)詞頻排序選擇前50 000 個(gè)單詞構(gòu)成詞表,詞嵌入維度設(shè)置為100,隱藏層維度設(shè)置為256,λ 設(shè)置為0.5.除了h0初始化為GRU 單元的初始狀態(tài)均為全零向量.標(biāo)題、上下文和關(guān)鍵詞共享嵌入矩陣,包括嵌入矩陣在內(nèi)的所有可訓(xùn)練變量均以[?0.1,0.1]的均勻分布隨機(jī)初始化.采用Adam 優(yōu)化器[20],設(shè)置訓(xùn)練批次大小為64,初始學(xué)習(xí)率為0.001,dropout 率為0.1.最后使用波束搜索生成多個(gè)關(guān)鍵詞,波束大小設(shè) 置為50,最大序列長(zhǎng)度設(shè)置為40.

        3.3 評(píng)價(jià)指標(biāo)給定一篇越南語(yǔ)新聞文檔,模型預(yù)測(cè)出n個(gè)關(guān)鍵詞,最重要的詞在第一位,按照重要性依次排列.本文采用準(zhǔn)確率,召回率,F(xiàn)1 值作為評(píng)價(jià)指標(biāo).參與評(píng)估的關(guān)鍵詞數(shù)量對(duì)評(píng)估的質(zhì)量有著重要影響,通常選擇前k個(gè)預(yù)測(cè)的關(guān)鍵詞用于評(píng)估[21].F1 值是基于召回率和準(zhǔn)確率來計(jì)算的,其中準(zhǔn)確率定義為前k個(gè)預(yù)測(cè)正確的關(guān)鍵詞的數(shù)量(M)與前k個(gè)預(yù)測(cè)關(guān)鍵詞總數(shù)(K)的比值.召回率定義為前k個(gè)預(yù)測(cè)正確的關(guān)鍵詞的數(shù)量(M)與參考標(biāo)準(zhǔn)關(guān)鍵詞(ground truth)總數(shù)(N)的比值.預(yù)測(cè)得到的關(guān)鍵詞準(zhǔn)確度與F1 值呈正相關(guān),如果模型預(yù)測(cè)出的關(guān)鍵詞與參考標(biāo)準(zhǔn)關(guān)鍵詞完全相同,F(xiàn)1值將接近1.

        準(zhǔn)確率P,召回率R和F1 值的計(jì)算公式如下:

        3.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析我們選擇了具有復(fù)制機(jī)制的兩個(gè)編碼器?解碼器模型作為CopyRNN 和CopyCNN 以及TG-Net 作為關(guān)鍵詞生成任務(wù)的基準(zhǔn)模型.

        3.4.1 已出現(xiàn)的關(guān)鍵詞預(yù)測(cè) 在越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集上我們比較了不同基準(zhǔn)模型在現(xiàn)有關(guān)鍵詞預(yù)測(cè)的能力.表3 列出了每個(gè)模型的前5 個(gè)和前10 個(gè)預(yù)測(cè)的F1 值.

        表3 在測(cè)試數(shù)據(jù)集上已出現(xiàn)的關(guān)鍵詞預(yù)測(cè)結(jié)果Tab.3 Keyphrase prediction results that have appeared on the test dataset

        本文提出的融合語(yǔ)言特征的模型與其他3 種模型相比,取得最佳性能.可以看出,融合詞匯特征的模型在基于Seq2Seq 框架的基礎(chǔ)上,增加詞匯特征融合要比不融合詞匯特征的模型在F1 值上的指標(biāo)均有所提升.在越南語(yǔ)訓(xùn)練數(shù)據(jù)規(guī)模遠(yuǎn)小于原始實(shí)驗(yàn)中英語(yǔ)數(shù)據(jù)規(guī)模的條件下,CopyRNN、Copy-CNN 和TG-Net 性能直線下降,性能遠(yuǎn)低于在大規(guī)模英語(yǔ)數(shù)據(jù)集上訓(xùn)練的模型.說明在訓(xùn)練數(shù)據(jù)不足的情況下,普通RNN、CNN 網(wǎng)絡(luò)已不再適用于關(guān)鍵詞生成,由于TG-Net 利用標(biāo)題等外部信息指導(dǎo)生成,一定程度上緩解了訓(xùn)練數(shù)據(jù)不足造成的影響.我們的模型比TG-Net 模型提高了13.2%(F1@10分?jǐn)?shù)).與CopyRNN 和CopyCNN 相比,我們的模型分別提高了22.1%和20.7%(F1@10 分?jǐn)?shù)).實(shí)驗(yàn)表明在標(biāo)記數(shù)據(jù)不足的情況下,與不融合語(yǔ)言特征的模型相比,融合語(yǔ)言特征的模型能夠有效利用文檔中的特征信息,具有更好的關(guān)鍵詞提取能力.

        3.4.2 未出現(xiàn)的關(guān)鍵詞預(yù)測(cè) 生成未出現(xiàn)的關(guān)鍵詞是生成模型的基本特征,預(yù)測(cè)未出現(xiàn)的關(guān)鍵詞需要理解上下文語(yǔ)義的能力.在這部分只考慮參考標(biāo)準(zhǔn)關(guān)鍵詞(ground truth)中未出現(xiàn)的關(guān)鍵詞和預(yù)測(cè)出的未出現(xiàn)的關(guān)鍵詞用作評(píng)估.一般將前20 和前50 個(gè)預(yù)測(cè)關(guān)鍵詞的召回率用于度量預(yù)測(cè)未出現(xiàn)的關(guān)鍵詞準(zhǔn)確度.表4 列出了每個(gè)模型的前20 個(gè)和前50 個(gè)預(yù)測(cè)的召回率.

        表4 在測(cè)試數(shù)據(jù)集上未出現(xiàn)的關(guān)鍵詞預(yù)測(cè)結(jié)果Tab.4 Keyphrase prediction results that did not appear on the test dataset

        可以看出,我們的模型在越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集上始終優(yōu)于先前的序列到序列模型.與最佳模型TG-Net 相比,我們的模型性能提高了17.1%(R@50 分?jǐn)?shù)).總體而言,結(jié)果表明我們的模型能夠捕獲上下文內(nèi)容的底層語(yǔ)義.類似于已出現(xiàn)的關(guān)鍵詞預(yù)測(cè),融入詞性、新聞實(shí)體、位置、標(biāo)題等特征為未出現(xiàn)的關(guān)鍵詞預(yù)測(cè)提供了顯著的提升,這些特征有助于在解碼過程選擇合適的單詞.刪除復(fù)制機(jī)制不會(huì)影響預(yù)測(cè)未出現(xiàn)關(guān)鍵詞的性能,這是因?yàn)閺?fù)制機(jī)制只能選擇輸入文檔中的單詞,而這些單詞不可能包含在未出現(xiàn)的關(guān)鍵詞中.

        3.4.3 消融實(shí)驗(yàn) 為了驗(yàn)證詞性特征、新聞實(shí)體特征、位置特征融入詞向量和利用雙向注意力機(jī)制融入標(biāo)題的效果,設(shè)置了消融實(shí)驗(yàn).

        從表5 中可以看出,與位置特征和新聞實(shí)體特征相比,融入詞性特征更能提升生成關(guān)鍵詞的準(zhǔn)確率.相比較在詞向量中融入新聞實(shí)體、位置和詞性特征,利用雙向注意力機(jī)制引入標(biāo)題信息,能夠使準(zhǔn)確率更高.同時(shí)在詞向量中融入新聞實(shí)體特征、位置特征、詞性特征和通過雙向注意力機(jī)制利用標(biāo)題特征的方法取得了最好的效果.實(shí)驗(yàn)結(jié)果表明,對(duì)于像越南語(yǔ)等低資源語(yǔ)言訓(xùn)練樣本不足的情況下,融入詞特征可以提高關(guān)鍵詞生成模型性能,而提出的融入多特征的越南語(yǔ)關(guān)鍵詞生成模型達(dá)到了最好的效果.

        表5 融入不同特征生成關(guān)鍵詞效果對(duì)比Tab.5 The comparison of the effect of integrating different features for keyphrase generation

        3.4.4 實(shí)例分析 為了說明我們所提出的模型與TG-Net 模型之間的生成關(guān)鍵詞差異,表6 展示了從越南語(yǔ)新聞文檔測(cè)試集中選擇的一個(gè)例子.在這個(gè)例子中,一共有12 個(gè)參考標(biāo)準(zhǔn)關(guān)鍵詞(ground truth).對(duì)于已出現(xiàn)的關(guān)鍵詞(present keyphrases)預(yù)測(cè),可以發(fā)現(xiàn)兩個(gè)模型都能從標(biāo)題中預(yù)測(cè)關(guān)鍵詞奧地利企業(yè))”,但是對(duì)于另外一個(gè)標(biāo)題中的關(guān)鍵詞越南投資機(jī)會(huì))”,我們的模型能夠成功預(yù)測(cè),而TG-Net 只預(yù)測(cè)到該關(guān)鍵詞的一部分越南)”.阮春福總理)”作為人名實(shí)體,TG-Net 無法預(yù)測(cè)該關(guān)鍵詞.對(duì)于未出現(xiàn)的關(guān)鍵詞(absent keyphrases)預(yù)測(cè),注意到TG-Net不能預(yù) 測(cè)未出 現(xiàn)的關(guān)鍵詞經(jīng)貿(mào)關(guān)系)”,但我們的模型可以利用經(jīng)濟(jì)商業(yè))”等名詞成功生成未出現(xiàn)的關(guān)鍵詞.總體來看,位于文章開始和結(jié)尾的關(guān)鍵詞,我們的模型都能夠成功預(yù)測(cè),而TGNet 沒有預(yù)測(cè)到位于文章結(jié)尾的關(guān)鍵詞投資活動(dòng))”.這些結(jié)果表明了我們的模型能夠有效利用越南語(yǔ)新聞標(biāo)題、越南語(yǔ)詞性、新聞實(shí)體、詞匯位置等相關(guān)信息生成關(guān)鍵詞,在已出現(xiàn)的關(guān)鍵詞預(yù)測(cè)和未出現(xiàn)的關(guān)鍵詞預(yù)測(cè)方面取得了更好的結(jié)果.但是由于本方法比較依賴詞性標(biāo)注和命名實(shí)體識(shí)別準(zhǔn)確率,對(duì)于詞性標(biāo)注和命名實(shí)體識(shí)別方法準(zhǔn)確度不高的其他小語(yǔ)種,例如泰語(yǔ)、老撾語(yǔ)、緬甸語(yǔ),可能無法達(dá)到良好效果.

        表6 越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集下模型預(yù)測(cè)關(guān)鍵詞結(jié)果對(duì)比Tab.6 The comparison of keyphrase prediction results of models under the Vietnamese news keyphrase dataset

        4 結(jié)語(yǔ)

        為了解決樣本不足條件下生成越南語(yǔ)新聞關(guān)鍵詞的準(zhǔn)確性不高的問題,提出一種多特征融合的越南語(yǔ)關(guān)鍵詞生成方法,提高了生成越南語(yǔ)關(guān)鍵詞的準(zhǔn)確率以及與越南語(yǔ)新聞文檔的相關(guān)性.該方法在現(xiàn)有的標(biāo)題指導(dǎo)的關(guān)鍵詞生成網(wǎng)絡(luò)中,利用雙向注意力機(jī)制融入越南語(yǔ)新聞標(biāo)題,有效挖掘出越南語(yǔ)新聞標(biāo)題中的關(guān)鍵信息.所提出的方法能夠結(jié)合越南語(yǔ)中越南語(yǔ)詞性、新聞實(shí)體、詞匯位置等特征以及越南語(yǔ)新聞標(biāo)題中高度匯總的信息來指導(dǎo)關(guān)鍵詞的生成,在越南語(yǔ)新聞關(guān)鍵詞數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)和驗(yàn)證工作,結(jié)果表明,該方法對(duì)于生成已出現(xiàn)的關(guān)鍵詞和未出現(xiàn)的關(guān)鍵詞均具有顯著優(yōu)勢(shì),所提模型在F1@10 和R@50 分?jǐn)?shù)的預(yù)測(cè)上,最多比TG-Net 提高了13.2%和17.1%.未來的主要工作如下:①探索利用越南語(yǔ)句法結(jié)構(gòu)對(duì)關(guān)鍵詞生成的影響;②將本模型擴(kuò)展到越南語(yǔ)其他領(lǐng)域,例如越南語(yǔ)學(xué)術(shù)文檔領(lǐng)域等;③考慮將該方法應(yīng)用在更多的低資源語(yǔ)言上.

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        手机在线看永久av片免费| 成熟妇女毛茸茸性视频| 中文字幕亚洲无线码在线一区| 国产成人一区二区三区影院动漫 | 亚洲嫩模一区二区三区视频| 国产高潮迭起久久av| 一本色道久久综合狠狠躁篇| 精品人妻潮喷久久久又裸又黄| mm在线精品视频| 青青青爽在线视频免费播放| 一本加勒比hezyo无码专区| 国产剧情麻豆女教师在线观看 | 精品国产亚洲一区二区三区演员表| 亚洲国产精品成人一区二区三区| 7194中文乱码一二三四芒果| 人妻丝袜无码国产一区| 91久久福利国产成人精品| 在线观看国产自拍视频| 国产成人综合日韩精品无码| 亚洲熟妇无码av另类vr影视| 欧美zozo另类人禽交| 偷拍韩国美女洗澡一区二区三区| 无码人妻精品一区二区三区9厂 | 隔壁老王国产在线精品| 236宅宅理论片免费| 亚洲精品动漫免费二区| 桃色一区一区三区蜜桃视频| 日日碰狠狠添天天爽五月婷| 最新国产乱视频伦在线| 一区二区三区四区日韩亚洲| 国产激情视频免费在线观看| 日出水了特别黄的视频| 日本不卡一区二区高清中文| 加勒比久久综合久久伊人爱| 国产丶欧美丶日本不卡视频| 国产婷婷丁香久久综合| 一区二区三区av资源网| 亚洲色精品三区二区一区 | 亚洲AV日韩AV无码A一区| 免费在线观看草逼视频| 东京热人妻系列无码专区|