基于語義文本圖的論文摘要關(guān)鍵詞抽取算法

2021-09-09 03:18:18王曉宇王芳

情報學報 2021年8期

王曉宇，王芳

（1.東北財經(jīng)大學管理科學與工程學院信息管理系，大連 116025；2.南開大學商學院信息資源管理系，天津 300071）

1 引言

關(guān)鍵詞是一組用于描述文檔重要信息的名詞集合，可幫助讀者形成對文本內(nèi)容的初步印象，常被用作文獻檢索入口。基于關(guān)鍵詞的文獻主題標引極大地節(jié)省了人們從數(shù)據(jù)庫或互聯(lián)網(wǎng)查找信息所花費的時間和精力。由于科學論文包含了大量可重復(fù)利用的人類科學知識，關(guān)鍵詞也成為文獻信息計量最常用的分析單元。通過對文獻主題分析，可以對文本進行聚類，并在此基礎(chǔ)上形成對特定領(lǐng)域知識關(guān)聯(lián)的清晰認識。目前，科學文獻的關(guān)鍵詞主要由作者在投稿時賦予，但是受作者知識結(jié)構(gòu)和研究興趣的局限，由作者賦予的主題詞常常存在覆蓋面不足、檢索效率不高等問題，因此，CNKI（China National Knowledge Infrastructure）等文獻數(shù)據(jù)庫均會采用機標關(guān)鍵詞進行補充?？梢哉f，高效的關(guān)鍵詞抽取是實現(xiàn)大規(guī)模文獻檢索以及分析的技術(shù)前提，故吸引了眾多學者的關(guān)注[1-3]。

關(guān)鍵詞抽取是信息抽取領(lǐng)域的重要研究內(nèi)容，可被理解為從非結(jié)構(gòu)和/或半結(jié)構(gòu)化機器可讀文檔中自動提取結(jié)構(gòu)化信息的自然語言處理任務(wù)。常見的關(guān)鍵詞抽取算法可分為基于統(tǒng)計和基于機器學習兩大類?；诮y(tǒng)計方法的詞語重要性通常由詞頻的統(tǒng)計量構(gòu)成，如詞頻（term frequency，TF）[4-5]、詞頻-逆文檔頻率（term frequency-inverse document frequency，TF-IDF）、互信息[6-7]、頻率分布[8-10]等，且主要遵循“在文本中頻繁出現(xiàn)的詞語是重要的，因而也更可能與其他重要術(shù)語相關(guān)聯(lián)”這一假設(shè)[11-12]?；诮y(tǒng)計的方法具有易于理解和操作簡便的特點，在文獻計量、競爭情報、科技創(chuàng)新等領(lǐng)域具有廣泛的應(yīng)用[13-16]。但該方法的應(yīng)用以采集特定類型文本集合為前提，是一種文本集合依賴的方法，無法用于動態(tài)數(shù)據(jù)的關(guān)鍵詞抽取任務(wù)。

基于機器學習的關(guān)鍵詞抽取方法是當前信息抽取領(lǐng)域的研究熱點，可進一步分為有監(jiān)督的學習[17-20]、無監(jiān)督的學習[21-23]和半監(jiān)督或弱監(jiān)督的學習三個類別。有監(jiān)督的學習方法需依賴標注語料完成模型的參數(shù)估計（即訓(xùn)練過程），通常訓(xùn)練語料規(guī)模越大，質(zhì)量越高，則模型的抽詞效果越好，但也意味著更大的前期語料標注工作。得益于電腦計算能力的大幅提升和互聯(lián)網(wǎng)環(huán)境下規(guī)模級語料更易獲得，標注語料對有監(jiān)督學習方法的限制在逐步減小，這使得以復(fù)雜人工神經(jīng)網(wǎng)絡(luò)為代表的深度學習方法發(fā)展迅速，結(jié)合長短期記憶網(wǎng)絡(luò)[24-26]、門控機制、注意力機制的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)[27]等深度網(wǎng)絡(luò)模型成為主流。雖然深度模型在函數(shù)逼近、參數(shù)精簡、模型泛化等方面具有更明顯的優(yōu)勢，但網(wǎng)絡(luò)規(guī)模的增大也令前期的模型訓(xùn)練更為耗時。此外，模型強大的學習能力也帶來穩(wěn)健性（ro‐bustness）不足的問題，訓(xùn)練數(shù)據(jù)中較小的擾動就可導(dǎo)致預(yù)測錯誤；而為了克服這一問題，更大的訓(xùn)練樣本和語料標注工作仍然是必要的。

相較于有監(jiān)督學習方法對語料的依賴性，無監(jiān)督方法則更為靈活，可通過預(yù)設(shè)詞典[28-29]、上下文[30-31]、語義[32-34]及其他統(tǒng)計學方法[35-36]完成候選詞篩選，再根據(jù)淺層關(guān)系、淺層主題、低排名假設(shè)等預(yù)設(shè)條件確定詞語的重要性?；趫D的方法是將文本內(nèi)容以文本圖表示，再根據(jù)單詞節(jié)點的圖結(jié)構(gòu)特征進行詞加權(quán)的無監(jiān)督抽取方法，其中，最為熟知的是2004年Mihalcea等[23]在經(jīng)典網(wǎng)頁排名算法PageRank基礎(chǔ)上提出的TextRank。此類方法通常將候選關(guān)鍵字表示為節(jié)點，詞間關(guān)系表示為節(jié)點連接邊，根據(jù)特定的圖屬性設(shè)計加權(quán)函數(shù)完成候選詞的排序，因而算法效果受到文本預(yù)處理、圖構(gòu)建方法和加權(quán)函數(shù)三方面的影響。在文本圖構(gòu)建方面，多數(shù)方法以詞語在固定滑動窗口的共現(xiàn)關(guān)系確立節(jié)點連接邊，但在最優(yōu)窗口長度的問題上卻難以達成共識，需要用戶結(jié)合文本和算法特征進行反復(fù)調(diào)試后確定，增加了算法效果的不確定因素。此外，由于文本圖的連接邊只能夠表示詞共現(xiàn)關(guān)系，在此基礎(chǔ)上設(shè)計的詞加權(quán)方法同樣忽略了其他詞間語義關(guān)系對詞語重要性判斷的作用。

鑒于已有研究的不足，本文提出了一種基于語義文本圖的關(guān)鍵詞抽取算法，該算法著重對文本圖構(gòu)建和詞加權(quán)方法進行改進。其主要貢獻在于：以句法解析中的詞間依存關(guān)系確定實體關(guān)系類別，并作為圖中詞節(jié)點的連接依據(jù)，省去以往圖生成方法中所需要的窗口長度參數(shù)設(shè)定；以包含豐富語義信息的文本圖為基礎(chǔ)，提出融合關(guān)鍵詞位置信息、概念層級和連接強度的詞權(quán)重計算方法，并在四個開放語料的實驗中證明該方法的優(yōu)越性。

2 相關(guān)研究概述

基于圖的關(guān)鍵詞抽取屬于無監(jiān)督信息抽取方法，其基本思路是先將文本內(nèi)容表示為由單詞節(jié)點和詞間關(guān)系構(gòu)成的文本圖，再根據(jù)圖特征確定節(jié)點的重要性與權(quán)重計算方法，最后提取高得分節(jié)點作為文檔的關(guān)鍵詞集。該類方法的抽詞效果主要受圖結(jié)構(gòu)和詞的加權(quán)方式兩方面的影響，其中文本圖是候選詞特征提取的重要依據(jù)，不同的構(gòu)圖方式會導(dǎo)致文本圖在節(jié)點基數(shù)和邊屬性方面存在較大差異。例如，經(jīng)過詞干提?。╯temming）操作的候選詞，通常會組成節(jié)點數(shù)更少的文本圖，而主流的文本圖構(gòu)建方法多采用單一的詞共現(xiàn)關(guān)系邊連接，通過共現(xiàn)窗口大小和滑動位移控制文本圖密度和連接邊方向。通常窗口設(shè)置的越大、位移量越小，圖密度越高，可提取的特征也就越多。

在詞權(quán)重計算方面，經(jīng)典的加權(quán)方法包括Pag‐eRank、TextRank和HITS，均是以特征向量的中心性為基礎(chǔ)，將節(jié)點權(quán)值作為其在網(wǎng)絡(luò)內(nèi)部影響力的度量方法。PageRank是一種用于解決網(wǎng)頁排名的有向圖節(jié)點權(quán)重計算方法，將節(jié)點權(quán)重定義為與其相鄰且指向該點的節(jié)點權(quán)重之和；同時，節(jié)點又將其自身權(quán)重的一部分分配給其指向的節(jié)點，因此，被高質(zhì)量節(jié)點所指向的節(jié)點會得到更高的權(quán)重[37]。Mihalcea等[23]將文本圖的拓撲結(jié)構(gòu)與PageRank進行整合，并提出了TextRank，在借鑒其節(jié)點加權(quán)方法的同時，將詞語在滑動窗口內(nèi)的共現(xiàn)頻次作為邊的權(quán)值，并表示節(jié)點間連接邊的重要程度。

在其他PageRank相關(guān)變體中，SemanticRank將詞間語義相關(guān)性賦值于節(jié)點連接邊的權(quán)重，且相關(guān)性由詞語在WordNet中的連接路徑長度和Wikipedia中共同指向詞語鏈接數(shù)量共同決定[38]。PositionRank是由Florescu等[39]提出的，將單詞在文本中的位置信息融入權(quán)值計算的關(guān)鍵詞提取方法。該方法假定越重要的單詞會越早地出現(xiàn)在一段文字當中，因此，如果一個單詞在文本中出現(xiàn)的越頻繁且位置越靠前，那么其應(yīng)被賦予更高的權(quán)重。Liu等[40]的研究證明了先驗知識對抽詞效果的積極影響，并提出以TF-IDF、位置和主題三種權(quán)值作為先驗知識的Biased-PageRank算法。此外，作為TextRank的變體，SingleRank將文檔集合與單個文檔中的詞共現(xiàn)頻率作為邊權(quán)重的計算方式[41]。TopicRank則對由主題節(jié)點構(gòu)成的文本圖進行加權(quán)，依據(jù)主題的重要性將高得分節(jié)點中的詞語集合作為文本的關(guān)鍵詞集[42]。

與PageRank將相鄰節(jié)點權(quán)重納入到權(quán)重計算中不同，HITS[43]定義了兩類重要節(jié)點：多個節(jié)點共同指向的權(quán)威節(jié)點和指向多個節(jié)點的中心節(jié)點。權(quán)重計算通常會融入節(jié)點中心度[39,44]或k-degeneracy[45-46]等社會網(wǎng)絡(luò)指標。在相關(guān)研究中，Boudin[47]比較了度數(shù)中心度、接近中心度、中介中心度和特征向量中心度四個中心度計算方法在基于圖的關(guān)鍵詞抽取算法中的效果，在三個不同語言和領(lǐng)域數(shù)據(jù)集上的實驗表明，簡單的中心度計算方法就能達到與Tex‐tRank相似的結(jié)果。Biswas等[48]在度數(shù)中心度、選擇中心度等多參數(shù)組合節(jié)點權(quán)重計算基礎(chǔ)上，依據(jù)點-邊排序法（node-edge rank）[49]完成關(guān)鍵詞節(jié)點的提取。Vega-Oliveros等[50]發(fā)現(xiàn)9個不同的中心度權(quán)重計算方法，雖然能夠獲得相似的關(guān)鍵詞提取結(jié)果，但是不同方法的組合同樣能夠達到提高抽詞效果的目的。

部分研究還采用k-core、k-truss等圖分解法將主核（core）或主束（truss）節(jié)點作為關(guān)鍵詞進行提取。例如，Rousseau等[45]使用節(jié)點核，即文本子圖中節(jié)點所具有的最小度數(shù)對網(wǎng)絡(luò)層級進行劃分，并進行權(quán)重計算，且當k值較高、主核數(shù)越少時，該算法顯著優(yōu)于TextRank。這類方法的實質(zhì)是對圖內(nèi)聚性的計算，且認為高內(nèi)聚性節(jié)點具有更高的影響力，因而將其作為文本的關(guān)鍵詞具有合理性[46]。另外，Ohsawa等[51]提出的KeyGraph將文本圖分割成若干個聚類，并以此表示特定的概念，詞語與其所在聚類的緊密程度則為詞語重要性的判斷依據(jù)。Matsuo等[22]在證明文本圖具有小世界網(wǎng)絡(luò)特性的基礎(chǔ)上，提出了基于網(wǎng)絡(luò)特征貢獻度的KeyWorld權(quán)重指標。Litvak等[21]則在此基礎(chǔ)上將節(jié)點度融入權(quán)重指標中，并提出了關(guān)鍵詞抽取效率更高的De‐gExt。Duari等[52]通過相鄰句子滑動窗口構(gòu)建文本圖，并提出整合單詞網(wǎng)絡(luò)層級、位置信息、語義連接性和語義強度四類維度特征的詞加權(quán)方式。

從上述研究中可發(fā)現(xiàn)，基于圖的關(guān)鍵詞抽取算法具有應(yīng)用簡便的特點，但也存在一定的局限性。首先，以單詞作為節(jié)點，以固定窗口內(nèi)的詞共現(xiàn)關(guān)系確立連接邊仍是目前普遍采用的圖構(gòu)建方法。雖然具有操作簡便、運算速度快的優(yōu)勢，但共現(xiàn)窗口的長度卻是一個超參數(shù)，算法的抽詞效果直接受到參數(shù)設(shè)定合理性的影響。較小的窗口會使得網(wǎng)絡(luò)的連通性較差；反之，則會使得邊的權(quán)重差異過小，對詞節(jié)點的圖結(jié)構(gòu)特征提取造成困難。因此，窗口長度通常需要根據(jù)抽取算法和語料特征進行調(diào)整，無法給出一個統(tǒng)一的取值范圍，需要研究者通過反復(fù)實驗得出。其次，在論文摘要的關(guān)鍵詞抽取任務(wù)中，雖然摘要包含了對文章主要內(nèi)容的精簡表述，卻也存在短文本可用信息過少的問題。此時，無論采用單詞或是句子長度的滑動窗口，均會出現(xiàn)由文本圖稀疏所導(dǎo)致的算法效率降低的問題。最后，文本圖中的連接邊表示詞語在文本中的共現(xiàn)關(guān)系，忽略了詞間存在的多種語義關(guān)系，此時的文本圖僅能說明詞語在指定窗口內(nèi)共同出現(xiàn)過，卻無法解釋為何共現(xiàn)，而缺失的語義信息則是對詞間關(guān)系最好的補充，如基于主謂賓（subject-verb-object，S-V-O）結(jié)構(gòu)的文本內(nèi)容表示和相似性計算。

3 基于語義文本圖的關(guān)鍵詞抽取算法

為了彌補上述方法中的不足，本文提出一種基于語義文本圖的關(guān)鍵詞抽取算法，框架如圖1所示，由文本預(yù)處理、語義文本圖構(gòu)建（第3.1節(jié)）和詞權(quán)重計算（第3.2節(jié)）三個主要部分構(gòu)成。

圖1 算法整體框架

3.1 語義文本圖構(gòu)建方法

3.1.1 基于依存句法解析的詞間關(guān)系提取

根據(jù)Vo等[53]的定義，從句（clause）可被狹義地定義為“句法解析和依存關(guān)系解析所形成的樹結(jié)構(gòu)”。為了讓文本圖盡可能多地保留摘要中的語義和結(jié)構(gòu)信息，本節(jié)重點介紹基于語義依存關(guān)系的詞間關(guān)系抽取框架，特別是英文語法中，從句中不完整元組結(jié)構(gòu)的補全規(guī)則，以及介詞短語修飾成分的關(guān)系提取。

從句是用于修飾名詞或充當名詞功能的語法結(jié)構(gòu)（如在句子中充當主語成分的主語從句），包括主語（subject，S）、謂語（verb，V）、直接賓語（direct object，DO）、間接賓語（indirect object，IO）、補語（complement，C），以及充當修飾成分的狀語（adverbials，A）等結(jié)構(gòu)。傳統(tǒng)基于句法解析的關(guān)系提取方法，通常以句子中的動詞或動詞性短語作為關(guān)系提取的依據(jù)，再使用形如的元組對其實體關(guān)系進行表示，其主要局限在于：如果句子中缺少足夠的信息幫助明確主語、謂語或賓語實體間的聯(lián)系，算法就無法提取完整的元組結(jié)構(gòu)。例如，圖2的題目中“Three-dimensional objects”和“scale invariances”之間沒有動詞或動詞性短語連接，傳統(tǒng)方法無法提取這一關(guān)系元組。

因此，為了更多地保留摘要文本中的詞間關(guān)系并生成較大的連通圖，本文將狀語修飾成分及其連接的名詞結(jié)構(gòu)也作為關(guān)系的提取對象，并將其稱為“修飾關(guān)系”。此外，為了減少句法解析器對復(fù)合長句進行解析時可能引發(fā)的解析錯誤，在關(guān)系提取時按照如下原則進行處理：首先確定句子中的名詞性短語及根詞（head），再根據(jù)句法解析結(jié)果獲得兩個名詞短語根詞之間的最短依存路徑。以圖2的第二個句子為例，采用Spacy工具包對句子進行解析，共識別5個名詞短語（3-D information，object，de‐formed fringe patterns，F(xiàn)ourier transform profilometry technique，classical convergent correlator）及其依存關(guān)系，結(jié)果如圖3所示。

圖2 論文題目與摘要實例

在圖3中，箭頭從head指向依存其詞語①SpaCy中Dependency Parse標簽釋義見https://spacy.io/api/annotation#dependency-parsing。在路徑搜尋時，除了主語與句子根成分（root）之間的路徑搜索與箭頭方向相反，其余的搜尋方向均與箭頭相同。對于“3-D（information）”和“classi‐cal convergent（correlator）”兩個短語（括號中的單詞為head），根據(jù)上述原則，可在短語的根詞之間得到內(nèi)容為的最短路徑。

圖3 句子依存路徑解析實例

對于路徑中由“conj”（連詞）連接的兩個動詞，需要對路徑進行拆解，并將動詞與路徑中的兩個實體分別進行組合，以此繼承動詞節(jié)點的依存關(guān)系。在上述例子中，根據(jù)該原則可提取到“infor‐和“in‐兩個子路徑。在第一個路徑中，codified和using間的依存關(guān)系繼承了correlated與using之間的關(guān)系，而第二個路徑中的correlated和information則繼承了codified和information間的關(guān)系。

在關(guān)系抽取時，除了要獲得最短路徑上的全部詞語之外，還需將只與這些詞語建立依存關(guān)系的介詞修飾語和be動詞一起提取，最終可獲得實體關(guān)系的完整形式是：<3-D information,is correlated us‐ing,classical convergent correlator>和<3-D informa‐tion,is codified using,classical convergent correlator>。類似地，可以從句子中抽取剩余的實體關(guān)系：<3-D information,of,objects>、<3-D,is codified in,de‐formed fringe patterns>、。

3.1.2 名詞實體間關(guān)系類別

在明確名詞實體間的關(guān)系提取方法后，要對關(guān)系進一步分類：首先，使用Python編程語言對第3.1.1節(jié)的抽取規(guī)則進行技術(shù)實現(xiàn)；其次，從Web of Science數(shù)據(jù)庫中隨機選擇100篇學術(shù)論文摘要，每篇任選2個句子進行句法解析；最后，得到731條有效實體關(guān)系，平均每條句子抽取3.6條，涉及17個依存類別，詳細的解析結(jié)果如表1所示。

在此基礎(chǔ)上，作者邀請兩名博士研究生共同對表1中的依存類別進行分類，過程如下：第一步將編號為1的依存類別直接作為分類I；第二步，選取編號2的類別請博士研究生對其是否能夠歸入分類I進行判斷并陳述理由，若認為不能夠歸入，則將其作為分類II獨立出來，并在第三步選取編號3的類別后重復(fù)執(zhí)行第二步，判斷其是否能夠歸入分類I或II；若能夠歸入，則需先將其并入分類II，再重復(fù)第二步直至完成分類。當二人意見不能達成一致時，由作者進行判斷，并根據(jù)少數(shù)服從多數(shù)的原則進行操作。上述分類過程結(jié)束后，共得到四個用于文本圖生成的關(guān)系類別，并將其命名為：概念連接關(guān)系、等價隸屬關(guān)系、功能屬性關(guān)系、修飾限定關(guān)系，具體結(jié)果如表2所示。

表1 200條句子的解析結(jié)果

表2 實體關(guān)系及其對應(yīng)的依存類別

1）概念連接關(guān)系（conceptual connection，CO）

該類實體關(guān)系包含名詞性短語中各形容詞和名詞之間的依存關(guān)系，實際上，這是一種名詞短語內(nèi)的詞共現(xiàn)關(guān)系。在上一節(jié)的關(guān)系抽取方法中，第一步為確定句子中的名詞性短語，故構(gòu)成名詞短語的單詞間均具有該實體關(guān)系類別。

2）等價隸屬關(guān)系（equal subjection，ES）

等價隸屬關(guān)系包括同一句子實體間的同義、隸屬和指代依存關(guān)系。最簡單的隸屬關(guān)系可以定義為由介詞“of”連接的名詞實體，同義關(guān)系則多對應(yīng)具有“is-a”、名詞短語縮寫，或同位語關(guān)系連接的實體關(guān)系。指代關(guān)系可以是代詞與其指代實體之間的關(guān)系，亦可是定義模糊和定義明確實體之間的概念，例如，在示例文本中“two different approaches”和“Mellin radial harmonic decomposition”與“l(fā)oga‐rithmic radial harmonic filter”之間的關(guān)系。

3）功能屬性關(guān)系（functional property，F(xiàn)P）

這一關(guān)系與Altshuller在其發(fā)明問題解決理論（theory of the solution of inventive problems，TRIZ）中所提出的“物質(zhì)（substance）-場（field）”模型類似。在該模型中，所有的功能都可以分解為兩種物質(zhì)和一種場，并構(gòu)成了一個用于表示產(chǎn)品功能的三元組。在過去的研究中，學者們通常將句子中通過動詞建立語義聯(lián)系的兩個名詞短語作為具體功能的表示[53-56]，類似地，本類別中的依存關(guān)系多由動詞及動詞結(jié)構(gòu)參與構(gòu)成。

4）修飾限定關(guān)系（modification and restriction，MR）

修飾限定關(guān)系特指狀語修飾成分與其修飾對象之間的依存關(guān)系。由于狀語通常在句子中作為動詞、形容詞、副詞和其他句子修飾成分，因此，可以將其理解為對特定的實體對象添加更多的限制條件，例如，時間狀語是對實體在時間范圍內(nèi)的限定，地點狀語是在地理空間內(nèi)的限定，條件從句是其他實體所表示的狀態(tài)空間上的限定。

在上述類別基礎(chǔ)上，對圖2中的文本進行關(guān)系抽取，結(jié)果如表3所示，6個句子共獲得22個實體關(guān)系。再對關(guān)系元組中實體和其關(guān)系充當?shù)木渥映煞诌M行分析，如主語（S）、謂語（V）、賓語（O）、補語（C）和狀語（A），得到包括主謂賓（S-VO）、主謂補（S-V-C）、主謂狀語（S-V-A）等在內(nèi)的多種句法模式，并據(jù)此生成文本圖用于后續(xù)的節(jié)點權(quán)重計算，如圖4所示。

圖4 文本圖樣例

表3 關(guān)系抽取結(jié)果

3.1.3 文本圖特征比較分析

為了進一步說明本文提出的方法所生成文本圖的特點，本文選擇四種文本圖構(gòu)建方法與之進行比較，分別為Graph-of-Word、TextRank、DegExt、Context-of-Aware，并以圖2的摘要為例進行可視化，結(jié)果如圖5和表4所示。

表4 不同圖構(gòu)建方法的圖特征比較

從節(jié)點數(shù)量上看，本節(jié)提出的圖構(gòu)建方法包含了最多的節(jié)點，TextRank和DegExt由于構(gòu)成了多個互不連接的子圖，其子圖中的節(jié)點數(shù)也最小。從邊屬性和網(wǎng)絡(luò)密度來看，圖5中的連接邊均表示詞語的共現(xiàn)關(guān)系，不同長度的滑動窗口會產(chǎn)生不同的孤立節(jié)點，如圖5b和圖5c存在互不連通的文本圖。此外，DegExt的連接邊最為稀疏，而Context-Aware的圖密度最高。經(jīng)分析，邊集合數(shù)量差異主要受預(yù)設(shè)共現(xiàn)窗口大小的影響。雖然DegExt和Context-Aware均以長度為2窗口內(nèi)的詞語共現(xiàn)確立連接邊，但是前者的單位為細粒度更高的單詞，而后者則為句子。

圖5 不同算法所生成的文本圖

與其他方法相比，本節(jié)的文本圖雖然不具有最高的密度，但是通過多種實體關(guān)系保留了更多的語義信息。在詞共現(xiàn)關(guān)系方面，方法并沒有將窗口大小作為超參數(shù)，轉(zhuǎn)而采用更為靈活的名詞短語內(nèi)共現(xiàn)作為詞語共現(xiàn)的連接方式，即根據(jù)語法解析器得到的名詞塊（chunk）的實際長度在短語間建立連接邊，因而第3.1.2節(jié)的四種實體關(guān)系確立同樣無需相關(guān)參數(shù)的設(shè)定。與Context-Aware相比，本節(jié)生成的圖密度更低，降低了后續(xù)圖計算的復(fù)雜性。與此同時，多樣的邊屬性也使得節(jié)點組合表達的內(nèi)容更為豐富，含義更為明確。

3.2 面向多維語義連接的詞加權(quán)方法

圖的結(jié)構(gòu)特性變化在詞語打分中起著重要作用[52]。在第3.1節(jié)生成的文本圖的基礎(chǔ)上，本節(jié)提出了一種整合單詞位置信息、構(gòu)成名詞實體數(shù)量、實體語義連接強度特征的圖節(jié)點加權(quán)方法，并將權(quán)重得分作為詞語重要性的判斷依據(jù)。對于文本圖中的任意單詞節(jié)點vi，其權(quán)重計算方法為

其中，ωi表示單詞vi在文本中的位置權(quán)重；ConceptScore為單詞在文本圖中的概念連接權(quán)重；SemanticScore為語義連接權(quán)重。概念連接權(quán)重由概念層級（λ）、概念連接偏好（α）、概念連接強度（CC）組成，由公式

展開計算。語義連接權(quán)重由語義層級（γ）、語義連接偏好（β）、語義連接強度（SC）組成，計算公式為

本節(jié)后續(xù)內(nèi)容將對各權(quán)重值的含義與應(yīng)用基礎(chǔ)進行詳細闡述。

3.2.1 詞語位置權(quán)重的計算

一個詞語的位置權(quán)重由該詞在文本中出現(xiàn)的相對位置決定，重要的關(guān)鍵詞更傾向于出現(xiàn)在文本前半部分[17,57]，并得到Florescu等[39]方法的驗證。因此，本文以單詞在文本中出現(xiàn)的相對位置（次序）的倒數(shù)作為該權(quán)重的計算方式。對于單詞重復(fù)出現(xiàn)的情況，需先對其在文中的相對位置取倒數(shù)再求和，計算公式為

其中，ni表示單詞在文本中出現(xiàn)的頻次；pj表示第j個單詞在文中的位置。此外，本文在位置權(quán)重計算時將題目和摘要整合成為一個短文本，且題目在前，摘要在后，即賦予題目中出現(xiàn)的單詞更高的權(quán)重。

3.2.2 概念連接權(quán)重的計算

在第3.1節(jié)的文本圖中，任一單詞既可以與其他單詞組成名詞短語，并建立詞共現(xiàn)連接（CO和ES屬性邊），也可根據(jù)句法解析后識別到的實體關(guān)系與其他節(jié)點建立語義上的連接（FP和MR屬性邊）。其中，詞語共現(xiàn)是以單詞的有意義組合為前提所建立的詞間聯(lián)系，單詞及其共現(xiàn)連接邊所組成的子網(wǎng)絡(luò)構(gòu)成了文本中的概念空間，而子網(wǎng)絡(luò)中包含的n階完全圖則代表了概念空間中的每一個實體概念。由于重要的單詞可以和不同的單詞進行組合，形成表達形式多樣卻具有同種特征的名詞短語，在這種情況下，特定單詞參與組合的概念數(shù)量越多，在句子中出現(xiàn)的越頻繁，該單詞就越重要。因此，概念連接權(quán)重反映了單詞參與構(gòu)成重要概念的能力。

1）概念層級

在基于圖的詞加權(quán)方法中，單詞的概念層級是對網(wǎng)絡(luò)進行分解和判定節(jié)點重要性的關(guān)鍵，且通常認為單詞的概念層級與其重要性呈正相關(guān)關(guān)系。在已有研究中，Rousseau等[45]和Tixier等[46]分別采用基于核（k-core）和基于束（k-truss）的同質(zhì)網(wǎng)絡(luò)分解法來計算單詞的概念層級。其中，基于束的層級權(quán)重由節(jié)點所在邊參與構(gòu)成的3階完全圖數(shù)量決定，方法應(yīng)用以適當?shù)木W(wǎng)絡(luò)密度為前提。這意味著當生成的文本圖密度較低或子圖無法形成完全圖結(jié)構(gòu)時，單詞權(quán)重的得分差異不明顯，容易導(dǎo)致大量單詞位于較低的概念層級，即權(quán)重失效。由于本文方法生成文本圖具有低密度特征，且密集子圖主要由概念連接屬性邊構(gòu)成（如圖4、圖5所示），因此，本文采用以網(wǎng)絡(luò)中節(jié)點度數(shù)為基礎(chǔ)的k-core方法對單詞參與的共現(xiàn)屬性子圖進行分解，并將概念層定義為節(jié)點與其相鄰節(jié)點共同具有的核數(shù)，并采用Batagelj等[58]提出的算法用于節(jié)點v的核數(shù)core(v)計算。

定義1：在基于詞共現(xiàn)所生成的加權(quán)無向同質(zhì)網(wǎng) 絡(luò) 圖G'中（G'?G），H是G'的一個子圖，deg(H)表示H中的最小度數(shù)，即H中的每一個節(jié)點至少與deg(H)個節(jié)點相鄰。如果H是G'中的一個最大連通子圖，且滿足deg(H)≥k，那么H是G'的一個k-core。

定義2：節(jié)點v的核數(shù)core(v)為包含這一節(jié)點的核的最高序，最高序的核也被稱為圖的主核，表示為core(H)。

2）概念連接偏好

本文在第3.1節(jié)共定義了單詞節(jié)點間的四類連接邊，因而，采用本文方法構(gòu)成的文本圖實際上包含了非單一邊屬性的異質(zhì)網(wǎng)絡(luò)圖。不同于單一屬性邊和節(jié)點構(gòu)成的同質(zhì)網(wǎng)絡(luò)，此時網(wǎng)絡(luò)中節(jié)點的度數(shù)由兩方面因素決定，分別是節(jié)點間的詞共現(xiàn)連接和語義連接邊數(shù)量。而本文將概念連接偏好定義為詞共現(xiàn)連接在節(jié)點度數(shù)中所占的比例，其反映的是在一段文本中，某個單詞傾向于與其他單詞組成不同概念的程度。

定義3：圖G'中節(jié)點vi的概念連接偏好被定義為節(jié)點通過詞共現(xiàn)方式與其他節(jié)點建立連接的數(shù)量與文本圖G中的最大連接數(shù)量的比值，表示為

3）概念連接強度

單詞在文本中的概念連接強度可以表示為一個關(guān)于單詞概念層級與其連接強度的函數(shù)，其中單詞vi(vj∈G')的連接強度表示為其在詞共現(xiàn)網(wǎng)絡(luò)圖G'中的共現(xiàn)頻率，即網(wǎng)絡(luò)中邊eij的權(quán)重。

定義4：在詞共現(xiàn)網(wǎng)絡(luò)圖G'中，節(jié)點vi具有鄰接節(jié)點集合Ni，vi的概念連接強度被表示為

其中，cwij為邊eij的權(quán)重；core(vi)為節(jié)點在詞共現(xiàn)子圖中的概念層級。當兩個單詞所組成的短語越多時，共現(xiàn)頻率越高，詞語間的概念連接強度也就越高。

3.2.3 語義連接權(quán)重的計算

重要的單詞不僅可以組成重要的概念，更應(yīng)與其他單詞或概念組成豐富且有意義的語義功能關(guān)系。一個文檔包含了語義相關(guān)的多個概念，Ohsawa等[51]認為，重要的單詞是那些在文本圖概念聚類間建立連接且將整個文檔整合起來的單詞；Duari等[52]將這一概念進行了延伸，認為一個單詞的語義連接性可以通過該單詞參與構(gòu)成概念的數(shù)量進行量化，并將網(wǎng)絡(luò)中的層級束作為概念的近似表示。因此，如果一個詞語的相鄰節(jié)點屬于多個概念類型，那么當移除這個節(jié)點時，勢必會在概念之間產(chǎn)生一個缺口。類似地，如果一個詞語所有的相鄰節(jié)點都屬于同一概念，那么該節(jié)點的移除會導(dǎo)致較少的語義的損失。

在上述研究基礎(chǔ)上，本文對語義連接權(quán)重的概念進一步擴展，除了考慮單詞連接的概念子圖數(shù)量，還涵蓋單詞間的連接屬性特征。在一段文本中，某些單詞雖然沒有參與表示過多的概念，但其卻頻繁地在不同概念間建立語義聯(lián)系。因此，本節(jié)將單詞節(jié)點間由依存句法解析建立的連接定義為語義連接。此時，如果一個單詞的相鄰節(jié)點屬于不同的詞共現(xiàn)網(wǎng)絡(luò)，那么當移除這個節(jié)點時，勢必會在概念之間產(chǎn)生一個缺口；反之，如果一個詞語所有的相鄰節(jié)點都屬于同一概念（詞共現(xiàn)網(wǎng)絡(luò)），那么該節(jié)點的移除會導(dǎo)致較少的語義的損失，因為概念中剩余的詞語都相對完整。因此，單詞的語義連接權(quán)重反映的是單詞參與建立實體間關(guān)系的能力。

1）語義層級

與詞共現(xiàn)網(wǎng)絡(luò)中概念層級的定義類似，本文將單詞的語義層級定義為其在語義連接子網(wǎng)絡(luò)中的kcore。

定義5：在基于實體間語義關(guān)系所生成的加權(quán)網(wǎng)絡(luò)圖G″中（G″?G），節(jié)點v的語義層級為包含這一節(jié)點的核的最高序。

2）語義連接強度

與概念連接強度類似，單詞在文本中的語義連接強度是一個關(guān)于單詞語義層級和其對應(yīng)語義連接邊權(quán)重的函數(shù)，其中邊的語義連接權(quán)重可以表示為連接頻次。因此，對于在圖G″中具有Ni個相鄰節(jié)點的節(jié)點vi，其語義強度可由公式

計算得到。其中，swij為語義連接邊eij的權(quán)重；score(vi)為節(jié)點在語義連接網(wǎng)絡(luò)中的概念層級。當一個單詞的語義層級越高時，其通過語義建立的詞間表示修飾、方法或其他功能屬性關(guān)系連接越多且越頻繁，則該詞語的語義連接強度也就越高。

3）語義連接偏好

語義連接偏好顯示了節(jié)點的語義連接在節(jié)點度數(shù)中所占的比例，其反映的是在一段文本中，某個單詞傾向于與其他單詞結(jié)合，以表達不同語義的程度。

定義6：圖G″中節(jié)點vi的語義連接偏好被定義為節(jié)點通過語法依存與其他節(jié)點建立連接的數(shù)量與文本圖G中的最大連接數(shù)量的比值，表示為

4 算法比較與評估

4.1 Baseline與評估語料

本節(jié)選取經(jīng)典的TextRank[23]、PositionRank[39]和最新的sCAKE[52]三種基于圖的關(guān)鍵詞提取方法作為baseline與本文方法比較，并在關(guān)鍵詞抽取任務(wù)中較為熟知的四個公開語料Hulth2003[17]、Krapiv‐in2009①語料下載地址：http://disi.unitn.it/~krapivin/、SemEval2010②語料下載地址：http://semeval2.fbk.eu/semeval2.php?location=data和KP20k③語料下載地址：https://github.com/memray/OpenNMT-kpg-release上進行實驗。其中，Hulth2003收錄了Inspec數(shù)據(jù)庫中的2000篇英文期刊論文摘要及其標題，關(guān)鍵詞集合分為依照數(shù)據(jù)庫敘詞表標注的受控關(guān)鍵詞集和自由添加的非受控關(guān)鍵詞集，本文將非受控詞集中未在摘要出現(xiàn)的關(guān)鍵詞剔除后用于評估。類似地，SemEval2010包含由作者和讀者分別添加的兩類關(guān)鍵詞集合，在對其進行整合和剔重后進行實驗。四個語料的其他信息如表5所示，不同長度文本的關(guān)鍵詞標注比例如圖6所示。

圖6 語料關(guān)鍵詞標注比例

表5 算法評估數(shù)據(jù)集描述

4.2 等量抽取策略下的算法評估

本節(jié)的主要內(nèi)容是比較不同算法以相等數(shù)量進行關(guān)鍵詞抽取時的效果。根據(jù)文獻[59]、文獻[52]和文獻[17]的實驗結(jié)果，分別以k=25、10、30和10在Hulth2003、Krapivin2009、Semeval2010、KP20k語料上進行實驗。同樣使用查準率、查全率和F1值三個指標對抽取效果進行評估，結(jié)果如表6所示。

表6 等量關(guān)鍵詞抽取的多語料算法評估結(jié)果

在測試語料中，本文方法均取得了最高的查全率，評估指標在Hulth2003、Semeval2010和KP20k數(shù)據(jù)集上的得分均高于其他三個baseline，而Tex‐tRank在三個語料上測試結(jié)果均最差，其次為Posi‐tionRank。結(jié)合表5的語料信息進一步分析可知，在摘要文本平均單詞數(shù)量較少的Hulth2003數(shù)據(jù)集中，四個方法均取得了最好的效果。從正確抽取的關(guān)鍵詞數(shù)量上看，該語料中摘要的平均關(guān)鍵詞數(shù)量約為20個，本文方法平均正確抽取了12個關(guān)鍵詞，PositionRank和sCAKE為11個，而TextRank僅為1個。與Hulth2003和Krapivin2009相比，Semeval2010和KP20k擁有更長的文本，但關(guān)鍵詞比例卻更低，在以k=30和k=10進行抽取時，本文方法在三個指標上均得到了高于baseline的結(jié)果。而對于平均長度最短的Krapivin2009，本文算法在以k=10進行關(guān)鍵詞抽取時的優(yōu)勢并不明顯，sCAKE方法的查準率和F1值得分高于本文方法，且本文方法的查全率也僅比前者高出0.08。結(jié)合上述語料特征能夠發(fā)現(xiàn)，本文方法在抽詞數(shù)量k大于語料平均關(guān)鍵詞數(shù)量時的抽詞效果最好。例如，當以k=25和k=30對Hulth2003和Semeval2010的文本關(guān)鍵詞進行抽取時，k值分別高于兩個語料中的平均關(guān)鍵詞量19和16。而在Krapivin2009語料中k=10的設(shè)定要低于平均關(guān)鍵詞數(shù)量15，此時sCAKE的效果更好。

此外，表6的結(jié)果顯示，四個算法的查準率均低于查全率。經(jīng)分析，造成這一結(jié)果的主要原因在于測試語料中文本長度的非均衡分布。圖7中繪制了四個語料文本剔除停用詞后的長度分布，而當分別以k=10、25、30進行關(guān)鍵詞抽取時，部分文本的關(guān)鍵詞數(shù)量大于或等于候選詞集，例如，在Krapiv‐in2009語料中，約有6%的文本長度在區(qū)間[0,10]內(nèi)，且超過53%的樣本分布在區(qū)間[50,80]上。在采用等量策略抽取時，較短文本的關(guān)鍵詞查全率可為1；但對于長文本而言，算法抽取的關(guān)鍵詞數(shù)量與文本長度之比卻又低于語料的平均關(guān)鍵詞占比。具體而言，Krapivin2009中長度超過60的文本約占全部樣本的4%，相同區(qū)間上實際抽取關(guān)鍵詞的平均比例僅為13.62%。類似地，Hulth2003在相同區(qū)間上的樣本約占2.9%，關(guān)鍵詞比例為33.54%；SemEval2010在大于70區(qū)間上的百分比則分別為36.89%和36.2%。這意味著在采用固定長度進行關(guān)鍵詞抽取時，一方面，看似較高的查全率得益于語料中包含了較多的短文本（如Hulth2003）；另一方面，則需要設(shè)定較大的k值，令長文本的抽詞比例接近或超過語料的關(guān)鍵詞比例，然而后者往往以犧牲中長文本的準確率為代價，因此，在所有的實驗結(jié)果中查準率最大值也未超過50%。

圖7 測試語料的文本長度分布

本節(jié)進一步比較了不同權(quán)值組合對算法抽詞效果的影響，具體實驗結(jié)果如表7所示。在三個權(quán)重指標中，單獨使用位置權(quán)重就能夠得到超過0.2的正確率，且在Krapivin2009數(shù)據(jù)集上最高為0.369。而概念和語義權(quán)重在Hulth2003和SemEval2010中的測試結(jié)果并不理想，查準率在0.1附近徘徊，F(xiàn)1值也并未超過0.2。此外，雖然位置權(quán)重與概念權(quán)重的組合在Krapivin2009和KP20k數(shù)據(jù)集上獲得了0.394和0.358的查準率，但也并未超過本文方法實驗結(jié)果的0.412和0.368，且在另外兩個數(shù)據(jù)集的實驗結(jié)果更明顯低于本文方法。

表7 不同權(quán)值組合的抽詞效果

4.3 等比抽取策略下的算法評估

考慮到現(xiàn)實中的語料標注并沒有對關(guān)鍵詞數(shù)量進行嚴格的限定，并且隨著文本長度的增加，關(guān)鍵詞的標注比例呈現(xiàn)下降趨勢，加之多數(shù)文本的關(guān)鍵詞標注比例穩(wěn)定在30%~50%（見圖6），因此，本節(jié)進一步評估以固定比例抽取關(guān)鍵詞時的算法效果。文獻[52]已指出，本文的兩個baseline方法對實驗語料進行等量關(guān)鍵詞抽取時效果最好，因此，本文不再對其進行重復(fù)實驗，只探討抽詞比例對算法的影響，具體結(jié)果如表8所示。

表8 關(guān)鍵詞抽取比例對算法效果的影響

本節(jié)在三個語料中各進行了7輪抽取，總體的實驗結(jié)果表明，本文方法的關(guān)鍵詞等比抽取效果優(yōu)于等量抽取效果，各評估指標均具有較為明顯的提高。特別地，當以20%的比例對Krapivin2009語料進行抽取時，算法效果最佳，且查準率、查全率和F1值均超過在等量抽詞實驗中具有較好效果的sCAKE。在指標變化方面，隨著抽取比例的增加，算法在Krapivin2009中的查準率和F1值逐漸降低，查全率則逐漸增加。類似地，Semeval2010和Hulth2003語料的指標得分在小幅波動后，也呈現(xiàn)相似的變化趨勢，但前者的變化更為明顯，并且在抽取比例為30%時，算法的查準率取最大值。結(jié)合圖6和圖7的語料特征可知，若要算法保證較高的準確率，則抽詞比例應(yīng)接近語料中多數(shù)長度文本的關(guān)鍵詞標注比例。例如，Krapivin2009中長度在區(qū)間[50,70]上的文本數(shù)量最多，相同區(qū)間上文本的關(guān)鍵詞標注比例約為20%，此時，以相同比例進行抽詞時效果最好。此外，若期望算法抽取的關(guān)鍵詞更為全面，只需將抽詞比例盡可能調(diào)大即可。

5 結(jié)論

本文提出了一種基于圖的關(guān)鍵詞抽取算法，該算法重點改進了文本圖的生成和關(guān)鍵詞的加權(quán)方式。為了讓從文本中生成的文本圖盡可能地保留多的語義和結(jié)構(gòu)信息，該算法根據(jù)單詞在句子中的語義依存關(guān)系為單詞建立不同屬性的連接邊，除了最為常見的共現(xiàn)關(guān)系外，還通過最短依存路徑的搜索策略確立了單詞間具有的等價隸屬、功能屬性和修飾限定三種關(guān)系。在關(guān)鍵詞的加權(quán)方法上，該算法提出了一種整合單詞在文本中位置信息、參與構(gòu)成的實體概念數(shù)量和實體間建立語義關(guān)系的三個維度特征的權(quán)重計算指標，并與兩個基于圖的baseline算法在開放語料上進行比較，證明了該算法的優(yōu)越性。

同時，本文的研究也存在一定的局限性：首先，提出的關(guān)鍵詞抽取算法以句法解析為前提，因此無法用于缺乏句法解析工具的語言文本中；其次，本文僅根據(jù)當前任務(wù)需要在公開的論文摘要語料中進行算法評估。未來的工作可以進一步增加算法評估的語料類型和baseline數(shù)量，使得算法能夠適用于更多信息檢索情境和任務(wù)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放