姜 藝,黃 永,夏義堃,李鵬程,陸 偉
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 武漢大學(xué)信息檢索與知識(shí)挖掘研究所,武漢 430072;3. 武漢大學(xué)信息資源研究中心,武漢 430072)
隨著文本數(shù)據(jù)的日益增長,關(guān)鍵詞自動(dòng)抽取——從文本中挖掘能夠高度概括其研究內(nèi)容和主題的關(guān)鍵詞[1]——一直以來都是一個(gè)備受關(guān)注的研究問題。由于對關(guān)鍵詞抽取任務(wù)理解的不同,關(guān)鍵詞抽取研究主要分為基于排序[2-3]、基于分類[4-5]、基于序列標(biāo)注[6-7]和基于序列生成[8-9]四大類研究模式[1,10]。在上述研究模式的框架下,現(xiàn)有研究所使用的特征主要包括:①候選詞基準(zhǔn)特征,如詞頻、長度、位置、外部知識(shí)庫等;②圖結(jié)構(gòu)特征,如詞間關(guān)系和中心度量等;③主題特征;④詞嵌入向量特征[11]。
上述幾類特征更多地考慮詞匯本身的分布特點(diǎn),而忽略了詞匯與文獻(xiàn)之間的語義關(guān)系。詞匯功能定義了詞匯在學(xué)術(shù)文獻(xiàn)中所承擔(dān)的語義角色,如“問題”“方法”“技術(shù)”“數(shù)據(jù)”[12],這些具有不同語義功能的詞匯從不同的角度反映文獻(xiàn)的研究內(nèi)容??茖W(xué)研究被普遍認(rèn)為是提出問題并解決問題的過程[13-14],在一定程度上,學(xué)術(shù)文獻(xiàn)可視為科學(xué)研究過程的固化,而文獻(xiàn)的核心問題與核心方法則是從文檔層面對研究工作內(nèi)容的總結(jié)[12]。同時(shí),關(guān)鍵詞也是對文獻(xiàn)主題和內(nèi)容的凝練與反應(yīng),作者在選擇關(guān)鍵詞時(shí)有其目的性,其選擇的關(guān)鍵詞通常是一些注明研究領(lǐng)域、表征研究主題、描述研究所使用的方法和知識(shí)等具有一定語義功能的詞[15]。因此,關(guān)鍵詞往往會(huì)涵蓋能夠充分表征文獻(xiàn)研究問題和研究方法等內(nèi)容的詞匯。劉智鋒等[16]通過對信息計(jì)量學(xué)領(lǐng)域的期刊(Journal of Informetrics)論文統(tǒng)計(jì)指出,具有研究主題或研究方法語義功能的關(guān)鍵詞數(shù)量比例高達(dá)74.99%。同樣地,本文對所使用的計(jì)算機(jī)領(lǐng)域數(shù)據(jù)集中,作者標(biāo)注關(guān)鍵詞的詞匯功能進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)問題和方法詞共占67.99%。因此,從科學(xué)研究過程的共性出發(fā),考慮領(lǐng)域數(shù)據(jù)集的統(tǒng)計(jì)特點(diǎn),本文將詞匯的功能分為“研究問題”“研究方法”和“其他”。從上文可知,作者在標(biāo)注關(guān)鍵詞時(shí)對研究問題和研究方法詞具有很強(qiáng)的傾向性,這說明詞匯功能特征可以為關(guān)鍵詞抽取提供強(qiáng)有力的線索。
因此,為驗(yàn)證詞匯功能對于關(guān)鍵詞自動(dòng)抽取的有效性,本文需解決以下三個(gè)問題:①如何利用詞匯功能特征進(jìn)行關(guān)鍵詞自動(dòng)抽???②詞匯功能特征對于關(guān)鍵詞自動(dòng)抽取是否有效?③在多種關(guān)鍵詞自動(dòng)抽取模式中詞匯功能特征是否有效?
針對上述三個(gè)問題,本文使用了兩種關(guān)鍵詞抽取模式——基于分類和基于排序的模式,在對現(xiàn)有文獻(xiàn)關(guān)鍵詞詞匯功能統(tǒng)計(jì)分析的基礎(chǔ)上,抽取候選關(guān)鍵詞構(gòu)建特征數(shù)據(jù)集,然后,融合詞匯功能特征訓(xùn)練關(guān)鍵詞分類器和排序器,對詞匯功能的效果進(jìn)行了驗(yàn)證與分析。
對于關(guān)鍵詞自動(dòng)抽取,目前已有許多研究對該任務(wù)進(jìn)行了探討,提出了不同的算法和模型,并取得了較好的效果。本節(jié)將對學(xué)術(shù)文本詞匯功能的相關(guān)研究進(jìn)行闡述,并進(jìn)一步介紹基于不同模式的關(guān)鍵詞自動(dòng)抽取研究。
學(xué)術(shù)文獻(xiàn)的詞匯功能是指詞匯在“學(xué)術(shù)文本”這一特定背景下所承擔(dān)的功能和意義,也是詞匯作為一個(gè)符號(hào)在該環(huán)境下對應(yīng)的內(nèi)容或用途[12]。對于學(xué)術(shù)文本詞匯功能相關(guān)的研究,國內(nèi)外相關(guān)學(xué)者已取得了一定的進(jìn)展。Kondo 等[17]對文獻(xiàn)的標(biāo)題結(jié)構(gòu)進(jìn)行分析,將標(biāo)題中的語義信息劃分為研究主題(head)、研究方法(method)、研究目的(goal)和其他(other)四類,并基于此構(gòu)建了技術(shù)趨勢圖生成系統(tǒng)。Nanba 等[18]對標(biāo)題和摘要中的技術(shù)(tech‐nology)和效果(effect)兩類詞進(jìn)行了自動(dòng)識(shí)別,其中技術(shù)包括算法、工具、材料和數(shù)據(jù),效果是屬性和屬性值的組合。Gupta 等[19]將學(xué)術(shù)文獻(xiàn)的詞匯功能分為話題(focus)、技術(shù)(technique)和領(lǐng)域(domain)三類,并進(jìn)行自動(dòng)識(shí)別,其中,話題是指文獻(xiàn)的主要貢獻(xiàn),技術(shù)包括所使用的方法或工具,領(lǐng)域則為文獻(xiàn)的應(yīng)用領(lǐng)域。Tsai 等[20]重點(diǎn)關(guān)注技術(shù)(technique)和應(yīng)用(application)兩類語義概念,提出了一種無監(jiān)督的啟發(fā)式算法,對文獻(xiàn)中的詞匯進(jìn)行識(shí)別與分類。Heffernan 等[14]認(rèn)為,科學(xué)研究是問題提出和解決的過程,將科學(xué)文獻(xiàn)中的詞匯功能分為研究問題和解決方法,并訓(xùn)練分類模型對短語是否為問題或方法進(jìn)行二值判斷。
此外,國際語義測評任務(wù)SemEval 2017 Task 10[21]基于計(jì)算機(jī)科學(xué)、材料科學(xué)和物理學(xué)領(lǐng)域的文獻(xiàn)數(shù)據(jù),提出了關(guān)鍵詞抽取、關(guān)鍵詞分類和同種類型關(guān)鍵詞的語義關(guān)系抽取三個(gè)子任務(wù)。其中,關(guān)鍵詞類型包括過程(process)、任務(wù)(task) 和材料(material),過程包括研究方法和研究設(shè)備,材料包含實(shí)驗(yàn)語料和物理材料等。程齊凱[12]對學(xué)術(shù)文本詞匯功能的顯現(xiàn)機(jī)理進(jìn)行闡釋后,對學(xué)術(shù)文本的詞匯功能進(jìn)行明確定義,構(gòu)建了領(lǐng)域相關(guān)詞匯功能和領(lǐng)域無關(guān)詞匯功能結(jié)合而成的學(xué)術(shù)文本詞匯功能框架,并基于條件隨機(jī)場和機(jī)器學(xué)習(xí)排序?qū)崿F(xiàn)了詞匯功能的自動(dòng)標(biāo)注,其中,領(lǐng)域相關(guān)詞匯功能依賴于特定的研究領(lǐng)域,并以計(jì)算機(jī)科學(xué)、數(shù)學(xué)科學(xué)和社會(huì)科學(xué)三個(gè)領(lǐng)域?yàn)槔M(jìn)行了闡釋;領(lǐng)域無關(guān)詞匯功能,則是從科學(xué)研究的普遍過程和共同特點(diǎn)考慮,分為研究問題和研究方法兩大類,其中研究問題是科研工作中的問題、主題等對象,研究方法是用于解決問題的技術(shù)、手段和途徑。程齊凱等[22]將學(xué)術(shù)文獻(xiàn)視為研究人員應(yīng)用研究方法解決研究問題過程的固化,對文獻(xiàn)標(biāo)題中的研究問題詞(topic)和研究方法詞(method)進(jìn)行自動(dòng)標(biāo)引,在此基礎(chǔ)上構(gòu)建了領(lǐng)域無關(guān)學(xué)術(shù)文獻(xiàn)詞匯功能的標(biāo)準(zhǔn)化數(shù)據(jù)集。另外,劉智鋒等[16]結(jié)合信息計(jì)量學(xué)領(lǐng)域的研究特性,將信息計(jì)量學(xué)領(lǐng)域?qū)W術(shù)文本關(guān)鍵詞的詞匯功能分為領(lǐng)域范圍、研究對象、研究主題、研究方法、數(shù)據(jù)以及其他六類,并基于此構(gòu)建了相應(yīng)的數(shù)據(jù)集。
2.2.1 基于排序的方法
考慮到關(guān)鍵詞和非關(guān)鍵詞對于文檔重要程度的差異,基于排序的方法往往按候選詞的重要性大小選擇文檔的關(guān)鍵詞,通常利用詞的統(tǒng)計(jì)特征或詞圖結(jié)構(gòu)特征通過一定的模式對候選詞進(jìn)行排序。Salton等[2]提出的TFIDF 算法是典型的基于統(tǒng)計(jì)特征的抽取方法,該算法綜合詞匯的詞頻和文檔頻率構(gòu)造了特征TFIDF,并以該特征對候選詞的重要性進(jìn)行評分,對得分簡單排序后選擇文檔的關(guān)鍵詞。李素建等[23]以候選詞的長度、出現(xiàn)頻數(shù)、首次出現(xiàn)位置等七個(gè)特征,提出了分類試驗(yàn)、正例試驗(yàn)和打分試驗(yàn)三種基于最大熵模型的關(guān)鍵詞標(biāo)引方法,其中,打分方法綜合考慮在模型中影響正負(fù)概率的特征,在三種方法中顯現(xiàn)出可觀的潛力。此外,Campos等[24-25]推出的YAKE 系統(tǒng)也利用了多種統(tǒng)計(jì)特征,如詞的大小寫、位置、詞頻以及與上下文的關(guān)聯(lián)等,通過綜合以上信息對候選詞的重要性進(jìn)行評估排序,實(shí)現(xiàn)了關(guān)鍵詞的自動(dòng)抽取。
基于圖模型的抽取方法中,Mihalcea 等[3]提出的TextRank 算法最具有代表性,該算法以詞和詞的共現(xiàn)關(guān)系構(gòu)建網(wǎng)絡(luò)圖,并使用PageRank 算法為每個(gè)詞打分并排序,以此獲取文檔的關(guān)鍵詞。基于Tex‐tRank 算法衍生出了許多抽取效果更好的改進(jìn)算法,例如,Liu 等[26]使用LDA(latent Dirichlet allocation)融合主題信息構(gòu)建的Topical PageRank (TPR) 算法;Florescu 等[27]通過加入位置等信息提出的Posi‐tionRank 模型;方俊偉等[28]利用候選詞的先驗(yàn)知識(shí)實(shí)現(xiàn)的PK-TextRank 算法等。
另外,Rose 等[29]提出了RAKE(rapid automatic keyword extraction)算法,先利用網(wǎng)絡(luò)中詞的度和詞頻計(jì)算詞的得分,再基于詞的得分計(jì)算短語的得分并以此排序。隨著機(jī)器學(xué)習(xí)的興起,有監(jiān)督的學(xué)習(xí)排序方法逐漸被提出,典型的代表是Jiang 等[30]提出的Ranking SVM(support vector machine)模型。在此基礎(chǔ)上,Zhang 等[31]利用詞匯的TFIDF、引文TFIDF、位置信息以及共現(xiàn)頻次等多種特征,實(shí)現(xiàn)了更加先進(jìn)的機(jī)器學(xué)習(xí)排序算法,取得了較好的效果。
2.2.2 基于分類的方法
以候選詞在關(guān)鍵詞抽取任務(wù)中的身份類別(是或不是關(guān)鍵詞)為研究對象,許多研究者將關(guān)鍵詞抽取問題轉(zhuǎn)化為分類問題,利用文檔中蘊(yùn)含的信息構(gòu)建特征來編碼文檔中的詞條,并基于各種特征訓(xùn)練分類器對候選詞進(jìn)行判別,從而實(shí)現(xiàn)關(guān)鍵詞的篩選。Witten 等[4]提出的著名算法KEA 就是典型的基于分類的抽取方法,該算法使用TFIDF 和詞匯首次出現(xiàn)的位置等特征訓(xùn)練樸素貝葉斯模型,實(shí)現(xiàn)候選詞的分類,取得了較好的抽取效果。還有些研究者通過改進(jìn)或擴(kuò)充原有特征對KEA 模型進(jìn)行擴(kuò)展并提升了模型的抽取性能,例如,Nguyen 等[32]在模型中添加了表征位置信息的向量和詞匯的后綴序列等特征進(jìn)行關(guān)鍵詞抽??;Medelyan 等[5]通過加入包括節(jié)點(diǎn)度、語義關(guān)聯(lián)性、鏈接概率等基于維基百科的新特征,提出了KEA 的擴(kuò)展模型Maui。
此外,Caragea 等[33]不僅使用TFIDF、首次出現(xiàn)的位置、詞性等特征,還利用引文上下文構(gòu)造了新特征,提出了樸素貝葉斯二分類模型CeKE,進(jìn)一步提升了抽取效果。除了樸素貝葉斯模型,Tur‐ney[34]基于C4.5 決策樹提出了GenEx 模型;Hulth[35]在文檔內(nèi)頻率、位置和詞性等統(tǒng)計(jì)特征的基礎(chǔ)上,加入了更多語言學(xué)的知識(shí),訓(xùn)練了一個(gè)規(guī)則歸納系統(tǒng)實(shí)現(xiàn)關(guān)鍵詞抽?。籞hang 等[36]利用全局上下文信息和局部上下文信息,實(shí)現(xiàn)了基于支持向量機(jī)(SVM)的抽取算法;方龍等[37]基于TFIDF 和詞匯首次出現(xiàn)的位置,通過融合學(xué)術(shù)文本的結(jié)構(gòu)功能提升了基于SVM 的關(guān)鍵詞抽取效果。
2.2.3 基于序列標(biāo)注的方法
從文本的角度出發(fā),關(guān)鍵詞抽取也可以視為待抽取文本的序列標(biāo)注問題,基于序列標(biāo)注的抽取方法也逐漸被提出。Zhang 等[38]首次將條件隨機(jī)場模型(conditional random fields,CRFs)應(yīng)用到關(guān)鍵詞自動(dòng)抽取任務(wù)中,利用局部上下文特征(如前一個(gè)詞或后一個(gè)詞、TFIDF、詞性、位置等)、全局上下文特征(如是否在文章標(biāo)題、摘要、段落等文章結(jié)構(gòu)中出現(xiàn))以及混合上下文特征(如前一個(gè)詞加后一個(gè)詞等),訓(xùn)練CRFs 模型對文本進(jìn)行標(biāo)注與關(guān)鍵詞抽取。近年來,Gollapalli 等[6]以詞的大小寫、是否在標(biāo)題中出現(xiàn)以及是否為無監(jiān)督方法抽取結(jié)果的前十之一等為特征,以單個(gè)特征或組合特征訓(xùn)練CRFs 標(biāo)注器抽取關(guān)鍵詞;Patel 等[39]將詞嵌入向量作為特征之一,同TFIDF、相對位置等特征一起訓(xùn)練CRFs 實(shí)現(xiàn)關(guān)鍵詞抽取。同時(shí),基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注方法也逐漸引起研究者的興趣,例如,Sahrawat 等[7]利 用BERT (bidirectional encoder repre‐sentation from transformers)等預(yù)訓(xùn)練模型獲得上下文信息更豐富的嵌入向量,提出了BiLSTM-CRF 抽取模型;Martinc 等[40]使用Transformer 模型并加入詞性信息對文本進(jìn)行標(biāo)注,提出了TNT-KID 模型,這些模型大都取得了不錯(cuò)的效果。
2.2.4 基于序列生成的方法
由于關(guān)鍵詞不一定在文檔中出現(xiàn),但標(biāo)注人員可根據(jù)對文檔的整體理解,提煉出合適的詞作為文檔的關(guān)鍵詞,而深度學(xué)習(xí)模型恰好能夠?qū)崿F(xiàn)對文本的理解,因此,不少研究將翻譯模型的思想應(yīng)用到關(guān)鍵詞抽取任務(wù)中,提出了基于序列生成的方法。Meng 等[8]提出了生成模型copyRNN,通過深度學(xué)習(xí)捕獲文本的語義信息,使用Encoder-Decoder 框架預(yù)測關(guān)鍵詞;Chen 等[9]進(jìn)一步考慮到關(guān)鍵詞生成中的重復(fù)問題和覆蓋問題,加入詞匯間的相關(guān)性約束提出了CorrRNN 模型;Chen 等[41]著重考慮標(biāo)題對文檔主題內(nèi)容的概括作用,提出了利用標(biāo)題指導(dǎo)關(guān)鍵詞生成的TG-Net 模型;Zhao 等[42]通過在模型中加入詞性約束模塊也降低了關(guān)鍵詞的重復(fù)率,提升了效果。
可見,關(guān)鍵詞自動(dòng)抽取任務(wù)已經(jīng)形成了較為成熟的研究模式,并且各種模式下的成果十分豐富。模型使用的文本特征呈現(xiàn)多樣化趨勢,主要考慮詞匯在文檔中出現(xiàn)的頻次、所處的位置、與其他詞的共現(xiàn)關(guān)系以及詞匯的詞向量、上下文等信息,或與源文檔相關(guān)的外部知識(shí),如引文、維基百科等,眾多研究結(jié)果證明了典型特征(如TFIDF、位置信息等)對于關(guān)鍵詞自動(dòng)抽取的有效性,為本研究的開展提供了堅(jiān)實(shí)的基礎(chǔ)。但是,在語義信息的使用方面,仍然未有研究考慮與文獻(xiàn)內(nèi)容密切相關(guān)的詞匯功能特征。同時(shí),對學(xué)術(shù)文本詞匯功能的探究大都聚焦于其分類與識(shí)別任務(wù),幾乎沒有研究深入討論詞匯功能在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用。因此,本文擬利用候選詞的詞匯功能構(gòu)造相關(guān)特征參與關(guān)鍵詞抽取,從而探究學(xué)術(shù)文本詞匯特有的語義功能——詞匯功能在關(guān)鍵詞自動(dòng)抽取中的有效性,充分發(fā)揮詞匯功能的作用,優(yōu)化關(guān)鍵詞抽取任務(wù)的效果。
詞匯功能是一些特定的詞所具有的語義特征,與關(guān)鍵詞緊密相關(guān),而傳統(tǒng)的兩階段抽取方法首先會(huì)構(gòu)建與關(guān)鍵詞較為相近的候選關(guān)鍵詞集合,在此基礎(chǔ)上直接將候選詞的詞匯功能應(yīng)用于關(guān)鍵詞的選擇,能夠更加直觀地發(fā)揮學(xué)術(shù)文本中關(guān)鍵詞的詞匯功能作用。另外,有監(jiān)督的方法已經(jīng)較為成熟有效,如方龍等[37]對學(xué)術(shù)文本結(jié)構(gòu)功能特征在關(guān)鍵詞自動(dòng)抽取中的應(yīng)用研究,對于本研究也有較好的借鑒作用。因此,本文將基于相同的模式——分類和排序,探究詞匯功能在關(guān)鍵詞自動(dòng)抽取中的作用。
給定一篇學(xué)術(shù)文獻(xiàn)ai,其摘要表示為Di(w1,w2,…,wli),關(guān)鍵詞詞表表示為Ki(k1,k2,…,km)。關(guān)鍵詞自動(dòng)抽取則是學(xué)習(xí)函數(shù)g(z)使得
概率最大,其中f(Di)是基于摘要的特征抽取方法。那么基于分類的關(guān)鍵詞自動(dòng)抽取則可以定義為:假設(shè)V(v1,v2,…,vN)為領(lǐng)域關(guān)鍵詞詞表,若cj?di且cj∈V,則選擇cj為文獻(xiàn)ai的候選詞,使得Ci=(c1,c2,…,cj,…,cn);然后,學(xué)習(xí)分類函數(shù)h(x)對cj是否為文獻(xiàn)ai的關(guān)鍵詞進(jìn)行判定,若是,則使kp=cj,從而使得
其中,Ki?Ci。類似地,對文獻(xiàn)ai的候選詞集合Ci=(c1,c2,…,cj,…,cn),基于排序的關(guān)鍵詞抽取通過學(xué)習(xí)函數(shù)?(x)對cj打分后排序Ci中的全部候選詞得到C'i,即,使得
按一定的閾值返回top_n個(gè)候選詞,構(gòu)成關(guān)鍵詞集合Ki。
區(qū)別于上述一般的關(guān)鍵詞自動(dòng)抽取規(guī)則,在融合詞匯功能的關(guān)鍵詞自動(dòng)抽取中,
特別地,F(xiàn)(Di)表示融合詞匯功能特征的構(gòu)造函數(shù)。在本研究中,不僅要獲得候選詞的基礎(chǔ)特征,還要基于候選詞的詞匯功能構(gòu)建新特征,進(jìn)而學(xué)習(xí)函數(shù)h(x)和h?(x),實(shí)現(xiàn)對候選詞的分類和排序,從而得到最終的抽取結(jié)果。
本文將分為候選關(guān)鍵詞集合構(gòu)建和關(guān)鍵詞抽取兩個(gè)階段進(jìn)行實(shí)驗(yàn),主要包括4 個(gè)步驟:①候選關(guān)鍵詞集合構(gòu)建;②特征構(gòu)建;③模型訓(xùn)練;④結(jié)果評估。整體流程如圖1 所示。
圖1 融合學(xué)術(shù)文本詞匯功能的關(guān)鍵詞抽取流程
3.2.1 候選關(guān)鍵詞集合構(gòu)建
在對特定領(lǐng)域的學(xué)術(shù)文獻(xiàn)進(jìn)行關(guān)鍵詞抽取時(shí),領(lǐng)域先驗(yàn)知識(shí)具有較好的作用[28,37]。因此,本文利用計(jì)算機(jī)領(lǐng)域中主要期刊文獻(xiàn)的作者關(guān)鍵詞構(gòu)建領(lǐng)域關(guān)鍵詞詞表,基于詞表匹配的方法,對實(shí)驗(yàn)文獻(xiàn)集中的每一篇實(shí)驗(yàn)文獻(xiàn)ai,從其摘要中匹配出n個(gè)詞條作為其候選關(guān)鍵詞,以此構(gòu)建文獻(xiàn)ai的候選關(guān)鍵詞集合Ci=(c1,c2,…,cj,…,cn),并對每一個(gè)候選關(guān)鍵詞cj是否為關(guān)鍵詞進(jìn)行標(biāo)注。
3.2.2 特征構(gòu)建
如圖1 所示,在特征構(gòu)建階段,首先基于摘要文檔為候選詞構(gòu)建基礎(chǔ)特征——詞頻特征和位置特征,同時(shí),對候選詞的詞匯功能類別進(jìn)行識(shí)別,再基于詞匯功能對候選詞的基礎(chǔ)特征進(jìn)行加權(quán)操作,從而構(gòu)建最終的加權(quán)特征。本節(jié)將對上述步驟進(jìn)行詳細(xì)介紹。
3.2.2.1 基礎(chǔ)特征
1)詞頻特征(TFIDF)
Salton 等[2]在1988 年將TFIDF 應(yīng)用于關(guān)鍵詞自動(dòng)抽取,該指標(biāo)用于評估一個(gè)詞對文檔集中某篇文檔的重要程度,是信息檢索領(lǐng)域的重要加權(quán)指標(biāo)之一。TFIDF是詞頻(term frequency,TF)和逆文檔頻率(inverse document frequency,IDF)的乘積,具體計(jì)算為
其中,nij表示詞ti在文檔dj中出現(xiàn)的次數(shù);|A|表示文檔集中的文檔總數(shù);|{j:ti∈dj}|表示包含詞ti的文檔數(shù)。從上述公式可以看出,詞匯的TFIDF 與其在文檔中出現(xiàn)的頻次成正比,與其在文檔集中出現(xiàn)的頻次成反比。一個(gè)詞的TFIDF 越大,表明該詞對于當(dāng)前文檔的重要性越高。
2)位置特征(FI)
詞匯在文檔中的位置也是重要的特征信息[4],本文采用候選關(guān)鍵詞在文檔中首次出現(xiàn)的位置FI(first index) 作為關(guān)鍵詞抽取模型的第二個(gè)特征,計(jì)算公式為
其中,indexij為詞ti在文檔dj中首次出現(xiàn)的位置;|dj|是文檔dj的總長度,即dj包含的總字?jǐn)?shù)。
3.2.2.2 詞匯功能特征
1)詞匯功能識(shí)別
雖然學(xué)術(shù)文本的詞匯功能可以分為多種類別[12],但是通過對本文的研究數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn)(數(shù)據(jù)詳情見第4.1 節(jié)),一篇文獻(xiàn)的作者關(guān)鍵詞中,作為研究問題或研究方法的關(guān)鍵詞較多,占比達(dá)到67.99%,而用于表征文獻(xiàn)其他內(nèi)容的關(guān)鍵詞相對較少,僅占32.01%。因此,本文將詞匯功能分為“研究方法”“研究問題”和“其他”三類,其中,“研究方法”“研究問題”即程齊凱[12]定義的領(lǐng)域無關(guān)詞匯功能。本文采用人工標(biāo)注的方法對數(shù)據(jù)集中的關(guān)鍵詞進(jìn)行詞匯功能標(biāo)注。每篇文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì)結(jié)果如表1所示。
表1 每篇文獻(xiàn)的關(guān)鍵詞統(tǒng)計(jì)結(jié)果
2)基于詞匯功能的加權(quán)特征
在劉智鋒等[16]的研究中,具有研究主題和研究方法語義功能的作者關(guān)鍵詞占比較高,分別達(dá)到40.85%和34.14%,而標(biāo)記為其他語義功能的關(guān)鍵詞僅25.01%,本文的統(tǒng)計(jì)結(jié)果(表1)同樣表明,作者在標(biāo)注關(guān)鍵詞時(shí)更偏向于能夠表征文獻(xiàn)主題和方法的詞。因此,在進(jìn)行關(guān)鍵詞抽取時(shí),應(yīng)該重點(diǎn)關(guān)注詞匯功能為“研究問題”和“研究方法”的候選詞。并且,統(tǒng)計(jì)結(jié)果顯示,以上兩類關(guān)鍵詞在數(shù)量上存在一定差異,這說明不同詞匯功能的詞被作者標(biāo)注為文獻(xiàn)關(guān)鍵詞的概率是不同的。為此,本文設(shè)置了權(quán)重wt和權(quán)重wf,根據(jù)候選關(guān)鍵詞的詞匯功能類型(term_func),對基礎(chǔ)特征TFIDF 和FI 按不同的比例進(jìn)行加權(quán),從而構(gòu)造加權(quán)詞頻特征TFIDF′和加權(quán)位置特征FI′,計(jì)算公式為
如公式(9)和公式(10)所示,對于具有“研究問題”和“研究方法”功能的候選詞,按一定比例改變其基礎(chǔ)特征的大??;由于仍有部分關(guān)鍵詞不是文獻(xiàn)的研究問題或方法,故對于“其他”的候選詞,實(shí)驗(yàn)保持其值不變。綜上所述,基于表1 的統(tǒng)計(jì)結(jié)果,本文將分別設(shè)置參數(shù)wt0、wt1、wf0、wf1為1.5、2.0、0.75、0.5,以此計(jì)算加權(quán)詞頻特征TFIDF′和加權(quán)位置特征FI′。
3.2.3 融合詞匯功能的關(guān)鍵詞抽取模型訓(xùn)練
在第3.2.1 節(jié)和第3.2.2 節(jié)的基礎(chǔ)上,本文將使用 sickit-learn①https://pypi.org/project/scikit-learn/和 TensorFlow Ranking (TF-Rank‐ing)②https://github.com/tensorflow/ranking[43]實(shí)現(xiàn)效果穩(wěn)定且常用的SVM 算法和學(xué)習(xí)排序算法,以相同的參數(shù),利用不同特征組合的訓(xùn)練集數(shù)據(jù)(具體設(shè)置見第4.3 節(jié))分別訓(xùn)練關(guān)鍵詞分類器和關(guān)鍵詞排序器,從而對比分析融合詞匯功能的加權(quán)特征的作用。
對于二分類模型,在以候選關(guān)鍵詞為單位的二類分類層次上,采用準(zhǔn)確率Acc 評估SVM 模型對關(guān)鍵詞的判別能力;在以文獻(xiàn)為單位的文獻(xiàn)層次上,本研究選擇P、R和F[10]為評價(jià)指標(biāo)。假設(shè)候選詞總個(gè)數(shù)為X,模型分類正確的候選詞個(gè)數(shù)為x,作者關(guān)鍵詞集合為,模型抽取的關(guān)鍵詞集合為K,那么上述評價(jià)指標(biāo)的計(jì)算公式為
對于學(xué)習(xí)排序模型,本文采用P@n、MAP、NDCG@n[43]對實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。
本研究采用計(jì)算機(jī)領(lǐng)域核心期刊《計(jì)算機(jī)工程》2007—2018 年刊載的8511 篇學(xué)術(shù)文獻(xiàn)數(shù)據(jù),以文獻(xiàn)摘要構(gòu)建關(guān)鍵詞抽取的文檔集,并獲取全部作者關(guān)鍵詞。同時(shí),實(shí)驗(yàn)收集了計(jì)算機(jī)領(lǐng)域1998—2018 年發(fā)表于中文核心期刊的30 萬篇文獻(xiàn)的作者關(guān)鍵詞,經(jīng)過濾處理后,構(gòu)建了大小為448474 的領(lǐng)域關(guān)鍵詞詞表。實(shí)驗(yàn)使用的文獻(xiàn)集共有作者關(guān)鍵詞34554 個(gè)(去重后21065 個(gè)),平均每篇4.06 個(gè),最多8 個(gè),最少1 個(gè),其中約95.95%的關(guān)鍵詞(33155個(gè))在本文使用的詞表中出現(xiàn),說明本文基于領(lǐng)域關(guān)鍵詞詞表進(jìn)行關(guān)鍵詞自動(dòng)抽取具有一定的合理性。
為了更客觀地評估詞匯功能特征在學(xué)術(shù)文本關(guān)鍵詞自動(dòng)抽取任務(wù)中的作用,本文根據(jù)候選詞匹配的結(jié)果,對實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了過濾,刪除了關(guān)鍵詞集合中不包含作者關(guān)鍵詞的文獻(xiàn)數(shù)據(jù),共獲得8286篇有效文獻(xiàn)用于后續(xù)實(shí)驗(yàn)。經(jīng)篩選后的數(shù)據(jù)中,平均每篇文獻(xiàn)的關(guān)鍵詞詞數(shù)為4.09 個(gè),其中2.96 個(gè)在摘要中出現(xiàn),2.85 個(gè)被成功匹配為文獻(xiàn)的候選關(guān)鍵詞。
對于候選詞的詞匯功能,本文根據(jù)人工標(biāo)注的關(guān)鍵詞詞匯功能進(jìn)行標(biāo)注,若候選詞為關(guān)鍵詞,則其詞匯功能同關(guān)鍵詞;反之,則標(biāo)注為“其他”。對于位置特征FI,本文直接按公式(8)進(jìn)行計(jì)算;對于詞頻特征TFIDF,本文使用中文分詞工具jieba①https://pypi.org/project/jieba/,在用戶詞典中加入領(lǐng)域詞表V,并采用全模式對摘要文本進(jìn)行分詞,在此基礎(chǔ)上按公式(5)~公式(7)進(jìn)行計(jì)算。
本研究對實(shí)驗(yàn)使用的8286 篇文獻(xiàn)的候選詞的詞頻特征和位置特征進(jìn)行了統(tǒng)計(jì),結(jié)果如表2 所示。其中,正例的TFIDF 均值為0.088,約為負(fù)例的2倍,正例的FI 均值為0.280,遠(yuǎn)小于負(fù)例均值0.430。可以看出,相較于非關(guān)鍵詞,關(guān)鍵詞在摘要中出現(xiàn)的位置更靠前,并且具有更大的TFIDF 值,因此,對于更有潛力成為關(guān)鍵詞的詞——具有“研究問題”和“研究方法”功能的候選詞,本研究將通過一定的加權(quán)策略增大其TFIDF,并減小其FI,從而增強(qiáng)基礎(chǔ)特征在關(guān)鍵詞抽取中的作用。
表2 候選詞基礎(chǔ)特征統(tǒng)計(jì)結(jié)果
對于二分類模型,本文基于數(shù)據(jù)集大小對其進(jìn)行了5 折交叉驗(yàn)證處理;同時(shí),為了降低正例(23652)和負(fù)例(459111)數(shù)據(jù)不平衡對分類器的影響,實(shí)驗(yàn)選擇訓(xùn)練文獻(xiàn)中全部標(biāo)記為1 的候選詞及其特征數(shù)據(jù)和隨機(jī)抽取的等量標(biāo)記為0 的候選詞及其特征數(shù)據(jù)作為訓(xùn)練集,抽取每篇測試文獻(xiàn)中所有標(biāo)記為1 的候選詞及其特征數(shù)據(jù)和等量的標(biāo)記為0 的候選詞及其特征數(shù)據(jù)作為測試集,以此訓(xùn)練SVM 分類器。對于學(xué)習(xí)排序模型,實(shí)驗(yàn)按8∶1∶1 的比例劃分訓(xùn)練集、驗(yàn)證集和測試集,以默認(rèn)參數(shù)進(jìn)行訓(xùn)練,訓(xùn)練步數(shù)設(shè)為10000。另外,實(shí)驗(yàn)分別對基礎(chǔ)特征和加權(quán)特征進(jìn)行歸一化處理。
本文以使用詞頻特征TFIDF 和位置特征FI 的實(shí)驗(yàn)為基準(zhǔn)實(shí)驗(yàn),設(shè)置了10 組不同的特征組合進(jìn)行二分類實(shí)驗(yàn)和學(xué)習(xí)排序?qū)嶒?yàn),分別為:實(shí)驗(yàn)①,僅使用詞頻特征;實(shí)驗(yàn)②,僅使用加權(quán)詞頻特征;實(shí)驗(yàn)③,使用詞頻特征和加權(quán)詞頻特征;實(shí)驗(yàn)④,僅使用位置特征;實(shí)驗(yàn)⑤,僅使用加權(quán)位置特征;實(shí)驗(yàn)⑥,使用位置特征和加權(quán)位置特征;實(shí)驗(yàn)⑦,使用兩個(gè)加權(quán)特征;實(shí)驗(yàn)⑧,使用兩個(gè)基礎(chǔ)特征和加權(quán)詞頻特征;實(shí)驗(yàn)⑨,使用兩個(gè)基礎(chǔ)特征和加權(quán)位置特征;實(shí)驗(yàn)⑩,使用兩個(gè)基礎(chǔ)特征和兩個(gè)加權(quán)特征。
表3 是分類實(shí)驗(yàn)的評價(jià)結(jié)果。從表中可以看出,在二分類層次上,相較于基準(zhǔn)實(shí)驗(yàn),所有使用加權(quán)特征的實(shí)驗(yàn)的Acc 指標(biāo)均有所提高,其中實(shí)驗(yàn)⑩效果最好,達(dá)到0.840,相對于基準(zhǔn)實(shí)驗(yàn)(0.674)提高了約24.63%;在文獻(xiàn)層次上,從F值來看,有多組實(shí)驗(yàn)的效果均優(yōu)于基準(zhǔn)實(shí)驗(yàn)(0.532),包括僅使用單個(gè)加權(quán)特征的實(shí)驗(yàn)⑤(0.596),并且最優(yōu)實(shí)驗(yàn)(實(shí)驗(yàn)⑩)的F值提升至0.666,相對提升幅度達(dá)到25.19%。以上結(jié)果說明,融合詞匯功能的特征能夠有效地提高基于分類的關(guān)鍵詞自動(dòng)抽取效果。
表3 SVM二分類結(jié)果評價(jià)
鑒于每篇文獻(xiàn)的作者關(guān)鍵詞約為4.09 個(gè),本文選擇n= 5 時(shí)的P@n和NDCG@n以及MAP 對基于排序的抽取結(jié)果進(jìn)行了評價(jià),評價(jià)結(jié)果如表4 所示。從表4 可以發(fā)現(xiàn),除了實(shí)驗(yàn)①、實(shí)驗(yàn)④和實(shí)驗(yàn)⑤外,其他實(shí)驗(yàn)組相較于基準(zhǔn)實(shí)驗(yàn)在三個(gè)指標(biāo)上都有明顯的提升,其中效果最好的實(shí)驗(yàn)⑩在MAP、NDCG@5 和P@5 上依次達(dá)到0.813、0.828 和0.447,相對提升高達(dá)168.32%、189.50%和148.30%。提升效果最弱的實(shí)驗(yàn)②也達(dá)到0.490、0.500 和0.300,相對提升61.72%、74.83%和66.67%。這些結(jié)果充分說明,在基于排序的關(guān)鍵詞自動(dòng)抽取中,詞匯功能特征具有積極的作用。
表4 TF-Ranking學(xué)習(xí)排序結(jié)果評價(jià)
本研究對二分類實(shí)驗(yàn)中僅使用基礎(chǔ)特征的基準(zhǔn)實(shí)驗(yàn)和融合詞匯功能特征后的最佳實(shí)驗(yàn)(實(shí)驗(yàn)⑩)的預(yù)測錯(cuò)誤進(jìn)行了統(tǒng)計(jì)分析。實(shí)驗(yàn)⑩預(yù)測錯(cuò)誤的詞共有1468 個(gè),根據(jù)表5 可知,有1173 個(gè)詞(約79.90%)是在僅使用基礎(chǔ)特征時(shí)就出錯(cuò)的,且關(guān)鍵詞比非關(guān)鍵詞少,分別有441 個(gè)和732 個(gè)。在這些關(guān)鍵詞中,詞匯功能為“其他”的關(guān)鍵詞有298 個(gè),為“研究方法”和“研究問題”的分別僅有134 個(gè)和9 個(gè),也就是說,兩次實(shí)驗(yàn)均未被正確分類的關(guān)鍵詞中,大部分(約67.57%)的關(guān)鍵詞并不具有問題或方法功能,根據(jù)加權(quán)策略,這些關(guān)鍵詞的加權(quán)特征與基礎(chǔ)特征并無差別,并沒有改變對關(guān)鍵詞的區(qū)分能力,因此在基準(zhǔn)實(shí)驗(yàn)中無法被正確分類,在實(shí)驗(yàn)⑩中仍無法被預(yù)測正確。而在基準(zhǔn)實(shí)驗(yàn)預(yù)測錯(cuò)誤的3060 個(gè)詞中,共有1887 個(gè)詞(約61.67%)在融合詞匯功能特征后被預(yù)測正確,包括774 個(gè)非關(guān)鍵詞和1113 個(gè)關(guān)鍵詞。從表6 可以看出,重新預(yù)測正確的關(guān)鍵詞比非關(guān)鍵詞多,并且預(yù)測正確的關(guān)鍵詞全部具有問題或方法功能,進(jìn)一步說明通過詞匯功能增強(qiáng)關(guān)鍵詞的基礎(chǔ)特征后,關(guān)鍵詞更容易正確地被識(shí)別出來,分類效果自然得到較好的提升。
表5 基準(zhǔn)實(shí)驗(yàn)和實(shí)驗(yàn)⑩均預(yù)測錯(cuò)誤的結(jié)果統(tǒng)計(jì)
表6 基準(zhǔn)實(shí)驗(yàn)預(yù)測錯(cuò)誤但實(shí)驗(yàn)⑩預(yù)測正確的結(jié)果統(tǒng)計(jì)
另外,對于排序?qū)嶒?yàn),本文對相較于基準(zhǔn)實(shí)驗(yàn)(TFIDF+FI)有明顯提升的實(shí)驗(yàn)增加P@3 和P@8 指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行了評估,評估結(jié)果如圖2 所示。從圖中可以看出,無論n取何值,融合詞匯功能的實(shí)驗(yàn)評價(jià)結(jié)果均優(yōu)于基準(zhǔn)實(shí)驗(yàn);更重要的是,雖然所有實(shí)驗(yàn)的P@n都隨著n的增大而降低,但是明顯地,相較于基準(zhǔn)實(shí)驗(yàn),融合詞匯功能實(shí)驗(yàn)的下降幅度更大,并且n越小,與基準(zhǔn)實(shí)驗(yàn)的差距越大,各實(shí)驗(yàn)與基準(zhǔn)實(shí)驗(yàn)在P@3 上的差距顯著大于P@8,說明融合詞匯功能的排序模型能將更多的關(guān)鍵詞排到更靠前的位置,從而更高效地實(shí)現(xiàn)關(guān)鍵詞抽取。
圖2 P@n評價(jià)結(jié)果
表7 為基準(zhǔn)實(shí)驗(yàn)和實(shí)驗(yàn)⑩分類結(jié)果的部分示例。從表7 可以看出,基準(zhǔn)實(shí)驗(yàn)分類正確的候選詞,實(shí)驗(yàn)⑩均分類正確,并且實(shí)驗(yàn)⑩能夠有效地將基準(zhǔn)實(shí)驗(yàn)中分類錯(cuò)誤的候選詞正確分類,在一定程度上,這說明融合詞匯功能的新特征的加入并沒有削弱基礎(chǔ)特征對關(guān)鍵詞的區(qū)分能力,反而提升了分類效果。
表7 分類抽取結(jié)果示例
由表2 可知,關(guān)鍵詞的TFIDF 值一般更大,在文中出現(xiàn)的位置更靠前。在文獻(xiàn)147 中,關(guān)鍵詞“前景”和“背景”的TFIDF 值(0.049,0.038)都相對較小,而FI 值(0.513,0.603)相對較大,但是作為文章的“研究問題”,經(jīng)過加權(quán)后,TFIDF′值(0.067,0.051)變大,F(xiàn)I′值(0.257,0.301)減小,使得其更容易被識(shí)別為文章的關(guān)鍵詞;文獻(xiàn)4942 的關(guān)鍵詞“性能評估”也同樣重新被實(shí)驗(yàn)⑩判斷正確。從文獻(xiàn)21 也能看出,具有“研究問題”或“研究方法”功能的詞能夠通過加權(quán)特征與其他相近的非關(guān)鍵詞區(qū)別開來,如具有相似特征的關(guān)鍵詞“誤碼率”(TFIDF = 0.071,F(xiàn)I = 0.694)和候選詞“碼率”(TFIDF = 0.061,F(xiàn)I = 0.701),其中“誤碼率”具有“研究方法”功能,因此其加權(quán)特征得到相應(yīng)的改善,使得兩者的加權(quán)特征有了明顯的差異(“誤碼率”:TFIDF′ = 0.072,F(xiàn)I′ = 0.521;“碼率”:TFIDF′ = 0.041,F(xiàn)I′ = 0.701),從 而 被 正 確分類。
從表7 數(shù)據(jù)可知,通過對“研究問題”和“研究方法”詞進(jìn)行加權(quán)后,其他候選詞的加權(quán)特征(數(shù)據(jù)歸一化后)相應(yīng)地也會(huì)朝著相反方向有所改變,即詞頻特征變小,位置特征變大,使得上述兩類關(guān)鍵詞和其他詞具有更大的距離,從而同時(shí)提高分類器對正例和負(fù)例的區(qū)分能力。但是,對于某些詞頻特征和位置特征較為反常的詞,如文獻(xiàn)4942 中的“新型”一詞,雖然不是關(guān)鍵詞,但FI 值很小,TFIDF 值較大,加權(quán)特征也不明顯,無論是基準(zhǔn)實(shí)驗(yàn)還是實(shí)驗(yàn)⑩都難以判斷正確,這說明本文提出的融合詞匯功能的關(guān)鍵詞自動(dòng)抽取方法雖然有較好的效果,但對“其他”功能的候選詞的識(shí)別仍需進(jìn)一步改進(jìn)。
本文采用基于分類和基于排序的關(guān)鍵詞抽取方法,基于領(lǐng)域關(guān)鍵詞詞表獲取候選關(guān)鍵詞,在基礎(chǔ)特征中融合候選詞在文獻(xiàn)中的詞匯功能,以SVM二類分類模型和學(xué)習(xí)排序模型實(shí)現(xiàn)學(xué)術(shù)文本的關(guān)鍵詞自動(dòng)抽取。實(shí)驗(yàn)結(jié)果表明,詞匯功能有效地提升了關(guān)鍵詞的抽取效果,在關(guān)鍵詞自動(dòng)抽取中具有積極的意義。
本文提出的融合詞匯功能的關(guān)鍵詞自動(dòng)抽取方法具有較好的效果,但仍存在一定的缺陷:首先,詞匯功能包括且不限于“研究問題”和“研究方法”,而本文僅以這兩種功能增強(qiáng)關(guān)鍵詞的基礎(chǔ)特征,討論詞匯功能在關(guān)鍵詞抽取中的作用;其次,關(guān)鍵詞抽取具有多種模式,但本文僅驗(yàn)證了詞匯功能對分類模型和排序模型的提升效果;最后,本文只在計(jì)算機(jī)領(lǐng)域的部分文獻(xiàn)數(shù)據(jù)上進(jìn)行了探究,相關(guān)結(jié)論具有一定的領(lǐng)域局限性。在以后的工作中,考慮將對詞匯功能類別進(jìn)一步細(xì)分,并基于更多的關(guān)鍵詞抽取模式驗(yàn)證其效果。此外,應(yīng)進(jìn)一步考慮學(xué)術(shù)文獻(xiàn)詞匯功能在更多領(lǐng)域中的應(yīng)用場景,充分利用其價(jià)值,發(fā)揮其作用。