亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于輿情新聞的中文關(guān)鍵詞抽取綜述

        2023-03-16 10:20:40楊文忠丁甜甜卜文秀
        計算機工程 2023年3期
        關(guān)鍵詞:向量單詞監(jiān)督

        楊文忠,丁甜甜,康 鵬,卜文秀

        (1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046;

        2.新疆大學(xué) 信息科學(xué)與工程學(xué)院 新疆維吾爾自治區(qū)多語種信息技術(shù)重點實驗室,烏魯木齊 830046)

        0 概述

        新聞文本承載著媒體的主觀意圖。從用戶那里提取新聞文本的意圖可以揭示出用戶在一段時間內(nèi)的情緒傾向。這一功能對于控制有害輿情事件的發(fā)展具有重要意義,有助于政府機關(guān)妥善管理輿情事件,維護社會秩序。關(guān)鍵詞可以對新聞文本的主題進行簡要描述,幫助讀者快速了解文本的含義或主題。

        目前,關(guān)鍵詞抽取技術(shù)獲得的成果為不同領(lǐng)域的科學(xué)研究提供了幫助。例如,在信息科學(xué)領(lǐng)域,輿情網(wǎng)站每天都會產(chǎn)生大量新聞,涵蓋國際、娛樂、政治、軍事等方面。盡管利用媒體信息的好處很多,但虛假新聞和標(biāo)題騙局是不可避免的,讀者越來越難以快速找到有用的信息。關(guān)鍵詞可以提供對新聞文本主題的簡潔描述,幫助讀者快速理解文本的含義或主題。此外,關(guān)鍵詞抽取技術(shù)對文本生成[1-2]、自動問答[3]、信息搜索等自然語言處理任務(wù)都非常重要。如何從海量信息中提取最為核心的詞語,將各類熱門關(guān)鍵詞及時動態(tài)地展示給用戶,節(jié)省用戶驗證時間,成為當(dāng)前研究的熱點。

        提取輿情事件的關(guān)鍵詞可以捕捉網(wǎng)上輿情的熱點和趨勢。事件是人們關(guān)注輿情的基礎(chǔ),不同的輿情事件有不同的關(guān)鍵詞,每個關(guān)鍵詞從不同的方向描述一個輿情事件。例如,爆炸事件的關(guān)鍵詞有爆炸發(fā)生地、救援工作、事故后的損失及其原因等。這些關(guān)鍵詞可以讓公眾從不同角度了解事件的發(fā)展。在分析輿情事件時,使用關(guān)鍵詞不僅可以從多個角度描述事件,還可以通過關(guān)注同一事件的關(guān)鍵詞的演變來追蹤事件的進程;通過比較不同事件的關(guān)鍵詞的相似性,可以為事件的演變總結(jié)規(guī)則,方便進一步的研究,預(yù)測輿情的爆發(fā)點。因此,關(guān)鍵詞在事件分析中非常重要[4]。

        本文闡述關(guān)鍵詞抽取技術(shù)的發(fā)展歷程,對相關(guān)模型按照無監(jiān)督和有監(jiān)督的分類進行分析與總結(jié)。根據(jù)關(guān)鍵詞抽取技術(shù)的發(fā)展現(xiàn)狀,分析無監(jiān)督模型的優(yōu)勢與弊端,根據(jù)其弊端說明有監(jiān)督模型出現(xiàn)的原因,并詳細解釋基于深度學(xué)習(xí)的有監(jiān)督關(guān)鍵詞抽取模型出現(xiàn)的必然性和其獨特的優(yōu)勢以及現(xiàn)有的弊端。在此基礎(chǔ)上,對關(guān)鍵詞抽取技術(shù)未來的發(fā)展方向加以展望。

        1 關(guān)鍵詞抽取現(xiàn)狀分析

        關(guān)鍵詞抽取技術(shù)是指從文本中提取與文章含義最相關(guān)的關(guān)鍵詞。它在文檔檢索[5]、自動摘要[2]、文本聚類[6]和文本分類[7]中有重要應(yīng)用。關(guān)鍵詞抽取算法一般分為兩類:無監(jiān)督算法和有監(jiān)督算法。本節(jié)根據(jù)這兩個類別詳細介紹關(guān)鍵詞抽取技術(shù)的研究和發(fā)展現(xiàn)狀。

        1.1 無監(jiān)督關(guān)鍵詞抽取算法

        無監(jiān)督抽取算法關(guān)鍵詞領(lǐng)域適用范圍最廣,也是使用最早的方法。無監(jiān)督關(guān)鍵詞提取算法的一般模式如圖1 所示。

        圖1 無監(jiān)督算法的一般模式Fig.1 General model of unsupervised algorithms

        按照無監(jiān)督算法的類型,本節(jié)按照5 個類別對無監(jiān)督關(guān)鍵詞抽取算法進行介紹[8]。

        1)基于簡單統(tǒng)計的方法

        簡單統(tǒng)計方法是對某一特定的候選詞進行統(tǒng)計,并按照權(quán)重進行排序,抽取排名靠前的詞作為關(guān)鍵詞[9]。文獻[10]采用的TF-IDF(Term Frequency-Inverse Document Frequency)算法是簡單統(tǒng)計方法中的典型代表[10]。TF-IDF 在最終的計算過程中會過濾掉常用詞而保留重要的詞。文獻[11]提出的YEAK 模型使用統(tǒng)計指標(biāo)來提供與背景相關(guān)的信息[11]。

        簡單統(tǒng)計方法的優(yōu)點是使用簡單,不需要太多計算。劣勢主要體現(xiàn)在:可擴展性差,簡單的統(tǒng)計通常基于來自不同作者數(shù)據(jù)集的文檔的特征,并且結(jié)果從一個數(shù)據(jù)集到另一個數(shù)據(jù)集差異很大;精度低,該方法的度量基于專家知識,表明它只能覆蓋詞之間的淺語義信息,而不能挖掘更深層次的語義新聞。

        2)基于圖的方法

        基于圖的關(guān)鍵詞抽取算法是將文本內(nèi)容構(gòu)建為一個詞圖,之后將圖中的節(jié)點進行排序確定關(guān)鍵詞。文獻[12]提出的Positional Function 模型和文獻[13]提出的HITS 模型均是基于圖的排序模型。

        文獻[14]使用基于圖的文本提取模型TextRank進行關(guān)鍵詞抽取,TextRank 派生自PageRank 算法,它使用單詞圖來分散單詞的權(quán)重[14]。TextRank 中的關(guān)鍵詞權(quán)重傳播僅關(guān)注詞頻,網(wǎng)絡(luò)中的有向和無向邊緣被無向和有向邊緣所取代[15]。

        TextRank 的優(yōu)勢是:作為無監(jiān)督算法,不需要構(gòu)建帶標(biāo)簽數(shù)據(jù)集進行相關(guān)實驗;算法思想簡單,易部署;可以較為充分地利用詞語之間的關(guān)系。其局限性表現(xiàn)在:抽取效果與前期工作中的分詞、文本清洗有直接關(guān)系,如停用詞的設(shè)定直接影響抽取結(jié)果;本質(zhì)上還是受高頻詞和詞性標(biāo)注的影響。

        針對TextRank 的缺陷,WAN 等[16]提出的SingleRank 模型使用少量的近鄰文檔來提供更多的知識,以改善單一文檔的關(guān)鍵詞提取。基于此,文獻[17]和文獻[18]分別提出的PositionRank 和SGRank 方法利用統(tǒng)計、位置、詞的共現(xiàn)等信息來進行關(guān)鍵詞抽取,從而更好地提升模型的性能。但是,以上的方法僅是考慮文檔自身的信息,為了幫助模型學(xué)習(xí)更多的文本信息,ExpandRank 通過添加與原文檔接近的相鄰文本,將基于圖排名算法應(yīng)用于擴展的文檔集[16]。與之相似,文獻[19]提出的CiteTextRank 模型通過捕捉論文的引文對其的影響,將引文信息與目標(biāo)文檔知識相結(jié)合用于關(guān)鍵詞抽取。

        通過對基于圖的方法的發(fā)展歷程分析發(fā)現(xiàn):基于圖的關(guān)鍵詞抽取模型的優(yōu)點是可以充分體驗詞之間的聯(lián)系;缺點是雖然準(zhǔn)確率得到了一定的提升,但還是較低。

        3)基于主題的方法

        文獻[20]提出了潛在語義分析(Latent Semantic Analysis,LSA)模型,它通過降低單詞-文本矩陣的維度來研究一個單詞的潛在含義[20]。之后,HUFFMAN 等[21]和周學(xué)廣等[22]提出概率隱性語義分析(Probabilistic Latent Semantic Analysis,PLSA)模型。圖2 所示為PLSA 模型結(jié)構(gòu),其中:d表示文檔;Z表示主題;W表示單詞;N表示文檔數(shù);M表示一篇文檔生成了M個單詞。

        圖2 PLSA 模型結(jié)構(gòu)Fig.2 PLSA model structure

        雖然PLSA 相較于LSA 理論更加成熟,但是因為其自身預(yù)測方法的問題,文獻[23]提出了潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型來解決PLSA 模型存在的問題。LDA 的概率模型如圖3 所示。圖3 中各個符號說明如表1 所示。

        圖3 LDA 的概率模型Fig.3 Probabilistic model of LDA

        表1 LDA 參數(shù)說明Table 1 Description of LDA parameters

        文獻[24]提出的TopicRank 模型是依賴文檔主題的基于圖的關(guān)鍵詞提取方法。它基于圖形給每個主題分配不同的權(quán)重,通過排名靠前的主題,選擇候選詞來生成關(guān)鍵短語。文獻[25]提出的TPR(Topical PageRank)模型利用詞圖來衡量詞在LDA主題下的重要性,根據(jù)詞的重要性計算詞的排名分數(shù),并抽取排名靠前的候選詞作為關(guān)鍵詞。之后,研究人員對TPR 進行優(yōu)化,提出Salience Rank 模型,相較于TPR,該模型只需要運行一次PageRank 就可以在基準(zhǔn)數(shù)據(jù)集上提取出相當(dāng)或更好的關(guān)鍵詞。Salience Rank 可以在不同的話題和數(shù)據(jù)集上較好地提取關(guān)鍵詞[26]。

        文獻[27]對主題模型的限制性進行了分析與研究:主題概率模型的優(yōu)勢在于它能夠分析文檔中的潛在主題;缺點是模型質(zhì)量差,計算的無效詞數(shù)量多,清洗困難,主題之間缺乏區(qū)分,結(jié)果較差,主題內(nèi)詞相關(guān)性低,無法反映具體場景[27-29]。

        4)基于語義的方法

        文獻[28-32]介紹了無監(jiān)督關(guān)鍵詞抽取算法中具有奠基性的模型——N-gram 模型。該模型可以將前N-1 個單詞所有信息進行有效使用,并且這些單詞與當(dāng)前單詞的出現(xiàn)密切相關(guān)。對基于語義的關(guān)鍵詞抽取算法進行研究后發(fā)現(xiàn)語義模型的限制性在于:(1)在確定模型參數(shù)時需要大量的文本,即當(dāng)N較大時,模型的參數(shù)確定比較困難;(2)數(shù)據(jù)的覆蓋率不高,存在數(shù)據(jù)平滑問題;(3)基于主觀的假設(shè);(4)沒有合適的評價方法,很難對實現(xiàn)的結(jié)果進行有效性評估。

        5)基于詞向量的方法

        MIKOLOV 等[33]提出的詞嵌入方法利用分層softmax 和負采樣對神經(jīng)網(wǎng)絡(luò)語言模型進行改進,顯著降低了計算過程的復(fù)雜性。Word2Vec 模型分為連續(xù)詞袋(CBOW)模型和連續(xù)跳詞語法(Skip-Gram)模型。CBOW 的基本思想是根據(jù)周圍的文本預(yù)測一個詞的向量表示,即鑒于中心詞的上下文聯(lián)系,模型找到了該詞的預(yù)測,如圖4(a)所示。Skip-Gram 模型的核心思想是基于中心字來預(yù)測鄰近單詞,真正的目的是在給定的詞匯情況下計算出其他詞匯的發(fā)生概率,如圖4(b)所示。Word2Vec 模型的優(yōu)點是:在Word2Vec 中訓(xùn)練得到詞向量的分布式表示方法,將“距離”引入矢量空間,并通過計算字與字之間的距離來確定詞語的語義相似性,從而有效地解決了“維度災(zāi)難”、“語義鴻溝”等一系列問題;缺點是:因為Word2Vec 模型輸出的每一個單詞對應(yīng)的矢量都是固定的,也就是說單詞經(jīng)過Word2Vec編碼后被輸出為一個低維度的獨立靜態(tài)矢量,這種向量只能代表一種意義,無法解決詞的多義性問題。比如:“火狐”可以指代動物,也可以指代瀏覽器,但是Word2Vec 所編碼的“火狐”所對應(yīng)的詞向量的表示是唯一的。

        圖4 CBOW 和Skip-Gram 模型結(jié)構(gòu)Fig.4 Structure of CBOW and Skip-Gram model

        文獻[31]提出將詞嵌入方法GloVe[34]引入到關(guān)鍵詞提取中。文獻[32]提出了一種用于關(guān)鍵短語提取的新穎的無監(jiān)督算法(RVA),該算法使用局部詞嵌入GloVe 向量[35],從單詞和關(guān)鍵短語的局部表示捕獲所屬文檔在上下文中的準(zhǔn)確語義。文獻[34]提出的EmbedRank 模型通過句子嵌入(Doc2Vec[36]或Sent2Vec[37])與語義文檔嵌入[38],將文檔和候選短語表示為高維空間中的向量。

        1.2 有監(jiān)督關(guān)鍵詞抽取算法

        與無監(jiān)督的主題提取算法相比,機器學(xué)習(xí)算法和深度學(xué)習(xí)算法的快速發(fā)展為無監(jiān)督主題提取算法注入了新的活力。此外,有監(jiān)督算法更規(guī)范化與更標(biāo)準(zhǔn)化,適用于不同的數(shù)據(jù)集,具有更好的實驗結(jié)果。本文按照論文的分類方法將關(guān)鍵詞抽取算法分為兩類[8]:以關(guān)鍵詞提取為分類任務(wù),即用分類模型將候選詞分為關(guān)鍵詞和非關(guān)鍵詞,關(guān)鍵詞抽取的分類模型如圖5 所示;將關(guān)鍵詞抽取任務(wù)作為序列標(biāo)注任務(wù),即序列標(biāo)注模型用于學(xué)習(xí)標(biāo)有關(guān)鍵詞的句子序列中單詞之間的關(guān)系,然后對原始句子進行序列標(biāo)注,以此從句子中提取關(guān)鍵詞,關(guān)鍵詞抽取序列標(biāo)注模型如圖6 所示。

        圖5 關(guān)鍵詞抽取的分類模型Fig.5 Classification model of keyword extraction

        圖6 關(guān)鍵詞抽取序列標(biāo)注模型Fig.6 Keyword extraction sequence labelling model

        有監(jiān)督算法必須為模型的預(yù)訓(xùn)練提供帶標(biāo)注數(shù)據(jù)集,因此有監(jiān)督算法的使用還包括構(gòu)建數(shù)據(jù)集的過程,這也是其與無監(jiān)督算法不同的地方。

        在分類模型中詞語被認為是獨立的,該詞語是否被作為關(guān)鍵詞是根據(jù)其自身的特征決定的。顯而易見,分類模型的判別思想的局限性是很大的。在現(xiàn)實中,一個詞會經(jīng)常因為上下文的變化而導(dǎo)致意義發(fā)生改變,在判斷的過程中,該詞匯的權(quán)重隨著語義的變化而發(fā)生相應(yīng)的變化。

        序列標(biāo)注模型很好地解決了這種語義矛盾。序列標(biāo)注模型在考慮當(dāng)前詞匯狀態(tài)的同時也會綜合考慮前文發(fā)送的信息,即序列標(biāo)注模型既可以兼顧詞匯當(dāng)前文本的含義,也可以兼顧詞匯上下文的語義特征,序列標(biāo)注模型是使用更為廣泛的關(guān)鍵詞分析方法之一。

        1)分類模型

        分類模型主要包括基于機器學(xué)習(xí)與基于深度學(xué)習(xí)兩種模型。

        (1)基于機器學(xué)習(xí)的分類模型

        與基于無監(jiān)督算法相比,機器學(xué)習(xí)算法更加標(biāo)準(zhǔn)和規(guī)范,適應(yīng)性更強,實驗效果往往比無監(jiān)督算法要好,對實驗數(shù)據(jù)集的適應(yīng)性也更強。因此,目前很多研究人員已經(jīng)將關(guān)注點從無監(jiān)督算法轉(zhuǎn)向機器學(xué)習(xí)算法。

        文獻[35]提出將支持向量機(Support Vector Machines,SVM)[39]與關(guān)鍵詞抽取技術(shù)相融合的方法。文獻[36,40]提出的模型僅僅依靠統(tǒng)計信息,通過增加額外的語言知識來取得更好的結(jié)果。文獻[37]提出使用二進制整數(shù)規(guī)劃(Binary Integer Programming,BIP)[41]提取關(guān)鍵詞。

        (2)基于深度學(xué)習(xí)的分類模型

        隨著計算能力的提高,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的使用也在增加。神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在許多自然語言領(lǐng)域的相關(guān)任務(wù)中取得了巨大成功。深度學(xué)習(xí)使用詞嵌入模型將文本中的詞轉(zhuǎn)換為詞向量。除了詞之間的結(jié)構(gòu)信息外,還包含了詞的語義信息,使得關(guān)鍵詞提取效果更加全面。深度學(xué)習(xí)利用海量的神經(jīng)網(wǎng)絡(luò)參數(shù),通過大量接近人類認知的人工標(biāo)注語料進行訓(xùn)練,不斷迭代神經(jīng)網(wǎng)絡(luò)參數(shù),最終訓(xùn)練出高維非線性調(diào)整的模型。

        文獻[38]提出在關(guān)鍵詞提取任務(wù)中使用多層感知器(Multilayer Perceptron,MLP)模型,在比較實驗中發(fā)現(xiàn)MLP 模型優(yōu)于傳統(tǒng)的普通貝葉斯模型和C4.5 決策樹模型[42]。但是,使用關(guān)鍵詞提取作為分類任務(wù)不允許將單個單詞與整個上下文關(guān)聯(lián)。

        2)序列標(biāo)注模型

        序列標(biāo)注模型主要包括基于機器學(xué)習(xí)與基于深度學(xué)習(xí)兩種模型。

        (1)基于機器學(xué)習(xí)的序列標(biāo)注模型

        文獻[38]提出使用隱馬爾可夫模型(Hidden Markov Model,HMM)通過一系列觀察從一組狀態(tài)中選擇概率最高的狀態(tài)序列。特定狀態(tài)的概率和狀態(tài)之間的轉(zhuǎn)換概率可以從一個大規(guī)模的語料庫中進行粗略的統(tǒng)計估計。在自然語言處理(Natural Language Processing,NLP)領(lǐng)域,HMM 算法憑借成熟的算法體系和其容易學(xué)習(xí)特性已經(jīng)被廣泛使用,但HMM 也存在一些問題,HMM 的缺陷導(dǎo)致它無法成為序列標(biāo)注模型的最合適的概率統(tǒng)計模型。因此,后期有很多學(xué)者[43-46]對其缺陷進行了優(yōu)化。

        (2)基于深度學(xué)習(xí)的序列標(biāo)注模型

        基于深度學(xué)習(xí)的序列標(biāo)注模型包括一般模式和基于詞向量兩種模型。

        ①一般模式的序列標(biāo)注模型

        條件隨機場(Conditional Random Field,CRF)是序列標(biāo)注算法的代表模型[41-42],它使用語言學(xué)和文章結(jié)果等各種來源特征來表示文章。通過引入自定義特征函數(shù),不僅可以表達觀測值之間的依賴關(guān)系,還可以表達當(dāng)前觀測值與多個之前狀態(tài)之間的關(guān)系,復(fù)雜依賴關(guān)系可以有效解決HMM 模型遇到的問題,并從文章中獲取關(guān)鍵短語[47-48]。

        循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)展開結(jié)構(gòu)如圖7 所示,可以看出:在信息傳遞過程中,序列中每個節(jié)點都會將前面節(jié)點的信息進行學(xué)習(xí)記憶并輸出到計算中[49-50]。之所以建立雙向RNN是因為可以將文章中的信息進行上下流動,即可以幫助RNN 有效地獲取單詞與上下文之間的聯(lián)系。由于RNN 網(wǎng)絡(luò)在較長的文本反向傳播中會出現(xiàn)梯度消失的問題,針對這個問題,文獻[45-46]利用長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)[51-52]進行關(guān)鍵詞抽取。LSTM 神經(jīng)網(wǎng)絡(luò)是一種改進的RNN,如圖8 所示。

        圖7 循環(huán)神經(jīng)網(wǎng)絡(luò)的展開結(jié)構(gòu)Fig.7 Unfolding structure of recurrent neural network

        圖8 長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Structure of long short-term memory neural network

        之后,BASALDELLA 等[53]提出雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網(wǎng)絡(luò),主要由前向和后向兩層LSTM 層組成。BiLSTM可以捕獲文本字符串的雙向依賴關(guān)系,更好地幫助模型學(xué)習(xí)文本的上下文信息,文獻[48-49]提出的模型將 BiLSTM 應(yīng)用于序列的標(biāo)注和分類問題[31,41,54-56]。

        圖9 所示為BiLSTM 序列標(biāo)注結(jié)構(gòu)。BiLSTM 的優(yōu)點是可以利用雙向參數(shù)來觀察字符串(輸入)間的相關(guān)性。BiLSTM 能夠從一組觀測數(shù)據(jù)中自動抽取出一組特征,但其不足之處在于:無法對狀態(tài)序列進行學(xué)習(xí)(輸出標(biāo)注間的關(guān)聯(lián)),在抽取關(guān)鍵詞時,各標(biāo)注間存在必定的關(guān)聯(lián)[47,57]。比如,在B 標(biāo)簽之后不可能跟B 標(biāo)簽。所以在諸如BiLSTM 這樣的序列標(biāo)注問題中,盡管可以忽略復(fù)雜的功能設(shè)計,但其不能了解標(biāo)注的內(nèi)容。相對于BiLSTM,CRF 能夠模擬出狀態(tài)序列的特征,但其不足之處在于需要人工抽取。鑒于CRF模型在順序標(biāo)注方面的優(yōu)良性能,文獻[50]提出引入BiLSTM+CRF 模式[58],并與其他模型進行了比較,結(jié)果表明,該模型具有更好的適用性和精確度。為了改善BiLSTM 存在的問題,本文提出使用詞向量模型對文本進行深層次的信息挖掘來優(yōu)化普通的序列標(biāo)注模型。

        圖9 BiLSTM 序列標(biāo)注結(jié)構(gòu)Fig.9 Sequence labelling structure of BiLSTM

        ②基于詞向量的序列標(biāo)注模型

        2018 年,JUSTYNA 等[59]提 出ELMo(Emdeddings from Language Models)模型,該模型是基于預(yù)訓(xùn)練思想的語言模型,其將CharacterCNN[60]作為編碼層,多層堆疊的BiLSTM 模型對上下文關(guān)系進行建模。文獻[54]提出一種基于ELMo 的短文本語義表示模型,該模型采用詞嵌入模型[61],基于主題模型LDA根據(jù)短文本語義抽取關(guān)鍵詞。

        EMLo 模型的優(yōu)點是:該模型使用大量數(shù)據(jù)創(chuàng)建預(yù)訓(xùn)練的語言模型,可以對單詞的語法和語義特征進行建模。首先在含有海量文字資料的語料庫中建立面向LSTM 的網(wǎng)絡(luò)語言模型,然后通過對輸入與隱藏層矢量的線性結(jié)合,可以將詞匯矢量表轉(zhuǎn)換為預(yù)先訓(xùn)練的單詞嵌入模式,從而有效地解決詞匯的多義性問題。缺陷是:EMLo 基于的前向模型利用由前面給出的信息來預(yù)測和建模,后向模型與之相反,LSTM 的參數(shù)在前向和后向兩個方向上是獨立封閉的。因此,ELMo 仍然是單向編碼模型,它只是利用拼接完成了表面上的雙向編碼模式。ELMo模型訓(xùn)練框架如圖10 所示。

        圖10 ELMo 模型的訓(xùn)練框架Fig.10 Training framework of ELMo model

        為了解決LSTM 模塊存在的問題,生成式預(yù)訓(xùn)練(Generative Pre-Training,GPT)模型將ELMo 模型中的LSTM 模型舍棄掉,因Transformer 具有突出的共同進行計算的能力,該模型使用Transformer 作為特征提取器。這種改變同時促使了模型可以更好地幫助單詞學(xué)習(xí)文本上下文之間遠程的關(guān)系特征。文獻[55]提出一種基于FastText 多語言詞嵌入,并將GPT[62]進行關(guān)鍵詞的抽取。GPT 模型訓(xùn)練框架如圖11 所示。

        圖11 GPT 模型的訓(xùn)練框架Fig.11 Training framework of GPT model

        文獻[56-57]將Transformer 的雙向編碼器表示(Bidirectional Encoder Representation from Transformer,BERT)[63-65]作為預(yù)訓(xùn)練模型,在關(guān)鍵詞抽取領(lǐng)域取得了最優(yōu)的結(jié)果。BERT 是一種完全的雙向訓(xùn)練的模型,可以使神經(jīng)網(wǎng)絡(luò)更高效地從一層到另一層獲取文本的前后關(guān)聯(lián)。為了改善ELMo 和GPT 預(yù)訓(xùn)練語言模型的缺陷[66],BERT 模型充分利用預(yù)訓(xùn)練模型各層的文本信息,即模型雙向且深度的文本表示,從而獲得高質(zhì)量的詞向量。BERT 模型訓(xùn)練框架如圖12 所示。

        圖12 BERT 模型的訓(xùn)練框架Fig.12 Training framework of BERT model

        BERT 的輸入由3 個向量的總和組成:標(biāo)注向量,段向量和位置向量。BERT 的輸入結(jié)構(gòu)如圖13 所示。BERT 通過將整個輸入序列轉(zhuǎn)換為一個詞的矢量,包括將特殊字符矢量化,形成一個Token 的矢量,用一個分段向量來區(qū)分兩個句子對句子之間的關(guān)系進行建模。最后,為了學(xué)習(xí)一連串單詞的位置特征之間的關(guān)系,對每個單詞進行位置編碼,形成一個位置向量。此外,文獻[59-60]提出的中文問答(Chinese Question Answering,CQA)系統(tǒng)的跨語言研究結(jié)果表明,BERTCRF 模型詞向量抽取結(jié)果優(yōu)于BERT 模型[67-70]。圖14和圖15 所示為BERT 與BERT-CRF 的n分類問題與k″分類問題。顯然,Softmax 逐幀輸出的結(jié)果之間并沒有直接的關(guān)系,CRF 會考慮到輸出中的上下文關(guān)聯(lián),在BERT 基礎(chǔ)上通過BERT-CRF 模型對整個模型進行建模[70]。關(guān)鍵詞抽取算法分析與優(yōu)缺點分析如表2和表3所示。

        表2 關(guān)鍵詞抽取算法分析Table 2 Analysis of keyword extraction algorithms

        續(xù)表

        續(xù)表

        表3 關(guān)鍵詞抽取算法優(yōu)缺點分析Table 3 Analysis of advantages and disadvantages of keyword extraction algorithms

        圖13 BERT 的輸入結(jié)構(gòu)Fig.13 Input structure of BERT

        圖14 BERT 的n 分類問題Fig.14 n classification problem of BERT

        圖15 BERT-CRF 的kn分類問題Fig.15 kn classification problem of BERT-CRF

        1.3 歸納與總結(jié)

        根據(jù)上文的梳理研究,發(fā)現(xiàn)關(guān)鍵詞抽取算法主要存在以下問題:

        1)無監(jiān)督算法具有簡單、易于實現(xiàn)、不需要標(biāo)注數(shù)據(jù)等優(yōu)點,但算法提取結(jié)果的準(zhǔn)確性不高,并且在不同的數(shù)據(jù)集合中提取的效果會有很大的變化。

        2)為了提高算法泛化性和優(yōu)化抽取的效果,傳統(tǒng)的有監(jiān)督分類算法逐漸受到關(guān)注,但是傳統(tǒng)分類算法并未考慮到字詞與上下文之間的聯(lián)系。

        3)為了使字詞更好地學(xué)習(xí)上下文之間的聯(lián)系,關(guān)鍵詞抽取算法序列標(biāo)注算法逐步取代分類算法,在進行深度學(xué)習(xí)算法訓(xùn)練時,通常會使用大量帶有標(biāo)注的樣本。

        4)隨著BERT 算法的提出,它在多個自然語言領(lǐng)域都獲得了較好的效果,但是BERT 由于參數(shù)較多,且模型體積較大,在訓(xùn)練少量的數(shù)據(jù)時會造成過度擬合。

        ELMo 算法只是使用了簡單的LSTM 進行拼接來實現(xiàn)“表面”的雙向語言算法,這種拼接的方法是無法實現(xiàn)真正的上下文的語義提取的,并且針對LSTM 算法來說,其文本語義挖掘的能力也遠遠不如Transformer 算法。之后提出的TGP 預(yù)訓(xùn)練算法實質(zhì)上就是一個單向的Transformer 算法,因此也只可以學(xué)習(xí)到文本之前的內(nèi)容信息,而無法完全實現(xiàn)文本上下文的學(xué)習(xí)。BERT 預(yù)訓(xùn)練算法提取的特征粒度包括了字符、詞和句子層面的廣泛的特征信息,其產(chǎn)生的詞匯表示是基于上下文的,并且是在文字的動態(tài)特征的基礎(chǔ)上產(chǎn)生的,文字在不同的情境中輸出為不同的表現(xiàn),這解決了詞的模糊性的問題,并且BERT 輸出的大量特征信息也提高了關(guān)鍵詞抽取過程的效率。

        2 數(shù)據(jù)集介紹

        2.1 公開數(shù)據(jù)集

        本文采用2 個開放數(shù)據(jù)集Sohu 數(shù)據(jù)集[97]和Sensor 數(shù)據(jù)集[98]以增加實驗的可信度。由于這2 個公開數(shù)據(jù)集太小,因此本文只將這2 個數(shù)據(jù)集作為測試集和驗證集。此外,本文抓取100 000 條熱門新聞文本作為訓(xùn)練集,采用隨機選取的方法從所有的文本中選取1 500 條進行標(biāo)注作為訓(xùn)練數(shù)據(jù)集。然后從剩余的文章中隨機選取1 000 條作為對抗訓(xùn)練過程中的未標(biāo)注樣本來訓(xùn)練模型。公開數(shù)據(jù)集的數(shù)據(jù)分布如表4 所示。

        表4 公開數(shù)據(jù)集的數(shù)據(jù)分析Table 4 Data distribution of public datasets 單位:條

        2.2 自建數(shù)據(jù)集

        由于直接抓取的數(shù)據(jù)集包含了大量的噪聲,無法直接利用,因此在使用數(shù)據(jù)樣本之前首先要對所收集的數(shù)據(jù)進行文字預(yù)處理,然后進行降噪、分詞、去停用等。新聞數(shù)據(jù)主要抓取來自搜狐、微博、百度等各大新聞網(wǎng)站的輿情新聞信息。為了使實驗效果更加客觀,采用學(xué)術(shù)界常用的數(shù)據(jù)分布,帶標(biāo)簽樣本與測試集和驗證集的比例為6∶2∶2。實驗數(shù)據(jù)集分布如表5 所示。

        表5 自建數(shù)據(jù)集分布Table 5 Distribution of self-built datasets 單位:條

        3 評價指標(biāo)

        混淆矩陣是一種直觀的評價標(biāo)準(zhǔn),用于通過計算評估結(jié)果,將模型預(yù)測的數(shù)據(jù)樣本與實際標(biāo)簽信息進行比較?;煜仃嚱Y(jié)構(gòu)如圖16 所示。在圖16中:TP 表示實際標(biāo)簽為正,經(jīng)過模型預(yù)測為正;FP 表示實際標(biāo)簽為負,經(jīng)過模型預(yù)測為正;FN 表示實際標(biāo)簽為正,經(jīng)過模型預(yù)測為負;TN 表示實際標(biāo)簽為負,經(jīng)過模型預(yù)測為負;每行代表數(shù)據(jù)的模型預(yù)測;每列代表數(shù)據(jù)的實際狀態(tài)。

        圖16 混淆矩陣結(jié)構(gòu)Fig.16 Structure of confusion matrix

        混淆矩陣的主要指標(biāo)如下:

        精確率(P):實際正標(biāo)簽數(shù)據(jù)在預(yù)測為正的結(jié)果中的比例。

        精確率計算公式如式(1)所示:

        其中:Qc表示真實的關(guān)鍵詞集合;Qp表示預(yù)測的關(guān)鍵詞集合。

        召回率(R):實際標(biāo)簽為正的數(shù)據(jù)比例,模型正確預(yù)測的數(shù)據(jù)量。

        召回率計算公式如式(2)所示:

        由于在精確率與召回率上存在指標(biāo)的沖突,使得模型間的對比變得困難。因此,通過F1 指標(biāo)盡量綜合考慮兩者,F(xiàn)1 計算公式如式(3)所示:

        4 實驗設(shè)計與分析

        4.1 對比算法

        首先介紹無監(jiān)督關(guān)鍵詞基線算法,選取參考論文中的最佳參數(shù)的F1 值(這里的關(guān)鍵詞只選擇排名前6 名),確保結(jié)果公正客觀。

        主題類的算法選用LDA[23],算法1 所示為LDA主題模型抽取關(guān)鍵詞的算法流程。

        算法1LDA 算法

        步驟1在每個文件中選擇1 個特定的主題分配。

        步驟2從選定的話題中任意選擇1 個詞。

        步驟3重復(fù)以上步驟直到整個文檔都被覆蓋。

        步驟4根據(jù)以上3 個步驟,可以得到每個主題的分布順序,并根據(jù)文章中主題的實際分布情況進行調(diào)整,檢查其是否與文章中主題的正式分布相匹配。

        步驟5重復(fù)上述的步驟,直至根據(jù)所有的主題生成關(guān)鍵詞。

        統(tǒng)計類算法選用TF-IDF[99-101],TF-IDF 算法流程如算法2 所示。

        算法2TF-IDF 算法

        步驟1對于一個給定的文本,對詞頻d 進行預(yù)處理操作,如單詞分離、詞性注釋和刪除去掉的單詞,vn、l、a、d 等具有詞性的詞被保留下來,形成候選關(guān)鍵詞X={x1,x2,…,xn}。

        步驟2計算詞xi在文本中的詞頻d。

        步驟3計算詞xi在整個語料庫中的IDF。

        步驟4重復(fù)步驟2、步驟3,對計算結(jié)果進行排序,確定前N個詞為關(guān)鍵詞。

        圖模型類算法選取TextRank,TextRank 算法關(guān)鍵詞抽取的算法流程如算法3 所示。

        算法3TextRank 算法

        步驟1文本預(yù)處理。

        步驟2V表示節(jié)點集合,構(gòu)建候選關(guān)鍵詞圖G=(V,E)。

        步驟3重復(fù)循環(huán)每個節(jié)點,直到收斂。

        步驟4對每個節(jié)點的權(quán)重值進行排序,得到前N個詞作為候選圖。

        步驟5對步驟4 得到的關(guān)鍵詞在原文中進行標(biāo)注,如果兩者之間有相鄰的短語,則認為是關(guān)鍵短語。

        PositionRank:根據(jù)PositionRank 的算法思想,其關(guān)鍵詞抽取算法流程如算法4 所示。

        算法4PositionRank 算法

        步驟1單詞的預(yù)處理。

        步驟2利用詞的共現(xiàn)關(guān)系構(gòu)建一個無定向的詞圖G=(V,E)。

        步驟3計算詞xi在詞頻d 中的位置倒數(shù)之和S(xi)。之后,將Position(xi)=pj歸一化,以修改PositionRank 的重啟概率。

        步驟4通過在詞圖上的隨機游走來輸出詞xi及其相應(yīng)的分數(shù),直到趨于穩(wěn)定。

        步驟5將候選關(guān)鍵詞w的每個組成詞x的相應(yīng)分數(shù)相加S(xj),得到候選關(guān)鍵詞的操作分數(shù)S(w)。

        步驟6將前N個候選詞作為關(guān)鍵詞,候選關(guān)鍵詞的分數(shù)S(w)是倒置的。

        詞向量模型類算法選用 Word2Vec+kmeans[102-103],算法5 所示為特定的算法流程。

        算法5Word2Vec+k-means 算法

        步驟1用Word2Vec 模型訓(xùn)練大型維基語料庫,得到“wiki.zh.text.vector”的詞向量文件。

        步驟2對數(shù)據(jù)進行預(yù)處理,最終得到X={x1,x2,…,xn}。

        步驟3遍歷候選關(guān)鍵詞,從詞向量文件中提取候選關(guān)鍵詞的詞向量表示W(wǎng)Word2Vec={v1,v2,…,vn}。

        步驟4通過k-means 對候選關(guān)鍵詞進行聚類可以得到不同類型的聚類中心,其中聚類的數(shù)量由人工確定,由于本文使用的是輿情新聞領(lǐng)域,因此將其聚類為一類。

        步驟5在每一類中,聚類中的詞與聚類中心的距離(歐氏距離)根據(jù)聚類的大小依次遞增,常用的有歐氏距離、曼哈頓距離,本文使用的時間歐氏距離由下式給出:

        步驟6通過計算候選關(guān)鍵詞,得出最有價值的詞,作為文本關(guān)鍵詞。

        下文對有監(jiān)督基線算法進行介紹:

        HMM[88]:是機器學(xué)習(xí)中最典型的一種。

        CRF[48]:是一種典型的序列標(biāo)注方法,它既能表達觀察間的相關(guān)性,又能反映當(dāng)前觀察與前、后多態(tài)的關(guān)系,獲得文中的關(guān)鍵詞組。

        BiLSTM[53]:利用神經(jīng)網(wǎng)絡(luò)的超強非線性擬合特性,在訓(xùn)練過程中,將樣本經(jīng)過復(fù)雜的非線性轉(zhuǎn)換獲得從樣本到標(biāo)記的功能,然后利用該函數(shù)對給定的樣本進行預(yù)測。

        BiLSTM+CRF[58]:BiLSTM 在進行順序標(biāo)注時可以省略大量的特征工程,但也存在不能進行標(biāo)注的缺陷。然而,CRF 的優(yōu)勢在于能夠模擬出隱含的狀態(tài),了解狀態(tài)序列的特性,但是其不足之處在于必須手工抽取序列的特征。由于所提的BiLSTM+CRF模式將兩者結(jié)合起來,因此可以更好地完成與序列標(biāo)注有關(guān)的工作。

        BERT+CRF:BERT 能夠更好地使模型從背景信息中學(xué)習(xí)到更多的信息,并且消除了對抗性學(xué)習(xí),從而檢驗在同樣的數(shù)據(jù)比率下對抗學(xué)習(xí)能否更好地促進模型在沒有標(biāo)注的數(shù)據(jù)中獲得更多的知識。

        4.2 實驗結(jié)果

        自建數(shù)據(jù)集實驗結(jié)果如表6 所示。

        表6 自建數(shù)據(jù)集F1 值結(jié)果Table 6 Results of self-built dataset FI values

        從表6 可以得出以下結(jié)論:

        1)可以觀察到Sensor 數(shù)據(jù)集的性能指標(biāo)。

        2)在這些對比算法中,直接使用無監(jiān)督的TextRank 與PositionRank 算法抽取關(guān)鍵詞的效果較好,在某些數(shù)據(jù)集合中,甚至超過有監(jiān)督的算法。

        3)BiLSTM+CRF 與BiLSTM 相 比,BiLSTM 的性能指標(biāo)更好,說明在BiLSTM 上添加CRF 進行糾錯的思路是正確的,可以有效提升算法預(yù)測的準(zhǔn)確率。

        4)使用人工創(chuàng)建的特征的CRF 算法有時不如HMM,表明人工創(chuàng)建的規(guī)則并不總是能反映文本的深層語義信息。

        5)這些對比實驗的模型為本文提供了經(jīng)驗下界。在其他數(shù)據(jù)集上表現(xiàn)較差的算法如LDA,在“地震”數(shù)據(jù)集上的表現(xiàn)卻比其他無監(jiān)督算法要好,這可能是因為數(shù)據(jù)分布不一致所導(dǎo)致。

        6)算法效果最好的是BERT+CRF 算法,與BiLSTM+CRF 相比,其提取單詞上下文信息的功能要比BiLSTM+CRF 好很多。

        通過與基線算法進行的實驗對比可知:本文算法在多個數(shù)據(jù)集上實驗效果穩(wěn)定,充分驗證了算法的有效性。

        Sensor 和Sohu 數(shù)據(jù)集實驗結(jié)果如表7、表8所示。

        表7 Sensor 數(shù)據(jù)集實驗結(jié)果Table 7 Experimental results of Sensor dataset

        表8 Sohu 數(shù)據(jù)集實驗結(jié)果Table 8 Experimental results of Sohu dataset

        從表7、表8 可以得出以下結(jié)論:

        1)從整體性能上來看,在Sensor 數(shù)據(jù)集上的實驗效果比Sohu 數(shù)據(jù)集要好,可能是因為訓(xùn)練集中的內(nèi)容更加偏向Sensor 數(shù)據(jù)集的原因。

        2)在Sensor 數(shù)據(jù)集中效果最好的是BERT+CRF算法,F(xiàn)1 值達到了73.1%,比BiLSTM+CRF 算法提高了6.4 個百分點;同樣地,在Sohu 數(shù)據(jù)集中,BERT+CRF 算法比BiLSTM+CRF 算法的效果提高了3.4 個百分點,進一步佐證了該算法比BiLSTM+CRF 算法更能挖掘文本的深層次語義。

        3)在2 個公開數(shù)據(jù)集上,BiLSTM 比BiLSTM+CRF 的效果都要差,說明BiLSTM+CRF 對于序列標(biāo)注正確性有進一步提升。

        4)在所有的數(shù)據(jù)集上,Word2Vec+k-means 算法效果都比較差,原因是在構(gòu)建詞向量時,使用的維基百科詞向量庫與數(shù)據(jù)集并不是很吻合。

        5)在整體趨勢上,有監(jiān)督算法要比無監(jiān)督算法效果更好。

        5 未來展望

        文本關(guān)鍵詞可以提供高度集中的輿論信息,使人們能夠快速有效地掌握相關(guān)內(nèi)容。因此,如何從文本中自動提取關(guān)鍵詞是文本挖掘領(lǐng)域的重點關(guān)注方向之一。從中文關(guān)鍵詞提取的角度出發(fā),對中文關(guān)鍵詞的提取問題進行了多角度的探討,并給出了相應(yīng)的算法。然而,本文研究還存在許多問題,有待于在已有研究的基礎(chǔ)上進行深入探討[95]。

        1)采用輕量級方法

        目前,BERT 算法較為流行,在實際應(yīng)用中效果較好,但是與一些無監(jiān)督或者半監(jiān)督算法相比,時間耗費量巨大。針對該問題,可以考慮采用一些輕量級的框架替換算法中的大型模塊。

        2)大型數(shù)據(jù)集

        深度學(xué)習(xí)需要海量的數(shù)據(jù)來訓(xùn)練算法,優(yōu)秀的數(shù)據(jù)集必須具有大規(guī)模和廣泛性的特性。目前已有的關(guān)鍵詞提取領(lǐng)域中的數(shù)據(jù)集都有不足之處,因此要提高算法的性能,就必須建立一個較大的樣本庫,以便對算法進行深入的研究。

        3)結(jié)合外部知識[104]

        僅從文本中所含的信息來進行關(guān)鍵詞抽取,其難度和局限性都很大。在此背景下,企業(yè)的外部知識結(jié)構(gòu)系統(tǒng)就變得非常重要。因此,本文提出一種基于知識圖譜的方法,并將其與外部知識相結(jié)合,使其在實際應(yīng)用中能夠得到廣泛的拓展。

        4)有監(jiān)督算法與無監(jiān)督算法相融合

        當(dāng)前有很多效果良好的有監(jiān)督算法,通過學(xué)習(xí)文本中標(biāo)注的信息來增強算法的性能,但是無法發(fā)現(xiàn)標(biāo)注數(shù)據(jù)此外的知識[105]。因此,可以將現(xiàn)有的研究與無監(jiān)督算法相結(jié)合,如將關(guān)鍵詞抽取算法和主題算法相結(jié)合,使該算法在抽取時能夠充分考慮到詞語的主題分布,從而能夠更好地反映文本的主題信息。關(guān)鍵詞必須有一個主題的資訊才能體現(xiàn)整篇文章。該方法可以將算法和主題算法相結(jié)合,使得算法在提取時能夠充分考慮到主題的分布。

        6 結(jié)束語

        關(guān)鍵詞抽取算法在信息檢索、文本聚類、信息推薦等領(lǐng)域都有重要的作用。本文對關(guān)鍵詞抽取算法進行了詳細的闡述,對比傳統(tǒng)算法與目前流行的深度學(xué)習(xí)算法的優(yōu)缺點,闡述了關(guān)鍵詞抽取算法目前仍需解決的問題與潛在的發(fā)展趨勢。根據(jù)目前的發(fā)展情況,基于深度學(xué)習(xí)的序列標(biāo)注類型的算法為目前的主流算法,且抽取效果較好,但也存在缺陷與挑戰(zhàn)。在未來發(fā)展過程中可以將無監(jiān)督算法與有監(jiān)督算法進行有效融合,并結(jié)合外部知識以促進關(guān)鍵詞抽取算法更好的發(fā)展。

        猜你喜歡
        向量單詞監(jiān)督
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        單詞連一連
        看圖填單詞
        監(jiān)督見成效 舊貌換新顏
        看完這些單詞的翻譯,整個人都不好了
        夯實監(jiān)督之基
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        欧美日韩视频在线第一区| 玖玖资源网站最新网站| 国产主播在线 | 中文| av网页在线免费观看| 国模91九色精品二三四| 无码孕妇孕交在线观看| 国产suv精品一区二区69| AV熟妇导航网| 亚洲精品中文字幕乱码| 国产公开免费人成视频| 99re热这里只有精品最新| 亚洲AⅤ樱花无码| 亚洲一区二区精品在线看| 久久综合伊人有码一区中文字幕| 亚洲国产精品国自产拍性色| 蜜桃一区二区三区| 国産精品久久久久久久| 巨爆乳中文字幕爆乳区| 在线视频免费自拍亚洲| 亚洲一区二区三区偷拍女| 国产av旡码专区亚洲av苍井空| 天堂影院一区二区三区四区| 一区二区三区婷婷在线| 国产高清一区二区三区视频| 久久精品国产亚洲av网| 黑人巨大跨种族video| 日批视频免费在线观看| 在线观看视频日本一区二区三区| 青青草免费观看视频免费| 无码人妻一区二区三区免费看| 久久99精品国产99久久6男男| 男女一级毛片免费视频看| 日韩午夜在线视频观看| 亚洲熟女少妇精品综合| 性色做爰片在线观看ww| 人妻精品丝袜一区二区无码AV| 97中文乱码字幕在线| 国产亚洲成人av一区| 亚洲av成人无码网站…| 国产chinese在线视频| 久久久亚洲免费视频网|