亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合統(tǒng)計(jì)特征和圖模型的半監(jiān)督式中文關(guān)鍵短語(yǔ)抽取方法

        2022-06-17 09:09:44謝海華陳雪飛都儀敏呂肖慶
        中文信息學(xué)報(bào) 2022年4期
        關(guān)鍵詞:文檔短語(yǔ)關(guān)鍵

        謝海華,陳雪飛,都儀敏,呂肖慶,2,湯 幟,2

        (1. 北大方正信息產(chǎn)業(yè)集團(tuán)有限公司 數(shù)字出版技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100871;2. 北京大學(xué) 王選計(jì)算機(jī)研究所,北京 100871;3. 北京雁棲湖應(yīng)用數(shù)學(xué)研究院,北京 101407)

        0 引言

        文檔關(guān)鍵短語(yǔ)抽取的目標(biāo)是從文檔中抽取出能夠代表文檔主題和內(nèi)容的短語(yǔ)集合[1]。短語(yǔ)是由一個(gè)或多個(gè)詞語(yǔ)組成的詞組,例如,深度神經(jīng)網(wǎng)絡(luò)(“深度”“神經(jīng)網(wǎng)絡(luò)”兩個(gè)詞的組合)、強(qiáng)迫高彈形變(“強(qiáng)迫”“高”“彈”“形變”四個(gè)詞的組合)。一般地,關(guān)鍵短語(yǔ)由文檔中出現(xiàn)過(guò)的詞語(yǔ)組合而成。

        由于短語(yǔ)的應(yīng)用十分廣泛,關(guān)鍵短語(yǔ)抽取是文檔處理領(lǐng)域的一項(xiàng)重要任務(wù)。關(guān)鍵短語(yǔ)可以用于生成文檔的索引以便于檢索,用于查詢?cè)~的擴(kuò)展以獲取更多查詢結(jié)果,作為特征用于文檔聚類和分類,作為文檔的簡(jiǎn)短總結(jié)以讓讀者了解文檔內(nèi)容。另外,關(guān)鍵短語(yǔ)抽取在學(xué)術(shù)出版領(lǐng)域的很多任務(wù)中發(fā)揮關(guān)鍵作用,例如,給用戶精準(zhǔn)推薦新出版的文章和圖書(shū)、發(fā)現(xiàn)文章中缺失的引用項(xiàng)、為論文發(fā)掘潛在的審稿人、分析學(xué)術(shù)研究趨勢(shì),發(fā)現(xiàn)領(lǐng)域新詞或術(shù)語(yǔ)等[2]。

        文檔關(guān)鍵短語(yǔ)抽取可以采用無(wú)監(jiān)督或有監(jiān)督的方法實(shí)現(xiàn)。采用無(wú)監(jiān)督方法進(jìn)行關(guān)鍵短語(yǔ)抽取的基本思路是基于多項(xiàng)特征對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行評(píng)分,并設(shè)定閾值以選擇關(guān)鍵短語(yǔ)。可選的特征包括統(tǒng)計(jì)特征[3]、位置特征[4]、語(yǔ)言學(xué)特征和圖結(jié)構(gòu)特征[5]等。有監(jiān)督關(guān)鍵短語(yǔ)抽取可采用的方法包括基于多項(xiàng)特征構(gòu)造分類器或者序列標(biāo)注模型、采用RNN等深度學(xué)習(xí)方法構(gòu)造序列標(biāo)注模型或者端到端生成模型[6]。

        目前關(guān)鍵短語(yǔ)抽取算法的結(jié)果還不盡如人意,例如,抽取出來(lái)的短語(yǔ)并不能代表文檔主題,或者一些能代表文檔主題的關(guān)鍵短語(yǔ)未被算法發(fā)現(xiàn),主要原因是抽取算法還面臨以下技術(shù)挑戰(zhàn): ①由于缺乏明確的短語(yǔ)定義,候選短語(yǔ)的選擇不夠準(zhǔn)確(如有些非短語(yǔ)中文詞組被誤認(rèn)為是短語(yǔ)); ②由于缺乏統(tǒng)一、完備和權(quán)威的數(shù)據(jù)標(biāo)注,所抽取的短語(yǔ)是否關(guān)鍵的依據(jù)偏弱。此外,大部分關(guān)鍵短語(yǔ)算法是基于英文數(shù)據(jù)集進(jìn)行設(shè)計(jì)和實(shí)驗(yàn)的,基于多個(gè)數(shù)據(jù)集的測(cè)試結(jié)果顯示,英文關(guān)鍵短語(yǔ)抽取算法的F1值最高不到0.6[2]。由于語(yǔ)言差異以及中文語(yǔ)法的復(fù)雜性,這些算法在中文數(shù)據(jù)集上表現(xiàn)得更加不理想。

        本文提出一種針對(duì)中文的關(guān)鍵短語(yǔ)抽取算法,結(jié)合多項(xiàng)統(tǒng)計(jì)特征得分、圖模型排序、短語(yǔ)和文章的語(yǔ)義相似度等因素,對(duì)短語(yǔ)進(jìn)行評(píng)分以獲取關(guān)鍵短語(yǔ)。本文的主要貢獻(xiàn)如下:

        (1) 基于中文期刊論文數(shù)據(jù),構(gòu)建中文關(guān)鍵短語(yǔ)標(biāo)注數(shù)據(jù)集,用于計(jì)算中文短語(yǔ)的統(tǒng)計(jì)特征,以及評(píng)估中文關(guān)鍵短語(yǔ)抽取算法的性能;

        (2) 針對(duì)中文特點(diǎn),提出基于詞性及詞性組合特征的候選關(guān)鍵短語(yǔ)獲取方法;

        (3) 為了更準(zhǔn)確地提取關(guān)鍵短語(yǔ),提出采用多種因素結(jié)合的方式來(lái)計(jì)算短語(yǔ)得分,包括短語(yǔ)和文章的語(yǔ)義相似度、圖模型排序、統(tǒng)計(jì)特征得分。

        基于我們構(gòu)建的中文關(guān)鍵短語(yǔ)標(biāo)注數(shù)據(jù)集的實(shí)驗(yàn)顯示,本文方法在準(zhǔn)確率和召回率等指標(biāo)上,明顯優(yōu)于目前前沿的關(guān)鍵短語(yǔ)抽取方法。

        本文組織結(jié)構(gòu)如下: 第1節(jié)簡(jiǎn)述文章關(guān)鍵短語(yǔ)抽取算法的主要方法和前沿進(jìn)展;第2節(jié)介紹本文方法的基本架構(gòu)和流程;第3節(jié)介紹本文構(gòu)建的中文關(guān)鍵短語(yǔ)標(biāo)注數(shù)據(jù)集,以及在該數(shù)據(jù)集上各種方法的測(cè)試效果,最后一節(jié)闡述本文方法的局限性以及未來(lái)的研究方向。

        1 背景及相關(guān)工作

        根據(jù)不同的數(shù)據(jù)特點(diǎn)和應(yīng)用場(chǎng)景,文章關(guān)鍵短語(yǔ)抽取可以選擇無(wú)監(jiān)督或有監(jiān)督方法實(shí)現(xiàn)?;跓o(wú)監(jiān)督方法進(jìn)行關(guān)鍵短語(yǔ)抽取的基本流程如下:

        (1) 獲取候選關(guān)鍵短語(yǔ)集。從文檔中選擇一些詞語(yǔ)及詞組作為候選關(guān)鍵短語(yǔ),可采用的方法包括詞性篩選、命名實(shí)體識(shí)別等;

        (2) 對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行評(píng)分和排序;

        (3) 基于評(píng)分選擇關(guān)鍵短語(yǔ)。選擇排名較高的詞語(yǔ)或詞組,或者含有排名高的詞語(yǔ)的短語(yǔ)作為關(guān)鍵短語(yǔ)。

        其中,“對(duì)候選關(guān)鍵短語(yǔ)進(jìn)行評(píng)分和排序”是無(wú)監(jiān)督關(guān)鍵短語(yǔ)抽取的核心步驟?;跓o(wú)監(jiān)督方法的關(guān)鍵短語(yǔ)抽取可分為基于統(tǒng)計(jì)的方法、基于圖模型的方法和基于語(yǔ)義信息的方法。基于統(tǒng)計(jì)法的基本思想是采用詞語(yǔ)統(tǒng)計(jì)特征,例如,TFIDF值[3]、詞語(yǔ)共現(xiàn)統(tǒng)計(jì)、詞語(yǔ)位置[4]等信息,計(jì)算候選短語(yǔ)的得分,并設(shè)定閾值來(lái)選擇關(guān)鍵短語(yǔ)?;趫D模型的方法的基本思想是: 基于文檔內(nèi)容分析創(chuàng)建短語(yǔ)關(guān)系圖,該圖的節(jié)點(diǎn)是候選關(guān)鍵短語(yǔ),邊連接語(yǔ)義相關(guān)的短語(yǔ)。然后采用圖排序的方法,例如,TextRank[7]和SGRank[8]等,利用統(tǒng)計(jì)、位置和詞共現(xiàn)等信息對(duì)節(jié)點(diǎn)進(jìn)行評(píng)分和排序。基于語(yǔ)義信息的方法則是將詞語(yǔ)的深度語(yǔ)義信息用于關(guān)鍵短語(yǔ)的判斷。例如,通過(guò)實(shí)體鏈接技術(shù)將文檔中的名詞和命名實(shí)體鏈接到DBpedia以獲取其語(yǔ)義信息[9],將名詞短語(yǔ)鏈接到相關(guān)的維基頁(yè)面以獲取它們的語(yǔ)義信息[10]。在詞語(yǔ)的分布式表示方法成熟之后,很多研究者運(yùn)用Word2Vec等模型對(duì)詞語(yǔ)進(jìn)行編碼以獲取它們的語(yǔ)義信息[11]。

        基于有監(jiān)督的關(guān)鍵短語(yǔ)抽取方法可分為基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)兩種?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的關(guān)鍵短語(yǔ)抽取方法包括: 采用樸素貝葉斯、隨機(jī)森林等分類器,基于詞語(yǔ)的TF-IDF值,首次出現(xiàn)位置[12]、是否維基/IEEE詞條等信息[13],對(duì)候選短語(yǔ)進(jìn)行分類;采用CRF等序列標(biāo)注方法,基于詞語(yǔ)的語(yǔ)言學(xué)信息、結(jié)構(gòu)信息以及專家知識(shí)和領(lǐng)域知識(shí),對(duì)語(yǔ)句中的詞語(yǔ)進(jìn)行標(biāo)注以識(shí)別關(guān)鍵短語(yǔ)[14]。

        在訓(xùn)練數(shù)據(jù)充足的情況下,采用深度學(xué)習(xí)方法進(jìn)行關(guān)鍵短語(yǔ)抽取能夠取得更好的性能。例如,采用循環(huán)神經(jīng)網(wǎng)絡(luò)獲取詞語(yǔ)語(yǔ)義信息,并結(jié)合序列標(biāo)注以提取關(guān)鍵短語(yǔ)[6];采用端到端的生成式方法,基于Encoder-Decoder架構(gòu),直接生成關(guān)鍵短語(yǔ)[15]。為了解決短語(yǔ)抽取結(jié)果存在重復(fù)或者缺失的問(wèn)題,Chen等[16]提出CorrRNN以反映關(guān)鍵短語(yǔ)之間的相關(guān)性。為了提高性能,Rush[17]采取聯(lián)合學(xué)習(xí)思想,把短語(yǔ)生成和標(biāo)題生成任務(wù)進(jìn)行聯(lián)合訓(xùn)練。Wang等[18]采取遷移學(xué)習(xí)思想,將其他任務(wù)的標(biāo)注數(shù)據(jù)用到短語(yǔ)抽取任務(wù)中。

        由于缺乏大規(guī)模標(biāo)注數(shù)據(jù)集,實(shí)際應(yīng)用系統(tǒng)大多采用無(wú)監(jiān)督方法進(jìn)行關(guān)鍵短語(yǔ)抽取。其中,對(duì)于短文檔,基于圖模型的方法效果較好,而對(duì)于長(zhǎng)文檔,基于統(tǒng)計(jì)的方法效果較好。如果訓(xùn)練數(shù)據(jù)充足,采用深度學(xué)習(xí)方法進(jìn)行關(guān)鍵短語(yǔ)抽取的效果最好。基于有監(jiān)督方法的關(guān)鍵短語(yǔ)抽取的性能瓶頸在于訓(xùn)練數(shù)據(jù),因?yàn)殛P(guān)鍵短語(yǔ)的標(biāo)注十分依賴主觀判斷,而且關(guān)鍵短語(yǔ)和非關(guān)鍵短語(yǔ)的數(shù)據(jù)不平衡問(wèn)題非常嚴(yán)重。

        大部分關(guān)鍵短語(yǔ)抽取的評(píng)測(cè)數(shù)據(jù)集是英文的,例如,DUC-2001[19]和KP20k[15],因此關(guān)鍵短語(yǔ)抽取算法也主要針對(duì)英文進(jìn)行設(shè)計(jì)和實(shí)驗(yàn)。無(wú)論采用無(wú)監(jiān)督方法還是有監(jiān)督方法,目前關(guān)鍵短語(yǔ)抽取結(jié)果在很多情況下依然無(wú)法達(dá)到理想的結(jié)果。基于公開(kāi)數(shù)據(jù)集的評(píng)測(cè)結(jié)果顯示,最好的英文關(guān)鍵短語(yǔ)抽取結(jié)果的F1值不超過(guò)0.6。近幾年來(lái),基于大規(guī)模語(yǔ)料預(yù)訓(xùn)練的文本表征模型,例如,BERT[20],在眾多自然語(yǔ)言處理任務(wù)中表現(xiàn)出卓越的性能,因此采用這些模型來(lái)改進(jìn)關(guān)鍵短語(yǔ)抽取效果是一個(gè)十分值得研究的方向。

        2 基于統(tǒng)計(jì)特征和圖模型的半監(jiān)督式中文關(guān)鍵短語(yǔ)抽取算法

        本文提出的中文關(guān)鍵短語(yǔ)抽取算法,命名為CnKPRank(Chinese Keyphrases),其主要步驟(圖1)的介紹如下。

        圖1 CnKPRank的中文關(guān)鍵短語(yǔ)抽取基本流程

        2.1 計(jì)算中文關(guān)鍵短語(yǔ)的統(tǒng)計(jì)特征

        CnKPRank屬于半監(jiān)督的方法。首先需要少量帶標(biāo)注的數(shù)據(jù),即含有關(guān)鍵短語(yǔ)標(biāo)簽的文本,用于分析關(guān)鍵短語(yǔ)的統(tǒng)計(jì)特征,包括詞性組合、位置、長(zhǎng)度等信息。詞性組合特征是指構(gòu)成短語(yǔ)的詞語(yǔ)的詞性,例如,短語(yǔ)“機(jī)器學(xué)習(xí)”的詞性組合為“n+vn”,即由名詞和動(dòng)名詞組成;位置特征是短語(yǔ)在文章中的相對(duì)位置;長(zhǎng)度特征是指短語(yǔ)含有的字符的數(shù)量。

        文章的關(guān)鍵短語(yǔ)會(huì)呈現(xiàn)一定的統(tǒng)計(jì)規(guī)律性,例如,關(guān)鍵短語(yǔ)經(jīng)常由名詞組成,出現(xiàn)在文章的前半部分,并以4個(gè)字符組成。因此,短語(yǔ)的統(tǒng)計(jì)特征可以用于選擇候選關(guān)鍵短語(yǔ)(2.2節(jié)),以及輔助判斷關(guān)鍵短語(yǔ)(2.5節(jié))。在短語(yǔ)的統(tǒng)計(jì)特征的基礎(chǔ)上,CnKPRank的關(guān)鍵短語(yǔ)抽取流程采用第2節(jié)“背景及相關(guān)工作”所述的無(wú)監(jiān)督式流程進(jìn)行設(shè)計(jì),即首先獲取候選關(guān)鍵短語(yǔ),然后計(jì)算每個(gè)候選關(guān)鍵短語(yǔ)的得分,并基于得分選擇最終的關(guān)鍵短語(yǔ)。

        2.2 基于詞性組合特征獲取候選關(guān)鍵短語(yǔ)

        候選關(guān)鍵短語(yǔ)的獲取以分詞之后的語(yǔ)句為基礎(chǔ),基于詞性組合的規(guī)則匹配,從語(yǔ)句中篩選出候選短語(yǔ)?;诮y(tǒng)計(jì)得到的中文關(guān)鍵短語(yǔ)的常見(jiàn)詞性組合,我們?cè)O(shè)計(jì)相應(yīng)的詞性組合規(guī)則。例如,基于論文的keywords(即由作者給出的關(guān)鍵短語(yǔ))的統(tǒng)計(jì),關(guān)鍵短語(yǔ)的常見(jiàn)詞性組合如下:

        (1) n,即一個(gè)名詞;

        (2) n+n,兩個(gè)名詞的組合;

        (3) gb/gc/gg/gm/gp,生物/化學(xué)/地理/數(shù)學(xué)/物理等學(xué)科的相關(guān)詞匯;

        (4) vn+n,動(dòng)名詞和名詞的組合;

        (5) n+v,名詞和動(dòng)詞的組合。

        基于詞性組合的統(tǒng)計(jì)結(jié)果,可采用下述正則表達(dá)式獲取候選關(guān)鍵短語(yǔ):

        ??

        為了避免將一些無(wú)意義的詞語(yǔ)誤判為候選關(guān)鍵短語(yǔ),如“這個(gè)”“它”“我們”等,在運(yùn)用上述正則表達(dá)式篩選候選短語(yǔ)之前,需要把將語(yǔ)句中的停用詞的詞性修改為“NA”(即not available,不可用)。

        篩選出來(lái)的候選關(guān)鍵短語(yǔ)的信息包括: 位置信息和詞性組合信息。位置信息的表達(dá)方式為: (句子編號(hào),短語(yǔ)在句子中的起始位置,短語(yǔ)在句子中的結(jié)束位置),例如,“(1,3,5)”表示候選關(guān)鍵短語(yǔ)在文章的第一句話,并且由該句中的第3~5個(gè)詞組成。詞性組合信息即該短語(yǔ)中每個(gè)詞的詞性,例如,“(n,vn)”表示該短語(yǔ)由詞性為n(名詞)和vn(動(dòng)名詞)的詞語(yǔ)組成。

        2.3 基于預(yù)訓(xùn)練語(yǔ)言模型編碼計(jì)算短語(yǔ)與文章的相似度

        運(yùn)用預(yù)訓(xùn)練語(yǔ)言模型(如BERT),對(duì)詞語(yǔ)進(jìn)行編碼,生成詞語(yǔ)的向量表示。需要說(shuō)明的是,同一詞語(yǔ)在不同句子中的向量表示可能不同。基于詞語(yǔ)的向量表示,采用下述方法生成文章的主題向量表示:

        (1) 構(gòu)建主題詞性集?;?.1節(jié)介紹的中文短語(yǔ)統(tǒng)計(jì)結(jié)果,將關(guān)鍵短語(yǔ)中經(jīng)常出現(xiàn)的詞性合并整理為主題詞性集。例如,主題詞性集為: {n,vn,v,nz,a,ng,b,vi,q,ns,gi,gm}。一般地,主題詞性集里的詞性包含在前一步驟所述的正則表達(dá)式內(nèi)。特別地,gi和gm是由g.*產(chǎn)生的;

        (2) 從文章中篩選出詞性為主題詞性的詞語(yǔ),稱為主題詞;

        (3) 將所有主題詞的向量表示進(jìn)行累加并求平均,得到文章的主題向量表示。

        同理,候選關(guān)鍵短語(yǔ)的向量表示的計(jì)算方法為: 將短語(yǔ)中的詞語(yǔ)的向量進(jìn)行累加并求平均,得到短語(yǔ)的向量表示。由于不同位置的詞語(yǔ)的向量表示可能不同,因此不同位置的短語(yǔ)的向量表示也可能不同。

        本文采用余弦相似度,計(jì)算短語(yǔ)與文章的相似度,如式(1)所示。

        (1)

        其中,Ep= {ep1,ep2,…,epn}表示短語(yǔ)p的向量表示,Ed= {ed1,ed2,…,edn}表示文章d的主題向量表示。如果某個(gè)候選關(guān)鍵短語(yǔ)在多個(gè)句子中出現(xiàn)并存在多種向量表示,那么需要計(jì)算該短語(yǔ)的每個(gè)向量表示與文章主題向量的相似度,并將其中值最大者作為最終的相似度。

        在計(jì)算出每個(gè)候選關(guān)鍵短語(yǔ)與文章主題向量的余弦相似度之后,將這些相似度值進(jìn)行歸一化。以sim(p,d)表示短語(yǔ)p與文章d的相似度,即余弦相似度的歸一化值。

        2.4 構(gòu)建短語(yǔ)關(guān)系圖并計(jì)算短語(yǔ)的GR值

        用圖G= {V,E}表示短語(yǔ)關(guān)系,其中,V是該圖的節(jié)點(diǎn)集,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)候選關(guān)鍵短語(yǔ)。E是圖G的連線集。如果兩個(gè)候選關(guān)鍵短語(yǔ)出現(xiàn)在同一個(gè)句子中,而且在同一窗口內(nèi)(窗口尺寸設(shè)置為5個(gè)詞語(yǔ)),那么這兩個(gè)關(guān)鍵短語(yǔ)對(duì)應(yīng)的節(jié)點(diǎn)會(huì)有連線。連線的權(quán)重為節(jié)點(diǎn)對(duì)應(yīng)的短語(yǔ)出現(xiàn)在同一窗口內(nèi)的次數(shù)。

        候選關(guān)鍵短語(yǔ)的圖序特征值,即GR值(graph-based ranking)值由式(2)進(jìn)行計(jì)算。

        (2)

        各個(gè)變量的說(shuō)明如下:

        ●pi和pj表示候選關(guān)鍵短語(yǔ)。gr(pi)和gr(pj)分別表示pi和pj的GR值。各個(gè)候選關(guān)鍵短語(yǔ)的GR值的初始值設(shè)置為1/k,其中,k為候選關(guān)鍵短語(yǔ)的數(shù)量。

        ●Mi表示與pi有關(guān)聯(lián)(即有連線連接)的節(jié)點(diǎn)的集合。o(pj)表示與pj有關(guān)聯(lián)的節(jié)點(diǎn)的數(shù)量。

        ●wij表示pi和pj的連線的權(quán)重,即pi和pj同在一個(gè)窗口的次數(shù)。

        ● sim(pi,d)表示pi與文章d的相似度。

        ●z表示候選關(guān)鍵短語(yǔ)與文檔的相似度在短語(yǔ)選擇方面的權(quán)重,取值在0~1之間。

        基于式(2),依次計(jì)算每個(gè)候選關(guān)鍵短語(yǔ)的GR值。上述過(guò)程需要迭代多個(gè)輪次,直到短語(yǔ)的GR值的變化小于一定閾值。

        2.5 基于多種統(tǒng)計(jì)特征組合計(jì)算短語(yǔ)復(fù)合重要度

        由于短語(yǔ)的詞性組合、長(zhǎng)度、位置等特征對(duì)判斷它是否為關(guān)鍵短語(yǔ)都十分重要,因此候選短語(yǔ)的最終得分的計(jì)算需要綜合考慮上述特征。我們?cè)O(shè)計(jì)式(3)來(lái)計(jì)算候選關(guān)鍵短語(yǔ)的復(fù)合重要度。

        s(pi)=gr(pi)+pos(pi)+pst(pi)+len(pi)

        (3)

        其中,pi是候選關(guān)鍵短語(yǔ)。s(pi)表示pi的復(fù)合重要度,gr(pi)是pi的GR值,pos(pi)是pi的詞性組合特征值,pst(pi)是pi的位置特征值,len(pi)是pi的長(zhǎng)度特征值。

        如2.1節(jié)所述,需要少量的帶標(biāo)注數(shù)據(jù)來(lái)計(jì)算短語(yǔ)的統(tǒng)計(jì)特征。短語(yǔ)的詞性組合特征值(即pos)是該短語(yǔ)的詞性組合出現(xiàn)在標(biāo)注數(shù)據(jù)集的概率值。例如,詞性組合“n+n”在標(biāo)注數(shù)據(jù)集的所有短語(yǔ)中出現(xiàn)了100次,而所有短語(yǔ)的數(shù)量為1 000,那么詞性組合“n+n”的特征值為0.1。同樣地,短語(yǔ)的位置特征值(即pst)和長(zhǎng)度特征值(即len)是它們的位置和長(zhǎng)度出現(xiàn)在標(biāo)注數(shù)據(jù)集的概率值。pos、pst、len的具體計(jì)算方法可參見(jiàn)3.2節(jié)。

        基于式(3)計(jì)算出每個(gè)短語(yǔ)的最終復(fù)合重要度,重要度排名靠前的候選短語(yǔ)被認(rèn)為是關(guān)鍵短語(yǔ)。按照具體的要求,可以選取前K個(gè)候選短語(yǔ)作為最終的關(guān)鍵短語(yǔ),也可以將得分大于(預(yù)先設(shè)定的)閾值的候選短語(yǔ)選為關(guān)鍵短語(yǔ)。

        3 中文關(guān)鍵短語(yǔ)抽取實(shí)驗(yàn)

        3.1 數(shù)據(jù)獲取及預(yù)處理

        中文期刊論文大多含有關(guān)鍵詞標(biāo)簽,而且關(guān)鍵詞由作者給出,一般能夠準(zhǔn)確地反映論文的主題和內(nèi)容。我們以論文的標(biāo)題和摘要作為待分析的文本對(duì)象,并以關(guān)鍵詞作為相應(yīng)的關(guān)鍵短語(yǔ)標(biāo)簽。我們從一些中文期刊網(wǎng)站上獲取化學(xué)、物理、地理、計(jì)算機(jī)等領(lǐng)域的中文期刊論文的元信息,包括標(biāo)題、摘要和關(guān)鍵詞。這些論文數(shù)據(jù)作為分析關(guān)鍵短語(yǔ)的統(tǒng)計(jì)特征的基礎(chǔ)數(shù)據(jù),并用于測(cè)試算法的性能。

        為保證數(shù)據(jù)質(zhì)量,本文采用以下措施進(jìn)行語(yǔ)料篩選: ①文本亂碼比例小于3%; ②關(guān)鍵詞的數(shù)量超過(guò)3個(gè); ③關(guān)鍵詞全部出現(xiàn)在摘要或標(biāo)題當(dāng)中。滿足以上三個(gè)條件的論文共計(jì)5 939篇,這些論文的集合記為P。去除文本中的亂碼等噪聲后,我們使用HanLP[21]對(duì)論文的摘要和標(biāo)題進(jìn)行分詞。

        3.2 數(shù)據(jù)統(tǒng)計(jì)分析

        論文集合P共有68 139個(gè)關(guān)鍵短語(yǔ)標(biāo)簽(即論文的關(guān)鍵詞),包含26 868個(gè)非重復(fù)的關(guān)鍵短語(yǔ)?;谶@些數(shù)據(jù)的統(tǒng)計(jì)特征分析結(jié)果如下。

        3.2.1 關(guān)鍵短語(yǔ)詞性統(tǒng)計(jì)分析

        (1) 詞性組合統(tǒng)計(jì)

        論文集P的關(guān)鍵短語(yǔ)共計(jì)3 016種詞性組合,排名前10的詞性組合見(jiàn)表1。

        表1 關(guān)鍵短語(yǔ)詞性組合的統(tǒng)計(jì)結(jié)果

        Top10的詞性組合的概率總計(jì)只有50.85%(1)概率計(jì)算的基數(shù)為68 139,即P中關(guān)鍵短語(yǔ)的總數(shù)。,可見(jiàn)中文短語(yǔ)詞性組合的多樣性。我們統(tǒng)計(jì)了詞性組合排名前N的概率情況,如表2所示。

        表2 關(guān)鍵短語(yǔ)詞性TopN的統(tǒng)計(jì)結(jié)果

        基于詞性組合的統(tǒng)計(jì)結(jié)果,選用合適的篩選方法以獲取大部分候選短語(yǔ)。例如,2.2節(jié)介紹的詞性組合篩選正則表達(dá)式,是按照前35名的詞性組合(出現(xiàn)了至少250次)以及專業(yè)詞匯詞性(以'g'開(kāi)頭)進(jìn)行設(shè)計(jì)的。該詞性組合規(guī)則最終獲取了超過(guò)90個(gè)詞性組合,因?yàn)橛行I(yè)詞匯詞性(如: 'gg')不在前35名當(dāng)中。最終,該詞性組合可以獲取論文集P內(nèi)的73%的關(guān)鍵短語(yǔ)。

        式(3)中,短語(yǔ)的詞性組合得分pos(pi)即為表1所示的概率。

        (2) 詞性統(tǒng)計(jì)

        將關(guān)鍵短語(yǔ)中的詞語(yǔ)進(jìn)行統(tǒng)計(jì)和詞性分析,共有131 484個(gè)詞語(yǔ),76種詞性。排名前10的詞性見(jiàn)表3。

        表3 關(guān)鍵短語(yǔ)詞性的統(tǒng)計(jì)結(jié)果

        2.3節(jié)的主題詞性集可以由出現(xiàn)次數(shù)較多的詞性和學(xué)科相關(guān)的詞性組成。例如,以排名前10的詞性及專業(yè)詞匯的詞性組成的主題詞性集為: {n,vn,v,gi,nz,a,ng,b,vi,q,ns,gm,gp,gb}。

        3.2.2 關(guān)鍵短語(yǔ)的長(zhǎng)度統(tǒng)計(jì)

        關(guān)鍵短語(yǔ)的長(zhǎng)度即它含有的字符數(shù)量。基于論文集P的統(tǒng)計(jì)結(jié)果,關(guān)鍵短語(yǔ)長(zhǎng)度排名前10的情況見(jiàn)表4。

        式(3)中,關(guān)鍵短語(yǔ)的長(zhǎng)度得分len(pi),就是表4所示的概率。此時(shí)概率計(jì)算的基數(shù)是26 868,即非重復(fù)的關(guān)鍵短語(yǔ)的數(shù)量。由于短語(yǔ)的長(zhǎng)度是固定的,采用非重復(fù)的關(guān)鍵短語(yǔ)為基數(shù)進(jìn)行概率計(jì)算能更好地顯示不同短語(yǔ)的分布情況。而在詞性組合統(tǒng)計(jì)中,由于詞語(yǔ)在不同文本中的詞性可能不一樣,所以只能以詞性總數(shù)(或詞性組合總數(shù))作為概率計(jì)算的基數(shù)。同樣地,在短語(yǔ)位置統(tǒng)計(jì)中(3.2.3節(jié)),由于短語(yǔ)不同文本中出現(xiàn)的位置可能不一樣,也只能采用關(guān)鍵短語(yǔ)標(biāo)簽的總數(shù)作為概率計(jì)算的基數(shù)。

        表4 關(guān)鍵短語(yǔ)長(zhǎng)度的統(tǒng)計(jì)結(jié)果

        3.2.3 關(guān)鍵短語(yǔ)的位置統(tǒng)計(jì)

        關(guān)鍵短語(yǔ)在文章中出現(xiàn)的位置也有一定的規(guī)律,一般地,出現(xiàn)位置越靠前概率越高。關(guān)鍵短語(yǔ)出現(xiàn)位置的統(tǒng)計(jì)結(jié)果如表5所示。

        表5 關(guān)鍵短語(yǔ)出現(xiàn)位置的統(tǒng)計(jì)結(jié)果

        表5中,位置“0~10%”表示,短語(yǔ)的首字符出現(xiàn)在文章的前10%文本內(nèi)。式(3)中,短語(yǔ)的位置得分,pst(pi)即為表5所示的概率值。

        3.3 實(shí)驗(yàn)結(jié)果以及分析

        3.3.1 實(shí)驗(yàn)對(duì)比模型

        我們從論文集P中隨機(jī)抽取1 000篇論文作為算法的測(cè)試集(記為C),并與多種現(xiàn)有方法進(jìn)行了對(duì)比,包括TFIDF、TextRank[22]、TopicRank[23]、PositionRank[5]和SIFRank[24]。其中SIFRank在英文數(shù)據(jù)集上取得了關(guān)鍵短語(yǔ)抽取的SOTA結(jié)果。同時(shí),我們對(duì)CnKPRank算法進(jìn)行了消融實(shí)驗(yàn),具體對(duì)比了以下幾個(gè)方面。

        (1)POS-removed: 在候選關(guān)鍵短語(yǔ)的選擇方面,不使用我們統(tǒng)計(jì)出來(lái)的關(guān)鍵短語(yǔ)的詞性組合特征,而采用較為普通的詞性組合,以擴(kuò)大候選關(guān)鍵短語(yǔ)的選擇范圍。

        (2)SameSim: 在短語(yǔ)與文章的相似度方面,不采用式(1)來(lái)計(jì)算相似度,而是將所有短語(yǔ)向量與文章主題向量的相似度的值設(shè)置為相同的值,并進(jìn)行了歸一化。

        (3)Sim-based: 將短語(yǔ)向量與文章主題向量的相似度作為候選短語(yǔ)的最終得分,省去GR值的計(jì)算,以及短語(yǔ)的詞性組合得分、位置得分和長(zhǎng)度得分的計(jì)算。

        (4)GR-based: 將短語(yǔ)的GR值作為它的最終得分,而不考慮其詞性組合得分、位置得分和長(zhǎng)度得分。

        3.3.2 實(shí)驗(yàn)結(jié)果的評(píng)價(jià)方法

        我們采用以下三個(gè)方法選擇關(guān)鍵短語(yǔ),并分別計(jì)算算法的性能: 抽取5個(gè)關(guān)鍵短語(yǔ),抽取10個(gè)關(guān)鍵短語(yǔ),基于閾值抽取關(guān)鍵短語(yǔ)?!俺槿?個(gè)關(guān)鍵短語(yǔ)”指的是: 算法取得分排名前5的短語(yǔ)作為關(guān)鍵短語(yǔ),然后與測(cè)試集的結(jié)果進(jìn)行對(duì)比?!俺槿?0個(gè)關(guān)鍵短語(yǔ)”則是指算法取得分排名前10的短語(yǔ)作為關(guān)鍵短語(yǔ)。“基于閾值抽取關(guān)鍵短語(yǔ)”的方法需要設(shè)置得分閾值t、關(guān)鍵短語(yǔ)最小長(zhǎng)度min和最大長(zhǎng)度max。在計(jì)算每個(gè)候選關(guān)鍵短語(yǔ)的得分之后,采用下述方法選擇關(guān)鍵短語(yǔ)(假設(shè)得分大于或等于t的候選關(guān)鍵短語(yǔ)的數(shù)量為num)。

        (1) 如果num介于min和max之間,則輸出得分大于或等于t的候選關(guān)鍵短語(yǔ)作為最終的關(guān)鍵短語(yǔ);

        (2) 如果num小于min,則輸出得分排名前min的候選關(guān)鍵短語(yǔ)作為最終的關(guān)鍵短語(yǔ);

        (3) 如果num大于max,則輸出得分排名前max的候選關(guān)鍵短語(yǔ)作為最終的關(guān)鍵短語(yǔ)。

        實(shí)驗(yàn)結(jié)果以部分匹配原則進(jìn)行衡量,指標(biāo)有精確率(P)、召回率(R)和F1值,分別介紹如下:

        (1) 精確率(P): 如果算法輸出的某個(gè)短語(yǔ)屬于論文給出的關(guān)鍵詞標(biāo)簽,則它是正確短語(yǔ)。精確率是正確短語(yǔ)數(shù)與算法輸出短語(yǔ)總數(shù)的比值;

        (2) 召回率(R): 正確短語(yǔ)數(shù)與論文的關(guān)鍵詞標(biāo)簽總數(shù)的比值;

        (3)F1值:F1=2PR/(P+R)。

        例如,假設(shè)數(shù)據(jù)集C中某篇論文的關(guān)鍵詞為7個(gè),算法輸出5個(gè)關(guān)鍵短語(yǔ),其中兩個(gè)屬于論文給出的關(guān)鍵詞。那么精確率P=2/5=40%,召回率為R=2/7=28.57%。

        我們采用部分匹配法,而非精確匹配法(即算法輸出的關(guān)鍵短語(yǔ)與文章的關(guān)鍵詞標(biāo)簽在數(shù)量和內(nèi)容上完全一致,抽取結(jié)果才算是正確的),因?yàn)榫_匹配法的結(jié)果判斷十分苛刻,導(dǎo)致各種方法的準(zhǔn)確率和召回率都非常低,因此它們的實(shí)驗(yàn)結(jié)果沒(méi)有顯著區(qū)別。而基于部分匹配法來(lái)衡量中文關(guān)鍵短語(yǔ)抽取效果,不同方法的實(shí)驗(yàn)結(jié)果的區(qū)別比較顯著(表6)。

        表6 中文關(guān)鍵短語(yǔ)抽取對(duì)比實(shí)驗(yàn)結(jié)果

        3.3.3 實(shí)驗(yàn)結(jié)果分析

        從表6可以看出,本文方法相比TextRank,SIFRank等方法,在準(zhǔn)確率和召回率方面都有大幅度提升。具體分析如下:

        (1) 在消融實(shí)驗(yàn)采取的幾個(gè)方法當(dāng)中,POS-removed的效果最差,說(shuō)明候選關(guān)鍵短語(yǔ)的選擇對(duì)于關(guān)鍵短語(yǔ)抽取效果的影響是最大的;

        (2) SameSim,Sim-based和GR-based的效果相比SIFRank等傳統(tǒng)方法有很大提升,說(shuō)明本文選擇候選關(guān)鍵短語(yǔ)的方法性能十分有效;

        (3) GR-based的效果稍微優(yōu)于Sim-based,說(shuō)明基于短語(yǔ)關(guān)系圖的排序有助于提升關(guān)鍵短語(yǔ)抽取的性能;

        (4) SameSim的性能比CnKPRank有所下降,說(shuō)明短語(yǔ)與文章的相似度的計(jì)算,只能在有限的程度上反映短語(yǔ)的關(guān)鍵性;

        (5) CnKPRank比Sim-based和GR-based的性能有較大提升,說(shuō)明短語(yǔ)的統(tǒng)計(jì)特征(詞性組合、位置和長(zhǎng)度)得分,對(duì)判斷關(guān)鍵短語(yǔ)十分有用,也說(shuō)明了半監(jiān)督式方法在處理該問(wèn)題上具有優(yōu)勢(shì)。

        4 結(jié)論

        中文關(guān)鍵短語(yǔ)抽取目前缺乏針對(duì)性的研究,也缺乏標(biāo)準(zhǔn)的評(píng)測(cè)數(shù)據(jù)集。針對(duì)該問(wèn)題,本文首先收集了一些中文論文及其關(guān)鍵詞標(biāo)簽,構(gòu)建出中文關(guān)鍵短語(yǔ)抽取的評(píng)測(cè)集。在算法方面,我們采用半監(jiān)督式方法,運(yùn)用詞性組合特征獲取候選關(guān)鍵短語(yǔ),并采用基于預(yù)訓(xùn)練語(yǔ)言模型編碼的相似度評(píng)估、基于圖的排序、基于統(tǒng)計(jì)特征得分等方式,計(jì)算短語(yǔ)得分并依此來(lái)選擇關(guān)鍵短語(yǔ)。相比SIFRank等在英文數(shù)據(jù)集上表現(xiàn)很好的方法,我們的方法在中文關(guān)鍵短語(yǔ)抽取的準(zhǔn)確率和召回率方面都有明顯提升。

        從實(shí)驗(yàn)結(jié)果可以看出,中文關(guān)鍵短語(yǔ)抽取的準(zhǔn)確率只有30%左右,相比英文的關(guān)鍵短語(yǔ)抽取的效果相差較多。其部分原因是中文的復(fù)雜性比英文更高,且規(guī)范性更差。在中文關(guān)鍵短語(yǔ)抽取領(lǐng)域,我們認(rèn)為以下問(wèn)題值得進(jìn)一步研究:

        (1)優(yōu)化候選關(guān)鍵短語(yǔ)的選擇。候選關(guān)鍵短語(yǔ)的選擇是關(guān)鍵短語(yǔ)抽取任務(wù)的重點(diǎn)和難點(diǎn),具有較大的提升空間和研究?jī)r(jià)值。從短語(yǔ)的詞語(yǔ)構(gòu)成、詞性構(gòu)成、語(yǔ)法結(jié)構(gòu)等方面進(jìn)行深入研究,有助于提升關(guān)鍵短語(yǔ)選擇的效果。

        (2)抽取未在文本中出現(xiàn)的關(guān)鍵短語(yǔ)。目前方法抽取出的關(guān)鍵短語(yǔ)都曾出現(xiàn)在文本中,而測(cè)試集中的有些關(guān)鍵短語(yǔ)并沒(méi)有直接在文本中出現(xiàn)。抽取出不曾出現(xiàn)在文本中的關(guān)鍵短語(yǔ)也是一個(gè)有價(jià)值的研究方向。

        猜你喜歡
        文檔短語(yǔ)關(guān)鍵
        高考考好是關(guān)鍵
        有人一聲不吭向你扔了個(gè)文檔
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無(wú)大小,關(guān)鍵是怎么做?
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        撕开奶罩揉吮奶头视频| 99久久婷婷国产精品综合| 激情亚洲一区国产精品久久| 国产精品久久国产精品99| 久久ri精品高清一区二区三区| 亚洲欧美国产成人综合不卡 | 国产的自拍av免费的在线观看| 亚洲熟妇丰满多毛xxxx| 日韩精品人妻系列无码专区免费| 日日爽日日操| 中文字幕亚洲乱码熟女1区2区| 久久久亚洲欧洲日产国码二区| 亚洲精品中文字幕无码蜜桃| 亚洲精品亚洲人成在线播放| 亚洲综合一区二区三区久久| 国产精品久久精品第一页| 日韩a无v码在线播放| 国产一级淫片a免费播放口| 国产亚洲专区一区二区| 无码人妻aⅴ一区二区三区| 精品无码国产污污污免费网站| 日本嗯啊在线观看| 午夜精品久久99蜜桃| 亚洲成av人片在www| 欧美在线综合| 日韩一区二区中文字幕| 天天躁夜夜躁狠狠是什么心态| 亚洲人成亚洲精品| 久久AⅤ天堂Av无码AV| 99久久国内精品成人免费| 国产中文字幕乱人伦在线观看| 激情五月天伊人久久| 国产免费一区二区三区在线观看| 香港三级午夜理论三级| 久久久久久久性潮| 蜜桃在线观看免费高清完整版| 五月天中文字幕日韩在线| 又爽又黄又无遮挡网站动态图| 国产自产av一区二区三区性色| av免费一区二区久久| 天天躁日日躁狠狠躁欧美老妇|