亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于主題與語(yǔ)義的對(duì)話(huà)語(yǔ)料關(guān)鍵詞抽取方法

2018-12-13 09:06:00黃青松劉利軍李帥彬馮旭鵬

計(jì)算機(jī)應(yīng)用與軟件 2018年12期

胡遷黃青松，2 劉利軍* 李帥彬馮旭鵬

1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院云南昆明 650500)2(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室云南昆明 650500)3(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心云南昆明 650500)

0 引言

關(guān)鍵詞有助于提高文本分類(lèi)、信息檢索等自然語(yǔ)言處理任務(wù)的性能。近年來(lái)，隨著即時(shí)聊天、網(wǎng)購(gòu)咨詢(xún)、自動(dòng)問(wèn)答系統(tǒng)等社交網(wǎng)絡(luò)的迅猛發(fā)展，積累了大量的對(duì)話(huà)特性文檔，對(duì)話(huà)記錄隱含了人們聊天的情景和目的，反映了對(duì)話(huà)者的興趣。從對(duì)話(huà)中抽取關(guān)鍵詞可以用來(lái)總結(jié)、組織、檢索對(duì)話(huà)內(nèi)容，也可被用于用戶(hù)個(gè)人服務(wù)、廣告推薦等。相較于傳統(tǒng)長(zhǎng)文本，這類(lèi)數(shù)據(jù)具有對(duì)話(huà)性、短文本、結(jié)構(gòu)松散等特點(diǎn)，導(dǎo)致關(guān)鍵詞難以遴選[1]。因此，對(duì)話(huà)文本的特性給關(guān)鍵詞抽取帶來(lái)了挑戰(zhàn)和意義。

1 相關(guān)工作

傳統(tǒng)關(guān)鍵詞抽取主要集中在網(wǎng)頁(yè)檢索、科技文獻(xiàn)和文本文檔等領(lǐng)域，方法主要分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法采用人工標(biāo)注的關(guān)鍵詞文檔訓(xùn)練分類(lèi)器得到關(guān)鍵詞。Neuyen等[2]針對(duì)論文，利用論文的結(jié)構(gòu)信息、詞性、詞語(yǔ)后綴等特征，提高了關(guān)鍵詞分類(lèi)器性能。Meng等[3]基于神經(jīng)網(wǎng)絡(luò)的編碼解碼預(yù)測(cè)模型來(lái)生成關(guān)鍵詞，文中用循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力和重復(fù)機(jī)制來(lái)訓(xùn)練模型，模型解決以往方法只選擇文中出現(xiàn)的詞作為關(guān)鍵詞和不能捕獲文檔真正的語(yǔ)義含義的問(wèn)題。有監(jiān)督方法缺點(diǎn):需要標(biāo)注關(guān)鍵詞。無(wú)監(jiān)督方法主要計(jì)算詞的顯著性權(quán)值，然后排序推薦。Mihalcea等[4]提出基于圖的排序算法TextRank。該方法將文檔中詞的共現(xiàn)關(guān)系構(gòu)造詞匯圖，然后計(jì)算各個(gè)節(jié)點(diǎn)的權(quán)重得到關(guān)鍵詞。Liu等[5]從隱含主題的角度出發(fā),通過(guò)在Wikipedia語(yǔ)料上進(jìn)行主題模型訓(xùn)練，將候選詞與文檔的主題層相似度作為該詞的顯著性權(quán)值。在此基礎(chǔ)上,在偏置PageRank方法中引入隱含主題的權(quán)重,提出了Topic PageRank方法,該方法效果優(yōu)于只利用LDA的方法和基于TF-IDF的方法,這驗(yàn)證了在基于圖排序的關(guān)鍵短語(yǔ)抽取算法中引入文檔主題的可行性。文獻(xiàn)[6-7]計(jì)算詞語(yǔ)義相似度構(gòu)建詞匯鏈，然后結(jié)合詞頻或主題信息進(jìn)行關(guān)鍵詞抽取，但方法受到知識(shí)庫(kù)的限制。由于對(duì)話(huà)文本特點(diǎn)，采用傳統(tǒng)的關(guān)鍵詞抽取方法是否有效值得懷疑。

對(duì)話(huà)語(yǔ)料的關(guān)鍵詞抽取文獻(xiàn)研究較少。劉銘等[8]針對(duì)會(huì)議記錄，提出了兩種無(wú)監(jiān)督的關(guān)鍵詞抽取算法。在TF-IDF框架下，加入詞性過(guò)濾、詞聚類(lèi)和句子重要性得分提取關(guān)鍵詞。同時(shí)研究基于圖的迭代方法，分別考慮了詞與詞、詞與句子的圖類(lèi)型得到詞的權(quán)重，句子與句子、句子與詞的圖類(lèi)型得到句子的權(quán)重。實(shí)驗(yàn)結(jié)果表明簡(jiǎn)單的TFIDF方法優(yōu)于基于圖的方法，而且詞性的過(guò)濾和句子重要性得分有助于關(guān)鍵詞抽取。結(jié)果還表明基于共現(xiàn)詞聚類(lèi)的聚類(lèi)方法對(duì)結(jié)果沒(méi)有明顯幫助，因?yàn)楣铂F(xiàn)的聚類(lèi)沒(méi)有拾取詞的語(yǔ)義相似性。Song等[9]針對(duì)英語(yǔ)和韓語(yǔ)會(huì)議記錄提出了實(shí)時(shí)關(guān)鍵詞抽取方法，方法主要基于圖，考慮歷史句子中與當(dāng)前句子相關(guān)性，以及遺忘曲線(xiàn)跟新歷史句子生成的圖來(lái)得到當(dāng)前句子的關(guān)鍵詞。但圖邊權(quán)重利用是否在窗口中共現(xiàn)置為1或0，沒(méi)有考慮詞間的語(yǔ)義關(guān)系。Liu等[10]針對(duì)會(huì)議記錄提出一種有監(jiān)督的關(guān)鍵詞抽取方法，其考慮對(duì)話(huà)數(shù)據(jù)特點(diǎn)，利用最大熵分類(lèi)器決定某個(gè)一元詞是否為關(guān)鍵詞，同時(shí)考慮了二元詞的擴(kuò)展。缺點(diǎn)是需要標(biāo)注關(guān)鍵詞訓(xùn)練分類(lèi)器。對(duì)話(huà)語(yǔ)料中標(biāo)注好關(guān)鍵詞的文檔很匱乏。Chen等[11]針對(duì)課程講座語(yǔ)料提出了兩步法提取關(guān)鍵詞，首先利用PLSA模型計(jì)算候選詞語(yǔ)的主題一致性和重要性(TCS)，方法結(jié)合目標(biāo)文檔、按詞搜索的文檔和維基文檔綜合計(jì)算候選詞的TCS。其次，根據(jù)詞語(yǔ)的TCS排序，前M個(gè)作為正樣本，其他作為負(fù)樣本，然后結(jié)合詞的頻率、語(yǔ)義等特征訓(xùn)練SVM分類(lèi)器。Yeh等[12]利用語(yǔ)義分析分好主題類(lèi)文檔來(lái)訓(xùn)練LDA模型，實(shí)驗(yàn)表明LDA模型比SVM模型有更高的準(zhǔn)確率。訓(xùn)練模型時(shí)如何找辨識(shí)度高的詞是關(guān)鍵。PLas等[13]針對(duì)對(duì)話(huà)研究考慮語(yǔ)義，他們采用兩種詞典資源:EDR和WordNet來(lái)計(jì)算詞間的語(yǔ)義相似性抽取關(guān)鍵詞，并同時(shí)對(duì)比了兩種詞典的效果，但方法受詞典限制。Noh[14]根據(jù)詞語(yǔ)的維基百科語(yǔ)義信息，計(jì)算詞語(yǔ)與本句和全部句子的語(yǔ)義相似性，抽取與對(duì)話(huà)語(yǔ)義更相關(guān)的詞語(yǔ)。文獻(xiàn)[15]首先利用LSA獲取語(yǔ)義信息，然后對(duì)對(duì)話(huà)文本進(jìn)行分割，最后得到摘要。李天彩等[16]針對(duì)短文本信息流提出新的用戶(hù)建模方法。首先將用戶(hù)發(fā)表內(nèi)容合并，然后將內(nèi)容分割為固定長(zhǎng)度的詞鏈，在分割處添加用戶(hù)名構(gòu)造上下文關(guān)系，最后結(jié)合外部數(shù)據(jù)，使用Skip-gram模型進(jìn)行訓(xùn)練得到用戶(hù)的向量表示。將和用戶(hù)向量最相似的詞語(yǔ)作為用戶(hù)標(biāo)簽。房冠南[1]提出一種針對(duì)對(duì)話(huà)語(yǔ)料的自動(dòng)標(biāo)簽推薦方法，該方法在TF-IDF基礎(chǔ)上，考慮對(duì)話(huà)者權(quán)重(對(duì)話(huà)者說(shuō)出的句子數(shù)占整個(gè)對(duì)話(huà)包含句子的比重，對(duì)話(huà)者說(shuō)出的次數(shù)占整個(gè)對(duì)話(huà)包含詞數(shù)的比重，對(duì)話(huà)者說(shuō)出的實(shí)詞數(shù)占整個(gè)對(duì)話(huà)的實(shí)詞數(shù))、句子重要程度和句子長(zhǎng)度等因素，進(jìn)行關(guān)鍵詞抽取，然后通過(guò)規(guī)則擴(kuò)展二元關(guān)鍵詞，最后在同一尺度下排序得到top-n關(guān)鍵詞進(jìn)行標(biāo)簽推薦。方法實(shí)驗(yàn)證明了TFIDF，POS過(guò)濾、基于實(shí)詞的對(duì)話(huà)者權(quán)重、句子重要、句子長(zhǎng)度五種因素對(duì)關(guān)鍵詞抽取有用。同時(shí)文中指出所提方法的缺點(diǎn)是抽取關(guān)鍵詞僅僅考慮詞頻、未考慮詞的語(yǔ)義關(guān)聯(lián)。

綜上所述，本文所提方法聚焦語(yǔ)義和主題信息，結(jié)合詞語(yǔ)義聚類(lèi)、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞，簡(jiǎn)稱(chēng)KSeL方法。最后，TFIDF方法和KSel得到的關(guān)鍵詞作為節(jié)點(diǎn)，基于語(yǔ)義建立圖，通過(guò)圖迭代得到最終的關(guān)鍵詞，簡(jiǎn)稱(chēng)為GKSeL方法。

2 對(duì)話(huà)語(yǔ)料的標(biāo)簽生成方法

本文所提方法的流程圖如圖1所示。首先，對(duì)中文語(yǔ)料和對(duì)話(huà)語(yǔ)料進(jìn)行預(yù)處理、訓(xùn)練得到詞向量和主題模型。其次，計(jì)算給定文檔句子的主題相關(guān)度，詞與所有句子的相似度，得到詞與文檔語(yǔ)義相似度權(quán)重。然后，用詞的詞性權(quán)重、詞的語(yǔ)義相似度、詞語(yǔ)義聚類(lèi)權(quán)值結(jié)合得到基于語(yǔ)義方法(KSeL)的候選關(guān)鍵詞。最后，嘗試將KSeL所得關(guān)鍵詞與TFIDF關(guān)鍵詞利用基于圖的方法進(jìn)行混合篩選(簡(jiǎn)稱(chēng)GKSel方法)，期望結(jié)合語(yǔ)義和詞頻得到關(guān)鍵詞。

圖1 基于語(yǔ)義與主題的用戶(hù)標(biāo)簽生成方法

2.1 對(duì)話(huà)表示

對(duì)話(huà)語(yǔ)料含有很多語(yǔ)氣詞和符號(hào)，為了提高實(shí)驗(yàn)的效率和精度需要做分詞和去停用詞等預(yù)處理工作。為了方便理解，先給出文中所用的定義。

定義1(詞的向量表示)W={d1,d2,…,dn}，其中n表示詞的向量維度，每個(gè)詞的維度相同，di表示詞對(duì)應(yīng)i維上的值。

定義2(會(huì)話(huà)表示)DL={s1,s2,…,sm}，其中m表示對(duì)話(huà)中句子的個(gè)數(shù)，不同對(duì)話(huà)文本含有的句子的個(gè)數(shù)不一定相同，si表示文中第i個(gè)句子。

定義3(主題表示)T={t1,t2,…,tk}，其中ti表示組成主題的詞，k表示詞的個(gè)數(shù)，ti表示主題第i個(gè)詞。

定義4(句子表示)S={w1,w2,…,wm}，其中m表示句子的個(gè)數(shù)，不同句子含有詞的個(gè)數(shù)不一定相同，wi表示文中第i個(gè)詞。

2.2 句子的主題相似性權(quán)重

Yunseok Noh[14]闡述含有信息的語(yǔ)句很大程度上與主題相關(guān)，反之沒(méi)有信息的語(yǔ)句包含的詞多是無(wú)意義或習(xí)慣性詞語(yǔ)，文獻(xiàn)[8，17]都表明重要的句子通常包含關(guān)鍵詞，關(guān)鍵詞也經(jīng)常出現(xiàn)在重要句子中。因此考慮句子的主題權(quán)重，首先通過(guò)訓(xùn)練的主題模型得到給定對(duì)話(huà)文檔的主題T={t1,t2,…,tk}，然后,計(jì)算文檔中每個(gè)句子S={w1,w2,…,wm}與主題T的相似度。相似度WeightSi計(jì)算如下：

(1)

2.3 詞與句子的相似度

如果一個(gè)詞的語(yǔ)義與對(duì)話(huà)語(yǔ)句的語(yǔ)義越相似，則該詞越能夠代表該句子表示的語(yǔ)義信息，文獻(xiàn)[14]利用ESA表示詞的語(yǔ)義信息，然后基于此計(jì)算詞的局部權(quán)重和全局權(quán)重。由此，方法考慮詞語(yǔ)與文本中所有句子的相似，得到詞的全局相似值作為詞的語(yǔ)義權(quán)重。詞與句子的相似性WeightWi計(jì)算如下：

(2)

式中：w1代表候選關(guān)鍵詞，w2i代表含有m個(gè)詞的句子中的第i個(gè)詞。詞與句子相似度高，但句子與對(duì)話(huà)主題不相關(guān)，則詞不能很好地代表對(duì)話(huà)內(nèi)容。因此，考慮詞語(yǔ)與句子相似性的同時(shí)需要考慮句子的主題關(guān)聯(lián)性。句子與主題關(guān)聯(lián)性越高，則句子越能夠代表主題。最終得到候選關(guān)鍵詞的語(yǔ)義相似度值WDscore計(jì)算如下：

(3)

式中：m表示對(duì)話(huà)文本含有的句子的個(gè)數(shù)，WeightWi和WeightSi分別由式(1)-式(2)求得，即WeightSi代表句子i與主題的相似權(quán)重，WeightWi候選關(guān)鍵詞與句子i的語(yǔ)義相似度。

2.4 詞的語(yǔ)義聚類(lèi)重要度

對(duì)話(huà)過(guò)程中可能會(huì)反復(fù)提到某個(gè)詞來(lái)強(qiáng)調(diào)意圖，同時(shí)，會(huì)話(huà)可能用不同的詞代表相似的意思，對(duì)話(huà)所含詞語(yǔ)中，如果某幾個(gè)或多個(gè)詞語(yǔ)相似，至少說(shuō)明文本中涉及該類(lèi)信息。所以本文方法根據(jù)詞的語(yǔ)義相似度進(jìn)行聚類(lèi)，根據(jù)得到的類(lèi)中詞語(yǔ)的個(gè)數(shù)占文本總詞數(shù)作為該類(lèi)詞的語(yǔ)義聚類(lèi)權(quán)重。本文采用文獻(xiàn)[18]中的快速聚類(lèi)方法，該方法假設(shè)聚類(lèi)中心周?chē)际敲芏缺绕涞偷狞c(diǎn)，同時(shí)類(lèi)中這些點(diǎn)距離該聚類(lèi)中心的距離相比于其他聚類(lèi)中心最近，對(duì)于每個(gè)數(shù)據(jù)點(diǎn)i，需要計(jì)算兩個(gè)量：局部密度ρi和高于i點(diǎn)密度的最小距離δi。

局部密度定義如下：

(4)

當(dāng)χ<0時(shí)；χ(x)=1，否則等于0。這里dc是一個(gè)截?cái)嗑嚯x，這里選擇比較魯棒性，因此算法中dc定義為文中所有點(diǎn)的相互距離由小到大排列占總數(shù)2%的位置的詞間距離。最小距離定義如下：

(5)

比i點(diǎn)密度高的所有點(diǎn)中，與i點(diǎn)距離最近的點(diǎn)的距離表示為δi，對(duì)于最大密度的點(diǎn)其δi為所有點(diǎn)之間距離的最大值。然后給定兩δmin和ρmin，同時(shí)大于這兩個(gè)數(shù)的點(diǎn)作為聚類(lèi)中心點(diǎn)。確定聚類(lèi)中心后，剩下的點(diǎn)的標(biāo)簽按照以下原則分配：當(dāng)前點(diǎn)的類(lèi)別標(biāo)簽和高于當(dāng)前點(diǎn)密度的最近點(diǎn)的標(biāo)簽一致。據(jù)此得到候選詞w的聚類(lèi)權(quán)重ClusterW如下：

(6)

式中：num1是候選詞所屬類(lèi)中詞語(yǔ)的數(shù)目，num是所有候選詞數(shù)目，同一聚類(lèi)中所有詞擁有相同的語(yǔ)義聚類(lèi)重要度。

2.5 詞性權(quán)重

文獻(xiàn)[1,8,10]通過(guò)詞性過(guò)濾只保留動(dòng)詞、名詞、形容詞作為候選詞，其實(shí)驗(yàn)表明這種過(guò)濾對(duì)關(guān)鍵詞抽取有幫助，所以，方法考慮詞性的權(quán)重PosWeight，采用文獻(xiàn)[19]中定義的不同詞性的權(quán)重值，如：動(dòng)詞為0.3，形容詞為0.5，副詞為0.3，名詞為0.8等，其他詞性重要度請(qǐng)參考文獻(xiàn)。

本文方法考慮詞性權(quán)重、詞語(yǔ)義聚類(lèi)權(quán)重(得分)、詞的語(yǔ)義相似度權(quán)重(得分)，最終得到詞權(quán)重Wscore計(jì)算如下：

Wscore=PosWeight×(ClusterW+WDscore)

(7)

上文公式中詞間距distance()和dij采用余弦距離公式，根據(jù)文獻(xiàn)[20]詞語(yǔ)可以由一堆實(shí)數(shù)的向量形式表示語(yǔ)義信息，本文詞向量采用Skip-gram方法得到，如W1{x1,x2,…,xn}，W2{x1,x2,…,xn}，則詞間距離計(jì)算公式如下：

(8)

2.6 基于圖的篩選

文獻(xiàn)[8]的實(shí)驗(yàn)結(jié)果表明基于TF-IDF方法抽取關(guān)鍵詞優(yōu)于基于圖的方法，圖中邊權(quán)重主要考慮TF-IDF。本文主要考慮語(yǔ)義抽取關(guān)鍵詞。但是，因?yàn)槿藗儗?duì)關(guān)鍵詞理解有不同的認(rèn)知，基于語(yǔ)義的關(guān)鍵詞概括性可能不如基于頻率抽取的關(guān)鍵詞，反之依然。所以，考慮將兩種方法的抽取的關(guān)鍵詞混合，然后基于圖的迭代計(jì)算詞的權(quán)重，最后選出TopN個(gè)詞，期望能綜合利用到詞的語(yǔ)義和頻率信息。

本文中用G=(V,E)代表混合候選詞語(yǔ)構(gòu)成的圖，V代表詞語(yǔ)節(jié)點(diǎn)，E是邊的集合，對(duì)于每個(gè)節(jié)點(diǎn)vi，In(vi)代表指向它的節(jié)點(diǎn)集合，Out(vi)代表節(jié)點(diǎn)vi指向的節(jié)點(diǎn)集合。權(quán)重Wij代表節(jié)點(diǎn)間邊的權(quán)重。Wij計(jì)算如下：

(9)

distance(vi,vj)由式(8)得到，Wij為0表示兩詞無(wú)邊鏈接，節(jié)點(diǎn)vi的最終權(quán)重計(jì)算公式如下所示:

(10)

式中：d取0.85。S(Vi)的初始值定義為：如果該點(diǎn)的詞語(yǔ)同時(shí)出現(xiàn)在TF-IDF和所提方法中為2，否則為1。權(quán)重計(jì)算是個(gè)迭代過(guò)程，直至收斂或達(dá)到一定迭代次數(shù)停止，最后選取權(quán)重最高的N個(gè)詞。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)自訪(fǎng)談節(jié)目的對(duì)話(huà)，試驗(yàn)前對(duì)語(yǔ)料進(jìn)行分詞、去停用、清洗特殊符號(hào)等預(yù)處理工作，盡可能地使其包含一個(gè)主題。我們招募了8名學(xué)生進(jìn)行人工標(biāo)注，兩人一組標(biāo)注相同的對(duì)話(huà)，共標(biāo)注了1 000個(gè)對(duì)話(huà)，每個(gè)人的對(duì)話(huà)標(biāo)注的標(biāo)簽不少于5個(gè)，標(biāo)注者可以任意選擇他們認(rèn)為重要的詞作為關(guān)鍵詞。

訪(fǎng)談對(duì)話(huà)示例如圖2所示。

圖2 訪(fǎng)談對(duì)話(huà)示例

人工標(biāo)注對(duì)話(huà)的例子如表1所示。

表1 對(duì)話(huà)標(biāo)注例子

不同的標(biāo)注者看待問(wèn)題的角度不同，所以對(duì)于詞的重要程度的認(rèn)識(shí)也不相同，導(dǎo)致標(biāo)注的關(guān)鍵詞不一致。我們抽樣200個(gè)對(duì)話(huà)來(lái)計(jì)算不同標(biāo)注者的一致性，人工標(biāo)注分析采用嚴(yán)格匹配的方式，兩個(gè)標(biāo)注者對(duì)于同一對(duì)話(huà)的一致率是32%。

3.2 實(shí)驗(yàn)結(jié)果分析

為了比較算法的性能，我們使用TFIDF和基于圖的TextRank方法作為對(duì)比方法。表2中列出了針對(duì)同一段對(duì)話(huà)，四種方法抽取的關(guān)鍵詞示例。

表2 不同方法關(guān)鍵詞抽取結(jié)果

根據(jù)抽取關(guān)鍵詞結(jié)果比較，KSeL闡述的對(duì)話(huà)主題更完善，TFIDF的闡述缺少主題，表達(dá)不夠清楚，KSeL和TFIDF同時(shí)出現(xiàn)了“錢(qián)”和“房子”兩個(gè)關(guān)鍵詞，說(shuō)明對(duì)話(huà)很大程度上與房子和錢(qián)有關(guān)，TFIDF可以理解演員之間買(mǎi)賣(mài)房子等，KSeL可以理解為魯豫王凱倆人討論畢業(yè)和房子的故事，同時(shí)牽涉錢(qián)的問(wèn)題，對(duì)原話(huà)表達(dá)更全面清楚。TextRank和KSeL比較抽取結(jié)果雖然很多相似，但結(jié)合原對(duì)話(huà)分析，TextRank缺少了“畢業(yè)”、“坎兒”、“日子”等描述生活狀態(tài)的詞，多了一些“覺(jué)得”、“沒(méi)有”、“想到”等模糊詞語(yǔ)。GKSeL是由TFIDF和KSeL得到，可以看出IFIDF方法中“借錢(qián)”、“供”、“月”排到了前面，表達(dá)了“房子”，“月供”，“借錢(qián)”，“坎兒”的連貫性，與KSeL相比描述的信息更具體深入。

本文采用兩種評(píng)價(jià)方法的性能，第一種采用文獻(xiàn)[1]中的自動(dòng)評(píng)價(jià)方法，如下所示:

Top-K準(zhǔn)確率：k個(gè)抽取關(guān)鍵詞中至少有一個(gè)正確的文檔占全部的關(guān)鍵詞比例。

精確度：抽取的正確關(guān)鍵詞占所有抽取的關(guān)鍵詞的比率。

準(zhǔn)確率：抽取的正確關(guān)鍵詞占人工標(biāo)注關(guān)鍵詞的比例(召回率)。

圖3顯示了三種方法的Top-K，精確度和準(zhǔn)確率。從圖3(a)中可以看出,GKSeL在top-1時(shí)的準(zhǔn)確率達(dá)到了48.23%,TextRank和TFIDF準(zhǔn)確率分別為39.35%和43.32%,隨著標(biāo)簽個(gè)數(shù)的增加,Top-K準(zhǔn)確率的性能有所提高;從圖中看出,方法GKSeL對(duì)于5個(gè)關(guān)鍵詞的準(zhǔn)確率達(dá)到75.12%。圖3(b)顯示了關(guān)鍵詞個(gè)數(shù)從1增加到5時(shí)，精確度隨關(guān)鍵詞個(gè)數(shù)變化,GKSeL最高精確度48.56%。顯示了召回率的變化情況，隨著關(guān)鍵詞個(gè)數(shù)的增加GKSeL的召回率不斷增加，最低召回率為21%。從圖中得出方法的性能優(yōu)于TFIDF和TextRank。

(a) Top-K準(zhǔn)確率

(b) 精確度-召回率圖3 不同方法在對(duì)話(huà)數(shù)據(jù)上的性能

第二種方法采用文獻(xiàn)[1,8]拒絕率評(píng)價(jià)，拒絕率代表有多少抽取的關(guān)鍵詞是不可以被人接受的。由于人工標(biāo)注的不一致性，我們需要質(zhì)疑，Top-K等是否適合用來(lái)評(píng)價(jià)抽取關(guān)鍵詞方法的性能。所以本文在少量語(yǔ)料上，采用拒絕率進(jìn)行人工評(píng)測(cè)。我們選取100個(gè)對(duì)話(huà)，給2個(gè)人提供方法抽取的關(guān)鍵詞，并讓其標(biāo)注不能反映對(duì)話(huà)內(nèi)容的關(guān)鍵詞，然后測(cè)量出每個(gè)標(biāo)注者和方法的拒絕率。結(jié)果如表3所示。

表3 不同方法人工拒絕率

從表3中，可以看出，人工標(biāo)注的拒絕率最低，因?yàn)槿四軌蚋宄乩斫鈱?duì)話(huà)內(nèi)容，但不同的人具有不同的出發(fā)點(diǎn)，所以拒絕率不同，但符合預(yù)期。GKSel的人工拒絕率低于TFIDF和TextRank方法，人工拒絕率的測(cè)評(píng)結(jié)果同樣證明了我們所提方法的有效性。

4 結(jié) 語(yǔ)

本文提出了一種面向中文對(duì)話(huà)語(yǔ)料的自動(dòng)關(guān)鍵詞抽取方法。該方法利用語(yǔ)義和主題信息，結(jié)合詞的語(yǔ)義聚類(lèi)、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞。最后，結(jié)合TFIDF方法得到的關(guān)鍵詞建立以詞為節(jié)點(diǎn)的圖，基于圖迭代方法得到最終關(guān)鍵詞。方法考慮語(yǔ)義基礎(chǔ)上兼顧頻率，同時(shí)利用自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)檢驗(yàn)方法的性能。實(shí)驗(yàn)結(jié)果顯示，所提方法優(yōu)于TFIDF和TextRank方法，證明了本文所提方法的有效性。

本文從實(shí)驗(yàn)數(shù)據(jù)上說(shuō)明了方法的可行性，但人工標(biāo)注的不一致性和抽取關(guān)鍵詞的準(zhǔn)確率有很大關(guān)系。另一方面，所抽取的詞仍然比較單一，雖然文獻(xiàn)[1，10]考慮了二元擴(kuò)展，但基于模板，比較簡(jiǎn)單。未來(lái)希望可以結(jié)合神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)義的優(yōu)點(diǎn)來(lái)得到文中未出現(xiàn)詞且符合人們習(xí)慣的詞語(yǔ)。因此，未來(lái)將考慮未現(xiàn)詞和短語(yǔ)方面的研究。