亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主題與語(yǔ)義的對(duì)話(huà)語(yǔ)料關(guān)鍵詞抽取方法

        2018-12-13 09:06:00黃青松劉利軍李帥彬馮旭鵬
        關(guān)鍵詞:語(yǔ)料語(yǔ)義權(quán)重

        胡 遷 黃青松,2 劉利軍* 李帥彬 馮旭鵬

        1(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院 云南 昆明 650500)2(昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室 云南 昆明 650500)3(昆明理工大學(xué)教育技術(shù)與網(wǎng)絡(luò)中心 云南 昆明 650500)

        0 引 言

        關(guān)鍵詞有助于提高文本分類(lèi)、信息檢索等自然語(yǔ)言處理任務(wù)的性能。近年來(lái),隨著即時(shí)聊天、網(wǎng)購(gòu)咨詢(xún)、自動(dòng)問(wèn)答系統(tǒng)等社交網(wǎng)絡(luò)的迅猛發(fā)展,積累了大量的對(duì)話(huà)特性文檔,對(duì)話(huà)記錄隱含了人們聊天的情景和目的,反映了對(duì)話(huà)者的興趣。從對(duì)話(huà)中抽取關(guān)鍵詞可以用來(lái)總結(jié)、組織、檢索對(duì)話(huà)內(nèi)容,也可被用于用戶(hù)個(gè)人服務(wù)、廣告推薦等。相較于傳統(tǒng)長(zhǎng)文本,這類(lèi)數(shù)據(jù)具有對(duì)話(huà)性、短文本、結(jié)構(gòu)松散等特點(diǎn),導(dǎo)致關(guān)鍵詞難以遴選[1]。因此,對(duì)話(huà)文本的特性給關(guān)鍵詞抽取帶來(lái)了挑戰(zhàn)和意義。

        1 相關(guān)工作

        傳統(tǒng)關(guān)鍵詞抽取主要集中在網(wǎng)頁(yè)檢索、科技文獻(xiàn)和文本文檔等領(lǐng)域,方法主要分為有監(jiān)督方法和無(wú)監(jiān)督方法。有監(jiān)督方法采用人工標(biāo)注的關(guān)鍵詞文檔訓(xùn)練分類(lèi)器得到關(guān)鍵詞。Neuyen等[2]針對(duì)論文,利用論文的結(jié)構(gòu)信息、詞性、詞語(yǔ)后綴等特征,提高了關(guān)鍵詞分類(lèi)器性能。Meng等[3]基于神經(jīng)網(wǎng)絡(luò)的編碼解碼預(yù)測(cè)模型來(lái)生成關(guān)鍵詞,文中用循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)合注意力和重復(fù)機(jī)制來(lái)訓(xùn)練模型,模型解決以往方法只選擇文中出現(xiàn)的詞作為關(guān)鍵詞和不能捕獲文檔真正的語(yǔ)義含義的問(wèn)題。有監(jiān)督方法缺點(diǎn):需要標(biāo)注關(guān)鍵詞。無(wú)監(jiān)督方法主要計(jì)算詞的顯著性權(quán)值,然后排序推薦。Mihalcea等[4]提出基于圖的排序算法TextRank。該方法將文檔中詞的共現(xiàn)關(guān)系構(gòu)造詞匯圖,然后計(jì)算各個(gè)節(jié)點(diǎn)的權(quán)重得到關(guān)鍵詞。Liu等[5]從隱含主題的角度出發(fā),通過(guò)在Wikipedia語(yǔ)料上進(jìn)行主題模型訓(xùn)練,將候選詞與文檔的主題層相似度作為該詞的顯著性權(quán)值。在此基礎(chǔ)上,在偏置PageRank方法中引入隱含主題的權(quán)重,提出了Topic PageRank方法,該方法效果優(yōu)于只利用LDA的方法和基于TF-IDF的方法,這驗(yàn)證了在基于圖排序的關(guān)鍵短語(yǔ)抽取算法中引入文檔主題的可行性。文獻(xiàn)[6-7]計(jì)算詞語(yǔ)義相似度構(gòu)建詞匯鏈,然后結(jié)合詞頻或主題信息進(jìn)行關(guān)鍵詞抽取,但方法受到知識(shí)庫(kù)的限制。由于對(duì)話(huà)文本特點(diǎn),采用傳統(tǒng)的關(guān)鍵詞抽取方法是否有效值得懷疑。

        對(duì)話(huà)語(yǔ)料的關(guān)鍵詞抽取文獻(xiàn)研究較少。劉銘等[8]針對(duì)會(huì)議記錄,提出了兩種無(wú)監(jiān)督的關(guān)鍵詞抽取算法。在TF-IDF框架下,加入詞性過(guò)濾、詞聚類(lèi)和句子重要性得分提取關(guān)鍵詞。同時(shí)研究基于圖的迭代方法,分別考慮了詞與詞、詞與句子的圖類(lèi)型得到詞的權(quán)重,句子與句子、句子與詞的圖類(lèi)型得到句子的權(quán)重。實(shí)驗(yàn)結(jié)果表明簡(jiǎn)單的TFIDF方法優(yōu)于基于圖的方法,而且詞性的過(guò)濾和句子重要性得分有助于關(guān)鍵詞抽取。結(jié)果還表明基于共現(xiàn)詞聚類(lèi)的聚類(lèi)方法對(duì)結(jié)果沒(méi)有明顯幫助,因?yàn)楣铂F(xiàn)的聚類(lèi)沒(méi)有拾取詞的語(yǔ)義相似性。Song等[9]針對(duì)英語(yǔ)和韓語(yǔ)會(huì)議記錄提出了實(shí)時(shí)關(guān)鍵詞抽取方法,方法主要基于圖,考慮歷史句子中與當(dāng)前句子相關(guān)性,以及遺忘曲線(xiàn)跟新歷史句子生成的圖來(lái)得到當(dāng)前句子的關(guān)鍵詞。但圖邊權(quán)重利用是否在窗口中共現(xiàn)置為1或0,沒(méi)有考慮詞間的語(yǔ)義關(guān)系。Liu等[10]針對(duì)會(huì)議記錄提出一種有監(jiān)督的關(guān)鍵詞抽取方法,其考慮對(duì)話(huà)數(shù)據(jù)特點(diǎn),利用最大熵分類(lèi)器決定某個(gè)一元詞是否為關(guān)鍵詞,同時(shí)考慮了二元詞的擴(kuò)展。缺點(diǎn)是需要標(biāo)注關(guān)鍵詞訓(xùn)練分類(lèi)器。對(duì)話(huà)語(yǔ)料中標(biāo)注好關(guān)鍵詞的文檔很匱乏。Chen等[11]針對(duì)課程講座語(yǔ)料提出了兩步法提取關(guān)鍵詞,首先利用PLSA模型計(jì)算候選詞語(yǔ)的主題一致性和重要性(TCS),方法結(jié)合目標(biāo)文檔、按詞搜索的文檔和維基文檔綜合計(jì)算候選詞的TCS。其次,根據(jù)詞語(yǔ)的TCS排序,前M個(gè)作為正樣本,其他作為負(fù)樣本,然后結(jié)合詞的頻率、語(yǔ)義等特征訓(xùn)練SVM分類(lèi)器。Yeh等[12]利用語(yǔ)義分析分好主題類(lèi)文檔來(lái)訓(xùn)練LDA模型,實(shí)驗(yàn)表明LDA模型比SVM模型有更高的準(zhǔn)確率。訓(xùn)練模型時(shí)如何找辨識(shí)度高的詞是關(guān)鍵。PLas等[13]針對(duì)對(duì)話(huà)研究考慮語(yǔ)義,他們采用兩種詞典資源:EDR和WordNet來(lái)計(jì)算詞間的語(yǔ)義相似性抽取關(guān)鍵詞,并同時(shí)對(duì)比了兩種詞典的效果,但方法受詞典限制。Noh[14]根據(jù)詞語(yǔ)的維基百科語(yǔ)義信息,計(jì)算詞語(yǔ)與本句和全部句子的語(yǔ)義相似性,抽取與對(duì)話(huà)語(yǔ)義更相關(guān)的詞語(yǔ)。文獻(xiàn)[15]首先利用LSA獲取語(yǔ)義信息,然后對(duì)對(duì)話(huà)文本進(jìn)行分割,最后得到摘要。李天彩等[16]針對(duì)短文本信息流提出新的用戶(hù)建模方法。首先將用戶(hù)發(fā)表內(nèi)容合并,然后將內(nèi)容分割為固定長(zhǎng)度的詞鏈,在分割處添加用戶(hù)名構(gòu)造上下文關(guān)系,最后結(jié)合外部數(shù)據(jù),使用Skip-gram模型進(jìn)行訓(xùn)練得到用戶(hù)的向量表示。將和用戶(hù)向量最相似的詞語(yǔ)作為用戶(hù)標(biāo)簽。房冠南[1]提出一種針對(duì)對(duì)話(huà)語(yǔ)料的自動(dòng)標(biāo)簽推薦方法,該方法在TF-IDF基礎(chǔ)上,考慮對(duì)話(huà)者權(quán)重(對(duì)話(huà)者說(shuō)出的句子數(shù)占整個(gè)對(duì)話(huà)包含句子的比重,對(duì)話(huà)者說(shuō)出的次數(shù)占整個(gè)對(duì)話(huà)包含詞數(shù)的比重,對(duì)話(huà)者說(shuō)出的實(shí)詞數(shù)占整個(gè)對(duì)話(huà)的實(shí)詞數(shù))、句子重要程度和句子長(zhǎng)度等因素,進(jìn)行關(guān)鍵詞抽取,然后通過(guò)規(guī)則擴(kuò)展二元關(guān)鍵詞,最后在同一尺度下排序得到top-n關(guān)鍵詞進(jìn)行標(biāo)簽推薦。方法實(shí)驗(yàn)證明了TFIDF,POS過(guò)濾、基于實(shí)詞的對(duì)話(huà)者權(quán)重、句子重要、句子長(zhǎng)度五種因素對(duì)關(guān)鍵詞抽取有用。同時(shí)文中指出所提方法的缺點(diǎn)是抽取關(guān)鍵詞僅僅考慮詞頻、未考慮詞的語(yǔ)義關(guān)聯(lián)。

        綜上所述,本文所提方法聚焦語(yǔ)義和主題信息,結(jié)合詞語(yǔ)義聚類(lèi)、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞,簡(jiǎn)稱(chēng)KSeL方法。最后,TFIDF方法和KSel得到的關(guān)鍵詞作為節(jié)點(diǎn),基于語(yǔ)義建立圖,通過(guò)圖迭代得到最終的關(guān)鍵詞,簡(jiǎn)稱(chēng)為GKSeL方法。

        2 對(duì)話(huà)語(yǔ)料的標(biāo)簽生成方法

        本文所提方法的流程圖如圖1所示。首先,對(duì)中文語(yǔ)料和對(duì)話(huà)語(yǔ)料進(jìn)行預(yù)處理、訓(xùn)練得到詞向量和主題模型。其次,計(jì)算給定文檔句子的主題相關(guān)度,詞與所有句子的相似度,得到詞與文檔語(yǔ)義相似度權(quán)重。然后,用詞的詞性權(quán)重、詞的語(yǔ)義相似度、詞語(yǔ)義聚類(lèi)權(quán)值結(jié)合得到基于語(yǔ)義方法(KSeL)的候選關(guān)鍵詞。最后,嘗試將KSeL所得關(guān)鍵詞與TFIDF關(guān)鍵詞利用基于圖的方法進(jìn)行混合篩選(簡(jiǎn)稱(chēng)GKSel方法),期望結(jié)合語(yǔ)義和詞頻得到關(guān)鍵詞。

        圖1 基于語(yǔ)義與主題的用戶(hù)標(biāo)簽生成方法

        2.1 對(duì)話(huà)表示

        對(duì)話(huà)語(yǔ)料含有很多語(yǔ)氣詞和符號(hào),為了提高實(shí)驗(yàn)的效率和精度需要做分詞和去停用詞等預(yù)處理工作。為了方便理解,先給出文中所用的定義。

        定義1(詞的向量表示)W={d1,d2,…,dn},其中n表示詞的向量維度,每個(gè)詞的維度相同,di表示詞對(duì)應(yīng)i維上的值。

        定義2(會(huì)話(huà)表示)DL={s1,s2,…,sm},其中m表示對(duì)話(huà)中句子的個(gè)數(shù),不同對(duì)話(huà)文本含有的句子的個(gè)數(shù)不一定相同,si表示文中第i個(gè)句子。

        定義3(主題表示)T={t1,t2,…,tk},其中ti表示組成主題的詞,k表示詞的個(gè)數(shù),ti表示主題第i個(gè)詞。

        定義4(句子表示)S={w1,w2,…,wm},其中m表示句子的個(gè)數(shù),不同句子含有詞的個(gè)數(shù)不一定相同,wi表示文中第i個(gè)詞。

        2.2 句子的主題相似性權(quán)重

        Yunseok Noh[14]闡述含有信息的語(yǔ)句很大程度上與主題相關(guān),反之沒(méi)有信息的語(yǔ)句包含的詞多是無(wú)意義或習(xí)慣性詞語(yǔ),文獻(xiàn)[8,17]都表明重要的句子通常包含關(guān)鍵詞,關(guān)鍵詞也經(jīng)常出現(xiàn)在重要句子中。因此考慮句子的主題權(quán)重,首先通過(guò)訓(xùn)練的主題模型得到給定對(duì)話(huà)文檔的主題T={t1,t2,…,tk},然后,計(jì)算文檔中每個(gè)句子S={w1,w2,…,wm}與主題T的相似度。相似度WeightSi計(jì)算如下:

        (1)

        2.3 詞與句子的相似度

        如果一個(gè)詞的語(yǔ)義與對(duì)話(huà)語(yǔ)句的語(yǔ)義越相似,則該詞越能夠代表該句子表示的語(yǔ)義信息,文獻(xiàn)[14]利用ESA表示詞的語(yǔ)義信息,然后基于此計(jì)算詞的局部權(quán)重和全局權(quán)重。由此,方法考慮詞語(yǔ)與文本中所有句子的相似,得到詞的全局相似值作為詞的語(yǔ)義權(quán)重。詞與句子的相似性WeightWi計(jì)算如下:

        (2)

        式中:w1代表候選關(guān)鍵詞,w2i代表含有m個(gè)詞的句子中的第i個(gè)詞。詞與句子相似度高,但句子與對(duì)話(huà)主題不相關(guān),則詞不能很好地代表對(duì)話(huà)內(nèi)容。因此,考慮詞語(yǔ)與句子相似性的同時(shí)需要考慮句子的主題關(guān)聯(lián)性。句子與主題關(guān)聯(lián)性越高,則句子越能夠代表主題。最終得到候選關(guān)鍵詞的語(yǔ)義相似度值WDscore計(jì)算如下:

        (3)

        式中:m表示對(duì)話(huà)文本含有的句子的個(gè)數(shù),WeightWi和WeightSi分別由式(1)-式(2)求得,即WeightSi代表句子i與主題的相似權(quán)重,WeightWi候選關(guān)鍵詞與句子i的語(yǔ)義相似度。

        2.4 詞的語(yǔ)義聚類(lèi)重要度

        對(duì)話(huà)過(guò)程中可能會(huì)反復(fù)提到某個(gè)詞來(lái)強(qiáng)調(diào)意圖,同時(shí),會(huì)話(huà)可能用不同的詞代表相似的意思,對(duì)話(huà)所含詞語(yǔ)中,如果某幾個(gè)或多個(gè)詞語(yǔ)相似,至少說(shuō)明文本中涉及該類(lèi)信息。所以本文方法根據(jù)詞的語(yǔ)義相似度進(jìn)行聚類(lèi),根據(jù)得到的類(lèi)中詞語(yǔ)的個(gè)數(shù)占文本總詞數(shù)作為該類(lèi)詞的語(yǔ)義聚類(lèi)權(quán)重。本文采用文獻(xiàn)[18]中的快速聚類(lèi)方法,該方法假設(shè)聚類(lèi)中心周?chē)际敲芏缺绕涞偷狞c(diǎn),同時(shí)類(lèi)中這些點(diǎn)距離該聚類(lèi)中心的距離相比于其他聚類(lèi)中心最近,對(duì)于每個(gè)數(shù)據(jù)點(diǎn)i,需要計(jì)算兩個(gè)量:局部密度ρi和高于i點(diǎn)密度的最小距離δi。

        局部密度定義如下:

        (4)

        當(dāng)χ<0時(shí);χ(x)=1,否則等于0。這里dc是一個(gè)截?cái)嗑嚯x,這里選擇比較魯棒性,因此算法中dc定義為文中所有點(diǎn)的相互距離由小到大排列占總數(shù)2%的位置的詞間距離。最小距離定義如下:

        (5)

        比i點(diǎn)密度高的所有點(diǎn)中,與i點(diǎn)距離最近的點(diǎn)的距離表示為δi,對(duì)于最大密度的點(diǎn)其δi為所有點(diǎn)之間距離的最大值。然后給定兩δmin和ρmin,同時(shí)大于這兩個(gè)數(shù)的點(diǎn)作為聚類(lèi)中心點(diǎn)。確定聚類(lèi)中心后,剩下的點(diǎn)的標(biāo)簽按照以下原則分配:當(dāng)前點(diǎn)的類(lèi)別標(biāo)簽和高于當(dāng)前點(diǎn)密度的最近點(diǎn)的標(biāo)簽一致。據(jù)此得到候選詞w的聚類(lèi)權(quán)重ClusterW如下:

        (6)

        式中:num1是候選詞所屬類(lèi)中詞語(yǔ)的數(shù)目,num是所有候選詞數(shù)目,同一聚類(lèi)中所有詞擁有相同的語(yǔ)義聚類(lèi)重要度。

        2.5 詞性權(quán)重

        文獻(xiàn)[1,8,10]通過(guò)詞性過(guò)濾只保留動(dòng)詞、名詞、形容詞作為候選詞,其實(shí)驗(yàn)表明這種過(guò)濾對(duì)關(guān)鍵詞抽取有幫助,所以,方法考慮詞性的權(quán)重PosWeight,采用文獻(xiàn)[19]中定義的不同詞性的權(quán)重值,如:動(dòng)詞為0.3,形容詞為0.5,副詞為0.3,名詞為0.8等,其他詞性重要度請(qǐng)參考文獻(xiàn)。

        本文方法考慮詞性權(quán)重、詞語(yǔ)義聚類(lèi)權(quán)重(得分)、詞的語(yǔ)義相似度權(quán)重(得分),最終得到詞權(quán)重Wscore計(jì)算如下:

        Wscore=PosWeight×(ClusterW+WDscore)

        (7)

        上文公式中詞間距distance()和dij采用余弦距離公式,根據(jù)文獻(xiàn)[20]詞語(yǔ)可以由一堆實(shí)數(shù)的向量形式表示語(yǔ)義信息,本文詞向量采用Skip-gram方法得到,如W1{x1,x2,…,xn},W2{x1,x2,…,xn},則詞間距離計(jì)算公式如下:

        (8)

        2.6 基于圖的篩選

        文獻(xiàn)[8]的實(shí)驗(yàn)結(jié)果表明基于TF-IDF方法抽取關(guān)鍵詞優(yōu)于基于圖的方法,圖中邊權(quán)重主要考慮TF-IDF。本文主要考慮語(yǔ)義抽取關(guān)鍵詞。但是,因?yàn)槿藗儗?duì)關(guān)鍵詞理解有不同的認(rèn)知,基于語(yǔ)義的關(guān)鍵詞概括性可能不如基于頻率抽取的關(guān)鍵詞,反之依然。所以,考慮將兩種方法的抽取的關(guān)鍵詞混合,然后基于圖的迭代計(jì)算詞的權(quán)重,最后選出TopN個(gè)詞,期望能綜合利用到詞的語(yǔ)義和頻率信息。

        本文中用G=(V,E)代表混合候選詞語(yǔ)構(gòu)成的圖,V代表詞語(yǔ)節(jié)點(diǎn),E是邊的集合,對(duì)于每個(gè)節(jié)點(diǎn)vi,In(vi)代表指向它的節(jié)點(diǎn)集合,Out(vi)代表節(jié)點(diǎn)vi指向的節(jié)點(diǎn)集合。權(quán)重Wij代表節(jié)點(diǎn)間邊的權(quán)重。Wij計(jì)算如下:

        (9)

        distance(vi,vj)由式(8)得到,Wij為0表示兩詞無(wú)邊鏈接,節(jié)點(diǎn)vi的最終權(quán)重計(jì)算公式如下所示:

        (10)

        式中:d取0.85。S(Vi)的初始值定義為:如果該點(diǎn)的詞語(yǔ)同時(shí)出現(xiàn)在TF-IDF和所提方法中為2,否則為1。權(quán)重計(jì)算是個(gè)迭代過(guò)程,直至收斂或達(dá)到一定迭代次數(shù)停止,最后選取權(quán)重最高的N個(gè)詞。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)和預(yù)處理

        實(shí)驗(yàn)使用的數(shù)據(jù)集來(lái)自訪(fǎng)談節(jié)目的對(duì)話(huà),試驗(yàn)前對(duì)語(yǔ)料進(jìn)行分詞、去停用、清洗特殊符號(hào)等預(yù)處理工作,盡可能地使其包含一個(gè)主題。我們招募了8名學(xué)生進(jìn)行人工標(biāo)注,兩人一組標(biāo)注相同的對(duì)話(huà),共標(biāo)注了1 000個(gè)對(duì)話(huà),每個(gè)人的對(duì)話(huà)標(biāo)注的標(biāo)簽不少于5個(gè),標(biāo)注者可以任意選擇他們認(rèn)為重要的詞作為關(guān)鍵詞。

        訪(fǎng)談對(duì)話(huà)示例如圖2所示。

        圖2 訪(fǎng)談對(duì)話(huà)示例

        人工標(biāo)注對(duì)話(huà)的例子如表1所示。

        表1 對(duì)話(huà)標(biāo)注例子

        不同的標(biāo)注者看待問(wèn)題的角度不同,所以對(duì)于詞的重要程度的認(rèn)識(shí)也不相同,導(dǎo)致標(biāo)注的關(guān)鍵詞不一致。我們抽樣200個(gè)對(duì)話(huà)來(lái)計(jì)算不同標(biāo)注者的一致性,人工標(biāo)注分析采用嚴(yán)格匹配的方式,兩個(gè)標(biāo)注者對(duì)于同一對(duì)話(huà)的一致率是32%。

        3.2 實(shí)驗(yàn)結(jié)果分析

        為了比較算法的性能,我們使用TFIDF和基于圖的TextRank方法作為對(duì)比方法。表2中列出了針對(duì)同一段對(duì)話(huà),四種方法抽取的關(guān)鍵詞示例。

        表2 不同方法關(guān)鍵詞抽取結(jié)果

        根據(jù)抽取關(guān)鍵詞結(jié)果比較,KSeL闡述的對(duì)話(huà)主題更完善,TFIDF的闡述缺少主題,表達(dá)不夠清楚,KSeL和TFIDF同時(shí)出現(xiàn)了“錢(qián)”和“房子”兩個(gè)關(guān)鍵詞,說(shuō)明對(duì)話(huà)很大程度上與房子和錢(qián)有關(guān),TFIDF可以理解演員之間買(mǎi)賣(mài)房子等,KSeL可以理解為魯豫王凱倆人討論畢業(yè)和房子的故事,同時(shí)牽涉錢(qián)的問(wèn)題,對(duì)原話(huà)表達(dá)更全面清楚。TextRank和KSeL比較抽取結(jié)果雖然很多相似,但結(jié)合原對(duì)話(huà)分析,TextRank缺少了“畢業(yè)”、“坎兒”、“日子”等描述生活狀態(tài)的詞,多了一些“覺(jué)得”、“沒(méi)有”、“想到”等模糊詞語(yǔ)。GKSeL是由TFIDF和KSeL得到,可以看出IFIDF方法中“借錢(qián)”、“供”、“月”排到了前面,表達(dá)了“房子”,“月供”,“借錢(qián)”,“坎兒”的連貫性,與KSeL相比描述的信息更具體深入。

        本文采用兩種評(píng)價(jià)方法的性能,第一種采用文獻(xiàn)[1]中的自動(dòng)評(píng)價(jià)方法,如下所示:

        Top-K準(zhǔn)確率:k個(gè)抽取關(guān)鍵詞中至少有一個(gè)正確的文檔占全部的關(guān)鍵詞比例。

        精確度:抽取的正確關(guān)鍵詞占所有抽取的關(guān)鍵詞的比率。

        準(zhǔn)確率:抽取的正確關(guān)鍵詞占人工標(biāo)注關(guān)鍵詞的比例(召回率)。

        圖3顯示了三種方法的Top-K,精確度和準(zhǔn)確率。從圖3(a)中可以看出,GKSeL在top-1時(shí)的準(zhǔn)確率達(dá)到了48.23%,TextRank和TFIDF準(zhǔn)確率分別為39.35%和43.32%,隨著標(biāo)簽個(gè)數(shù)的增加,Top-K準(zhǔn)確率的性能有所提高;從圖中看出,方法GKSeL對(duì)于5個(gè)關(guān)鍵詞的準(zhǔn)確率達(dá)到75.12%。圖3(b)顯示了關(guān)鍵詞個(gè)數(shù)從1增加到5時(shí),精確度隨關(guān)鍵詞個(gè)數(shù)變化,GKSeL最高精確度48.56%。顯示了召回率的變化情況,隨著關(guān)鍵詞個(gè)數(shù)的增加GKSeL的召回率不斷增加,最低召回率為21%。從圖中得出方法的性能優(yōu)于TFIDF和TextRank。

        (a) Top-K準(zhǔn)確率

        (b) 精確度-召回率圖3 不同方法在對(duì)話(huà)數(shù)據(jù)上的性能

        第二種方法采用文獻(xiàn)[1,8]拒絕率評(píng)價(jià),拒絕率代表有多少抽取的關(guān)鍵詞是不可以被人接受的。由于人工標(biāo)注的不一致性,我們需要質(zhì)疑,Top-K等是否適合用來(lái)評(píng)價(jià)抽取關(guān)鍵詞方法的性能。所以本文在少量語(yǔ)料上,采用拒絕率進(jìn)行人工評(píng)測(cè)。我們選取100個(gè)對(duì)話(huà),給2個(gè)人提供方法抽取的關(guān)鍵詞,并讓其標(biāo)注不能反映對(duì)話(huà)內(nèi)容的關(guān)鍵詞,然后測(cè)量出每個(gè)標(biāo)注者和方法的拒絕率。結(jié)果如表3所示。

        表3 不同方法人工拒絕率

        從表3中,可以看出,人工標(biāo)注的拒絕率最低,因?yàn)槿四軌蚋宄乩斫鈱?duì)話(huà)內(nèi)容,但不同的人具有不同的出發(fā)點(diǎn),所以拒絕率不同,但符合預(yù)期。GKSel的人工拒絕率低于TFIDF和TextRank方法,人工拒絕率的測(cè)評(píng)結(jié)果同樣證明了我們所提方法的有效性。

        4 結(jié) 語(yǔ)

        本文提出了一種面向中文對(duì)話(huà)語(yǔ)料的自動(dòng)關(guān)鍵詞抽取方法。該方法利用語(yǔ)義和主題信息,結(jié)合詞的語(yǔ)義聚類(lèi)、詞性權(quán)重、句子主題相關(guān)性等多權(quán)重來(lái)抽取關(guān)鍵詞。最后,結(jié)合TFIDF方法得到的關(guān)鍵詞建立以詞為節(jié)點(diǎn)的圖,基于圖迭代方法得到最終關(guān)鍵詞。方法考慮語(yǔ)義基礎(chǔ)上兼顧頻率,同時(shí)利用自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)檢驗(yàn)方法的性能。實(shí)驗(yàn)結(jié)果顯示,所提方法優(yōu)于TFIDF和TextRank方法,證明了本文所提方法的有效性。

        本文從實(shí)驗(yàn)數(shù)據(jù)上說(shuō)明了方法的可行性,但人工標(biāo)注的不一致性和抽取關(guān)鍵詞的準(zhǔn)確率有很大關(guān)系。另一方面,所抽取的詞仍然比較單一,雖然文獻(xiàn)[1,10]考慮了二元擴(kuò)展,但基于模板,比較簡(jiǎn)單。未來(lái)希望可以結(jié)合神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)義的優(yōu)點(diǎn)來(lái)得到文中未出現(xiàn)詞且符合人們習(xí)慣的詞語(yǔ)。因此,未來(lái)將考慮未現(xiàn)詞和短語(yǔ)方面的研究。

        猜你喜歡
        語(yǔ)料語(yǔ)義權(quán)重
        權(quán)重常思“浮名輕”
        語(yǔ)言與語(yǔ)義
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線(xiàn)性分組碼盲識(shí)別方法
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        認(rèn)知范疇模糊與語(yǔ)義模糊
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
        亚洲男人的天堂在线aⅴ视频| 一区二区三区中文字幕在线播放| 亚洲精品国产电影| 色偷偷噜噜噜亚洲男人| 四虎在线播放免费永久视频| 中文字幕精品人妻av在线| 亚洲乱码中文字幕综合久久| 免费看av在线网站网址| 国产精品国语对白露脸在线播放 | 国产一区二区三区爆白浆| 亚洲av区一区二区三区| 亚洲日韩精品a∨片无码加勒比| 日韩少妇激情一区二区| 精品一区二区三区久久久| 亚洲av天堂一区二区| 三年片在线观看免费观看大全中国| www插插插无码免费视频网站 | 又爽又黄又无遮挡的激情视频| 国产高清在线精品一区αpp| 日韩国产自拍视频在线观看| 熟女无套高潮内谢吼叫免费| 人妻少妇av无码一区二区| 亚洲成AV人久久| 亚洲国产精品国自拍av| 边喂奶边中出的人妻| 色综合久久中文综合久久激情| av手机天堂在线观看| 51国产偷自视频区视频| 日韩插啊免费视频在线观看| 国产精品激情综合久久| 在线视频观看一区二区| 99久久婷婷国产综合精品青草免费| 日韩久久一级毛片| 热门精品一区二区三区| 男人吃奶摸下挵进去啪啪软件| 亚洲欧美日韩一区二区三区在线| 亚洲成AV人久久| 风韵犹存丰满熟妇大屁股啪啪| 无码人妻精品一区二区在线视频| 亚洲另类激情专区小说婷婷久| 亚洲av熟女少妇一区二区三区|