亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞匯鏈與互信息的關(guān)鍵詞抽取研究

        2013-05-10 12:08:18任莉莉方元康
        池州學(xué)院學(xué)報 2013年6期
        關(guān)鍵詞:語義詞匯特征

        任莉莉 ,方元康 ,2

        (1.池州學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,安徽 池州 247000;2.南京航空航天大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 南京210016)

        引言

        隨著現(xiàn)代科技和信息技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)上的數(shù)據(jù)以接近指數(shù)級的速度在遞增。如何科學(xué)、準(zhǔn)確、快速地從這海量的數(shù)據(jù)中檢索到有價值的信息,已成為當(dāng)前需要迫切解決的問題之一。目前中文文檔中關(guān)鍵詞出現(xiàn)的數(shù)量一般為3~8個,且相互間存在著一定的相關(guān)性,關(guān)鍵詞不僅能快速直觀地表達(dá)文檔主題內(nèi)容,更為重要的是對一篇文檔內(nèi)容的高度凝練。

        國內(nèi)外對關(guān)鍵詞自動抽取技術(shù)進(jìn)行了大量的研究,也取得了一系列的研究成果。主要有:(1)基于詞的統(tǒng)計(jì)信息的方法,比較典型的有:TFIDF、詞共現(xiàn)、復(fù)雜網(wǎng)絡(luò)等方法[1-2],這類算法相對簡單易行,通用性較好,解決了早期快速抽取關(guān)鍵詞的問題。但沒有考慮到文檔的句子結(jié)構(gòu)、語義內(nèi)容及其屬性,往往會出現(xiàn)與主題無關(guān)的高頻詞,不能深入挖掘文本語義內(nèi)容;(2)基于機(jī)器學(xué)習(xí)的方法,比較典型的有:樸素貝葉斯算法[3],基于決策樹的算法以及基于最大熵算法[4]。此類方法比較耗時,需要大量帶關(guān)鍵詞標(biāo)注的數(shù)據(jù)去建立關(guān)鍵詞的分類模型。(3)基于語義的方法,典型的有通過構(gòu)建詞匯鏈抽取文檔關(guān)鍵詞,雖然詞匯鏈能夠表達(dá)文檔的語義結(jié)構(gòu),但是,在其過程中需要判斷詞語間的語義相似度,而語義相似度的計(jì)算需要知識庫的支持,因此,未包含詞及其關(guān)鍵短語,不能被很好地識別,從而影響關(guān)鍵詞抽取的質(zhì)量[5-6]。

        針對現(xiàn)有關(guān)鍵詞抽取方法存在的不足,提出了一種既考慮詞語的語義關(guān)系、又兼顧詞語的統(tǒng)計(jì)分布,即綜合考慮詞匯鏈和互信息的關(guān)鍵詞抽取算法,有效地解決現(xiàn)存關(guān)鍵詞抽取準(zhǔn)確率較低之不足,在抽取關(guān)鍵詞的準(zhǔn)確度方面有明顯的提高。

        1 相關(guān)研究

        1.1 詞匯鏈

        詞匯鏈?zhǔn)怯蒆irst于1991年首先提出,是一系列語義上相關(guān)的詞匯所組成的集合,這些詞匯圍繞一個主題而被集合在一起,能夠反應(yīng)文本的主題信息。詞匯鏈在計(jì)算機(jī)理解語義以及理解文檔主旨方面具有重要的作用,因此而被廣泛應(yīng)用于機(jī)器翻譯、信息檢索、文本挖掘等知識領(lǐng)域。對于任意一篇文檔都可以得到若干詞匯鏈,這些詞匯鏈所表達(dá)的主題共同決定了文檔的主旨。因此,可以借助詞匯鏈表達(dá)詞語間的語義關(guān)系以及消除包含在 《知網(wǎng)》中詞語的語義歧義。構(gòu)建詞匯鏈的思路為:初始化詞匯鏈;選取候選詞匯集中的第一個詞語w1的語義構(gòu)成初始詞匯鏈L1;依次讀入候選詞匯集中每個候選詞的語義序列;計(jì)算候選詞匯集中每兩個詞語的語義相似度,如果最大相似度大于預(yù)設(shè)的閾值,則加入對應(yīng)詞匯鏈的尾部,否則建立新的詞匯鏈;直至候選詞匯集中所有的詞匯計(jì)算完畢。

        1.2 互信息

        互信息是統(tǒng)計(jì)模型中衡量兩個隨機(jī)變量之間關(guān)聯(lián)程度的常用參數(shù),反映了兩變量之間結(jié)合的緊密程度。在研究自然語言詞語相互關(guān)系時,互信息可以被作為描述兩個詞語之間相互關(guān)聯(lián)程度大小的度量,它不依賴于知識庫的特點(diǎn),為解決未包含詞的抽取提供了思路。若兩詞語的互信息值較大,說明兩個詞語之間的相關(guān)聯(lián)性越大。反之,說明兩個詞語之間的相關(guān)聯(lián)性越小。

        定義1 若wi和wj為中文文檔中的兩詞語,p(wi)表示詞語wi出現(xiàn)的概率,p(wj)表示詞語wj出現(xiàn)的概率,p(wi,wj)表示聯(lián)合概率,MI(wi,wj)為兩詞語的互信息,則:

        式(1)[7]描述了兩詞語緊密結(jié)合的程度。其中,MI(wi,wj)>>0:表明 wi和 wj關(guān)聯(lián)強(qiáng)度大;MI(wi,wj)≈0:表明 wi和 wj無關(guān);MI(wi,wj)<<0:表明 wi和 wj具有互補(bǔ)的分布,不存在關(guān)聯(lián)的關(guān)系。

        1.3 候選關(guān)鍵詞的權(quán)重計(jì)算

        1.3.1 特征的選取 候選關(guān)鍵詞有眾多的特征,綜合考慮各方面因素,選取以下特征作為候選關(guān)鍵詞的特征:(1)TFIDF:計(jì)算詞語在大規(guī)模語料中的重要性,即詞匯在文檔中出現(xiàn)的次數(shù)越多,而且在別的文檔中出現(xiàn)的次數(shù)越少,就認(rèn)為該詞語在文檔中的權(quán)重越大。(2)位置特征:表示詞語在文檔中出現(xiàn)的位置,如:出現(xiàn)在標(biāo)題、主題句以及結(jié)論部分中的詞語極為重要,不同的位置特征也反映了該詞語在文檔中的重要程度。(3)詞匯鏈的長度:即詞匯鏈所包含詞語的數(shù)目。(4)相關(guān)度:表示該候選詞與其它候選詞之間的語義相關(guān)度,與文獻(xiàn)[9]不同的是,本文采用的計(jì)算相關(guān)度方法,不但可以有效解決部分未登錄詞的重要性問題,亦可以解決部分具有極高關(guān)聯(lián)性而相似度值不理想的問題。

        1.3.2 權(quán)重計(jì)算 候選關(guān)鍵詞的選取使用下面的權(quán)重計(jì)算公式:

        其中:TFIDFi為詞頻特征;Loci為位置特征;Chain為詞匯鏈的長度,即該鏈包含詞語的數(shù)目;Ri為詞匯的語義相關(guān)度。a,b,c,d分別為系數(shù)因子,當(dāng)不采用某類特征時,其系數(shù)因子設(shè)置為0。

        2 基于相似度和互信息的相關(guān)度計(jì)算

        《知網(wǎng)》將義原分為10大類,每一類都是由一個樹狀結(jié)構(gòu)來表示。義原在樹中的上下位關(guān)系構(gòu)成了相似關(guān)系,橫向關(guān)系構(gòu)成了其關(guān)聯(lián)度。對于《知網(wǎng)》中的詞語可以通過計(jì)算其語義相似度來建立詞匯鏈。本文采用[8]提出的基于《知網(wǎng)》的詞語語義相似度計(jì)算方法。而有時《知網(wǎng)》中的詞語間相似度值不是很理想,卻有很高的相關(guān)聯(lián)性,例如:“計(jì)算機(jī)”和“軟件”相似度值不理想,但卻有著很強(qiáng)的相關(guān)聯(lián)性;對于未包含詞,在具體的文章中也非常有意義,亦可以用相關(guān)聯(lián)性表示其深層語義特征,因此,詞語間的相關(guān)聯(lián)度對于文檔的中心思想也有一定的指示作用,在某種程度上也能表達(dá)文檔的深層語義特征?;バ畔榻鉀Q以上問題提供了新的思路。本文探索性地把統(tǒng)計(jì)中的互信息模型引入到語義分析中,試圖提高關(guān)鍵詞抽取的性能。

        定義2設(shè)詞語wi和詞語wj為文檔中的兩詞語,且 Sim(wi,wj)為兩詞語的語義相似度,MI(wi,wj)為兩詞語的互信息值,R(wi,wj)為兩詞語的相關(guān)度,則:

        式(2)描述了兩詞語相關(guān)性的強(qiáng)弱,其中,α、β為可調(diào)節(jié)的參數(shù),α+β=1。參數(shù)α、β對于兩部分的重要性,由于前者更能反映語義信息,因此參數(shù)α的設(shè)置偏重些,實(shí)驗(yàn)中設(shè)為0.6。

        一詞語與該詞所在詞匯鏈集中的其它詞語的R值進(jìn)行相加,如果Ri的值越大,則表示它和候選關(guān)鍵詞義集合中其它詞的關(guān)聯(lián)程度越大,因此,可以作為判斷詞語重要性的依據(jù)。如公式(3)所示:

        3 算法的描述

        輸入:過濾后的文本。

        輸出:反映文檔主題的關(guān)鍵詞。

        步驟1數(shù)據(jù)預(yù)處理。對過濾后的文本進(jìn)行分詞,過濾停用詞,統(tǒng)計(jì)每個名詞在文本中出現(xiàn)的頻率、詞性特征以及位置標(biāo)注。分詞工具使用中科院計(jì)算技術(shù)研究所研制的基于層疊隱馬爾可夫模型的漢語詞法分析系統(tǒng)。該系統(tǒng)具有中文分詞、詞性標(biāo)注、用戶詞典等功能。選取其中的名詞及名詞性詞組組成詞匯集。

        步驟2利用下列公式計(jì)算詞匯集中每個詞匯的TFIDF值,選取n個TFIDF值最大的詞匯構(gòu)成候選詞匯集{w1,w2,w3,…,wn}。

        其中,TFIDFi為詞匯在文檔中的權(quán)重,tfi為詞匯在文檔中出現(xiàn)的次數(shù),ni為包含詞匯的文檔數(shù),N為語料庫中的文檔總數(shù)。

        步驟3詞匯語義相似度的計(jì)算。利用定義1中的公式計(jì)算候選詞匯集中任兩個詞匯的互信息值及文獻(xiàn)[8]中的算法計(jì)算包含在《知網(wǎng)》中任兩個詞匯的語義相似度。

        步驟4對于《知網(wǎng)》中的詞語構(gòu)建詞匯鏈。構(gòu)建詞匯鏈的過程見2.2節(jié)。

        步驟5對于未登錄詞,計(jì)算其與詞匯鏈中每個詞語的互信息值,若大于0,加入該詞對應(yīng)詞匯鏈的尾部。

        步驟6重復(fù)5,直至全部候選詞語計(jì)算完畢。

        步驟 7 利用公式(3)計(jì)算 Ri的值、公式(4)計(jì)算每個詞語的權(quán)值。最后按權(quán)值的降序?qū)蜻x詞匯集中的詞語進(jìn)行排序,輸出最后的結(jié)果。算法中出現(xiàn)的參數(shù),n取值為20,相似度閾值取0.3,實(shí)驗(yàn)效果較好。

        4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

        4.1 評價標(biāo)準(zhǔn)

        評價標(biāo)準(zhǔn):準(zhǔn)確率和召回率作為測試抽取效果的指標(biāo)。準(zhǔn)確率是自動標(biāo)引正確的關(guān)鍵詞數(shù)目與自動標(biāo)引的關(guān)鍵詞數(shù)目的比值,表示:

        召回率是自動標(biāo)引正確關(guān)鍵詞數(shù)目與手工標(biāo)引正確關(guān)鍵詞數(shù)目的比值,表示:

        4.2 實(shí)驗(yàn)方法

        實(shí)驗(yàn)數(shù)據(jù)來源于復(fù)旦大學(xué)國際數(shù)據(jù)庫中心自然語言處理小組提供的中文分類語料,該語料共為2815篇文本,隨機(jī)選取其中的五百篇進(jìn)行實(shí)驗(yàn)。其中環(huán)境類、計(jì)算機(jī)類、交通類、教育類、經(jīng)濟(jì)類、軍事類、體育類、醫(yī)藥類、藝術(shù)類、政治類各50篇。首先手工從每篇文檔中標(biāo)注關(guān)鍵詞,然后使用基于統(tǒng)計(jì)的關(guān)鍵詞抽取方法、基于詞匯鏈的關(guān)鍵詞抽取方法和本文提出的方法進(jìn)行關(guān)鍵詞抽取,并用3.1的評價標(biāo)準(zhǔn)進(jìn)行評價。

        4.3 實(shí)驗(yàn)結(jié)果及分析

        圖1、圖2列出了三種關(guān)鍵詞抽取方法進(jìn)行比較實(shí)驗(yàn)結(jié)果。分別設(shè)抽取關(guān)鍵詞數(shù)目為3、5、7、10時,進(jìn)行四組對比。實(shí)驗(yàn)結(jié)果顯示:基于詞匯鏈和互信息的算法性能最好,接下來是詞匯鏈的算法,性能最差的是統(tǒng)計(jì)的算法。從研究結(jié)果中可以看出:詞匯鏈和互信息綜合考慮后,關(guān)鍵詞抽取的性能更佳。

        通過對比可以看出:當(dāng)抽取關(guān)鍵詞數(shù)目為3、5時,準(zhǔn)確率依次遞增;當(dāng)抽取的關(guān)鍵詞數(shù)目為5、7、10時,準(zhǔn)確率依次遞減。從數(shù)據(jù)分析還可以得出:本文提出的算法其性能、穩(wěn)定性相對較好,因?yàn)槌丝紤]詞頻因素以外,還兼顧到語義因素,因此,一些詞頻相對較低,相似度不是很理想而具有很高相關(guān)度的、貼近文章中心思想和深層語義信息的關(guān)鍵詞能被抽取出來。所以,關(guān)鍵詞數(shù)分別為5、7、10時,準(zhǔn)確率依次遞減。

        圖1 不同關(guān)鍵詞抽取方法精確率對比

        圖2 不同關(guān)鍵詞抽取方法召回率對比

        5 結(jié)束語

        基于詞匯鏈和互信息的集成創(chuàng)新,建立了一種新的關(guān)鍵詞抽取算法。分析詞語之間的語義關(guān)系,結(jié)合詞頻特征、位置特征、改善部分未包含詞及相似度不理想而具有很高相關(guān)聯(lián)度的關(guān)鍵詞識別問題,實(shí)驗(yàn)表明,此方法抽取的關(guān)鍵詞更貼近文檔的深層語義,表現(xiàn)出良好的抽取效果。

        [1]Akiko A.An information-theoretic perspective of tf-idf measures.Information Processing and Management,2004,39(1):45-65.

        [2]任克強(qiáng),趙光甫,張國萍.基于帶權(quán)語言網(wǎng)絡(luò)的網(wǎng)頁關(guān)鍵詞抽取[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(8):155-157.

        [3]Witten I H,Paynter G W,Frank E,Gutwin C,Nevill-Maning C G.KEA:Practical automatic key-phrase extraction[C]//Proceedings of the 4th ACM Conference on Digital Libraries.Bereley,CA,USA,1999:254-255.

        [4]李素建,王厚峰,俞士汶,等.關(guān)鍵詞自動標(biāo)引的最大熵模型應(yīng)用研究[J].計(jì)算機(jī)學(xué)報,2004,27(9):1192-1197.

        [5]王立霞,淮曉永.基于語義的中文文本關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2012,38(1):1-4.

        [6]索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報,2006,20(6):25-30.

        [7]袁里馳.一種基于互信息的詞聚類算法[J].系統(tǒng)工程,2008,26(5):120-122.

        [8]江敏,肖詩斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語語義相似度計(jì)算[J].中文信息學(xué)報,2008,5(2):59-76.

        [9]劉金嶺,馮萬利,張永軍.基于詞匯鏈的中文短信主題語句抽取方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):132-134.

        [10]劉銘,王曉龍,劉遠(yuǎn)超.基于詞匯鏈的關(guān)鍵短語抽取方法的研究[J].計(jì)算機(jī)學(xué)報,2010,33(7):1246-1255.

        [11]倪娜,劉凱,李耀東.科技文獻(xiàn)關(guān)鍵詞自動標(biāo)注算法研究[J].計(jì)算機(jī)科學(xué),2012,39(9):175-179.

        [12]蔣效宇.基于關(guān)鍵詞抽取的自動文摘算法[J].計(jì)算機(jī)工程,2012,38(3):183-186.

        猜你喜歡
        語義詞匯特征
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        語言與語義
        如何表達(dá)“特征”
        本刊可直接用縮寫的常用詞匯
        不忠誠的四個特征
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        成人免费ā片在线观看| 日韩在线观看网址| 亚洲av综合色区久久精品天堂| 蜜桃高清视频在线看免费1| 国产日产在线视频一区| 国产精品毛片一区二区三区| 一本色道av久久精品+网站| 青春草国产视频| 亚洲中文字幕国产综合| 亚洲毛片av一区二区三区| 夜夜高潮夜夜爽免费观看| 无码人妻精品一区二区三区9厂| 久久久久亚洲av无码观看| 国产精品综合日韩精品第一页| 91精品国产91热久久p| 精品国产a毛片久久久av| 欧美大片va欧美在线播放| av在线亚洲欧洲日产一区二区| 一本无码人妻在中文字幕| 国产精品区二区东京在线| 免费午夜爽爽爽www视频十八禁 | 在线视频一区色| 中文字幕乱码亚洲无线精品一区| 国产成人自拍视频在线免费| 久久精品熟女亚洲av麻豆永永| 亚洲最大av网站在线观看| 全球av集中精品导航福利| 日本高清www午色夜高清视频| 久99久精品视频免费观看v| 开心五月激动心情五月| 最新国产不卡在线视频| 国产成人无码精品久久久露脸| 亚洲国产理论片在线播放| 亚洲黄片高清在线观看| 日本亚洲视频一区二区三区| 久久精品免费观看国产| 男人无码视频在线观看| 国产精品久久久精品三级18| 在线免费观看一区二区| 亚洲日本一区二区一本一道| 久久精品国产99国产精2020丨|