亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多因素的TFIDF關(guān)鍵詞提取算法研究

        2019-07-23 09:37:14牛永潔田成龍
        關(guān)鍵詞:分詞準(zhǔn)確率權(quán)重

        牛永潔,田成龍

        (延安大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,陜西 延安 716000)

        0 引 言

        隨著數(shù)據(jù)時(shí)代的到來(lái),各行各業(yè)都積累了大量的數(shù)據(jù),人們迫切希望從這些數(shù)據(jù)中發(fā)現(xiàn)有趣的知識(shí)。自然語(yǔ)言處理研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理融合了語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等學(xué)科,針對(duì)非結(jié)構(gòu)化的文本信息進(jìn)行處理,其中關(guān)鍵詞的提取是自然語(yǔ)言處理中的基礎(chǔ)與核心技術(shù),在信息檢索、文本分類、文本聚類、信息匹配、話題跟蹤、自動(dòng)摘要、人機(jī)對(duì)話等領(lǐng)域有廣泛的應(yīng)用[1-4]。

        目前針對(duì)文本關(guān)鍵詞的提取,為了取得良好的效果,大都采用專家標(biāo)準(zhǔn)的方法,但是面對(duì)日益增多的海量文本信息和迫切的應(yīng)用需求,人工標(biāo)注已經(jīng)顯得力不從心。于是借助計(jì)算機(jī)自動(dòng)進(jìn)行關(guān)鍵詞提取的方法受到了越來(lái)越多的重視,已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)[5-7]。

        關(guān)鍵詞抽取方法按照是否進(jìn)行監(jiān)督學(xué)習(xí)分為監(jiān)督性和非監(jiān)督性兩大類。通過(guò)訓(xùn)練數(shù)據(jù)構(gòu)建學(xué)習(xí)模型,進(jìn)而判斷詞語(yǔ)是歸屬于關(guān)鍵詞類別還是非關(guān)鍵詞類別,屬于典型的有指導(dǎo)學(xué)習(xí)方法。有指導(dǎo)學(xué)習(xí)需要事先標(biāo)注高質(zhì)量的訓(xùn)練數(shù)據(jù),人工預(yù)處理的代價(jià)較高。非監(jiān)督學(xué)習(xí)因?yàn)闊o(wú)需對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,實(shí)現(xiàn)快捷,僅需要文本自身的信息就能進(jìn)行等優(yōu)點(diǎn)被廣泛采用,非監(jiān)督關(guān)鍵詞抽取的主流方法可歸納為三種:基于TFIDF統(tǒng)計(jì)特征的關(guān)鍵詞抽取、基于主題模型的關(guān)鍵詞抽取和基于詞圖模型的關(guān)鍵詞抽取。這些方法都有自己的優(yōu)缺點(diǎn)[8]。

        文中主要針對(duì)TFIDF展開研究,綜合考慮文本信息中詞語(yǔ)的位置、詞性、詞語(yǔ)關(guān)聯(lián)性、詞長(zhǎng)和詞跨度5種影響因素,對(duì)每一種影響因素賦予一定的權(quán)重,最后加和得到最終的詞語(yǔ)權(quán)重,獲得權(quán)重最大的前5個(gè)詞語(yǔ)作為文本的關(guān)鍵詞。與經(jīng)典的TFIDF方法及人工標(biāo)注進(jìn)行對(duì)比,發(fā)現(xiàn)文中算法在精確度、召回率和F1值都優(yōu)于經(jīng)典的方法,更加接近人工標(biāo)注,值得推廣應(yīng)用。

        1 相關(guān)技術(shù)

        相關(guān)技術(shù)主要包含TFIDF、詞語(yǔ)的位置、詞性、詞語(yǔ)關(guān)聯(lián)性、詞長(zhǎng)和詞跨度6個(gè)方面。設(shè)定一個(gè)文本集合D,集合中包含N個(gè)文本,每個(gè)文本T包含標(biāo)題title和內(nèi)容content兩部分。content內(nèi)容由若干段落segment組成,段落由換行回車鍵進(jìn)行分割。每個(gè)段落包含若干句子sentence,句子由若干詞語(yǔ)word組成。句子由標(biāo)點(diǎn)符號(hào)“?!?、“!”、“?”、“……”進(jìn)行分割。

        1.1 TFIDF算法

        TFIDF算法處理的對(duì)象是文本的content部分[9-10],其中每個(gè)詞語(yǔ)word的權(quán)重由式1進(jìn)行計(jì)算。

        Wtf(i)=tfi*idfi

        (1)

        其中,Wtf(i)表示第i個(gè)詞語(yǔ)使用TFIDF方法得到的權(quán)重;tfi表示該詞的詞頻,詞頻為該詞在content中出現(xiàn)的次數(shù)與content中詞語(yǔ)總數(shù)之比;idfi表示逆文檔頻率,計(jì)算方法為:

        (2)

        其中,N為文檔總數(shù);dfi為文檔中出現(xiàn)詞語(yǔ)i的文檔數(shù);β為一個(gè)經(jīng)驗(yàn)常數(shù),一般取0.01、0.1、1,文中取數(shù)值1。

        TFIDF的計(jì)算表明,如果一個(gè)詞語(yǔ)在文本content中出現(xiàn)的次數(shù)越多但是在集合D中包含該詞語(yǔ)的其他文本數(shù)量越少,該詞語(yǔ)成為文本關(guān)鍵詞的權(quán)重越大,文中采用W_tfidf表示詞語(yǔ)的權(quán)重。

        1.2 詞語(yǔ)的位置

        根據(jù)文獻(xiàn)[4,8],文本的標(biāo)題title一般會(huì)盡可能包含文本的中心思想,所以出現(xiàn)在標(biāo)題中的詞語(yǔ)成為關(guān)鍵詞的概率最大,另外一個(gè)文本的第一段往往是全文的初步概括,也能最大限度地體現(xiàn)文章的主旨,所以對(duì)出現(xiàn)在第一段中的詞語(yǔ)也需要增加權(quán)重,末段往往是對(duì)全文的總結(jié),因此也需要對(duì)出現(xiàn)在末段的詞語(yǔ)增加權(quán)重。每段內(nèi)容的首句往往是本段內(nèi)容的綱領(lǐng),所以出現(xiàn)在每段第一句中詞語(yǔ)的權(quán)重也應(yīng)該適當(dāng)重視。詞語(yǔ)位置的權(quán)重設(shè)置如表1所示。

        表1 詞語(yǔ)位置權(quán)重設(shè)置

        1.3 詞 性

        漢語(yǔ)詞性可以分為實(shí)詞和虛詞。實(shí)詞包含:名詞、動(dòng)詞、形容詞、數(shù)詞、量詞和代詞。虛詞包括:副詞、介詞、連詞、助詞、嘆詞、擬聲詞。關(guān)鍵詞詞性分布一般是名詞或名詞性短語(yǔ)為主,其次是動(dòng)詞,最后是數(shù)詞、副詞和其他修飾詞等[11]??紤]詞性特征可以有效避免傳統(tǒng)采用語(yǔ)言學(xué)方法的缺陷[12-15],詞性的權(quán)重設(shè)置如表2所示。

        1.4 詞語(yǔ)關(guān)聯(lián)性

        漢語(yǔ)語(yǔ)言的詞語(yǔ)之間的關(guān)聯(lián)度在全局上顯示出高度的連接性,同時(shí)在局部具有高度的聚集性。根據(jù)自然語(yǔ)言具有的關(guān)聯(lián)特性,可以作為基本特征進(jìn)行關(guān)鍵詞提取。因?yàn)樵趯?shí)踐中TFIDF算法的固有缺陷表現(xiàn)為數(shù)據(jù)集偏斜,類間、類內(nèi)分布偏差等。在詞語(yǔ)關(guān)聯(lián)度算法方面,由于復(fù)雜網(wǎng)絡(luò)僅僅依靠詞語(yǔ)之間的相互關(guān)系作為基本特征,忽略了單詞的頻率特征,容易造成關(guān)鍵詞提取的聚集特征不明顯,從而引起關(guān)鍵詞提取的誤差[16-17]。將二者相結(jié)合可以互相補(bǔ)充,能夠更加全面地描述一個(gè)詞語(yǔ)的權(quán)重。

        設(shè)V={v1,v2,…,vn}為節(jié)點(diǎn)集合,(vi,vj)表示節(jié)點(diǎn)vi∈V與vj∈V之間的邊。設(shè)G(V,E)是以V為節(jié)點(diǎn)集合,以E?{(vi,vj):vi,vj∈V}為邊集合的圖,則節(jié)點(diǎn)vi的度Di為:

        Di=|{vi,vj}:(vi,vj)∈E,vi,vj∈V|

        (3)

        節(jié)點(diǎn)vi的聚集度Ki為:

        Ki=|{vj,vk}:(vi,vj)∈E,

        (vi,vk)∈E,vi,vj,vk∈V|

        (4)

        節(jié)點(diǎn)vi的聚集系數(shù)Ci為:

        (5)

        對(duì)于節(jié)點(diǎn)vi計(jì)算網(wǎng)絡(luò)綜合特征值CFi:

        (6)

        其中,N表示網(wǎng)絡(luò)中的節(jié)點(diǎn)個(gè)數(shù),0<α<1,文中取α為0.5。

        對(duì)于文本中的每一個(gè)句子sentence,將句子sentence中的詞語(yǔ)作為節(jié)點(diǎn)集合,將各個(gè)句子所組成的網(wǎng)絡(luò)連接,合并相同的節(jié)點(diǎn)和連邊,就形成一個(gè)語(yǔ)言網(wǎng)絡(luò)。根據(jù)文獻(xiàn)[13]的研究成果,只考慮詞關(guān)聯(lián)跨度為1和2,計(jì)算每個(gè)詞語(yǔ)的度D,聚集度K和綜合特征值CF。使用CF值作為詞語(yǔ)word的詞關(guān)聯(lián)性權(quán)重 W_cf。

        1.5 詞 長(zhǎng)

        經(jīng)過(guò)研究發(fā)現(xiàn),一個(gè)文本的關(guān)鍵詞的詞長(zhǎng)一般大于2,所以可以將詞長(zhǎng)小于2的詞語(yǔ)過(guò)濾掉。關(guān)鍵詞詞長(zhǎng)越長(zhǎng),包含的信息越大,但是關(guān)鍵詞詞長(zhǎng)一般不超過(guò)6,因此也可以將詞長(zhǎng)大于6的詞語(yǔ)過(guò)濾掉??梢允褂檬?作為詞長(zhǎng)的權(quán)重。

        (7)

        1.6 詞跨度

        一個(gè)詞的跨段落情況說(shuō)明這個(gè)詞是描述局部的還是表達(dá)全文的??缍螖?shù)越多,說(shuō)明該詞越重要,全局性越強(qiáng)。顯然,局部關(guān)鍵詞不是需要提取的目標(biāo),然而在傳統(tǒng)TFIDF算法中,局部關(guān)鍵詞往往會(huì)因?yàn)槠涓哳l優(yōu)勢(shì)成為整個(gè)文檔的關(guān)鍵詞,降低了提取關(guān)鍵詞的準(zhǔn)確率[18]。在提取關(guān)鍵詞的過(guò)程中,為了體現(xiàn)詞語(yǔ)的全局性,利用式8來(lái)衡量詞語(yǔ)的跨度權(quán)重。

        (8)

        2 算法步驟

        融合多因素的TFIDF的算法步驟為:

        (1)數(shù)據(jù)清洗:將文本中的噪聲數(shù)據(jù)清除,比如文本中多余的空格、 、#、*、[、』、【、】等字符。

        (2)標(biāo)記:對(duì)文本進(jìn)行段落識(shí)別,標(biāo)記首段、末段,對(duì)文本進(jìn)行語(yǔ)句識(shí)別,標(biāo)記句子的開始和結(jié)束和每段的首句。

        (3)分詞:對(duì)文本進(jìn)行帶有詞性的分詞,分詞結(jié)果分為兩個(gè)集合,分別是標(biāo)題的分詞結(jié)果和內(nèi)容的分詞結(jié)果。文中采用了北京理工大學(xué)海量語(yǔ)言信息處理與云計(jì)算工程研究中心的NLPIR漢語(yǔ)分詞系統(tǒng)進(jìn)行分詞。

        (4)停用詞過(guò)濾:停用詞在文本分析中屬于一種冗余數(shù)據(jù),對(duì)文本的主題不具備表達(dá)能力,往往具有高頻、無(wú)意義等特點(diǎn)。例如,“的”、“啊”、“但是”等詞語(yǔ)以及標(biāo)點(diǎn)符號(hào)通過(guò)去除停用詞,能消除對(duì)關(guān)鍵詞提取的干擾。

        (5)詞性過(guò)濾:將文本中經(jīng)過(guò)分詞且詞性被標(biāo)記為介詞、連詞、助詞、嘆詞、擬聲詞、語(yǔ)氣詞等詞語(yǔ)過(guò)濾掉,這些詞通常不可能是關(guān)鍵詞,同時(shí)會(huì)增加后續(xù)計(jì)算的工作量,所以將這些詞過(guò)濾掉。

        (6)詞長(zhǎng)過(guò)濾:將詞長(zhǎng)長(zhǎng)度小于2大于6的詞語(yǔ)過(guò)濾掉。

        (7)采用TFIDF算法計(jì)算每個(gè)詞語(yǔ)的W_tfidf。

        (8)根據(jù)詞語(yǔ)的位置計(jì)算每個(gè)詞語(yǔ)的位置權(quán)重。

        (9)根據(jù)詞性分別計(jì)算每個(gè)詞的權(quán)重。

        (10)計(jì)算詞語(yǔ)的詞關(guān)聯(lián)性權(quán)重W_cf。

        (11)計(jì)算詞語(yǔ)的詞跨度權(quán)重W_seg。

        (12)計(jì)算詞語(yǔ)的詞長(zhǎng)權(quán)重W_len。

        (13)根據(jù)式9計(jì)算詞語(yǔ)的最終權(quán)重W_all。

        W_all=(αW_tfidf+βW_cf+γW_seg+

        δW_len)*位置權(quán)重*詞性權(quán)重

        (9)

        其中,α、β、γ、δ為各種不同權(quán)重的加權(quán)系數(shù),文中取α為1.5,β為1.1,γ為0.8,δ為0.5。

        將計(jì)算得到的詞語(yǔ)的最終權(quán)重按照降序排列,取前5個(gè)作為一篇文本的關(guān)鍵詞。

        3 測(cè)試及結(jié)論

        為了衡量關(guān)鍵詞提取算法的優(yōu)劣,往往采用3個(gè)指標(biāo)作為衡量的標(biāo)準(zhǔn),分別是準(zhǔn)確率、召回率和F1值,其中準(zhǔn)確率和召回率是一對(duì)相互矛盾的指標(biāo),也就是說(shuō)準(zhǔn)確率如果比較高,但是召回率要低一些,綜合這兩個(gè)指標(biāo)提出了F1值的概念,如果F1值比較高,則說(shuō)明算法的效果比較好。

        準(zhǔn)確率通過(guò)式10進(jìn)行計(jì)算。

        (10)

        其中,Numcorrect表示正確提出的關(guān)鍵詞數(shù)量;Numtotal為總共提出的關(guān)鍵詞數(shù)量。

        召回率通過(guò)式11進(jìn)行計(jì)算。

        (11)

        其中,Numactual為文本實(shí)際的關(guān)鍵詞數(shù)量。

        F1值綜合考慮了準(zhǔn)確率和召回率兩個(gè)指標(biāo),通過(guò)式12進(jìn)行計(jì)算。

        (12)

        本校圖書館對(duì)《紅色中華》報(bào)刊進(jìn)行了收集和整理,共得到從1931年到1937年6年間的8 045篇新聞文章,其中每篇文章都由標(biāo)題和正文組成,其中部分文章已經(jīng)通過(guò)紅色文獻(xiàn)研究專家進(jìn)行了關(guān)鍵詞提取和標(biāo)注工作。8 045篇文章作為文本的全體樣本,每篇文章作為一個(gè)文本,按照文中提出的算法進(jìn)行了關(guān)鍵詞提取。通過(guò)準(zhǔn)確率、召回率和F1值對(duì)文中算法、經(jīng)典的TFIDF算法和專家標(biāo)注進(jìn)行了對(duì)比,結(jié)果如表3所示。

        表3 算法對(duì)比

        %

        通過(guò)表3可以看出,融合多種因素的文中算法在三個(gè)指標(biāo)上都明顯優(yōu)于經(jīng)典的TFIDF算法,值得推廣應(yīng)用。但是該算法也有不完善的地方,主要表現(xiàn)在計(jì)算工作量大,運(yùn)行時(shí)間長(zhǎng),但是如果作為已經(jīng)整理好的離線數(shù)據(jù)源,為了提高關(guān)鍵詞提取的效果仍然是一種比較好的方法。通過(guò)對(duì)文中算法和專家標(biāo)注的結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)該算法仍然有一些缺陷,主要表現(xiàn)為詞語(yǔ)組合問(wèn)題,比如:專家標(biāo)注的關(guān)鍵詞“滿洲傀儡政府”,在文中算法中被分為兩個(gè)詞“滿洲”和“傀儡政府”,可以看出文中算法的結(jié)果一方面受到分詞系統(tǒng)的影響,另一方面應(yīng)該根據(jù)詞語(yǔ)的關(guān)聯(lián)度進(jìn)行詞語(yǔ)的組合,但是漢語(yǔ)的語(yǔ)法比較靈活,詞語(yǔ)組合規(guī)則還很難提取和總結(jié),所以詞語(yǔ)組合問(wèn)題還有待于進(jìn)一步研究。

        4 結(jié)束語(yǔ)

        通過(guò)綜合考慮詞語(yǔ)的位置、詞性、詞長(zhǎng)、詞跨度和詞語(yǔ)關(guān)聯(lián)度等多種因素對(duì)經(jīng)典的TFIDF算法進(jìn)行了改進(jìn),對(duì)每個(gè)因素的權(quán)重進(jìn)行了加權(quán)相加或者相乘的運(yùn)算,得到一個(gè)最終的詞語(yǔ)權(quán)重,然后取權(quán)重值最大的5個(gè)詞語(yǔ)作為文本的關(guān)鍵詞,以專家手工標(biāo)注的關(guān)鍵詞為標(biāo)準(zhǔn),對(duì)兩種算法進(jìn)行了對(duì)比,發(fā)現(xiàn)文中算法效果良好,值得推廣應(yīng)用,同時(shí)在研究的過(guò)程中也發(fā)現(xiàn)了一些不足和缺陷??偠灾?,文中算法比較全面地考慮了影響關(guān)鍵詞提取的各種因素,具有一定的通用性,能夠?yàn)槠渌愃频难芯刻峁┧悸泛蛥⒖?,具有一定的推廣性和借鑒性,同時(shí)也為下一步研究指明了方向。

        猜你喜歡
        分詞準(zhǔn)確率權(quán)重
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        權(quán)重常思“浮名輕”
        結(jié)巴分詞在詞云中的應(yīng)用
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        值得重視的分詞的特殊用法
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        精品国产亚洲av高清大片| 久久久国产精品福利免费| 国产呦系列视频网站在线观看| 蜜桃视频一区视频二区| 女人一级特黄大片国产精品| 国产一级r片内射免费视频| 人妻精品人妻一区二区三区四五 | 少妇人妻中文久久综合| 嫩草伊人久久精品少妇av| 久久精品国产精品亚洲| 97精品人妻一区二区三区香蕉| 少妇的丰满3中文字幕| Y111111国产精品久久久| 日韩欧美精品有码在线观看| av资源在线播放网站| 伊人久久大香线蕉av色婷婷色| 日本欧美大码a在线观看| 精品国产拍国产天天人| 午夜国产在线| 国产青青草自拍视频在线播放| 国产女人精品一区二区三区| 精品亚洲天堂一区二区三区| 亚洲另类欧美综合久久图片区| 亚洲综合AV在线在线播放| 国模少妇无码一区二区三区| 亚洲三级香港三级久久| 丰满熟女高潮毛茸茸欧洲视频| 国产精品高潮呻吟av久久无吗| 久久亚洲一级av一片| 91精品国产综合久久久蜜| 三叶草欧洲码在线| 亚洲中文欧美日韩在线人| 熟女人妻中文字幕一区| 国产成人精品一区二三区孕妇| 国产精成人品日日拍夜夜免费| 曰韩精品无码一区二区三区| 在线视频播放观看免费| 一区二区三区中文字幕在线播放| av无码av天天av天天爽| 久久中文字幕无码专区| 国产一区二区精品在线观看|