亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞序統(tǒng)計組合的中文文本關鍵詞提取技術

        2015-12-23 01:02:56蘇祥坤吾守爾斯拉木買買提依明哈斯木
        計算機工程與設計 2015年6期
        關鍵詞:文本方法

        蘇祥坤,吾守爾·斯拉木,買買提依明·哈斯木,2

        (1.新疆大學 信息科學與工程學院 新疆多語種信息技術實驗室,新疆 烏魯木齊830046;2.和田師范??茖W校 計算機科學系,新疆 和田848000)

        0 引 言

        文本挖掘是數據挖掘領域的一個重要表現,關鍵詞提取則是文本挖掘的重要手段和文本主題的體現,幫助用戶從繁重的文本信息選取工作中解脫出來。單文本關鍵詞提取是指針對單一的文本進行主要信息的提取工作,關鍵詞是為了文獻標引工作而從報告、論文中選取出來以表示全文主題內容信息款目的單詞和術語。然而當前人們每天使用的大多數互聯網網頁中并沒有提供其關鍵詞的標引。這使得人們在瀏覽網頁時,憑借網頁標題和檢索結果很容易忽略一些對自己需求有價值的信息。本文針對此問題提出了一種基于詞序統(tǒng)計組合關鍵詞提取方法。本文通過統(tǒng)計詞序,組合生成組合詞,以此選取包括詞性特征、詞序特征、位置特征、詞頻特征、詞長特征、詞跨度特征、TFIDF等在內的多種特征進行綜合評定候選關鍵詞的權重大小。該方法能夠高效提取表征文本主要信息的關鍵詞,其準確率可達到70%以上,方便普通用戶和各領域、專業(yè)人員的使用。另外,由于日益增加的新詞、分詞系統(tǒng)的錯誤劃分,可能將這些新詞進行拆分并偏離原意。對一些高頻的未登錄的新詞,本文提出的方法在一定程度上具有很大的反饋作用。

        1 相關工作

        目前,國內外各學者已經對關鍵詞提取進行了大量的研究和實驗。較常用的關鍵詞提取方法大致可以分為基于語義的方法、基于統(tǒng)計的方法和基于機器學習的方法三大類。

        常用的基于語義的方法多是建立在分析詞語詞義,繼而構造語義有向圖等。如:方俊等[1]提出的基于語義的關鍵詞提取算法,通過消歧算法得到候選詞,繼而提取出關鍵詞。謝鳳宏等[2]提出的基于加權復雜網絡的文本關鍵詞提取,通過構建復雜的語義網絡拓撲圖來進行關鍵詞的權重計算,并繼而提取出關鍵詞。胡學鋼等[3]提出的基于詞匯鏈的關鍵詞提取方法。此外還有張穎穎等[4]提出的基于同義詞的方法等等。

        常用的統(tǒng)計方法多以TFIDF算法為基礎進行關鍵詞權重計算并進行關鍵詞提取實驗的。如張建娥[5]提出的基于TFIDF 和詞語關聯度的中文關鍵詞提取方法2、李靜月[6]提出的對TFIDF 公式進行改進的網頁關鍵詞提取方法等等。

        而常用的機器學習方法則是建立在大量的語料庫基礎上,并進行大量的參數訓練,多用SVM 模型和貝葉斯模型等進行關鍵詞的計算和提取。如:羅準辰[7]設計的基于分離模型的中文關鍵詞提取算法,對單獨的關鍵詞提取和串提取有不錯的效果;王錦波[8]等提出的基于樸素貝葉斯模型的中文關鍵詞提取方法等。

        2 本文方法

        本文采用的是已有的中科院分詞系統(tǒng)進行分詞和詞性標注。在分詞的過程中,人工調整程序,每一個分詞和詞性標注后的詞語進行詞語在文章中的詞序的統(tǒng)計。本文實驗是以網頁單文本為語料實驗對象進行實驗的,所以本文初步對文本進行預處理之后,再進行分詞切詞、詞性標注、詞序統(tǒng)計、停用詞過濾、組合詞生成、詞頻統(tǒng)計、二次過濾、權重計算、子串過濾和提取關鍵詞等步驟。其系統(tǒng)框架流程如圖1所示。

        圖1 系統(tǒng)框架流程

        2.1 文本預處理

        通過閱讀及研究發(fā)現,文本的標題和首句往往對文本主旨有很大的標引作用,所以預處理階段主要是提取文本的標題和首句。其文本標題和正文的規(guī)律,具體可參見文獻 [9]。

        對于文本首句的提取,在研究斷句的時候,發(fā)現從標點符號的用法上可以進行首句的提取。中文文本中,標志句子的標點有句號、問號、嘆號、省略號等。所以只要在句末找到這類符號,就可以裁定、提取出相應句子。

        2.2 組合詞生成

        研究發(fā)現,現有分詞系統(tǒng)并不能全面的、完整的考慮到文本中的詞的關系,所以有些可以作為關鍵詞的詞組往往被拆分成單個的詞,而有時候詞組比單個詞更具有作為文章關鍵詞的作用來反映文章主旨。如計算機領域里的“數據挖掘”這個詞組,分詞之后會拆分成 “數據”和 “挖掘”,而單獨的 “數據”和 “挖掘”并沒有 “數據挖掘”一詞更能表達文章意思、主旨。

        類似的詞語有很多,它們大多在文中被拆分的時候詞頻較大且左右相鄰,拆分后其詞與其它詞語搭配很少或不搭配。所以本文利用其在文中的詞序位置和詞性關系對其進行了組合。在很大程度上避免了類似過濾缺點的發(fā)生。其中詞性的組合規(guī)則本文參照了張紅鷹[9]提出的詞性組合規(guī)則。有的研究人員采用構建有向圖[10]的方法進行組合詞的生成,但這樣無疑是增加了計算量和實現難度。還有先計算權重后進行組合的方法[9],但這樣容易在過濾和計算權重階段造成權重的計算偏差,繼而造成組合的偏差。還有羅準辰[7]基于分離模型的提取詞串的方法,具有很高的準確率,但需運用大型統(tǒng)計詞典,這在處理大型批量數據計算量方面稍顯局限。

        綜合分析后,根據主客觀需要,本文設計了如下算法,描述如下:

        輸入:待提取關鍵詞的文本T,需提取的關鍵詞個數m

        輸出:提取的m 個文本關鍵詞或詞組

        步驟1 對原始文本進行預處理,包括分詞切詞、詞性標注、詞序統(tǒng)計及停用詞過濾;

        步驟2 對步驟2得到的結果進行詞語和詞組的詞頻統(tǒng)計,過濾掉詞頻大?。?的詞語;

        步驟3 逐個詞語掃描,對步驟2得到的結果進行詞語組合:前者詞語A 和后者詞語B 詞序之差=1且符合合并規(guī)則的進行相鄰合并,設置新組合詞的詞序為后者詞語B的詞序值,并記錄被覆蓋的詞語;組合詞作為正常詞語進行新的組合并標記出新的詞性,直到所有詞語掃描完畢;

        步驟4 過濾組合詞詞長<2或組合詞詞長>6的詞語,剩下的詞語作為候選詞語;

        步驟5 對候選詞語計算權重并降序排列候選詞,進行子串過濾,輸出排列前m 個權值較大的詞語作為最終關鍵詞。

        2.3 二次過濾

        通過研究發(fā)現,可作為一篇文章的關鍵詞的詞語在文章中出現的頻率往往在1詞以上,所以那些只出現一次的詞語就可以排除作為關鍵詞的可能而進行過濾。

        另外,可作為關鍵詞的詞長一般最多包含6 個漢字,所以詞長大于6個詞的就同樣可以排除作為關鍵詞的可能而進行過濾。另外,作為關鍵詞的詞語多是名詞、動詞、名詞類詞組或動詞類詞組,所以其它詞性的詞語或詞組如:虛詞、介詞、助詞等,同樣也可以排除作為關鍵詞的可能而進行過濾。

        經過兩次過濾之后,剩下的詞語作為候選詞進行權重計算,其準確率大大提高,時間和空間都會得到大大的改善。

        2.4 權重計算

        如果處理的是同一領域的文本,那么TFIDF會把那些在各個文本中都出現的高頻詞或關鍵詞給過濾掉。如:處理屬于科技類的一系列文本,由于 “信息檢索”可能出現在所有文本中,所以當計算log(n/DF(x))時,結果會為0,因此可能會過濾掉這樣的重要關鍵詞。而單獨的只考慮其它特征又會容易忽略某一詞在不同文本的區(qū)分性和單文本的代表性。

        所以本文同時采取TFIDF 和其它特征進行綜合加權,計算候選關鍵詞的權重,并以此來提取關鍵詞。

        2.4.1 詞頻加權

        詞頻是一個詞語在文章中出現的總次數。研究發(fā)現,如果一個詞語在文章中出現的頻率越高,說明這個詞語對文章主旨反映的貢獻也就越大,所以本文對詞語詞頻的加權計算公式是

        式中:Cpin_weight——詞頻的權重,n_pinlv——該詞在文章中出現的總次數。Cpin_weight隨著詞頻的增加而逐漸上升,且逐漸向1收斂。也就是說詞語出現的頻率越高,該詞作為關鍵詞的可能性也就越大。但增長又非線性的,即便詞頻過高,也會基本趨于穩(wěn)定,更符合實際權重計算的需要。

        2.4.2 詞性加權

        研究發(fā)現,對于一篇文章而言,反映文本主旨的,可以作為關鍵詞的多是名詞類和動詞類的詞語等等。所以詞語Ci詞性的權重公式如下所示

        2.4.3 標題、首句和首末段加權

        研究發(fā)現,一篇文章的標題的命名好壞、準確與否直接影響了文章的主旨反映和讀者的興趣。更有甚者,一篇文章的標題往往是一篇文章主旨的濃縮,甚至是核心內容,所以出現在文章標題里的詞語也往往對與關鍵詞提取具有重要的貢獻。

        文章首句則常是文章話題、主題或是文章所要議論的引發(fā)、提示,所以首句中的詞語對關鍵詞的提取貢獻也同樣不容忽視。

        另外,一篇文章的第一段往往是全文的初步概括,承載著全文的主旨,所以對出現在第一段中的詞也需要增設權重。末段往往是對全文的概括和總結,所以也納入了考慮范圍。

        出現在其它段的詞不再額外增設權重值。其各權重設置見表1。

        表1 權重設置

        2.4.4 詞長加權

        研究發(fā)現,一個詞語的長度越長,則包含的信息量也就越豐富,更加能起到表達文章主旨的作用,成為關鍵詞的可能性也就越大。其計算公式如下所示

        式中:Cchang_weight——詞長的權重,C_length 是詞的長度。

        2.4.5 詞跨度加權

        研究發(fā)現,詞語在正文中首次出現和末次出現的跨度越大,則詞在貫穿全文和表達文章主旨的作用上也就越重要,可以在一定程度上做為關鍵詞提取的考慮因素。計算公式如下所示

        式中:Ckua_weight——詞跨度的權重,Clast——詞最后出現在文章中的詞序,Cfirst——詞首次出現在文章中的詞序,Ctotal——文章中的最后一個詞的詞序。

        2.4.6 TFIDF權重計算

        TFIDF是一種常用的經典的統(tǒng)計方法,詞語X 在文本P中出現的頻率越高,同時在其它文本中出現的頻率越低,則X 對P的貢獻也就越大,其公式為TFIDF=TF*IDF,其中,TF表示詞頻 (term frequency),IDF 表示逆向文件頻率 (inverse document frequency)TF 表示詞條在文本中出現的頻率。

        但如果關鍵詞在所有文本中都出現,log(n/DF(x))=0。那么只用TFIDF 方法是提取不出來該詞的。如果采用依據詞庫的方法進行提取,其詞庫的建立完善與否直接關系到提取的準確性,而且需要大量的比較和計算,這在進行大數據操作時具有很大的局限性,所以本文只把TFIDF作為一個重要加權特征進行考慮。

        2.4.7 最終權重計算

        綜合以上分析,最終權重計算公式為

        式中:Last_weight——候選詞的最終權重,a,b,c,d,e,f,g,h,i均為各個特征權重的比例因子,可以用來調整不同特征權重在最終權重的貢獻度大小。將最終權重值按大小降序排列,得到前N 個詞作為候選關鍵詞。各種屬性的系數影響因子賦值參考文獻 [9]如下所示:a=1.5,b=1.1,c=1.0,d=1.0,e=1.0,f=1.0,g=1.0,h=1.0,i=1.0。

        2.5 子串過濾

        對最終候選詞排序的時候,有的詞可能會是另一個詞的子串,而子串往往沒有父串的語義信息豐富,作為關鍵詞的可能性小,如果子串、父串都進行提取可能會造成信息的重復提取,進而影響結果的準確度。如: “信息檢索”一詞是“信息”和 “檢索”的父串,所以遇見類似的情況的時候,只提取父串“信息檢索”即可。但如果只單純的考慮包含關系的過濾和利用分詞的最小詞頻進行過濾[9]可能會造成重要語義的過濾。如一篇關于計算機的文章,文章中多次出現“計算機應用”,“計算機發(fā)展”,“計算機科學”等詞語,但對于這篇文章來說,文章主旨和語義指向應該是 “計算機”,即計算機比計算機應用更加具有關鍵詞代表性。

        那么,如果只單純的考慮包含關系的過濾,就會過濾掉 “計算機”這個詞,那么就會造成提取詞語語義的局限性,只提取了局部語義。而如果只考慮子串權重大于父串權重就全部提取,又會造成上述類似 “信息檢索”和 “信息”“檢索”的重復提取,容易造成具體指向不明,影響最終提取結果的準確率。

        研究發(fā)現,經本文方法計算的最終權重,有意義的子串父串最大差值不超過0.25,所以本文曾采用了子串值<父串值+0.25的方法進行過濾子串實驗。但后來實驗發(fā)現如果采用此方法過濾,不能針對所有文本過濾掉子串,當子串權重實際較大的時候,便過濾不掉這種子串。如軍事類別中一篇關于遼寧艦的文章,在此文章中,“遼寧艦”一詞被分詞成 “遼寧”和 “艦”兩個詞,實際詞頻值分別為10 和13,計算的權重分別為2.709090909090909 和2.7285714285714286,而實際的組合詞 “遼寧艦”的權重是1.9090909090909092,那么再用該方法過濾的時候就過濾不掉子串。所以,本文采用組合詞頻的比值方法來過濾子串。其計算公式如下所示

        式中:ci_gl——計算結果,C_pinlv——組合詞C的詞頻值,A_pinlv 和B _pinlv——子串A 和B 的詞頻值。當ci_glv的值大于0.3[9]的時候就過濾掉子串,否則不過濾。通過實驗結果表明,該方法較前幾種過濾方法能夠更好的過濾掉子串。

        3 實驗結果

        本文實驗環(huán)境為Window XP 操作系統(tǒng),2.8 GHz的CPU,2G 內存,編程工具為Myeclipse10。我們從人民網站上采集了涉及教育、經濟、博客、軍事,科技,汽車,娛樂7個領域的2100篇文本。隨機抽取20篇,30篇,40篇文本,文本平均大小為7KB左右,對每一篇文本提取5個關鍵詞,分別對使用詞序和沒有使用詞序兩類提取關鍵詞的方法進行測試,其提取結果與4個語言學專業(yè)的研究生人工提取的關鍵詞準確率進行比較。準確率計算公式為

        式中:P——準確率,A——計算機抽取的關鍵詞集合,H——人工標注的關鍵詞集合,|A∩H|——兩個集合完全匹配的關鍵詞數目,|A|——A 集合所包含關鍵詞數目。最終計算結果與無詞序組合的TFIDF方法、有詞序組合的TFIDF方法、無詞序組合的本文方法進行結果比較。實驗計算結果如圖2所示。

        圖2 實驗結果

        從圖2中我們可以看出,本文采用的基于詞序統(tǒng)計組合的關鍵詞提取方法較無詞序的提取方法,準確率至少提高了7.55個百分點。本文方法較其它3種方法提取的結果準確率都有不同程度的提高,具體結果見表2。

        表2 各方法提取結果對比

        實驗結果表明,本文提出的詞序統(tǒng)計組合的方法較其它方法更加高效、準確,該方法提取的關鍵詞能較好的反映和體現文本主題。另外,影響結果準確率的原因有:首先,分詞的準確率高低是對結果準確率產生重要的影響因素之一;由于本文沒有考慮命名實體的識別,所以對于人名、地名,尤其是外譯名詞等識別度不高,這也影響了結果的準確度;網頁文章不似科技學術文獻寫作那么規(guī)范,用詞那么準確,表征性那么高;組合詞只考慮了部分主要詞類的組合,沒有完整的語義組合規(guī)則,這也有一定的局限性;此外,人工提取關鍵詞的時候,由于各人認識不同,所以關鍵詞提取的時候,不可避免的出現人工誤差,這也會影響結果的準確度。以上原因都將是我們以后工作將要改進和努力的地方。

        4 結束語

        本文進行了三次候選詞的過濾,第一次是對停用詞的過濾,第二次是對組合后的詞組和低頻詞進行過濾。第三次是對候選詞子串的過濾。實驗發(fā)現,經過三次過濾,實驗結果的準確性較一次、兩次過濾得到大大的改善和提高。由于我們的實驗尚在在起步階段,準確率會受同義詞、近義詞等詞義方面的影響,此外還會受外譯詞語和新生詞等方面的影響。另外,本文對未登錄的新詞也起到了一定的識別作用,但對其識別的精確度還優(yōu)待改善、提高。以后的工作,我們會重點針對這些方面進行提高和改善。

        [1]FANG Jun,GUO Lei,WANG Xiaodong.Semantically improved automatic keyphrase extraction [J].Computer Science,2008,35 (6):148-151 (in Chinese). [方俊,郭雷,王曉東.基于語義的關鍵詞提取算法 [J].計算機科學,2008,35(6):148-151.]

        [2]XIE Fenghong,ZHANG Dawei,HUANG Dan,et al.Text keywords extraction based on weighted complex network [J].Journal of Systems Science and Mathematical Sciences,2010(11):1592-1596 (in Chinese). [謝鳳宏,張大為,黃丹,等.基于加權復雜網絡的文本關鍵詞提取 [J].系統(tǒng)科學與數學,2010 (11):1592-1596.]

        [3]HU Xuegang,LI Xinghua,XIE Fei,et al.Keyword extraction based on lexical chains for Chinese news web pages [J].Pattern Recognition and Artificial Intelligence,2010,23 (1):45-51 (in Chinese).[胡學鋼,李星華,謝飛,等.基于詞匯鏈的中文新聞網頁關鍵詞提取方法 [J].模式識別與人工智能,2010,23 (1):45-51.]

        [4]ZHANG Yingying,XIE Qiang,DING Qiulin.Chinese keyword extraction algorithm based on synonym chains[J].Computer Engineering,2010,36 (19):93-95 (in Chinese).[張穎穎,謝強,丁秋林.基于同義詞鏈的中文關鍵詞提取算法[J].計算機工程,2010,36 (19):93-95.]

        [5]ZHANG Jian’e.A Chinese keywords extraction approach based on TFIDF and word correlation [J].Information Science,2012,30 (10):1542-1544 (in Chinese). [張建娥.基于TFIDF和詞語關聯度的中文關鍵詞提取方法 [J].情報科學,2012,30 (10):1542-1544.]

        [6]LI Jingyue,LI Peifeng,ZHU Qiaoming.An improved TFIDF based approach to extract key words from web pages [J].Computer Applications and Software,2011,28 (5):25-27(in Chinese).[李靜月,李培峰,朱巧明.一種改進的TFIDF網頁關鍵詞提取方法 [J].計算機應用與軟件,2011,28(5):25-27.]

        [7]LUO Zhunchen,WANG Ting.Research on the Chinese keyword extraction algorithm based on separate models[J].Journal of Chinese Information Processing,2009,23 (1):63-70(in Chinese).[羅準辰,王挺.基于分離模型的中文關鍵詞提取算法研究 [J].中文信息學報,2009,23 (1):63-70.]

        [8]WANG Jinbo,WANG Lianzhi,GAO Wanlin,et al.On an improved nave Bayesian keyword extraction algorithm [J].Computer Applications and Software,2014,31 (2):174-181(in Chinese).[王錦波,王蓮芝,高萬林,等.一種改進的樸素貝葉斯關鍵詞提取算法研究 [J].計算機應用與軟件,2014,31 (2):174-181.]

        [9]ZHANG Hongying.Chinese key words extraction algorithm[J].Computer Systems&Applications,2009,26 (8):73-76(in Chinese).[張紅鷹.中文文本關鍵詞提取算法 [J].計算機系統(tǒng)應用,2009,26 (8):73-76.]

        [10]JIANG Changxing,PENG Hong,CHEN Jianchao,et al.Keywords extraction algorithm based on combined word and synset[J].Application Research of Computers,2010,27(8):2853-2856 (in Chinese). [蔣昌星,彭宏,陳建超,等.基于組合詞和同義詞集的關鍵詞提取算法 [J].計算機應用研究,2010,27 (8):2853-2856.]

        [11]YUAN Jinsheng,MAO Xinwu.Keyword extraction from Chinese news web pages based on multi-features[J].Computer Engineering and Applications,2014,50 (19):222-226 (in Chinese).[袁津生,毛新武.基于組合特征的中文新聞網頁關鍵詞提取方法 [J].計算機工程與應用,2014,50 (19):222-226.]

        猜你喜歡
        文本方法
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        學習方法
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        論《柳毅傳》對前代文本的繼承與轉化
        人間(2015年20期)2016-01-04 12:47:10
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产精品永久在线观看| 国产不卡一区二区三区视频| 日本伦理视频一区二区| 亚洲天堂精品成人影院| 丰满少妇被粗大的猛烈进出视频| 亚洲人成网站免费播放| 欧美—iGAO视频网| 久久人妻中文字幕精品一区二区| 国内精品久久久久影院薰衣草| 成年无码aⅴ片在线观看| 国产精品98视频全部国产| 亚洲无人区一码二码国产内射| 天天做天天爱夜夜爽毛片毛片| 欧美国产一区二区三区激情无套| 亚洲线精品一区二区三区八戒| 亚洲色图偷拍自拍亚洲色图| 男人吃奶摸下挵进去啪啪软件| 国产亚洲精品久久久久婷婷瑜伽| 亚洲国产精品午夜电影| 精品日韩在线观看视频| 午夜天堂精品久久久久| 久久丫精品国产亚洲av| 国产成人久久精品流白浆| 91精品国自产拍老熟女露脸| 亚洲精品无码久久久| 欧美中文在线观看| 久久精品国产亚洲av一| 国产狂喷水潮免费网站www| 亚洲男人的天堂在线播放| 久久久久久久久久免免费精品| 亚洲精品一区二区三区在线观| 免费a级毛片无码a∨中文字幕下载| 18级成人毛片免费观看| 亚洲国产日韩av一区二区 | 久久亚洲中文字幕精品一区四| 男男亚洲av无一区二区三区久久| 曰欧一片内射vα在线影院| 国产精品九九九无码喷水| 国产91在线精品观看| 免费av一区二区三区无码| 亚洲熟女少妇一区二区|