亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞提取方法

        2017-11-20 16:37:30徐濤藍傳锜
        電腦知識與技術(shù) 2017年26期
        關(guān)鍵詞:文本實驗方法

        徐濤+藍傳锜

        摘要:藏文文本關(guān)鍵詞在文本聚類/分類、自動摘要、信息檢索等領(lǐng)域具有重要地位,然而當(dāng)前互聯(lián)網(wǎng)上的藏文新聞網(wǎng)頁幾乎沒有提供關(guān)鍵詞。并且許多已有的關(guān)鍵詞自動提取算法都需要建立在人工標(biāo)注的訓(xùn)練集之上,擴展性不強。關(guān)鍵詞是文本中主題關(guān)聯(lián)度凝聚度較高的詞,因此該文將卡方統(tǒng)計量進行改進,運用詞與詞推薦的思想進行關(guān)鍵詞抽取。通過藏文新聞網(wǎng)頁實驗結(jié)果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。

        關(guān)鍵詞:藏文信息處理;卡方統(tǒng)計量;關(guān)鍵詞抽取

        中圖分類號:TP393 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)26-0171-03

        1 概述

        藏文屬于漢藏語系,是一種古老語言并在現(xiàn)代藏語言文本被廣泛使用。隨著藏文信息的發(fā)展,尤其是藏文Web的普及,推動了藏文文本信息量的急速增長。面對大量的新聞網(wǎng)頁,單單通過標(biāo)題用戶很容易錯過有價值或是自己感興趣的內(nèi)容。如果新聞網(wǎng)頁標(biāo)注有關(guān)鍵詞,那么這些問題就迎仍而解。關(guān)鍵詞是對文檔內(nèi)容的高度概括總結(jié),反映文檔的內(nèi)容和主題,為快速閱讀、文本分類聚類、文檔檢索等都提供了很大方便。一篇文檔的關(guān)鍵詞一般都是作者在創(chuàng)建文檔時手工添加或標(biāo)注的。但是在大量的文檔中沒有添加用于描述文檔的關(guān)鍵詞,并且手工添加關(guān)鍵詞是一個枯燥而繁重的工作,所以從文檔中自動提取關(guān)鍵詞就顯得日益重要。

        在國外的關(guān)鍵詞抽取研究方面,發(fā)展比較快也建立了一些實用系統(tǒng)。最早的如KEA[1]系統(tǒng)以其良好的可擴展性而著名,該系統(tǒng)使用離散的貝葉斯方法訓(xùn)練關(guān)鍵詞抽取模型。另外GenEx[1]系統(tǒng)采用遺傳算法和C4.5決策樹歸納算法來抽取關(guān)鍵詞。也有方法直接抽取單個文檔的關(guān)鍵詞,文獻[3]就是通過LDA( latent dirichlet allocation) 模型[4]中的主題和詞的分布情況,使用給詞打分的方法直接抽取文檔關(guān)鍵詞,較好地抽取出了各主題的代表性詞。Barker和Cornacchia最早選擇名詞短語作為候選關(guān)鍵詞,再根據(jù)各個名詞短語的長度、頻率及第一個詞語的詞頻這三個特征構(gòu)造關(guān)鍵詞抽取模型[5]。Matsuo和Ishizuka用詞同現(xiàn)的統(tǒng)計特征提取關(guān)鍵詞[6]。在國內(nèi),關(guān)鍵詞抽取的研究方面雖然落后于國外,但是也進行大量的研究并取得了不錯的成果[7]。在1997年,有關(guān)于PAT-Tree的關(guān)鍵詞提取算法提出[8],這一工作主要用于提取大數(shù)據(jù)量文本的關(guān)鍵詞提取,如長篇小說等。混合方法是綜合利用語言分析和統(tǒng)計學(xué)習(xí)方法[9-10],或加入啟發(fā)式知識(如詞的位置、詞長、HTML標(biāo)記等)來提高關(guān)鍵詞提取精度。2011年楊春明等提出了快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[11],是用簡單的詞項統(tǒng)計算法進行關(guān)鍵詞抽取算法。清華大學(xué)的劉知遠提出了基于主題的關(guān)鍵詞抽取方法[12],并首次在微博關(guān)鍵詞抽取中得以應(yīng)用。尹倩,胡學(xué)鋼等[13]提出一種基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取方法應(yīng)用在中文新聞網(wǎng)頁關(guān)鍵詞提取上。

        綜上所述,在關(guān)鍵詞抽取方面,大致可分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類方法。第一類方法需要大量的標(biāo)注語料訓(xùn)練分類模型,且是針對某個特定領(lǐng)域的,主題還隨時間漂移,不適合普適性;另外,需要大量的訓(xùn)練語料,當(dāng)今關(guān)鍵詞抽取領(lǐng)域,對標(biāo)注語料的規(guī)范不統(tǒng)一,而且千差萬別,耗時耗力;而且在模型的解碼過程中還涉及的速度影響。而第二類方法不需要人工標(biāo)注訓(xùn)練集合的過程,因此更加快捷,而且主題更加更加直觀和現(xiàn)實。由于新聞網(wǎng)頁內(nèi)容領(lǐng)域涉及面比較廣,如果使用有監(jiān)督訓(xùn)練方法,抽取的出的關(guān)鍵詞主題漂移比較大,并且需要大量精確人工標(biāo)注語料,因此本文的研究使用第二類方式更為合適。

        2 藏文新聞網(wǎng)頁關(guān)鍵詞提取

        2.1 網(wǎng)頁文本處理與候選關(guān)鍵詞

        2.1.1 藏文網(wǎng)頁文本處理

        對從網(wǎng)絡(luò)中抓取的藏文新聞網(wǎng)頁進行過濾,清理網(wǎng)頁中的廣告圖片、垃圾鏈接等。并對網(wǎng)頁中新聞內(nèi)容的必要的筆記進行存取,例如,正文中的字體大小、顏色標(biāo)記等。對新聞內(nèi)容進行標(biāo)準(zhǔn)化處理,即過濾后的純文本與網(wǎng)頁前臺展現(xiàn)必須一致。最后對內(nèi)容進行編碼統(tǒng)一。

        2.1.2 候選關(guān)鍵詞

        在藏文中,詞與詞之間沒有分解開來,所以我們首選需要對文本進行分詞處理。然后去除停用詞,即去除對主題貢獻不大的詞和某些高頻詞,統(tǒng)計每個候選關(guān)鍵詞詞語出現(xiàn)的頻率和位置信息。

        在許多相關(guān)文獻中只考慮名詞作為候選關(guān)鍵詞,但其他詞性的詞語對抽取新聞網(wǎng)頁的關(guān)鍵詞有著雙面性,如動詞對抽取的關(guān)鍵詞質(zhì)量有著積極影響,而形容詞、副詞等對抽取的關(guān)鍵詞質(zhì)量有著消極影響。新聞網(wǎng)頁不同于一般的文木,它強調(diào)近來發(fā)生的具有一定社會價值的人和事,文本中的動詞更能表達新聞主題,而相對名詞動詞而言,具有的修飾特性的形容詞、副詞對文章主題的表達力度較弱。此外,對非名詞、動詞詞義的過濾將減少關(guān)鍵詞抽取算法的時空花銷。

        2.2 基于卡方統(tǒng)計量的關(guān)鍵詞提取算法

        2.2.1 卡方統(tǒng)計量

        本文將卡方統(tǒng)計量引入藏文文本的關(guān)鍵詞提取。思路很簡單,首先從單文本中選取一組詞項H(通過語料分析詞項的高tf-idf值)作為文本的初步概括(對比詞項組)。將文本中的每個句子看成為一個主題句子,計算文本候選關(guān)鍵詞詞項ti(包括詞項H中的詞項)與對比 組H中的詞項h在每個句子中的共現(xiàn)分布率[fo(ti,h)]。通過卡方統(tǒng)計量來計算ti與h的關(guān)聯(lián)程度(Degree of Bias),NiPh為理論值(期望值),Ni為ti與H中詞項總的共現(xiàn)次數(shù),Ph為詞項h的tf-idf值。

        3 試驗分析

        之前介紹了基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關(guān)鍵詞抽取方法,如何利用這種方法來更好地進行關(guān)鍵詞抽取任務(wù),本文在以下兩方面作出了研究與分析:參數(shù)設(shè)定實驗、評測實驗。參數(shù)設(shè)定實驗主要是針對本文中所設(shè)定的各種參數(shù)對關(guān)鍵詞抽取的影響,最后選取最優(yōu)參數(shù)。最后進行評測實驗,以本文最優(yōu)方法與TFIDF與啟發(fā)式信息相結(jié)合的方方法做比較,以此來分析本文方法的優(yōu)劣。endprint

        3.1 試驗數(shù)據(jù)準(zhǔn)備

        本文的實驗數(shù)據(jù)以藏文新聞關(guān)鍵詞抽取實驗。由于目前還沒有藏文關(guān)鍵詞抽取測試數(shù)據(jù)集。為保證公平性,本文數(shù)據(jù)集來源于藏文網(wǎng)站(www.tibentcm.com),從3個類別的新聞網(wǎng)頁中各抽取50篇文章進行實驗。并且在人工標(biāo)注關(guān)鍵詞方面制定了相應(yīng)的標(biāo)準(zhǔn)如下:

        (1) 每篇文章關(guān)鍵詞數(shù)量在3-8個;

        (2) 每篇文檔的關(guān)鍵詞組需要覆蓋該篇文章的所有話題;

        (3) 每個關(guān)鍵詞在該篇文章中出現(xiàn)應(yīng)大于1次;

        (4) 每篇測試文章應(yīng)不少于200個藏詞。

        3.2 評價指標(biāo)

        3.3 參數(shù)設(shè)定實驗

        在本文所展示的方法中,比較重要的一環(huán)就是待抽取文本中對比詞項H的個數(shù)設(shè)定,在本文中設(shè)定方法按照個數(shù)與文本中詞數(shù)之間的比例設(shè)為Hp,為了設(shè)定最優(yōu)Hp值,對Hp值進行多次調(diào)值后進行試驗,選取的比較優(yōu)的結(jié)果如表1。

        由此可以看出,Hp對抽取結(jié)果的影響是明顯的。由于在文中H中的詞項是待抽取文本中具有高TFIDF值的詞項,從信息檢索的角度來說,是比較重要的詞項,因此在文中起到一定的主題作用,即從理論和實驗上都能得出以這類詞組中相關(guān)聯(lián)比較緊密的詞項(通過卡方統(tǒng)計量計算),就越能體現(xiàn)出主題作用,也就是本文所抽取的關(guān)鍵詞。但是,H中的詞項個數(shù)應(yīng)該適中,如表1可以看出,Hp=35%為最優(yōu)。

        3.4 本文方法與TFIDF方法比較

        在實驗2中,按照方法劃分為3組: 1)TFIDF方法;2)TFIDF與位置特征集和的方法; 3)本文的方法.表2顯示的是這三種方法分別在第二組數(shù)據(jù)上所進行的對比實驗結(jié)果。

        由表2可見,與僅基于TFIDF特征抽取關(guān)鍵詞相比,結(jié)合位置特征抽取的關(guān)鍵詞在精確率和召回率上均有明顯提高.基于TFIDF的方法傾向于考慮高頻詞對文章主題的貢獻,增加的位置特征考慮特殊分布的詞語的重要性。而本文的方法完美詮釋了“重要詞”與“關(guān)鍵詞”的區(qū)別,使抽取的關(guān)鍵詞更能體現(xiàn)和概括文章的主題。

        4 結(jié)論

        本文以卡方統(tǒng)計量為基礎(chǔ),計算待抽取文章中詞項與文中主題緊密性,在藏文新聞內(nèi)容加以驗證,實驗結(jié)果表示,本文的方法是有效的。在實驗中還得出了對比詞項Hp的最優(yōu)結(jié)果。但是藏文測試數(shù)據(jù)規(guī)范上還有待提高,數(shù)量還需要擴展,并且在本文的方法中,主題的體現(xiàn)性上還需進行更多實驗和其他方法,如詞項聚類方法。

        參考文獻:

        [1] Witten,Paynter,F(xiàn)rank,et al.Kea: practical automatic keyphrase extraction[C].Proc of ACM Conference on Digital Libraries. New York: ACM Press,1999:254-255.

        [2] Turney. Learning to extract key phrases from text[J].NRC Technical Report ERB-1057.Canada: National Research Council,1999.

        [3] Pasquier.Task 5:single document keyphrase extraction using sentence clustering and latent dirichlet allocation[C].Proc of ACL Workshop on Semantic Evaluation,2010,154-157.

        [4] David,Anderew,Michael. Latent dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

        [5] Ken Barker,Nadia Cornacchia.Using noun phrase heads to extract document keyphrases[C].In Canadian Conference on Artificial Intelligence,2000:40-52.

        [6] Yutaka Matsuo,Mitsuru Ishizuka.KeyWord extraction from a single document using Word co-occurrence statistical information[J].International Journal on Artificial Intelligence Tools,,2004,13(1):157-169.

        [7] 章成志.自動標(biāo)引研究的回顧與展望[J].現(xiàn)代圖書情報技術(shù),2007(11):33-39.

        [8] CHIEN L.PAT-tree-based keyWord extraction for Chinese information retrieval[C].ACM SIGIR Forum.,1997:31:58.

        [9] 劉佳賓,陳超,邵正榮,等.基于機器學(xué)習(xí)的科技文摘關(guān)鍵詞自動提取方法[J].計算機工程與應(yīng)用,2007,43(14):170-172.

        [10] 張慶國,薛德軍,張振海,等.海量數(shù)據(jù)集上基于特征組合的關(guān)鍵詞自動抽取[J].情報學(xué)報,2006,25(5):587-593.

        [11] 楊春明,韓永國.快速的領(lǐng)域文檔關(guān)鍵詞自動提取算法[J].計算機工程與設(shè)計,2011,32(21):42-2145.

        [12] 劉知遠.基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].清華大學(xué).2011.

        [13] 尹倩,胡學(xué)鋼,謝飛,等.基于密度聚類模式的中文新聞網(wǎng)頁關(guān)鍵詞提取[J].廣西師范大學(xué)學(xué)報:自然科學(xué)版.2009,27(1):201-204.endprint

        猜你喜歡
        文本實驗方法
        記一次有趣的實驗
        在808DA上文本顯示的改善
        做個怪怪長實驗
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        欧美国产日韩a在线视频| 日韩毛片免费无码无毒视频观看| 国产精品成人网站| 亚洲av无码xxx麻豆艾秋| 亚洲永久无码7777kkk| 一卡二卡三卡视频| 69av在线视频| 午夜亚洲www湿好大| 国产精彩视频| 亚洲av五月天天堂网| 国产成人av三级三级三级在线| 蜜桃视频第一区免费观看| 无码精品一区二区三区在线| 男女高潮免费观看无遮挡 | 久久久大少妇免费高潮特黄| 狂插美女流出白浆视频在线观看| 午夜视频在线观看视频在线播放 | 国内精品少妇久久精品| 少妇被按摩出高潮了一区二区| 免费国产线观看免费观看| 野花社区视频在线观看| 极品粉嫩嫩模大尺度无码| 天堂岛国精品在线观看一区二区| 青青草成人原视频在线播放视频| 国模gogo无码人体啪啪| 国产精品乱码一区二区三区| 日本少妇人妻xxxxx18| 日本最新一区二区三区免费看| 男女调情视频在线观看| 曰欧一片内射vα在线影院| 国产女精品视频网站免费| 蜜桃成人永久免费av大| 亚洲av日韩综合一区尤物| 香蕉成人伊视频在线观看| 中文字幕日韩人妻不卡一区| 少妇熟女视频一区二区三区| 日本一区二区三区在线| 精品人妻一区二区三区在线观看| av色欲无码人妻中文字幕| 最新国产av无码专区亚洲| 国产伦精品一区二区三区四区|