亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)鍵短語(yǔ)抽取研究現(xiàn)狀

        2017-02-23 06:48:48李珊珊周耘立
        現(xiàn)代計(jì)算機(jī) 2017年2期
        關(guān)鍵詞:排序短語(yǔ)關(guān)鍵

        李珊珊,周耘立

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 620065)

        關(guān)鍵短語(yǔ)抽取研究現(xiàn)狀

        李珊珊,周耘立

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 620065)

        在這個(gè)信息爆炸的社會(huì),如何從大量的文本快速瀏覽讀取重要信息,已經(jīng)變得越來(lái)重要。關(guān)鍵短語(yǔ)抽取就是從文本中自動(dòng)抽取文本中重要的并且能夠代表文章主題的短語(yǔ)。關(guān)鍵短語(yǔ)可以幫助讀者快速并且準(zhǔn)確地了解文本信息內(nèi)容。關(guān)鍵短語(yǔ)抽取方法可以分為無(wú)監(jiān)督方法和有監(jiān)督方法兩種,下面分別對(duì)關(guān)鍵短語(yǔ)抽取的兩種方法進(jìn)行介紹。

        關(guān)鍵短語(yǔ)抽?。缓蜻x關(guān)鍵短語(yǔ);有監(jiān)督方法;無(wú)監(jiān)督方法

        0 引言

        關(guān)鍵短語(yǔ)是文本中代表主題的詞和短語(yǔ),關(guān)鍵短語(yǔ)抽取在信息檢索任務(wù)和自然語(yǔ)言處理任務(wù)中都有著重要的作用,關(guān)鍵短語(yǔ)同樣也是文本總結(jié)、觀點(diǎn)挖掘、文本分類和檢索索引等的基本任務(wù)[1]。盡管關(guān)鍵短語(yǔ)抽取已經(jīng)做了許多研究工作,但是相比其他的自然語(yǔ)言處理研究工作,關(guān)鍵短語(yǔ)抽取仍然存在很大的挑戰(zhàn)[2]。隨著網(wǎng)絡(luò)信息的發(fā)展,網(wǎng)絡(luò)文本信息越來(lái)越多,如何從這些錯(cuò)綜復(fù)雜的網(wǎng)絡(luò)文本信息中快速瀏覽關(guān)鍵信息顯得無(wú)比重要。因此關(guān)鍵短語(yǔ)抽取具有重大的現(xiàn)實(shí)意義。本文將對(duì)現(xiàn)有的關(guān)鍵短語(yǔ)抽取方法進(jìn)行分析總結(jié)。

        1 關(guān)鍵短語(yǔ)

        關(guān)鍵短語(yǔ)是對(duì)文本內(nèi)容的簡(jiǎn)單總結(jié),關(guān)鍵短語(yǔ)對(duì)文本主題具有概括性的功能。關(guān)鍵短語(yǔ)有以下幾個(gè)特點(diǎn)[3]:

        覆蓋性:關(guān)鍵短語(yǔ)應(yīng)該是那些重要性程度高并且頻繁出現(xiàn)的短語(yǔ)。如果不是一個(gè)頻繁出現(xiàn)的候選短語(yǔ),即使它的其他特征得分高,也不能作為關(guān)鍵短語(yǔ)抽取出來(lái)。

        純度:關(guān)鍵短語(yǔ)是只在一個(gè)主題下頻繁出現(xiàn)的候選短語(yǔ),而不是在整個(gè)文檔中都頻繁的候選短語(yǔ)。

        短語(yǔ)性:當(dāng)一個(gè)詞與其他詞構(gòu)成候選短語(yǔ)共同出現(xiàn)的次數(shù)超過(guò)預(yù)期的標(biāo)準(zhǔn)值時(shí),也就是它們同現(xiàn)頻率大于一定的閾值時(shí),候選短語(yǔ)才有可能成為關(guān)鍵短語(yǔ)。

        完整性:抽取出來(lái)的關(guān)鍵短語(yǔ)應(yīng)該是詞語(yǔ)集合的全集而不是詞語(yǔ)集合的某個(gè)子集。

        關(guān)鍵短語(yǔ)抽取方法分為兩步:第一步是利用一些啟發(fā)式規(guī)則先抽取詞,然后利用以上幾個(gè)特征將詞組合成短語(yǔ)作為候選短語(yǔ);第二步是利用無(wú)監(jiān)督方法或者有監(jiān)督方法計(jì)算候選短語(yǔ)成為關(guān)鍵短語(yǔ)的得分,無(wú)監(jiān)督的方法是最終選取得分前N的候選短語(yǔ)作為關(guān)鍵短語(yǔ),有監(jiān)督的方法是當(dāng)?shù)梅殖^(guò)某個(gè)閾值時(shí),候選短語(yǔ)作為關(guān)鍵短語(yǔ)被抽取出來(lái)。

        2 關(guān)鍵短語(yǔ)抽取有監(jiān)督方法

        關(guān)鍵短語(yǔ)抽取有監(jiān)督方法是把關(guān)鍵短語(yǔ)抽取任務(wù)作為一個(gè)二分類任務(wù)。有監(jiān)督方法是利用已標(biāo)注的數(shù)據(jù)集訓(xùn)練一個(gè)分類器,對(duì)將來(lái)來(lái)的數(shù)據(jù)利用已經(jīng)訓(xùn)練好的分類器進(jìn)行關(guān)鍵短語(yǔ)的抽取。訓(xùn)練數(shù)據(jù)集中如果候選短語(yǔ)是標(biāo)注的關(guān)鍵短語(yǔ)則作為正例,如果候選短語(yǔ)不是標(biāo)注的關(guān)鍵短語(yǔ)則作為負(fù)例,這樣產(chǎn)生的正例和負(fù)例一起進(jìn)行訓(xùn)練,得到最終的分類器。不同的學(xué)習(xí)算法都可以用來(lái)訓(xùn)練分類器,包括樸素貝葉斯、決策樹、bagging、boosting、多層感知器和支持向量機(jī)等分類算法[4]。

        關(guān)鍵短語(yǔ)有監(jiān)督抽取方法需要利用特征訓(xùn)練分類器,有監(jiān)督方法利用的特征主要有兩大特征:文本本身特征和文本之外的特征。

        文本本身特征是只利用訓(xùn)練數(shù)據(jù)集的知識(shí)計(jì)算,包括:

        統(tǒng)計(jì)特征:此特征從訓(xùn)練集里獲得的統(tǒng)計(jì)信息,包括TF-IDF[5]、短語(yǔ)第一出現(xiàn)的相對(duì)位置、短語(yǔ)在訓(xùn)練數(shù)據(jù)集出現(xiàn)的次數(shù)等。

        結(jié)構(gòu)特征:表示短語(yǔ)出現(xiàn)在文章中的章節(jié)和段落特征。

        句法特征:表示候選短語(yǔ)的句法模式,例如詞性標(biāo)注序列等。

        文本之外的特征是利用除了訓(xùn)練數(shù)據(jù)集自己的知識(shí)之外其他的信息,例如詞匯知識(shí)庫(kù)(Wikipedia[6])信息、網(wǎng)絡(luò)Web信息、相似文本的信息[7]、引文網(wǎng)絡(luò)信息[8]等。

        3 關(guān)鍵短語(yǔ)抽取無(wú)監(jiān)督方法

        由于關(guān)鍵短語(yǔ)抽取有監(jiān)督方法需要大量的標(biāo)注數(shù)據(jù),但是獲取帶標(biāo)注的語(yǔ)料很困難,所以研究者們提出了關(guān)鍵短語(yǔ)抽取無(wú)監(jiān)督的方法。關(guān)鍵短語(yǔ)抽取無(wú)監(jiān)督方法可以分為三類:基于圖的排序方法、KeyCluster方法和基于主題的圖的排序算法。

        3.1 基于圖的排序方法

        傳統(tǒng)上,一個(gè)候選短語(yǔ)的重要性經(jīng)常被定義與文本中的其他候選短語(yǔ)的相關(guān)程度[9],如果某個(gè)候選短語(yǔ)與其他的候選短語(yǔ)相關(guān)高,并且其相關(guān)的候選短語(yǔ)重要性得分很高,那么這個(gè)候選短語(yǔ)的重要性得分也相對(duì)較高。研究人員計(jì)算候選短語(yǔ)之間的關(guān)聯(lián)性使用同現(xiàn)頻率和語(yǔ)義相似度,并從文檔中收集的關(guān)聯(lián)性信息表示成一個(gè)圖[10]。

        基于圖的排序方法是為每個(gè)文本建立一個(gè)圖,圖的每個(gè)頂點(diǎn)是候選短語(yǔ),圖的邊作為兩個(gè)候選短語(yǔ)的連接,其中邊的權(quán)值是兩個(gè)候選短語(yǔ)共同出現(xiàn)的次數(shù)。然后通過(guò)遞歸算法獲得每個(gè)候選短語(yǔ)的得分,最后抽取前N個(gè)候選短語(yǔ)作為關(guān)鍵短語(yǔ)。

        3.2 KeyCluster方法

        由于基于圖的排序方法沒(méi)有考慮主題對(duì)關(guān)鍵短語(yǔ)的影響,導(dǎo)致抽取的關(guān)鍵短語(yǔ)對(duì)主題的概括性差,所以研究者們提出了KeyCluster方法[11]。該方法是利用維基百科和基于共同出現(xiàn)的統(tǒng)計(jì)信息對(duì)候選短語(yǔ)進(jìn)行聚類,然后抽取聚類簇中心的幾個(gè)候選短語(yǔ)作為該主題下的關(guān)鍵短語(yǔ)。該方法可以選取所有主題下的關(guān)鍵短語(yǔ),使得抽取出的關(guān)鍵短語(yǔ)能夠概括所有主題。

        3.2 基于主題的圖的排序算法

        KeyCluster方法雖然可以使抽取的關(guān)鍵短語(yǔ)具有主題更廣發(fā)的概括性,但是卻假設(shè)一篇文本的所有主題都是同等概率的,這顯然是不合理的。所以研究者們提出了基于主題的圖的排序算法,該方法在基于圖的排序算法基礎(chǔ)上加上主題對(duì)每個(gè)候選短語(yǔ)的影響[12],并且一篇文本的每個(gè)主題有不同的概率。基于主題的圖的排序算法在保證抽取的關(guān)鍵短語(yǔ)能夠覆蓋文本的所有主題的同時(shí),又為每個(gè)主題賦予不同的概率,實(shí)驗(yàn)效果優(yōu)于KeyCluster方法。

        4 性能評(píng)價(jià)

        在關(guān)鍵短語(yǔ)抽取領(lǐng)域,一般采用召回率(Recall)、準(zhǔn)確率(Precision)和F值來(lái)衡量關(guān)鍵短語(yǔ)抽取效果[13]。召回率又稱查全率是指機(jī)器抽取正確關(guān)鍵短語(yǔ)個(gè)數(shù)占人工抽取關(guān)鍵短語(yǔ)總數(shù)的比率。準(zhǔn)確率是機(jī)器抽取正確關(guān)鍵短語(yǔ)個(gè)數(shù)占機(jī)器抽取關(guān)鍵短語(yǔ)總數(shù)的比率。

        令A(yù)表示機(jī)器抽取為關(guān)鍵短語(yǔ)且人工也抽取為關(guān)鍵短語(yǔ)的詞語(yǔ)集合;B表示機(jī)器抽取為關(guān)鍵短語(yǔ)而人工抽取為非關(guān)鍵短語(yǔ)的詞語(yǔ)集合;C表示機(jī)器抽取為非關(guān)鍵短語(yǔ)而人工抽取為關(guān)鍵短語(yǔ)的詞語(yǔ)集合;D表示機(jī)器抽取為非關(guān)鍵短語(yǔ)且人工也抽取為非關(guān)鍵短語(yǔ)的詞語(yǔ)集合。

        召回率Recall由公式(1)計(jì)算得到。

        精確率Precision由公式(2)計(jì)算得到。

        綜合考慮召回率Recall和精確率Precision的情況下,提出了F值,由(3)計(jì)算得到。

        5 結(jié)語(yǔ)

        本文對(duì)現(xiàn)有的關(guān)鍵短語(yǔ)抽取方法進(jìn)行了分析總結(jié),介紹了關(guān)鍵短語(yǔ)抽取無(wú)監(jiān)督方法和關(guān)鍵短語(yǔ)抽取有監(jiān)督方法的幾個(gè)典型算法,并闡述了它們不足之處。盡管關(guān)鍵短語(yǔ)抽取方法已經(jīng)做了大量的研究[14],但是相比較其他的自然語(yǔ)言處理任務(wù)仍有很大的不足和提升的空間。

        [1]Florian Boudin.Reducing Over-Generation Errors for Automatic Keyphrase Extraction Using Integer Linear Programming,2015.

        [2]Su Nam Kim,Olena Medelyan,Min-Yen Kan,Timothy Baldwin.Semeval-2010 task 5:Automatic Keyphrase Extraction from Scientific Articles,2010.

        [3]M.Danilevsky,C.Wang,N.Desai,J.Guo,J.Han.Automatic Construction and Ranking of Topical Keyphrases on Collections of Short Documents,2014.

        [4]K.S.Hasan,V.Ng.Automatic Keyphrase Extraction:A Survey of the State of the Art.2014.

        [5]Gerard Salton,Christopher Buckley.Termweighting Approaches in Automatic Text Retrieval,1988.

        [6]Olena Medelyan,Eibe Frank,and Ian H.Witten.Human-competitive Tagging using automatic Keyphrase Extraction,2009.

        [7]Wan,X.,Xiao,J.Single Document Keyphrase Extraction Using Neighborhood Knowledge,2008.

        [8]Caragea,Bulgarov,Godea,and Gollapalli.Citation-Enhanced Keyphrase Extraction from Research Papers:A Supervised Approach. 2014.

        [9]Yutaka Matsuo,Mitsuru Ishizuka.Keyword Extraction from a Single Document Using Word Co-occurrence Statistical Information.2004. [10]Rada Mihalcea and Paul Tarau.TextRank:Bringing Order into Texts,2004.

        [11]Zhi-yuan Liu,Chen Liang,Mao-song Sun.Topical Word Trigger Model for Keyphrase Extraction,2012.

        [12]Zhi-yuan Liu,Wen-yi Huang,Yabin Zheng,Mao-song Sun.Automatic Keyphrase Extraction Via Topic Decomposition,2010.

        [13]肖根勝.改進(jìn)TF-IDF和譜分割的關(guān)鍵詞自動(dòng)抽取方法研究[D],2012.

        [14]姚堯.自動(dòng)關(guān)鍵短語(yǔ)抽取綜述[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2015.

        Research Status of Keyphrase Extraction

        LI Shan-shan,ZHOU Yun-li

        (College of Computer Science,Sichuan University,Chengdu 610065)

        In the society with information explosion,it is more important to scan and read significance information from the vast amounts of text. Keyphrase extraction is automatically extracted from the text on behalf of the topics of article and the important phrases.Kephrase can help the reader to understand the information of the text fast and exact.The method of keyphrase extraction is divided into supervised and unsupervised way,introduces two kinds of methods of extracting keyphrases.

        Extract Keyphrases;Candidate Keyphrases;Supervised Method;Unsupervised Method

        1007-1423(2017)02-0039-03

        10.3969/j.issn.1007-1423.2017.02.010

        李珊珊(1989-),女,江蘇徐州人,碩士研究生,學(xué)生,研究方向?yàn)閿?shù)據(jù)挖掘

        2016-11-15

        2017-01-05

        周耘立(1990~),男,四川浦江人,碩士研究生,學(xué)生,研究方向?yàn)閿?shù)據(jù)挖掘

        猜你喜歡
        排序短語(yǔ)關(guān)鍵
        排序不等式
        高考考好是關(guān)鍵
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        獲勝關(guān)鍵
        NBA特刊(2014年7期)2014-04-29 00:44:03
        生意無(wú)大小,關(guān)鍵是怎么做?
        亚洲三级香港三级久久| 性xxxx18免费观看视频| 人与嘼交av免费| 欧美性爱一区二区三区无a| 美女一区二区三区在线视频| 久久婷婷五月综合97色直播| 国产在线精品欧美日韩电影| 99久久国产亚洲综合精品| 国产免费一区二区三区三| 真人做爰试看120秒| 国产特级毛片aaaaaa高清| 亚洲AV无码成人精品区天堂| 极品少妇一区二区三区| 免费观看成人欧美www色| 毛茸茸的中国女bbw| 日本国产一区二区三区在线观看| 丰满少妇被爽的高潮喷水呻吟| 国产精品无码一区二区三区电影| 色老汉免费网站免费视频| 91在线无码精品秘 入口九色十| 亚洲综合在线观看一区二区三区| 中文字幕人妻中文| 亚洲精品视频久久| 亚洲国产一区二区精品| 国产精品美女久久久免费| 中文字幕日本最新乱码视频| 欧美亚洲国产丝袜在线| 国产午夜免费一区二区三区视频| 国产网红主播无码精品| 国产在线91观看免费观看| 午夜亚洲精品一区二区| 国产在线第一区二区三区| 青青久在线视频免费观看| 91青青草久久| 中文字幕亚洲精品在线免费| 少妇仑乱a毛片| 91精品啪在线观看国产18| 丝袜美腿亚洲综合一区| 日本真人做爰免费视频120秒| 在线观看av中文字幕不卡| 中文字幕视频二区三区|