亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于維基百科的多文檔自動(dòng)摘要系統(tǒng)研究*

        2011-05-14 11:58:50劉茂福胡慧君
        關(guān)鍵詞:維基百科詞條語(yǔ)料

        劉茂福,余 博,胡慧君

        (武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢430065)

        在互聯(lián)網(wǎng)搜索應(yīng)用中,搜索引擎按照網(wǎng)頁(yè)內(nèi)容與用戶(hù)查詢(xún)主題的相關(guān)度線性排序并返回結(jié)果,往往會(huì)提供數(shù)量龐大、信息重復(fù)的多個(gè)頁(yè)面集給用戶(hù),有時(shí)也會(huì)在新聞頁(yè)面的末尾處提供多篇相關(guān)報(bào)道的鏈接。為了方便用戶(hù)從海量信息中準(zhǔn)確快速地獲取用戶(hù)想要的信息,針對(duì)返回的反映不同主題的頁(yè)面集,可以利用多文檔自動(dòng)摘要技術(shù),為每個(gè)包含多個(gè)相關(guān)文檔的頁(yè)面集自動(dòng)生成一篇摘要并提供給用戶(hù),幫助用戶(hù)進(jìn)一步聚焦到真正需要的文檔集合上。對(duì)生物學(xué)文獻(xiàn)統(tǒng)計(jì)后發(fā)現(xiàn),對(duì)文本進(jìn)行人工標(biāo)引時(shí),42.7%的主題詞從原文中產(chǎn)生,47%的主題詞可以由原文中詞語(yǔ)的同義詞得到。根據(jù)這種分布規(guī)律,可以從文本中直接或間接抽取語(yǔ)句生成摘要[1],因而出現(xiàn)了抽取式多文檔自動(dòng)摘要技術(shù)。

        在對(duì)多文檔生成摘要的過(guò)程中,相關(guān)聯(lián)的文檔因共同的關(guān)鍵詞聯(lián)系在一起,若能提供有關(guān)這些關(guān)鍵詞的背景信息,對(duì)準(zhǔn)確理解多文檔的內(nèi)容,提高摘要的質(zhì)量將會(huì)提供很大幫助。例如,現(xiàn)在有很多關(guān)于中國(guó)政府在利比亞動(dòng)亂沖突中撤僑行動(dòng)的新聞頁(yè)面,用戶(hù)如果要為這些新聞頁(yè)面所形成的文檔集生成摘要,則可以利用利比亞沖突提供的背景信息對(duì)頁(yè)面內(nèi)容進(jìn)行過(guò)濾,這樣生成的摘要中將會(huì)只保留北非利比亞的撤僑行動(dòng),而將日本福島核泄露事故中的撤僑行動(dòng)內(nèi)容過(guò)濾掉,這樣生成的摘要內(nèi)容就會(huì)更精確。

        維基百科是目前世界上最大的面向互聯(lián)網(wǎng)開(kāi)放式的多語(yǔ)種百科全書(shū),它的基本組成單元是“詞條”,每一個(gè)詞條都對(duì)應(yīng)一個(gè)維基頁(yè)面。根據(jù)BBC報(bào)道,通過(guò)測(cè)驗(yàn)證實(shí),維基百科在科技方面與《大英百科全書(shū)》一樣準(zhǔn)確[2]。因此,本文利用維基百科作為提供背景信息的外部資源。對(duì)于給定的關(guān)鍵詞搜索得到其對(duì)應(yīng)的維基百科頁(yè)面,選取與文檔集主題關(guān)聯(lián)度高的那部分內(nèi)容,通過(guò)與文檔集比對(duì)來(lái)縮小摘要句的選取范圍,并用這部分內(nèi)容對(duì)文檔集里的句子進(jìn)行過(guò)濾,提高為主題生成的最終摘要的精確度。

        1 系統(tǒng)描述

        本系統(tǒng)模型采用多文檔自動(dòng)抽取式摘要方法,將文本看作句子的線性組合,將句子看作詞的線性組合[3]。計(jì)算句子TF*IDF、句子位置、句子與主題相似度以及句子長(zhǎng)度四個(gè)特征項(xiàng)的值,將各特征項(xiàng)權(quán)值按照組合優(yōu)化后得到的結(jié)果對(duì)句子排序,用搜索出的維基百科內(nèi)容對(duì)句子做相似度計(jì)算并降序排列,然后抽取摘要句。

        系統(tǒng)包括4個(gè)模塊,即文檔預(yù)處理、獨(dú)立特征計(jì)算和組合優(yōu)化、基于維基百科的摘要句過(guò)濾和摘要生成。如圖1所示。

        1.1 文檔預(yù)處理

        文檔預(yù)處理的主要任務(wù)是基于分詞詞典與停用詞表,切分文本中的詞語(yǔ)并標(biāo)注詞性,進(jìn)而統(tǒng)計(jì)詞頻并記錄位置等詞的基本信息。本系統(tǒng)將語(yǔ)料中每一個(gè)文檔分割為句子單元,在預(yù)處理過(guò)程中利用GATE作為分詞工具[4]。GATE是一個(gè)應(yīng)用廣泛的信息抽取的開(kāi)放型基礎(chǔ)架構(gòu),為用戶(hù)提供圖形化的開(kāi)發(fā)環(huán)境,被許多自然語(yǔ)言處理項(xiàng)目尤其是信息抽取研究項(xiàng)目所使用。

        將語(yǔ)料文檔用GATE分詞、提取文檔中每個(gè)單詞的詞干、標(biāo)注每個(gè)詞的詞性以及停用詞過(guò)濾,然后計(jì)算每個(gè)詞的TF*IDF值,生成預(yù)處理文件。

        1.2 特征選取和組合

        根據(jù)預(yù)處理的結(jié)果,計(jì)算每個(gè)句子的四個(gè)特征項(xiàng),即句子TF*IDF、位置、與主題相似度以及句子長(zhǎng)度。

        (1)句子 TF*IDF

        TF*IDF是短語(yǔ)在文檔中出現(xiàn)的頻率和在全體語(yǔ)料中出現(xiàn)的文檔頻率的倒數(shù)之積[5]。也就是說(shuō),在本文檔中出現(xiàn)比較頻繁而在其他文檔中不常出現(xiàn)的術(shù)語(yǔ)具有更高的信息量。該特征表示若句子包含的文檔中重要的單詞越多,該項(xiàng)得分越高。該項(xiàng)得分為句子中除去停頓詞后所有單詞的TF*IDF值的總和。

        其中,Seni,k表示第 k 個(gè)文檔中第 i個(gè)句子,w 表示 Seni,k中的非停頓詞。 STi,k表示 Seni,k的 TF*IDF 特征項(xiàng)的得分。TDoci,k、TTopici,k分別表示單詞 w 在文檔中的 TF*IDF得分以及在主題信息中的TF*IDF得分[6]。

        (2)句子位置

        系統(tǒng)將文檔內(nèi)容看作是句子的線性組合,每篇文檔中第一句話是最重要的,其他句子重要性按位置依次向后遞減。

        其 中,Pi,k表 示 Seni,k的 位 置 特 征項(xiàng)的得分;n表示第k個(gè)文檔的句子總數(shù)。

        (3)句子與主題相似度

        主題是文檔集中討論的中心內(nèi)容,每個(gè)句子與主題相似度越大則表明該句包含的重要信息越多,句子就越重要。

        其中,SSenTopici,k表示句子與主題標(biāo)題句直接相似度得分,SDoc-Topici,k表示句子與主題標(biāo)題句間接相似度[7]。

        (4)句子長(zhǎng)度采用正態(tài)分布模型計(jì)算該特征項(xiàng)的得分。句子的長(zhǎng)度越接近全部文檔句子的平均長(zhǎng)度,該特征的得分就越高。句子的平均長(zhǎng)度是同一主題下的所有文檔中的單詞的總和除以句子總和的值。因此該特征項(xiàng)的得分為:

        其中,μ為同一文檔集中所有句子的平均長(zhǎng)度;x為Seni,k中包含單詞的個(gè)數(shù)。

        本文中給每個(gè)特征項(xiàng)設(shè)置一定的權(quán)重,每個(gè)特征項(xiàng)的最后得分為該特征項(xiàng)的得分乘以權(quán)重,句子的最終得分為每個(gè)特征項(xiàng)的最后得分的總和[8]。

        1.3 基于維基百科的摘要句過(guò)濾

        由于文檔集A和文檔集B都是圍繞相同的主題展開(kāi),利用維基百科可以獲得共同主題的維基頁(yè)面內(nèi)容。一般維基頁(yè)面會(huì)在頁(yè)面頂部對(duì)詞條給出一個(gè)綜述性介紹。本系統(tǒng)把維基百科的詞條綜述性介紹看成是維基百科詞條頁(yè)面自身的一個(gè)“特殊”的單文檔摘要,利用這個(gè)“特殊摘要”對(duì)抽取得到的摘要句進(jìn)行句子過(guò)濾計(jì)算所生成的多文檔摘要中的句子和特殊摘要中的句子的相關(guān)度,將相關(guān)度低于預(yù)期閾值的句子刪除掉;最后對(duì)剩余摘要句進(jìn)行處理后生成最終摘要。

        以TAC2009提供的文檔集D0901A為例,其標(biāo)題是“Indian Pakistan conflict”,其文檔集中每篇文檔的內(nèi)容都緊緊圍繞著“印巴克什米爾沖突”這一主題展開(kāi)。因此,在維基百科中可以得到“Kashmir conflict”詞條頁(yè)面,其中,頁(yè)面頂部是對(duì)克什米爾沖突以及雙方各自立場(chǎng)的簡(jiǎn)要介紹,下面分別按照沖突的時(shí)間線索、沖突的背后原因、當(dāng)?shù)厝藱?quán)狀況和最新進(jìn)展等四大方面做了詳細(xì)描述。

        在利用維基百科生成摘要時(shí),首先從44個(gè)不同主題的文檔集里找出合適的關(guān)鍵詞或短語(yǔ)。本文選取的都是文檔集中自帶主題的關(guān)鍵詞,輸入到英文版的維基百科中搜索得到維基頁(yè)面;在每個(gè)詞條頁(yè)面中選取頁(yè)面頂部概述部分的前幾小段內(nèi)容作為詞條的背景信息,修改成和語(yǔ)料相同的XML格式,保存為后續(xù)工作中將會(huì)使用到的集合W。

        1.4 生成摘要

        生成摘要時(shí),將語(yǔ)料集A輸入到摘要系統(tǒng)計(jì)算出語(yǔ)料集A中每個(gè)句子4個(gè)特征值的得分,根據(jù)特征項(xiàng)組合優(yōu)化的結(jié)果對(duì)句子降序排列得到摘要句的集合A′,再將A′中每個(gè)句子與由維基百科生成的集合W中每一個(gè)句子做相似度計(jì)算,按照相似度值降序排列,根據(jù)摘要的長(zhǎng)度限制按照一定的順序選取句子組成摘要。

        得到摘要后,還要對(duì)其進(jìn)行后處理。簡(jiǎn)單的摘要后處理做法是遵循語(yǔ)法和習(xí)慣用語(yǔ)所生成的一些規(guī)則。本文共制定了11條規(guī)則來(lái)消除非限制性定語(yǔ)從句、時(shí)間短語(yǔ)從句等非重要信息,并使用正則表達(dá)式表示這些規(guī)則。最后從后處理得到的摘要句集合中根據(jù)摘要長(zhǎng)度要求選取句子組合成正式摘要。

        2 實(shí)驗(yàn)結(jié)果分析

        2.1 實(shí)驗(yàn)準(zhǔn)備

        本文使用的語(yǔ)料來(lái)源于 TAC2009,TAC2009共提供了44個(gè)不同主題的新聞文檔集,每個(gè)主題的文檔集都分為A和B兩個(gè)集合,每個(gè)集合都包含10篇從全球四大新聞社選取的新聞材料。與此同時(shí),TAC還組織了8位專(zhuān)家為44個(gè)語(yǔ)料集的每一個(gè)主題人工寫(xiě)了8篇摘要,并從中選取4篇摘要作為T(mén)AC人工評(píng)測(cè)對(duì)比的模板。

        在44個(gè)主題的文檔集中,并不是所有的主題都能在維基百科中定位到一個(gè)具體的頁(yè)面,有一些由于指向模糊,在維基百科中無(wú)法提供有效參考頁(yè)面。在所有的44個(gè)主題中,最終定位出40個(gè)主題的詞條。正是由于維基百科極廣泛的覆蓋面,保證了90%的主題可以從維基百科中得到背景信息。對(duì)于與著名人物相關(guān)的主題,例如“美國(guó)前副總統(tǒng)切尼槍擊誤傷事件”和“邁克爾杰克遜褻童案”,或者生活類(lèi)主題,例如塑料垃圾袋、太陽(yáng)能、處方止痛藥等,都很容易搜索出具體頁(yè)面。而在事件類(lèi)的新聞中,如果不是轟動(dòng)一時(shí)的國(guó)際事件,例如“泰科(Tyco)前CEO科茲洛夫詐騙案”,則很難從維基百科中得到詳細(xì)有效的信息。

        而在能提供出具體頁(yè)面的40個(gè)主題中,有少部分需要在維基百科中轉(zhuǎn)義成另外的詞條,例如,“世貿(mào)大廈紀(jì)念館”應(yīng)看做“911國(guó)家紀(jì)念和博物館”的轉(zhuǎn)義詞條,“印航炸彈案嫌犯審判”在維基百科中則應(yīng)該轉(zhuǎn)義為“Air India Flight 182”詞條。

        2.2 實(shí)驗(yàn)結(jié)果

        本文使用在自動(dòng)摘要領(lǐng)域內(nèi)廣泛應(yīng)用的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)作為自動(dòng)評(píng)測(cè)工具。ROUGE是一種基于要點(diǎn)召回率的評(píng)測(cè)方法,它通過(guò)考察專(zhuān)家摘要與機(jī)器摘要中相同評(píng)價(jià)單元(如n-gram、詞序、詞對(duì)等)的重疊數(shù)量來(lái)達(dá)到對(duì)文檔質(zhì)量進(jìn)行自動(dòng)評(píng)測(cè)的目的。TAC2009中采用的評(píng)價(jià)指標(biāo)有ROUGE-2和ROUGE-SU4。表1給出了使用和沒(méi)使用維基百科的兩組自動(dòng)文摘在ROUGE-2和ROUGE-SU4下的得分,以及兩組自動(dòng)文摘在人工評(píng)測(cè)下的得分。

        從表1可以看出,不論是更新前的摘要還是更新后的摘要,在ROUGE-2和ROUGE-SU4兩項(xiàng)評(píng)測(cè)中,使用了維基百科的自動(dòng)摘要得分均高于沒(méi)有使用維基百科的自動(dòng)摘要,而且提高的幅度比較明顯。相比ROUGESU4指標(biāo)得分,ROUGE-2中的得分提高幅度更大一些。原因可能是44個(gè)主題的文檔集中的絕大部分都能在維基百科中找到緊密關(guān)聯(lián)的背景信息,這歸功于維基百科越來(lái)越龐大的詞匯量和中立客觀的態(tài)度。

        在人工評(píng)測(cè)部分,使用了維基百科的結(jié)果比沒(méi)有使用維基百科的結(jié)果也有較大幅度提高。這說(shuō)明引入維基百科的想法是正確的,引入這種外部資源確實(shí)能提高摘要內(nèi)容和主題的關(guān)聯(lián)度。但是,維基百科在提高摘要質(zhì)量的同時(shí),選取錯(cuò)誤的維基頁(yè)面內(nèi)容也會(huì)對(duì)結(jié)果產(chǎn)生負(fù)面的影響。

        表1 摘要在ROUGE評(píng)測(cè)和TAC人工評(píng)測(cè)中的對(duì)比結(jié)果

        仍然以“印巴沖突”為例,文檔集中的內(nèi)容圍繞著在印巴沖突中雙方對(duì)和平所作的努力,即“Efforts made toward peace in the India-Pakistan conflict”。而在維基頁(yè)面中將之定位在頁(yè)首第一部分,即“武裝沖突”的敘述,卻忽視“和平”這個(gè)最主要的關(guān)鍵詞,因而適得其反。在維基百科的“Kashmir conflict”詞條頁(yè)面中,實(shí)際上可以在該頁(yè)面中的“Recent developments”這一部分下找到“Efforts to end the crisis”這一符合語(yǔ)料要求的內(nèi)容。由此可以看出,在維基百科中準(zhǔn)確定位相關(guān)主題的內(nèi)容是很重要的,這也是需要進(jìn)一步研究的環(huán)節(jié)。

        本文首先提出了一種通過(guò)引入維基百科作為外部資源來(lái)提高自動(dòng)摘要質(zhì)量的方法。描述了本自動(dòng)文摘系統(tǒng)的4個(gè)模塊,即文檔預(yù)處理、獨(dú)立特征計(jì)算和組合優(yōu)化、基于維基百科的摘要句過(guò)濾以及摘要生成。作為對(duì)比,本文使用本系統(tǒng)對(duì)同一批語(yǔ)料在引入和不引入維基百科的條件下生成摘要,最后用ROUGE工具進(jìn)行評(píng)測(cè)。實(shí)驗(yàn)結(jié)果證明,使用了維基百科的結(jié)果要明顯優(yōu)于沒(méi)有使用維基百科的結(jié)果,這說(shuō)明在自動(dòng)摘要系統(tǒng)中適當(dāng)?shù)匾胪獠恐R(shí)庫(kù)(例如維基百科或者百度百科)可以有效提高生成摘要的質(zhì)量。

        [1]LIN C Y.ROUGE:a package for automatic evaluation of summaries[C].In Proceedings of the Workshop on Text Summarization,Barcelona.ACL,2004.

        [2]周慶山,王京山.維基百科信息自組織模式探析[J].情報(bào)資料工作,2007(02):29-32.

        [3]SRAVANTHI M,CHOWDARY C R,KUMAR P S.QueSTS:a query specific text summarization system[C].In Proceedings of the 21st International FLAIRS Conference,F(xiàn)lorida,USA.AAAI Press,2008.

        [4]MIHALCEA R,TARAU P.TextRank:bringing order into texts[C].Proceedings of EMNLP.Barcelona,Spain:Association for Computational Linguistics,2004.

        [5]郭燕慧,鐘義信,馬志勇,等.自動(dòng)文摘綜述[J].情報(bào)學(xué)報(bào),2005,21(5):582-591.

        [6]徐超,王萌,何婷婷,等.基于局部主題關(guān)鍵句抽取的自動(dòng)文摘方法[J].計(jì)算機(jī)工程,2008,34(22):49-51.

        猜你喜歡
        維基百科詞條語(yǔ)料
        維基百科影響司法
        維基百科青年
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        2016年4月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年3月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        2016年9月中國(guó)直銷(xiāo)網(wǎng)絡(luò)熱門(mén)詞條榜
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        APP
        大數(shù)據(jù)相關(guān)詞條
        《苗防備覽》中的湘西語(yǔ)料
        91国产熟女自拍视频| 亚洲综合网在线观看首页| 精品久久久久久电影院| 美女被躁到高潮嗷嗷免费观看| 欧美牲交a欧美牲交| 男女爽爽无遮挡午夜视频| 色999欧美日韩| 免费人成网在线观看品观网| 又黄又刺激的网站久久| 日本公与熄乱理在线播放| 国产精品亚洲A∨天堂| 蜜臀久久久精品国产亚洲av| 国产自拍视频免费在线| 国产成人精品电影在线观看| 亚洲AV永久天堂在线观看| 激情免费视频一区二区三区| 免费a级毛片无码a∨蜜芽试看| 日本大尺度吃奶呻吟视频| 国产精品久久中文字幕第一页| 草青青视频手机免费观看| 久久精品亚洲精品国产色婷 | 精品国产a∨无码一区二区三区| 国产精品女同久久久久久| 精品人妻久久一日二个| 国产色在线 | 亚洲| 高清国产日韩欧美| 亚洲自偷自拍另类第一页| 欧美午夜理伦三级在线观看| 久久99精品国产麻豆| 97久久综合区小说区图片专区| 国产午夜福利小视频在线观看| 国产午夜片无码区在线播放| 国产熟妇搡bbbb搡bb七区| 无遮挡很爽视频在线观看| 中文字幕乱码在线人妻| 久久久久久久久蜜桃| 亚洲国产精品500在线观看| 国产精品毛片一区二区三区| 亚洲人交乣女bbw| 国产精品亚洲一区二区无码国产| 区二区三区亚洲精品无|