亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多文檔集合的文摘萃取系統(tǒng)研究

        2015-08-15 00:54:11
        科技視界 2015年20期
        關(guān)鍵詞:文摘文檔詞語

        李 翀

        (北京吉利學(xué)院理工學(xué)院,中國 北京102202)

        1 國內(nèi)外專利查詢及研究開發(fā)情況

        國際上對(duì)多文檔自動(dòng)文摘的研究主要是面向英語信息的處理,在該領(lǐng)域比較著名的方法是美國哥倫比亞大學(xué)Goldsdein提出的基于MMR(Maximal Marginal Relevance)的多文檔自動(dòng)文摘方法;美國密歇根大學(xué)Redev提出基于質(zhì)心的多文檔自動(dòng)文摘方法;美國羅格斯大學(xué)Boros提出的基于聚類的多文檔自動(dòng)文摘方法。與此同時(shí),一些多文檔自動(dòng)文摘系統(tǒng)也被開發(fā)出來。比較有代表性的系統(tǒng)有:(1)美國哥倫比亞大學(xué)的多文檔自動(dòng)文摘系統(tǒng)Newsblaster。其研究主要針對(duì)新聞?lì)I(lǐng)域,可以對(duì)每天發(fā)生的同主題新聞進(jìn)行摘要,目前該系統(tǒng)達(dá)到了每天上萬人次的訪問記錄(現(xiàn)正在向多語種方向發(fā)展)。(2)美國密歇根大學(xué)研究開發(fā)的WebInEssence。這是一個(gè)個(gè)性化的基于Web的多文檔自動(dòng)文摘和內(nèi)容推薦系統(tǒng)。(3)美國南加利福尼亞大學(xué)的信息科學(xué)研究所開發(fā)的原型系統(tǒng)NeATS,也是一個(gè)比較有名的多文檔自動(dòng)文摘系統(tǒng),主要用于新聞?lì)I(lǐng)域。

        由于多文檔自動(dòng)文摘中潛在著巨大商機(jī),一些企業(yè)和公司也在從事相關(guān)的研究,如:微軟多次參加了DUC會(huì)議并取得了不錯(cuò)的成績,表明其對(duì)自動(dòng)文摘技術(shù)研究的重視;Vivisimo公司也都在進(jìn)行這方面的研究。

        國內(nèi)的研究工作大多集中在單文檔自動(dòng)文摘方面。國內(nèi)研究者針對(duì)漢語特點(diǎn)進(jìn)行了不懈的努力,在漢語自動(dòng)文摘的研究中取得了一定的成就。比較有代表性的工作有:哈爾濱工業(yè)大學(xué)劉挺教授基于篇章多級(jí)依存結(jié)構(gòu)構(gòu)建了HIT2863II型自動(dòng)文摘系統(tǒng)。北京郵電大學(xué)鐘義信教授在“全信息”(包括了語法、語義、語用三個(gè)層面)理論指導(dǎo)下自動(dòng)建立了面向計(jì)算機(jī)病毒方面的Glance系統(tǒng)、面向新聞報(bào)道的News系統(tǒng)、以及面向神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法領(lǐng)域的Ladies自動(dòng)文摘系統(tǒng)。東北大學(xué)姚天順教授和香港城市理工大學(xué)聯(lián)合開展了“中文全文自動(dòng)摘要系統(tǒng)”的研究,該系統(tǒng)采用腳本知識(shí)表示,通過與用戶交互獲取文摘。

        2 擬采取的研究方法和技術(shù)路線

        多文檔的自動(dòng)文摘可以分為兩步,首先在文檔集合中選擇候選的文摘句子,然后去除掉候選文摘句子集合中的冗余的句子。本研究的主要任務(wù)是第一步,下面首先介紹候選文摘句子抽取的研究方法和技術(shù)路線,其次介紹去除冗余句子的方法。

        2.1 候選文摘句子抽取

        Wan提出使用關(guān)鍵詞和句子的關(guān)系同時(shí)進(jìn)行關(guān)鍵詞抽取和文章摘要[16],本研究受Wan的工作啟發(fā),提出使用文檔集合中四種類型實(shí)體和實(shí)體間關(guān)系進(jìn)行句子抽取及排序的方法。在文檔集合中,最小的單位是詞語(W),詞語的集合組成句子(S),句子集合組成文檔(D),文檔集合組成文檔集(Ds),而主題(T)是由文檔集合中相似度較高的詞語組成,可以通過聚類算法產(chǎn)生文檔集合中的主題。四種類型的實(shí)體包括文檔集合中的詞語、句子、主題和文檔。建立的異構(gòu)關(guān)系網(wǎng)絡(luò)圖中不僅包括同種實(shí)體之間的關(guān)系,而且包括不同類型實(shí)體間的關(guān)系,本研究所提出的自動(dòng)文摘模型中,句子的重要度不僅取決于與它相連的句子連接數(shù)目和重要度,而且取決于與它相連關(guān)鍵詞、主題、和文檔的連接數(shù)目和重要度,實(shí)體間的關(guān)系。由于句子的重要度綜合考慮了多種類型實(shí)體之間的關(guān)系,因此本研究所提出的模型可以更加合理的計(jì)算句子重要度并最終對(duì)它們排序。

        本研究所提出的模型基于以下假設(shè):

        假設(shè)1:如果一個(gè)句子(或詞語、主題、文檔)被重要度高或數(shù)目較多的其他句子(或詞語、主題、文檔)所連接,那么這個(gè)句子應(yīng)當(dāng)具有較高的重要度。

        假設(shè)2:如果一個(gè)句子被較重要的文檔包含、或者與較重要的主題相似程度大、或者包含較重要的詞語,那么這個(gè)句子應(yīng)當(dāng)具有較大的重要度。同理文檔、主題和詞語的重要度也分別由與它相連的其他類型的實(shí)體所決定。

        假設(shè)1類似于PageRank算法的思想,利用同構(gòu)實(shí)體之間的關(guān)系進(jìn)行重要度的傳遞,而假設(shè)2類似于Hits算法的思想,將各種類型的實(shí)體分別看作權(quán)威和中心。本文所提出的方法試圖在一個(gè)模型中融合PageRank和Hits模型的思想。

        2.2 去除冗余句子

        本系統(tǒng)采用MMR算法進(jìn)行冗余句子消除。該方法的大致思想為:根據(jù)重要度的大小逐句選擇文摘句,在逐步選擇句子的時(shí)候,同時(shí)考慮句子和已選擇句子的信息重疊度及句子本身的重要程度,選擇那些自身權(quán)值較高,而且與已選擇句子的信息重復(fù)量較少的句子。按照這種方法,就可以既可以保證文摘中的句子重要程度都比較高并且文摘的冗余度較低。它選擇句子的準(zhǔn)則就是選擇那些自身權(quán)值較高,而且和已選擇句子的信息重復(fù)量較少的句子。

        3 市場和應(yīng)用需求分析

        多文檔摘要可以作為單獨(dú)的系統(tǒng)使用,按照用戶定制的規(guī)則從用戶感興趣的網(wǎng)站上獲取信息、生成簡要的文摘提供給用戶,既可省去用戶直接在網(wǎng)站上瀏覽的大量時(shí)間。目前的很多研究就是在這個(gè)應(yīng)用上進(jìn)行的。

        多文檔摘要也可以應(yīng)用在信息檢索領(lǐng)域,它可以對(duì)信息檢索的結(jié)果進(jìn)行處理,將內(nèi)容相似的網(wǎng)頁進(jìn)行歸納和摘要,將摘要結(jié)果返回給用戶。假如目前的信息檢索給的前30個(gè)結(jié)果可以劃分為5個(gè)主題,但是由于搜索弓|擎的排序規(guī)則,使得其中一個(gè)主題包含的10篇文章全部出現(xiàn)在第一頁,而用戶感興趣的主題出現(xiàn)在第二頁甚至更后面,那么使用信息的效率將會(huì)大大降低。如果我們對(duì)這30個(gè)文章的5個(gè)主題分別進(jìn)行摘要,把5個(gè)摘要返回給用戶,那么用戶可以很快在第一頁上找到與自己感興趣的內(nèi)容。這樣就可以在檢索結(jié)果的第一頁中包含更多更豐富的信息,從而很好地提高了海量信息的使用效率。

        話題監(jiān)測和跟蹤TDT(Topic detection and tracking)是多文檔摘要的另一個(gè)應(yīng)用,即根據(jù)用戶感興趣的主題內(nèi)容從網(wǎng)絡(luò)信息中不斷發(fā)現(xiàn)與其相關(guān)的文本信息并與原有信息進(jìn)行匯總,生成趨勢發(fā)展分析報(bào)告等提供給用戶使用。此外,在特定領(lǐng)域上多文檔摘要技術(shù)也具有廣闊的應(yīng)用空間,如科技文獻(xiàn)摘要、股票論壇的摘要匯總、國家安全部門對(duì)非法信息的監(jiān)控等等。簡言之,多文檔摘要技術(shù)有著巨大的需求和應(yīng)用前景,這些正是推動(dòng)其發(fā)展的強(qiáng)大動(dòng)力。

        [1]Jade Goldstein,Mark Kantrowitz,Vibhu Mittal,Jaime Carbonell.Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGⅡ099,Berkeley,CA,1999:121,128.

        [2]Dragomir R.Radev,Hongyan Jing,Malgorzata Budzikowska.Centroid-based Summarization of Multiple Documents:Sentence Extraction,Utility-based Evaluation,and User Studies[C]//ANLP/NAACL2000 Workshop,Seattle,Washington,USA,April 2000,21-29.

        [3]http://newsblaster.cs.columbia.edu/[OL].

        [4]鐘義信.自然語言理解的全信息方法論[J].北京郵電大學(xué)學(xué)報(bào),2004,27(4):1-12.

        猜你喜歡
        文摘文檔詞語
        容易混淆的詞語
        有人一聲不吭向你扔了個(gè)文檔
        找詞語
        IAPA文摘
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        詞語欣賞
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        一枚詞語一門靜
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        97人妻蜜臀中文字幕| 国产精品女同一区二区软件| 国产精品亚洲最新地址| 精品国产精品久久一区免费| 日本一区二区三区区视频| 亚洲国产成人精品无码区在线播放| 国产精品多p对白交换绿帽| 99re8这里有精品热视频免费| 学生妹亚洲一区二区| 精品国产日韩无 影视| 东京道一本热码加勒比小泽| 91麻豆精品久久久影院| 久久精品国产亚洲av不卡国产| 国产精品一区二区三区卡| 欧美四房播播| 高清偷自拍第1页| 国产精品视频二区不卡| 人妻AV无码一区二区三区奥田咲 | 久久精品爱国产免费久久| 国产V亚洲V天堂A无码| 亚洲av日韩精品一区二区| 加勒比东京热一区二区| 国产va免费精品观看精品| 水蜜桃无码视频在线观看| av狼人婷婷久久亚洲综合| 精品国产污黄网站在线观看| 国产天堂av在线播放资源| 亚洲国产美女高潮久久久| 厨房人妻hd中文字幕| 精品免费久久久久久久 | 99久久精品国产成人综合| 国产精品久久久久久久久免费观看| 人妻中文字幕不卡精品| 日本高清二区视频久二区| 24小时免费在线观看av| 欧美人做人爱a全程免费| 亚洲国产无套无码av电影| 日韩精品永久免费播放平台| 日本红怡院东京热加勒比| 日本不卡一区二区三区在线视频| 无码人妻精品一区二区三区9厂|