亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文摘評估方法

        2014-10-21 20:07:51王曉霞
        電腦迷 2014年17期
        關鍵詞:原文中文摘原文

        王曉霞

        摘 要 本文主要闡述了文摘的三大評估方法以及機械文摘質(zhì)量自動評估的實現(xiàn),通過對各種方法的具體介紹來選擇合適的文摘評估方法。

        關鍵詞 摘要 評估 評價方法

        中圖分類號:TP391 文獻標識碼:A

        自動文摘的評價方法大致可分為三大類:(1)直接(direct)評價方法;(2)基于任務的評價(task based)方法;(3)基于目標的評估(target-based)方法。以下為具體介紹:

        1直接評價方法

        在自動文摘研究的初期,主要是系統(tǒng)的開發(fā)者對文摘系統(tǒng)進行評價測試,根據(jù)評測結果來指導研究工作。因此,他們大多采用直接分析文摘質(zhì)量的方法來對系統(tǒng)性能進行評價。如下方法:

        (1)與“理想摘要”進行比較

        這種方法的核心思想是將獲得的摘要與“理想摘要”進行對比,根據(jù)兩者的相似性進行評價。與“理想摘要”越接近,則說明摘要的質(zhì)量越高。

        (2)其他方法

        提問回答評價方法認為好的摘要必須能夠闡述原文中的關鍵要點,因此,該方法要求首先對文章進行分析,取出其中的要點,根據(jù)摘要中是否包含這些要點來進行評價研究。他認為用于考試而提出的問題通常反映了文章的主題。

        2基于任務的評價方法

        為了克服直接評價方法的弱點,近年來一些研究者提出應采用基于任務的評價方法來對自動文摘系統(tǒng)進行評價,即將摘要應用于特定的任務,根據(jù)文摘系統(tǒng)對該任務的促進作用來評價文摘系統(tǒng)的性能。Brandow嘗試在IR(information retrieval)任務中評價文摘系統(tǒng)。對比采用摘要進行檢索與原文進行檢索的準確度,來確定是否可以在IR中利用摘要來代替原文。Mike(1994)嘗試在一個新聞分析任務中,根據(jù)利用摘要進行新報分析的效果來進行評價。此外,由于情報處理領域中有許多具體任務,因而不斷有研究者提出新的任務、用于基于任務的評價方法。

        3基于目標的評估方法

        這里只介紹Edmundson方法。Edmundson的評估是典型的基于目標的評估方法,他的評估目的是比較各種自動文摘方法的優(yōu)劣:標題關鍵詞法,位置法,文中關鍵詞法,指示性詞語以及這四備戰(zhàn)方法的組合。Edmundson采用了3種評估方法,分別為客觀評估、主觀評估、統(tǒng)計錯摘的句子。下面重點介紹方法的基本原理及其實現(xiàn)技術。

        評測的內(nèi)容選擇以原文為依據(jù),評估文摘是否比較準確全面地表達了原文的中心意思,其實質(zhì)就是文章質(zhì)量評測。通常,人們一般對文摘有長度限制,在表達同樣意思的前提下,認為短文較長文摘要好。這樣,好的機械文摘便可定義為“選取了最少的句子數(shù),并全面表達了原文中心意思的機械文摘。”

        語篇語言學的理論認為,語篇在意義上存在一種層次關系,即:

        語篇的中心意思=各組成意義段的中心意思按一定邏輯關系的組合

        意義段的中心意思=各組成子意義段的中心意思按一定邏輯關系的組合。

        子意義段的中心意思=各組成下位子意義段的中心意思按一定邏輯關系的組合。

        直至不能再劃分為更小的子意義段。

        需要指出的是,在任何具體語篇中,這種分層是有窮的,而且由于受長度限制,到子意義段的文摘已屬少見,一般文摘到意義段已足夠。

        這種意義上的層次關系必然要在形式上體現(xiàn)出來,即文章的句子之間大致存在一種層次關系,構成一種樹形(金字塔形)結構。層次越高所含的句子數(shù)目越少。

        4機械文摘質(zhì)量自動評估的實現(xiàn)

        (1)機械文摘質(zhì)量自動評估的模型,在這個模型中,主動要有3個方面的工作要做:

        ①原文(相當于考試的題目)的選擇。

        ②評價(這是評估的核心)。

        ③專家文摘的獲得。

        (2)原文的選擇

        這一部分工作只能由人來完成,最重要的選擇標準是原文對于參加比較的各文摘系統(tǒng)具有可比性。

        (3)評價

        評價是文摘自動評測的核心部分。在進行評價時,有以下幾個基本規(guī)定:

        ①專家文摘和機械文摘都存入文中文件中。

        ②為使專家文摘與機械文摘具有可比性,只允許專家從原文中抽取句子,而不允許專家根據(jù)自己對原文的理解重新生成句子。

        ③專家文摘和機構文摘的句子都按照在原文中出現(xiàn)的先后順序給出。

        ④定義

        重合率p=匹配句子數(shù)/專家文摘句子數(shù)?00%

        每一個機械文摘的重合率為按n個專家給出的文摘得到的重合率的平均值。

        平均重合率=pi/n?00%

        其中,pi為相對于第i個專家的重合率; N為專家的數(shù)目。

        (4)在系統(tǒng)的實現(xiàn)中,有以下兩個因素會給評測帶來一定的困難;

        ①文摘中的句子長度不定,有的句子過長。

        ②文摘的句子數(shù)目過多。

        據(jù)觀察,這兩個問題可以解決的。

        第一個問題在一篇文章里,任意互不相同的每句話的前15個字均不相同,而句子只能從原文中摘取,因此每句話的前15個字可用來代替該句子。即若機械文摘句子的前15個字組成的字串與專家文摘中句子的前15個字組成的字串相同,則認為該機械文摘句與專家文摘句重合。

        第二個問題的解決方案在于對文摘長度的限制。在實踐中,如果文摘過長,就會失去其作為摘要的意義??梢砸?guī)定:機械文摘除了規(guī)定摘取率外還規(guī)定一個指標即文摘的總字數(shù)不能多于1000個漢字。設漢語句平均長度大于10個字,所以句子數(shù)目最多只有100。

        (5)專家文摘的獲得

        進行系統(tǒng)評價所必需的專家文摘應具有以下條件;

        ①專家文摘應與機械文摘有相同的摘取率

        ②專家文摘應該是機器可讀的。

        ③專家文摘的句序應與原文中的句序相一致。

        猜你喜歡
        原文中文摘原文
        IAPA文摘
        Subcutaneous sarcoidosis of the upper and lower extremities:A case report and review of the literature
        讓句子動起來
        文摘
        寶藏(2017年2期)2017-03-20 13:16:46
        警惕閱讀理解中原話的陷阱
        也談導數(shù)的易錯點
        導數(shù)的應用之局部不等式的構造
        嘗糞憂心
        賣身葬父
        Performance of a double-layer BAF using zeolite and ceramic as media under ammonium shock load condition
        日本伊人精品一区二区三区| 色窝窝无码一区二区三区2022| 国产精品国产午夜免费看福利| 在线观看一区二区三区国产| 国产免费牲交视频| a级毛片成人网站免费看| 波多野结衣在线播放一区| 人妻免费黄色片手机版| 公厕偷拍一区二区三区四区五区| 久久99精品九九九久久婷婷| 国产草草视频| 日本国主产一区二区三区在线观看 | 久久久久久久久久91精品日韩午夜福利| 亚洲一区中文字幕一区| 久久久噜噜噜久久中文福利| 国产精品污www一区二区三区| 欧美丝袜激情办公室在线观看| 国产av无毛无遮挡网站| 7777色鬼xxxx欧美色妇| 伊伊人成亚洲综合人网7777| 国产一区二区三区亚洲天堂| 国产精品白浆一区二区免费看| 少妇高潮惨叫久久久久久电影| 一区二区日韩国产精品| 久久婷婷夜色精品国产| 女人被狂躁的高潮免费视频| 久久久精品人妻一区二区三区四 | 一级毛片60分钟在线播放| 日本二区视频在线观看| av影片在线免费观看| 97人妻碰碰视频免费上线| 国产精品27页| 精品国产三区在线观看| 少妇中文字幕乱码亚洲影视| 亚洲AV永久无码制服河南实里| av最新版天堂在资源在线| 人妻av有码中文字幕| 中国凸偷窥xxxx自由视频| 男人深夜影院无码观看| av天堂手机免费在线| 99国产精品无码|