亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于被引片段識(shí)別的科技文摘綜述

        2017-12-15 00:04:18李綱徐健余輝馬亞雪
        現(xiàn)代情報(bào) 2017年9期

        李綱 徐健 余輝 馬亞雪

        [摘要][目的/意義]基于被引片段識(shí)別的科技文摘生成是文獻(xiàn)計(jì)量學(xué)、信息檢索和自然語(yǔ)言處理等領(lǐng)域共同關(guān)注的研究問(wèn)題。通過(guò)梳理相關(guān)成果,可為后續(xù)研究提供借鑒。[方法/過(guò)程]本文首先介紹被引片段概念,進(jìn)而從被引片段識(shí)別與分類(lèi)、文摘生成與評(píng)價(jià)等步驟對(duì)相關(guān)研究進(jìn)行綜述。[結(jié)果/結(jié)論]當(dāng)前被引片段識(shí)別總體上可以分為機(jī)器學(xué)習(xí)和檢索兩類(lèi),分面判定還存在標(biāo)準(zhǔn)不一致的問(wèn)題,摘要生成與評(píng)估方法相關(guān)研究較欠缺。

        [關(guān)鍵詞]被引片段;科技摘要;引文上下文

        科研工作者在科學(xué)研究活動(dòng)中通常需要閱讀大量科技文獻(xiàn)以了解研究領(lǐng)域現(xiàn)狀。在當(dāng)前學(xué)術(shù)論文數(shù)量與日俱增的情況下,通過(guò)閱讀科技文獻(xiàn)的摘要將大幅度減小科研工作者閱讀文獻(xiàn)的壓力。當(dāng)前科技文獻(xiàn)摘要的形成過(guò)程可分為作者撰寫(xiě)和自動(dòng)生成兩種方式。前者雖然能精準(zhǔn)地概括文章的核心內(nèi)容,但由于其是從作者角度而非讀者角度完成的,因此很難客觀地反映該文對(duì)學(xué)界的貢獻(xiàn)與影響。自動(dòng)文摘作為一種自動(dòng)凝練目標(biāo)文獻(xiàn)核心內(nèi)容的方法,具有效率高和客觀性強(qiáng)的特點(diǎn),因而在信息檢索與信息抽取等領(lǐng)域具有廣泛的應(yīng)用。按照摘要與原文的關(guān)系的不同,自動(dòng)文摘技術(shù)可分為抽取型文摘和理解型文摘,后者受當(dāng)前語(yǔ)義理解和自然語(yǔ)言處理技術(shù)限制較大,所以目前關(guān)于自動(dòng)文摘的研究主要集中在抽取型文摘上嘲。傳統(tǒng)抽取型摘要的做法是計(jì)算目標(biāo)文獻(xiàn)中各句子重要性并選取若干關(guān)鍵句生成文摘,這樣生成的摘要同樣不能從讀者角度反映該文的影響力。于是,越來(lái)越多的研究者嘗試從引文角度考慮該問(wèn)題闈。基于引文的摘要技術(shù)的基本概念是引文內(nèi)容,又稱(chēng)引文上下文(citation context),包含了對(duì)被引文獻(xiàn)的介紹與述評(píng),從讀者角度揭示了被引文章對(duì)學(xué)界的影響。當(dāng)前,如何通過(guò)引文上下文生成摘要存在直接法與間接法兩種思路,前者對(duì)目標(biāo)文獻(xiàn)的引文句進(jìn)行組織進(jìn)而完成摘要生成,后者需從被引文獻(xiàn)中識(shí)別出被引片段并對(duì)其進(jìn)行融合,生成最終的摘要。為方便對(duì)本文所評(píng)述自動(dòng)摘要方式有直觀的理解,筆者歸納了摘要的種類(lèi)并繪制摘要的分類(lèi)圖譜,如圖1所示。

        引文上下文是指引文標(biāo)記所處的上下文,當(dāng)前廣泛用于引用動(dòng)機(jī)識(shí)別、主題識(shí)別、信息檢索、文檔聚類(lèi)等領(lǐng)域。直接使用引文上下文生成單文檔文摘最早開(kāi)始于2008年Qazvinian等的研究,作者對(duì)被引文獻(xiàn)的引文上下文進(jìn)行聚類(lèi)與排序,從而生成被引文獻(xiàn)的摘要。Kaplan等將指代消解(corefcrenee resolver)應(yīng)用于引文上下文的抽取,實(shí)驗(yàn)證明該方法相比于其他方法在抽取引文上下文時(shí)效果更優(yōu),抽取出的內(nèi)容可進(jìn)一步用于文摘生成。HUE21等將引文句視為文獻(xiàn)的使用上下文,并將之與結(jié)構(gòu)上下文組成混合引文上下文開(kāi)展基于影響點(diǎn)的文摘研究。直接利用引文上下文生成文摘目前已有較多的成果,但引文上下文中除包含對(duì)被引文獻(xiàn)的介紹和評(píng)述外還包含了施引者的觀點(diǎn),因此有學(xué)者指出直接使用引文上下文的文摘存在主題偏移和信息缺失的問(wèn)題,因此基于被引片段的文摘生成受到越來(lái)越多研究者的關(guān)注。

        基于被引片段的文摘研究最早開(kāi)始于文獻(xiàn)“GeneratingImpact-Based Summaries for Scientific Literature”,與直接使用引文上下文生成摘要相比,這種方式生成的摘要來(lái)自于原文,從而避免了主題偏移的問(wèn)題。Mei利用文章的所有引文上下文構(gòu)建其影響模型,在原文中尋找能反映該影響的句子,并加以組織生成文摘。Cohan通過(guò)對(duì)被引片段進(jìn)行聚類(lèi),從各類(lèi)簇中抽取重要性較高的幾個(gè)句子形成文摘。在web of knowledge、Google Scholar平臺(tái)上以檢索式“cited spans summary”“reference text spans summary”等為關(guān)鍵詞進(jìn)行檢索,發(fā)現(xiàn)相關(guān)結(jié)果并不多,大量的成果集中于2014TAC和2016CL-SciSumm的會(huì)議論文上。同時(shí),國(guó)內(nèi)針對(duì)被引片段的自動(dòng)文摘相關(guān)成果則更加少。通過(guò)查找相關(guān)文獻(xiàn)進(jìn)行擴(kuò)充,通過(guò)人工閱讀共得到相關(guān)文獻(xiàn)26篇。當(dāng)前基于被引片段的文摘步驟可概括為兩步:首先從被引文獻(xiàn)中識(shí)別并抽取被引片段,并判定其在語(yǔ)篇中的功能;其次,從被引文獻(xiàn)中抽取若干句子本文通過(guò)文獻(xiàn)。本文首先用實(shí)例介紹被引片段的概念,接著以?xún)纱挝恼荣惖牟襟E歸納與評(píng)述該領(lǐng)域研究現(xiàn)狀,以期為后續(xù)相關(guān)研究提供借鑒。

        1被引片段概念

        在引文分析領(lǐng)域,“被引片段”是一個(gè)嶄新的概念,是引文內(nèi)容分析未來(lái)發(fā)展的重要的研究方向。單篇文獻(xiàn)會(huì)包含多個(gè)研究主題,而其他文獻(xiàn)在引用它時(shí)僅僅是因?yàn)槟硞€(gè)主題。施引者會(huì)引用其認(rèn)定對(duì)自己研究有參考價(jià)值的內(nèi)容,這部分內(nèi)容正是本文所述的被引片段(Cited Spans or Reference Span)。一般認(rèn)為,在一次引用過(guò)程中被引片段與引文上下文具有對(duì)應(yīng)關(guān)系,相比于被引頻次,被引片段更清晰與具體地說(shuō)明了該文獻(xiàn)對(duì)學(xué)界的貢獻(xiàn)與影響,圖2用實(shí)例說(shuō)明被引片段的概念:

        在圖2中,施引文獻(xiàn)C10-2104中被標(biāo)注的句子就是引文上下文,文獻(xiàn)C02-1025中被標(biāo)注的句子為被引片段。文獻(xiàn)C10-2104因?yàn)樾枰獙?duì)“global features”來(lái)源進(jìn)行說(shuō)明而引用了文獻(xiàn)C02-2105。此時(shí),文獻(xiàn)C02-1025中關(guān)于“global features”的描述語(yǔ)句“Global features are extracted from other occurrences of the same token in the whole document”則可稱(chēng)為對(duì)應(yīng)的被引片段。在這次引用過(guò)程中,文獻(xiàn)C02-1025中關(guān)于“global feature”的研究對(duì)文獻(xiàn)C10-2104具有一定參考價(jià)值與借鑒意義。在單次引用中,被引片段從內(nèi)容角度揭示了該文獻(xiàn)被引用的原因,反映了該文獻(xiàn)對(duì)后續(xù)研究的借鑒作用。通過(guò)組織與整合某篇文獻(xiàn)的多個(gè)被引片段,即可全面地評(píng)估其對(duì)學(xué)界的影響,進(jìn)而生成摘要。

        2被引片段識(shí)別與分類(lèi)

        2.1被引片段識(shí)別endprint

        被引片段識(shí)別就是從被引文獻(xiàn)中尋找與引文上下文相對(duì)應(yīng)的那部分內(nèi)容,識(shí)別結(jié)果可以是句子的一個(gè)片段、也可以是一個(gè)整句或者若干連續(xù)句子的集合。目前被引片段的識(shí)別方法總體上可以分為:基于信息檢索的方法、基于機(jī)器學(xué)習(xí)的方法兩類(lèi)。

        2.1.1基于信息檢索的方法

        基于信息檢索的方法將被引文獻(xiàn)中的句子按照與引文上下文的相似性或重要性進(jìn)行排序,選擇排名最靠前的句子作為被引片段。基于相似性的方法認(rèn)為被引文獻(xiàn)中與某引文上下文中相似度越高的句子越可能是其對(duì)應(yīng)的被引片段。例如,Molla通過(guò)擴(kuò)充句子規(guī)模、增加句子上下文窗口的方式對(duì)傳統(tǒng)的TF-IDF公式進(jìn)行改進(jìn)計(jì)算引文上下文與被引句之間的余弦相似度,并選取最相似的三句話作為被引片段。Cohan利用向量空間模型計(jì)算引文上下文與被引文獻(xiàn)中各句子的相似性,并將基于偽相關(guān)反饋的重排序技術(shù)引入到被引片段識(shí)別過(guò)程中。日本學(xué)者Nomoto將引文上下文視為問(wèn)題,而被引文獻(xiàn)中的句子為待選答案,被引片段的識(shí)別就轉(zhuǎn)化為問(wèn)答系統(tǒng)的問(wèn)題。該方法將基于單層神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的相似性和基于詞袋模型計(jì)算的余弦相似性進(jìn)行融合,進(jìn)而定位被引片段。而基于重要性的排序方法則認(rèn)為,句子在被引文獻(xiàn)中越重要?jiǎng)t其越有可能被其他文獻(xiàn)引用。例如,Klamp提出一種改進(jìn)的關(guān)鍵句識(shí)別算法(Textrank),將引文上下文與句子的相似性最為句子的初始權(quán)重,經(jīng)過(guò)隨機(jī)游走過(guò)程確定被引文獻(xiàn)中句子的重要性并進(jìn)行排序。

        由上可知,無(wú)論是基于相似度計(jì)算還是基于重要性排序,基于信息檢索的被引片段識(shí)別方法過(guò)程簡(jiǎn)單,效率較高。但是將被引片段識(shí)別問(wèn)題轉(zhuǎn)化為信息檢索問(wèn)題在理論上還缺乏一定的依據(jù),關(guān)于相似性與重要性的假設(shè)也需進(jìn)一步推敲。筆者認(rèn)為,只有從語(yǔ)義理解的角度對(duì)被引文獻(xiàn)與引文上下文間的關(guān)系進(jìn)行探索才能更精準(zhǔn)地尋找被引片段。此外,這種方法在操作過(guò)程中還存在兩個(gè)問(wèn)題:第一是排名前幾位的句子在位置上不一定相鄰,這不符合被引片段連續(xù)幾個(gè)句子的特征,第二是被引片段選取的門(mén)檻難以確定。

        2.1.2基于機(jī)器學(xué)習(xí)的方法

        相較于基于信息檢索的識(shí)別方法,更多研究者使用機(jī)器學(xué)習(xí)方法來(lái)識(shí)別和抽取被引片段。按照實(shí)現(xiàn)方法的不同,該方法又可分為分類(lèi)學(xué)習(xí)方法(Classification)和排序?qū)W習(xí)(Learning to rank)的方法。前者將被引片段識(shí)別問(wèn)題轉(zhuǎn)化為句子的二元分類(lèi)問(wèn)題,即被引文獻(xiàn)中所有句子被判定為匹配與不匹配兩個(gè)類(lèi)別,所有匹配的句子被即被視為被引片段。目前常用的分類(lèi)方法有支持向量機(jī),樸素貝葉斯,常用的分類(lèi)特征有位置特征和相似度特征。后者則融合多種排序特征對(duì)句子進(jìn)行排序,Cao等和Lu等學(xué)者分別利用SVMRANK和RANKLIB工具進(jìn)行此方面的探索。

        綜上所述,無(wú)論是基于分類(lèi)學(xué)習(xí)的方法還是基于排序?qū)W習(xí)的方法,均可以有效利用多種信息作為特征進(jìn)行學(xué)習(xí),但都存在一個(gè)較大的問(wèn)題:類(lèi)別不均衡。在尋找引文上下文的過(guò)程中,被引文獻(xiàn)中僅少數(shù)幾個(gè)句子被標(biāo)注為被引片段,正負(fù)例比率較低使該方法識(shí)別占少數(shù)的被引片段比較困難。此外,分類(lèi)器可能將被引文獻(xiàn)中的所有句子都判定為非被引片段,同時(shí)也有可能將幾十甚至幾百個(gè)句子都判定為被引片段,這將大大降低該方法的可用性。此外,也有學(xué)者通過(guò)人工定義抽取規(guī)則,實(shí)現(xiàn)被引片段的識(shí)別。該方法具有較高的執(zhí)行效率,過(guò)程易于理解,但在實(shí)際操作過(guò)程中相關(guān)啟發(fā)式規(guī)則的歸納費(fèi)時(shí)費(fèi)力,且規(guī)則覆蓋范圍有限,從而使得該方法具有過(guò)適應(yīng)性(over-fitting)。

        2.1.3被引片段識(shí)別評(píng)價(jià)

        被引片段識(shí)別結(jié)果的評(píng)價(jià)根據(jù)粒度可分為句子和單詞兩個(gè)層面,前者通過(guò)計(jì)算系統(tǒng)識(shí)別出的被引片段和人工標(biāo)注結(jié)果之間重合度(Overlap)完成,后者則使用ROUGE完成,具體指標(biāo)有準(zhǔn)確率,召回率和F1值。目前各研究團(tuán)隊(duì)被引片段識(shí)別結(jié)果與人工標(biāo)注的結(jié)果有很大的差異,以2016年JCDL舉辦的CL-SciSumm比賽為例,目前關(guān)于被引片段識(shí)別的準(zhǔn)確率最高僅為12%。這說(shuō)明當(dāng)前關(guān)于被引片段研究還不成熟,需要就被引片段理論與特征開(kāi)展進(jìn)一步探究。

        2.2被引片段分類(lèi)

        被引片段分類(lèi)的目的是形成結(jié)構(gòu)化的文摘,下面分別介紹文摘結(jié)構(gòu)相關(guān)理論、被引片段分類(lèi)及其評(píng)估過(guò)程。

        2.2.1文摘結(jié)構(gòu)相關(guān)理論

        作者在撰寫(xiě)科技文獻(xiàn)的摘要時(shí),需注意其分面邏輯性(即先寫(xiě)什么后寫(xiě)什么)以提高文摘質(zhì)量和主題表達(dá)能力。同樣地,在自動(dòng)文摘生成過(guò)程中,也要按照一定的標(biāo)準(zhǔn)對(duì)備選句子進(jìn)行分類(lèi)、組織與篩選。結(jié)構(gòu)化文摘通過(guò)收集有關(guān)目標(biāo)文獻(xiàn)各方面信息生成文摘,使得對(duì)目標(biāo)文摘描述具有全面性和簡(jiǎn)潔性。目前,國(guó)內(nèi)情報(bào)學(xué)領(lǐng)域期刊如現(xiàn)代圖書(shū)情報(bào)技術(shù)、圖書(shū)情報(bào)工作等均要求作者投稿時(shí)提交結(jié)構(gòu)化摘要,這也是目前學(xué)術(shù)文摘規(guī)范未來(lái)發(fā)展的趨勢(shì)。當(dāng)前主流的文摘結(jié)構(gòu)表示模型主要有ANSI模型、CISP模型等(具體情況見(jiàn)表1)。其中ANSI模型是從摘要的結(jié)構(gòu)進(jìn)行劃分文摘分面的,而CISP是從正文撰寫(xiě)角度進(jìn)行摘要分面劃分。2016年CL-SciSumm比賽將文摘分面定義為假說(shuō)、目標(biāo)、方法、結(jié)果、意義五類(lèi),參賽者需判定前一步驟識(shí)別出的被引片段的類(lèi)別。

        從表1中可以看出,當(dāng)前關(guān)于文摘結(jié)構(gòu)分面尚未有統(tǒng)一的標(biāo)準(zhǔn),這與各學(xué)科研究?jī)?nèi)容與研究模式有一定關(guān)系。此外,對(duì)于一些觀點(diǎn)類(lèi)、評(píng)述類(lèi)的文獻(xiàn)來(lái)說(shuō),上述偏實(shí)驗(yàn)研究類(lèi)論文的文摘結(jié)構(gòu)也并不適合。

        2.2.2被引片段分類(lèi)研究

        被引片段作為最終摘要內(nèi)容的來(lái)源,需要判定其在整個(gè)摘要結(jié)構(gòu)中的功能,該過(guò)程可視為一個(gè)多元分類(lèi)問(wèn)題。筆者認(rèn)為,既然被引片段來(lái)自于被引文獻(xiàn),則其分類(lèi)與基于正文的學(xué)術(shù)文摘結(jié)構(gòu)識(shí)別當(dāng)屬具有相關(guān)之處。Guo等分別利用支持向量機(jī)算法實(shí)現(xiàn)了基于文本內(nèi)容特征的文摘語(yǔ)句分類(lèi)。Yamamoto等在分類(lèi)特征的選取上考慮了動(dòng)詞時(shí)態(tài)、語(yǔ)句位置等信息。白光祖等針對(duì)不同類(lèi)別建立特征詞集,研究小樣本情形下學(xué)術(shù)文摘類(lèi)別判定問(wèn)題。具體到被引片段分類(lèi)上,Lu等在被引片段分類(lèi)過(guò)程中,使用了正文和引文中文本與其所在章節(jié)標(biāo)題的用詞信息。Malenfant等認(rèn)為被引片段與其對(duì)應(yīng)引文的類(lèi)別是一樣的,因此可根據(jù)引文類(lèi)別推斷被引片段的類(lèi)別。Li等使用多個(gè)分類(lèi)器進(jìn)行投票以提高分類(lèi)準(zhǔn)確率。在實(shí)際引用過(guò)程中,方法、結(jié)果類(lèi)引用較多,而意義、假說(shuō)部分的內(nèi)容引用次數(shù)較少,針對(duì)被引片段分布偏斜問(wèn)題主要解決方法有基于分類(lèi)器算法的改進(jìn)和訓(xùn)練集的重構(gòu)。與其他多分類(lèi)問(wèn)題一樣,被引片段分類(lèi)的評(píng)價(jià)指標(biāo)主要是各個(gè)類(lèi)別Precise-Recall和F-measure指標(biāo)。此外,整體層面的評(píng)價(jià)指標(biāo)有正確率,各類(lèi)別性能的宏平均和微平均等。endprint

        3文摘生成與評(píng)估

        3.1文摘生成

        目前,基于被引片段的文摘基本思路可概括為:為被引文獻(xiàn)中的每句話進(jìn)行重要性打分,通過(guò)一定策略抽取重要性較高的句子生成滿足長(zhǎng)度條件的摘要。在句子重要性打分方面,Mei等利用所有引文句和原文推測(cè)文獻(xiàn)影響力模型,該模型可以視為被引片段集合,之后計(jì)算文中各句子與該模型的KL距離作為句子重要性值。Cao等提出一種改進(jìn)的流形排序算法,該方法將文獻(xiàn)內(nèi)部句子問(wèn)相似性與引文句間相似性的值進(jìn)行線性融合,通過(guò)隨機(jī)游走過(guò)程迭代計(jì)算每個(gè)句子權(quán)重并從中選擇最重要的句子。陳海華等使用支持向量回歸(SVR)方法融合位置、長(zhǎng)度、相似性特征預(yù)測(cè)文獻(xiàn)中各句子重要性得分。Li等計(jì)算文獻(xiàn)中各句包括基于層次主題模型(HLDA)的相似度、句子長(zhǎng)度、句子位置等在內(nèi)的5種數(shù)值特征,利用線性加權(quán)的方式計(jì)算句子重要性。Saggion等用向量空間模型表示標(biāo)題、摘要、全文、引文句等文本,利用線性回歸模型對(duì)包括相似性、位置、重要性等特征參數(shù)進(jìn)行學(xué)習(xí)。系統(tǒng)生成的摘要不僅僅要求內(nèi)容全面,而且要求簡(jiǎn)潔,冗余信息少,基于被引片段的科技文摘賽事一般將之設(shè)置為選擇性任務(wù)。值得注意的是,當(dāng)前大多數(shù)研究并未嚴(yán)格使用識(shí)別出的被引片段與其類(lèi)別生成結(jié)構(gòu)化摘要,該部分研究還比較欠缺。

        自動(dòng)摘要的長(zhǎng)度一般設(shè)定為固定句子數(shù)或字符數(shù),這與具體任務(wù)要求有關(guān)。例如2016年CL-SciSumm比賽官方要求目標(biāo)摘要字?jǐn)?shù)為250個(gè)字符,而有的學(xué)者將長(zhǎng)度設(shè)置為若干句子數(shù)目。還有的學(xué)者考慮了目標(biāo)文獻(xiàn)本身長(zhǎng)度按比例設(shè)置摘要長(zhǎng)度。在實(shí)際生成摘要的過(guò)程中,存在若干用詞相同、語(yǔ)義相近的句子組成摘要的情形,此時(shí)就需要結(jié)合一定的去重策略篩除語(yǔ)義冗余的句子,使摘要盡可能全面的覆蓋文章的各個(gè)方面。當(dāng)前很多研究利用最大邊緣算法(Maximum Marginal Relevance,MMR)通過(guò)計(jì)算待選句子和已選句子的相似度,選擇超過(guò)某閾值的句子生成摘要。針對(duì)自然語(yǔ)言中多詞一義的問(wèn)題劉天祎等指出要結(jié)合相關(guān)知識(shí)庫(kù)才能更好地實(shí)現(xiàn)語(yǔ)義層面的去重。

        3.2文摘評(píng)估

        摘要評(píng)估是針對(duì)系統(tǒng)生成摘要的長(zhǎng)度、全面性、真實(shí)性、可讀性等方面的評(píng)判。具體而言,文摘評(píng)價(jià)標(biāo)準(zhǔn)的制定可以分為主觀評(píng)測(cè)和基于標(biāo)準(zhǔn)結(jié)果的兩種情況,前者需要人工閱讀系統(tǒng)生成的文摘并給出評(píng)價(jià)。后者需要提前定義目標(biāo)文獻(xiàn)文摘的參考答案(Golden standards),一般而言由原文作者撰寫(xiě)的摘要和人工生成兩種,通過(guò)對(duì)比該參考答案與系統(tǒng)生成文摘的相似性進(jìn)行文摘質(zhì)量的評(píng)價(jià)。文摘領(lǐng)域的評(píng)價(jià)指標(biāo)一般使用ROUGE,該方法基于N元詞共現(xiàn)信息計(jì)算系統(tǒng)生成文摘和人工生成文摘的匹配程度,包括ROUGE-N、ROUGE-L、ROUGE-W、ROUGE-SU四種評(píng)測(cè)標(biāo)準(zhǔn)。

        目前幾乎所有的評(píng)價(jià)方案均只限于內(nèi)容的完備性和準(zhǔn)確性上,關(guān)于摘要連貫性、可讀性等方面還未有較好的評(píng)估方案。在今后的研究中,應(yīng)考慮引入用戶對(duì)生成摘要的質(zhì)量反饋機(jī)制,提高生成摘要的連貫性和可讀性。

        4結(jié)語(yǔ)

        當(dāng)前關(guān)于被引片段文摘的研究多集中在微軟亞洲研究院組織的比賽上,而學(xué)界對(duì)于被引片段概念的了解與接受程度普遍較低,從而導(dǎo)致相關(guān)研究比較少,國(guó)內(nèi)研究則更是少之又少。本文按步驟對(duì)基于被引片段文摘技術(shù)進(jìn)行深入分析與探討,從而對(duì)整體研究進(jìn)行述評(píng)。研究發(fā)現(xiàn),當(dāng)前相關(guān)研究及其應(yīng)用中還存在若干問(wèn)題與困難。具體如下:被引片段識(shí)別與分類(lèi)是該領(lǐng)域研究的主流,然而對(duì)被引片段概念、特征等在理論層面的探討較少,目前被引片段標(biāo)注過(guò)程不規(guī)范,并未經(jīng)過(guò)多人標(biāo)注;相關(guān)研究表明零被引文獻(xiàn)也是有價(jià)值的,但該文摘方法不太適合零被引和低被引的情況,同時(shí)也存在某文獻(xiàn)被引片段過(guò)于集中導(dǎo)致文摘覆蓋面低的問(wèn)題(例如,文獻(xiàn)的方法被引用了若干次,而文獻(xiàn)的結(jié)果部分無(wú)人引用);相比于網(wǎng)頁(yè),學(xué)術(shù)文獻(xiàn)一般在10頁(yè)到30頁(yè)之間,將如此長(zhǎng)篇幅的文本壓縮成不到300個(gè)單詞的文摘,其壓縮比例和困難程度均比較大,從目前研究來(lái)看,機(jī)器生成文摘與人工生成文摘差異較大,效果并不能使人滿意;自動(dòng)文摘最終的用戶是讀者,不僅要對(duì)信息進(jìn)行濃縮還要保障其可讀性和可理解性,這種抽取型文摘僅僅是若干句子的集合,句子順序混亂與句子間邏輯缺乏,相關(guān)研究缺乏用戶對(duì)文摘質(zhì)量的反饋。

        當(dāng)前,關(guān)于被引片段的自動(dòng)文摘研究受到文獻(xiàn)計(jì)量、信息檢索、自然語(yǔ)言處理、文本挖掘等領(lǐng)域的共同關(guān)注。相關(guān)研究尚處于起步階段,尚存較多待解決問(wèn)題,未來(lái)研究中應(yīng)著重剖析被引片段概念的內(nèi)涵,優(yōu)化其識(shí)別與分類(lèi)的方法,設(shè)計(jì)更加科學(xué)合理的文摘結(jié)構(gòu),同時(shí)考慮被引片段范圍集中的問(wèn)題,生成更加全面、客觀的摘要,引入讀者對(duì)文摘的反饋機(jī)制,帶動(dòng)該項(xiàng)研究實(shí)用性水平的提升。endprint

        精品国产迪丽热巴在线| 日韩精品极品系列在线免费视频 | 国产69久久精品成人看| 色伦专区97中文字幕| 欧美亚洲国产精品久久高清| 91福利国产在线观看网站| 国产黄色一区二区三区,| 精品亚洲成a人在线观看| 国产影片中文字幕| 色欲AV成人无码精品无码| 中文字幕专区一区二区| 人妻熟妇乱又伦精品hd| 国产成人精品日本亚洲| 国产精品久久久一本精品| 加勒比av在线一区二区| 激情亚洲一区国产精品久久| 欧美黑人xxxx又粗又长| 欧美国产高清| 亚洲一区二区三区国产精品| 男女av一区二区三区| 男女车车的车车网站w98免费| 毛片无码高潮喷白浆视频| 国产偷国产偷亚洲高清| 粉嫩小泬无遮挡久久久久久| 人人添人人澡人人澡人人人人| 久久天天躁狠狠躁夜夜中文字幕| 女优av性天堂网男人天堂| 又粗又黄又猛又爽大片app| a一区二区三区乱码在线 | 欧洲| 国产av91在线播放| 一区二区视频在线观看地址| 粉嫩虎白女毛片人体| 久久男人av资源网站无码| 精品人妻av中文字幕乱| 久久亚洲av成人无码电影a片| 国产日韩成人内射视频| 色婷婷综合一区二区精品久久 | 夜夜春亚洲嫩草影院| 国产精品99久久精品爆乳| 国产在线视频网站不卡| 欧美xxxxx高潮喷水麻豆|