亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘

2019-08-05 01:42:32劉伍穎

中文信息學(xué)報(bào) 2019年6期

王琳, 劉伍穎

(1. 上海外國(guó)語(yǔ)大學(xué) 賢達(dá)經(jīng)濟(jì)人文學(xué)院，上海 200083; 2. 廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室，廣東廣州 510420;3. 廣東外語(yǔ)外貿(mào)大學(xué) 網(wǎng)絡(luò)空間內(nèi)容安全工程技術(shù)研究中心，廣東廣州 510420)

0 引言

在當(dāng)前大數(shù)據(jù)時(shí)代，海量語(yǔ)言信息帶給人們的是信息過(guò)載，這使得信息的稀缺性大大降低，而人們時(shí)間的稀缺性大大提高，信息的價(jià)值不只是語(yǔ)言文字的數(shù)量，更重要的是關(guān)鍵信息的濃度。為了應(yīng)對(duì)信息爆炸，人們很早就提出了利用計(jì)算機(jī)程序提取文摘的想法，迄今發(fā)表了很多高效的自動(dòng)文摘算法文獻(xiàn)[1]。自動(dòng)文摘主要采用計(jì)算機(jī)程序把文本文檔壓縮成篇幅較短的文摘，并盡可能在文摘中保留原文檔的關(guān)鍵信息。自動(dòng)文摘技術(shù)能夠幫助人們?cè)谟邢薜臅r(shí)間內(nèi)全面把握語(yǔ)言大數(shù)據(jù)的中心內(nèi)容，因此再次成為自然語(yǔ)言處理的研究熱點(diǎn)。在本輪自動(dòng)文摘研究熱潮中，突出了非通用語(yǔ)言特色。對(duì)非通用語(yǔ)言自動(dòng)文摘技術(shù)的探索能夠豐富自然語(yǔ)言處理理論，提高多語(yǔ)種信息處理的效率，帶動(dòng)低資源語(yǔ)言的形態(tài)、句法、語(yǔ)義分析等基礎(chǔ)研究，推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。

1 相關(guān)工作

回顧相關(guān)研究歷程可知，人們?cè)缭?958年就已經(jīng)提出了自動(dòng)文摘這個(gè)概念[2]。早期的自動(dòng)文摘算法主要采用文檔的自然結(jié)構(gòu)信息(標(biāo)題、段首句、段尾句等)來(lái)估算句子的重要程度，再組合關(guān)鍵句子形成文摘。從1987年到1997年持續(xù)召開的MUC (Message Understanding Conference)學(xué)術(shù)會(huì)議就包含自動(dòng)文摘研究。

1993年底在德國(guó)召開了第一次以自動(dòng)文摘為主題的國(guó)際研討會(huì)(Summarizing Text for Intelligent Communication)。1995年國(guó)際期刊Journal of Information Processing and Management出版了Text Summarization?？痆3]。上述兩個(gè)標(biāo)志性事件掀起了自動(dòng)文摘研究的第一次熱潮，從1996年到1998年持續(xù)進(jìn)行了SUMMAC (TIPSTER Text Summarization Evaluation)評(píng)測(cè)。

接著，各種各樣的有監(jiān)督文摘算法[4]被提出，它們根據(jù)文本文檔和相應(yīng)的人工文摘學(xué)習(xí)出句子重要性特征，摘要時(shí)根據(jù)模型判斷候選句子。幾乎同時(shí)，還有很多半監(jiān)督[5]和無(wú)監(jiān)督[6]文摘算法也被提出，例如，基于質(zhì)心句子發(fā)現(xiàn)的無(wú)監(jiān)督文摘算法就是其中一種有效的方法。從2000年到2007年持續(xù)召開了DUC (Document Understanding Conference)學(xué)術(shù)會(huì)議。再后來(lái)，人們轉(zhuǎn)而關(guān)注多文檔文摘[7]研究，同時(shí)追求精煉和綜合能力。通常多文檔文摘能夠涵蓋多篇文檔的中心內(nèi)容，而且這些文檔之間往往是主題相關(guān)的[8]。從2008年至今持續(xù)召開了TAC(Text Analysis Conference)學(xué)術(shù)會(huì)議。

經(jīng)過(guò)近60年的發(fā)展，自動(dòng)文摘研究從關(guān)鍵技術(shù)探索到實(shí)用系統(tǒng)研制，基本遵循從規(guī)則方法到統(tǒng)計(jì)方法，再到混合方法的研究路徑。實(shí)用文摘系統(tǒng)在許多領(lǐng)域得到廣泛應(yīng)用，充分體現(xiàn)了自動(dòng)文摘的價(jià)值。近年來(lái)，自動(dòng)文摘研究再掀熱潮，研究焦點(diǎn)從單語(yǔ)言向多語(yǔ)言轉(zhuǎn)變[9]，很多的自動(dòng)文摘算法是針對(duì)非通用語(yǔ)言的[10]。隨著當(dāng)前東北亞安全形勢(shì)以及經(jīng)貿(mào)全球化的迫切需求，韓國(guó)語(yǔ)自動(dòng)文摘研究受到越來(lái)越多的關(guān)注。不過(guò)迄今為止，韓國(guó)語(yǔ)自動(dòng)文摘算法還比較稀少[11]，而英語(yǔ)、漢語(yǔ)等自動(dòng)文摘研究相對(duì)成熟，可供參考和借鑒。因此，本文主要圍繞韓國(guó)語(yǔ)自動(dòng)文摘這個(gè)科學(xué)問(wèn)題，從韓國(guó)語(yǔ)主要的體詞和謂詞出發(fā)，深入探索一種高效的解決方法。

2 關(guān)鍵體詞抽取與文摘算法

2.1 總體框架

圖1 總體框架

根據(jù)當(dāng)前韓國(guó)語(yǔ)文摘的實(shí)際應(yīng)用需求，我們提出如圖1所示的總體框架。給定一個(gè)韓國(guó)語(yǔ)文本文檔，首先，根據(jù)文檔的自然結(jié)構(gòu)進(jìn)行段落切分，接著，對(duì)每個(gè)段落通過(guò)依次掃描句子終結(jié)符進(jìn)行句子切分。完成上述兩步預(yù)處理后，詞性標(biāo)注模塊對(duì)每個(gè)句子進(jìn)行詞匯切分并給每個(gè)詞匯標(biāo)上詞性?；陉P(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘方法(圖1?)根據(jù)詞性標(biāo)簽對(duì)全詞進(jìn)行體詞過(guò)濾，并將全部體詞輸出至關(guān)鍵體詞抽取模塊。然后，關(guān)鍵體詞抽取模塊統(tǒng)計(jì)詞頻[12]排序體詞，并根據(jù)預(yù)設(shè)的TopN值提取前N個(gè)高頻體詞作為關(guān)鍵體詞。最后，自動(dòng)文摘模塊根據(jù)包含關(guān)鍵體詞的數(shù)量挑選信息豐富的句子組成文摘。在句子挑選過(guò)程中還可以附加MMR(Maximal Marginal Relevance)策略生成文摘，也就是獎(jiǎng)勵(lì)關(guān)鍵句子的同時(shí)懲罰與之冗余的句子，使得有限的文摘篇幅能夠容納更多的關(guān)鍵信息。

韓國(guó)語(yǔ)句子當(dāng)中最主要的成分是體詞和謂詞，包括表1所示的16類體詞和5類謂詞[13]。我們認(rèn)為韓國(guó)語(yǔ)體詞主要傳遞語(yǔ)義信息，而韓國(guó)語(yǔ)謂詞更多地?fù)?dān)負(fù)句法框架功能。因此基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘方法能夠捕獲更多的關(guān)鍵語(yǔ)義信息。為了驗(yàn)證這一假設(shè)，我們?cè)诳傮w框架中平行設(shè)計(jì)了基于關(guān)鍵謂詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘路徑(圖1?)，通過(guò)對(duì)全詞進(jìn)行謂詞過(guò)濾和關(guān)鍵謂詞抽取，挑選句子生成文摘。此外，我們還增加基于關(guān)鍵詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘路徑(圖1?)，通過(guò)從全詞中抽取關(guān)鍵詞再進(jìn)行自動(dòng)文摘[14]。

表1 體詞和謂詞類別標(biāo)簽

2.2 算法

我們認(rèn)為關(guān)鍵詞抽取和自動(dòng)文摘的真正區(qū)別僅僅是目標(biāo)信息的粒度，關(guān)鍵詞抽取的目標(biāo)是詞匯粒度，而自動(dòng)文摘的目標(biāo)是句子粒度[15]。關(guān)鍵詞抽取相當(dāng)于詞匯粒度的文摘，而自動(dòng)文摘?jiǎng)t相當(dāng)于句子粒度的“關(guān)鍵詞”抽取。由于句子粒度較大，重現(xiàn)率相對(duì)詞匯而言較低，所以通過(guò)重現(xiàn)率較高的關(guān)鍵詞匯抽取入手，再擴(kuò)展至關(guān)鍵句子的判定是我們算法的核心思想[16]。

根據(jù)上述總體框架，我們?cè)O(shè)計(jì)實(shí)現(xiàn)了一個(gè)橋接關(guān)鍵詞匯抽取和自動(dòng)文摘的算法——基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘(Key-Noun-Extraction-based Korean Summarization, KKS)算法，如圖2所示。其中有兩個(gè)預(yù)設(shè)參數(shù)Ratio和TopN，Ratio表示希望達(dá)到的文摘長(zhǎng)度占原文檔長(zhǎng)度的比，摘要時(shí)可以通過(guò)最終文摘字節(jié)數(shù)除以原文檔字節(jié)數(shù)計(jì)算實(shí)際占比，TopN表示前N個(gè)高頻體詞。整個(gè)算法主要包括7個(gè)功能函數(shù)(ParagraphPartitioning,SentenceSplitting,POSTagging,NounwordFiltering,KeynounwordExtracting,Summarizing,MMRSummarizing)。其中NounwordFiltering函數(shù)能夠過(guò)濾出16類體詞。該算法時(shí)間開銷主要包括三個(gè)循環(huán)的時(shí)間，圖2第7行循環(huán)時(shí)間僅僅正比于原文檔文本長(zhǎng)度，而圖2第17行和第23行循環(huán)時(shí)間也只和預(yù)設(shè)Ratio值相關(guān)，通常是一個(gè)相對(duì)較小的浮點(diǎn)數(shù)。該算法沒有其他的耗時(shí)操作，這樣的時(shí)間復(fù)雜度對(duì)于實(shí)際的韓國(guó)語(yǔ)文摘應(yīng)用是可以接受的。為了對(duì)比研究，我們還在總體框架下，參照?qǐng)D2算法設(shè)計(jì)實(shí)現(xiàn)了基于關(guān)鍵謂詞抽取的韓國(guó)語(yǔ)文摘算法和基于關(guān)鍵詞抽取的韓國(guó)語(yǔ)文摘算法。

圖2 基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘算法

3 實(shí)驗(yàn)

3.1 評(píng)價(jià)與語(yǔ)料

實(shí)驗(yàn)采用經(jīng)典的ROUGE (Recall-Oriented Understudy for Gisting Evaluation)評(píng)價(jià)方法，其中ROUGEk表示自動(dòng)文摘和人工文摘間的k元召回率[17]。最終報(bào)告ROUGE1、ROUGE2、ROUGE3和ROUGE4的數(shù)值，并據(jù)此評(píng)價(jià)實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)采用我們構(gòu)建的語(yǔ)料。首先，從互聯(lián)網(wǎng)上抓取了11個(gè)韓國(guó)語(yǔ)期刊的PDF格式的文檔。接著，利用程序抽取每篇文檔的文摘和正文組成純文本格式的實(shí)驗(yàn)語(yǔ)料。盡管PDF格式到純文本格式的抽取并非完美無(wú)缺，但適當(dāng)增加人工干預(yù)能夠達(dá)到較好的效果。最終，構(gòu)建出包含8 298篇純文本文檔的KorSummBank (V1.1)語(yǔ)料。表2給出了具體的源刊和文檔數(shù)。

表2 源刊文檔數(shù)

實(shí)驗(yàn)運(yùn)行時(shí)從5到95梯度設(shè)置TopN值，并分別運(yùn)行我們實(shí)現(xiàn)的體詞文摘、全詞文摘和謂詞文摘3個(gè)文摘器，再加上MMR策略，最終得到6組運(yùn)行結(jié)果。此外，我們還實(shí)現(xiàn)了一個(gè)單純的結(jié)構(gòu)文摘器用于對(duì)比。

3.2 結(jié)果與討論

KKS算法的實(shí)驗(yàn)結(jié)果如表3所示。我們發(fā)現(xiàn)體詞文摘方法的性能隨著TopN值從5增加到55而逐漸提高，隨著TopN值從55增加到95而逐漸回落，當(dāng)TopN值等于55時(shí)，四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.215 8, ROUGE2=0.086 0, ROUGE3=0.048 3, ROUGE4=0.033 3)達(dá)到最佳性能。我們還發(fā)現(xiàn)增加MMR策略之后，相應(yīng)的ROUGE1指標(biāo)有明顯提升，例如當(dāng)TopN值等于55時(shí)，體詞文摘方法的ROUGE1結(jié)果是a0.215 8，而體詞+MMR文摘方法的ROUGE1結(jié)果提高了0.012 5，是0.228 3。不過(guò)其他三項(xiàng)指標(biāo)則略有下降，而且它們的最優(yōu)值也漂移到TopN值等于35時(shí)，這主要是因?yàn)檎Z(yǔ)言結(jié)構(gòu)的靈活性造成的。表3的實(shí)驗(yàn)結(jié)果表明MMR策略能夠提升KKS算法的ROUGE1性能。

表3 體詞實(shí)驗(yàn)結(jié)果

表4給出了全詞實(shí)驗(yàn)結(jié)果。我們發(fā)現(xiàn)隨著TopN值的遞增，全詞文摘方法的性能都逐漸提高。當(dāng)TopN值等于95時(shí)，全詞文摘方法的四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.198 7, ROUGE2=0.082 5, ROUGE3=0.047 0, and ROUGE4 =0.032 3)達(dá)到最佳性能。當(dāng)TopN值等于95時(shí)，全詞+MMR文摘方法的ROUGE1指標(biāo)最優(yōu)，而其他三項(xiàng)指標(biāo)則漂移到TopN值等于85時(shí)達(dá)到最優(yōu)。對(duì)比表3中相同TopN值的數(shù)據(jù)可知: 采用全詞提取關(guān)鍵詞，文摘性能反而有所下降。我們還可以發(fā)現(xiàn)MMR策略對(duì)全詞文摘方法的ROUGE1和ROUGE2指標(biāo)都有改進(jìn)，全詞+MMR文摘方法的整體性能不及體詞+MMR文摘方法的。

表4 全詞實(shí)驗(yàn)結(jié)果

表5給出了謂詞實(shí)驗(yàn)結(jié)果。通過(guò)比較發(fā)現(xiàn)謂詞實(shí)驗(yàn)結(jié)果不及全詞和體詞的結(jié)果。這也表明謂詞主要是擔(dān)負(fù)句法框架功能，對(duì)于關(guān)鍵語(yǔ)義的表示不占主體。正因?yàn)槿绱?，“錯(cuò)上加錯(cuò)”導(dǎo)致MMR策略對(duì)于謂詞文摘方法失效。

表5 謂詞實(shí)驗(yàn)結(jié)果

圖3顯示了上述實(shí)驗(yàn)結(jié)果的ROUGE1指標(biāo)趨勢(shì)。從中不難發(fā)現(xiàn)我們KKS算法中體詞+MMR文摘方法的整體性能是最優(yōu)的。

圖3 ROUGE1實(shí)驗(yàn)結(jié)果

上述實(shí)驗(yàn)結(jié)果還表明從關(guān)鍵體詞抽取到文摘生成的泛化過(guò)程是一種有效的韓國(guó)語(yǔ)文摘方法。為了進(jìn)一步展示基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘算法的優(yōu)勢(shì)，我們?cè)诒?中給出了一個(gè)具體示例。該例中的體詞+MMR文摘方法得到的文摘幾乎重合了人工文摘(粗體部分完全一致)。

表6 示例

續(xù)表

4 結(jié)論

本文針對(duì)韓國(guó)語(yǔ)這種特定的非通用語(yǔ)言，探索了如何利用計(jì)算語(yǔ)言學(xué)知識(shí)和自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)高效自動(dòng)文摘。在KorSummBank (V1.1)語(yǔ)料上的實(shí)驗(yàn)結(jié)果證明了總體框架和KKS算法的效力，能夠很好地解決韓國(guó)語(yǔ)文摘這個(gè)科學(xué)問(wèn)題，而且MMR策略能夠大幅提升體詞和全詞文摘效果。

當(dāng)然，我們的算法仍然采用挑選原有句子集合中的一個(gè)子集的辦法，實(shí)現(xiàn)縮短原文本文檔的目標(biāo)。這可能導(dǎo)致文摘句之間有些不連貫。因此，下一步的研究將關(guān)注復(fù)述文摘方法，力求通過(guò)韓國(guó)語(yǔ)語(yǔ)義表示和生成技術(shù)實(shí)現(xiàn)類似人工摘要的簡(jiǎn)潔連貫文摘。此外，我們還準(zhǔn)備擴(kuò)展上述框架和算法，遷移用于韓國(guó)語(yǔ)多文檔文摘應(yīng)用。