亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘

        2019-08-05 01:42:32劉伍穎
        中文信息學(xué)報(bào) 2019年6期
        關(guān)鍵詞:全詞韓國(guó)語(yǔ)謂詞

        王 琳, 劉伍穎

        (1. 上海外國(guó)語(yǔ)大學(xué) 賢達(dá)經(jīng)濟(jì)人文學(xué)院,上海 200083; 2. 廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510420;3. 廣東外語(yǔ)外貿(mào)大學(xué) 網(wǎng)絡(luò)空間內(nèi)容安全工程技術(shù)研究中心,廣東 廣州 510420)

        0 引言

        在當(dāng)前大數(shù)據(jù)時(shí)代,海量語(yǔ)言信息帶給人們的是信息過(guò)載,這使得信息的稀缺性大大降低,而人們時(shí)間的稀缺性大大提高,信息的價(jià)值不只是語(yǔ)言文字的數(shù)量,更重要的是關(guān)鍵信息的濃度。為了應(yīng)對(duì)信息爆炸,人們很早就提出了利用計(jì)算機(jī)程序提取文摘的想法,迄今發(fā)表了很多高效的自動(dòng)文摘算法文獻(xiàn)[1]。自動(dòng)文摘主要采用計(jì)算機(jī)程序把文本文檔壓縮成篇幅較短的文摘,并盡可能在文摘中保留原文檔的關(guān)鍵信息。自動(dòng)文摘技術(shù)能夠幫助人們?cè)谟邢薜臅r(shí)間內(nèi)全面把握語(yǔ)言大數(shù)據(jù)的中心內(nèi)容,因此再次成為自然語(yǔ)言處理的研究熱點(diǎn)。在本輪自動(dòng)文摘研究熱潮中,突出了非通用語(yǔ)言特色。對(duì)非通用語(yǔ)言自動(dòng)文摘技術(shù)的探索能夠豐富自然語(yǔ)言處理理論,提高多語(yǔ)種信息處理的效率,帶動(dòng)低資源語(yǔ)言的形態(tài)、句法、語(yǔ)義分析等基礎(chǔ)研究,推動(dòng)人工智能技術(shù)的進(jìn)一步發(fā)展。

        1 相關(guān)工作

        回顧相關(guān)研究歷程可知,人們?cè)缭?958年就已經(jīng)提出了自動(dòng)文摘這個(gè)概念[2]。早期的自動(dòng)文摘算法主要采用文檔的自然結(jié)構(gòu)信息(標(biāo)題、段首句、段尾句等)來(lái)估算句子的重要程度,再組合關(guān)鍵句子形成文摘。從1987年到1997年持續(xù)召開的MUC (Message Understanding Conference)學(xué)術(shù)會(huì)議就包含自動(dòng)文摘研究。

        1993年底在德國(guó)召開了第一次以自動(dòng)文摘為主題的國(guó)際研討會(huì)(Summarizing Text for Intelligent Communication)。1995年國(guó)際期刊Journal of Information Processing and Management出版了Text Summarization??痆3]。上述兩個(gè)標(biāo)志性事件掀起了自動(dòng)文摘研究的第一次熱潮,從1996年到1998年持續(xù)進(jìn)行了SUMMAC (TIPSTER Text Summarization Evaluation)評(píng)測(cè)。

        接著,各種各樣的有監(jiān)督文摘算法[4]被提出,它們根據(jù)文本文檔和相應(yīng)的人工文摘學(xué)習(xí)出句子重要性特征,摘要時(shí)根據(jù)模型判斷候選句子。幾乎同時(shí),還有很多半監(jiān)督[5]和無(wú)監(jiān)督[6]文摘算法也被提出,例如,基于質(zhì)心句子發(fā)現(xiàn)的無(wú)監(jiān)督文摘算法就是其中一種有效的方法。從2000年到2007年持續(xù)召開了DUC (Document Understanding Conference)學(xué)術(shù)會(huì)議。再后來(lái),人們轉(zhuǎn)而關(guān)注多文檔文摘[7]研究,同時(shí)追求精煉和綜合能力。通常多文檔文摘能夠涵蓋多篇文檔的中心內(nèi)容,而且這些文檔之間往往是主題相關(guān)的[8]。從2008年至今持續(xù)召開了TAC(Text Analysis Conference)學(xué)術(shù)會(huì)議。

        經(jīng)過(guò)近60年的發(fā)展,自動(dòng)文摘研究從關(guān)鍵技術(shù)探索到實(shí)用系統(tǒng)研制,基本遵循從規(guī)則方法到統(tǒng)計(jì)方法,再到混合方法的研究路徑。實(shí)用文摘系統(tǒng)在許多領(lǐng)域得到廣泛應(yīng)用,充分體現(xiàn)了自動(dòng)文摘的價(jià)值。近年來(lái),自動(dòng)文摘研究再掀熱潮,研究焦點(diǎn)從單語(yǔ)言向多語(yǔ)言轉(zhuǎn)變[9],很多的自動(dòng)文摘算法是針對(duì)非通用語(yǔ)言的[10]。隨著當(dāng)前東北亞安全形勢(shì)以及經(jīng)貿(mào)全球化的迫切需求,韓國(guó)語(yǔ)自動(dòng)文摘研究受到越來(lái)越多的關(guān)注。不過(guò)迄今為止,韓國(guó)語(yǔ)自動(dòng)文摘算法還比較稀少[11],而英語(yǔ)、漢語(yǔ)等自動(dòng)文摘研究相對(duì)成熟,可供參考和借鑒。因此,本文主要圍繞韓國(guó)語(yǔ)自動(dòng)文摘這個(gè)科學(xué)問(wèn)題,從韓國(guó)語(yǔ)主要的體詞和謂詞出發(fā),深入探索一種高效的解決方法。

        2 關(guān)鍵體詞抽取與文摘算法

        2.1 總體框架

        圖1 總體框架

        根據(jù)當(dāng)前韓國(guó)語(yǔ)文摘的實(shí)際應(yīng)用需求,我們提出如圖1所示的總體框架。給定一個(gè)韓國(guó)語(yǔ)文本文檔,首先,根據(jù)文檔的自然結(jié)構(gòu)進(jìn)行段落切分,接著,對(duì)每個(gè)段落通過(guò)依次掃描句子終結(jié)符進(jìn)行句子切分。完成上述兩步預(yù)處理后,詞性標(biāo)注模塊對(duì)每個(gè)句子進(jìn)行詞匯切分并給每個(gè)詞匯標(biāo)上詞性?;陉P(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘方法(圖1?)根據(jù)詞性標(biāo)簽對(duì)全詞進(jìn)行體詞過(guò)濾,并將全部體詞輸出至關(guān)鍵體詞抽取模塊。然后,關(guān)鍵體詞抽取模塊統(tǒng)計(jì)詞頻[12]排序體詞,并根據(jù)預(yù)設(shè)的TopN值提取前N個(gè)高頻體詞作為關(guān)鍵體詞。最后,自動(dòng)文摘模塊根據(jù)包含關(guān)鍵體詞的數(shù)量挑選信息豐富的句子組成文摘。在句子挑選過(guò)程中還可以附加MMR(Maximal Marginal Relevance)策略生成文摘,也就是獎(jiǎng)勵(lì)關(guān)鍵句子的同時(shí)懲罰與之冗余的句子,使得有限的文摘篇幅能夠容納更多的關(guān)鍵信息。

        韓國(guó)語(yǔ)句子當(dāng)中最主要的成分是體詞和謂詞,包括表1所示的16類體詞和5類謂詞[13]。我們認(rèn)為韓國(guó)語(yǔ)體詞主要傳遞語(yǔ)義信息,而韓國(guó)語(yǔ)謂詞更多地?fù)?dān)負(fù)句法框架功能。因此基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘方法能夠捕獲更多的關(guān)鍵語(yǔ)義信息。為了驗(yàn)證這一假設(shè),我們?cè)诳傮w框架中平行設(shè)計(jì)了基于關(guān)鍵謂詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘路徑(圖1?),通過(guò)對(duì)全詞進(jìn)行謂詞過(guò)濾和關(guān)鍵謂詞抽取,挑選句子生成文摘。此外,我們還增加基于關(guān)鍵詞抽取的韓國(guó)語(yǔ)自動(dòng)文摘路徑(圖1?),通過(guò)從全詞中抽取關(guān)鍵詞再進(jìn)行自動(dòng)文摘[14]。

        表1 體詞和謂詞類別標(biāo)簽

        2.2 算法

        我們認(rèn)為關(guān)鍵詞抽取和自動(dòng)文摘的真正區(qū)別僅僅是目標(biāo)信息的粒度,關(guān)鍵詞抽取的目標(biāo)是詞匯粒度,而自動(dòng)文摘的目標(biāo)是句子粒度[15]。關(guān)鍵詞抽取相當(dāng)于詞匯粒度的文摘,而自動(dòng)文摘?jiǎng)t相當(dāng)于句子粒度的“關(guān)鍵詞”抽取。由于句子粒度較大,重現(xiàn)率相對(duì)詞匯而言較低,所以通過(guò)重現(xiàn)率較高的關(guān)鍵詞匯抽取入手,再擴(kuò)展至關(guān)鍵句子的判定是我們算法的核心思想[16]。

        根據(jù)上述總體框架,我們?cè)O(shè)計(jì)實(shí)現(xiàn)了一個(gè)橋接關(guān)鍵詞匯抽取和自動(dòng)文摘的算法——基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘(Key-Noun-Extraction-based Korean Summarization, KKS)算法,如圖2所示。其中有兩個(gè)預(yù)設(shè)參數(shù)Ratio和TopN,Ratio表示希望達(dá)到的文摘長(zhǎng)度占原文檔長(zhǎng)度的比,摘要時(shí)可以通過(guò)最終文摘字節(jié)數(shù)除以原文檔字節(jié)數(shù)計(jì)算實(shí)際占比,TopN表示前N個(gè)高頻體詞。整個(gè)算法主要包括7個(gè)功能函數(shù)(ParagraphPartitioning,SentenceSplitting,POSTagging,NounwordFiltering,KeynounwordExtracting,Summarizing,MMRSummarizing)。其中NounwordFiltering函數(shù)能夠過(guò)濾出16類體詞。該算法時(shí)間開銷主要包括三個(gè)循環(huán)的時(shí)間,圖2第7行循環(huán)時(shí)間僅僅正比于原文檔文本長(zhǎng)度,而圖2第17行和第23行循環(huán)時(shí)間也只和預(yù)設(shè)Ratio值相關(guān),通常是一個(gè)相對(duì)較小的浮點(diǎn)數(shù)。該算法沒有其他的耗時(shí)操作,這樣的時(shí)間復(fù)雜度對(duì)于實(shí)際的韓國(guó)語(yǔ)文摘應(yīng)用是可以接受的。為了對(duì)比研究,我們還在總體框架下,參照?qǐng)D2算法設(shè)計(jì)實(shí)現(xiàn)了基于關(guān)鍵謂詞抽取的韓國(guó)語(yǔ)文摘算法和基于關(guān)鍵詞抽取的韓國(guó)語(yǔ)文摘算法。

        圖2 基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘算法

        3 實(shí)驗(yàn)

        3.1 評(píng)價(jià)與語(yǔ)料

        實(shí)驗(yàn)采用經(jīng)典的ROUGE (Recall-Oriented Understudy for Gisting Evaluation)評(píng)價(jià)方法,其中ROUGEk表示自動(dòng)文摘和人工文摘間的k元召回率[17]。最終報(bào)告ROUGE1、ROUGE2、ROUGE3和ROUGE4的數(shù)值,并據(jù)此評(píng)價(jià)實(shí)驗(yàn)結(jié)果。

        實(shí)驗(yàn)采用我們構(gòu)建的語(yǔ)料。首先,從互聯(lián)網(wǎng)上抓取了11個(gè)韓國(guó)語(yǔ)期刊的PDF格式的文檔。接著,利用程序抽取每篇文檔的文摘和正文組成純文本格式的實(shí)驗(yàn)語(yǔ)料。盡管PDF格式到純文本格式的抽取并非完美無(wú)缺,但適當(dāng)增加人工干預(yù)能夠達(dá)到較好的效果。最終,構(gòu)建出包含8 298篇純文本文檔的KorSummBank (V1.1)語(yǔ)料。表2給出了具體的源刊和文檔數(shù)。

        表2 源刊文檔數(shù)

        實(shí)驗(yàn)運(yùn)行時(shí)從5到95梯度設(shè)置TopN值,并分別運(yùn)行我們實(shí)現(xiàn)的體詞文摘、全詞文摘和謂詞文摘3個(gè)文摘器,再加上MMR策略,最終得到6組運(yùn)行結(jié)果。此外,我們還實(shí)現(xiàn)了一個(gè)單純的結(jié)構(gòu)文摘器用于對(duì)比。

        3.2 結(jié)果與討論

        KKS算法的實(shí)驗(yàn)結(jié)果如表3所示。我們發(fā)現(xiàn)體詞文摘方法的性能隨著TopN值從5增加到55而逐漸提高,隨著TopN值從55增加到95而逐漸回落,當(dāng)TopN值等于55時(shí),四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.215 8, ROUGE2=0.086 0, ROUGE3=0.048 3, ROUGE4=0.033 3)達(dá)到最佳性能。我們還發(fā)現(xiàn)增加MMR策略之后,相應(yīng)的ROUGE1指標(biāo)有明顯提升,例如當(dāng)TopN值等于55時(shí),體詞文摘方法的ROUGE1結(jié)果是a0.215 8,而體詞+MMR文摘方法的ROUGE1結(jié)果提高了0.012 5,是0.228 3。不過(guò)其他三項(xiàng)指標(biāo)則略有下降,而且它們的最優(yōu)值也漂移到TopN值等于35時(shí),這主要是因?yàn)檎Z(yǔ)言結(jié)構(gòu)的靈活性造成的。表3的實(shí)驗(yàn)結(jié)果表明MMR策略能夠提升KKS算法的ROUGE1性能。

        表3 體詞實(shí)驗(yàn)結(jié)果

        表4給出了全詞實(shí)驗(yàn)結(jié)果。我們發(fā)現(xiàn)隨著TopN值的遞增,全詞文摘方法的性能都逐漸提高。當(dāng)TopN值等于95時(shí),全詞文摘方法的四項(xiàng)ROUGE指標(biāo)(ROUGE1=0.198 7, ROUGE2=0.082 5, ROUGE3=0.047 0, and ROUGE4 =0.032 3)達(dá)到最佳性能。當(dāng)TopN值等于95時(shí),全詞+MMR文摘方法的ROUGE1指標(biāo)最優(yōu),而其他三項(xiàng)指標(biāo)則漂移到TopN值等于85時(shí)達(dá)到最優(yōu)。對(duì)比表3中相同TopN值的數(shù)據(jù)可知: 采用全詞提取關(guān)鍵詞,文摘性能反而有所下降。我們還可以發(fā)現(xiàn)MMR策略對(duì)全詞文摘方法的ROUGE1和ROUGE2指標(biāo)都有改進(jìn),全詞+MMR文摘方法的整體性能不及體詞+MMR文摘方法的。

        表4 全詞實(shí)驗(yàn)結(jié)果

        表5給出了謂詞實(shí)驗(yàn)結(jié)果。通過(guò)比較發(fā)現(xiàn)謂詞實(shí)驗(yàn)結(jié)果不及全詞和體詞的結(jié)果。這也表明謂詞主要是擔(dān)負(fù)句法框架功能,對(duì)于關(guān)鍵語(yǔ)義的表示不占主體。正因?yàn)槿绱?,“錯(cuò)上加錯(cuò)”導(dǎo)致MMR策略對(duì)于謂詞文摘方法失效。

        表5 謂詞實(shí)驗(yàn)結(jié)果

        圖3顯示了上述實(shí)驗(yàn)結(jié)果的ROUGE1指標(biāo)趨勢(shì)。從中不難發(fā)現(xiàn)我們KKS算法中體詞+MMR文摘方法的整體性能是最優(yōu)的。

        圖3 ROUGE1實(shí)驗(yàn)結(jié)果

        上述實(shí)驗(yàn)結(jié)果還表明從關(guān)鍵體詞抽取到文摘生成的泛化過(guò)程是一種有效的韓國(guó)語(yǔ)文摘方法。為了進(jìn)一步展示基于關(guān)鍵體詞抽取的韓國(guó)語(yǔ)文摘算法的優(yōu)勢(shì),我們?cè)诒?中給出了一個(gè)具體示例。該例中的體詞+MMR文摘方法得到的文摘幾乎重合了人工文摘(粗體部分完全一致)。

        表6 示例

        續(xù)表

        4 結(jié)論

        本文針對(duì)韓國(guó)語(yǔ)這種特定的非通用語(yǔ)言,探索了如何利用計(jì)算語(yǔ)言學(xué)知識(shí)和自然語(yǔ)言處理技術(shù)實(shí)現(xiàn)高效自動(dòng)文摘。在KorSummBank (V1.1)語(yǔ)料上的實(shí)驗(yàn)結(jié)果證明了總體框架和KKS算法的效力,能夠很好地解決韓國(guó)語(yǔ)文摘這個(gè)科學(xué)問(wèn)題,而且MMR策略能夠大幅提升體詞和全詞文摘效果。

        當(dāng)然,我們的算法仍然采用挑選原有句子集合中的一個(gè)子集的辦法,實(shí)現(xiàn)縮短原文本文檔的目標(biāo)。這可能導(dǎo)致文摘句之間有些不連貫。因此,下一步的研究將關(guān)注復(fù)述文摘方法,力求通過(guò)韓國(guó)語(yǔ)語(yǔ)義表示和生成技術(shù)實(shí)現(xiàn)類似人工摘要的簡(jiǎn)潔連貫文摘。此外,我們還準(zhǔn)備擴(kuò)展上述框架和算法,遷移用于韓國(guó)語(yǔ)多文檔文摘應(yīng)用。

        猜你喜歡
        全詞韓國(guó)語(yǔ)謂詞
        被遮蔽的邏輯謂詞
        ——論胡好對(duì)邏輯謂詞的誤讀
        黨項(xiàng)語(yǔ)謂詞前綴的分裂式
        西夏研究(2020年2期)2020-06-01 05:19:12
        韓國(guó)語(yǔ)不完全詞特征探析
        不吹不黑
        汽車工人之歌
        也談“語(yǔ)言是存在的家”——從語(yǔ)言的主詞與謂詞看存在的殊相與共相
        韓國(guó)語(yǔ)教學(xué)中“-??”的話語(yǔ)功能分析
        針對(duì)TOPIK評(píng)分標(biāo)準(zhǔn)的韓國(guó)語(yǔ)寫作教育
        韓國(guó)語(yǔ)語(yǔ)音教學(xué)方法初探
        梅花引?荊溪阻雪
        意林(2011年19期)2011-02-11 11:09:16
        亚洲av日韩av在线观看| 亚洲五月天中文字幕第一页| 日本一区二区三区四区高清不卡 | 影视av久久久噜噜噜噜噜三级| 亚洲精品久久久久久动漫| 亚洲av在线播放观看| 国产福利一区二区三区在线观看| 老鸭窝视频在线观看| 精品人妻va出轨中文字幕| 2021国内精品久久久久精免费| 亚洲精品成人久久av| 国99精品无码一区二区三区| 日韩成人大屁股内射喷水| 色欲AV成人无码精品无码| 国产亚洲日本精品二区| 国产裸体美女永久免费无遮挡| 中文字幕日韩一区二区三区不卡 | 91露脸半推半就老熟妇| 国产真人性做爰久久网站| 免费中文熟妇在线影片| 在线视频精品少白免费观看| 人与人性恔配视频免费| 人妻妺妺窝人体色www聚色窝| 亚洲精品国产不卡在线观看| 中文字幕34一区二区| 亚洲国产精品久久人人爱| 在线不卡av天堂| 久久免费看视频少妇高潮| 乱子轮熟睡1区| 无码aⅴ在线观看| 久久婷婷国产五月综合色| 极品尤物人妻堕落沉沦| 日本老熟妇毛茸茸| 亚洲电影一区二区| 日本视频在线观看一区二区 | 日本免费大片一区二区| 伊人久久大香线蕉av一区| 亚洲狼人社区av在线观看| 一本色道久久亚洲av红楼| 色一情一区二区三区四区| 国产美女69视频免费观看|