安波
中國(guó)社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所 北京 100081
復(fù)述是人類語(yǔ)言的一個(gè)普遍現(xiàn)象,美國(guó)認(rèn)知心理學(xué)家 GM Olson將復(fù)述能力看作計(jì)算機(jī)能否理解自然語(yǔ)言的標(biāo)準(zhǔn)[1,2],集中反映了語(yǔ)言的多樣性[3,4]。如句子“北京冬奧會(huì)什么時(shí)候開(kāi)幕”與“2022年冬奧會(huì)開(kāi)幕時(shí)間”表達(dá)了相似的語(yǔ)義,互為復(fù)述。復(fù)述在機(jī)器翻譯、語(yǔ)義解析、問(wèn)答系統(tǒng)和信息檢索等領(lǐng)域具有重要應(yīng)用[5-7]。
復(fù)述研究主要包括復(fù)述數(shù)據(jù)抽取、復(fù)述識(shí)別和復(fù)述生成三個(gè)任務(wù),其中復(fù)述數(shù)據(jù)抽取是構(gòu)建復(fù)述數(shù)據(jù),是復(fù)述識(shí)別和復(fù)述生成模型的基礎(chǔ),具有更為基礎(chǔ)性的研究?jī)r(jià)值。近年來(lái),深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用,基于深度學(xué)習(xí)的復(fù)述技術(shù)也被廣泛地應(yīng)用[8-13]。然而由于語(yǔ)言的多樣性,基于深度學(xué)習(xí)的自然語(yǔ)言處理模型經(jīng)常面臨魯棒性不足的問(wèn)題[14],也就是模型通常不能很好地處理相同語(yǔ)義的不同表達(dá)。復(fù)述通過(guò)復(fù)述識(shí)別和復(fù)述生成,可以有效地提升深度學(xué)習(xí)的魯棒性和泛化性[7]。
PPDB[5]是被廣泛應(yīng)用的英文復(fù)述數(shù)據(jù)集,該數(shù)據(jù)集包括復(fù)述短語(yǔ)、復(fù)述模板和復(fù)述句三種不同粒度的復(fù)述數(shù)據(jù)。復(fù)述模板是指將句子或短語(yǔ)進(jìn)一步泛化得到的抽象表示,即將句子或短語(yǔ)中的部分單詞或短語(yǔ)替換為其詞性表示。模板由模板詞和模板槽兩部分組成,模板詞表示模板中具體的單詞,模板槽表示模板中除單詞之外的詞性表示。例如,在模板“[NP1]出生于[NP2]”中,“出生于”為模板詞,“[NP1]”和“[NP2]”為模板槽,復(fù)述模板在機(jī)器翻譯中有重要應(yīng)用[15]。除此之外,英文方面還存在其他使用較為廣泛的數(shù)據(jù)集,包括Microsoft COCO Captions數(shù)據(jù)集[16]、PARANMT-50M數(shù)據(jù)集[17]、PAWS數(shù)據(jù)集[18]等。這些數(shù)據(jù)集也推動(dòng)了英文機(jī)器翻譯、語(yǔ)義解析等自然語(yǔ)言處理任務(wù)的發(fā)展。
目前,公開(kāi)的中文復(fù)述數(shù)據(jù)集包括PKU Paraphrase Bank數(shù) 據(jù) 集[19]、BQ數(shù) 據(jù) 集[20]、PAWS-X數(shù)據(jù)集[21]、百度Phoenix Paraphrase Dataset①https://ai.baidu.com/broad/subordinate?dataset=paraphrasing等,目前的中文復(fù)述數(shù)據(jù)集存在數(shù)據(jù)類型單一(復(fù)述句)、數(shù)據(jù)規(guī)模小等特點(diǎn)。缺少大規(guī)模多粒度中文復(fù)述數(shù)據(jù)集,制約了復(fù)述技術(shù)在中文自然語(yǔ)言處理任務(wù)中的應(yīng)用,也在一定程度上影響了基于深度學(xué)習(xí)的模型在中文自然語(yǔ)言處理任務(wù)中的魯棒性和泛化性。
針對(duì)上述現(xiàn)狀,本文設(shè)計(jì)并實(shí)現(xiàn)了一種中文復(fù)述抽取方法和系統(tǒng),該系統(tǒng)能夠從多種不同類型的數(shù)據(jù)源(雙語(yǔ)平行數(shù)據(jù)、單語(yǔ)可比數(shù)據(jù)和單語(yǔ)平行數(shù)據(jù))中實(shí)現(xiàn)多種粒度(短語(yǔ)、模板和句子)的中文復(fù)述抽取。該系統(tǒng)在中英文翻譯數(shù)據(jù)、電子書、電影字幕數(shù)據(jù)上實(shí)現(xiàn)了復(fù)述數(shù)據(jù)的抽取,得到了一個(gè)較大規(guī)模的多粒度中文復(fù)述數(shù)據(jù)集,包含復(fù)述短語(yǔ)、復(fù)述模板和復(fù)述句子。本文通過(guò)自動(dòng)評(píng)價(jià)和人工評(píng)價(jià)的方式對(duì)抽取到的中文復(fù)述數(shù)據(jù)進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,我們的方法抽取出的中文復(fù)述數(shù)據(jù)具有較高的語(yǔ)言多樣性和語(yǔ)義一致性。
本節(jié)從復(fù)述數(shù)據(jù)、復(fù)述抽取和復(fù)述識(shí)別三個(gè)方面介紹相關(guān)工作。
復(fù)述數(shù)據(jù)集是復(fù)述技術(shù)在自然語(yǔ)言處理任務(wù)中應(yīng)用的基礎(chǔ),在英文方面已有了多種開(kāi)源復(fù)述數(shù)據(jù)集,包括:PPDB數(shù)據(jù)集[5]、PARADE數(shù)據(jù)集[22]、Paraphrases from Twitter數(shù)據(jù)集[23]、MS COCO Captions數(shù)據(jù)集[16]、PARANMT-50M數(shù)據(jù)集[17]、Diverse styles Paraphrase數(shù)據(jù)集[24]、Opusparcus數(shù)據(jù)集[25]和PAWS-X數(shù)據(jù)集[21],以及在復(fù)述識(shí)別任務(wù)中經(jīng)常使用的MRPC數(shù)據(jù)集、PAWS數(shù)據(jù)集[18]、STS數(shù)據(jù)集[26]、Quora Question Pairs數(shù)據(jù)集[27]。其中PPDB和Opusparcus為多語(yǔ)種數(shù)據(jù)集。
中文復(fù)述數(shù)據(jù)集的發(fā)展較晚,目前開(kāi)源的中文復(fù)述數(shù)據(jù)集包括PAWS-X(中文)數(shù)據(jù)集、PKU Paraphrase Bank數(shù)據(jù)集、Phoenix Paraphrase數(shù)據(jù)集、LCQMC數(shù)據(jù)集[28]和BQ Corpus數(shù)據(jù)集。以及在復(fù)述識(shí)別等評(píng)測(cè)任務(wù)中常用的數(shù)據(jù)集:CCSK2018微眾銀行智能客服問(wèn)句匹配大賽數(shù)據(jù)集(后面簡(jiǎn)稱CCKS)②https://www.biendata.xyz/competition/CCKS2018_3、ATEC數(shù)據(jù)集③https://dc.cloud.alipay.com/index#/topic/intro?id=3和AFQMC數(shù)據(jù)集④https://tianchi.aliyun.com/competition。從表1可知,無(wú)論從規(guī)模上還是類型上,中文復(fù)述數(shù)據(jù)集都還有很大的發(fā)展空間。
表1 常用復(fù)述數(shù)據(jù)集
根據(jù)復(fù)述抽取不同的數(shù)據(jù)源,可以將復(fù)述抽取方法分為詞典抽取的方法、基于雙語(yǔ)平行語(yǔ)料的復(fù)述抽取方法和基于單語(yǔ)可比語(yǔ)料的復(fù)述抽取方法。
基于詞典的復(fù)述抽取方法主要借助于同義詞詞典進(jìn)行復(fù)述抽取,抽取的類型通常包含復(fù)述詞(同義詞)和復(fù)述句。其中復(fù)述句為同義詞的不同釋義。例如,從Wordnet[29]、同義詞詞林[30]、大詞林[31]、情感詞庫(kù)[32]和Hownet[33]等語(yǔ)言學(xué)資源中進(jìn)行復(fù)述的抽取。
基于雙語(yǔ)平行語(yǔ)料的復(fù)述抽取方法以樞軸法為代表,該方法將在目標(biāo)語(yǔ)言中具有相同翻譯結(jié)果的兩個(gè)源語(yǔ)言中的不同單詞、短語(yǔ)或模板視為復(fù)述。該方法可以抽取復(fù)述詞、復(fù)述短語(yǔ)和復(fù)述模板三種不同粒度的復(fù)述[34]。Ganitkevitch等[5]利用句法解析信息從機(jī)器翻譯的數(shù)據(jù)中抽取了英文詞、短語(yǔ)和模板三種粒度的復(fù)述,并形成PPDB數(shù)據(jù)集,進(jìn)一步地利用連續(xù)詞的一致性約束來(lái)優(yōu)化復(fù)述抽取的結(jié)果。李維剛等[36]通過(guò)雙語(yǔ)短語(yǔ)語(yǔ)義約束的方法來(lái)解決短語(yǔ)歧義性的問(wèn)題。趙世奇等[35]通過(guò)機(jī)器翻譯的方法將雙語(yǔ)平行約束轉(zhuǎn)換為單語(yǔ)可比數(shù)據(jù),然后進(jìn)行復(fù)述的抽取。
單語(yǔ)可比語(yǔ)料包括報(bào)道同一事件的不同新聞、介紹相同事物的不同百科、對(duì)同一外文書籍的不同中文譯本以及同一外文電影字幕的不同版本的翻譯等,這些數(shù)據(jù)中天然地包含了大量的復(fù)述句數(shù)據(jù),這種類型的數(shù)據(jù)被稱為單語(yǔ)平行語(yǔ)料[37]。早期的研究者,利用SVM分類器等方法將從可比數(shù)據(jù)中抽取出來(lái)概念的不同定義作為復(fù)述句[38,39]。通過(guò)對(duì)新聞的聚類等方法,實(shí)現(xiàn)了從新聞數(shù)據(jù)中的復(fù)述抽取[40,41]。He等[42]利用tweets中的URL標(biāo)簽進(jìn)行復(fù)述的抽取。近期,有研究者在Micorsoft COCO Captions數(shù)據(jù)集中對(duì)同一圖片的不同描述作為可比語(yǔ)料進(jìn)行復(fù)述抽取[16]。Zhang等[19]利用相同外文著作的不同中文譯本進(jìn)行中文復(fù)述句抽取,并開(kāi)源了復(fù)述數(shù)據(jù)集PKU paraphrase bank。
此外,隨著機(jī)器翻譯的發(fā)展,有一些工作利用回譯(back-translation)的方法進(jìn)行復(fù)述句數(shù)據(jù)集的構(gòu)建[17]。利用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行復(fù)述的生成也是當(dāng)前研究的熱點(diǎn)⑤https://github.com/Vamsi995/Paraphrase-Generator。然而現(xiàn)有的復(fù)述生成方法本身局限于模型訓(xùn)練數(shù)據(jù)的語(yǔ)言多樣性,其生成的數(shù)據(jù)的多樣性也有較大局限性。通過(guò)上述從人工產(chǎn)生數(shù)據(jù)的復(fù)述抽取方法,更能覆蓋語(yǔ)言的多樣性,是復(fù)述抽取工作必不可少的方法。
與傳統(tǒng)的復(fù)述抽取方法不同,本文的復(fù)述抽取方法引入了SentenceBert等基于深度學(xué)習(xí)的語(yǔ)義相似度計(jì)算方法,同時(shí)利用了離散的特征表示和分布式表示來(lái)優(yōu)化復(fù)述抽取的結(jié)果。
復(fù)述識(shí)別通過(guò)計(jì)算句子之間的語(yǔ)義相似度來(lái)判斷給定的兩個(gè)文本是否互為復(fù)述,該任務(wù)在問(wèn)答系統(tǒng)、語(yǔ)義解析和信息檢索等領(lǐng)域具有重要價(jià)值。復(fù)述識(shí)別系統(tǒng)也可以輔助復(fù)述抽取的過(guò)程,如在判斷兩個(gè)候選的句子是否為復(fù)述句等。由于復(fù)述識(shí)別的重要性和基礎(chǔ)性,復(fù)述識(shí)別技術(shù)一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)[2]。傳統(tǒng)的方法包括基于特征工程和分類器進(jìn)行句對(duì)的分類判斷,將復(fù)述識(shí)別建模為一個(gè)二分類任務(wù)。常用的特征包括詞語(yǔ)、句子長(zhǎng)短、實(shí)體重疊率、編輯距離、BLEU值等,常用的分類器包括SVM、邏輯回歸等[43,44]。一些工作還通過(guò)句法的信息來(lái)增強(qiáng)復(fù)述識(shí)別的準(zhǔn)確率[35]。近年來(lái),基于深度學(xué)習(xí)的方法在自然語(yǔ)言處理領(lǐng)域得到了廣泛地應(yīng)用,成為當(dāng)前的主流研究方法[8,9]。目前,主流的復(fù)述識(shí)別方法也以深度學(xué)習(xí)為主,該方法將句子轉(zhuǎn)換為分布式的表示,并在表示空間中計(jì)算句對(duì)是否為復(fù)述[9]。Socher等[45]首先提出使用詞向量和循環(huán)自編碼器(Recursive Autoencoders)建模句法信息,然后進(jìn)行句子分析,進(jìn)而搭建復(fù)述識(shí)別模型。He等[42]使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)建模句子信息。Cheng等[46]提出一種融合上下文的孿生網(wǎng)絡(luò)(Siamese Network)的方法進(jìn)行復(fù)述識(shí)別。Issa等[47]通過(guò)句對(duì)的抽象語(yǔ)義表示(Abstract Meaning Representation)抽取句子的重要信息進(jìn)行匹配,以達(dá)到優(yōu)化復(fù)述識(shí)別的效果。針對(duì)數(shù)據(jù)不足的問(wèn)題,Chen等[57]利用強(qiáng)化學(xué)習(xí)來(lái)減少對(duì)訓(xùn)練數(shù)據(jù)的依賴。針對(duì)實(shí)體對(duì)語(yǔ)義的判斷問(wèn)題,語(yǔ)言知識(shí)庫(kù)、知識(shí)圖譜等資源被用于復(fù)述識(shí)別任務(wù)[58]。近期,隨著大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的廣泛使用,無(wú)監(jiān)督的復(fù)述識(shí)別方法被廣泛應(yīng)用,如BERTflow[48]和SimCSE[49]等。
本文實(shí)現(xiàn)了一個(gè)從雙語(yǔ)平行語(yǔ)料、單語(yǔ)可比語(yǔ)料中進(jìn)行大規(guī)模中文復(fù)述抽取的方法和系統(tǒng),該方法能夠抽取短語(yǔ)、模板和句子粒度的復(fù)述,形成大規(guī)模多粒度的中文復(fù)述數(shù)據(jù)集。本節(jié)主要介紹該系統(tǒng)的主要流程。該系統(tǒng)總體框架如圖1所示,該系統(tǒng)針對(duì)兩種不同類型的數(shù)據(jù)源分別進(jìn)行了預(yù)處理和數(shù)據(jù)抽取,最終抽取了多粒度的中文復(fù)述數(shù)據(jù)。
圖1 復(fù)述抽取系統(tǒng)總體框架
不同的數(shù)據(jù)源的預(yù)處理步驟是不同的,針對(duì)雙語(yǔ)平行語(yǔ)料的預(yù)處理主要包括中文分詞、成分句法分析和詞對(duì)齊。本文使用Stanford CoreNLP⑥https://stanfordnlp.github.io/CoreNLP/對(duì)中文數(shù)據(jù)進(jìn)行分詞,并對(duì)中英文句子進(jìn)行成分句法分析。
詞對(duì)齊是基于雙語(yǔ)平行語(yǔ)料復(fù)述抽取的基礎(chǔ),對(duì)抽取的復(fù)述質(zhì)量有重要影響。例如,PPDB使用GIZA++[50]進(jìn)行詞對(duì)齊。近年來(lái),基于深度學(xué)習(xí)的詞對(duì)齊方法被廣泛使用,如SimAlign[51]利用詞向量和上下文表示,能夠更好地建模詞匯在不同上下文中的語(yǔ)義。SHIFTAET[52]利用Transformer[53]中的注意力機(jī)制來(lái)建模詞對(duì)齊信息。本文通過(guò)集成學(xué)習(xí)方法,將三種詞對(duì)齊模型的結(jié)果進(jìn)行融合,得到最終的詞對(duì)齊結(jié)果。具體地,本文采用加權(quán)平均的方式將三個(gè)模型輸出的詞對(duì)齊相似度進(jìn)行集成,其計(jì)算方法如公式1所示。其中PEnsember為集成的詞對(duì)齊概率矩陣,a1,a2,a3分別為GIZA++、SimAlign和SHIFT-AET三個(gè)詞對(duì)齊模型輸出的詞對(duì)齊概率矩陣對(duì)應(yīng)的權(quán)重,具體權(quán)重通過(guò)在驗(yàn)證數(shù)據(jù)上調(diào)優(yōu)得到。
本文所使用的單語(yǔ)可比語(yǔ)料主要包含電子書譯本、電影字幕的不同翻譯版本,這些數(shù)據(jù)保存在不同格式的圖片文件中,因此需要通過(guò)OCR進(jìn)行字符的識(shí)別,轉(zhuǎn)換為文本數(shù)據(jù)。具體地,本文使用百度飛漿PaddleOCR⑦h(yuǎn)ttps://github.com/PaddlePaddle/PaddleOCR實(shí)現(xiàn)字符識(shí)別。同時(shí)單語(yǔ)可比語(yǔ)料還涉及文檔對(duì)齊的問(wèn)題,輸入的通常為一個(gè)文件集合,需要將其中的文件首先進(jìn)行對(duì)齊。本文主要使用文件中的實(shí)體、時(shí)間、文件名等信息進(jìn)行對(duì)齊,并在此基礎(chǔ)上實(shí)現(xiàn)文件的對(duì)比。
復(fù)述抽取模塊可以實(shí)現(xiàn)從雙語(yǔ)平行語(yǔ)料中抽取復(fù)述短語(yǔ)、模板,從單語(yǔ)對(duì)比語(yǔ)料中抽取復(fù)述句子。下面分別介紹雙語(yǔ)平行語(yǔ)料和單語(yǔ)可比語(yǔ)料的抽取過(guò)程。
2.2.1 雙語(yǔ)平行語(yǔ)料復(fù)述抽取
本文復(fù)現(xiàn)并優(yōu)化的PPDB復(fù)述抽取系統(tǒng)。對(duì)于給定的雙語(yǔ)平行數(shù)據(jù),通過(guò)下面步驟進(jìn)行復(fù)述抽?。?1)雙語(yǔ)句對(duì)進(jìn)行詞對(duì)齊;(2)基于詞對(duì)齊結(jié)果抽取對(duì)齊短語(yǔ);(3)從對(duì)齊短語(yǔ)中抽取對(duì)齊模板;(4)從對(duì)齊短語(yǔ)和對(duì)齊模板中抽取復(fù)述短語(yǔ)和復(fù)述模板。
本文中短語(yǔ)定義為句子語(yǔ)法樹(shù)中的完整子樹(shù),即該子樹(shù)對(duì)應(yīng)的所有單詞。這種類型的短語(yǔ)能夠表達(dá)比較完整的語(yǔ)義,避免包含一些不相關(guān)的字、詞。本文使用成分句法解析樹(shù)作為短語(yǔ)對(duì)齊的參考。本方法包含兩個(gè)步驟:短語(yǔ)抽取、短語(yǔ)對(duì)齊。
短語(yǔ)抽取基于成分句法解析樹(shù)的結(jié)果,將成分樹(shù)中的一個(gè)子樹(shù)下的所有單詞作為一個(gè)短語(yǔ)。同時(shí),為了避免抽取出“的,你”等無(wú)意義的短語(yǔ),使用子樹(shù)的詞性標(biāo)簽進(jìn)行約束,僅抽取具有以下詞性的短語(yǔ):
英文詞性約束:CD、JJ、JJR、JJS、NN、NNS、NNP、NNPS、PRP、PRP$、ADJP、NP
中文詞性約束:CD、JJ、NN、NR、NT、OD、PN、ADJP、DNP、NP
短語(yǔ)對(duì)齊是找到具有語(yǔ)義相同關(guān)系的雙語(yǔ)短語(yǔ)。Ganitkevitch[5]采用一致性約束的方法實(shí)現(xiàn)短語(yǔ)對(duì)齊,該方法要求對(duì)齊短語(yǔ)中所有的單詞僅與被對(duì)齊的短語(yǔ)中的詞匯對(duì)齊。該方法會(huì)導(dǎo)致部分短語(yǔ)不能很好地對(duì)齊,如圖3所示?!巴米印睉?yīng)該與“rabbit”對(duì)齊,但是由于單詞“cranes”與單詞“正”對(duì)齊,因此不滿足一致性約束,無(wú)法被抽取出來(lái)。
圖2 短語(yǔ)抽取實(shí)例
短語(yǔ)對(duì)齊步驟中,PPDB的方法采用一致性約束對(duì)短語(yǔ)進(jìn)行對(duì)齊,即僅當(dāng)兩個(gè)短語(yǔ)中的任何一個(gè)短語(yǔ)都滿足其中的單詞僅與另一個(gè)短語(yǔ)中的單詞對(duì)齊這一條件時(shí),才將這兩個(gè)短語(yǔ)對(duì)齊。我們發(fā)現(xiàn)一致性約束會(huì)導(dǎo)致部分本應(yīng)對(duì)齊的短語(yǔ)無(wú)法對(duì)齊。例如在圖3中,“cranes”與“正”對(duì)齊,導(dǎo)致“兔子”與“rabbit cranes”不滿足一致性對(duì)齊條件,導(dǎo)致不能對(duì)齊。針對(duì)上述問(wèn)題,本文通過(guò)限定詞性的詞匯進(jìn)行一致性約束的方法來(lái)進(jìn)行對(duì)齊,放松了短語(yǔ)對(duì)齊的條件。實(shí)驗(yàn)結(jié)果表明,該方法能夠在引入少量噪聲的情況下,顯著地提升對(duì)齊短語(yǔ)抽取的數(shù)量。具體使用到的詞性信息如下所示:
圖3 一致性約束與放松后的一致性約束
英文單詞詞性約束:CD、JJ、JJR、JJS、NN、NNS、NNP、NNPS、PRP、PRP$、RB、VB、VBD、VBP、VBZ
中文單詞詞性約束:AD、CD、NN、NR、NT、OD、VA、VV
在抽取到對(duì)齊短語(yǔ)之后,通過(guò)以下方式從中抽取對(duì)齊模板(見(jiàn)圖4)。給定一組對(duì)齊短語(yǔ),其中的部分對(duì)齊的詞匯和短語(yǔ)使用詞性進(jìn)行替換后,可以形成包含部分詞性信息的對(duì)齊短語(yǔ),即對(duì)齊模板。根據(jù)短語(yǔ)中詞性的個(gè)數(shù)可以分為1槽位和多槽位的對(duì)齊模板。
圖4 抽取對(duì)齊模板示例
基于上述步驟得到的對(duì)齊短語(yǔ)和模板,通過(guò)找到相同英文短語(yǔ)/模板對(duì)應(yīng)的不同的中文短語(yǔ)/模板即為候選中文復(fù)述短語(yǔ)/模板。圖5給出了一個(gè)例子,中文短語(yǔ)“死于一場(chǎng)車禍”和“在一場(chǎng)車禍中喪生”均與英文短語(yǔ)“died in a car accident”對(duì)齊,上述兩個(gè)中文短語(yǔ)可被抽取為候選中文復(fù)述短語(yǔ)。
圖5 候選復(fù)述短語(yǔ)抽取示例
2.2.2 單語(yǔ)可比語(yǔ)料復(fù)述抽取
單語(yǔ)平行語(yǔ)料以篇章對(duì)齊為主(如報(bào)道同一事件的新聞、同一外文名著的不同中文翻譯版本),以抽取復(fù)述句為主。單語(yǔ)平行語(yǔ)料中的句子通常包含復(fù)雜的對(duì)齊關(guān)系,包括一對(duì)一、一對(duì)多和多對(duì)多。為了抽取復(fù)述句對(duì),本文僅選擇具有一對(duì)一關(guān)系的句對(duì)進(jìn)行抽取。首先,找到對(duì)齊篇章中的錨點(diǎn)句(顯著對(duì)齊的句子),然后利用Vecalign算法[56]將文本分為兩個(gè)部分,通過(guò)迭代上述方式進(jìn)行復(fù)述句對(duì)的抽取。Vecalign算法通過(guò)計(jì)算句子的語(yǔ)義距離實(shí)現(xiàn)句對(duì)的對(duì)齊,但傳統(tǒng)的Vecalign算法依賴于字面的相似度,忽略了上下文信息對(duì)句子語(yǔ)義距離的影響。本文通過(guò)融合句子的上下文信息來(lái)優(yōu)化句子的語(yǔ)義距離計(jì)算,并通過(guò)動(dòng)態(tài)規(guī)劃算法得到篇章中所有句對(duì)對(duì)齊的最優(yōu)方案。上下文信息采用詞匯對(duì)應(yīng)上下文詞的詞向量的加權(quán)平均作為上下文信息,其中特征的權(quán)重采用TFIDF。
后處理模塊主要包括實(shí)體歸一、特征計(jì)算、數(shù)據(jù)過(guò)濾及數(shù)據(jù)排序功能,形成最終的大規(guī)模多粒度中文復(fù)述數(shù)據(jù)集。
實(shí)體歸一:不同的外文名著的中文譯本中的實(shí)體名稱可能采用不同的翻譯,如“科諾夫尼岑”和“柯諾夫尼岑”是不同的《戰(zhàn)爭(zhēng)與和平》譯本中人物的名稱,因此需要對(duì)實(shí)體的名稱進(jìn)行歸一化處理。
特征計(jì)算:為了提供更豐富的信息,本文借鑒PPDB的工作,復(fù)現(xiàn)并計(jì)算了其中的大部分特征,并利用Bert和SentenceBert引入了兩個(gè)新的特征,(1)語(yǔ)言模型生成概率:基于Bert計(jì)算短語(yǔ)的生成概率;(2)基于SentenceBert計(jì)算兩個(gè)復(fù)述文本的相似度。完整的特征信息如表2所示,目前主要包含18個(gè)特征。
表2 部分復(fù)述特征列表
數(shù)據(jù)過(guò)濾:基于上述復(fù)述抽取流程,會(huì)產(chǎn)生一些低質(zhì)量的復(fù)述,如復(fù)述對(duì)之間的文本差異很小,或者僅是實(shí)體名存在差異等情況。例如“北京到上海的高鐵”和“北京到上海高鐵”,僅差一個(gè)“的”,對(duì)語(yǔ)義的影響不大。因此需要過(guò)濾掉這部分低質(zhì)量的復(fù)述數(shù)據(jù)。
數(shù)據(jù)排序:本文利用復(fù)述數(shù)據(jù)中的部分特征訓(xùn)練了一個(gè)回歸模型,用于對(duì)候選復(fù)述數(shù)據(jù)進(jìn)行排序。對(duì)復(fù)述數(shù)據(jù)進(jìn)行排序后,用戶可以根據(jù)對(duì)復(fù)述數(shù)據(jù)質(zhì)量和數(shù)量的需要,從復(fù)述數(shù)據(jù)中選取不同規(guī)模的子集進(jìn)行使用。
基于上述實(shí)現(xiàn)的中文復(fù)述數(shù)據(jù)抽取系統(tǒng),本文在雙語(yǔ)平行數(shù)據(jù)(中英文翻譯數(shù)據(jù))和單語(yǔ)可比數(shù)據(jù)(電子書譯本、電影字幕)上開(kāi)展實(shí)驗(yàn),進(jìn)行復(fù)述數(shù)據(jù)的抽取。本節(jié)分別介紹復(fù)述數(shù)據(jù)評(píng)估方法、雙語(yǔ)平行數(shù)據(jù)抽取結(jié)果、單語(yǔ)可比數(shù)據(jù)抽取結(jié)果。
復(fù)述數(shù)據(jù)的評(píng)估主要包括對(duì)其多樣性、語(yǔ)義一致性和流暢性三個(gè)方面的評(píng)估。其中,多樣性表示復(fù)述句對(duì)之間表述的差異性,語(yǔ)義一致性表示復(fù)述句對(duì)之間語(yǔ)義的一致性,流暢性表示復(fù)述句對(duì)的表達(dá)是否自然、符合語(yǔ)法。一般情況下,僅當(dāng)復(fù)述數(shù)據(jù)是采用生成的方式收集到時(shí)才需要評(píng)估其流暢性,而本文創(chuàng)建的復(fù)述語(yǔ)料庫(kù)中的數(shù)據(jù)都是從自然語(yǔ)料中抽取出來(lái)的,因此我們不再對(duì)語(yǔ)料庫(kù)的流暢性進(jìn)行評(píng)估。本文使用自動(dòng)評(píng)估和人工評(píng)估兩種方式對(duì)抽取出的中文復(fù)述數(shù)據(jù)進(jìn)行評(píng)估。
自動(dòng)評(píng)估:本文采用復(fù)述對(duì)的編輯距離及使用長(zhǎng)度正則化后的編輯距離作為對(duì)復(fù)述對(duì)多樣性的評(píng)估指標(biāo),其中使用長(zhǎng)度正則化后的編輯距離能夠減少長(zhǎng)度對(duì)多樣性評(píng)估帶來(lái)的影響。本文采用基于SentenceBert[54]和SimCSE模型[49]計(jì)算出的復(fù)述數(shù)據(jù)的相似度作為語(yǔ)義一致性的評(píng)估指標(biāo)。
人工評(píng)估:本文采用Callison-Burch提出的語(yǔ)義相似度標(biāo)注方法對(duì)復(fù)述數(shù)據(jù)進(jìn)行標(biāo)注[55],具體標(biāo)注方法如下:當(dāng)復(fù)述數(shù)據(jù)保留了原數(shù)據(jù)的所有含義,沒(méi)有添加任何內(nèi)容時(shí),標(biāo)注為5分;當(dāng)復(fù)述數(shù)據(jù)保留了原數(shù)據(jù)的語(yǔ)義,盡管可能會(huì)添加一些附加信息,但不會(huì)改變語(yǔ)義時(shí),標(biāo)注為4分;當(dāng)原數(shù)據(jù)中有些信息被刪除,但不會(huì)造成太大的語(yǔ)義上的損失,其主要語(yǔ)義仍然被保留時(shí),標(biāo)注為3分;當(dāng)復(fù)述數(shù)據(jù)與原數(shù)據(jù)的語(yǔ)義具有很大的差異時(shí),標(biāo)注為2分;當(dāng)復(fù)述數(shù)據(jù)與原數(shù)據(jù)的語(yǔ)義完全不相關(guān)時(shí),標(biāo)注為1分。
本文使用1000萬(wàn)句對(duì)中英機(jī)器翻譯數(shù)據(jù)作為數(shù)據(jù)源,開(kāi)展了復(fù)述短語(yǔ)和復(fù)述模板的抽取,最終抽取出239,987對(duì)中文復(fù)述短語(yǔ)和49,274,036對(duì)中文復(fù)述模板。由于中文沒(méi)有公開(kāi)的復(fù)述短語(yǔ)和復(fù)述模板,因此我們與英文PPDB中的復(fù)述短語(yǔ)和復(fù)述模板進(jìn)行對(duì)比。具體地,我們從PPDB數(shù)據(jù)集和抽取的數(shù)據(jù)集排序的前20%,60%,100%的部分隨機(jī)采樣500,000條數(shù)據(jù),然后計(jì)算其編輯距離、使用長(zhǎng)度正則化后的編輯距離、基于SentenceBert模型(paraphrase-xlm-r-multilingual-v1)計(jì)算的相似度和基于SimCSE模型計(jì)算的相似度,其結(jié)果如表3和表4所示。其中SimCSE為在維基百科上隨機(jī)抽取的100w的中英文數(shù)據(jù)分別進(jìn)行訓(xùn)練,得到中英文的復(fù)述識(shí)別模型。
表3 復(fù)述短語(yǔ)自動(dòng)評(píng)估結(jié)果
表4 復(fù)述模板自動(dòng)評(píng)估結(jié)果
從表3可知,本文抽取出的復(fù)述短語(yǔ)相較于PPDB在長(zhǎng)度上有明顯優(yōu)勢(shì),在多樣性上基本與PPDB一致,在體現(xiàn)語(yǔ)義一致性的SentenceBert和SimCSE的得分上也較高。與此相對(duì)的是,在復(fù)述模板方面(表4),本文抽取到的短語(yǔ)在長(zhǎng)度、多樣性方面有明顯優(yōu)勢(shì),在語(yǔ)義一致性方面與PPDB基本持平。
同時(shí),我們分別從復(fù)述短語(yǔ)和復(fù)述模板數(shù)據(jù)的前20%、60%、100%部分隨機(jī)采樣2000條數(shù)據(jù)進(jìn)行人工標(biāo)注,然后分別統(tǒng)計(jì)了在每一部分中,標(biāo)注分?jǐn)?shù)等于5分、大于等于4分、大于等于3分的部分所占的比例(表5)。從標(biāo)注結(jié)果可以看出,雖然在全量數(shù)據(jù)上,標(biāo)注分?jǐn)?shù)大于等于3分的百分比比較低,但是我們構(gòu)建的復(fù)述數(shù)據(jù)集的規(guī)模足夠大,可以根據(jù)對(duì)質(zhì)量和數(shù)量的需求,選取不同規(guī)模的子集進(jìn)行使用。
表5 復(fù)述短語(yǔ)和復(fù)述模板人工評(píng)估結(jié)果
本文電子書譯本和電影字幕數(shù)據(jù)作為單語(yǔ)可比數(shù)據(jù)開(kāi)展復(fù)述抽取工作。我們基于296本電子書譯本開(kāi)展中文復(fù)述句抽取。具體地,我們自動(dòng)從電子書網(wǎng)站進(jìn)行截圖,然后利用OCR[7]技術(shù)提取文本內(nèi)容,形成單語(yǔ)可比數(shù)據(jù)集。針對(duì)電影字幕數(shù)據(jù),我們對(duì)73G的Shooter電影字幕合集進(jìn)行了處理,在該字幕合集中主要包含兩種格式的字幕文件,一種文件是由包含字幕的一組圖片組成的壓縮文件,針對(duì)這種類型的文件,我們仿效對(duì)電子書的處理過(guò)程,即首先利用OCR技術(shù)提取圖片中的字幕內(nèi)容,然后進(jìn)行整合、分行,得到僅包含電影字幕的文本文件。另一種文件是具有特定格式的字幕文本文件,例如“.srt”格式的字幕文件,此時(shí)我們需要利用預(yù)處理模塊中針對(duì)這種格式的字幕文件解析功能從中抽取出字幕內(nèi)容,得到僅包含電影字幕的文本文件。
通過(guò)上述復(fù)述抽取系統(tǒng),從電子書數(shù)據(jù)中共抽取出3,097,091對(duì)復(fù)述句對(duì),從電影字幕數(shù)據(jù)中共抽取出452,708對(duì)復(fù)述句對(duì)。相比于電子書數(shù)據(jù),盡管Shooter電影字幕合集包含了大量的字幕文件,但最終抽取出的復(fù)述句對(duì)卻相對(duì)比較少。這是由于字幕合集中針對(duì)同一電影由不同字幕小組翻譯的不同版本的字幕比較少,而且許多字幕文件中存在大量錯(cuò)誤信息,因此導(dǎo)致最終能夠抽取出復(fù)述句對(duì)比較少。
同樣地,針對(duì)抽取出的復(fù)述句數(shù)據(jù),我們采用編輯距離和使用長(zhǎng)度正則化的編輯距離作為數(shù)據(jù)多樣性評(píng)估指標(biāo),采用基于SentenceBert和SimCSE語(yǔ)義相似度模型計(jì)算的復(fù)述句對(duì)的相似度作為語(yǔ)義一致性評(píng)估指標(biāo)。我們利用編輯距離-語(yǔ)義一致性指標(biāo)綜合評(píng)估了復(fù)述句數(shù)據(jù)的質(zhì)量(表6)。另外,我們與LCQMC、AFQMC、ATEC、CCKS、BQ中文復(fù)述識(shí)別數(shù)據(jù)集中的復(fù)述數(shù)據(jù)部分以及PKU paraphrase corpus進(jìn)行了對(duì)比。從數(shù)量上來(lái)看,本文抽取出的復(fù)述數(shù)據(jù)的規(guī)模遠(yuǎn)大于其他的數(shù)據(jù)集。因?yàn)锳TEC、BQ、CCKS等中文復(fù)述識(shí)別數(shù)據(jù)集都經(jīng)過(guò)人工篩選、標(biāo)注,因此,本文的數(shù)據(jù)集與除了LCQMC數(shù)據(jù)集之外的小規(guī)模中文復(fù)述識(shí)別數(shù)據(jù)集相比,在數(shù)據(jù)多樣性方面普遍劣于ATEC等中文復(fù)述識(shí)別數(shù)據(jù)集,在語(yǔ)義一致性方面則要優(yōu)于ATEC等中文復(fù)述識(shí)別數(shù)據(jù)集。與LCQMC數(shù)據(jù)集相比,我們構(gòu)建的數(shù)據(jù)集在多樣性和語(yǔ)義一致性方面都要優(yōu)于LCQMC數(shù)據(jù)集。與規(guī)模相對(duì)比較大的PKU paraphrase corpus相比,我們的數(shù)據(jù)集在數(shù)據(jù)多樣性方面與之相似,在語(yǔ)義一致性方面則要優(yōu)于PKU paraphrase corpus。
表6 從四種不同數(shù)據(jù)源抽取出的復(fù)述句自動(dòng)評(píng)估
同樣地,我們使用人工評(píng)估的方式對(duì)復(fù)述句數(shù)據(jù)進(jìn)行了評(píng)估(表7)。其結(jié)果可知,抽取得到的復(fù)述數(shù)據(jù)絕大多數(shù)為可接受,數(shù)據(jù)質(zhì)量相較復(fù)述短語(yǔ)和復(fù)述模板的質(zhì)量更高,能夠更好地推動(dòng)復(fù)述技術(shù)的發(fā)展。
表7 從四種不同數(shù)據(jù)源抽取出的復(fù)述句人工評(píng)估結(jié)果
綜上所述,本文抽取到了大規(guī)模多粒度中文復(fù)述數(shù)據(jù)集。通過(guò)與PPDB數(shù)據(jù)集的對(duì)比可知,我們抽取到的中文復(fù)述短語(yǔ)和復(fù)述模板具有較高的質(zhì)量。通過(guò)與已有的中文復(fù)述數(shù)據(jù)庫(kù)對(duì)比可知,我們抽取到的數(shù)據(jù)的規(guī)模更大,語(yǔ)義的一致性也較好。
本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)大規(guī)模多粒度的中文復(fù)述抽取系統(tǒng),能夠從雙語(yǔ)平行和單語(yǔ)可比語(yǔ)料中抽取多粒度的中文復(fù)述數(shù)據(jù)。本文在中英文翻譯數(shù)據(jù)、電子書譯本和電影字幕數(shù)據(jù)上的抽取,形成了當(dāng)前最大規(guī)模的中文多粒度復(fù)述數(shù)據(jù)庫(kù) (https://github.com/casnlu/Chinese-PPDB)。自動(dòng)評(píng)估和人工評(píng)估的結(jié)果表明,本系統(tǒng)抽取的復(fù)述短語(yǔ)、模板和句子具有較高的質(zhì)量,能夠支撐復(fù)述技術(shù)在中文領(lǐng)域的應(yīng)用。針對(duì)中文復(fù)述應(yīng)用的現(xiàn)狀,一方面,針對(duì)中文復(fù)述句對(duì)規(guī)模較小的現(xiàn)狀,我們計(jì)劃通過(guò)挖掘更多類型的數(shù)據(jù)源來(lái)進(jìn)一步增強(qiáng)中文復(fù)述數(shù)據(jù)集的規(guī)模。另一方面,我們計(jì)劃將構(gòu)建的復(fù)述數(shù)據(jù)集在復(fù)述識(shí)別、復(fù)述生成、智能問(wèn)答、語(yǔ)義解析等任務(wù)上進(jìn)行進(jìn)一步的驗(yàn)證,并構(gòu)建可以用于增強(qiáng)中文自然語(yǔ)言處理任務(wù)的復(fù)述工具集。