胡韌奮,李 紳,諸雨辰
(1.北京師范大學(xué) 中文信息處理研究所,北京 100875;2.北京師范大學(xué) 漢語文化學(xué)院,北京 100875;3.北京師范大學(xué) 文學(xué)院,北京 100875)
漢語典籍記載和文獻(xiàn)編纂有著悠久的歷史,涵蓋政治、歷史、哲學(xué)、文學(xué)等各領(lǐng)域。中國人也尤其注重古籍的整理與利用,《永樂大典》《四庫全書》都是歷史上重要的文獻(xiàn)整理工程。然而,古典文獻(xiàn)的一個重要特點是不使用標(biāo)點符號,這與古人因聲求氣、涵詠情性的文化有關(guān),卻給現(xiàn)代讀者帶來了困難。因而古文句讀便成為當(dāng)代古籍整理中一項非常重要的工作。
然而,古文句讀卻對專家知識有極高要求,因為句讀不僅需要考慮當(dāng)前文本的意義和語境信息,還需要綜合歷史文化常識。宋代大儒朱熹讀韓愈文章,便有“然不知此句當(dāng)如何讀”[1]之惑。近代經(jīng)學(xué)大師黃侃在致陸宗達(dá)的信中也表示“侃所點書,句讀頗有誤處,望隨時改正?!盵2]
在現(xiàn)有的古籍?dāng)?shù)據(jù)中,大部分尚未實現(xiàn)句讀。據(jù)本文統(tǒng)計,殆知閣古代文獻(xiàn)藏書2.0版語料庫規(guī)模約33億字,其中僅25%左右數(shù)據(jù)包含標(biāo)點,可見古籍整理是一項浩大的工程,自動句讀技術(shù)有強烈的現(xiàn)實需求。
自然語言處理技術(shù)的發(fā)展使得自動斷句成為可能。張開旭等人[3]提出一種基于條件隨機場的古文自動斷句方法,對《論語》和《史記》的文本進(jìn)行實驗,其《論語》斷句的F值達(dá)到76%左右,而《史記》斷句的F值則在68%左右。王博立等人[4]提出一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的古文斷句方法,采用基于GRU的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行古文斷句,該模型對古文斷句的F值達(dá)到74%~75%。由于現(xiàn)有模型對文本意義和語境信息理解并不充分,斷句效果距離實用尚有距離,還需要進(jìn)一步提升。
近年來,ELMO、BERT等預(yù)訓(xùn)練語言模型極大地提升了語言信息表示的效果,并在文本分類、語言推斷、文本生成、閱讀理解等一系列自然語言處理任務(wù)中取得了突出的成績提升[5-6]。然而,現(xiàn)有的語言模型多基于大規(guī)模百科或新聞?wù)Z料訓(xùn)練,缺乏古漢語語言知識編碼。為了改進(jìn)現(xiàn)有古文斷句模型,促進(jìn)古漢語信息處理技術(shù)的發(fā)展,本文在33億字古漢語語料庫上訓(xùn)練深層語言模型,實現(xiàn)了古漢語知識的高效表示,并在此基礎(chǔ)上利用條件隨機場和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句讀模型。系統(tǒng)在詩、詞和古文三種文體上開展了測試,其F1值分別達(dá)到99%、95%和92%以上,在斷句難度較高的詞和古文文體上,本文方法較之王博立等人的雙向GRU模型界值提升幅度達(dá)到12%以上。
與前人工作相比,本文的貢獻(xiàn)體現(xiàn)在以下幾個方面:首先,通過深層語言模型實現(xiàn)了高質(zhì)量的古漢語知識表示,使模型在“理解”的基礎(chǔ)上句讀;第二,根據(jù)斷句任務(wù)中語言特征和標(biāo)簽信息之間的關(guān)系,設(shè)計了深層語言模型+條件隨機場(BERT+CRF)、深層語言模型+卷積神經(jīng)網(wǎng)絡(luò)(BERT+CNN)兩種序列標(biāo)注方法,較之傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法取得了顯著的性能提升。從評測效果看,本文提出的斷句方法在多種類型語料中均取得了實用級效果,并能有效檢測出已出版古籍中的斷句錯誤。此外,為了更好地服務(wù)古籍整理和文獻(xiàn)研究,我們構(gòu)建了在線古詩文斷句工具(1)https://seg.shenshen.wiki/。
語言知識表示是自然語言處理技術(shù)的重要基礎(chǔ),在現(xiàn)有的模型中,通常以詞語為單位進(jìn)行語言特征表示。為了將詞義信息編碼到詞語表示中,Mikolov等人[7]提出了一種神經(jīng)詞向量(neural word embeddings)表示方法,并發(fā)布了訓(xùn)練詞向量的工具包Word2Vec。其模型基于語言學(xué)家Harris[8]提出的詞義分布假說:上下文相似的詞,其意義也相近。具體來說,詞向量的訓(xùn)練基于大規(guī)模語料庫,依次取中心詞和它左右兩邊的上下文詞,通過神經(jīng)網(wǎng)絡(luò)模型構(gòu)建兩種預(yù)測方式:利用上下文詞語預(yù)測中心詞(CBOW模型),利用中心詞預(yù)測上下文詞語(Skip-gram模型)。通過訓(xùn)練,可以得到定長的稠密實數(shù)詞向量,其維度通常為50~300,每一維均由一個實數(shù)表示。與Word2Vec類似,利用詞語和上下文的共現(xiàn)信息,Pennington 等人提出了GloVe 模型[9],Levy和Goldberg提出了正值逐點互信息模型 (PPMI)和奇異值分解模型(SVD)[10]。
神經(jīng)詞向量表示能夠較好地捕捉詞語的語法和語義性質(zhì),例如,“麥克風(fēng)”和“話筒”向量的cosine相似度極高,甚至還可以實現(xiàn)“國王”-“男人”+“女人”≈“王后”、“天”-“天天”+“人人”≈“人”這樣的詞法、詞義推理[11]。這種詞向量表示方法被廣泛運用到文本分類、機器翻譯、語義搜索、自動問答等各種自然語言處理任務(wù)中,大大提升了自然語言理解和生成的效果。
在古漢語特征表示領(lǐng)域,Li等人[11]基于《四庫全書》訓(xùn)練了古漢語字義表示,圖1給出了其向量空間經(jīng)PCA降維后一個局部區(qū)域的漢字分布情況。由圖可見,該區(qū)域語義表示與數(shù)字、時間等概念密切相關(guān),形成了較為明顯的數(shù)字詞簇和時間詞簇,如單位“千、百、萬”,數(shù)詞“一”到“九”,序數(shù)詞“甲乙丙丁戊己庚辛”,時間詞“日夜月夕”“年歲”等。
圖1 古漢語神經(jīng)詞向量示例
然而,傳統(tǒng)的詞向量表示方法仍然面臨一個突出的問題:即僅能為每個詞獲取一個詞向量,無法區(qū)分同形詞和多義詞的不同義項。在古代文言文表達(dá)中,往往單字成詞,每個單字詞可承載的意義極為豐富,其同形詞和一詞多義現(xiàn)象比現(xiàn)代漢語更為突出,這不僅為現(xiàn)代人理解文言文含義造成困難,也為計算機表示古漢語帶來了挑戰(zhàn)。為了有效解決這個問題,本文引入了基于深層語言模型的古漢語知識表示方法。
1.2.1 BERT模型
本文參考Devlin等人提出的BERT模型學(xué)習(xí)古漢語知識表示,并將自動斷句作為下游任務(wù)對整個網(wǎng)絡(luò)進(jìn)行微調(diào)(fine-tuning)。BERT模型可以基于大規(guī)模語言數(shù)據(jù)學(xué)習(xí)上下文敏感的詞語和句子表示(contextual embeddings)。與Word2Vec同一詞形僅能生成一個詞向量不同,預(yù)訓(xùn)練的BERT模型可以聯(lián)系上下文“理解”詞義,為詞語“訂制”獨一無二的語境向量表示,從而很好地解決同形詞和一詞多義問題。BERT模型的學(xué)習(xí)主要涉及兩個核心模塊:編碼器和目標(biāo)任務(wù),本節(jié)將分別對兩者進(jìn)行介紹。
在編碼器的選擇上,BERT采用12層或24層Transformer模型進(jìn)行特征學(xué)習(xí)。如圖2所示,Transformer模型的輸入為字符向量、片段向量和位置向量之和。模型內(nèi)每一層由兩部分組成:多頭自注意力(multi-head self attention)和全連接神經(jīng)網(wǎng)絡(luò)(fully connected neural networks),每個網(wǎng)絡(luò)的輸出均經(jīng)過層歸一化操作(layer normalization)。其中,多頭自注意力網(wǎng)絡(luò)中每個隱單元的輸入均由上一層隱單元輸出加權(quán)平均得到,使得每個隱單元均能和上一層所有隱單元直接關(guān)聯(lián),這樣一來,每個隱單元都可以較好地編碼全局語義信息。
圖2 古漢語知識表示模型的輸入和輸出示例
在目標(biāo)任務(wù)上,BERT模型采用了完形填空和句子預(yù)測這兩項任務(wù)。在完型填空任務(wù)中,15%的單詞會被選中,其中,80%被替換為[MASK],10%被替換為一個隨機詞,10%保持不變,模型需要據(jù)此預(yù)測被選中的詞。在句子預(yù)測任務(wù)中,模型需要判斷句子A和B是否相鄰。通過兩個目標(biāo)任務(wù),語言模型能夠同時捕捉詞語和句子級別的語言知識。
1.2.2 古漢語知識表示
在訓(xùn)練BERT模型時,Devlin等人采用字級別中文維基百科語料庫訓(xùn)練了中文語言模型,其編碼以句子為單位。本文在此基礎(chǔ)上引入海量古漢語語料庫進(jìn)行增量訓(xùn)練,考慮到古漢語句子長度較短,且大量訓(xùn)練數(shù)據(jù)不含斷句和標(biāo)點信息,本文將段落作為輸入單位。
如圖2所示,訓(xùn)練模型時,輸入字符串S,Transformer模型首先將其轉(zhuǎn)換成字符序列,在開始和結(jié)束位置處添加[CLS]和[SEP]標(biāo)簽,并給出其位置和片段信息,將三者向量求和作為模型輸入。輸入向量經(jīng)過預(yù)訓(xùn)練模型編碼,在每個位置都可以得到對應(yīng)的輸出Ctoken,每個輸出均為一個768維的語境向量。其中,[CLS]對應(yīng)位置的語境向量可視為編碼了整個片段的語義信息,常作為下游文本分類任務(wù)的輸入。
與Word2Vec訓(xùn)練產(chǎn)生的詞向量相比,BERT模型輸出的語境向量能夠編碼細(xì)粒度的詞義信息,表1以“安”為例,給出了兩種模型的最近鄰信息。計算BERT模型最近鄰時,我們從《論語》中選取了四條“安”含義不同的語料,經(jīng)預(yù)訓(xùn)練模型編碼,獲取了“安”在不同上下文中的語境向量,隨后以《史記》語料為查找對象,找到與其最相近的語境向量表示。由表中內(nèi)容可見,基于Word2Vec模型的最近鄰詞語聚焦在表示“安寧”“平安”“使安定”意義的古漢語詞匯上,而BERT模型可以針對句中詞語根據(jù)當(dāng)前上下文給出語境向量表示,因而能夠捕捉細(xì)粒度的詞義信息。
表1 “安”的最近鄰示例
預(yù)訓(xùn)練語言模型不僅可以實現(xiàn)高效的古漢語詞義表示,還可通過微調(diào)(fine-tuning)機制接入下游任務(wù),如文本分類、序列標(biāo)注、語義推理等。在微調(diào)過程中,伴隨下游任務(wù)的訓(xùn)練,整個語言模型的參數(shù)也隨之迭代更新。
自動斷句模型可以被視為一個典型的序列標(biāo)注任務(wù),即輸入字符串,針對每個字符預(yù)測在該位置是否斷句,例如,輸入“君子食無求飽居無求安”,模型應(yīng)預(yù)測“OOOOOSOOOO”,其中,“O”表示該位置后不應(yīng)斷句,“S”表示“飽”后應(yīng)斷句。Devlin等人在BERT模型的基礎(chǔ)上提出了基于全連接神經(jīng)網(wǎng)絡(luò)分類器的序列標(biāo)注方法,并在CoNLL-2003命名實體識別任務(wù)上取得了最優(yōu)效果,其模型結(jié)構(gòu)如圖3(a)所示。這種序列標(biāo)注方法雖然能夠利用BERT模型輸出的高效語義表示做標(biāo)簽預(yù)測,但存在收斂速度慢、未考慮標(biāo)簽之間的依賴關(guān)系等問題。為了改進(jìn)序列標(biāo)注方法,本文基于深層預(yù)訓(xùn)練語言模型引入條件隨機場(CRF)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,實現(xiàn)了更為高效、準(zhǔn)確的中文斷句方法。
圖3 古漢語自動斷句模型結(jié)構(gòu)圖
條件隨機場是一種經(jīng)典的序列標(biāo)注模型,在中文分詞、詞性標(biāo)注、命名實體識別等自然語言處理任務(wù)中均有著廣泛應(yīng)用[12]。伴隨神經(jīng)網(wǎng)絡(luò)模型的興起,Huang等人[13]在雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)上添加了CRF層,用于求解概率最優(yōu)的標(biāo)簽路徑,在一系列序列標(biāo)注任務(wù)上取得了明顯的效果提升。
受前人工作啟發(fā),本文將條件隨機場模型接入深層語言模型,其結(jié)構(gòu)如圖3(b)所示。通過觀察BERT+CRF模型的預(yù)測結(jié)果,我們發(fā)現(xiàn)由于CRF模型預(yù)測時僅能考慮當(dāng)前位置及之前位置的特征,未能充分地利用上下文信息進(jìn)行斷句,造成了一些斷句錯誤,例如:
BERT+CRF:行未三四十里 ○ 忽烏剌赤者急下馬拜跪 ● 伏其言 ● 侏離莫能曉 ○ 而其意則甚哀窘
該例中的句讀重點有二:一是“拜”“跪”“伏”為連續(xù)的動作,二是“其言”與后文的“其意”呼應(yīng),均應(yīng)作主語。
為了進(jìn)一步提升模型對上下文語言特征的編碼能力,本文在BERT模型基礎(chǔ)上引入卷積神經(jīng)網(wǎng)絡(luò)做特征抽取,并基于其編碼結(jié)果利用一層全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)斷句標(biāo)記分類,其結(jié)構(gòu)如圖3(c)所示。由于CNN模型能夠通過卷積對兩側(cè)上下文信息進(jìn)行編碼,綜合決策后作出了正確的斷句決策,結(jié)果如下所示:
船型組合③:A、B泊位停靠2000DWT雜貨船:15 + 86 + 50 +125 + 22.5 = 298.5m < 300m
BERT+CNN:行未三四十里 ○ 忽烏剌赤者急下馬拜跪伏 ○ 其言侏離莫能曉 ○ 而其意則甚哀窘
古漢語深層語言模型訓(xùn)練基于殆知閣古代文獻(xiàn)藏書2.0版語料庫(2)http://www.daizhige.org/,共計33億字,由于數(shù)據(jù)中繁簡體字混合出現(xiàn),考慮到繁轉(zhuǎn)簡準(zhǔn)確率更高,在預(yù)處理階段采用zhconv工具(3)https://pypi.org/project/zhconv/將文本統(tǒng)一轉(zhuǎn)成簡體。
在自動斷句任務(wù)中,我們從Github中華古詩詞數(shù)據(jù)庫(4)https://github.com/chinese-poetry/chinese-poetry中獲取了帶標(biāo)點的古詩詞數(shù)據(jù),其中詩311 691首,詞20 643首,從殆知閣古典文獻(xiàn)藏書2.0語料庫中獲取帶標(biāo)點的文言文語料8 163 988條(以段落為單位)。由于詩詞具有較為明顯的格律特征,如大部分古詩為四、五、七言,而詞牌名可以提示斷句規(guī)則,為了幫助模型更好地學(xué)習(xí)語義和韻律信息,在預(yù)處理數(shù)據(jù)時保留了古詩題目,并去除詞牌名。針對數(shù)量較少的詞數(shù)據(jù),取10%作為測試集,針對數(shù)量較多的古詩和文言文數(shù)據(jù),各取5 000條作為測試集,其余詩、詞、文言文數(shù)據(jù)合為訓(xùn)練集,并從訓(xùn)練集中隨機抽取10 000句作為驗證集。
古漢語BERT模型訓(xùn)練采用12層Transformer模型,hidden size為768,自注意力機制的head數(shù)量為12,總參數(shù)量為1.1億,采用4塊1 080Ti型號的GPU并行訓(xùn)練100萬步得到語言模型。
在斷句模型上,本文將王博立等人[4]提出的雙向GRU模型(Bi-GRU)作為基線(baseline)模型,實驗中將GRU模型的hidden size設(shè)為256,考慮到本文訓(xùn)練數(shù)據(jù)規(guī)模遠(yuǎn)大于文獻(xiàn)[4]中的數(shù)據(jù)集,我們另增加了一組hidden size為2 048的實驗。此外,將Devlin等人提出的BERT+全連接層(fully connected layer)序列標(biāo)注模型應(yīng)用到斷句任務(wù)中(簡稱為BERT+FCL),并構(gòu)建了 BERT+CRF與BERT+CNN模型。其中,CRF層采用Tensorflow默認(rèn)設(shè)置,CNN層使用了100個寬度為3的卷積核,用于抽取特征。所有模型均訓(xùn)練到驗證集收斂為止。
五組模型的斷句實驗結(jié)果如表2所示。從測試數(shù)據(jù)類型的角度看,無論是雙向GRU模型,還是融入深層預(yù)訓(xùn)練語言模型的方法,均呈現(xiàn)出古詩斷句效果最優(yōu)、詞次之、古文再次之的特點,這與文體表達(dá)的規(guī)律性和韻律性密切相關(guān),也折射了不同文體斷句難度的差異。
表2 斷句模型實驗結(jié)果
從模型表現(xiàn)的角度看,集成BERT深層預(yù)訓(xùn)練模型后,與基線模型相比,三種模型在三類文體上的斷句效果都得到了巨幅提升。其中,古詩斷句F1值接近100%。在語言表達(dá)較為靈活、多樣的詞和古文測試集上,綜合表現(xiàn)最優(yōu)的BERT+CNN模型,比之Bi-GRU2 048模型提升幅度達(dá)到10%以上,詞斷句F1值達(dá)到95%以上,古文斷句F1值達(dá)到92%以上。
此外,通過觀察基線模型Bi-GRU的實驗結(jié)果,不難發(fā)現(xiàn),其斷句召回率(R)大大低于精確率(P),即大量斷句標(biāo)記未被識別,這一特點在難度較高的文體(詞、古文)上表現(xiàn)尤為突出。融入深層語言模型后,斷句召回率與精確率基本持平,均達(dá)到了較高的水平。在集成預(yù)訓(xùn)練模型的三種方法中,BERT+CRF和BERT+CNN與BERT+FCL相比均有小幅提升。
通過分析測試數(shù)據(jù)(表3),我們發(fā)現(xiàn),由于深層語言模型可從海量數(shù)據(jù)中學(xué)習(xí)語言知識表示,在古漢語領(lǐng)域,其優(yōu)勢具體體現(xiàn)在以下兩個方面:
第一,能夠較好地捕捉古詩文表達(dá)的節(jié)奏感和韻律感,例如,表3第1、2句。其中,句1為五言詩,句2為長短句交錯的詞,該二例斷句與節(jié)奏、韻律關(guān)聯(lián)緊密,而Bi-GRU模型未能捕捉這種語言表達(dá)性質(zhì),因而出現(xiàn)了應(yīng)斷未斷(“日后”“瑤臺月”“心事”處)與不應(yīng)斷而斷(“攀”處)錯誤,三種集成預(yù)訓(xùn)練語言模型的方法均能正確識別。
第二,對上下文信息的利用較為充分,如表3例句3、4所示。其中,句3需聯(lián)系前文理解“行修”為夫君,其所娶妻子“貞懿賢淑”(主謂搭配),“行修”對其十分尊敬(主謂搭配)。句4中,“齊人”“宋人”“邾婁人”為并舉,模型需聯(lián)系上下文在三者之間句讀,此外,“伐鄭”與“救鄭”前后呼應(yīng),二者之后均應(yīng)斷句?!皶摺笔菍Α胺ム崱揉崱笔录狞c評,意為《春秋》記載這件事,是在稱贊中原國家可以互救。
表3 模型斷句示例
綜上來看,深層語言模型所編碼的古漢語知識在一定程度上涵蓋了語序、語法、語義、語境等多層次的語言信息,對于后續(xù)的自然語言處理任務(wù)有重要的貢獻(xiàn)。
為了進(jìn)一步驗證BERT模型在處理斷句任務(wù)中的應(yīng)用效果,我們根據(jù)司馬朝軍[14]、顏春峰和汪少華[15]等學(xué)者的研究,搜集了已出版古籍文本中65則與斷句相關(guān)的錯誤案例,并排除了在訓(xùn)練集中出現(xiàn)過的5則語料,得到60則測試數(shù)據(jù)。其中,11則來自中華書局1997年版《欽定四庫全書總目》,49則來自中華書局1987年版《周禮正義》。這兩本古籍均由該領(lǐng)域?qū)<彝瓿烧砗途渥x標(biāo)點,并經(jīng)多次校對,其中的誤例可謂句讀任務(wù)的難點所在。
《欽定四庫全書總目》由李學(xué)勤作序,是今人重要的古籍整理成果。我們從司馬朝軍的研究中找出了11則與斷句相關(guān)的標(biāo)點錯誤,其分別在《春秋后傳》《春秋讞義》《數(shù)學(xué)九章》《姑溪詞》等條中,覆蓋了經(jīng)部、子部、集部三類典型文獻(xiàn)。我們將這11例去除標(biāo)點后作為輸入,由模型進(jìn)行斷句,其中,8則模型完全斷句正確,3則斷句不完全正確。試舉正誤例各一如下:
例1柏何人,斯敢奮筆而進(jìn)退孔子哉?(《詩疑》第216頁)
作者按:“斯”字上屬。“何人斯”為上古習(xí)語(5)《詩經(jīng)·小雅·何人斯》:彼何人斯?其心孔艱。。
當(dāng)作:柏何人斯,敢奮筆而進(jìn)退孔子哉?
模型:柏何人斯 ○ 敢奮筆而進(jìn)退孔子哉 (模型斷句正確)
例2其中如“大衍”類蓍卦發(fā)微,欲以新術(shù)改《周易》揲蓍之法,殊乖古義。古歷會稽題數(shù)既誤,且為設(shè)問,以明大衍之理。(《數(shù)學(xué)九章》第1 406頁)
作者按:此段標(biāo)點有破句。
當(dāng)作:其中如“大衍”類蓍卦發(fā)微,欲以新術(shù)改《周易》揲蓍之法,殊乖古義、古歷。會稽題數(shù)既誤,且為設(shè)問,以明大衍之理
模型:其中如大衍類蓍卦發(fā)微 ○ 欲以新術(shù)改 ○ 周易 ○ 揲蓍之法 ○ 殊乖古義 ○ 古歷會稽題數(shù)既誤 ○ 且為設(shè)問 ○ 以明大衍之理 (模型斷句存在錯誤)
考慮到上古語言與中古語言的差異,為了驗證斷句模型在處理上古語言時的效果,我們又選擇王文錦、陳玉霞點校的《周禮正義》一書,將顏春峰和汪少華整理的49則斷句誤例送入模型測試。其中,模型能正確斷句27則,斷句不完全正確的有22則。
《周禮正義》的模型斷句誤例中,較為集中的是對字義的考證,尤其是引《說文》時的錯誤,比如 “服,牝服,車之材”誤斷作“服牝,服車之材”?!胺弊鳛椤墩f文》中的字頭,其用法與其他古文表達(dá)有較大區(qū)別。此外,因盟誓、考課、葬禮等禮儀制度不明而致誤亦有數(shù)例。
從經(jīng)典古籍中的斷句疑難案例可以看出,本文提出的自動斷句方法在處理古籍一般句式表達(dá)時有明顯優(yōu)勢。而在處理《說文》、古代制度等專業(yè)性較強的數(shù)據(jù)時尚存在問題,這與該類型數(shù)據(jù)相對較少有關(guān)??偟膩碚f,本文方法在已出版古籍的斷句疑難誤例上取得了很好的效果,測試共計60例(均為專家標(biāo)點錯誤,并經(jīng)多次校對未查出),而模型能完全正確斷句35例,達(dá)到了較為實用的水平。
古漢語信息處理技術(shù)在古籍整理和古代文獻(xiàn)、文學(xué)研究中扮演著重要的角色。為了實現(xiàn)高效的古漢語知識表示,本文基于33億字古漢語語料庫學(xué)習(xí)深層語言模型,并在此基礎(chǔ)上實現(xiàn)了高精度的斷句模型,在詩、詞和古文三種文體上,模型斷句F1值分別達(dá)到99%、95%和92%以上。通過分析實驗數(shù)據(jù),我們發(fā)現(xiàn)模型能較好地捕捉詩詞表達(dá)的節(jié)奏感和韻律感,也能充分利用上下文信息,實現(xiàn)語序、語法、語義、語境等信息的編碼。在進(jìn)一步的案例應(yīng)用中,本文方法在已出版古籍的斷句疑難誤例上也取得了較好的效果。
從應(yīng)用角度看,本文提出的斷句方法既可以用于大規(guī)模古籍整理中預(yù)斷句工作,大大減輕專家負(fù)擔(dān),也可用于校對環(huán)節(jié),幫助檢測人工斷句或標(biāo)點的錯誤。在后續(xù)工作中,我們希望將基于深層語言模型的古漢語知識表示方法應(yīng)用到古文翻譯、古詩文創(chuàng)作等其他古漢語信息處理任務(wù)中去。