面向數(shù)字人文的先秦兩漢典籍自動(dòng)標(biāo)點(diǎn)研究
——以SikuBERT預(yù)訓(xùn)練模型為例*

2022-12-15 02:50:36趙連振張逸勤劉江峰王東波馮敏萱

圖書(shū)館論壇 2022年12期

趙連振，張逸勤，劉江峰，王東波，馮敏萱，李斌

0 引言

信息技術(shù)對(duì)學(xué)術(shù)研究產(chǎn)生切實(shí)影響，在人文學(xué)術(shù)研究方面，信息技術(shù)帶來(lái)的方法論和研究范式創(chuàng)新莫過(guò)于“數(shù)字人文”概念。數(shù)字人文的目標(biāo)是將現(xiàn)代信息技術(shù)融入傳統(tǒng)的人文研究與教學(xué)過(guò)程，從而在根本上改變?nèi)宋闹R(shí)的獲取、標(biāo)注、取樣、闡釋與表現(xiàn)方式王東波[1]。中華典籍是中華文化根基，浩如煙海的中華典籍一直為相關(guān)研究造成困難，數(shù)字人文為典籍整理研究帶來(lái)了新機(jī)遇?！吨泄仓醒腙P(guān)于深化文化體制改革推動(dòng)社會(huì)主義文化大發(fā)展大繁榮若干重大問(wèn)題的決定》要求加強(qiáng)文化典籍整理和出版工作，推進(jìn)文化典籍資源數(shù)字化。文化典籍資源數(shù)字化中的古籍文獻(xiàn)具有結(jié)構(gòu)數(shù)據(jù)特性，需要進(jìn)行標(biāo)點(diǎn)整理和正確標(biāo)引，人工標(biāo)點(diǎn)耗時(shí)耗力，自動(dòng)標(biāo)點(diǎn)研究成為推動(dòng)古籍研究在人文社科領(lǐng)域發(fā)展的關(guān)鍵環(huán)節(jié)。當(dāng)前古文自動(dòng)處理領(lǐng)域已有了長(zhǎng)足進(jìn)展，但古籍自動(dòng)斷句標(biāo)點(diǎn)的方法工具研究仍存在擴(kuò)大深度學(xué)習(xí)技術(shù)應(yīng)用范圍的問(wèn)題。在此背景下，本研究利用基于深度學(xué)習(xí)搭建的SikuBERT模型，探索古文自動(dòng)標(biāo)點(diǎn)模型。

1 研究現(xiàn)狀

古文自動(dòng)斷句及標(biāo)點(diǎn)是指根據(jù)古代漢語(yǔ)句子特點(diǎn)并結(jié)合現(xiàn)代漢語(yǔ)的標(biāo)點(diǎn)符號(hào)用法，讓計(jì)算機(jī)自動(dòng)切割(斷開(kāi))連續(xù)的文本字符序列，成為句子，然后添加標(biāo)點(diǎn)[2]。我國(guó)漢語(yǔ)古籍自動(dòng)斷句標(biāo)點(diǎn)研究，最早可追溯到20世紀(jì)末。1997年北京大學(xué)計(jì)算語(yǔ)言研究所和古文學(xué)研究所合作開(kāi)展以《全宋詩(shī)》為對(duì)象的古詩(shī)研究[3]，開(kāi)發(fā)的系統(tǒng)可以自動(dòng)判斷詩(shī)作的押韻與韻腳。從20 世紀(jì)末至今，不少學(xué)者利用自然語(yǔ)言處理技術(shù)對(duì)古文自動(dòng)斷句和標(biāo)點(diǎn)展開(kāi)探索，表現(xiàn)出不同程度的方法創(chuàng)新。當(dāng)前古文自動(dòng)標(biāo)點(diǎn)的研究大致分為基于語(yǔ)法規(guī)則方法和基于統(tǒng)計(jì)建模方法兩種類別。

(1)基于語(yǔ)法規(guī)則方法的自動(dòng)標(biāo)點(diǎn)研究。利用古文句讀(即斷句)規(guī)則指導(dǎo)計(jì)算機(jī)開(kāi)展自動(dòng)標(biāo)點(diǎn)。古文自動(dòng)標(biāo)點(diǎn)建立在掌握句讀知識(shí)基礎(chǔ)上，此類研究最先得到探索和驗(yàn)證。陳天瑩等[4]提出基于前后文n-gram模型，實(shí)現(xiàn)古漢語(yǔ)句子自動(dòng)切分(自動(dòng)加句讀)算法，充分考慮上下文信息預(yù)測(cè)切分位置，解決數(shù)據(jù)稀疏問(wèn)題。黃建年[5]探索古籍計(jì)算機(jī)自動(dòng)斷句標(biāo)點(diǎn)與自動(dòng)分詞標(biāo)引，構(gòu)建古籍計(jì)算機(jī)自動(dòng)整理與開(kāi)發(fā)集成系統(tǒng)，基于規(guī)則匹配模式對(duì)農(nóng)業(yè)典籍開(kāi)展自動(dòng)斷句與自動(dòng)標(biāo)點(diǎn)實(shí)驗(yàn)，開(kāi)發(fā)包括自動(dòng)標(biāo)點(diǎn)等4個(gè)子系統(tǒng)在內(nèi)的農(nóng)業(yè)古籍整理與開(kāi)發(fā)實(shí)驗(yàn)系統(tǒng)，并在《齊民要術(shù)》《氾勝之書(shū)》等古農(nóng)書(shū)上驗(yàn)證可行性?？傮w上，基于語(yǔ)法規(guī)則方法的自動(dòng)標(biāo)點(diǎn)研究側(cè)重采用自動(dòng)化手段對(duì)原始古文自動(dòng)斷句和標(biāo)點(diǎn)，弊端是不適用于大規(guī)模古籍處理。

(2)基于統(tǒng)計(jì)建模方法的自動(dòng)標(biāo)點(diǎn)研究。中文古籍計(jì)算機(jī)自動(dòng)標(biāo)點(diǎn)近年多采用統(tǒng)計(jì)建模方法。根據(jù)機(jī)器學(xué)習(xí)模型，相關(guān)研究劃分為以條件隨機(jī)場(chǎng)(CRF)為代表的傳統(tǒng)機(jī)器學(xué)習(xí)模型方法和較前沿的Bi-LSTM、BERT等深度學(xué)習(xí)模型方法。

傳統(tǒng)機(jī)器學(xué)習(xí)模型與漢語(yǔ)古籍自動(dòng)標(biāo)點(diǎn)領(lǐng)域，條件隨機(jī)場(chǎng)(CRF)模型[6]應(yīng)用普遍，可解決序列標(biāo)注模型存在的標(biāo)注偏置等問(wèn)題，可廣泛應(yīng)用在中文自動(dòng)分詞、詞性標(biāo)注、命名體識(shí)別等領(lǐng)域。也有研究者將該模型應(yīng)用于古籍自動(dòng)斷句標(biāo)點(diǎn)。比如，張開(kāi)旭等[7]提出基于條件隨機(jī)場(chǎng)的古文自動(dòng)斷句標(biāo)點(diǎn)模型，引入互信息和t-測(cè)試差兩個(gè)統(tǒng)計(jì)量作為模型的特征，實(shí)現(xiàn)層疊CRF和單層CRF兩類自動(dòng)標(biāo)點(diǎn)處理策略。基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的古文自動(dòng)分析存在兩個(gè)問(wèn)題：為特定類型的古文人工定制特征模板的過(guò)程耗時(shí)耗力；實(shí)驗(yàn)使用的數(shù)據(jù)集規(guī)模小，定制的特征模板對(duì)不同時(shí)代和體裁的古籍文本的適應(yīng)性較差[8]。因此，需要提高模型的泛化能力。

深度學(xué)習(xí)模型與漢語(yǔ)古籍自動(dòng)標(biāo)點(diǎn)領(lǐng)域，針對(duì)傳統(tǒng)機(jī)器模型在古文自動(dòng)標(biāo)點(diǎn)中的不足，探索深度學(xué)習(xí)方法。王博立等[9]提出基于神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的古文分詞句讀方法，在大規(guī)模古籍語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明該方法的F1值高于傳統(tǒng)方法。還有學(xué)者探索BERT 方法在古文自動(dòng)標(biāo)點(diǎn)和斷句中的應(yīng)用。王倩等[10]針對(duì)現(xiàn)有技術(shù)方法暴露的語(yǔ)義理解不足問(wèn)題，采用BERTLSTM-CRF 模型和多特征LSTM-CRF 模型等，搭建基于深度學(xué)習(xí)層疊模型的句讀自動(dòng)標(biāo)記平臺(tái)，能為用戶指定的古漢語(yǔ)句子或文本文件自動(dòng)給出斷句與標(biāo)點(diǎn)的標(biāo)記結(jié)果。以上方法和模型可以根據(jù)訓(xùn)練語(yǔ)料自動(dòng)學(xué)習(xí)斷句特征，避免復(fù)雜的特征工程，表現(xiàn)出比傳統(tǒng)方法更佳的自動(dòng)標(biāo)點(diǎn)效果。

綜上，深度學(xué)習(xí)模型在漢語(yǔ)古籍自動(dòng)標(biāo)點(diǎn)研究中越來(lái)越受重視，尤其是以BERT 為代表的文本深度表示模型的應(yīng)用提升了古籍自動(dòng)斷句及標(biāo)點(diǎn)的準(zhǔn)確率。BERT模型高效的上下文信息提取能力和閱讀理解性能，能適應(yīng)漢語(yǔ)典籍文本句式靈活、上下文關(guān)聯(lián)性強(qiáng)以及語(yǔ)法意合等特性。但在古文自動(dòng)斷句標(biāo)點(diǎn)方面應(yīng)用BERT模型的研究尚不多見(jiàn)，原始BERT基線模型在繁體古文智能處理任務(wù)中的性能也需要進(jìn)一步提升。為此，本研究在大規(guī)模繁體字古文文本基礎(chǔ)上，構(gòu)建性能更優(yōu)越的SikuBERT預(yù)訓(xùn)練模型，探索該建模型在古籍自動(dòng)標(biāo)點(diǎn)的有效性。研究構(gòu)建的自動(dòng)標(biāo)點(diǎn)模型將全部免費(fèi)公開(kāi)給研究者，以推動(dòng)古文自動(dòng)標(biāo)點(diǎn)研究的進(jìn)一步發(fā)展。

2 數(shù)據(jù)集及模型簡(jiǎn)介

2.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)來(lái)自“中國(guó)哲學(xué)書(shū)電子化計(jì)劃”線上開(kāi)放電子圖書(shū)館(古籍?dāng)?shù)據(jù)庫(kù)，https：//ctext.org/confucianism/zhs)。其收錄逾3萬(wàn)部中國(guó)歷代傳世文獻(xiàn)；按照年代分為先秦兩漢和漢代之后兩部分，先秦兩漢依照派別細(xì)分為兵家、道家、法家、名家、墨家、儒家、雜家等13類，漢代之后依照年代細(xì)分為魏晉南北朝、隋唐、宋明、清代與民國(guó)5類，內(nèi)容準(zhǔn)確可靠；能根據(jù)學(xué)術(shù)派別、文獻(xiàn)年代、文獻(xiàn)名稱、章節(jié)名稱等字段以及關(guān)鍵詞檢索文獻(xiàn)。本實(shí)驗(yàn)即從其網(wǎng)站爬取《論語(yǔ)》《禮記》《戰(zhàn)國(guó)策》《尚書(shū)》《道德經(jīng)》《左傳》《孫子兵法》《論衡》《周易》《孝經(jīng)》《揚(yáng)子法言》《商君書(shū)》《墨子》《莊子》《孟子》《公孫龍子》等16部先秦典籍?dāng)?shù)據(jù)作為實(shí)驗(yàn)語(yǔ)料。語(yǔ)料為繁體字文本，帶有經(jīng)過(guò)校對(duì)的句讀和加注的標(biāo)點(diǎn)符號(hào)，不包括編纂人、目錄、標(biāo)題等典籍外部特征信息。語(yǔ)料正文部分的文本最小組織單位為段落，規(guī)模共計(jì)222，793kb，包含漢字與標(biāo)點(diǎn)符號(hào)總計(jì)25，640，997個(gè)字符。圖1為源自該網(wǎng)站的數(shù)據(jù)摘錄樣例。

2.2 模型

本研究實(shí)驗(yàn)工具包括3種：基于Transformer編碼的BERT預(yù)訓(xùn)練模型、基于神經(jīng)網(wǎng)絡(luò)架構(gòu)的層疊式深度學(xué)習(xí)模型LSTM-CRF，以及自建的使用大規(guī)模古籍?dāng)?shù)據(jù)繼續(xù)訓(xùn)練的SikuBERT預(yù)訓(xùn)練模型。

(1)BERT 預(yù)訓(xùn)練模型。BERT(Bidirectional Encoder Representation from Transformers)方法的基礎(chǔ)是Transformer編碼器，它作為雙向的預(yù)訓(xùn)練方法可以實(shí)現(xiàn)對(duì)語(yǔ)言的表征。BERT 屬于深層次的雙向訓(xùn)練語(yǔ)言模型，能借助海量編碼層提升字嵌入模型的泛化能力，性能優(yōu)于Word2Vec和ELMo模型。BERT預(yù)訓(xùn)練模型有眾多應(yīng)用場(chǎng)景，本研究?jī)H利用該模型進(jìn)行特征提取。如圖2，利用BERT模型創(chuàng)建語(yǔ)境化的字嵌入，作為后續(xù)模型的輸入。因?yàn)門ransformer具有RNN模型所缺乏的并行化處理功能，而B(niǎo)ERT模型在預(yù)訓(xùn)練階段可以利用Transformer的雙向編碼器根據(jù)上下文進(jìn)行雙向轉(zhuǎn)換解碼。Masked Language Model用以遮蓋部分詞語(yǔ)，并在訓(xùn)練中進(jìn)行預(yù)測(cè)，實(shí)現(xiàn)實(shí)驗(yàn)過(guò)程中的雙向理解。為使模型能學(xué)習(xí)兩個(gè)句子的關(guān)聯(lián)，利用Next Sentence Prediction 方法表示句子級(jí)別。預(yù)訓(xùn)練完成后，模型在訓(xùn)練語(yǔ)料基礎(chǔ)上做了有監(jiān)督的微調(diào)，以便應(yīng)用到各類型的任務(wù)中。區(qū)別于傳統(tǒng)的BERT模型，數(shù)字人文研究需要一定的條件支持，如大規(guī)模語(yǔ)料庫(kù)以及可以處理古文的高性能自然語(yǔ)言處理工具。對(duì)英文和現(xiàn)代漢語(yǔ)文本，預(yù)訓(xùn)練語(yǔ)言模型已大幅度改善文本挖掘的精度，但當(dāng)下亟需開(kāi)發(fā)面向古文自動(dòng)處理的預(yù)訓(xùn)練模型。

圖2 BERT模型生成語(yǔ)境化的字嵌入

(2)LSTM- CRF 模型。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)把序列信息作為輸入變量，且按照序列的方向遞歸連接。因具有循環(huán)結(jié)構(gòu)，循環(huán)神經(jīng)網(wǎng)絡(luò)可以保留前期信息并將其關(guān)聯(lián)到當(dāng)前信息種，從而解決無(wú)法保存信息這個(gè)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)難以處理的難題。循環(huán)神經(jīng)網(wǎng)絡(luò)的不足是：當(dāng)序列過(guò)長(zhǎng)且文本信息上下文間隔過(guò)大時(shí)，將出現(xiàn)梯度消失，因而不適用于長(zhǎng)序列任務(wù)。長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory Network，LSTM)解決梯度消失問(wèn)題，可以應(yīng)用于多個(gè)實(shí)際問(wèn)題。長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)不同于門控循環(huán)單元，區(qū)別在于前者的組成要素包括1個(gè)時(shí)間細(xì)胞和3個(gè)門結(jié)構(gòu)，即輸入門、遺忘門和輸出門。輸入門決定保存到記憶狀態(tài)細(xì)胞中的是輸入新信息中的何種部分，遺忘門管控歷史記憶細(xì)胞狀態(tài)的相關(guān)信息，輸出門輸出更新后細(xì)胞狀態(tài)的部分。LSTM 模型的局限之處是，無(wú)法考慮到當(dāng)前文本上下文所蘊(yùn)含的信息。Bi-LSTM(Bidirectional LSTM)神經(jīng)網(wǎng)絡(luò)是對(duì)傳統(tǒng)LSTM的改進(jìn)。該神經(jīng)網(wǎng)絡(luò)借鑒了雙向循環(huán)網(wǎng)絡(luò)的方法，在LSTM上增加前向?qū)雍头聪驅(qū)觾蓚€(gè)并行層，分別從序列的開(kāi)始處和末尾處進(jìn)行處理，因而使得Bi-LSTM保存兩個(gè)方向的文本信息，解決大文本序列任務(wù)的上下文存儲(chǔ)問(wèn)題。借助LSTM網(wǎng)絡(luò)能夠產(chǎn)生優(yōu)良的實(shí)體標(biāo)注效果，但輸出標(biāo)簽之間的強(qiáng)烈依賴關(guān)系會(huì)對(duì)LSTM模型的性能帶來(lái)不良影響，這尤其表現(xiàn)在實(shí)際的序列標(biāo)注任務(wù)中。鑒于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)有很大的依賴性，數(shù)據(jù)量的大小和質(zhì)量會(huì)嚴(yán)重影響模型訓(xùn)練的效果。本研究使用LSTM-CRF模型就是為了解決該問(wèn)題。如圖3，LSTM-CRF模型輸出的內(nèi)容是最佳的標(biāo)簽序列，而不是相互獨(dú)立的標(biāo)簽。LSTM-CRF模型有兩大優(yōu)勢(shì)：保存LSTM同時(shí)兼顧上下文信息的特性；借助CRF層考量輸出獨(dú)立標(biāo)簽前后的相互依賴關(guān)系。

圖3 LSTM-CRF模型框架示意圖

(3)SikuBERT 預(yù)訓(xùn)練模型。由南京農(nóng)業(yè)大學(xué)、南京理工大學(xué)和南京師范大學(xué)聯(lián)合開(kāi)發(fā)的SikuBERT模型是為漢語(yǔ)古籍文本進(jìn)行智能處理所構(gòu)建的預(yù)訓(xùn)練模型[11]。Siku是“四庫(kù)”漢語(yǔ)拼音的縮寫，SikuBERT是在BERT模型的基礎(chǔ)框架下，選擇刪除注釋的繁體漢字無(wú)標(biāo)點(diǎn)版《四庫(kù)全書(shū)》全文作為訓(xùn)練語(yǔ)料而得到的語(yǔ)言模型。由于BERT模型具有雙向Transformer編碼器結(jié)構(gòu)的特性，SikuBERT模型在詞向量的訓(xùn)練中能夠最大程度上保留古籍文本的原始特征，從而規(guī)避實(shí)驗(yàn)受限于訓(xùn)練文本分詞質(zhì)量的缺陷。SikuBERT在預(yù)訓(xùn)練過(guò)程中僅使用掩碼語(yǔ)言模型(Mask Language Model，MLM)完成無(wú)監(jiān)督學(xué)習(xí)任務(wù)，可以綜合上下文內(nèi)容預(yù)測(cè)被遮罩的字符。因此，SikuBERT模型可以移除原始模型中對(duì)下游任務(wù)性能影響甚微的NSP任務(wù)，僅使用MLM損失函數(shù)判斷模型預(yù)訓(xùn)練的完成度。在實(shí)驗(yàn)中該預(yù)訓(xùn)練模型隨機(jī)遮罩15%的詞匯，并通過(guò)預(yù)測(cè)被遮罩字符的方式完成參數(shù)更新。與原始BERT-base 以及 RoBERTa、GuwenBert 等基線模型相對(duì)比，SikuBERT預(yù)訓(xùn)練模型在古文分詞、古文詞性標(biāo)注、古文命名實(shí)體識(shí)別等繁體古文智能處理任務(wù)中的性能均有所提升。

自動(dòng)標(biāo)點(diǎn)問(wèn)題可視為序列標(biāo)注任務(wù)。具體而言，利用{B，E，I，J，S}分別描述句子各部分的字，使用{D，J，F(xiàn)，G，W，M，S，O}區(qū)分具體標(biāo)點(diǎn)，將古籍自動(dòng)標(biāo)點(diǎn)問(wèn)題轉(zhuǎn)換為單句序列標(biāo)注任務(wù)。BERT系列模型中的單句序列標(biāo)注任務(wù)僅需改造BERT模型的輸出層，即在模型所有輸出后增加一個(gè)分類層。分類層由一個(gè)全連接層和一個(gè)softmax層組成，用于輸出最后標(biāo)注類別的概率。SikuBERT系列預(yù)訓(xùn)練模型的結(jié)構(gòu)與BERT-base模型相同，兩者在預(yù)訓(xùn)練過(guò)程中所使用的預(yù)訓(xùn)練任務(wù)略有差異。可見(jiàn)，SikuBERT系列預(yù)訓(xùn)練模型應(yīng)用于古籍自動(dòng)標(biāo)點(diǎn)任務(wù)的方法與上述改造BERT模型的方法是相一致的。

3 實(shí)驗(yàn)設(shè)計(jì)

本研究選取經(jīng)過(guò)句讀校驗(yàn)的“中國(guó)哲學(xué)書(shū)電子化計(jì)劃”古籍?dāng)?shù)據(jù)庫(kù)中的全文語(yǔ)料作為實(shí)驗(yàn)訓(xùn)練集，利用自建SikuBERT預(yù)訓(xùn)練語(yǔ)言模型對(duì)先秦典籍文本開(kāi)展自動(dòng)標(biāo)點(diǎn)研究。

3.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理階段主要包括兩個(gè)內(nèi)容：規(guī)范標(biāo)注已經(jīng)完成斷句校對(duì)的語(yǔ)料；利用句號(hào)、問(wèn)號(hào)、感嘆號(hào)等句末標(biāo)點(diǎn)符號(hào)切分句子。

第一步，對(duì)語(yǔ)料進(jìn)行斷句，以{B，E，I，J，S}為標(biāo)記集合。在該集合中B代表句首字，E代表句尾字，I代表句長(zhǎng)超過(guò)3(字?jǐn)?shù))時(shí)的中間字，J表示當(dāng)句長(zhǎng)大于2(字?jǐn)?shù))時(shí)句尾字前面的一個(gè)字，S代表單字成句，標(biāo)簽標(biāo)注示例見(jiàn)表1。

表1 斷句標(biāo)簽摘錄樣例

第二步，在斷句基礎(chǔ)上輸出標(biāo)點(diǎn)標(biāo)記，以{D，J，F(xiàn)， G，W， M，S，O}為標(biāo)記集合。各字母含義為：D 表示逗號(hào)，J 表示句號(hào)，F(xiàn) 表示分號(hào)，G表示感嘆號(hào)，W表示問(wèn)號(hào)，M表示冒號(hào)，S表示書(shū)名號(hào)，O表示文字后無(wú)標(biāo)點(diǎn)符號(hào)。針對(duì)語(yǔ)料語(yǔ)句“曰：然。諸子之書(shū)稱爵祿，非貴也”，標(biāo)簽標(biāo)注示例見(jiàn)表2。通過(guò)將語(yǔ)料制成深度學(xué)習(xí)模型可識(shí)別的格式，本實(shí)驗(yàn)獲得總計(jì)約2，600萬(wàn)行token格式的深度學(xué)習(xí)語(yǔ)料，句長(zhǎng)存在不平衡情況。數(shù)據(jù)集進(jìn)一步被隨機(jī)分為10份，其中訓(xùn)練集9份，測(cè)試集與驗(yàn)證集1份；訓(xùn)練集數(shù)據(jù)約2，308萬(wàn)行，測(cè)試集與驗(yàn)證集數(shù)據(jù)約255萬(wàn)行。借助十折交叉驗(yàn)證(10-fold cross-validation)法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)，把10份數(shù)據(jù)中的9份當(dāng)作訓(xùn)練數(shù)據(jù)，提高實(shí)驗(yàn)準(zhǔn)確率并降低結(jié)構(gòu)性誤差。

表2 標(biāo)注體系標(biāo)注示例

3.2 評(píng)價(jià)指標(biāo)

模型分詞水平有以下常用評(píng)價(jià)指標(biāo)：準(zhǔn)確率P(Precision)、召回率R(Recall)、調(diào)和平均值F1，計(jì)算算式詳見(jiàn)下列公式。在公式中，M為測(cè)試集總句數(shù)，N為標(biāo)注出的標(biāo)點(diǎn)符號(hào)數(shù)，T為標(biāo)注正確的標(biāo)點(diǎn)符號(hào)數(shù)。模型分詞的精確度與全面度分別由準(zhǔn)確率和召回率表示，而調(diào)和平均值則綜合了前兩個(gè)指標(biāo)的優(yōu)點(diǎn)，可以防止兩者差距擴(kuò)大。因此，調(diào)和平均值指標(biāo)可以更客觀地評(píng)價(jià)分詞效果，成為本實(shí)驗(yàn)中最為重要的評(píng)價(jià)指標(biāo)。

3.3 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本研究實(shí)驗(yàn)環(huán)境配置為：CPU，Intel(R)Xeon(R) CPU E5-2650 v4 @ 2.20GHz；GPU，NVIDIA?Tesla?P40；內(nèi)存，512GB；顯存，24GB；操作系統(tǒng)，CentOS 3.10.0。全部模型的訓(xùn)練和測(cè)試均在Pytorch后端的BERT框架內(nèi)進(jìn)行。表3展示本實(shí)驗(yàn)?zāi)Ｐ椭械闹饕瑓?shù)設(shè)置。

表3 本實(shí)驗(yàn)?zāi)Ｐ偷闹饕瑓?shù)設(shè)置

4 實(shí)驗(yàn)分析

通過(guò)對(duì)十折交叉整體調(diào)和平均值的分析，發(fā)現(xiàn)SikuBERT模型在先秦典籍自動(dòng)標(biāo)點(diǎn)實(shí)驗(yàn)中取得較優(yōu)越的整體效果。選取第三組實(shí)驗(yàn)為例，以深入分析主要標(biāo)點(diǎn)符號(hào)的標(biāo)注結(jié)果，見(jiàn)表4。

表4 自動(dòng)標(biāo)點(diǎn)十折交叉實(shí)驗(yàn)的準(zhǔn)確率、召回率與F1值

由表4看出，書(shū)名號(hào)標(biāo)簽S與冒號(hào)標(biāo)簽M總體上的識(shí)別準(zhǔn)確率、召回率與F1 值表現(xiàn)最優(yōu)；其次是句號(hào)標(biāo)簽J和逗號(hào)標(biāo)簽D的識(shí)別準(zhǔn)確率、召回率與F1值表現(xiàn)也不錯(cuò)。問(wèn)號(hào)標(biāo)簽W、分號(hào)標(biāo)簽F與感嘆號(hào)標(biāo)簽G的識(shí)別準(zhǔn)確率相對(duì)較差，三者中又有差異：?jiǎn)柼?hào)相對(duì)較好，除準(zhǔn)確率較低于80%外，召回率和F1值均在80%以上；分號(hào)和感嘆號(hào)的3種指標(biāo)多在50%以下，有的甚至低于40%，與書(shū)名號(hào)和冒號(hào)有顯著差異。以下分析標(biāo)點(diǎn)實(shí)驗(yàn)現(xiàn)狀的原因。

就書(shū)名號(hào)與冒號(hào)而言，實(shí)驗(yàn)結(jié)果最理想，主要原因在于二者的斷句形式標(biāo)志較明顯。在古籍標(biāo)點(diǎn)中，書(shū)名號(hào)標(biāo)明的書(shū)名、篇章名、樂(lè)舞名等作為實(shí)體容易識(shí)別，如本實(shí)驗(yàn)語(yǔ)料中出現(xiàn)的《詩(shī)》《書(shū)》《訓(xùn)》《帝典》《論語(yǔ)》《史記》。古籍引書(shū)還遵循一定模式，如“……云”“……曰”，有助于提高識(shí)別的準(zhǔn)確率。書(shū)名號(hào)標(biāo)點(diǎn)致誤的主要原因是不明文獻(xiàn)名稱。比如，SikuBERT模型的處理為：“故司馬法曰：賞罰不時(shí)，欲使民速見(jiàn)善惡之報(bào)也。”古籍標(biāo)點(diǎn)中的引書(shū)識(shí)別法之一是“……曰”，但“曰”也可用在人名后表示“說(shuō)，說(shuō)道”，因此該句的正確標(biāo)注為：“故《司馬法》曰：賞罰不時(shí)，欲使民速見(jiàn)善惡之報(bào)也。”冒號(hào)通常出現(xiàn)在提示性話語(yǔ)之后或總括性話語(yǔ)之前，位置具有較顯著的特征，易被模型學(xué)習(xí)與掌握，因此標(biāo)注準(zhǔn)確率高達(dá)95%以上。部分自動(dòng)標(biāo)點(diǎn)致誤的主要原因在于不明文義，沒(méi)有用冒號(hào)正確揭示句子內(nèi)部結(jié)構(gòu)。例如，“狄人之所欲者，吾土地也。吾聞之也，君子不以其所以養(yǎng)人者害人?！痹谠摾?，“君子不以其所以養(yǎng)人者害人”屬于句中的解釋或綜括性部分，該部分與句子的提示語(yǔ)之間應(yīng)正確使用冒號(hào)，以更好地揭示句子內(nèi)部的邏輯結(jié)構(gòu)。因此，正確的標(biāo)點(diǎn)應(yīng)該是：“狄人之所欲者，吾土地也。吾聞之也：君子不以其所以養(yǎng)人者害人?！?/p>

就句號(hào)和逗號(hào)而言，句號(hào)各項(xiàng)指標(biāo)逾86%，實(shí)驗(yàn)結(jié)果較理想。標(biāo)識(shí)句號(hào)和逗號(hào)的形式特征較弱，語(yǔ)義特征較強(qiáng)，需要進(jìn)行語(yǔ)義層面的判斷，可能出現(xiàn)因理解產(chǎn)生的不一致。句號(hào)標(biāo)注出現(xiàn)明顯的偏誤更多是不明文義造成的。例如，“學(xué)猶飾也。器不飾則無(wú)以為美觀；人不學(xué)則無(wú)以有懿德?！?個(gè)分句語(yǔ)義上關(guān)系較密切，但句號(hào)表示明顯的停頓，第一個(gè)分句后使用句號(hào)則割裂三者之間的關(guān)聯(lián)。因此，正確標(biāo)注應(yīng)為：“學(xué)猶飾也，器不飾則無(wú)以為美觀，人不學(xué)則無(wú)以有懿德?！倍禾?hào)情況也大致如此，由于詞義不明和句義不明等，模型在自動(dòng)標(biāo)點(diǎn)時(shí)會(huì)出現(xiàn)偏誤。例如，“有懿德故可以經(jīng)人倫，為美觀故可以供神明?！蹦Ｐ偷倪@種標(biāo)點(diǎn)顯然是不明漢語(yǔ)句式的成分和結(jié)構(gòu)造成的。正確的標(biāo)點(diǎn)應(yīng)為：“有懿德，故可以經(jīng)人倫；為美觀，故可以供神明。”總之，通過(guò)初步比較機(jī)器模型在句號(hào)和逗號(hào)標(biāo)注中出現(xiàn)的偏誤，發(fā)現(xiàn)在標(biāo)點(diǎn)判斷中語(yǔ)義成為首要考慮因素，因而自動(dòng)標(biāo)注更復(fù)雜，影響實(shí)驗(yàn)準(zhǔn)確率。

就問(wèn)號(hào)、感嘆號(hào)和分號(hào)而言，問(wèn)號(hào)標(biāo)簽W的準(zhǔn)確率和F1值低，準(zhǔn)確率甚至低于80%。盡管問(wèn)號(hào)的準(zhǔn)確率低于上兩組中的標(biāo)點(diǎn)符號(hào)，但在同組中其準(zhǔn)確率卻高于分號(hào)和冒號(hào)，可以歸因于問(wèn)號(hào)標(biāo)點(diǎn)出現(xiàn)的位置具有較強(qiáng)的特征。句尾語(yǔ)氣詞的多用法特征，是導(dǎo)致模型自動(dòng)標(biāo)注出錯(cuò)的主要原因。比如，模型標(biāo)注為“今日行之，可以知古，可以察今，其此邪？”這里的“邪”應(yīng)是表示感嘆，正確標(biāo)注應(yīng)為“今日行之，可以知古，可以察今，其此邪！”感嘆號(hào)準(zhǔn)確率更低，僅約61%，召回率和F1 值低于50%。在所有標(biāo)點(diǎn)中，感嘆號(hào)數(shù)量較少、使用頻率較低，可能會(huì)影響統(tǒng)計(jì)數(shù)值，這是感嘆號(hào)自動(dòng)標(biāo)點(diǎn)準(zhǔn)確率較低的原因之一。但更重要的是，句末形式標(biāo)記的歧義性和意義語(yǔ)氣判斷的不確定性。從統(tǒng)計(jì)數(shù)據(jù)看，模型自動(dòng)標(biāo)點(diǎn)中感嘆號(hào)和問(wèn)號(hào)出現(xiàn)判斷失誤較普遍，這與句尾語(yǔ)氣詞的歧義性有很大關(guān)系。分號(hào)準(zhǔn)確率約59%，召回率和F1值均不到50%。統(tǒng)計(jì)數(shù)據(jù)表明，分號(hào)準(zhǔn)確率最低，總體實(shí)驗(yàn)結(jié)果不理想。分號(hào)標(biāo)注的實(shí)質(zhì)是判定復(fù)句內(nèi)部各分句之間的語(yǔ)義關(guān)系，語(yǔ)義的復(fù)雜性是機(jī)器學(xué)習(xí)最為薄弱環(huán)節(jié)，導(dǎo)致分號(hào)出現(xiàn)較低準(zhǔn)確率。

為直觀分析自動(dòng)標(biāo)點(diǎn)模型的效果，本研究在測(cè)試集上截取部分語(yǔ)料進(jìn)行觀測(cè)，結(jié)果見(jiàn)表5。從上述截取結(jié)果可知，模型對(duì)逗號(hào)的識(shí)別較準(zhǔn)確，而問(wèn)號(hào)及感嘆號(hào)的識(shí)別精度較差；句子“猶莫之敢規(guī)也，而況於人君哉！”，末尾“哉”字后應(yīng)為感嘆號(hào)，而模型將其標(biāo)為問(wèn)號(hào)。同時(shí)，在人工檢查測(cè)試集語(yǔ)料后，也發(fā)現(xiàn)多處問(wèn)號(hào)和感嘆號(hào)識(shí)別錯(cuò)誤的情況。

表5 標(biāo)注結(jié)果樣例

為對(duì)本模型進(jìn)行嚴(yán)謹(jǐn)科學(xué)的評(píng)價(jià)，借助十折交叉驗(yàn)證法來(lái)判斷其性能。表6 展示每組準(zhǔn)確率、召回率和調(diào)和平均值3個(gè)重要指標(biāo)的數(shù)值。本次實(shí)驗(yàn)?zāi)Ｐ偷目傮w性能以柱形圖展示，其中橫軸為十折交叉驗(yàn)證的10組實(shí)驗(yàn)組次，縱軸為各組的各項(xiàng)指標(biāo)平均值，結(jié)果見(jiàn)圖4。實(shí)驗(yàn)語(yǔ)料共計(jì)222，793kb，通過(guò)對(duì)十折交叉整體調(diào)和平均值的比較分析可知，在本文先秦典籍自動(dòng)標(biāo)點(diǎn)實(shí)驗(yàn)中，SikuBERT模型的整體效果均比較優(yōu)越。其中，最優(yōu)為組次3，準(zhǔn)確率達(dá)到87.86%，召回率達(dá)到87.92%，調(diào)和平均值為87.86%。

表6 十折交叉驗(yàn)證實(shí)驗(yàn)的結(jié)果

圖4 十折交叉驗(yàn)證的模型指標(biāo)平均值

根據(jù)最后的評(píng)測(cè)指標(biāo)，模型對(duì)不同標(biāo)點(diǎn)的預(yù)測(cè)表現(xiàn)出顯著的差異。由于使用位置特征明顯，逗號(hào)、冒號(hào)、書(shū)名號(hào)以及句號(hào)容易被機(jī)器模型學(xué)習(xí)和掌握，因而表現(xiàn)出良好的預(yù)測(cè)結(jié)果。相比之下，模型對(duì)分號(hào)和感嘆號(hào)的預(yù)測(cè)仍有較大提升空間。分號(hào)表現(xiàn)尤其如此，原因在于該標(biāo)點(diǎn)符合的使用場(chǎng)景復(fù)雜，不確定性高，對(duì)模型學(xué)習(xí)與預(yù)測(cè)造成一定的難度。人工查錯(cuò)后發(fā)現(xiàn)，分號(hào)較多地被錯(cuò)誤預(yù)測(cè)為逗號(hào)，表明這兩種符號(hào)的區(qū)分有較大困難，這也符合本文的判斷。感嘆號(hào)則大量被誤測(cè)為問(wèn)號(hào)和句號(hào)，原因在于三者同為句末的句讀標(biāo)記，具有類似的句法功能。加之，句末語(yǔ)氣詞是它們的形式標(biāo)記，語(yǔ)氣詞字形類似，會(huì)給識(shí)別工作帶來(lái)困難。另外，感嘆號(hào)使用頻率較低，會(huì)造成數(shù)據(jù)稀疏，這也會(huì)影響模型預(yù)測(cè)結(jié)果。

5 單機(jī)版古文斷句自動(dòng)標(biāo)記平臺(tái)設(shè)計(jì)

基于實(shí)驗(yàn)結(jié)果，借助SikuBERT模型，本研究開(kāi)發(fā)兼容古文文本自動(dòng)斷句功能的集成型古文智能處理平臺(tái)，運(yùn)用Python語(yǔ)言和pyQt5圖形界面編程。單機(jī)版“Sikuaip：面向數(shù)字人文的中國(guó)古代典籍智能處理平臺(tái)”(以下簡(jiǎn)稱“Sikuaip平臺(tái)”)以可視化方式幫助研究人員實(shí)現(xiàn)任意古文文本的斷句自動(dòng)標(biāo)記。在1.0版中，Sikuaip平臺(tái)提供包含自動(dòng)斷句、自動(dòng)分詞與詞性標(biāo)注、實(shí)體識(shí)別在內(nèi)的多種古文智能處理功能。經(jīng)過(guò)代碼整合，實(shí)現(xiàn)3種功能，可處理不同規(guī)模文本，即單句自動(dòng)斷句、單文本文件自動(dòng)斷句以及多文件自動(dòng)斷句。通過(guò)pyQt5信號(hào)發(fā)送，軟件中的“自動(dòng)斷句”按鈕可連接到作為槽函數(shù)的斷句函數(shù)。表7展示了斷句函數(shù)的參數(shù)。

表7 斷句函數(shù)的參數(shù)及其功能

在表7中，參數(shù)input_path表示接受用戶語(yǔ)料輸入的待處理文件路徑，而參數(shù)output_path表示處理后輸出的文件路徑。每個(gè)序列在輸入文件中的長(zhǎng)度不超過(guò)512字符；若單個(gè)序列過(guò)長(zhǎng)，需進(jìn)行截?cái)嗵幚?，將其分為若干子序列。采用CPU與GPU兩種軟件同時(shí)運(yùn)行的方式，保證計(jì)算資源可得到最大程度利用。本研究開(kāi)發(fā)的Sikuaip平臺(tái)主界面如圖5所示。依據(jù)待處理文本規(guī)模的不同，Sikuaip平臺(tái)可以為用戶提供單文本模式和語(yǔ)料庫(kù)模式兩種處理入口。

圖5 智能處理平臺(tái)主界面

用戶根據(jù)需求單擊相應(yīng)按鈕后，可進(jìn)入自動(dòng)斷句功能界面。單文本模式下的自動(dòng)處理界面見(jiàn)圖6。在單文本模式下進(jìn)行自動(dòng)斷句處理，需在左側(cè)文本框內(nèi)輸入繁體中文形式的原始文本，單擊“自動(dòng)標(biāo)點(diǎn)”按鈕，右側(cè)結(jié)果欄即可生成自動(dòng)斷句后的古籍文本。圖6中使用的樣例文本來(lái)源于《史記·陳涉世家》。根據(jù)現(xiàn)有較權(quán)威的中華書(shū)局修訂版點(diǎn)校本《史記》，該段文本的斷句處理應(yīng)為：“陳勝者，陽(yáng)城人也，字涉。吳廣者，陽(yáng)夏人也，字叔。陳涉少時(shí)，嘗與人傭耕，輟耕之壟上，悵恨久之，曰：「茍富貴，無(wú)相忘?！褂拐咝Χ鴳?yīng)曰：「若為庸耕，何富貴也？」陳涉太息曰：「嗟乎，燕雀安知鴻鵠之志哉！」”可見(jiàn)，使用Sikuaip平臺(tái)進(jìn)行智能處理，除缺失傳統(tǒng)句讀符號(hào)雙引號(hào)外，輸出的處理結(jié)果幾乎與權(quán)威句讀完全一致。這表明Sikuaip平臺(tái)的自動(dòng)斷句功能對(duì)中文古籍處理有較好的適用性。

圖6 單文本模式自動(dòng)斷句功能

圖7 為語(yǔ)料庫(kù)模式自動(dòng)斷句場(chǎng)景示意圖。大規(guī)模文本的自動(dòng)斷句處理可以選用語(yǔ)料庫(kù)模式，操作流程如下：?jiǎn)螕簟盀g覽”按鈕選擇待處理的文件夾與輸出文件夾，之后點(diǎn)擊“自動(dòng)標(biāo)點(diǎn)”按鈕來(lái)調(diào)用Sikuaip自動(dòng)斷句模型，實(shí)現(xiàn)古籍文本大批量自動(dòng)斷句?，F(xiàn)階段開(kāi)發(fā)較完備的文本智能處理平臺(tái)有北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室開(kāi)發(fā)的NLPIR-Parser大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)[12]，以及針對(duì)現(xiàn)代漢語(yǔ)、漢語(yǔ)文言文以及前現(xiàn)代韓文(韓國(guó)語(yǔ))命名實(shí)體自動(dòng)識(shí)別等相關(guān)應(yīng)用的MARKUS 與COMPARATIVUS 文本標(biāo)記平臺(tái)[13]等。NLPIR-Parser大數(shù)據(jù)語(yǔ)義智能分析平臺(tái)主要面向現(xiàn)代漢語(yǔ)；MARKUS主要面向漢文，尤其是文學(xué)領(lǐng)域的漢文與朝鮮文的處理；Sikuaip平臺(tái)應(yīng)用SikuBERT模型，針對(duì)性地實(shí)現(xiàn)了中國(guó)古代漢語(yǔ)文本自動(dòng)斷句的智能化處理。

圖7 語(yǔ)料庫(kù)模式自動(dòng)斷句功能

6 結(jié)語(yǔ)

數(shù)字人文為中華典籍的整理研究帶來(lái)了新機(jī)遇。在人文社科領(lǐng)域，古籍自動(dòng)標(biāo)點(diǎn)研究扮演關(guān)鍵角色。近年古籍自動(dòng)標(biāo)點(diǎn)領(lǐng)域取得很好進(jìn)展，但在方法工具方面，機(jī)器深度學(xué)習(xí)技術(shù)的應(yīng)用仍然需要探究。為此，本研究利用SikuBERT 模型，以“中國(guó)哲學(xué)書(shū)電子化計(jì)劃”古籍?dāng)?shù)據(jù)庫(kù)中的先秦兩漢典籍為數(shù)據(jù)源，探索基于深度學(xué)習(xí)技術(shù)的古文自動(dòng)標(biāo)點(diǎn)模型。通過(guò)對(duì)十折交叉整體調(diào)和平均值的比較分析，發(fā)現(xiàn)SikuBERT模型對(duì)先秦兩漢典籍自動(dòng)標(biāo)點(diǎn)的整體效果均比較優(yōu)越，尤其是書(shū)名號(hào)、冒號(hào)、句號(hào)以及逗號(hào)，預(yù)測(cè)表現(xiàn)良好；分號(hào)、感嘆號(hào)和問(wèn)號(hào)的識(shí)別準(zhǔn)確率相對(duì)較差，預(yù)測(cè)表現(xiàn)有待提高。后續(xù)研究將考慮在3個(gè)方面進(jìn)行。一是克服自動(dòng)標(biāo)點(diǎn)中形式標(biāo)記的“雙刃劍”屬性影響。古漢語(yǔ)句末語(yǔ)氣詞“也”“邪”等可以表達(dá)多重含義，如陳述、感嘆、疑問(wèn)。這既為自動(dòng)標(biāo)注帶來(lái)方便，也因其多義性造成標(biāo)注的偏誤。二是加強(qiáng)機(jī)器深度學(xué)習(xí)的語(yǔ)義學(xué)習(xí)功能。當(dāng)標(biāo)點(diǎn)的形式特征顯著時(shí)，實(shí)驗(yàn)結(jié)果往往較為理想，但涉及到語(yǔ)義和語(yǔ)氣等意義層面的判斷時(shí)，準(zhǔn)確率就會(huì)降低，這是機(jī)器自動(dòng)學(xué)習(xí)需要進(jìn)一步完善之處。三是探索其他標(biāo)點(diǎn)的實(shí)驗(yàn)效果。引號(hào)、頓號(hào)等標(biāo)點(diǎn)在本研究中沒(méi)有涉及，今后的研究可以驗(yàn)證這類標(biāo)注的準(zhǔn)確性等指標(biāo)。作為古籍研究與文化傳承中重要的基礎(chǔ)性研究項(xiàng)目，我國(guó)古籍自動(dòng)斷句標(biāo)點(diǎn)研究可以豐富數(shù)字人文在古文智能處理方面的內(nèi)涵。未來(lái)，伴隨深度學(xué)習(xí)方法的更新，古籍研究將引入更先進(jìn)的自動(dòng)處理模型算法，這對(duì)高質(zhì)量古籍知識(shí)教育、古籍內(nèi)涵深度挖掘與優(yōu)秀傳統(tǒng)文化創(chuàng)新應(yīng)用等具有重大意義。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向數(shù)字人文的先秦兩漢典籍自動(dòng)標(biāo)點(diǎn)研究——以SikuBERT預(yù)訓(xùn)練模型為例*