SikuBERT與SikuRoBERTa：面向數(shù)字人文的《四庫全書》預(yù)訓(xùn)練模型構(gòu)建及應(yīng)用研究*

2022-06-17 09:02:58王東波朱子赫劉江峰胡昊天

圖書館論壇 2022年6期

王東波，劉暢，朱子赫，劉江峰，胡昊天，沈思，李斌

0 引言

近年在人文社會科學(xué)領(lǐng)域中，數(shù)字人文研究異軍突起。有關(guān)數(shù)字人文概念、研究范式等的探究相對全面與成熟，而有關(guān)語料庫、知識庫、計(jì)算模型等構(gòu)建與應(yīng)用的研究相對較少。面向漢語言文獻(xiàn)學(xué)的數(shù)字人文研究，其最大特征和優(yōu)勢在于擁有海量的漢語古代典籍?dāng)?shù)據(jù)，而最具有代表性的圖書典籍?dāng)?shù)據(jù)源為《四庫全書》。如何利用《四庫全書》這一寬廣而全面的歷史文獻(xiàn)集？這一問題在深度學(xué)習(xí)背景下有了全新的解決方案。基于BERT語言模型框架，構(gòu)建面向古籍文獻(xiàn)的預(yù)訓(xùn)練模型，對推動古文智能化處理以及數(shù)字人文研究的深入具有獨(dú)特價(jià)值。據(jù)此，本文基于BERT(Bidirectional Encoder Representation from Transformers)預(yù)訓(xùn)練模型技術(shù)，利用《四庫全書》正文語料，構(gòu)建SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型，在多層次的古文處理任務(wù)上進(jìn)行驗(yàn)證，并構(gòu)建SIKU-BERT典籍智能處理平臺，為人文領(lǐng)域?qū)W者提供一種便利化的古文知識組織與挖掘選擇。

1 文獻(xiàn)綜述

1.1 預(yù)訓(xùn)練語言模型

自然語言處理(Natural Language Processing，NLP)和文本的研究包括序列標(biāo)注、自動分類、文本生成等各類有監(jiān)督任務(wù)。這些任務(wù)往往需要構(gòu)建大規(guī)模標(biāo)注訓(xùn)練集，以讓深度學(xué)習(xí)模型充分學(xué)習(xí)詞匯、句法與語義的特征，從而使得其人力與時(shí)間成本非常昂貴。而通過自監(jiān)督的方式，讓語言模型在大量未標(biāo)記語料上進(jìn)行訓(xùn)練，對自然語言的內(nèi)在特征進(jìn)行建模與表征，可得到具有通用語言表示[1]的預(yù)訓(xùn)練模型(Pre-trained Model，PLM)。在進(jìn)行下游任務(wù)時(shí)，直接將預(yù)訓(xùn)練模型作為初始化參數(shù)，不僅使模型具備更強(qiáng)的泛化能力與更快的收斂速度[2]，且僅需要輸入少量的標(biāo)記數(shù)據(jù)進(jìn)行微調(diào)，即可在避免過擬合的同時(shí)顯著提升NLP任務(wù)性能。

早期以Word2Vec[3]、GloVe[4]等為代表的預(yù)訓(xùn)練模型基于詞嵌入技術(shù)，將詞匯表征為低維稠密的分布式向量。這些嵌入方式雖然考慮了詞義與詞匯間的共現(xiàn)關(guān)系，但所構(gòu)建的詞向量為缺乏上下文依賴的靜態(tài)向量，詞義不會因語境的更改而變化，因此無法解決一詞多義問題。自ELMo[5]模型提出以后，基于上下文語境信息動態(tài)嵌入的預(yù)訓(xùn)練模型解決了靜態(tài)詞向量詞義固定的問題，實(shí)現(xiàn)了對詞義、語法、語言結(jié)構(gòu)的聯(lián)合深層建模。

預(yù)訓(xùn)練模型根據(jù)建模思想的不同，主要可以分為3類。第一類是以GPT[6]為代表的自回歸模型。由于本質(zhì)上為單向語言模型，雖然在生成式任務(wù)中表現(xiàn)優(yōu)異，但是無法同時(shí)學(xué)習(xí)上下文信息。第二類是以BERT[7]為代表的自編碼模型，通過掩碼語言模型(Masked Language Model，MLM)實(shí)現(xiàn)兩個(gè)方向信息的同時(shí)獲取，但也因此導(dǎo)致預(yù)訓(xùn)練和微調(diào)階段不匹配的問題。第三類是以XLNet[8]為代表的排序語言模型。此類模型融合了上述兩類模型的優(yōu)勢，通過對輸入序列的隨機(jī)排序，使單向語言模型學(xué)習(xí)到雙向文本表示的同時(shí)，還保證了兩階段的一致性。

以下為當(dāng)前較為主流的預(yù)訓(xùn)練模型。ELMo(Embedding from Language Models)[5]模型：通過兩層雙向LSTM神經(jīng)網(wǎng)絡(luò)在大規(guī)模語料庫上進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)詞匯在不同語境下的句法與語義信息，并在下游任務(wù)中動態(tài)調(diào)整多義詞的嵌入表示，從而確定多義詞在特定上下文中的含義。由于其簡單拼接前后兩個(gè)方向獨(dú)立訓(xùn)練的單向語言模型，特征融合能力相對較弱。GPT(Generative Pre-Training)[6]模型：將ELMo模型中的LSTM架構(gòu)替換為特征提取能力更強(qiáng)的單向Transformer[9]，從而捕捉更長距離的語境信息。然而，由于其僅使用上文信息預(yù)測當(dāng)前詞匯，因此更適合于機(jī)器翻譯、自動摘要等前向生成式任務(wù)。其后續(xù)的改進(jìn)型GPT2.0[10]與GPT3.0[11]模型，采用了更大的Transformer結(jié)構(gòu)，基于規(guī)模更大、質(zhì)量更高、類型更廣的WebText、Common Crawl等數(shù)據(jù)集，預(yù)訓(xùn)練了更加通用、泛化能力更強(qiáng)的語言模型，并無需微調(diào)、完全無監(jiān)督地進(jìn)行文本生成等下游任務(wù)。BERT模型：該模型的出現(xiàn)極大地推動了預(yù)訓(xùn)練模型的發(fā)展[12]，催生一系列改進(jìn)的預(yù)訓(xùn)練模型，也使得預(yù)訓(xùn)練結(jié)合下游任務(wù)微調(diào)逐漸成為當(dāng)前預(yù)訓(xùn)練模型的主流模式[1]。BERT是一種基于Transformer架構(gòu)的自監(jiān)督深層雙向語言表示模型，它通過掩碼語言模型迫使模型根據(jù)前后文全向信息進(jìn)行預(yù)測，從而實(shí)現(xiàn)深層雙向文本表示。此外，BERT還通過下一句預(yù)測(Next Sentence Prediction，NSP)任務(wù)，學(xué)習(xí)前后兩個(gè)句子是否為連續(xù)關(guān)系，從而更好地實(shí)現(xiàn)自動問答和自然語言推理。

由于BERT模型中MLM遮蔽機(jī)制僅作用于單個(gè)字符，對詞間關(guān)系與中文詞義的學(xué)習(xí)并不友好，因此后續(xù)學(xué)者提出的一些預(yù)訓(xùn)練模型對遮蔽機(jī)制進(jìn)行了改進(jìn)。一是ERNIE(Baidu，Enhanced Representation through Knowledge Integration)[13]在原始對單個(gè)字符(漢字)遮蔽的基礎(chǔ)上，增加了實(shí)體層面遮蔽和短語層面遮蔽，從而使預(yù)訓(xùn)練模型學(xué)習(xí)到豐富的外部實(shí)體和短語知識。該模型還構(gòu)建了對話語言模型(Dialogue Language Model，DLM)任務(wù)，基于百度貼吧的對話數(shù)據(jù)學(xué)習(xí)多輪對話中的隱式語義關(guān)系。二是BERT-wwm[14]模型提出了更適合中文文本的全詞遮蔽。不同于ERNIE(Baidu)僅遮蔽實(shí)體和短語，該模型進(jìn)一步放寬了遮蔽的條件，即只要一個(gè)中文詞匯中的部分漢字被遮蔽，就把該詞匯中的所有漢字全部遮蔽，從而使預(yù)訓(xùn)練模型學(xué)習(xí)到中文詞匯的詞義信息。三是SpanBERT[15]采用Span Masking 方法，從幾何分布中采樣Span 的長度，并隨機(jī)選擇遮蔽的初始位置，讓模型僅根據(jù)Span的邊界詞和Span中詞匯位置信息預(yù)測被遮蔽詞匯。實(shí)驗(yàn)證明該方法表現(xiàn)優(yōu)于對實(shí)體和短語進(jìn)行遮蔽。四是RoBERTa(a Robustly Optimized BERT Pretraining Approach)[16]模型將詞匯靜態(tài)遮蔽(static mask)替換成動態(tài)遮蔽(dynamic mask)，在每次輸入前均對句子進(jìn)行一次隨機(jī)遮蔽，從而提升訓(xùn)練數(shù)據(jù)的利用率。此外，該模型在預(yù)訓(xùn)練過程刪去NSP任務(wù)，改用FULL-SENTENCES方法，每次輸入指定長度的連續(xù)句子，進(jìn)一步優(yōu)化模型在句子關(guān)系推理方面的表現(xiàn)。五是StructBERT[17]模型增加了詞匯結(jié)構(gòu)預(yù)測(Word Structural Objective)任務(wù)，對于輸入句中未被遮蔽的詞匯，隨機(jī)選擇3個(gè)連續(xù)的詞(Trigram)打亂循序，要求模型重構(gòu)并恢復(fù)先前的順序；然后將NSP任務(wù)替換為句子結(jié)構(gòu)預(yù)測，將判斷是否為連續(xù)句子的二元分類問題改進(jìn)為預(yù)測下一個(gè)句子與當(dāng)前句子位置關(guān)系的三元分類任務(wù)，從而顯式學(xué)習(xí)詞匯和句子層面的語義關(guān)系與語言結(jié)構(gòu)。

部分預(yù)訓(xùn)練模型對BERT的模型架構(gòu)進(jìn)行了修改。為了讓結(jié)構(gòu)化的外部知識增強(qiáng)語言表征，ERNIE(THU，Enhanced Language Representation with Informative Entities)[18]模型將知識圖譜中的命名實(shí)體作為先驗(yàn)知識引入BERT的預(yù)訓(xùn)練中。該模型分別采用T-Encoder和K-Encoder對文本和實(shí)體知識進(jìn)行編碼與特征融合，并在預(yù)訓(xùn)練過程引入詞匯-實(shí)體對齊任務(wù)，從而更好地將實(shí)體知識注入文本表示中。為了解決BERT忽略了被遮蔽詞匯間相關(guān)性這一問題，XLNet提出了雙流自注意力機(jī)制，采用排序語言模型的思想，通過因式分解序列所有可能的排列方式，每個(gè)詞匯都可學(xué)習(xí)到兩邊所有詞匯的信息，使得單向的自回歸模型也具備了同時(shí)學(xué)習(xí)上下文特征的能力；此外，引入自回歸模型Transformer-XL中的片段循環(huán)機(jī)制和相對位置編碼，實(shí)現(xiàn)對長期依賴關(guān)系的學(xué)習(xí)。由于整個(gè)預(yù)訓(xùn)練過程并不將人為遮蔽納入計(jì)算，因此XLNet不存在預(yù)訓(xùn)練與微調(diào)兩階段不匹配的情況。ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)[19]引入了替換標(biāo)記檢測任務(wù)，在對輸入句進(jìn)行隨機(jī)詞匯遮蔽后，通過生成器預(yù)測詞匯并替代標(biāo)記，隨后采用鑒別器分辨生成器產(chǎn)生的詞匯是否與原始輸入詞匯相同，最終僅使用預(yù)訓(xùn)練的鑒別器開展下游任務(wù)。ELECTRA 解決了預(yù)訓(xùn)練任務(wù)與下游任務(wù)中[MASK]不匹配的問題，在提升計(jì)算效率的同時(shí)取得更優(yōu)的表現(xiàn)。DeBERTa(Decoding-enhanced BERT with Disentangled Attention)[20]模型提出分解注意力機(jī)制，在計(jì)算詞間注意力權(quán)值時(shí)，采用解耦矩陣同時(shí)考慮詞匯間的內(nèi)容和相對位置信息，融入了詞匯間依賴關(guān)系；即通過增強(qiáng)的掩碼解碼器嵌入詞匯在句子中的絕對位置信息，獲得詞匯的句法特征。此外，該模型還提出了虛擬對抗訓(xùn)練算法SiFT(Scale-invariant-Fine-Tuning)，用于提升微調(diào)下游任務(wù)時(shí)模型的泛化能力。與動輒含有上億個(gè)參數(shù)的預(yù)訓(xùn)練模型相比，ALBERT[21]模型通過嵌入?yún)?shù)矩陣分解以及跨層參數(shù)共享的方式顯著壓縮了參數(shù)數(shù)量，并將BERT 中的NSP 替換為SOP(Sentence-Order Prediction)任務(wù)，用于學(xué)習(xí)相鄰句子間連貫性與銜接關(guān)系。

還有一些模型僅部分采用了BERT 的架構(gòu)或思想。MT-DNN(Multi-Task Deep Neural Networks)[22]模型是一種用于自然語言理解的預(yù)訓(xùn)練模型。它采用多任務(wù)學(xué)習(xí)的思想，在預(yù)訓(xùn)練階段通過共享層基于BERT 進(jìn)行詞匯與語境嵌入，在微調(diào)階段引入單句分類、文本相似度、配對文本分類和相關(guān)性排序等多個(gè)任務(wù)聯(lián)合學(xué)習(xí)，減少模型在特定任務(wù)上的過擬合，更適用于一些缺少標(biāo)注數(shù)據(jù)的下游任務(wù)。受此啟發(fā)，基于持續(xù)多任務(wù)學(xué)習(xí)的思想，百度在2020年發(fā)布了預(yù)訓(xùn)練模型ERNIE 2.0(Baidu)[23]。在保留BERT的字符嵌入、句子嵌入和位置嵌入3種嵌入方式的同時(shí)引入任務(wù)嵌入，通過增量學(xué)習(xí)的方法使模型逐步學(xué)習(xí)詞法、句法、語義層面的7種任務(wù)，不斷提升語言表征能力。T5(Text-To-Text Transfer Transformer)[24]模型基于遷移學(xué)習(xí)思想，構(gòu)建文本到文本的NLP任務(wù)統(tǒng)一框架，從而使用相同的模型、損失函數(shù)、超參數(shù)設(shè)置等開展機(jī)器翻譯、自動問答、文本分類等任務(wù)。

從上述相關(guān)研究發(fā)現(xiàn)：第一，目前大多數(shù)預(yù)訓(xùn)練模型都是基于大量通用語料訓(xùn)練的；第二，相當(dāng)一部分預(yù)訓(xùn)練模型都是基于BERT的改進(jìn)版本。這些模型普適性雖強(qiáng)，但在面對特定領(lǐng)域文本的自然語言處理任務(wù)時(shí)，其功能的發(fā)揮容易受限。而古代漢語在語法、語義、語用上與現(xiàn)代漢語存在較大差異，即使是面向中文構(gòu)建的Chinese-BERT-wwm，在古漢語處理上也難以達(dá)到其在中文通用語料上的性能。此外，雖然已經(jīng)出現(xiàn)了面向生物醫(yī)學(xué)(BioBERT)[25]、臨床醫(yī)學(xué) (ClinicalBERT)[26]、科學(xué) (SciBERT)[27]、專利(PatentBERT)[28]等特定領(lǐng)域的預(yù)訓(xùn)練模型，但目前僅有GuwenBERT①基于繼續(xù)訓(xùn)練將BERT 遷移至古漢語語言建模中，且由于語料規(guī)模、簡繁轉(zhuǎn)換等因素的限制，效果不盡如人意。在古漢語領(lǐng)域，由于缺乏大規(guī)模純凈的古文數(shù)據(jù)，構(gòu)建古文標(biāo)注訓(xùn)練集成本高昂，對標(biāo)注人員具有較高要求。因此，構(gòu)建高質(zhì)量無監(jiān)督古文數(shù)據(jù)集，訓(xùn)練面向古文自然語言處理任務(wù)的預(yù)訓(xùn)練模型，對高效開展古文信息處理下游任務(wù)研究，拓展數(shù)字人文研究內(nèi)涵，增強(qiáng)社會主義文化自信具有重要意義。

1.2 人文計(jì)算與四庫學(xué)

中國擁有卷帙浩繁的古代文獻(xiàn)典籍，它們蘊(yùn)含著中華民族特有的精神價(jià)值與文化知識。1980年代以來，古籍?dāng)?shù)字化建設(shè)取得了不俗的實(shí)績。然而，數(shù)字化古籍研究仍面臨三重困境：一是古籍?dāng)?shù)字化仍囿于整理范疇，對深層知識的研究尚不充分[29]；二是現(xiàn)有古籍利用仍以檢索瀏覽為主，深度利用率低[30]；三是國內(nèi)學(xué)界雖占有大量數(shù)據(jù)，卻難以引領(lǐng)古籍的數(shù)字研究范式[31]。在數(shù)字化時(shí)代，古籍研究亟待實(shí)現(xiàn)范式革新。源自“人文計(jì)算”的數(shù)字人文理念與古籍?dāng)?shù)字化研究之間的深度融合正引起學(xué)界的廣泛關(guān)注。數(shù)字人文是“一種代表性實(shí)踐”，“這種代表性的實(shí)踐可一分為二，一端是高效的計(jì)算，另一端是人文溝通”，其主要范疇是“改變?nèi)宋闹R的發(fā)現(xiàn)(Discovering)、標(biāo) 注 (Annotating)、比較 (Comparing)、引用(Referring)、取樣(Sampling)、闡釋(Illustrating)與呈現(xiàn)(Representing)”[32]。數(shù)字人文的理論邏輯與技術(shù)體系“能夠?yàn)楣偶墨I(xiàn)的組織、標(biāo)引、檢索與利用提供新的方法與模式”[29]，“協(xié)助學(xué)者進(jìn)行多維度的統(tǒng)計(jì)、比較、分析，產(chǎn)生新的知識和思想”[32]，為古籍研究與利用提供新的范式。

《四庫全書》作為珍貴的文化遺產(chǎn)，其開發(fā)與利用歷來受到研究人員的重視，圍繞《四庫全書》的文獻(xiàn)體系，學(xué)術(shù)界產(chǎn)生“四庫學(xué)”這一嶄新學(xué)科。何宗美[33]把“四庫學(xué)”的研究內(nèi)容分為九大部分，其中與《四庫全書》本身密切相關(guān)的是《四庫全書》及其子系列的文獻(xiàn)研究和《四庫全書》的“總目學(xué)”研究，圖情領(lǐng)域的學(xué)者對后者尤為側(cè)重。鄧洪波等[34]分析2010-2015年間國內(nèi)“四庫學(xué)”研究狀況，指出《四庫全書》研究以中國語言文學(xué)和史學(xué)為主體，而圖情檔學(xué)科有關(guān)《四庫全書》研究的碩博論文僅占1.9%，強(qiáng)調(diào)《四庫全書》的研究應(yīng)當(dāng)更加注重學(xué)科背景的多元化。在與數(shù)據(jù)挖掘結(jié)合的研究中，崔丹丹等[35]利用甲言分詞工具切分的《四庫全書》文本訓(xùn)練詞向量，結(jié)合Lattice-LSTM模型抽取《四庫全書》中的人名、地名、朝代名和官職名4類實(shí)體，取得了良好效果。王倩等[36]使用《四庫全書》全文數(shù)據(jù)基于迭代學(xué)習(xí)的方法構(gòu)建自動斷句模型，并開發(fā)標(biāo)注平臺加以推廣。這些研究成果多局限于具體的下游任務(wù)，缺乏上游的頂層設(shè)計(jì)，雖然在一定程度上采用了預(yù)訓(xùn)練技術(shù)生成詞向量以輔助訓(xùn)練，但所開發(fā)的模型仍有普適性和可遷移性較低的問題。

相較而言，本文的研究更側(cè)重語言模型訓(xùn)練，旨在通過利用未經(jīng)人工標(biāo)注的海量數(shù)據(jù)構(gòu)建高通用性和易用性的語言模型，充分發(fā)掘《四庫全書》這座文化寶藏的價(jià)值。而且，本研究所構(gòu)建的預(yù)訓(xùn)練語言模型不需要對古籍文本重新分詞，避免詞向量訓(xùn)練需依賴精確中文分詞文本的缺陷，最大程度地保留古籍文本的原始特征，確保實(shí)驗(yàn)成果更貼近古籍原文的處理。以《四庫全書》數(shù)字化為研究對象，本研究還構(gòu)建了一種全新的SIKU-BERT典籍智能處理平臺，重點(diǎn)開發(fā)其在典籍自動處理、檢索和自動翻譯三方面的功能，在數(shù)字人文理念引領(lǐng)下提升深度學(xué)習(xí)模型對古文語料的準(zhǔn)確理解，助力基于古文語料的NLP研究。

2 《四庫全書》預(yù)訓(xùn)練模型構(gòu)建

2.1 數(shù)據(jù)源簡介

《四庫全書》是清代乾隆時(shí)期編修的大型叢書。本文使用的《四庫全書》為文淵閣版本。本次實(shí)驗(yàn)的訓(xùn)練集共有漢字536，097，588個(gè)，去除重復(fù)字后得到28，803個(gè)，均為繁體字。數(shù)據(jù)集較《四庫全書》全文字?jǐn)?shù)少的原因在于，本實(shí)驗(yàn)去除了原本中的注釋部分，僅納入正文部分。之所以刪除注釋信息，是由BERT模型預(yù)訓(xùn)練的本質(zhì)所決定的。BERT 模型基于雙向Transformer編碼器結(jié)構(gòu)，是一種典型的自編碼(Autoencoder)語言模型。不同于傳統(tǒng)的自回歸(Autoregressive)模型自左向右預(yù)測下一個(gè)字符的訓(xùn)練方式，此類語言模型的訓(xùn)練思想依靠并綜合上下文的內(nèi)容預(yù)測被遮罩的字符。古文中同樣的句子在留有注釋信息和刪除注釋信息的情況下，模型對遮罩詞的預(yù)測結(jié)果可能大相徑庭，直接影響到最終的訓(xùn)練成果。考慮到當(dāng)前古籍處理任務(wù)多關(guān)注古籍原文的挖掘和利用，不加入古籍注釋信息的訓(xùn)練必然更適用于一般性下游任務(wù)。若有針對古籍注釋資源的研究需要，可以另行構(gòu)建基于注釋語料的預(yù)訓(xùn)練模型。

《四庫全書》數(shù)據(jù)集主要有4個(gè)部分：經(jīng)部、史部、子部、集部，分別由679、568、897、1，262 本書組成。表 1 展示《四庫全書》各部各書的字?jǐn)?shù)概況。史部每本書的平均字?jǐn)?shù)最多，子部和集部次之，經(jīng)部最少。從字?jǐn)?shù)分布差異上來看，經(jīng)部的差異最小，而史部最大。從單本字?jǐn)?shù)極值來看，子部的最大值最大，而經(jīng)部的最小值最小。從去重后的字?jǐn)?shù)統(tǒng)計(jì)結(jié)果來看，集部、史部的用字較多。集部主要包括文學(xué)作品，用字往往比較豐富，用詞比較凝練，因而其總體字?jǐn)?shù)不多，但去重后用字?jǐn)?shù)反而處于相對高位水平。史部主要包括各類歷史著作，這類描述歷史人物事件的書籍通常篇幅較大，而由于其中經(jīng)常出現(xiàn)的人名、地名中會包含一些生僻字，因而其去重后用字依然相對較多。

表1 《四庫全書》各部字?jǐn)?shù)及不重復(fù)字?jǐn)?shù)概況

2.2 預(yù)訓(xùn)練模型構(gòu)建

2.2.1 預(yù)訓(xùn)練模型的構(gòu)建流程

圖1展示了從語料預(yù)處理到下游任務(wù)驗(yàn)證的模型預(yù)訓(xùn)練及其評測全過程。實(shí)驗(yàn)分為4個(gè)部分：語料預(yù)處理，模型預(yù)訓(xùn)練，模型效果評測和下游任務(wù)測試。實(shí)驗(yàn)先根據(jù)清洗后的《四庫全書》全文語料，按“99∶1”劃分訓(xùn)練集與驗(yàn)證集。模型預(yù)訓(xùn)練階段，在總結(jié)多次預(yù)實(shí)驗(yàn)結(jié)果后對訓(xùn)練參數(shù)進(jìn)行調(diào)優(yōu)，選取Huggingface提供的Pytorch 版 BERT-base-Chinese 和 Chinese-RoBERTa-wwm-ext模型在訓(xùn)練集上使用掩碼語言模型(MLM)任務(wù)完成模型的預(yù)訓(xùn)練。在模型效果評測階段，使用困惑度(Perplexity)為基本指標(biāo)初步判斷預(yù)訓(xùn)練效果，最后通過設(shè)置4種下游任務(wù)進(jìn)一步分析對比5種預(yù)訓(xùn)練模型的表現(xiàn)。

圖1 預(yù)訓(xùn)練模型構(gòu)建實(shí)驗(yàn)流程

2.2.2 預(yù)訓(xùn)練模型選取

(1)BERT 預(yù) 訓(xùn) 練模型。 2018 年 10 月谷歌AI 團(tuán)隊(duì)公布新的語言表征模型——BERT[7]，刷新11 項(xiàng)NLP 任務(wù)記錄。BERT的基本結(jié)構(gòu)建立在雙向Transformer編碼器上，通過掩碼語言模型(MLM)和下一句預(yù)測(NSP)兩個(gè)無監(jiān)督任務(wù)完成模型的預(yù)訓(xùn)練。在MLM任務(wù)中，按比例隨機(jī)遮蔽輸入序列中的部分字符，使模型根據(jù)上下文預(yù)測被遮蔽的單詞，以完成深度雙向表征的訓(xùn)練。而在NSP任務(wù)中，BERT模型成對地讀入句子，并判斷給定的兩個(gè)句子是否相鄰，從而獲得句子之間的關(guān)系。BERT模型的微調(diào)過程則建立在預(yù)訓(xùn)練得到的模型上，僅需對模型的高層參數(shù)進(jìn)行調(diào)整，即可適應(yīng)不同的下游任務(wù)。本實(shí)驗(yàn)選取12 層、768個(gè)隱藏單元、12個(gè)自注意力頭、1.1億個(gè)參數(shù)的BERT中文預(yù)訓(xùn)練模型用于預(yù)訓(xùn)練。

(2)RoBERTa中文預(yù)訓(xùn)練模型。Liu等[16]認(rèn)為BERT模型并沒有得到充分的訓(xùn)練，為此，他們總結(jié)了BERT 模型訓(xùn)練中存在的不足，提出了RoBERTa預(yù)訓(xùn)練模型，在BERT模型訓(xùn)練的每個(gè)部分都進(jìn)行了輕微改進(jìn)。這些改進(jìn)包括使用動態(tài)掩碼替代靜態(tài)掩碼，擴(kuò)大訓(xùn)練批次與數(shù)據(jù)集大小，提升輸入序列長度以移除NSP任務(wù)等。這些調(diào)整使BERT模型的調(diào)參達(dá)到了最優(yōu)。實(shí)驗(yàn)選取12 層、768個(gè)隱藏單元、12個(gè)自注意力頭的RoBERTa中文預(yù)訓(xùn)練模型作為基礎(chǔ)模型，該模型基于全詞遮罩(Whole Word Mask)的訓(xùn)練策略，在30G大小的中文語料上完成了預(yù)訓(xùn)練。在全詞遮罩中，如果一個(gè)詞的部分子詞被遮罩，則同屬該詞的其他部分也被遮罩。此方法有助于模型學(xué)習(xí)中文文本的詞匯特征。

2.2.3 語言模型預(yù)訓(xùn)練方法

本實(shí)驗(yàn)選用掩碼語言模型(MLM)任務(wù)完成SikuBERT與SikuRoBERTa的預(yù)訓(xùn)練。BERT模型的預(yù)訓(xùn)練使用了MLM 和NSP 兩個(gè)無監(jiān)督任務(wù)，其中設(shè)計(jì)NSP任務(wù)的目的在于提升對需要推理句間關(guān)系下游任務(wù)的效果。但是，在后續(xù)研究中有學(xué)者發(fā)現(xiàn)，NSP任務(wù)對BERT模型預(yù)訓(xùn)練和下游任務(wù)性能的提升幾乎無效。RoBERTa模型的開發(fā)者對NSP任務(wù)的效果表達(dá)了質(zhì)疑，并通過更改輸入句子對的模式設(shè)計(jì)了4組實(shí)驗(yàn)，證實(shí)了該猜想。Lan 等[21]認(rèn)為NSP 任務(wù)的設(shè)計(jì)過于簡單，即將主題預(yù)測與相干性預(yù)測合并在同一個(gè)任務(wù)中，主題預(yù)測功能使NSP的損失函數(shù)與MLM的損失函數(shù)發(fā)生了大量重疊?；谏鲜鲅芯康慕Y(jié)果，本實(shí)驗(yàn)移除BERT預(yù)訓(xùn)練中的NSP任務(wù)，僅使用MLM任務(wù)完成SikuBERT與SikuRoBERTa的預(yù)訓(xùn)練。在實(shí)驗(yàn)中隨機(jī)遮罩15%的詞匯，通過預(yù)測被遮罩字符的方式完成參數(shù)更新，并使用MLM損失函數(shù)判斷模型預(yù)訓(xùn)練的完成度。全部實(shí)驗(yàn)均依靠Huggingface 公司的Transformers框架而進(jìn)行。

2.2.4 預(yù)訓(xùn)練模型效果的評價(jià)指標(biāo)

在模型效果評測階段，使用困惑度(PPL，Perplexity)來衡量語言模型的優(yōu)劣。困惑度的定義如下：對一個(gè)給定的序列S：S=w1w2…wn-1wn，表示序列中第n個(gè)詞，則該序列的似然概率定義為：

則困惑度可以定義為：

困惑度的大小反映了語言模型的好壞，一般情況下，困惑度越低，代表語言模型效果越好。本實(shí)驗(yàn)通過調(diào)整訓(xùn)練輪次，使得SikuRoBERTa在驗(yàn)證集上的困惑度達(dá)到1.410，SikuBERT的困惑度達(dá)到16.787，達(dá)到相對較低水平。初步驗(yàn)證表明，經(jīng)過領(lǐng)域化語料上的二次微調(diào)，SikuBERT和SikuRoBERTa具有較低的困惑度。從語言模型的評價(jià)角度來看，在《四庫全書》語料下，相比原始BERT模型和RoBERTa模型，其性能有所提升，可以保證模型充分學(xué)習(xí)到《四庫全書》的語言信息。

2.3 預(yù)訓(xùn)練模型性能驗(yàn)證

為檢驗(yàn)SikuBERT 和SikuRoBERTa 預(yù)訓(xùn)練模型的性能，本研究設(shè)置4項(xiàng)NLP任務(wù)做進(jìn)一步的驗(yàn)證：古文命名實(shí)體識別任務(wù)、古文詞性識別任務(wù)、古文分詞任務(wù)、古文自動斷句和標(biāo)點(diǎn)任務(wù)。在語料選擇上，基于經(jīng)過人工校對過的《左傳》語料，構(gòu)造4種實(shí)驗(yàn)所需要的訓(xùn)練和測試數(shù)據(jù)。在基線模型的選擇上，除BERT-base 和RoBERTa外，還引入GuwenBERT預(yù)訓(xùn)練模型。

2.3.1 驗(yàn)證實(shí)驗(yàn)的語料和任務(wù)

驗(yàn)證實(shí)驗(yàn)所使用的語料為南京師范大學(xué)文學(xué)院(以下簡稱“南師大文學(xué)院”)校對過的繁體《左傳》，全文18萬字。該語料庫是以南師大文學(xué)院制定的古漢語分詞與詞性標(biāo)注規(guī)范為依據(jù)，使用自動分析工具結(jié)合人工校對而成的精加工語料庫[37]?！蹲髠鳌窋?shù)字人文數(shù)據(jù)庫語料經(jīng)過處理后，除詞性識別任務(wù)外，還可用于古文分詞、古文實(shí)體識別、古文斷句和古文標(biāo)點(diǎn)等任務(wù)。本文選取《左傳》數(shù)據(jù)集作為驗(yàn)證實(shí)驗(yàn)數(shù)據(jù)，一方面統(tǒng)一了選用語料的來源，避免多種古文語料間差異帶來的驗(yàn)證上的誤差?！蹲髠鳌窋?shù)據(jù)集是高質(zhì)量的公開數(shù)據(jù)集，使用公開數(shù)據(jù)集作為基本語料，不僅可以體現(xiàn)實(shí)驗(yàn)結(jié)果的公開性、透明性，也降低了其他研究者復(fù)現(xiàn)實(shí)驗(yàn)的難度，從而為實(shí)驗(yàn)結(jié)論提供更有力的佐證。另一方面，《左傳》數(shù)據(jù)集經(jīng)過高質(zhì)量的人工校對，語料標(biāo)注的規(guī)范程度更高，能有效降低引入不同語料的誤差，從而更好地比對預(yù)訓(xùn)練模型之間的差異。本文中，驗(yàn)證實(shí)驗(yàn)的主要目的是為SikuBERT 和SikuRoBERTa 模型的性能提供一個(gè)除困惑度之外的判斷指標(biāo)，關(guān)于模型在多源語料以及多種不同任務(wù)上的具體表現(xiàn)可參見本系列的其他相關(guān)論文。基于《左傳》語料的4個(gè)任務(wù)及其內(nèi)容見表2。

表2 下游任務(wù)語料描述

(1)古文詞性標(biāo)注任務(wù)。古籍文本中沒有詞界，以詞為粒度切分古籍文本是進(jìn)行更多古文應(yīng)用的基礎(chǔ)，如古文詞典編撰、古文檢索等。在訓(xùn)練數(shù)據(jù)預(yù)處理上，因?yàn)椤蹲髠鳌窋?shù)字人文數(shù)據(jù)庫是經(jīng)過人工校對過的詞性標(biāo)簽語料集，所以可以直接作為古文詞性標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行使用。

(2)古文分詞任務(wù)?！蹲髠鳌窋?shù)字人文數(shù)據(jù)庫以詞為單位進(jìn)行詞性標(biāo)注，經(jīng)過詞性標(biāo)簽的清洗后，可獲得古文的分詞數(shù)據(jù)。該分詞數(shù)據(jù)是詞性標(biāo)注數(shù)據(jù)的子集，同樣可用于序列標(biāo)注任務(wù)。

(4)古文自動斷句和標(biāo)點(diǎn)任務(wù)。首先，在《左傳》數(shù)字人文數(shù)據(jù)庫語料的基礎(chǔ)上，去除分詞和詞性標(biāo)簽，保留標(biāo)點(diǎn)符號。其次，將每個(gè)標(biāo)點(diǎn)符號作為標(biāo)記，構(gòu)造斷句和標(biāo)點(diǎn)訓(xùn)練語料，以希望模型能夠?yàn)樵脊盼恼Z料進(jìn)行斷句和標(biāo)點(diǎn)的操作。

2.3.2 驗(yàn)證模型

驗(yàn)證實(shí)驗(yàn)選用的預(yù)訓(xùn)練模型如表3所示。為驗(yàn)證SikuBERT 和SikuRoBERTa 性能，實(shí)驗(yàn)選用的基線模型為BERT-base-Chinese預(yù)訓(xùn)練模型②和Chinese-RoBERTa-wwm-ext預(yù)訓(xùn)練模型③，還引入GuwenBERT 預(yù)訓(xùn)練模型進(jìn)行驗(yàn)證。GuwenBERT基于“殆知閣古代文獻(xiàn)語料”在中文BERT-wwm預(yù)訓(xùn)練模型上進(jìn)行訓(xùn)練，將所有繁體字經(jīng)過簡體轉(zhuǎn)換處理后用于訓(xùn)練，模型在古文數(shù)據(jù)的任務(wù)中具有良好的表現(xiàn)。此外，為使驗(yàn)證結(jié)果具有一致性，在4項(xiàng)任務(wù)驗(yàn)證中，只對上游預(yù)訓(xùn)練模型進(jìn)行更換，對下游任務(wù)的模型參數(shù)保持統(tǒng)一。

表3 驗(yàn)證實(shí)驗(yàn)選用的預(yù)訓(xùn)練模型一覽表

2.3.3 模型驗(yàn)證性能指標(biāo)

結(jié)合分詞性能評價(jià)常用指標(biāo)體系，對BERT-base、RoBERTa、GuwenBERT、SikuBERT 和SikuRoBERTa預(yù)訓(xùn)練模型使用以下3個(gè)指標(biāo)來衡量，即準(zhǔn)確率(Precision，P)、召回率(Recall，R)、調(diào)和平均值(F1-measure，F(xiàn)1)。各指標(biāo)具體計(jì)算公式如下：

在上述公式中，A、B、C分別代表模型預(yù)測出的正樣本數(shù)、模型預(yù)測錯誤的樣本數(shù)以及模型未預(yù)測出的正樣本數(shù)。選用繁體中文版的《四庫全書》全文數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練模型的領(lǐng)域?qū)W習(xí)實(shí)驗(yàn)，并將其應(yīng)用在繁體中文的《左傳》語料上，進(jìn)行古文自動分詞實(shí)驗(yàn)。

2.3.4 基于預(yù)訓(xùn)練模型的分詞結(jié)果比較

表4為模型指標(biāo)的平均值，從這些數(shù)據(jù)可以看到，實(shí)驗(yàn)中SikuBERT 和SikuRoBERTa 的性能表現(xiàn)最佳，分詞的準(zhǔn)確率、召回率和調(diào)和平均值均較基線模型BERT-base、RoBERTa 和GuwenBERT 有明顯改進(jìn)。在準(zhǔn)確率和召回率上，SikuBERT預(yù)訓(xùn)練模型的表現(xiàn)效果最佳，分別為88.62%和89.08%；而SikuRoBERTa得到最好的調(diào)和平均值，為88.88%。所有模型中GuwenBERT 預(yù)訓(xùn)練模型的分詞表現(xiàn)最差，精確率、召回率和調(diào)和平均值分別為46.11%、57.04%、50.86%。以調(diào)和平均值為基準(zhǔn)，在分詞任務(wù)中原始BERT模型表現(xiàn)優(yōu)于RoBERTa模型，識別效果約高出5%。整體上，SikuBERT預(yù)訓(xùn)練模型效果最優(yōu)。

工況1—2計(jì)算結(jié)果分析：工況1，混凝土強(qiáng)度及板厚按照設(shè)計(jì)取值，地下車庫底板回填土和頂板回填土同樣按照原設(shè)計(jì)要求考慮，結(jié)果表明,地下車庫整體無明顯上浮，且無明顯起拱現(xiàn)象.工況2，混凝土強(qiáng)度、底板和頂板厚度按照實(shí)測取值，結(jié)合現(xiàn)場工程實(shí)際發(fā)生情況，該工況不考慮地下車庫底板回填土和頂板回填土，結(jié)果表明,地下車庫出現(xiàn)整體上浮起拱現(xiàn)象，地下車庫底板最大起拱高度達(dá)250 mm，頂板起拱高度達(dá)238 mm.地下車庫底板最大彎矩為219 kN·m，柱端剪力為545 kN，地下車庫底板開裂，柱兩端發(fā)生剪切破壞.

表4 模型分詞結(jié)果指標(biāo)平均值(%)

2.3.5 基于預(yù)訓(xùn)練模型的詞性標(biāo)注結(jié)果比較

基于預(yù)訓(xùn)練模型的詞性標(biāo)注實(shí)驗(yàn)所用數(shù)據(jù)集來自《左傳》，同樣以領(lǐng)域內(nèi)較常使用的準(zhǔn)確率(P)、召回率(R)和調(diào)和平均值(F1)作為實(shí)驗(yàn)結(jié)果的評價(jià)指標(biāo)。從實(shí)驗(yàn)結(jié)果(詳見表5)中可以看出，針對《左傳》數(shù)據(jù)的古文詞性標(biāo)注實(shí)驗(yàn)表現(xiàn)均不錯，但SikuBERT 和SikuRoBERTa 模型的調(diào)和平均值要明顯高于其他3個(gè)識別模型，二者的F1值均超過了90%，SikuBERT識別效果更是達(dá)到了90.10%；而GuwenBERT模型的識別效果最差，調(diào)和平均值只有74.82%，不及最為基礎(chǔ)的BERT-base 模型。此外，原始BERT 模型(BERT-base)的效果要優(yōu)于RoBERTa模型，且基于《四庫全書》數(shù)據(jù)訓(xùn)練得到的SikuBERT模型效果同樣優(yōu)于SikuRoBERTa模型。實(shí)驗(yàn)結(jié)果值得進(jìn)一步分析和探討。

表5 模型詞性識別結(jié)果指標(biāo)平均值(%)

2.3.6 基于預(yù)訓(xùn)練模型的斷句結(jié)果比較

為驗(yàn)證SikuBERT 和SikuRoBERTa 預(yù)訓(xùn)練模型對古文斷句的識別效果，在《左氏春秋傳》《春秋公羊傳》《春秋谷梁傳》3本古文著作數(shù)據(jù)集中進(jìn)行斷句識別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果(見表6)顯示，SikuBERT 和SikuRoBERTa 模型的效果均超過85%，SikuBERT 的F1 值最優(yōu)，達(dá)到87.53%，這也是多組對比實(shí)驗(yàn)中的最好實(shí)驗(yàn)結(jié)果；GuwenBERT模型的識別調(diào)和平均值在各組實(shí)驗(yàn)中表現(xiàn)最差，僅有28.32%，遠(yuǎn)低于其他模型；基礎(chǔ)的BERT-base和基于原始BERT模型訓(xùn)練得到的RoBERTa識別效果一般，調(diào)和平均值分別只有78.70%和66.54%，低于本文自主預(yù)訓(xùn)練的識別模型SikuBERT和SikuRoBERTa，但高于GuwenBERT模型。

表6 模型斷句識別結(jié)果指標(biāo)平均值(%)

2.3.7 基于預(yù)訓(xùn)練模型的實(shí)體識別結(jié)果比較

對長文本中實(shí)體的有效識別，是判斷該模型能否有效解決自然語言理解問題的重要評價(jià)標(biāo)準(zhǔn)之一。本組對比實(shí)驗(yàn)的數(shù)據(jù)來自《左傳》典籍?dāng)?shù)據(jù)，識別實(shí)體對象為數(shù)據(jù)集中的“人名”“地名”“時(shí)間”3類實(shí)體，模型識別效果評價(jià)標(biāo)準(zhǔn)仍為最常用的準(zhǔn)確率(P)、召回率(R)、調(diào)和平均值(F1)。從實(shí)驗(yàn)結(jié)果(見表7)可看出，SikuBERT和SikuRoBERTa 模型的3 類實(shí)體識別效果均高于其他3 種模型，尤其是在時(shí)間實(shí)體的識別中，SikuBERT和SikuRoBERTa模型識別的調(diào)和平均值均超過了96%。而GuwenBERT模型在3類實(shí)體識別實(shí)驗(yàn)中的表現(xiàn)均最差，其中人名和地名實(shí)體識別的調(diào)和平均值均低于50%，且遠(yuǎn)低于其他組的識別效果，這可能是由于其訓(xùn)練語料為簡體中文的緣故。BERT-base模型和RoBERTa在3組實(shí)驗(yàn)中的表現(xiàn)較為中庸，沒有展示特別突出的識別性能。

表7 模型實(shí)體識別結(jié)果指標(biāo)平均值(%)

3 基于預(yù)訓(xùn)練模型的典籍智能處理平臺搭建

3.1 構(gòu)建流程

上述驗(yàn)證結(jié)果表明，SikuBERT和SikuRo-BERTa預(yù)訓(xùn)練模型能夠有效提升繁體中文語料的智能處理效果。為進(jìn)一步展示本實(shí)驗(yàn)的研究成果，課題組構(gòu)建“SIKU-BERT典籍智能處理平臺”，其功能結(jié)構(gòu)框架見圖2。該平臺有3種主要功能：典籍智能處理、典籍檢索和典籍自動翻譯。首頁提供SIKU-BERT 相關(guān)背景的詳細(xì)介紹、3種主要功能的簡介以及平臺的基本信息。用戶可根據(jù)自身需求選擇不同的功能，進(jìn)入平臺的相應(yīng)界面。例如，用戶希望使用典籍智能處理功能，則可以點(diǎn)擊相應(yīng)界面，選擇相關(guān)子功能操作(文本斷句、分詞、詞性標(biāo)注或?qū)嶓w標(biāo)注)，在結(jié)果返回框中獲取處理結(jié)果。在針對典籍的自動翻譯功能中，用戶可以選擇“語內(nèi)翻譯”或“語際翻譯”，平臺將根據(jù)用戶的選擇返回結(jié)果。古文相似檢索功能實(shí)現(xiàn)了將輸入的古文句子與語料庫中候選句的相似度進(jìn)行計(jì)算，并返回相似古文語句。

圖2 SIKU-BERT典籍智能處理平臺系統(tǒng)構(gòu)建流程

3.2 實(shí)現(xiàn)方法和工具

3.2.1 系統(tǒng)數(shù)據(jù)和工具

本研究搭建的面向典籍智能處理的應(yīng)用平臺，在構(gòu)建方式選擇上，基于平臺建設(shè)方便性和用戶使用簡便性兩方面的考量，采用網(wǎng)站的架構(gòu)；選擇Python 為主要的編程語言，使用Django 作為網(wǎng)站后端構(gòu)建的主體框架，以HTML、CSS、JS作為構(gòu)建工具來實(shí)現(xiàn)網(wǎng)站前端呈現(xiàn)。Django框架是利用Python開發(fā)的免費(fèi)開源Web框架，涵蓋絕大多數(shù)web應(yīng)用所需要的功能。在數(shù)據(jù)存儲方面，選擇SQLite數(shù)據(jù)庫存儲多層級平行語料庫，以節(jié)省物理存儲資源。

3.2.2 系統(tǒng)功能設(shè)計(jì)

本研究構(gòu)建的SIKU-BERT典籍智能處理平臺設(shè)計(jì)了典籍自動處理、典籍檢索和典籍自動翻譯三大基本模塊，分別對應(yīng)古文斷句、分詞、詞性標(biāo)注、實(shí)體標(biāo)注，涵蓋相似古文檢索以及段落、句子、詞匯的語內(nèi)和語際翻譯等功能。

3.2.3 系統(tǒng)應(yīng)用展示

SIKU-BERT典籍智能處理平臺包含首頁(見圖3)、典籍智能處理、典籍檢索和典籍自動翻譯4個(gè)界面。首頁展示平臺簡介和三大核心功能的快捷入口。

圖3 SIKU-BERT典籍智能處理平臺網(wǎng)站首頁

(1)網(wǎng)站首頁。以“典籍智能處理”功能為例，該功能主要實(shí)現(xiàn)典籍的自動斷句、分詞、詞性標(biāo)注和實(shí)體標(biāo)注。首頁有該功能的運(yùn)行示例圖和詳細(xì)介紹，點(diǎn)擊“FIND OUT MORE”進(jìn)入功能界面(見圖4)。同時(shí)，繼續(xù)往下翻動頁面可以看到平臺的主要功能簡介，見圖5。

圖4 SIKU-BERT典籍智能處理平臺首頁“典籍智能處理”功能介紹

圖5 SIKU-BERT典籍智能處理平臺首頁“平臺簡介”

(2)典籍智能處理功能界面。如圖6所示，在SIKU-BERT 典籍智能處理平臺的“典籍智能處理”功能界面，用戶可以根據(jù)自身需求通過上方按鈕分別選擇對應(yīng)的典籍處理功能，包括斷句、分詞、詞性標(biāo)注和實(shí)體標(biāo)注。用戶在界面左側(cè)的文本框中輸入需要進(jìn)行處理的原始典籍文本，選擇功能按鈕后，點(diǎn)擊“開始處理”按鈕，即可返回經(jīng)平臺處理后的句子。比如，在圖6中輸入“子墨子曰：‘今若有能以義名立于天下，以德求諸侯者，天下之服可立而待也?！?，選擇“詞性標(biāo)注”功能，點(diǎn)擊“開始處理”，那么在右側(cè)便會輸出返回的結(jié)果：“子墨子/nr曰/v：/w“/w今/t若/c有/v能/v 以/p 義/v 名/n 立/v 于/p 天下/n，/w 以/p德/n求/v諸侯/nr者/r，/w天下/n之/u服/n可/v 立/v 而/c 待/v 也/y。/w”。該功能實(shí)現(xiàn)了典籍文本快速且規(guī)范化的處理。作為古文NLP研究工具，平臺為哲學(xué)、文學(xué)、歷史學(xué)等學(xué)科研究人員的工作帶來極大方便。

圖6 SIKU-BERT典籍智能處理平臺“典籍智能處理”功能界面

4 結(jié)語

在基于古文語料的NLP任務(wù)中，考慮到異體字和“一簡對多繁”等現(xiàn)象，采用簡繁轉(zhuǎn)換功能必然會導(dǎo)致古籍中原本語義信息的部分丟失，使用繁體中文的原始語料仍然是古文自然語言處理的主流。但是，隨著預(yù)訓(xùn)練模型技術(shù)興起，面向古文語料的預(yù)訓(xùn)練模型并沒有得到充分開發(fā)。因此，訓(xùn)練一種能夠貼合古文語料的預(yù)訓(xùn)練模型，能為基于古文語料的人文計(jì)算研究提供重要支撐。本文基于BERT-base、RoBERTa、GuwenBERT、SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型，分別在4種不同的古文任務(wù)中進(jìn)行性能驗(yàn)證。驗(yàn)證實(shí)驗(yàn)結(jié)果表明，SikuBERT與SikuRoBERTa相較于基線(準(zhǔn))模型的識別效果有一定程度上的提升，SikuRoBERTa 的性能最好；SikuBERT、SikuRoBERTa在分詞、詞性標(biāo)注上的提升幅度較小，在斷句、實(shí)體識別等任務(wù)中的提升幅度較大。

綜上所述，SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型能夠有效提升繁體中文語料處理的效果，對于古文NLP研究具有重要意義。下一步的模型效能提升研究將著重于構(gòu)建更適合古籍智能處理任務(wù)的預(yù)訓(xùn)練模型詞表，從而獲得性能更好的詞表示特征。將來的相關(guān)應(yīng)用研究還會著眼于上述各層級智能處理任務(wù)在不同典籍文獻(xiàn)上的具體應(yīng)用。

注釋

①參見：https：//github.com/ethan-yt/guwenbert.

②參見：https：//huggingface.co/bert-base-chinese.

③參見：https：//huggingface.co/hfl/chinese-roberta-wwmext.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放