石玉敬,劉偉,葛曉舒,胡為,劉弋蓮,易洋
(1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410208;2.湖南中醫(yī)藥大學(xué)中醫(yī)學(xué)院)
中醫(yī)古籍是中醫(yī)藥學(xué)“傳承精華,守正創(chuàng)新”的根脈。《黃帝內(nèi)經(jīng)》作為中醫(yī)古籍的經(jīng)典之作,在中醫(yī)研究者的中醫(yī)學(xué)習(xí)和臨床實(shí)踐中都起到十分重要的作用。然而,古代漢語中單字詞、一詞多義的現(xiàn)象很多,且不同時(shí)期的中醫(yī)古籍也存在差異,導(dǎo)致對中醫(yī)古籍進(jìn)行分析和挖掘變得十分困難。目前在中醫(yī)自然語言處理領(lǐng)域缺乏一些高質(zhì)量的中醫(yī)古籍語料庫,如何構(gòu)建優(yōu)質(zhì)中醫(yī)古籍語料庫以及基于語料庫進(jìn)行數(shù)據(jù)挖掘,是中醫(yī)自然語言處理中的重要研究課題。本文將構(gòu)建《黃帝內(nèi)經(jīng)》專用分詞、詞性標(biāo)注語料庫并對其進(jìn)行自動(dòng)分詞研究,探究更高效、穩(wěn)定、快速的中醫(yī)古籍分詞方法。
本文以《黃帝內(nèi)經(jīng)》為初始語料,在湖南中醫(yī)藥大學(xué)醫(yī)史文獻(xiàn)教研室《醫(yī)古文》、《內(nèi)經(jīng)選讀》等課程的多名主講教師指導(dǎo)下,采用八位中醫(yī)學(xué)專業(yè)高年級本科生人工標(biāo)注的156,507 字的《黃帝內(nèi)經(jīng)》全文作為初始研究語料庫。本文構(gòu)建的語料庫是國內(nèi)首個(gè)人工標(biāo)注的集詞性標(biāo)注和分詞一體的《黃帝內(nèi)經(jīng)》中醫(yī)古文語料庫,能夠給后續(xù)中醫(yī)古文分詞、命名實(shí)體識別和大規(guī)模中醫(yī)古籍語料庫的構(gòu)建等一系列中醫(yī)自然語言處理研究工作奠定基礎(chǔ)。
分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類,分別是基于詞典和規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于深度學(xué)習(xí)的分詞方法。
文獻(xiàn)[1,2]采用基于詞典和規(guī)則的分詞方法,雖然使用取得了良好的效果,但是模型的泛化能力較差。由此可見基于規(guī)則和詞典的分詞方法有一定效果但是局限性較大。文獻(xiàn)[3,4]采用基于統(tǒng)計(jì)的方法進(jìn)行分詞實(shí)驗(yàn)均取得不錯(cuò)的效果,這說明基于統(tǒng)計(jì)的方法,在語料庫相對較小的情況下,分詞結(jié)果較為出色。隨著硬件更新和算法的突破,基于神經(jīng)網(wǎng)絡(luò)[5-7]的分詞方法已經(jīng)是大勢所趨。文獻(xiàn)[8-10]使用了深度學(xué)習(xí)的分詞方法,分詞效果與非深度學(xué)習(xí)的方法相比,效果有了質(zhì)的飛躍。由此可見,深度學(xué)習(xí)用于分詞領(lǐng)域的效果與其他方法相比具有較大的優(yōu)越性。
預(yù)訓(xùn)練模型是在一個(gè)原始任務(wù)上預(yù)先訓(xùn)練一個(gè)初始模型,然后在目標(biāo)任務(wù)上使用該模型,針對目標(biāo)任務(wù)的特性,對該初始模型進(jìn)行精調(diào),從而達(dá)到提高目標(biāo)任務(wù)的目的。Google 在2018 年提出預(yù)訓(xùn)練模型BERT[11](Bidirectional Encoder Representation from Transformers),BERT 一經(jīng)推出便打破了各項(xiàng)自然語言處理任務(wù)的榜單,并廣泛應(yīng)用于各個(gè)自然語言處理研究之中,許多后續(xù)研究一般也以BERT 模型為基礎(chǔ)進(jìn)行改進(jìn)。其中RoBERTa-wwm[12]是最出色的改進(jìn)模型之一,RoBERTa-wwm 與BERT 相比具有兩方面優(yōu)勢,第一是RoBERTa預(yù)訓(xùn)練模型具有更大的訓(xùn)練集的優(yōu)越性,第二是基于全詞掩碼的中文訓(xùn)練方式,能夠有效提高自然語言處理任務(wù)的準(zhǔn)確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進(jìn)行分詞研究。
BiLSTM 層的輸出是一個(gè)概率矩陣,這個(gè)概率矩陣由BiLSTM 基于每個(gè)時(shí)刻上的最優(yōu)結(jié)果得到,但是這樣輸出的標(biāo)簽并沒有把前一個(gè)標(biāo)簽對后一個(gè)標(biāo)簽的影響考慮進(jìn)去。例如,假如輸入序列中出現(xiàn)了“黃帝”一詞,其中“黃”為詞首,“帝”為詞尾,模型有可能將“黃”和“帝”都預(yù)測為詞首,而根據(jù)標(biāo)注規(guī)則詞首之后只能出現(xiàn)詞中和詞尾,所以這明顯不符合分詞標(biāo)注規(guī)則。針對這種情況,文獻(xiàn)[13]在BiLSTM 層后引入CRF(Conditional Random Field)層,CRF 層通過隨機(jī)變量作為輸入來輸出隨機(jī)變量的條件概率分布的一種算法。對于標(biāo)簽分類問題,CRF 由于能夠充分考慮標(biāo)簽與標(biāo)簽之間的依賴關(guān)系,從而避免標(biāo)注偏置問題。其整體結(jié)構(gòu)如圖1所示。
圖1 BiLSTM-CRF模型結(jié)構(gòu)圖
綜上所述,深度學(xué)習(xí)方法作為在分詞領(lǐng)域更好的方法,而預(yù)訓(xùn)練模型在其他自然語言處理的應(yīng)用都十分廣泛且效果更好,而使用預(yù)訓(xùn)練模型進(jìn)行分詞鮮有人研究,因此本文將相較BERT 模型表現(xiàn)更好的預(yù)訓(xùn)練模型RoBERTa-wwm 與深度學(xué)習(xí)模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結(jié)合,構(gòu)建RoBERTawwm-BiLSTM-CRF 模型,創(chuàng)新性地將這一模型引入到分詞研究之中,并與當(dāng)前主流分詞算法進(jìn)行對比,探究更準(zhǔn)確的中醫(yī)古籍分詞方法,從而驗(yàn)證本文方法的優(yōu)越性。
常用的用于評價(jià)分詞效果的性能統(tǒng)計(jì)參數(shù)包括真陽性(True Positive,TP),假陽性(False Positive,FP),真陰性(True Negatives,TN),假陽性(False Negative,FN),精確率(Precision,P=TP/(TP+FP))和召回率(Recall,R=TP/(TP+FN))以及F1值(F1-mesure,F1=2×P×R)/(P+R))。由于F1 值較為客觀全面地描述了分詞準(zhǔn)確性,所以本文主要采用F1值作為模型性能的評判標(biāo)準(zhǔn)。
BERT模型為BERT-Base-Chinese版本,RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese,實(shí)驗(yàn)相關(guān)超參數(shù)設(shè)置如表1所示。
表1 實(shí)驗(yàn)超參數(shù)取值表
本文將《黃帝內(nèi)經(jīng)》語料庫中的80%作為訓(xùn)練集,20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進(jìn)行對比實(shí)驗(yàn)。此外,為了體現(xiàn)本文所構(gòu)建的《黃帝內(nèi)經(jīng)》語料庫并基于此語料庫構(gòu)建的分詞模型在中醫(yī)古籍分詞方面的優(yōu)越性,同時(shí)與第三方古文分詞庫“甲言”進(jìn)行實(shí)驗(yàn)結(jié)果對比。各模型在《黃帝內(nèi)經(jīng)》語料庫上的識別效果如表2所示。
表2 分詞效果對比表
從表2可以看出,CRF的效果明顯優(yōu)于HMM。因?yàn)镃RF 通過計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率來得到全局最優(yōu),而HMM 得到的可能是局部最優(yōu)。CRF概率歸一化較為合理,HMM 可能會導(dǎo)致標(biāo)簽偏置問題。綜上所述,CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進(jìn)行分詞,由于其語料庫包含部分中醫(yī)古籍,所以分詞效果好于HMM 模型,但是不及CRF與深度學(xué)習(xí)模型。
而深度學(xué)習(xí)分詞準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,這是因?yàn)锽ERT 和BiLSTM 對字符的特征的提取有著優(yōu)秀的性能,能夠?qū)W習(xí)到更多的文本特征,故深度學(xué)習(xí)與機(jī)器學(xué)習(xí)方法相比優(yōu)勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優(yōu)于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓(xùn)練詞向量,該方法會受到未登錄詞的影響。針對于本文使用的領(lǐng)域特征明顯的中醫(yī)古籍,大部分中醫(yī)相關(guān)詞匯出現(xiàn)次數(shù)不多,導(dǎo)致了word2vec 模型進(jìn)分詞的受影響程度較大,而BERT 使用基于字的編碼方式,細(xì)化了編碼單元,極大地避免了未登錄詞的影響,同時(shí)借助于大量無監(jiān)督語料的訓(xùn)練所以算法性能優(yōu)于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳,這是由于RoBERTa-wwm 與BERT 相比,有更大的模型參數(shù)量、更大bacth size、更多的訓(xùn)練數(shù)據(jù),同時(shí)RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼,可進(jìn)一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優(yōu)于其他分詞模型,這也充分證明其優(yōu)越性。
本文首先構(gòu)建了國內(nèi)首個(gè)《黃帝內(nèi)經(jīng)》人工標(biāo)注的集命名實(shí)體、詞性標(biāo)注和分詞一體的中醫(yī)古文語料庫,為后續(xù)構(gòu)建大規(guī)模中醫(yī)古籍語料庫奠定基礎(chǔ)。此外,本文對《黃帝內(nèi)經(jīng)》進(jìn)行系統(tǒng)性分詞研究,為今后《黃帝內(nèi)經(jīng)》的智能分析和知識提取研究提供參考。
在分詞研究方面,本文系統(tǒng)研究和比較了不同算法下《黃帝內(nèi)經(jīng)》中的分詞效果。實(shí)驗(yàn)結(jié)果表明,RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比,P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫(yī)古籍分詞識別效果一般的現(xiàn)狀,但是由于古文中存在大量單字詞等問題,這導(dǎo)致中醫(yī)古籍分詞研究與現(xiàn)代文分詞研究相比還存在差距。同時(shí),深度學(xué)習(xí)模型的好壞與標(biāo)注語料庫大小密切相關(guān),在后續(xù)研究中還將繼續(xù)增加人工標(biāo)注的訓(xùn)練語料,從而使得中醫(yī)古籍分詞效果更好。
中醫(yī)古籍語料庫的構(gòu)建和中文分詞研究只是中醫(yī)自然語言處理的基礎(chǔ)性工作。后續(xù)將會基于分詞結(jié)果開展《黃帝內(nèi)經(jīng)》的命名實(shí)體識別研究和知識圖譜的構(gòu)建研究,同時(shí)加強(qiáng)中醫(yī)古籍文本語料庫的建設(shè),并構(gòu)建中醫(yī)古籍專用分詞詞典和中醫(yī)古籍專用詞向量,深入挖掘和抽取蘊(yùn)含在中醫(yī)古籍中的知識和經(jīng)驗(yàn)。