亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

《黃帝內(nèi)經(jīng)》文本語料庫的構(gòu)建與應(yīng)用研究＊

2022-12-16 09:22:50石玉敬劉偉葛曉舒胡為劉弋蓮易洋

計(jì)算機(jī)時(shí)代 2022年12期

石玉敬，劉偉，葛曉舒，胡為，劉弋蓮，易洋

(1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院，湖南長沙 410208；2.湖南中醫(yī)藥大學(xué)中醫(yī)學(xué)院)

0 引言

中醫(yī)古籍是中醫(yī)藥學(xué)“傳承精華，守正創(chuàng)新”的根脈。《黃帝內(nèi)經(jīng)》作為中醫(yī)古籍的經(jīng)典之作，在中醫(yī)研究者的中醫(yī)學(xué)習(xí)和臨床實(shí)踐中都起到十分重要的作用。然而，古代漢語中單字詞、一詞多義的現(xiàn)象很多，且不同時(shí)期的中醫(yī)古籍也存在差異，導(dǎo)致對中醫(yī)古籍進(jìn)行分析和挖掘變得十分困難。目前在中醫(yī)自然語言處理領(lǐng)域缺乏一些高質(zhì)量的中醫(yī)古籍語料庫，如何構(gòu)建優(yōu)質(zhì)中醫(yī)古籍語料庫以及基于語料庫進(jìn)行數(shù)據(jù)挖掘，是中醫(yī)自然語言處理中的重要研究課題。本文將構(gòu)建《黃帝內(nèi)經(jīng)》專用分詞、詞性標(biāo)注語料庫并對其進(jìn)行自動(dòng)分詞研究，探究更高效、穩(wěn)定、快速的中醫(yī)古籍分詞方法。

1 實(shí)驗(yàn)數(shù)據(jù)

1.1 語料庫的構(gòu)建與來源

本文以《黃帝內(nèi)經(jīng)》為初始語料，在湖南中醫(yī)藥大學(xué)醫(yī)史文獻(xiàn)教研室《醫(yī)古文》、《內(nèi)經(jīng)選讀》等課程的多名主講教師指導(dǎo)下，采用八位中醫(yī)學(xué)專業(yè)高年級本科生人工標(biāo)注的156,507 字的《黃帝內(nèi)經(jīng)》全文作為初始研究語料庫。本文構(gòu)建的語料庫是國內(nèi)首個(gè)人工標(biāo)注的集詞性標(biāo)注和分詞一體的《黃帝內(nèi)經(jīng)》中醫(yī)古文語料庫，能夠給后續(xù)中醫(yī)古文分詞、命名實(shí)體識別和大規(guī)模中醫(yī)古籍語料庫的構(gòu)建等一系列中醫(yī)自然語言處理研究工作奠定基礎(chǔ)。

2 分詞方法和研究背景

2.1 分詞研究背景

分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類，分別是基于詞典和規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于深度學(xué)習(xí)的分詞方法。

文獻(xiàn)[1,2]采用基于詞典和規(guī)則的分詞方法，雖然使用取得了良好的效果，但是模型的泛化能力較差。由此可見基于規(guī)則和詞典的分詞方法有一定效果但是局限性較大。文獻(xiàn)[3,4]采用基于統(tǒng)計(jì)的方法進(jìn)行分詞實(shí)驗(yàn)均取得不錯(cuò)的效果，這說明基于統(tǒng)計(jì)的方法，在語料庫相對較小的情況下，分詞結(jié)果較為出色。隨著硬件更新和算法的突破，基于神經(jīng)網(wǎng)絡(luò)[5-7]的分詞方法已經(jīng)是大勢所趨。文獻(xiàn)[8-10]使用了深度學(xué)習(xí)的分詞方法，分詞效果與非深度學(xué)習(xí)的方法相比，效果有了質(zhì)的飛躍。由此可見，深度學(xué)習(xí)用于分詞領(lǐng)域的效果與其他方法相比具有較大的優(yōu)越性。

2.2 預(yù)訓(xùn)練模型

預(yù)訓(xùn)練模型是在一個(gè)原始任務(wù)上預(yù)先訓(xùn)練一個(gè)初始模型，然后在目標(biāo)任務(wù)上使用該模型，針對目標(biāo)任務(wù)的特性，對該初始模型進(jìn)行精調(diào)，從而達(dá)到提高目標(biāo)任務(wù)的目的。Google 在2018 年提出預(yù)訓(xùn)練模型BERT[11]（Bidirectional Encoder Representation from Transformers），BERT 一經(jīng)推出便打破了各項(xiàng)自然語言處理任務(wù)的榜單，并廣泛應(yīng)用于各個(gè)自然語言處理研究之中，許多后續(xù)研究一般也以BERT 模型為基礎(chǔ)進(jìn)行改進(jìn)。其中RoBERTa-wwm[12]是最出色的改進(jìn)模型之一，RoBERTa-wwm 與BERT 相比具有兩方面優(yōu)勢，第一是RoBERTa預(yù)訓(xùn)練模型具有更大的訓(xùn)練集的優(yōu)越性，第二是基于全詞掩碼的中文訓(xùn)練方式，能夠有效提高自然語言處理任務(wù)的準(zhǔn)確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進(jìn)行分詞研究。

2.3 BiLSTM-CRF

BiLSTM 層的輸出是一個(gè)概率矩陣，這個(gè)概率矩陣由BiLSTM 基于每個(gè)時(shí)刻上的最優(yōu)結(jié)果得到，但是這樣輸出的標(biāo)簽并沒有把前一個(gè)標(biāo)簽對后一個(gè)標(biāo)簽的影響考慮進(jìn)去。例如，假如輸入序列中出現(xiàn)了“黃帝”一詞，其中“黃”為詞首，“帝”為詞尾，模型有可能將“黃”和“帝”都預(yù)測為詞首，而根據(jù)標(biāo)注規(guī)則詞首之后只能出現(xiàn)詞中和詞尾，所以這明顯不符合分詞標(biāo)注規(guī)則。針對這種情況，文獻(xiàn)[13]在BiLSTM 層后引入CRF(Conditional Random Field)層，CRF 層通過隨機(jī)變量作為輸入來輸出隨機(jī)變量的條件概率分布的一種算法。對于標(biāo)簽分類問題，CRF 由于能夠充分考慮標(biāo)簽與標(biāo)簽之間的依賴關(guān)系，從而避免標(biāo)注偏置問題。其整體結(jié)構(gòu)如圖1所示。

圖1 BiLSTM-CRF模型結(jié)構(gòu)圖

2.4 RoBERTa-wwm-BiLSTM-CRF

綜上所述，深度學(xué)習(xí)方法作為在分詞領(lǐng)域更好的方法，而預(yù)訓(xùn)練模型在其他自然語言處理的應(yīng)用都十分廣泛且效果更好，而使用預(yù)訓(xùn)練模型進(jìn)行分詞鮮有人研究，因此本文將相較BERT 模型表現(xiàn)更好的預(yù)訓(xùn)練模型RoBERTa-wwm 與深度學(xué)習(xí)模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結(jié)合，構(gòu)建RoBERTawwm-BiLSTM-CRF 模型，創(chuàng)新性地將這一模型引入到分詞研究之中，并與當(dāng)前主流分詞算法進(jìn)行對比，探究更準(zhǔn)確的中醫(yī)古籍分詞方法，從而驗(yàn)證本文方法的優(yōu)越性。

3 實(shí)驗(yàn)與分析

3.1 評測標(biāo)準(zhǔn)

常用的用于評價(jià)分詞效果的性能統(tǒng)計(jì)參數(shù)包括真陽性（True Positive,TP），假陽性（False Positive,FP），真陰性（True Negatives,TN），假陽性（False Negative,FN），精確率（Precision,P=TP/(TP+FP)）和召回率（Recall,R=TP/(TP+FN)）以及F1值（F1-mesure,F1=2×P×R）/(P+R))。由于F1 值較為客觀全面地描述了分詞準(zhǔn)確性，所以本文主要采用F1值作為模型性能的評判標(biāo)準(zhǔn)。

3.2 超參數(shù)設(shè)置

BERT模型為BERT-Base-Chinese版本，RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese，實(shí)驗(yàn)相關(guān)超參數(shù)設(shè)置如表1所示。

表1 實(shí)驗(yàn)超參數(shù)取值表

3.3 分詞實(shí)驗(yàn)設(shè)計(jì)

本文將《黃帝內(nèi)經(jīng)》語料庫中的80%作為訓(xùn)練集，20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進(jìn)行對比實(shí)驗(yàn)。此外，為了體現(xiàn)本文所構(gòu)建的《黃帝內(nèi)經(jīng)》語料庫并基于此語料庫構(gòu)建的分詞模型在中醫(yī)古籍分詞方面的優(yōu)越性，同時(shí)與第三方古文分詞庫“甲言”進(jìn)行實(shí)驗(yàn)結(jié)果對比。各模型在《黃帝內(nèi)經(jīng)》語料庫上的識別效果如表2所示。

表2 分詞效果對比表

3.4 實(shí)驗(yàn)結(jié)果分析

從表2可以看出，CRF的效果明顯優(yōu)于HMM。因?yàn)镃RF 通過計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率來得到全局最優(yōu)，而HMM 得到的可能是局部最優(yōu)。CRF概率歸一化較為合理，HMM 可能會導(dǎo)致標(biāo)簽偏置問題。綜上所述，CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進(jìn)行分詞，由于其語料庫包含部分中醫(yī)古籍，所以分詞效果好于HMM 模型，但是不及CRF與深度學(xué)習(xí)模型。

而深度學(xué)習(xí)分詞準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法，這是因?yàn)锽ERT 和BiLSTM 對字符的特征的提取有著優(yōu)秀的性能，能夠?qū)W習(xí)到更多的文本特征，故深度學(xué)習(xí)與機(jī)器學(xué)習(xí)方法相比優(yōu)勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優(yōu)于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓(xùn)練詞向量，該方法會受到未登錄詞的影響。針對于本文使用的領(lǐng)域特征明顯的中醫(yī)古籍，大部分中醫(yī)相關(guān)詞匯出現(xiàn)次數(shù)不多，導(dǎo)致了word2vec 模型進(jìn)分詞的受影響程度較大，而BERT 使用基于字的編碼方式，細(xì)化了編碼單元，極大地避免了未登錄詞的影響，同時(shí)借助于大量無監(jiān)督語料的訓(xùn)練所以算法性能優(yōu)于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳，這是由于RoBERTa-wwm 與BERT 相比，有更大的模型參數(shù)量、更大bacth size、更多的訓(xùn)練數(shù)據(jù)，同時(shí)RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼，可進(jìn)一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優(yōu)于其他分詞模型，這也充分證明其優(yōu)越性。

4 結(jié)束語

本文首先構(gòu)建了國內(nèi)首個(gè)《黃帝內(nèi)經(jīng)》人工標(biāo)注的集命名實(shí)體、詞性標(biāo)注和分詞一體的中醫(yī)古文語料庫，為后續(xù)構(gòu)建大規(guī)模中醫(yī)古籍語料庫奠定基礎(chǔ)。此外，本文對《黃帝內(nèi)經(jīng)》進(jìn)行系統(tǒng)性分詞研究，為今后《黃帝內(nèi)經(jīng)》的智能分析和知識提取研究提供參考。

在分詞研究方面，本文系統(tǒng)研究和比較了不同算法下《黃帝內(nèi)經(jīng)》中的分詞效果。實(shí)驗(yàn)結(jié)果表明，RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比，P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫(yī)古籍分詞識別效果一般的現(xiàn)狀，但是由于古文中存在大量單字詞等問題，這導(dǎo)致中醫(yī)古籍分詞研究與現(xiàn)代文分詞研究相比還存在差距。同時(shí)，深度學(xué)習(xí)模型的好壞與標(biāo)注語料庫大小密切相關(guān)，在后續(xù)研究中還將繼續(xù)增加人工標(biāo)注的訓(xùn)練語料，從而使得中醫(yī)古籍分詞效果更好。

中醫(yī)古籍語料庫的構(gòu)建和中文分詞研究只是中醫(yī)自然語言處理的基礎(chǔ)性工作。后續(xù)將會基于分詞結(jié)果開展《黃帝內(nèi)經(jīng)》的命名實(shí)體識別研究和知識圖譜的構(gòu)建研究，同時(shí)加強(qiáng)中醫(yī)古籍文本語料庫的建設(shè)，并構(gòu)建中醫(yī)古籍專用分詞詞典和中醫(yī)古籍專用詞向量，深入挖掘和抽取蘊(yùn)含在中醫(yī)古籍中的知識和經(jīng)驗(yàn)。