亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        《黃帝內(nèi)經(jīng)》文本語料庫的構(gòu)建與應(yīng)用研究*

        2022-12-16 09:22:50石玉敬劉偉葛曉舒胡為劉弋蓮易洋
        計(jì)算機(jī)時(shí)代 2022年12期
        關(guān)鍵詞:黃帝內(nèi)經(jīng)分詞古籍

        石玉敬,劉偉,葛曉舒,胡為,劉弋蓮,易洋

        (1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410208;2.湖南中醫(yī)藥大學(xué)中醫(yī)學(xué)院)

        0 引言

        中醫(yī)古籍是中醫(yī)藥學(xué)“傳承精華,守正創(chuàng)新”的根脈。《黃帝內(nèi)經(jīng)》作為中醫(yī)古籍的經(jīng)典之作,在中醫(yī)研究者的中醫(yī)學(xué)習(xí)和臨床實(shí)踐中都起到十分重要的作用。然而,古代漢語中單字詞、一詞多義的現(xiàn)象很多,且不同時(shí)期的中醫(yī)古籍也存在差異,導(dǎo)致對中醫(yī)古籍進(jìn)行分析和挖掘變得十分困難。目前在中醫(yī)自然語言處理領(lǐng)域缺乏一些高質(zhì)量的中醫(yī)古籍語料庫,如何構(gòu)建優(yōu)質(zhì)中醫(yī)古籍語料庫以及基于語料庫進(jìn)行數(shù)據(jù)挖掘,是中醫(yī)自然語言處理中的重要研究課題。本文將構(gòu)建《黃帝內(nèi)經(jīng)》專用分詞、詞性標(biāo)注語料庫并對其進(jìn)行自動(dòng)分詞研究,探究更高效、穩(wěn)定、快速的中醫(yī)古籍分詞方法。

        1 實(shí)驗(yàn)數(shù)據(jù)

        1.1 語料庫的構(gòu)建與來源

        本文以《黃帝內(nèi)經(jīng)》為初始語料,在湖南中醫(yī)藥大學(xué)醫(yī)史文獻(xiàn)教研室《醫(yī)古文》、《內(nèi)經(jīng)選讀》等課程的多名主講教師指導(dǎo)下,采用八位中醫(yī)學(xué)專業(yè)高年級本科生人工標(biāo)注的156,507 字的《黃帝內(nèi)經(jīng)》全文作為初始研究語料庫。本文構(gòu)建的語料庫是國內(nèi)首個(gè)人工標(biāo)注的集詞性標(biāo)注和分詞一體的《黃帝內(nèi)經(jīng)》中醫(yī)古文語料庫,能夠給后續(xù)中醫(yī)古文分詞、命名實(shí)體識別和大規(guī)模中醫(yī)古籍語料庫的構(gòu)建等一系列中醫(yī)自然語言處理研究工作奠定基礎(chǔ)。

        2 分詞方法和研究背景

        2.1 分詞研究背景

        分詞是中文自然語言處理研究的重要組成部分之一。目前分詞處理的方法有三類,分別是基于詞典和規(guī)則的分詞方法、基于統(tǒng)計(jì)的分詞方法和基于深度學(xué)習(xí)的分詞方法。

        文獻(xiàn)[1,2]采用基于詞典和規(guī)則的分詞方法,雖然使用取得了良好的效果,但是模型的泛化能力較差。由此可見基于規(guī)則和詞典的分詞方法有一定效果但是局限性較大。文獻(xiàn)[3,4]采用基于統(tǒng)計(jì)的方法進(jìn)行分詞實(shí)驗(yàn)均取得不錯(cuò)的效果,這說明基于統(tǒng)計(jì)的方法,在語料庫相對較小的情況下,分詞結(jié)果較為出色。隨著硬件更新和算法的突破,基于神經(jīng)網(wǎng)絡(luò)[5-7]的分詞方法已經(jīng)是大勢所趨。文獻(xiàn)[8-10]使用了深度學(xué)習(xí)的分詞方法,分詞效果與非深度學(xué)習(xí)的方法相比,效果有了質(zhì)的飛躍。由此可見,深度學(xué)習(xí)用于分詞領(lǐng)域的效果與其他方法相比具有較大的優(yōu)越性。

        2.2 預(yù)訓(xùn)練模型

        預(yù)訓(xùn)練模型是在一個(gè)原始任務(wù)上預(yù)先訓(xùn)練一個(gè)初始模型,然后在目標(biāo)任務(wù)上使用該模型,針對目標(biāo)任務(wù)的特性,對該初始模型進(jìn)行精調(diào),從而達(dá)到提高目標(biāo)任務(wù)的目的。Google 在2018 年提出預(yù)訓(xùn)練模型BERT[11](Bidirectional Encoder Representation from Transformers),BERT 一經(jīng)推出便打破了各項(xiàng)自然語言處理任務(wù)的榜單,并廣泛應(yīng)用于各個(gè)自然語言處理研究之中,許多后續(xù)研究一般也以BERT 模型為基礎(chǔ)進(jìn)行改進(jìn)。其中RoBERTa-wwm[12]是最出色的改進(jìn)模型之一,RoBERTa-wwm 與BERT 相比具有兩方面優(yōu)勢,第一是RoBERTa預(yù)訓(xùn)練模型具有更大的訓(xùn)練集的優(yōu)越性,第二是基于全詞掩碼的中文訓(xùn)練方式,能夠有效提高自然語言處理任務(wù)的準(zhǔn)確率。因此本文選擇RoBERTa-wwm 模型代替BERT 模型進(jìn)行分詞研究。

        2.3 BiLSTM-CRF

        BiLSTM 層的輸出是一個(gè)概率矩陣,這個(gè)概率矩陣由BiLSTM 基于每個(gè)時(shí)刻上的最優(yōu)結(jié)果得到,但是這樣輸出的標(biāo)簽并沒有把前一個(gè)標(biāo)簽對后一個(gè)標(biāo)簽的影響考慮進(jìn)去。例如,假如輸入序列中出現(xiàn)了“黃帝”一詞,其中“黃”為詞首,“帝”為詞尾,模型有可能將“黃”和“帝”都預(yù)測為詞首,而根據(jù)標(biāo)注規(guī)則詞首之后只能出現(xiàn)詞中和詞尾,所以這明顯不符合分詞標(biāo)注規(guī)則。針對這種情況,文獻(xiàn)[13]在BiLSTM 層后引入CRF(Conditional Random Field)層,CRF 層通過隨機(jī)變量作為輸入來輸出隨機(jī)變量的條件概率分布的一種算法。對于標(biāo)簽分類問題,CRF 由于能夠充分考慮標(biāo)簽與標(biāo)簽之間的依賴關(guān)系,從而避免標(biāo)注偏置問題。其整體結(jié)構(gòu)如圖1所示。

        圖1 BiLSTM-CRF模型結(jié)構(gòu)圖

        2.4 RoBERTa-wwm-BiLSTM-CRF

        綜上所述,深度學(xué)習(xí)方法作為在分詞領(lǐng)域更好的方法,而預(yù)訓(xùn)練模型在其他自然語言處理的應(yīng)用都十分廣泛且效果更好,而使用預(yù)訓(xùn)練模型進(jìn)行分詞鮮有人研究,因此本文將相較BERT 模型表現(xiàn)更好的預(yù)訓(xùn)練模型RoBERTa-wwm 與深度學(xué)習(xí)模型BiLSTMCRF(Bidirectional Long Short Term.Memory-Conditional Random Fields)結(jié)合,構(gòu)建RoBERTawwm-BiLSTM-CRF 模型,創(chuàng)新性地將這一模型引入到分詞研究之中,并與當(dāng)前主流分詞算法進(jìn)行對比,探究更準(zhǔn)確的中醫(yī)古籍分詞方法,從而驗(yàn)證本文方法的優(yōu)越性。

        3 實(shí)驗(yàn)與分析

        3.1 評測標(biāo)準(zhǔn)

        常用的用于評價(jià)分詞效果的性能統(tǒng)計(jì)參數(shù)包括真陽性(True Positive,TP),假陽性(False Positive,FP),真陰性(True Negatives,TN),假陽性(False Negative,FN),精確率(Precision,P=TP/(TP+FP))和召回率(Recall,R=TP/(TP+FN))以及F1值(F1-mesure,F1=2×P×R)/(P+R))。由于F1 值較為客觀全面地描述了分詞準(zhǔn)確性,所以本文主要采用F1值作為模型性能的評判標(biāo)準(zhǔn)。

        3.2 超參數(shù)設(shè)置

        BERT模型為BERT-Base-Chinese版本,RoBERTawwm 版本為RoBERTa-wwm-ext-Chinese,實(shí)驗(yàn)相關(guān)超參數(shù)設(shè)置如表1所示。

        表1 實(shí)驗(yàn)超參數(shù)取值表

        3.3 分詞實(shí)驗(yàn)設(shè)計(jì)

        本文將《黃帝內(nèi)經(jīng)》語料庫中的80%作為訓(xùn)練集,20%作為測試集。使用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF算法來進(jìn)行對比實(shí)驗(yàn)。此外,為了體現(xiàn)本文所構(gòu)建的《黃帝內(nèi)經(jīng)》語料庫并基于此語料庫構(gòu)建的分詞模型在中醫(yī)古籍分詞方面的優(yōu)越性,同時(shí)與第三方古文分詞庫“甲言”進(jìn)行實(shí)驗(yàn)結(jié)果對比。各模型在《黃帝內(nèi)經(jīng)》語料庫上的識別效果如表2所示。

        表2 分詞效果對比表

        3.4 實(shí)驗(yàn)結(jié)果分析

        從表2可以看出,CRF的效果明顯優(yōu)于HMM。因?yàn)镃RF 通過計(jì)算全局最優(yōu)輸出節(jié)點(diǎn)的條件概率來得到全局最優(yōu),而HMM 得到的可能是局部最優(yōu)。CRF概率歸一化較為合理,HMM 可能會導(dǎo)致標(biāo)簽偏置問題。綜上所述,CRF 的分詞效果明顯好于HMM。“甲言”利用HMM 算法進(jìn)行分詞,由于其語料庫包含部分中醫(yī)古籍,所以分詞效果好于HMM 模型,但是不及CRF與深度學(xué)習(xí)模型。

        而深度學(xué)習(xí)分詞準(zhǔn)確率明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,這是因?yàn)锽ERT 和BiLSTM 對字符的特征的提取有著優(yōu)秀的性能,能夠?qū)W習(xí)到更多的文本特征,故深度學(xué)習(xí)與機(jī)器學(xué)習(xí)方法相比優(yōu)勢較為明顯。BERT-BiLSTM-CRF 的分詞效果優(yōu)于BiLSTM-CRF。是由于BiLSTM 使用word2vec 訓(xùn)練詞向量,該方法會受到未登錄詞的影響。針對于本文使用的領(lǐng)域特征明顯的中醫(yī)古籍,大部分中醫(yī)相關(guān)詞匯出現(xiàn)次數(shù)不多,導(dǎo)致了word2vec 模型進(jìn)分詞的受影響程度較大,而BERT 使用基于字的編碼方式,細(xì)化了編碼單元,極大地避免了未登錄詞的影響,同時(shí)借助于大量無監(jiān)督語料的訓(xùn)練所以算法性能優(yōu)于BILSTM。而RoBERTa-wwm-BiLSTM-CRF 模型效果最佳,這是由于RoBERTa-wwm 與BERT 相比,有更大的模型參數(shù)量、更大bacth size、更多的訓(xùn)練數(shù)據(jù),同時(shí)RoBERTa-wwm 模型將BERT字符級掩碼替換為詞級掩碼,可進(jìn)一步提升分詞能力。所以RoBERTa-wwm-BiLSTM-CRF 明顯優(yōu)于其他分詞模型,這也充分證明其優(yōu)越性。

        4 結(jié)束語

        本文首先構(gòu)建了國內(nèi)首個(gè)《黃帝內(nèi)經(jīng)》人工標(biāo)注的集命名實(shí)體、詞性標(biāo)注和分詞一體的中醫(yī)古文語料庫,為后續(xù)構(gòu)建大規(guī)模中醫(yī)古籍語料庫奠定基礎(chǔ)。此外,本文對《黃帝內(nèi)經(jīng)》進(jìn)行系統(tǒng)性分詞研究,為今后《黃帝內(nèi)經(jīng)》的智能分析和知識提取研究提供參考。

        在分詞研究方面,本文系統(tǒng)研究和比較了不同算法下《黃帝內(nèi)經(jīng)》中的分詞效果。實(shí)驗(yàn)結(jié)果表明,RoBERTa-wwm-BiLSTM-CRF 分詞的效果最佳。與以往最佳研究相比,P 值、R 值和F1 值分別提高了1.54%、1.16%和1.35%。本文所提方法解決了中醫(yī)古籍分詞識別效果一般的現(xiàn)狀,但是由于古文中存在大量單字詞等問題,這導(dǎo)致中醫(yī)古籍分詞研究與現(xiàn)代文分詞研究相比還存在差距。同時(shí),深度學(xué)習(xí)模型的好壞與標(biāo)注語料庫大小密切相關(guān),在后續(xù)研究中還將繼續(xù)增加人工標(biāo)注的訓(xùn)練語料,從而使得中醫(yī)古籍分詞效果更好。

        中醫(yī)古籍語料庫的構(gòu)建和中文分詞研究只是中醫(yī)自然語言處理的基礎(chǔ)性工作。后續(xù)將會基于分詞結(jié)果開展《黃帝內(nèi)經(jīng)》的命名實(shí)體識別研究和知識圖譜的構(gòu)建研究,同時(shí)加強(qiáng)中醫(yī)古籍文本語料庫的建設(shè),并構(gòu)建中醫(yī)古籍專用分詞詞典和中醫(yī)古籍專用詞向量,深入挖掘和抽取蘊(yùn)含在中醫(yī)古籍中的知識和經(jīng)驗(yàn)。

        猜你喜歡
        黃帝內(nèi)經(jīng)分詞古籍
        Instructions for Authors
        Screening influencing factors of blood stasis constitution in traditional Chinese medicine
        中醫(yī)古籍“疒”部俗字考辨舉隅
        Network Biological Modeling:A Novel Approach to Interpret the Traditional Chinese Medicine Theory of Exterior-Interior Correlation Between the Lung and Large Intestine
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        Mathematical Analysis of the Meridian System in Traditional Chinese Medicine
        結(jié)巴分詞在詞云中的應(yīng)用
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        我是古籍修復(fù)師
        金橋(2017年5期)2017-07-05 08:14:41
        值得重視的分詞的特殊用法
        乌克兰少妇xxxx做受6| 国产极品美女高潮无套| 国产午夜福利精品一区二区三区| 性色av一区二区三区| 国产婷婷丁香五月麻豆| 91在线观看国产自拍| 东北女人一级内射黄片| 欧美内射深喉中文字幕| 性导航app精品视频| 毛片色片av色在线观看| 中文字幕av高清人妻| 爽爽精品dvd蜜桃成熟时电影院| 日本成人久久| 亚洲av乱码一区二区三区观影| 国产成年人毛片在线99| 少妇太爽了在线观看免费视频| 精品久久久久一区二区国产| 亚洲天堂av大片暖暖| 懂色av一区二区三区尤物| 丰满人妻被黑人猛烈进入| 久久精品中文闷骚内射| 日韩内射美女人妻一区二区三区| a毛片全部免费播放| 日韩熟妇精品视频一区二区| 国产人成在线成免费视频| 国产三级不卡一区不卡二区在线 | 中文字幕久久久人妻无码| av无码免费永久在线观看| 亚洲综合网站精品一区二区| 国内精品极品久久免费看| 成人国产一区二区三区| 日本道精品一区二区三区| 国产成人v爽在线免播放观看| 69国产成人综合久久精| 亚洲女同免费在线观看| aⅴ精品无码无卡在线观看| 国产精品亚洲欧美云霸高清| 亚洲国产成人精品一区刚刚| 免费av一区二区三区| 色一情一区二区三区四区| 综合色久七七综合尤物|