亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于《傷寒論》的命名實(shí)體識(shí)別研究*

        2021-09-15 08:36:12王菁薇駱嘉偉晏峻峰
        關(guān)鍵詞:傷寒論古籍命名

        王菁薇 肖 莉 駱嘉偉 晏峻峰

        (1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院 長沙 410208)(2.湖南中醫(yī)藥大學(xué)中醫(yī)學(xué)院 長沙 410208)(3.湖南大學(xué)信息科學(xué)與工程學(xué)院 長沙 410082)

        1 引言

        《傷寒論》是東漢末年張仲景所著漢醫(yī)經(jīng)典著作,是一部闡述外感病治療規(guī)律的專著,其以非結(jié)構(gòu)化形式儲(chǔ)藏著豐富可靠的知識(shí)[1]。由于古籍中喜用虛詞、指代詞,相較于現(xiàn)代自然語言處理,中醫(yī)藥古籍的處理更具有挑戰(zhàn)性。中醫(yī)藥古籍命名實(shí)體識(shí)別是指根據(jù)具體古籍的內(nèi)容,從中識(shí)別出關(guān)鍵信息的過程,涉及疾病、證候、癥狀、方藥等中醫(yī)類信息。近些年,從最初基于規(guī)則和字典的方法到現(xiàn)在的深度學(xué)習(xí)方法,命名實(shí)體識(shí)別技術(shù)在醫(yī)學(xué)領(lǐng)域取得了一些進(jìn)展,但中醫(yī)藥領(lǐng)域相關(guān)的命名實(shí)體識(shí)別模型較少,用于中醫(yī)藥古籍的模型更是微乎其微[2]。高佳奕等[3]對(duì)名老中醫(yī)臨床肺癌醫(yī)案進(jìn)行序列標(biāo)記,利用條件隨機(jī)場構(gòu)建中醫(yī)臨床信息抽取模型,抽取結(jié)果符合中醫(yī)辨證理論,能有效實(shí)現(xiàn)中醫(yī)臨床醫(yī)案癥狀命名實(shí)體識(shí)別。祝錫永等[4]改進(jìn)并構(gòu)建了用于醫(yī)療領(lǐng)域的中文命名實(shí)體識(shí)別模型——CTD-BLSTM模型。高佳奕等[5]嘗試使用多種命名實(shí)體抽取模型對(duì)中醫(yī)肺癌數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。肖瑞等[6]針對(duì)部分名老中醫(yī)醫(yī)案著作構(gòu)Bi LSTM-CRF模型,識(shí)別的準(zhǔn)確率達(dá)到97.23%。以上學(xué)者的研究證明了構(gòu)建中醫(yī)藥古籍命名實(shí)體識(shí)別模型的可行性。本研究嘗試將預(yù)訓(xùn)練模型ALBERT應(yīng)用于中醫(yī)藥古籍,基于《傷寒論》進(jìn)行實(shí)驗(yàn),并與BERT模型訓(xùn)練結(jié)果進(jìn)行對(duì)比,為深度挖掘張仲景《傷寒雜病論》及其他中醫(yī)藥古籍提供參考[7]。

        2 資料與方法

        2.1 數(shù)據(jù)來源

        數(shù)據(jù)來自宋版《傷寒論》[8]。

        2.2 數(shù)據(jù)預(yù)處理

        考慮到《傷寒論》條文描述中,包含“太陽病”等疾病特征、“太陽中風(fēng)”等證候特征、“惡寒”等癥狀特征、“桂枝湯”等處方特征、“桂枝”等藥物特征[9]。本研究根據(jù)以上實(shí)體特征,將《傷寒論》中實(shí)體劃分為疾病、證候、癥狀、處方、藥物五類不同標(biāo)簽,與其無關(guān)的信息劃分為非命名實(shí)體組成部分。疾病、證候、癥狀、處方、藥物分別記作disease、syndrome、symptom、prescription、medicine,非命名實(shí)體組成部分記作O。利用BIO標(biāo)注法進(jìn)行標(biāo)注,具體方法見表1。如《傷寒論》條文第十二條可以標(biāo)注為“太/B-syndrome陽/I-syndrome中/I-syndrome風(fēng)/I-syndrome,/O陽/B-symptom浮/I-symptom而/O陰/Bsymptom弱/I-symptom,/O陽/B-symptom浮/I-symptom者/O,/O熱/B-symptom自/I-symptom發(fā)/I-symptom;/O陰/B-symptom弱/I-symptom者/O,/O汗/Bsymptom自/I-symptom出/I-symptom,/O嗇/B-symptom嗇/I-symptom惡/I-symptom寒/I-symptom,/O淅/B-symptom淅/I-symptom惡/I-symptom風(fēng)/Isymptom,翕/B-symptom翕/I-symptom發(fā)/I-symptom熱/I-symptom,/O鼻/B-symptom鳴/I-symptom干/B-symptom嘔/I-symptom者/O,/O桂/B-prescription枝/I-prescription湯/I-prescription主/O之/O”。

        表1 命名實(shí)體標(biāo)注方法

        2.3《傷寒論》命名實(shí)體識(shí)別模型構(gòu)建

        常見的命名實(shí)體識(shí)別模型結(jié)構(gòu),如圖1所示,一般包括將輸入的文字生成向量的Embedding層、捕捉輸入的雙向語義依賴的特征提取層以及給標(biāo)簽添加一些限制確保結(jié)果有效性的輸出標(biāo)注層。本研究選取Bi LSTM模型[10]作為特征提取層、CRF模 型[11]作 為 輸 出 標(biāo) 注 層,分 別 以word2vec、BERT-wwm以及ALBERT作為Embedding層構(gòu)建了BiLSTM-CRF模型、BERT-BiLSTM-CRF模型及ALBERT-BiLSTM-CRF模型。

        圖1 命名實(shí)體識(shí)別模型結(jié)構(gòu)

        雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)由前向長短時(shí)記憶網(wǎng)絡(luò)(LSTM)和后向長短時(shí)記憶網(wǎng)絡(luò)(LSTM)組成。對(duì)于任一時(shí)刻t的輸出,前向LSTM記錄了t時(shí)刻以及t時(shí)刻之前的信息,后向LSTM記錄了t時(shí)刻以及t時(shí)刻之后的信息。相較于長短記憶網(wǎng)絡(luò)(LSTM)模型,BiLSTM模型結(jié)合了輸入序列前向和后向的信息,在自然語言處理的應(yīng)用中,考慮到“上文”的同時(shí),考慮到了“下文”的信息。條件隨機(jī)場(Conditional Random Fields,CRF)可以考慮到已經(jīng)標(biāo)注好的數(shù)據(jù)的相鄰標(biāo)記信息,避免得到不合語法的標(biāo)簽序列,如在一個(gè)句子中,疾病的起始詞后不應(yīng)接癥狀的中間詞。

        BERT[12]是2018年Google提出的預(yù)訓(xùn)練模型,采用了MLM隨機(jī)屏蔽掉部分token,然后預(yù)測被屏蔽掉的token。2020年Yiming Cui等[13]考慮到傳統(tǒng)NLP中的中文分詞,將全詞Mask應(yīng)用在中文中,發(fā)布了BERT-wwm(Whole Word Masking)。在BERT的基礎(chǔ)上,ALBERT[14]對(duì)詞嵌入?yún)?shù)進(jìn)行因式分解,成功將嵌入層的參數(shù)縮小為原來的1/8;對(duì)隱藏層間參數(shù)進(jìn)行共享,使隱藏層參數(shù)量變?yōu)樵瓉淼?/12或者1/24;同時(shí)提出了一種新的訓(xùn)練任務(wù)——句子間順序預(yù)測,給模型兩個(gè)句子,讓模型去預(yù)測這兩個(gè)句子的前后順序,使模型能學(xué)到更多句子間的語義關(guān)系。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)置及評(píng)價(jià)指標(biāo)

        為了驗(yàn)證ALBERT-BiLSTM-CRF模型的有效性,將其分別與BiLSTM-CRF模型、BERT-Bi LSTM-CRF模型進(jìn)行了比較。

        本研究使用多分類任務(wù)中的常用評(píng)估指標(biāo)——精確率(precision,P)、召回率(recall,R)以及精確率和召回率的調(diào)和平均(F1-score),評(píng)估各模型在《傷寒論》命名實(shí)體識(shí)別任務(wù)中的性能[15]。此外,為了保證實(shí)驗(yàn)結(jié)果的可靠性,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)打亂處理,并采用五折交叉驗(yàn)證對(duì)樣本集進(jìn)行劃分。每個(gè)模型均獨(dú)立訓(xùn)練五次,然后將其平均值作為最終的預(yù)測結(jié)果。

        3.2 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證ALBERT-BiLSTM-CRF模型在中醫(yī)古籍實(shí)體識(shí)別中的有效性,利用隨機(jī)打亂標(biāo)注好的《傷寒論》對(duì)各模型進(jìn)行性能評(píng)估,結(jié)果如圖2~4所示。

        圖2 各模型實(shí)驗(yàn)結(jié)果—P

        圖3 各模型實(shí)驗(yàn)結(jié)果—R

        圖4 各模型實(shí)驗(yàn)結(jié)果—F1-score

        從實(shí)驗(yàn)結(jié)果可以看出,結(jié)合BERT、ALBERT等預(yù)訓(xùn)練模型識(shí)別效果優(yōu)于BiLSTM-CRF模型,按照F1-score值對(duì)各模型的性能進(jìn)行排序,結(jié)果如下:ALBERT-BILSTM-CRF>BERT-BILSTM-CRF>Bi LSTM-CRF。結(jié)果表明蘊(yùn)含語義關(guān)系得到的嵌入向量有助于使中醫(yī)藥古籍實(shí)體識(shí)別效果的提升;而ALBERT雖然在BERT的基礎(chǔ)上大大削減了模型參數(shù)量,但其提出了句子間順序預(yù)測任務(wù),使得Al-BERT-BiLSTM-CRF模型在實(shí)驗(yàn)中的效果優(yōu)于BERT-BiLSTM-CRF模型。

        4 結(jié)語

        本研究應(yīng)用ALBERT-BiLSTM-CRF模型進(jìn)行中醫(yī)藥古籍命名實(shí)體識(shí)別,對(duì)《傷寒論》進(jìn)行實(shí)驗(yàn)。結(jié)果顯示,相較于傳統(tǒng)的BiLSTM-CRF模型,預(yù)訓(xùn)練模型對(duì)命名實(shí)體識(shí)別任務(wù)的效果有較大的提升;相較BERT模型,優(yōu)化后的ALBERT模型更適用于《傷寒論》的命名實(shí)體識(shí)別任務(wù)。中醫(yī)藥古籍是歷代醫(yī)家在臨床實(shí)踐中總結(jié)得到的智慧結(jié)晶,提高命名實(shí)體識(shí)別技術(shù)在中醫(yī)藥古籍中的識(shí)別效果,對(duì)傳承中醫(yī)藥古籍具有重大意義。本研究采用的數(shù)據(jù)集較小,各類實(shí)體分布不均衡,癥狀實(shí)體間存在表達(dá)的多樣性,缺乏對(duì)古文中指代詞的處理。今后研究將進(jìn)一步增加數(shù)據(jù)集,結(jié)合實(shí)體鏈接、融合對(duì)齊以及語義理解等方法,提高模型對(duì)中醫(yī)藥古籍中命名實(shí)體的識(shí)別效果。

        猜你喜歡
        傷寒論古籍命名
        General principle of high-quality academic development of traditional chinese medicine: “carrying on the essence,while pursuing innovations”
        《傷寒論》六經(jīng)溯源與理論淺析
        中醫(yī)古籍“疒”部俗字考辨舉隅
        《傷寒論》實(shí)為115方
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        A Patient with End-stage Respiratory Failure Gets Recovery from Mechanical Ventilation by Utilization of Chinese Traditional Medicine
        關(guān)于版本學(xué)的問答——《古籍善本》修訂重版說明
        天一閣文叢(2020年0期)2020-11-05 08:28:06
        關(guān)于古籍保護(hù)人才培養(yǎng)的若干思考
        天一閣文叢(2018年0期)2018-11-29 07:48:08
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        一个人免费观看在线视频播放| 午夜爽爽爽男女污污污网站 | 产国语一级特黄aa大片| 黑丝国产精品一区二区| 少妇连续高潮爽到抽搐| 国产农村妇女精品一二区| 无码国产亚洲日韩国精品视频一区二区三区 | 一本之道久久一区二区三区| 妺妺窝人体色www聚色窝| 久久亚洲黄色| 日本成人免费一区二区三区| 一本色道久久88—综合亚洲精品 | 网红尤物泛滥白浆正在播放| 婷婷色综合视频在线观看| 好吊色欧美一区二区三区四区| 在线av野外国语对白| 老岳肥屁熟女四五十路| 精品国产偷窥一区二区| 精品无码专区久久久水蜜桃| www久久久888| 麻豆人妻性色av专区0000| 亚洲人成色7777在线观看| 在线高清精品第一区二区三区| 一区二区三区视频在线免费观看 | 久久久久久久极品内射| 精品欧美一区二区在线观看| 强d乱码中文字幕熟女1000部| 国产一区二区三区天堂| 欧美艳星nikki激情办公室| 中文字幕乱码亚洲无线精品一区| 亚洲综合小综合中文字幕| 五月综合激情婷婷六月| 少妇极品熟妇人妻无码| 国产成人福利av一区二区三区| 极品尤物精品在线观看| 亚洲第一无码xxxxxx| 日韩在线观看网址| 丝袜美足在线视频国产在线看| 色综合久久88色综合天天| 亚洲另类欧美综合久久图片区| 精品人妻av区二区三区|