亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合字形特征的中醫(yī)醫(yī)案命名實體識別研究

        2023-07-17 05:57:28胡為劉偉盛威盧彥杰石玉敬
        計算機(jī)時代 2023年7期

        胡為 劉偉 盛威 盧彥杰 石玉敬

        關(guān)鍵詞:中醫(yī)醫(yī)案;命名實體識別;漢字字形;BERT模型;BiLSTM

        0 引言

        中醫(yī)醫(yī)案記錄了患者癥狀、病因、治法和方藥[1],研究從醫(yī)者望聞問切的診療機(jī)理可輔助醫(yī)生進(jìn)行臨床決策。如何從海量的中醫(yī)醫(yī)案臨床診斷信息中準(zhǔn)確的抽取癥狀實體是挖掘中醫(yī)辨證規(guī)律的重要基礎(chǔ)。

        文獻(xiàn)[2]采用基于統(tǒng)計學(xué)的條件隨機(jī)場CRF 方法,對名老中醫(yī)臨床肺癌中癥狀實體抽取F1 值均達(dá)92%。近年來,大量研究者將神經(jīng)網(wǎng)絡(luò)用于信息抽取領(lǐng)域取得了不錯的效果。文獻(xiàn)[3]對于中醫(yī)醫(yī)案臨床癥狀術(shù)語提取構(gòu)建了一種基于長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場相結(jié)合的方法,該方法的F1值達(dá)78%。文獻(xiàn)[4]利用BiLSTM-CRF 模型對中醫(yī)醫(yī)案進(jìn)行命名實體識別F1值達(dá)89.8%。在上述的中醫(yī)醫(yī)案研究中,輸入普遍采用的是字向量,常用的中文字向量表示方法Word2Vec[5],BERT[6]等都沒有考慮漢字的字形結(jié)構(gòu)所包含的語義信息,如在中醫(yī)醫(yī)案中表示疾病的實體通常都有“疒”部首,如“痛”、“瘧”等,包含身體部位的實體通常包含“月”部首如“胸”、“肺”[7]。漢字起源于象形文字,漢字的結(jié)構(gòu)由詞根組成,而詞根由筆畫組成[8],利用漢字字形的筆畫、部首、詞根信息,可以學(xué)習(xí)到漢字整體字形結(jié)構(gòu)所隱含的語義信息,提高命名實體識別的準(zhǔn)確率。本研究將漢字的字形特征融入到中醫(yī)醫(yī)案癥狀實體抽取研究中,設(shè)計了一種基于漢字筆畫+部首+詞根的中醫(yī)醫(yī)案命名實體識別方法,并在中醫(yī)醫(yī)案數(shù)據(jù)集上和其他研究者采用的方法進(jìn)行對比,證明了該方法的優(yōu)越性,可為中醫(yī)醫(yī)案準(zhǔn)確的抽取癥狀實體提供參考。

        1 數(shù)據(jù)集及相關(guān)處理

        1.1 數(shù)據(jù)集來源

        數(shù)據(jù)來自人民衛(wèi)生出版社出版的經(jīng)典中醫(yī)醫(yī)案叢書《中國現(xiàn)代名中醫(yī)醫(yī)案精粹》,該叢書有6 集,分三批共收錄434 位名中醫(yī)的5172 例醫(yī)案。

        1.2 數(shù)據(jù)集篩選標(biāo)準(zhǔn)

        納入標(biāo)準(zhǔn):至少包含患者的主述、醫(yī)生對患者的辨證、醫(yī)生開的處方的醫(yī)案。

        排除標(biāo)準(zhǔn):數(shù)據(jù)不完整的醫(yī)案。

        1.3 數(shù)據(jù)預(yù)處理

        根據(jù)篩選標(biāo)準(zhǔn)從《中國現(xiàn)代名中醫(yī)醫(yī)案精粹》的5172 例醫(yī)案中甄選了1000 條優(yōu)質(zhì)醫(yī)案。圍繞患者的癥狀和醫(yī)生的辨證方法并參考了《中醫(yī)臨床癥狀術(shù)語規(guī)范》等國家規(guī)范,將每條醫(yī)案劃分為辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體6 類不同的標(biāo)簽。與疾病無關(guān)的醫(yī)案信息劃分為非命名實體標(biāo)簽。為了提高數(shù)據(jù)集的質(zhì)量,本數(shù)據(jù)由多位經(jīng)驗豐富的中醫(yī)專家和學(xué)者共同進(jìn)行數(shù)據(jù)集的人工標(biāo)注和校對。采用BIO 標(biāo)注法,其中實體開頭用B-X 表示,實體的中間和結(jié)尾用I-X 表示,非實體及標(biāo)點(diǎn)符號用O 表示。詳細(xì)的標(biāo)注信息見表1,最終的標(biāo)注的數(shù)據(jù)集共有104,785 字,最后將數(shù)據(jù)集按照7:2:1 的比例劃分為訓(xùn)練集、驗證集和測試集。

        1.4 融合字形特征中醫(yī)醫(yī)案命名實體識別模型構(gòu)建

        在中文的主流命名實體識別方法中,通常利用漢字的字嵌入特征[9],通過神經(jīng)網(wǎng)絡(luò)對其編碼后再通過條件隨機(jī)場的解碼分類器來標(biāo)記出具體的實體類別。但由于漢字本身的結(jié)構(gòu)多樣性和復(fù)雜性,漢字的筆畫、部首和詞根本身也包含了大量的語義信息,目前的中醫(yī)醫(yī)案命名實體方法都未很好的解決漢字潛在的字形表征不足的問題[10],對此,本文提出一種融合漢字筆畫、部首和詞根的漢字字形特征的中醫(yī)醫(yī)案命名實體識別方法即Strokes-Radical-Root-Word-BERTBiLSTM-CRF(簡稱SRRW-BERT-BiLSTM-CRF)模型。模型的整體示意圖如圖1 所示。本模型主要包含了Embeddings 層、BiLSTM 層和CRF 層。

        Embeddings 層:每個字向量的輸入特征由四部分組成。①每個字符的筆畫特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的筆畫特征輸入向量esi。②每個字符的部首特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的部首特征輸入向量eri。③每個字符的詞根特征經(jīng)過BiLSTM 神經(jīng)網(wǎng)絡(luò)后得該字符的詞根特征輸入向量eci。④通過BERT 模型得到該字符的字向量表示ewi。最終每個字符的嵌入向量ei 可以表示為:

        筆畫特征:漢字筆畫是指組成漢字且不間斷的各種形狀的點(diǎn)和線,如橫(一)、豎(丨)、撇(丿)、捺(?)、折()等,它是構(gòu)成漢字字形的最小連筆單位。本文按照《現(xiàn)代漢語通用字表》規(guī)定的五類基本筆畫:橫類(包括所有形式的長橫、短橫、橫鉤、橫提)、豎類(包括所有形式的長豎、短豎、豎鉤)、撇類(包括所有形式的向左撇出去的點(diǎn))、點(diǎn)類(包括捺和所有向右寫出去的點(diǎn))、折類(包括所有的橫折、豎折、折鉤、折撇),如表2所示,對于筆畫編碼1 到5。

        漢字筆畫語義提取,主要是通過BiLSTM 網(wǎng)絡(luò)來獲取,將筆畫的輸入特征經(jīng)過BiLSTM 網(wǎng)絡(luò)后通過softmax層來標(biāo)準(zhǔn)化權(quán)重,以組合不同的筆畫輸出表示。圖2 顯示了筆畫的特征輸入結(jié)構(gòu)圖。

        1.5 模型對比實驗設(shè)計

        本研究設(shè)計了6 組對照模型。①基于雙向長短記憶神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場的BiLSTM-CRF 模型。②在BiLSTM-CRF 模型上加入預(yù)訓(xùn)練模型BERT 的BERT-BiLSTM-CRF 模型。③僅加入筆畫和字融合的Strokes-BERT-BiLSTM-CRF 模型。④僅加入部首和字融合的Radical- BERT-BiLSTM-CRF 模型。⑤僅加入詞根和字融合的Root-BERT-BiLSTM-CRF 模型。⑥設(shè)計了融合字形的筆畫、部首、詞根SRRWBERT-BiLSTM-CRF 模型。

        本研究實驗使用PyTorch 1.12 版本、Python3.7 版本的環(huán)境,BERT 預(yù)訓(xùn)練模型采用Google 官方的Bert_Base_Chinese 版本。模型的批處理大?。╞atchsize)為32,學(xué)習(xí)率(Learning rate)為1e-5,BERT 的參數(shù)最大句子長度設(shè)置為256,dropout 參數(shù)為0.5,BiLSTM 中隱藏層的維度為128,每個模型訓(xùn)練的輪數(shù)為30。

        1.6 模型評價指標(biāo)

        本研究使用精確率(P)、召回率(R)和F1 測度值(F1)值三個評價指標(biāo)來評估模型在命名實體識別抽取任務(wù)中的性能。假設(shè)Tp表示模型預(yù)測正確識別的實體個數(shù),F(xiàn)p表示模型識別錯誤實體個數(shù),F(xiàn)N為模型沒有識別出的實體個數(shù)。三個指標(biāo)具體公式如下:

        2 實驗結(jié)果

        2.1 對比實驗結(jié)果

        根據(jù)研究的數(shù)據(jù)集在選取的六組對照模型進(jìn)行測試,分別觀察各模型對數(shù)據(jù)集劃分的辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體等六類實體的精確率(P)、召回率(R)和F1 測度值(F1)測試結(jié)果,模型結(jié)果見表3。從表3 的結(jié)果可知,在中醫(yī)醫(yī)案癥狀實體抽取模型中,在BiLSTM-CRF 模型上加上預(yù)訓(xùn)練模型BERT 在一定程度上可以提高模型的各項評估指標(biāo),在預(yù)訓(xùn)練模型上單獨(dú)加入筆畫、部首和詞根都可以提升模型的評估指標(biāo),其中加入筆畫的提升效果最為明顯,將筆畫、部首和詞根都加入可以最大程度上提升模型的效果。將筆畫、部首和詞根都加入的SRRW-BERT-BiLSTM-CRF 模型取得了最佳的精確率93.2%,最佳的召回率92.8% 和最佳的F1 值92.9%。

        SRRW-BERT-BiLSTM-CRF 模型得到的各類癥狀實體評價指標(biāo)如表4 所示,從表4 的結(jié)果看出,SRRW-BERT-BiLSTM-CRF 模型在不同的癥狀實體標(biāo)簽評價指標(biāo)結(jié)果上有一定的差異,“辨證實體”、“治則實體”、“功效實體”比其他的實體得分低,分析其原因是這些實體在概念相似,人工標(biāo)注時對這三類實體比較難界定其邊界。

        2.2 SRRW-BERT-BiLSTM-CRF模型字向量維度實驗

        為了進(jìn)一步探究模型輸入的四個向量即字向量、筆畫向量、部首向量、詞根向量的維度對模型結(jié)果的影響,本研究對四個向量選取了不同維度進(jìn)行的實驗,實驗結(jié)果如圖3 所示。

        從實驗結(jié)果可以看出當(dāng)字向量維度為768 時模型取得的效果最好,筆畫向量維度為64 時取得最好的效果,部首向量在維度為512 時取得最佳效果,詞根向量在維度為384 時取得最佳效果,因為字向量采用的BERT 預(yù)訓(xùn)練模型作為輸出,需要較大的維度才能學(xué)到更多的語義信息,筆畫向量本身所需要編碼的信息較少,故不需要太大的維度,部首和詞根都是基于字編碼得到的,但本身所包含的字編碼又沒有字向量多,故其需要的向量維度也無需字向量那么高。

        2.3 實驗結(jié)果討論

        本研究對辨證實體、癥狀實體、功效實體、方藥實體、治則實體、人群實體等六類實體進(jìn)行了實驗驗證,取得了精確率93.2%,召回率92.8% 和F1 值92.9% 的結(jié)果,該結(jié)果證明本研究提出的方法的優(yōu)越性,同時也說明在中醫(yī)醫(yī)案中大量的癥狀實體與漢字本身的字形如筆畫、部首和詞根有密切關(guān)系,將這些信息加入到模型中,能有效學(xué)習(xí)到中醫(yī)醫(yī)案的語義信息。結(jié)果中的人群類實體、方藥類實體的F1 值都超過了90%,而辨證實體、治則實體、功效實體的F1 值比人群類實體、方藥類實體低了近10%,其原因可能是在醫(yī)案數(shù)據(jù)集中,不同的從醫(yī)者對醫(yī)案的記錄習(xí)慣存在一定的差異,辨證實體、治則實體、功效實體差異性較大故而影響最終的識別結(jié)果,辨證實體、治則實體、功效實體概念上較為相似,在人工標(biāo)注數(shù)據(jù)時未明確三類實體的邊界對識別結(jié)果也有一定的影響,在后續(xù)的研究中將會進(jìn)一步優(yōu)化數(shù)據(jù)集。

        與其他的中醫(yī)醫(yī)案癥狀實體模型方法如文獻(xiàn)[3]的方法對比結(jié)果表明,在模型中加入筆畫、部首和詞根都能對中醫(yī)醫(yī)案癥狀實體的結(jié)果有提升,將筆畫、部首和詞根都加入對模型的F1 提升達(dá)3%,說明本模型能提高中醫(yī)醫(yī)案癥狀命名實體方法的準(zhǔn)確率及提高中醫(yī)臨床信息的自動化抽取程度。在BiLSTM-CRF模型中加入預(yù)訓(xùn)練模型BERT 效果提升也比較明顯,本模型實驗結(jié)果表明,模型輸入向量的維度會影響最終模型的結(jié)果說明筆畫、部首和詞根選擇合適的維度能夠?qū)W到更多字形所隱含的語義信息。

        3 結(jié)束語

        本文研究設(shè)計了一種融合字形特征的中醫(yī)醫(yī)案命名實體識別方法,利用漢字的筆畫、部首和詞根來提高文本的語義信息,結(jié)合BERT 預(yù)訓(xùn)練模型強(qiáng)大的文本特征表征能力,通過BiLSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)上下文信息的以及條件隨機(jī)場CRF 提取全局最優(yōu)標(biāo)注序列最終輸出中醫(yī)醫(yī)案的癥狀實體。通過實驗證明了該方法優(yōu)于其他同類中醫(yī)醫(yī)案命名實體識別方法。本文方法在一定程度上提升了中醫(yī)醫(yī)案實體識別的效率,為分析和挖掘中醫(yī)醫(yī)案文本提供技術(shù)支撐。本研究后續(xù)將訓(xùn)練一個面向中醫(yī)醫(yī)案領(lǐng)域?qū)S械念A(yù)訓(xùn)練模型來替換本研究算法中的通用領(lǐng)域的BERT 模型,進(jìn)而進(jìn)一步提高模型識別的準(zhǔn)確性。

        偷拍激情视频一区二区三区| 国产成人精品自拍在线观看| 国产熟女露脸大叫高潮| 国产麻豆久久av入口| 日韩精品专区av无码| 人妻av无码系列一区二区三区| 亚洲欧洲日产国产AV无码| 国产高潮精品一区二区三区av| 国产91极品身材白皙| 妺妺窝人体色777777| 高潮又爽又无遮挡又免费| 亚洲国产中文在线二区三区免| 日本一区二区三本视频在线观看| 精品女厕偷拍视频一区二区区| 国产成人无码精品久久久免费| 中文无码日韩欧| 国产精品九九九无码喷水| 久久伊人精品只有这里有| 手机在线观看av资源| 亚洲熟妇av一区| 国产肉丝袜在线观看| 成人精品免费av不卡在线观看| 日韩国产自拍视频在线观看 | 国产美女遭强高潮网站| 人妻少妇av中文字幕乱码免费 | 久久精品不卡一区二区三区| 无遮挡18禁啪啪羞羞漫画| 四房播播在线电影| 素人激情福利视频| 国产精品女同一区二区久| 国产精品视频白浆免费视频| 私人vps一夜爽毛片免费| 久久人人爽人人爽人人片av麻烦| 西西人体大胆视频无码| 亚洲精品不卡av在线免费| 亚洲成av人片乱码色午夜| 又嫩又硬又黄又爽的视频| 醉酒后少妇被疯狂内射视频 | 国产女奸网站在线观看| 天堂精品人妻一卡二卡| 国产精品成人观看视频国产奇米 |