亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合醫(yī)學(xué)詞典的條件隨機(jī)場(chǎng)模型多文本實(shí)體識(shí)別研究

        2022-01-25 14:44:40沈同平
        關(guān)鍵詞:文本效果模型

        沈同平, 俞 磊

        (安徽中醫(yī)藥大學(xué) 醫(yī)藥信息工程學(xué)院,合肥 230012)

        實(shí)體識(shí)別是自然語(yǔ)言處理技術(shù)的一個(gè)重要研究方向,自1995年在第六屆信息抽取會(huì)議上提出實(shí)體識(shí)別評(píng)測(cè)任務(wù)后,文本命名識(shí)別研究在國(guó)內(nèi)外迅速發(fā)展,聚焦于金融、新聞媒體、醫(yī)學(xué)文本處理等方面,并取得了豐碩的成果。命名實(shí)體的研究方法主要有基于規(guī)則和詞典的方法[1-2]、傳統(tǒng)的機(jī)器學(xué)習(xí)方法[3-4]、深度學(xué)習(xí)方法[5]、注意力機(jī)制模型和遷移學(xué)習(xí)方法[6-7]等。隨著國(guó)家醫(yī)療信息化進(jìn)程地加快,電子病歷數(shù)據(jù)量迅速增加,電子病歷中包含了大量的隱性醫(yī)學(xué)知識(shí)。相關(guān)研究表明,電子病歷是知識(shí)密集型文本,醫(yī)學(xué)實(shí)體分布的密集程度高于通用領(lǐng)域文本,具有非常重要的研究?jī)r(jià)值。和通用領(lǐng)域文本相比,電子病歷中的文本的實(shí)體類(lèi)型主要有癥狀、疾病名稱(chēng)、檢查手段和方式等。這些實(shí)體數(shù)量眾多、類(lèi)型豐富,且實(shí)體長(zhǎng)度變化多樣,實(shí)體結(jié)構(gòu)存在別名、縮寫(xiě)詞等問(wèn)題,造成電子病歷文本中實(shí)體識(shí)別效果不佳。

        針對(duì)這些問(wèn)題,有些學(xué)者采用構(gòu)建詞典的方式來(lái)提升模型的效果。吳金星等[8]提出CRF和詞典相結(jié)合的方式,對(duì)蒙古文地名進(jìn)行識(shí)別研究,準(zhǔn)確率達(dá)到94.68%。龔樂(lè)君等[9]通過(guò)對(duì)外部資源的統(tǒng)計(jì)分析構(gòu)建醫(yī)療領(lǐng)域詞典,再結(jié)合條件隨機(jī)場(chǎng),進(jìn)行了兩次不同粒度的標(biāo)注,將領(lǐng)域詞典識(shí)別的準(zhǔn)確性和機(jī)器學(xué)習(xí)的自動(dòng)性融為一體,從中文電子病歷文本中識(shí)別出疾病、癥狀、藥品、操作四類(lèi)醫(yī)療實(shí)體,取得良好的效果。任雪菁等[10]采取了詞典和 CRF 算法相結(jié)合的方法,來(lái)提升模型整體的識(shí)別精度,并采用Python等工具構(gòu)建中文生物醫(yī)學(xué)實(shí)體自動(dòng)標(biāo)注平臺(tái)。珠杰等[11]利用條件隨機(jī)場(chǎng)的方法,研究觸發(fā)詞、虛詞、人名詞典和指人名詞后綴為特征的不同特征組合與優(yōu)化,取得一定的模型效果。晏雷等[12]根據(jù)老撾語(yǔ)機(jī)構(gòu)名構(gòu)詞特點(diǎn),將前綴詞提取構(gòu)造成一個(gè)機(jī)構(gòu)名稱(chēng)特征詞典, 基于詞典與SVM模型確定老撾機(jī)構(gòu)名稱(chēng)前界,再使用融合多特征的CRF模型識(shí)別機(jī)構(gòu)名稱(chēng),取得了較好的識(shí)別效果。

        相對(duì)于通用領(lǐng)域文本,對(duì)特殊領(lǐng)域文本如醫(yī)學(xué)文本、少數(shù)民族語(yǔ)言以及小語(yǔ)種來(lái)說(shuō),單獨(dú)的CRF模型效果一般不盡人意,可以通過(guò)構(gòu)建相應(yīng)的領(lǐng)域詞典來(lái)提高CRF模型的識(shí)別效果。采用兩種不同類(lèi)型數(shù)據(jù)集,通用領(lǐng)域文本(簡(jiǎn)歷數(shù)據(jù)集)和特殊領(lǐng)域文本(CCKS2017電子病歷)進(jìn)行對(duì)比分析和驗(yàn)證,從而提升CRF模型在中文文本中實(shí)體識(shí)別效果。

        1 相關(guān)方法

        1.1 條件隨機(jī)場(chǎng)(CRF)模型

        條件隨機(jī)場(chǎng)(CRF)是典型的無(wú)向概率圖模型,2001年由Lafferty等專(zhuān)家提出,結(jié)合了大熵模型(MEMM)和隱馬爾可夫模型(HMM)的優(yōu)點(diǎn),利用豐富的內(nèi)部及上下文特征信息,充分考慮了輸出序列的聯(lián)合概率分布,在詞性標(biāo)注、實(shí)體識(shí)別等自然語(yǔ)言處理任務(wù)中取得了不錯(cuò)的成績(jī)。CRF模型屬于判別式模型,使用最多的是線性鏈條件隨機(jī)場(chǎng),x=(x1,…,xn)表示觀察數(shù)據(jù)序列,y=(y1,…,yn)表示狀態(tài)序列,需要計(jì)算的條件概率如下式所示:

        P(y1,…,yn|x1,…,xn)=P(y1,…,yn|x),x=(x1,…,xn),

        (1)

        CRF模型與HMM等模型相比,可以定義數(shù)量更多、種類(lèi)更豐富的特征函數(shù),同時(shí),特征函數(shù)的權(quán)重沒(méi)有任何限制。我們可以為每個(gè)特征函數(shù)賦予一個(gè)權(quán)值,用以表達(dá)我們對(duì)這個(gè)特征函數(shù)的信任度。假設(shè)tk的權(quán)重系數(shù)是λk,sl的權(quán)重系數(shù)是μl,則CRF由我們所有的tk,λk,sl,μl共同決定。

        (2)

        其中,Z(x)為規(guī)范化因子:

        (3)

        CRF模型的重要任務(wù)就是在訓(xùn)練數(shù)據(jù)中使用最大似然估計(jì)算法,計(jì)算不同特征權(quán)重λ。在模型訓(xùn)練時(shí),通過(guò)函數(shù)L的計(jì)算,使得P(s|o,L)對(duì)數(shù)值最大為1的估計(jì)值。

        (4)

        函數(shù)L計(jì)算出來(lái)后,采用動(dòng)態(tài)規(guī)劃的最短路徑求解方法維特比(Viterbi)算法,求解最可能的狀態(tài)序列并輸出。定義了兩個(gè)局部狀態(tài)進(jìn)行遞推。首先,計(jì)算在時(shí)刻t隱藏狀態(tài)為i的所有可能的狀態(tài)轉(zhuǎn)移路徑i1,i2,...it中的概率最大值,記為δt(i):

        (5)

        由δt(i)的定義可以得到δ的一般遞推公式:

        (6)

        在前一個(gè)局部狀態(tài)的基礎(chǔ)上進(jìn)行第二個(gè)局部狀態(tài)計(jì)算,求得在時(shí)刻t隱藏狀態(tài)為i的所有單個(gè)狀態(tài)轉(zhuǎn)移路徑(i1,i2,...,it-1,i)中概率最大的轉(zhuǎn)移路徑中第t-1個(gè)節(jié)點(diǎn)的隱藏狀態(tài)為Ψt(i),計(jì)算公式為

        (7)

        1.2 專(zhuān)業(yè)醫(yī)學(xué)詞典構(gòu)建

        通用文本和醫(yī)學(xué)文本的特征和用詞方式都存在很大差異,為了提升CRF模型在醫(yī)學(xué)文本中的實(shí)體識(shí)別效果,需要構(gòu)建專(zhuān)業(yè)的醫(yī)學(xué)詞典。構(gòu)建的步驟:利用爬蟲(chóng)從丁香醫(yī)生、百度百科等網(wǎng)站上爬取相關(guān)醫(yī)學(xué)知識(shí)。對(duì)爬取的醫(yī)學(xué)文本進(jìn)行中文分詞、去除噪音以及人工標(biāo)注等操作,形成專(zhuān)業(yè)醫(yī)學(xué)詞典。實(shí)驗(yàn)數(shù)據(jù)集采用CCKS2017電子病歷文件,因此醫(yī)學(xué)詞典的標(biāo)注按照身體部位(Body)、檢查手段(CHeck)、疾病名稱(chēng)(Disease)、癥狀(Signs)和治療手段(Treatment)五種實(shí)體類(lèi)型進(jìn)行標(biāo)注,規(guī)范如下:

        (1)身體部位:患者全身的各個(gè)部位,比如“咽部”、“雙肺”、“四肢”和“頭顱”等,描述患者各種不適的身體部位。

        (2)疾病名稱(chēng):醫(yī)生根據(jù)檢查手段以及臨床經(jīng)驗(yàn),診斷出患者所患疾病,一般以“病”或“癥”“炎”作為實(shí)體的最后一個(gè)詞。比如“支氣管肺炎”和“糖尿病”等。

        (3)癥狀:患者因疾病導(dǎo)致的各種不適或異常表現(xiàn)或者患者在描述自身情況的介紹,比如“頭痛頭暈”“麻木無(wú)力”和“嘔吐”等。

        (4)檢查手段:根據(jù)患者的癥狀描述以及身體部位情況,采用一定的檢查項(xiàng)目進(jìn)行疾病判斷。比如“跟膝腱反射”“雙側(cè)巴氏征”和“腸鳴音”等。

        (5)治療手段:結(jié)合檢查手段,針對(duì)具體疾病給予具體的治療方式和手段,比如“胰島素”、“降壓藥物”和“阿托伐他汀”等。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)集

        采用兩個(gè)公開(kāi)的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)測(cè),分別是CCKS2017電子病歷數(shù)據(jù)集和簡(jiǎn)歷(Resume)數(shù)據(jù)集,CCKS2017電子病歷數(shù)據(jù)集主要是從電子病歷的角度進(jìn)行專(zhuān)業(yè)醫(yī)學(xué)實(shí)體識(shí)別。因此采用模型驗(yàn)證的數(shù)據(jù)集具有一定的擴(kuò)展性,既有常規(guī)的文本,又有專(zhuān)業(yè)的醫(yī)學(xué)文本。

        CCKS2017電子病歷數(shù)據(jù)集包括7種實(shí)體名稱(chēng),分別是身體部位(Body)、檢查手段(Check)、疾病名稱(chēng)(Disease)、癥狀(Signs)和治療手段(Treatment)。訓(xùn)練集中各實(shí)體的數(shù)量如表1所示。

        表1 CCKS2017數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

        簡(jiǎn)歷數(shù)據(jù)集(Resume)包含7種實(shí)體名稱(chēng),分別是國(guó)籍(CONT)、姓名(NAME)、學(xué)歷(EDU)、職稱(chēng)(TITLE)、公司(ORG)、民族(RACE)、專(zhuān)業(yè)(PRO)和籍貫(LOC)。訓(xùn)練集中各實(shí)體的數(shù)量如表2所示。

        表2 Resume數(shù)據(jù)集訓(xùn)練集各實(shí)體數(shù)量

        2.2 數(shù)據(jù)集標(biāo)注與評(píng)價(jià)指標(biāo)

        文本中的實(shí)體識(shí)別,通常需要對(duì)數(shù)據(jù)集進(jìn)行序列標(biāo)注,進(jìn)而實(shí)現(xiàn)不同的實(shí)體識(shí)別。數(shù)據(jù)集主要采用BMES標(biāo)注體系。在CCKS2017數(shù)據(jù)集中,以實(shí)體Treatment為例,“B- Treatment”表示治療手段實(shí)體的首字符,“M- Treatment”表示治療手段的中間字符,“E- Treatment”表示治療手段實(shí)體的最后一個(gè)字符,“S- Treatment”表示單獨(dú)的治療手段實(shí)體,“O”表示5個(gè)實(shí)體外的其他字符。在簡(jiǎn)歷數(shù)據(jù)集(Resume)中,以實(shí)體LOC為例,“B- LOC”表示籍貫實(shí)體的首字符,“M- LOC”表示籍貫實(shí)體的中間字符,“E- LOC”表示籍貫實(shí)體的最后一個(gè)字符,“S- LOC”表示單獨(dú)的籍貫實(shí)體,“O”表示8個(gè)實(shí)體外的其他字符。

        采用通過(guò)精確率(Precision)、召回率(Recall)、F1值和精確率(Accuracy)對(duì)模型評(píng)價(jià),驗(yàn)證本文模型的有效性。

        (11)

        (12)

        (13)

        Acc=(Tp+Tn)/(Tp+Fn+Tn+Fp),

        (14)

        其中,Tp表示真正例,F(xiàn)p表示假正例,Tn表示正負(fù)例,F(xiàn)n表示假負(fù)例。

        采用Pytorch平臺(tái)搭建實(shí)驗(yàn)環(huán)境,具體配置如表3所示。

        表3 模型實(shí)驗(yàn)配置環(huán)境

        續(xù)表3

        2.3 實(shí)驗(yàn)結(jié)果

        為了對(duì)提出的模型進(jìn)行評(píng)價(jià),分別對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)和CCKS2017電子病歷數(shù)據(jù)集進(jìn)行評(píng)測(cè),其中針對(duì)Resume數(shù)據(jù)集,采用CRF模型進(jìn)行評(píng)測(cè),CCKS2017電子病歷數(shù)據(jù)集分別采用CRF模型和CRF模型+詞典進(jìn)行評(píng)測(cè),結(jié)果如表4和表5所示。

        表4 簡(jiǎn)歷數(shù)據(jù)集(Resume)測(cè)評(píng)結(jié)果

        表5 CCKS2017電子病歷數(shù)據(jù)集測(cè)評(píng)結(jié)果

        從表4可以看出,CRF模型對(duì)簡(jiǎn)歷數(shù)據(jù)集(Resume)取得了不錯(cuò)的效果,準(zhǔn)確率為93.71%,召回值93.01,F(xiàn)值達(dá)到93.38。簡(jiǎn)歷數(shù)據(jù)集中的文本類(lèi)型是普通文本,CRF模型能取得較不錯(cuò)的評(píng)測(cè)效果。國(guó)籍(CONT)和民族(RACE)兩個(gè)實(shí)體,F(xiàn)值達(dá)到100,因?yàn)檫@兩個(gè)實(shí)體字段比較固定,不容易產(chǎn)生歧義,模型能夠高效的進(jìn)行區(qū)分和識(shí)別。但對(duì)公司(ORG)和專(zhuān)業(yè)(PRO)這兩個(gè)實(shí)體識(shí)別效果相對(duì)較差,因?yàn)閷?zhuān)業(yè)和公司名稱(chēng)眾多,同時(shí)容易產(chǎn)生混淆,比如專(zhuān)業(yè)名稱(chēng)“臨床醫(yī)學(xué)專(zhuān)業(yè)”、“中醫(yī)臨床醫(yī)學(xué)專(zhuān)業(yè)”和“中西醫(yī)臨床醫(yī)學(xué)專(zhuān)業(yè)”等。

        從表5可以看出,在CCKS2017電子病歷數(shù)據(jù)集中,實(shí)體Disease和Treatment在訓(xùn)練集中的數(shù)量分別是515個(gè)和813個(gè),而Signs、Body和Check的數(shù)量分別為6 486個(gè)、8 942個(gè)和7 987個(gè)。實(shí)體Disease和Treatment的評(píng)測(cè)效果相對(duì)降低,召回值只有70.06和72.26,表明訓(xùn)練集中實(shí)體數(shù)量多少直接影響模型的測(cè)評(píng)性能。

        相對(duì)于簡(jiǎn)歷數(shù)據(jù)集(Resume),CCKS2017電子病歷數(shù)據(jù)集模型評(píng)測(cè)效果相對(duì)較差,準(zhǔn)確率、召回值和F值分別為89.32、88.00和88.54。這是因?yàn)獒t(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專(zhuān)業(yè)術(shù)語(yǔ)較多等原因?qū)е翪RF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提高CRF在醫(yī)學(xué)文本中的識(shí)別效果,文章提出將醫(yī)學(xué)詞典結(jié)合CRF模型進(jìn)行評(píng)測(cè),評(píng)測(cè)效果取得了一定程度地提升,CCKS2017電子病歷數(shù)據(jù)集模型的準(zhǔn)確率、召回值和F值分別為94.04、94.18和94.06,表明本文提出的模型結(jié)構(gòu)的有效性。

        3 結(jié)語(yǔ)

        在對(duì)中文實(shí)體識(shí)別分析的基礎(chǔ)上,對(duì)比分析CRF模型在通用文本和醫(yī)學(xué)文本中實(shí)體識(shí)別的效果。實(shí)證結(jié)果表明,CRF模型在通用文本中取得了較為理想的測(cè)評(píng)效果,但由于醫(yī)學(xué)文本中的醫(yī)學(xué)實(shí)體長(zhǎng)度不定、結(jié)構(gòu)復(fù)雜和專(zhuān)業(yè)術(shù)語(yǔ)較多, CRF模型在醫(yī)學(xué)文本上識(shí)別效果較低。為了提升在醫(yī)學(xué)文本上的識(shí)別效果,構(gòu)建了專(zhuān)業(yè)的醫(yī)學(xué)詞典,實(shí)驗(yàn)結(jié)果表明,CRF+詞典的模型能夠有效提升在醫(yī)學(xué)文本中各類(lèi)醫(yī)學(xué)實(shí)體的識(shí)別效果。本次實(shí)驗(yàn)的數(shù)據(jù)集采用的是BMES標(biāo)注體系,后續(xù)還需要對(duì)BIO標(biāo)注體系和BIEOS等標(biāo)注體系進(jìn)行對(duì)比研究。

        猜你喜歡
        文本效果模型
        一半模型
        按摩效果確有理論依據(jù)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        迅速制造慢門(mén)虛化效果
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住“瞬間性”效果
        3D打印中的模型分割與打包
        模擬百種唇妝效果
        Coco薇(2016年8期)2016-10-09 02:11:50
        日韩精品成人一区二区三区久久久| 初女破初的视频| 亚洲av无码精品色午夜果冻不卡| 亚洲VA中文字幕欧美VA丝袜| 中文字幕一区二区三区四区久久| 痴汉电车中文字幕在线| 女人被狂躁高潮啊的视频在线看| 91av国产视频| 国产精品专区一区二区av免费看| 久草福利国产精品资源| 青春草在线视频免费观看| 亚洲国产毛片| 亚洲av五月天天堂网| 日本一区二区三区亚洲| 粗大的内捧猛烈进出视频| 国产午夜精品电影久久| av免费在线手机观看| 国产亚洲成人av一区| 亚洲av永久无码天堂网毛片| 国产精品午夜波多野结衣性色| 中国黄色偷拍视频二区| 国产老熟妇精品观看| 999久久久免费精品国产| 亚洲第一免费播放区| 一级老熟女免费黄色片| 国产精品无码aⅴ嫩草| 78成人精品电影在线播放| 亚洲国产免费一区二区| 丰满少妇被猛烈进入高清播放| 日本护士吞精囗交gif| 波多野结衣一区二区三区免费视频| 干出白浆视频在线观看| 亚洲精品v欧洲精品v日韩精品| 成人免费xxxxx在线视频| 最近中文字幕一区二区三区| 亚洲av综合av一区二区三区| 人妻妺妺窝人体色www聚色窝| 淫妇日韩中文字幕在线| 2020国产在视频线自在拍| 亚洲精品无码久久久久久| 日韩中文字幕精品免费一区|