亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險(xiǎn)事件抽取研究

        2018-01-03 01:59:06邱武松
        關(guān)鍵詞:馬爾可夫醫(yī)學(xué)文獻(xiàn)

        喻 鑫 張 矩 邱武松 王 飛

        1(中國科學(xué)院大學(xué) 北京 100000) 2(中國科學(xué)院重慶綠色智能技術(shù)研究院 重慶 400714) 3(第三軍醫(yī)大學(xué)西南醫(yī)院 重慶 400038)

        基于序列標(biāo)注算法比較的醫(yī)學(xué)文獻(xiàn)風(fēng)險(xiǎn)事件抽取研究

        喻 鑫1,2張 矩1,2邱武松2王 飛3

        1(中國科學(xué)院大學(xué) 北京 100000)2(中國科學(xué)院重慶綠色智能技術(shù)研究院 重慶 400714)3(第三軍醫(yī)大學(xué)西南醫(yī)院 重慶 400038)

        醫(yī)學(xué)文獻(xiàn)快速增長,如何從醫(yī)學(xué)文獻(xiàn)文本大數(shù)據(jù)中挖掘出有價(jià)值的知識(shí)是一種巨大挑戰(zhàn)。聚焦醫(yī)學(xué)文獻(xiàn)中定量風(fēng)險(xiǎn)語句的風(fēng)險(xiǎn)事件抽取,構(gòu)建智能臨床決策支持系統(tǒng)醫(yī)學(xué)風(fēng)險(xiǎn)知識(shí)庫。運(yùn)用序列標(biāo)注算法中重要的隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場三種模型分別對(duì)醫(yī)學(xué)文獻(xiàn)非結(jié)構(gòu)化全文文本中風(fēng)險(xiǎn)事件信息進(jìn)行抽取,并對(duì)算法進(jìn)行比較。從三個(gè)模型平均F1測度值來看,條件隨機(jī)場效果最好,其次為最大熵馬爾可夫模型,然后是隱馬爾可夫模型,但是每個(gè)模型都有自己對(duì)某些風(fēng)險(xiǎn)事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢。

        醫(yī)學(xué)文獻(xiàn) 風(fēng)險(xiǎn)事件 隱馬爾可夫模型 最大熵馬爾可夫模型 條件隨機(jī)場

        0 引 言

        隨著生物技術(shù)的發(fā)展,生物醫(yī)學(xué)文獻(xiàn)呈現(xiàn)出爆炸式增長的趨勢,美國國家醫(yī)學(xué)圖書館的PubMed醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)中收錄的文章每年都有較大幅度增長,本文實(shí)驗(yàn)中所使用的醫(yī)學(xué)文獻(xiàn)就來自于PubMed檢索系統(tǒng)。

        在醫(yī)療領(lǐng)域,運(yùn)用信息抽取的算法對(duì)醫(yī)學(xué)文本進(jìn)行處理是目前重要而且熱門的研究方向,它是構(gòu)建臨床決策支持系統(tǒng)[1]的基礎(chǔ)。信息抽取可以自動(dòng)幫助人們從日益增長的海量信息中快速找到自己真正需要的信息,并用結(jié)構(gòu)化的格式進(jìn)行表示[2-4]。其中,文本信息抽取是從自然語言文本中自動(dòng)抽取信息的技術(shù)。美國高級(jí)研究計(jì)劃署(DARPA)所資助的信息理解會(huì)議MUC(Message Understanding Conference)促進(jìn)了文本信息抽取的發(fā)展。

        本文對(duì)醫(yī)學(xué)風(fēng)險(xiǎn)信息的抽取對(duì)臨床醫(yī)學(xué)操作評(píng)判有著重要的預(yù)警和決策分析作用,對(duì)已發(fā)生的醫(yī)學(xué)事故有著重要的評(píng)估作用。醫(yī)學(xué)中風(fēng)險(xiǎn)分析研究一直都受到大家的關(guān)注。風(fēng)險(xiǎn)是引起不幸和損失的可能性,在流行病學(xué)、臨床醫(yī)學(xué)和日常生活具有重要地位,醫(yī)學(xué)風(fēng)險(xiǎn)信息有助于疾病的認(rèn)識(shí)、預(yù)防和治療[5]。一個(gè)重要的應(yīng)用就是在醫(yī)學(xué)領(lǐng)域決策支持中引入風(fēng)險(xiǎn)分析[6]。

        目前對(duì)醫(yī)學(xué)文本風(fēng)險(xiǎn)信息的抽取集中在對(duì)病歷文本知識(shí)的抽取[7]中,通過對(duì)病歷中治療指標(biāo)的抽取和分析,獲取其中的風(fēng)險(xiǎn)信息。然而,對(duì)醫(yī)學(xué)文獻(xiàn)文本進(jìn)行風(fēng)險(xiǎn)信息抽取的研究卻較少。一方面,醫(yī)學(xué)文獻(xiàn)中風(fēng)險(xiǎn)的表現(xiàn)形式各有不同[8],另一方面,閱讀醫(yī)學(xué)文獻(xiàn)需要花費(fèi)較長時(shí)間。但是,如果醫(yī)生遇到已有知識(shí)和已有病例無法解決的問題,這時(shí)候從醫(yī)學(xué)文獻(xiàn)中獲取知識(shí)極其關(guān)鍵,本文就是解決從醫(yī)學(xué)文獻(xiàn)中快速獲取風(fēng)險(xiǎn)知識(shí)的問題。由于醫(yī)學(xué)文獻(xiàn)文本屬于非結(jié)構(gòu)化文本,信息噪聲太大,對(duì)它的處理難度較大,所以對(duì)醫(yī)學(xué)文獻(xiàn)處理大部分都集中在對(duì)醫(yī)學(xué)文獻(xiàn)中摘要的處理,摘要是全文的濃縮,文本量小,處理起來要簡單一點(diǎn)。Deleris等從醫(yī)學(xué)文獻(xiàn)的摘要中對(duì)風(fēng)險(xiǎn)信息進(jìn)行抽取[9]。Jochim等所使用的風(fēng)險(xiǎn)信息語料庫就是從PubMed中200篇乳腺癌文獻(xiàn)摘要中得到的[10]。但文獻(xiàn)摘要會(huì)大面積舍掉正文信息,產(chǎn)生信息損失,存在著缺陷,所以本文嘗試對(duì)文獻(xiàn)全文進(jìn)行處理。Jochim等對(duì)條件事件和結(jié)果事件進(jìn)行了定義,并運(yùn)用條件隨機(jī)場的方法識(shí)別風(fēng)險(xiǎn)條件事件和風(fēng)險(xiǎn)結(jié)果事件[10]。

        本文從醫(yī)學(xué)文獻(xiàn)中提取風(fēng)險(xiǎn)信息知識(shí)不同于目前研究較多的醫(yī)學(xué)命名實(shí)體以及實(shí)體之間關(guān)系的提取。醫(yī)學(xué)實(shí)體之間關(guān)系的抽取是一個(gè)文本中兩個(gè)或者更多特定醫(yī)學(xué)實(shí)體之間關(guān)系的識(shí)別[11-12],是醫(yī)學(xué)本體研究的重要基礎(chǔ),其中比較重要的是確定醫(yī)學(xué)命名實(shí)體類別(如診斷、癥狀和治療等)和實(shí)體之間關(guān)系類別(如上下位、同義詞等關(guān)系,當(dāng)然也包括治療、預(yù)防等關(guān)系)。

        1 風(fēng)險(xiǎn)事件抽取

        1.1 醫(yī)學(xué)風(fēng)險(xiǎn)事件語料庫

        醫(yī)學(xué)文獻(xiàn)中的風(fēng)險(xiǎn)語句一般指的是已發(fā)表出來的醫(yī)學(xué)文獻(xiàn)文本中包含有對(duì)疾病的產(chǎn)生、發(fā)展、癥狀呈現(xiàn)、診斷治療、監(jiān)測隨訪等有影響因素的語句,因素可能是單一的,也可能是混合的,當(dāng)然因素也可以包括其他疾病。風(fēng)險(xiǎn)語句分為定性風(fēng)險(xiǎn)語句和定量風(fēng)險(xiǎn)語句,定性風(fēng)險(xiǎn)語句是用敘述的形式來進(jìn)行說明,例如,“The highest risk is seen in women with lobular carcinoma in situ (LCIS), but this is very rare.”。而定量風(fēng)險(xiǎn)語句是指帶有數(shù)值說明的風(fēng)險(xiǎn)語句,其中分為普通數(shù)字(不算百分?jǐn)?shù))和百分?jǐn)?shù)兩種,舉個(gè)帶有普通數(shù)字(不算百分?jǐn)?shù))的風(fēng)險(xiǎn)語句的例子,“More common is atypical hyperplasia (AH), which carries a 4-5-fold risk of breast cancer as compared to general population.”,再舉個(gè)帶有百分?jǐn)?shù)的風(fēng)險(xiǎn)語句的例子,“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”。本文中所說到的風(fēng)險(xiǎn)語句指的是帶有百分?jǐn)?shù)的強(qiáng)風(fēng)險(xiǎn)定量信息語句。

        風(fēng)險(xiǎn)語句中的風(fēng)險(xiǎn)事件指的是風(fēng)險(xiǎn)語句中關(guān)于其百分?jǐn)?shù)描述的相關(guān)事件,本文重點(diǎn)關(guān)注針對(duì)百分?jǐn)?shù)的影響說明元素、被影響說明元素、提示說明元素、來源說明元素、風(fēng)險(xiǎn)程度說明元素,如表1所示。影響說明元素,是指風(fēng)險(xiǎn)語句中產(chǎn)生影響的元素;被影響說明元素,是指風(fēng)險(xiǎn)語句中受到影響的元素;提示說明元素最能表明這是風(fēng)險(xiǎn)語句的標(biāo)志,如存活率、復(fù)發(fā)率、死亡率等;來源說明元素指的是風(fēng)險(xiǎn)語句信息數(shù)據(jù)來自哪里,大多數(shù)情況下,數(shù)據(jù)來自作者的實(shí)驗(yàn)結(jié)果,但是也有可能來自臨床指南,或綜述報(bào)告等;風(fēng)險(xiǎn)程度說明元素指的是風(fēng)險(xiǎn)數(shù)據(jù)的修飾術(shù)語,如大約、精確、可能等。舉個(gè)例子,“Tamoxifen has been shown to be particularly effective in preventing subsequent breast cancer in women with AH, with a more than 70% reduction in the P1 trial and a 60% reduction in IBIS-I.”,對(duì)于百分?jǐn)?shù)70%,影響說明元素為T(t)amoxifen,被影響說明元素為breast cancer in women with AH (atypical hyperplasia),提示說明元素為reduction,來源說明元素是P1 trial,風(fēng)險(xiǎn)程度說明元素為more than;對(duì)于百分?jǐn)?shù)60%,影響說明元素為T(t)amoxifen,被影響說明元素為breast cancer in women with AH (atypical hyperplasia),提示說明元素為reduction,來源說明元素是IBIS-I,無風(fēng)險(xiǎn)程度說明元素。

        表1 風(fēng)險(xiǎn)事件類別

        1.2 隱馬爾可夫模型

        隱馬爾可夫模型HMM(Hidden Markov Model)[13]與馬爾可夫模型不同,隱馬爾可夫模型中包含一個(gè)隱藏狀態(tài)序列和一個(gè)觀察狀態(tài)序列。對(duì)隱馬爾可夫模型而言,模型中狀態(tài)之間的轉(zhuǎn)換是隱藏的,觀察狀態(tài)的隨機(jī)過程是狀態(tài)之間轉(zhuǎn)換的隨機(jī)函數(shù)[14]。

        其中對(duì)隱馬爾可夫模型作如下假設(shè):下一個(gè)隱藏狀態(tài)只與前一個(gè)隱藏狀態(tài)有關(guān),觀察狀態(tài)的概率只與當(dāng)前隱藏狀態(tài)有關(guān)。符合這種假設(shè)的隱馬爾可夫模型也就是我們常說的一階隱馬爾可夫模型。

        從隱馬爾可夫模型的介紹中就可以看出來,一個(gè)HMM=(N,M,A,B,π) 過程由五部分組成:

        (1) 隱藏狀態(tài)的數(shù)目N;

        (2) 觀察狀態(tài)的數(shù)目M;

        (3) 隱藏狀態(tài)之間轉(zhuǎn)換的概率矩陣A={aij};

        (4) 從隱藏狀態(tài)到觀察狀態(tài)的概率矩陣B={bj(k)};

        (5) 初始狀態(tài)概率矩陣π={πi}。

        給定一個(gè)觀察狀態(tài)序列O={o1,o2,…,oT}和模型M=(A,B,π)找出最優(yōu)的隱藏狀態(tài)序列S={s1,s2,…,sT},任務(wù)是要求解:

        (1)

        對(duì)于解碼問題,常用解法是采用維特比(Viterbi)算法,維特比算法是運(yùn)用動(dòng)態(tài)規(guī)劃的方法求解最優(yōu)隱藏狀態(tài)序列[14]。

        (1) 初始化計(jì)算:

        β1(i)=πibi(o1)

        (2)

        φ1(i)=0

        (3)

        (2) 中間動(dòng)態(tài)規(guī)劃計(jì)算:

        (4)

        (5)

        (3) 結(jié)束計(jì)算:

        (6)

        (7)

        (4) 路徑回溯:

        (8)

        對(duì)于隱馬爾可夫模型中參數(shù)學(xué)習(xí)問題,本文中由于語料庫有限,先通過似然估計(jì)的方法確定參數(shù),再通過Baum-Welch算法實(shí)現(xiàn)參數(shù)收斂。

        1.3 最大熵馬爾可夫模型

        最大熵馬爾可夫模型MEMM(Maximum Entropy Markov Model)[15-16]是在隱馬爾可夫模型基礎(chǔ)上增加了最大熵模型特點(diǎn)。由于隱馬可夫模型采用生成式聯(lián)合概率模型解決條件概率問題時(shí)不能用多特征進(jìn)行刻畫,最大熵馬爾可夫模型運(yùn)用最大熵的辦法彌補(bǔ)這個(gè)缺點(diǎn)[14]。

        隱馬爾可夫模型中當(dāng)前時(shí)刻觀察輸出取決于當(dāng)前隱藏狀態(tài),最大熵馬爾可夫模型中當(dāng)前時(shí)刻觀察輸出除了取決于當(dāng)前隱藏狀態(tài),也可能取決于前一時(shí)刻的隱藏狀態(tài)。

        假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT},隱藏狀態(tài)序列為S={s1,s2,…,sT},解碼問題需要求解:

        (9)

        (10)

        前一時(shí)刻狀態(tài)取值st-1用s′表示,當(dāng)前觀察序列值ot用o表示,運(yùn)用最大熵原理:

        P(s|s′,o)=Ps′(s|o)

        (11)

        (12)

        式中:λa是需要學(xué)習(xí)的參數(shù),Z(o,s′)是歸一化因子,使得∑sP(s|o)=1 ,而fa(o,s)是特征函數(shù)。特征函數(shù)fa(o,s)包含兩個(gè)參數(shù),一個(gè)當(dāng)前觀察值,一個(gè)可能的隱藏狀態(tài)值,特征函數(shù)通過a=定義,b是二分特征值,s是狀態(tài)值:

        fa(ot,st)=f(ot,st)

        (13)

        (14)

        MEMM中對(duì)隱藏標(biāo)注序列的求解,也是用到Viterbi算法,不過需要在隱馬爾可夫模型所使用的Viterbi算法基礎(chǔ)上進(jìn)行改進(jìn)[16],改進(jìn)后的算法如下:

        (1) 初始化計(jì)算:

        β1(i)=πipi(s|o1)

        (15)

        φ1(i)=0

        (16)

        (2) 中間動(dòng)態(tài)規(guī)劃計(jì)算:

        (17)

        (18)

        (3) 結(jié)束計(jì)算:

        (19)

        (20)

        (4) 路徑回溯:

        (21)

        最大熵隱馬爾可夫模型的參數(shù)訓(xùn)練采用的是GIS算法。

        1.4 條件隨機(jī)場

        條件隨機(jī)場CRF(Conditional Random Field)[17-18]是一種由John Lafferty等于2001年提出的概率化無向圖,對(duì)于輸出標(biāo)識(shí)序列Y和觀察序列X,條件隨機(jī)場通過定義條件概率P(Y|X),而不是聯(lián)合概率P(X,Y)描述模型。以觀察序列X為條件,每一個(gè)隨機(jī)變量滿足馬爾可夫特性[14]。

        同樣,假設(shè)觀察狀態(tài)序列為O={o1,o2,…,oT},隱藏狀態(tài)序列為S={s1,s2,…,sT},則P(S|O)正比于:

        (22)

        式中:pj(si-1,si,O,i)表示觀察序列O的隱藏序列在i-1到i之間的轉(zhuǎn)移概率函數(shù),qk(si,O,i)表示已知觀察序列o在i時(shí)的狀態(tài)標(biāo)記概率函數(shù)。

        根據(jù)最大熵模型的方法,兩個(gè)特征函數(shù)可以通過二值特征表示,特征函數(shù)統(tǒng)一表示為:

        (23)

        那么條件隨機(jī)場的條件概率分布可以表示為:

        (24)

        分母為歸一化因子,表示為:

        (25)

        條件隨機(jī)場中對(duì)于隱藏標(biāo)注序列的求解同理于MEMM中改進(jìn)的Viterbi算法,而參數(shù)估計(jì)使用的是L-BFGS算法,算法通過對(duì)訓(xùn)練集進(jìn)行迭代來求解。

        1.5 特征選擇

        把SNOMED CT(Systematized Nomenclature of Medicine Clinical Terms)中的醫(yī)學(xué)臨床術(shù)語集和風(fēng)險(xiǎn)事件語料庫中的術(shù)語集組成醫(yī)學(xué)術(shù)語詞典,通過借鑒中文分詞的最大正向匹配算法把風(fēng)險(xiǎn)語句中的有關(guān)關(guān)鍵詞抽取出來,可以極大過濾掉無用信息,接著就可以通過序列標(biāo)注算法對(duì)抽取出來的醫(yī)學(xué)術(shù)語進(jìn)行標(biāo)注。

        對(duì)于隱馬爾可夫模型,需要在已知觀察序列和訓(xùn)練語料庫下,先通過參數(shù)學(xué)習(xí),接著通過Viterbi算法求解得到最合適的隱藏狀態(tài)標(biāo)注序列。

        對(duì)于最大熵馬爾可夫模型和條件隨機(jī)場,需要解決三個(gè)基本問題:特征選取、參數(shù)訓(xùn)練以及實(shí)驗(yàn)解碼。兩種算法采用條件概率模型和改進(jìn)后的Viterbi算法來進(jìn)行求解隱藏標(biāo)注序列。對(duì)于其中的最大熵過程,需要選擇合適的特征。特征選取決定著特征函數(shù),會(huì)直接影響到序列標(biāo)注實(shí)驗(yàn)效果。如果特征集選擇過大,可能會(huì)出現(xiàn)過擬合現(xiàn)象;特征集過小,可能會(huì)降低實(shí)驗(yàn)準(zhǔn)確率。特征選擇需要考慮到上下文統(tǒng)計(jì)信息的重要性,上下文指的是當(dāng)前詞在術(shù)語抽取集中的前面若干詞和后面若干詞組成的窗口。窗口太小,就不能獲得更多有用信息,然而窗口太大,就會(huì)占用更多資源,效率反而會(huì)有所下降。詞性是信息提取中極其重要有效的特征,特征選擇中一般需要同時(shí)考慮到詞性,如風(fēng)險(xiǎn)程度事件更加集中于形容詞(組)、副詞(組)等。本文中詞性采用的是賓州樹庫詞性標(biāo)注類型,其中對(duì)詞組和單獨(dú)詞表示方式不同,通過詞性就可以看出來這個(gè)詞是一個(gè)單獨(dú)詞(一個(gè)單詞)還是一個(gè)詞組(兩個(gè)單詞及以上),如“cancer”的詞性為NN,而“breast cancer”詞性為NP。特征模板除了詞和詞性兩種以外,還對(duì)當(dāng)前詞進(jìn)行了一些其他判斷,包括當(dāng)前詞是不是本組中第一個(gè)詞,當(dāng)前詞是不是數(shù)字開頭,以及當(dāng)前詞中是否有連詞。實(shí)驗(yàn)中選擇的特征模板如表2所示。

        表2 特征模板

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)準(zhǔn)備

        從美國國家醫(yī)學(xué)圖書館PubMed檢索系統(tǒng)中獲得醫(yī)學(xué)文獻(xiàn)文本,轉(zhuǎn)換為統(tǒng)一文本格式,構(gòu)建醫(yī)學(xué)文獻(xiàn)文本語料集。從醫(yī)學(xué)文獻(xiàn)文本中得到強(qiáng)風(fēng)險(xiǎn)定量信息語句,進(jìn)而構(gòu)建風(fēng)險(xiǎn)事件語料庫。實(shí)驗(yàn)選取風(fēng)險(xiǎn)事件語料庫中的3/4(3 140)事件作為訓(xùn)練語料,剩下的1/4(1 049)事件作為測試語料,用隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場分別對(duì)訓(xùn)練語料進(jìn)行學(xué)習(xí),然后分別對(duì)測試語料進(jìn)行測試。本文選用常用的準(zhǔn)確率、召回率和F1測度值進(jìn)行結(jié)果測試,通過實(shí)驗(yàn)得到每個(gè)模型每種事件抽取的準(zhǔn)確率、召回率和F1測度值,以及每個(gè)模型所有事件抽取的F1平均測度值:

        (26)

        (27)

        (28)

        (29)

        2.2 實(shí)驗(yàn)結(jié)果

        隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場抽取風(fēng)險(xiǎn)事件的結(jié)果分別為表3、表4和表5,隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場模型事件抽取的平均F1測度值的結(jié)果為表6。

        表4 最大熵馬爾可夫模型(MEMM)風(fēng)險(xiǎn)事件提取結(jié)果

        續(xù)表4

        表5 條件隨機(jī)場(CRF)風(fēng)險(xiǎn)事件提取結(jié)果

        表6 序列標(biāo)注算法風(fēng)險(xiǎn)事件抽取平均F1測度值比較

        2.3 實(shí)驗(yàn)分析

        對(duì)比隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場提取效果,進(jìn)行分析比較。

        從三個(gè)模型平均F1測度值來看,條件隨機(jī)場效果最好,其次為最大熵馬爾可夫模型,然后是隱馬爾可夫模型,但是每個(gè)模型都有自己對(duì)某些事件抽取的準(zhǔn)確率或者召回率的優(yōu)勢。對(duì)于影響說明元素,條件隨機(jī)場的準(zhǔn)確率要高,最大熵馬爾可夫模型召回率要高;對(duì)于被影響說明元素,最大熵馬爾可夫模型的準(zhǔn)確率最高,條件隨機(jī)場的召回率最高;對(duì)于提示說明元素,條件隨機(jī)場的準(zhǔn)確率和召回率都是最高的;對(duì)于來源說明元素,最大熵馬爾可夫模型準(zhǔn)確率最高,隱馬爾可夫模型的召回率最高;對(duì)于程度說明元素,條件隨機(jī)場的準(zhǔn)確率和召回率都是最高的;對(duì)于其他我們不需要的情況,最大熵馬爾可夫模型的準(zhǔn)確率要高,隱馬爾可夫模型的召回率要高。從三個(gè)模型的各個(gè)元素F1值來看,三個(gè)模型的提示說明元素和程度說明元素效果都還可以,而來源說明元素普遍效果較差。從事件的重要程度來看,最為重要的當(dāng)然是影響事件元素和被影響事件元素,三個(gè)模型中條件隨機(jī)場對(duì)這兩種事件的抽取F1值都超過了50%,而且都高于其他兩種模型。

        從準(zhǔn)確率來看,準(zhǔn)確率高的一般變化形式較少,例如,提示說明元素一般集中在risk、rate、survival等,這些詞出現(xiàn)在句子中大部分時(shí)候就是提示說明元素,屬于其他類別事件的情況較少。程度說明元素集中在形容詞和副詞,如around、high、about等,而且這些詞出現(xiàn)大部分就是程度說明元素,屬于其他類別情況較少。最大熵馬爾可夫模型的來源說明元素準(zhǔn)確率極高,來源說明元素一般集中在帶有report、review和guideline等詞中,而且與上下文關(guān)系較為密切。從召回率來看,從三個(gè)模型所有事件召回率來看,未有高于85%的,召回率不是太高,說明三個(gè)模型在大部分事件提取中,還有很多相應(yīng)事件沒有找出來,查全不夠,測試語料中的相應(yīng)事件的未登錄詞的識(shí)別差、召回率低。隱馬爾可夫模型是基于獨(dú)立假設(shè)的,如果以隱馬爾可夫模型為基準(zhǔn),可以看出,允許用特征來刻畫觀察序列有助于信息的抽取。

        從醫(yī)學(xué)文獻(xiàn)文本中抽取風(fēng)險(xiǎn)事件,面臨的最大問題可能就是實(shí)驗(yàn)文本為非結(jié)構(gòu)化醫(yī)學(xué)文獻(xiàn)全文文本,自然語言處理起來噪聲太大,無關(guān)信息太多,作者句子中用詞風(fēng)格各有不同,與臨床標(biāo)準(zhǔn)術(shù)語集之間也有著很大的鴻溝,為醫(yī)學(xué)文獻(xiàn)文本信息抽取增加了很大難度。當(dāng)然本實(shí)驗(yàn)中抽取的事件類別較多,也無形中增添了更多難度。另一個(gè)比較大的問題是語料庫太小,未登錄詞處理量大,嚴(yán)重影響實(shí)驗(yàn)結(jié)果。

        從結(jié)果來看,有些難點(diǎn)問題需要特別說明一下:

        1) 并列式,以and或者or聯(lián)合起來的事件。

        2) 指代式,如果句子中表示事件的詞是指代詞(如it等)的話,這可能就需要通過前面句子才能理解指代詞到底指代的是什么。

        3) 拼接式,如果句子中表示事件的詞表示不夠完整,需要當(dāng)前句子中的其他詞,或者前面句子中的詞拼接到一起才是完整的事件表示詞。

        后面要繼續(xù)努力的方向還很多,如風(fēng)險(xiǎn)語句邊界確定問題、風(fēng)險(xiǎn)事件邊界確定問題、無關(guān)信息詞的去除問題和醫(yī)學(xué)領(lǐng)域本體構(gòu)建問題等。

        3 結(jié) 語

        本文運(yùn)用序列標(biāo)注算法對(duì)醫(yī)學(xué)文獻(xiàn)文本中風(fēng)險(xiǎn)信息進(jìn)行了提取,構(gòu)建了風(fēng)險(xiǎn)事件語料庫,比較了序列標(biāo)注算法中隱馬爾可夫模型、最大熵馬爾可夫模型和條件隨機(jī)場三種模型的抽取效果,從每個(gè)模型的平均F1測度值來看,條件隨機(jī)場效果最好,其次是最大熵馬爾可夫模型,然后是隱馬爾可夫模型。當(dāng)然本研究還有很大的完善空間,如語料庫還是太??;對(duì)非結(jié)構(gòu)化文獻(xiàn)全文而言,信息抽取處理起來難度還是很大;還未結(jié)合規(guī)則化處理事件類別等。

        [1] 陳黎明,卞麗芳,馮志仙.基于護(hù)理電子病歷的臨床決策支持系統(tǒng)的設(shè)計(jì)與應(yīng)用[J].中華護(hù)理雜志,2014,49(9):1075-1079.

        [2] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(10):1-5.

        [3] 孫師堯,妙全興.基于改進(jìn)SVM和HMM的文本信息抽取算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(11):281-284.

        [4] 張國慶.基于生物醫(yī)學(xué)文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法研究[D].華中科技大學(xué),2006.

        [5] Edwards A,Prior L,Butler C,et al.Communication about risk-Dilemmas for general practitioners[J].British Journal of General Practice,1997,47(424 ):739-742.

        [6] Deleris L A,Deparis S,Sacaleanu B,et al.Risk Information Extraction and Aggregation[M]//Algorithmic Decision Theory.Springer Berlin Heidelberg,2013:154-166.

        [7] 李瑩.文本病歷信息抽取方法研究[D].浙江大學(xué),2009.

        [8] Crowson C S,Therneau T M,Matteson E L,et al.Primer:demystifying risk-understanding and communicating medical risks[J].Nature Clinical Practice Rheumatology,2007,3(3):181-187.

        [9] Deleris L A,Sacaleanu B,Tounsi L.Extracting risk modeling information from medical articles[J].Studies in Health Technology & Informatics,2013,192(192):1158.

        [10] Jochim C,Sacaleanu B,Deleris L A.Risk event and probability extraction for modeling medical risks[C].2014 AAAI Fall Symposium Series on Natural Language Access to Big Data.2014:26-33.

        [11] 夏涵.基于本體的醫(yī)學(xué)命名實(shí)體識(shí)別技術(shù)研究[D].上海交通大學(xué),2012.

        [12] Ben A A,Zweigenbaum P.Automatic extraction of semantic relations between medical entities:a rule based approach[J].Journal of Biomedical Semantics,2011,2(S5):S4.

        [13] 于江德,肖新峰,樊孝忠.基于隱馬爾可夫模型的中文文本事件信息抽取[J].微電子學(xué)與計(jì)算機(jī),2007,24(10):92-94.

        [14] 宗成慶.統(tǒng)計(jì)自然語言處理[M].清華大學(xué)出版社,2008.

        [15] Rabiner L R,Juang B H.An introduction to hidden Markov models[J].IEEE ASSP Magazine,1986,3(1):4-16.

        [16] 林亞平,劉云中,周順先,等.基于最大熵的隱馬爾可夫模型文本信息抽取[J].電子學(xué)報(bào),2005,33(2):236-240.

        [17] 王勝,朱明.基于最大熵馬爾可夫模型的地址信息抽取[J].計(jì)算機(jī)工程與應(yīng)用,2005,41(21):192-194.

        [18] 張金龍,王石,錢存發(fā).基于CRF和規(guī)則的中文醫(yī)療機(jī)構(gòu)名稱識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(3):159-162,198.

        [19] 范巖.基于條件隨機(jī)場模型的中醫(yī)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法研究[D].北京交通大學(xué),2009.

        RESEARCHONMEDICALDOCUMENTRISKEVENTEXTRACTIONBASEDONCOMPARISONOFSEQUENCEMARKINGALGORITHMS

        Yu Xin1,2Zhang Ju1,2Qiu Wusong2Wang Fei3

        1(UniversityofChineseAcademyofSciences,Beijing100000,China)2(ChongqingInstituteofGreenandIntelligentTechnology,ChineseAcademyofSciences,Chongqing400714,China)3(SouthwestHospital,theThirdMilitaryMedicalUniversity,Chongqing400038,China)

        With the rapid growth of medical literature, it is a huge challenge to extract valuable knowledge from big data in medical literature text. This paper focused on the event extraction of quantitative risk statements in medical literature, and constructed the knowledge base of intelligent clinical decision support system. Firstly, the risk events corresponding to the quantitative risk information were extracted from the medical literature, and then the risk events were processed. The hidden Markov model, the maximum entropy Markov model and the conditional random field model were used to extract the information of the risk events in medical literature unstructured full text, and the algorithms were compared. From the average F1 of three models, conditional random field was the best, followed by maximum entropy Markov model, and then the hidden Markov model, but each model had its own advantage of certain event extraction accuracy or recall.

        Medical literature Risk event Hidden Markov model Maximum entropy Markov model Conditional random field

        2017-02-14。重慶市社會(huì)民生科技創(chuàng)新專項(xiàng)項(xiàng)目(cstc2015shmszx120025)。喻鑫,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí),自然語言處理。張矩,研究員。邱武松,助理研究員。王飛,工程師。

        TP391

        A

        10.3969/j.issn.1000-386x.2017.12.011

        猜你喜歡
        馬爾可夫醫(yī)學(xué)文獻(xiàn)
        Hostile takeovers in China and Japan
        速讀·下旬(2021年11期)2021-10-12 01:10:43
        醫(yī)學(xué)的進(jìn)步
        預(yù)防新型冠狀病毒, 你必須知道的事
        祝您健康(2020年4期)2020-05-20 15:04:20
        Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
        大東方(2019年12期)2019-10-20 13:12:49
        The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
        The Role and Significant of Professional Ethics in Accounting and Auditing
        商情(2017年1期)2017-03-22 16:56:36
        保費(fèi)隨機(jī)且?guī)в屑t利支付的復(fù)合馬爾可夫二項(xiàng)模型
        醫(yī)學(xué)
        新校長(2016年5期)2016-02-26 09:29:01
        基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
        應(yīng)用馬爾可夫鏈對(duì)品牌手機(jī)市場占有率進(jìn)行預(yù)測
        中文字幕日韩人妻不卡一区| 能看不卡视频网站在线| 中文字幕午夜精品久久久| 国内精品久久久久影院薰衣草| 麻豆国产人妻欲求不满谁演的| 日韩精品成人无码AV片| 亚洲精品中文字幕乱码三区99| 91九色老熟女免费资源| 欧美性受xxxx白人性爽| 欧美午夜精品久久久久久浪潮| 亚洲国产欲色有一二欲色| 在线观看视频日本一区二区 | 少妇无码av无码专区| 精品五月天| 久久国产精品av在线观看| 日韩精品在线免费视频| 国产一区二区波多野结衣| 无码日韩AⅤ一区二区三区| 亚洲麻豆av一区二区| 一区二区三区美女免费视频 | 九九久久国产精品大片| 97女厕偷拍一区二区三区| 中文字幕人乱码中文字幕| 无码一区二区三区老色鬼| 亚洲AV成人综合五月天在线观看| 日韩av一区二区三区精品久久| 中文字幕无码av波多野吉衣| 91spa国产无码| 中文字幕a区一区三区| 女同同性av观看免费| 亚洲第一av导航av尤物| 日韩精品欧美激情亚洲综合| 亚洲不卡av二区三区四区| 亚洲综合网站久久久| 中文乱码人妻系列一区二区| 久久高潮少妇视频免费| 日本伦理精品一区二区三区| 国产sm调教视频在线观看| 就国产av一区二区三区天堂| 亚洲婷婷久久播66性av| 亚洲加勒比久久88色综合|