亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的醫(yī)學實體識別與標簽提取

        2019-09-28 01:25:10趙君珂張振宇蔡開裕
        計算機技術與發(fā)展 2019年9期
        關鍵詞:術語實體標簽

        趙君珂,張振宇,蔡開裕

        (國防科技大學,湖南 長沙 410073)

        0 引 言

        在信息化發(fā)展的大數(shù)據(jù)智能時代,各行各業(yè)面臨著新的機遇和挑戰(zhàn)。醫(yī)療大數(shù)據(jù)作為新的焦點領域,也得到了各界的廣泛關注。如今,通過信息系統(tǒng)可以方便快捷地收集病人各方面的就診信息。醫(yī)院各業(yè)務系統(tǒng)中積累了大量的醫(yī)療數(shù)據(jù),而這些數(shù)據(jù)存在異構、分布式、碎片化等特點[1]。

        隨著醫(yī)療信息系統(tǒng)建設的進步與互聯(lián)網(wǎng)的廣泛應用,電子病例檢查報告漸漸興起,傳統(tǒng)紙質(zhì)的手寫報告逐漸退出舞臺。這一現(xiàn)象使得醫(yī)療數(shù)據(jù)的管理更加方便、快捷[2]。病人的醫(yī)療記錄是醫(yī)生手動通過信息系統(tǒng)錄入的,而其中的內(nèi)容則大多是非結構化數(shù)據(jù)。由于以醫(yī)生較為熟悉的方式來描述診斷與檢查結果,能夠讓醫(yī)生在信息錄入時更加迅速、準確、方便,所以目前的醫(yī)療數(shù)據(jù)文檔,尤其是癥狀描述部分大多是以醫(yī)生的口頭語言進行描述的非結構化數(shù)據(jù)。

        由于醫(yī)療數(shù)據(jù)是以非結構化的文本形式存儲的,因此無法直接通過計算機直接處理和分析,不僅效率低下,分析質(zhì)量也無法保證。目前的信息抽取研究中使用方法的可擴展性都較差,具有一些局限性,故自動化程度不高。為了能夠有效地通過現(xiàn)有的分析方法對醫(yī)學病案數(shù)據(jù)進行分析和信息挖掘,從而更好地利用醫(yī)學病案數(shù)據(jù),如何有效地將醫(yī)學數(shù)據(jù)作結構化處理就成為了一個值得研究、探索的問題。

        文本結構化實際上可以認為是隸屬于信息抽取技術,是該技術的一個發(fā)展方向。在針對信息抽取技術的研究過程中,研究者們通常采取基于規(guī)則和基于統(tǒng)計的方法[3]進行抽取,但這些方法都有不少缺點。首先框架較緊,自由度不高;其次機器學習能力不強,需要人工手動進行處理、輔助,因此存在不小的局限性,自動化程度也不盡如人意。

        文中的目的是通過自然語言處理對醫(yī)療領域的數(shù)據(jù)進行處理,再結合整合基于詞典、規(guī)則、機器學習、自然語言處理多種方法的關鍵字、語義關系提取算法,使得醫(yī)生對病人情況的描述更為標準、統(tǒng)一,一定程度上克服了目前存在的可擴展性差的缺點,能夠根據(jù)情況適應不同的情景。同時,通過打標簽的方法,讓用戶以可視化維度的方式更全面地理解病人,從而更好地描述一個病人的各種屬性。

        1 非結構化醫(yī)學命名實體識別

        在對非結構化醫(yī)學命名實體的識別過程中,首先涉及的是自然語言處理技術[4]。自然語言處理(natural language processing,NLP),有時也稱為計算語言學或自然語言理解(NLU),是人工智能領域與計算機科學領域中的一個重要研究方向。自然語言處理所使用的基礎工具是計算機,它對人們?nèi)粘J褂玫木哂懈鞣N表示形式的語言進行分析與處理,是語言信息處理中一個重要的研究領域[5]。

        自然語言處理系統(tǒng)主要的核心部分是語言分析器,主要用于語法研究和語法分析[6]。而在進行語法研究和語句分析時主要是區(qū)分語義、句法、語用分析幾個模塊。

        文中在自然語言處理方面使用了jieba分詞[7]作為基礎,將醫(yī)療數(shù)據(jù)進行初步的分割。但jieba分詞是一個基礎的分詞軟件,無法滿足特定情形下的特定需求,如對醫(yī)學命名實體的識別問題,就無法完全依賴jieba分詞進行識別。因此,在經(jīng)過了初步的處理后,還需要用其他的方法對數(shù)據(jù)做進一步的分析。

        文中的實體識別是針對非結構化的醫(yī)療信息數(shù)據(jù),通過對其中的實體(如癥狀、疾病、術語、藥品)進行識別,以為下一步標簽提取提供基礎。

        目前生物醫(yī)學名稱識別技術分為三大類:基于詞典的方法、基于規(guī)則的方法和機器學習方法[8-9]。然而,基于字典的方法往往會漏掉字典中未提到的未定義的術語?;谝?guī)則的方法需要從文本中識別術語的規(guī)則,并且由此產(chǎn)生的規(guī)則并不是在所有情況下都是有效的。

        1.1 規(guī)則描述語言

        在后續(xù)分析中,使用了歧義切分校正的方法,屬于意境語義分詞[10]。在分詞中,不同的字或單詞在不同語句環(huán)境下會產(chǎn)生不同的結論,不可能提出一種能夠適用全部情況的規(guī)則集,而是需要對一個個詞進行研究分析,并且逐步進行補充和完善。因此需要設計規(guī)則描述語言(RDL),用以創(chuàng)建和保存歧義切分校正規(guī)則。

        規(guī)則描述語言是產(chǎn)生式規(guī)則描述的工程化與具體化的產(chǎn)物,用以描述漢語分詞、分析和生成規(guī)則。規(guī)則描述語言既具有產(chǎn)生式的一般形式,同時也對產(chǎn)生式中的各個部分定義了具體的規(guī)則與實現(xiàn)。規(guī)則區(qū)分為簡單規(guī)則、復合規(guī)則、標號規(guī)則和控制規(guī)則。規(guī)則的結構式采用多層次的樹形結構,如圖1所示。

        圖1 規(guī)則結構式的結構樹

        在實際操作環(huán)境中,結構式可以用來表達分析語句的一個片段,其中結構項與語句中的“詞”相對應,而有些詞是單項,有些詞為復項。項元素是一個詞的屬性或?qū)傩约慕y(tǒng)稱;項標記用來區(qū)分結構項之間的相對位置,它用項標記符以及相互間的搭配來表達某一結構項的確切位置,使得分析器能夠進行準確的測試或操作;而項操作則是指對每個結構項自身及其屬性的操作。

        歧義切分校正中有許多規(guī)則,如1+1歧義切分、2+1歧義切分、組合歧義切分等,例如:

        (1)“AD1+VV1”校正。其中AD1是時態(tài)副詞,VV1是一般動詞,其規(guī)則為:

        ~*VV1+DIS(AD1|VV1)+~*VV1::-+AD1+VV1+-

        其含義為:如果在句子中沒有謂語,且有(AD1|VV1)類固有歧義切分,則切分為AD1+VV1。

        (2)“NN1+SF1”合成校正。其中SF1為名詞前綴。其校正規(guī)則為:

        NN1+‘字’+VV*::C(NN1+‘字’)+-

        其含義為:若一般名詞+‘字’后面緊接著動詞VV*,則把‘字’作為名詞后綴處理,C為合成函數(shù)。

        根據(jù)以上規(guī)則,針對醫(yī)學方面的需求加以改進,得到的算法如下:

        NN1+‘征’+(VV*/AD*)::C(NN1+‘征’)+-

        QQ1+‘(可)’+(AD*)+NN1::NN1+-

        以第一個算法為例,對應的情況為:“Auspitz征是一種銀屑病特征?!?/p>

        由于滿足Auspitz+‘征’+動詞,因此把第一個征作為名詞后綴處理,得到Auspitz征這個關鍵詞;而同時第二個特征的‘征’并不滿足這個規(guī)則,因此雖然根據(jù)分詞可能還能得到特征,但是一般未必將其歸納為關鍵詞。

        通過分析句子中的語法結構,判斷是否有謂語主語等詞,從而對句子的形態(tài)進行判斷、切分。因此這個歧義切分校正不僅能很好地識別出一些新詞語,并且還能定位關鍵詞,適當解決提取出大量無意義的詞語的問題。

        1.2 實體識別

        文中使用的識別方法是機器學習方法。機器學習方法通常需要標準注釋的訓練數(shù)據(jù)集。大多數(shù)機器學習方法趨向于數(shù)據(jù)驅(qū)動,面向應用領域和精度、召回率和F1值通常用于評估性能的識別。

        目前,醫(yī)學命名實體識別系統(tǒng)的最佳F1值不如一般目標識別系統(tǒng)的結果。為此嘗試了多種方法來改善性能,通過組合不同的方法并提出混合方法,進行機器學習后的處理,并添加生物醫(yī)學領域知識。可以使用基于機器學習的命名實體識別系統(tǒng)來消除不正確的疾病和癥狀名稱引起的基于字典匹配的術語識別錯誤。

        在實體識別中,使用基于熵擴展的術語抽取[11]思想,設計算法如下:

        其中,X表示關鍵字S周圍出現(xiàn)的詞語集合;xs表示S周圍出現(xiàn)的詞語x與S共同出現(xiàn)時的字符串組合;P(xs|S)表示當關鍵字S出現(xiàn)時,x作為其鄰接詞語的條件概率,采用極大似然估計計算。Entropy(S)值越小,說明關鍵字S周圍出現(xiàn)的詞語越穩(wěn)定,xs越可能是一個包含關鍵字S的關鍵詞。

        在提取關鍵詞并且完成最終診斷后,還對關鍵詞進行了后續(xù)的判斷分類,例如瘧疾、面容、心臟病、鞏膜、神志、膿性分泌物等詞,通過診斷的結果反推過程中出現(xiàn)的關鍵詞,判斷其對診斷是否起到了作用以及關聯(lián)性,屬于陽性還是陰性等。然后再通過這個方法,結合數(shù)據(jù)中的樣例,計算F1值得到關鍵詞識別的準確率,對文中系統(tǒng)進行性能評估并改進不足之處,解決之前工作中存在的關鍵詞不準確的問題。

        1.3 識別流程

        實體識別大致分為5個步驟,如圖2所示。

        圖2 實體識別過程

        初步識別單詞是通過簡單的算法、分析對比語料庫等識別單個關鍵詞;第二步結合RDL識別則是通過上面所述的方法,進一步識別形式各異的關鍵詞;第三步是通過人工方法,針對專業(yè)領域設定規(guī)則,對識別出來的關鍵詞進行篩選;第四步是通過機器學習訓練,使系統(tǒng)掌握篩選的規(guī)則;最后將所得的數(shù)據(jù)進行量化,便于多個數(shù)據(jù)之間的橫向比較,以進行標簽提取。

        2 醫(yī)學命名實體標簽提取

        所謂醫(yī)學術語,是指在醫(yī)學活動中通過長期的實踐形成的,具有明顯的領域特色的專業(yè)語言。與其他專業(yè)術語一樣,醫(yī)學術語作為醫(yī)務人員間的共同語言,在本學科間的相互溝通中發(fā)揮重要作用。如口頭上常說的“腦血管意外”、“半身不遂”等各種癥狀,在醫(yī)學術語上則稱為“腦卒中”。腦卒中是嚴重危害人類健康的腦血管疾病之一,該病具有高發(fā)病率、高死亡率及高致殘率等特點[12]。盡管這三者的意思是一樣的,但作為醫(yī)學期刊來說,腦血管意外、半身不遂等描述就屬于通俗語言,是不專業(yè)、不規(guī)范的用詞[13]。這些不規(guī)范用詞給數(shù)據(jù)分析帶來了不便與麻煩。

        因此,要提取出醫(yī)療數(shù)據(jù)中的標簽則需要將數(shù)據(jù)中的醫(yī)學術語規(guī)范化、結構化、專業(yè)化。而通過對醫(yī)療數(shù)據(jù)的標簽提取之后,還要對標簽進行描述,將標簽作為鍵,而描述作為值,形成“標簽-描述”的“鍵-值”對,即標簽向量。但是通過對標簽的描述進行初步提取之后,得到的標簽描述值不只一個,導致其空間維數(shù)較高,無法確定其權重,因此還要對標簽向量進行描述詞的篩選以降低其維數(shù)。

        信息處理流程如圖3所示。

        圖3 信息處理流程

        醫(yī)療數(shù)據(jù)保存在數(shù)據(jù)庫中,主要包含病人的各種基本信息,以及病人在治療過程中的檢查、用藥、醫(yī)囑等診斷信息,其中的檢查信息則交由第一步實體識別處理。而標簽的來源有兩個,第一是數(shù)據(jù)中的基本信息,如年齡、性別、入院情況等;第二則是上一步實體識別得到的關鍵詞。最后將標簽提取出來后再進行上述的篩選、分析與處理。

        2.1 標簽提取

        醫(yī)療數(shù)據(jù)標簽提取有兩個特點:一是標簽是分類、層次化的,是樹結構形狀,例如:診斷結果的標簽,檢驗結果的標簽,用藥的標簽,患者主訴的標簽,家族史、既往病史的標簽;二是標簽是標準化的,提取出的關鍵詞整理映射成標準的醫(yī)學術語和編碼。將數(shù)據(jù)中的口語化語言描述,轉(zhuǎn)換為醫(yī)療術語庫中的專業(yè)化、規(guī)范化描述。

        標簽提取過程如圖4所示。

        圖4 標簽提取過程

        在實現(xiàn)過程中,首先是從數(shù)據(jù)庫中病人的基本信息獲取標簽;然后再從實體識別中獲得的關鍵字來獲取所需標簽;與此同時,由于同一個病人擁有的信息種類較多,因此需要對標簽進行分析,進行相關性比較,構建分布圖來判斷標簽是否影響癥狀、權值的大小等因素;最后,將得到的標簽進行量化,構建對應的標簽庫便于進行橫向分析。

        為了提取標簽,參考了一種三元組的規(guī)則單元結構[14],即[p,Ω,T],其組成元素內(nèi)涵如圖5所示。

        圖5 標簽提取規(guī)則單元結構

        標簽提取規(guī)則在相對位置p,信息類型Ω及其內(nèi)容T三個方面進行了解釋和設定。其中,與當前詞語相關的其他詞語的位置及其內(nèi)容分別用p和T進行描述。+p表示相對當前詞語的后面第p個位置,-p表示相對當前詞語的前面第p個位置。T表示所描述位置上的具體內(nèi)容。信息類型Ω從詞法(詞形,詞性,上下文)、句法(依存關系,支配詞)兩個領域?qū)恢盟枋龅男畔㈩愋瓦M行了規(guī)定,這些類型分別用符號(0,1,2,3,4)表示。以此為基準,通過結合規(guī)則單元,構造出具有指定功能目標的標簽提取規(guī)則模板,大大提高了可擴展性。

        2.2 標簽向量的篩選

        文中針對標簽描述詞的篩選使用了特征提取的方法,該方法不僅能夠降低標簽向量的維數(shù),篩選出多余的向量,以免影響計算結果,同時還能提高標簽提取的速度和準確度。使用的特征提取方法為CHI[15],CHI使用如下公式計算詞ω和標簽t的相關性:

        χ2(ω,t)=

        其中,A為詞ω和標簽t同時出現(xiàn)的次數(shù);B為ω出現(xiàn)而t沒有出現(xiàn)的次數(shù);C為ω沒有出現(xiàn)而t出現(xiàn)的次數(shù);D為ω和t都沒有出現(xiàn)的次數(shù)。

        取詞ω在多個標簽類別中的χ的最大值作為詞ω的特征值,將特征詞按照特征值排序后保存起來。一般的標簽提取過程中,特征值越大越能反映特征詞的屬性。

        在醫(yī)學領域當中,同樣的病癥可能有多種不同的反映,有的甚至十分罕見,而常見的病癥類型即使是一般的醫(yī)生也足以自主判斷情況。因此,在這種條件下,特征值低的有可能反而是權值比較重的屬性,可能是人們更加關心的問題。而在描述中出現(xiàn)的“發(fā)育正常,營養(yǎng)中等”等信息都是正常指標,且多份電子醫(yī)療數(shù)據(jù)中的均可能出現(xiàn),并非診斷的決定性因素,因此通過計算特征值,降低大量重復出現(xiàn)的描述權值,以便達到降低標簽向量維度的目標。

        3 實驗結果

        3.1 實驗設計

        由于文中選擇醫(yī)療領域作為研究對象,對識別與提取進行的改善與優(yōu)化均針對醫(yī)療領域,因此為了體現(xiàn)出該方法的針對性與專業(yè)性,測試語料選自軍科院提供的卒中住院病歷數(shù)據(jù),共計3 000條住院病歷,16 000條診斷信息。住院病歷主要包含病人的各種基本信息,診斷檢查信息則是病人在治療過程中的檢查、用藥、醫(yī)囑等情況。一個病人會對應多條診斷信息,信息通過數(shù)據(jù)庫以文本形式保存。

        實驗數(shù)據(jù)如圖6所示。

        圖6 實驗測試數(shù)據(jù)

        實驗通過將診斷信息輸入,測試算法識別提取信息中的癥狀、疾病、術語、藥品等各種命名實體的能力,輸出提取出的關鍵詞,主要對實體識別部分的可行性進行評估。在實驗過程中,為了保證實驗的準確性,同時使用基于互信息方法[16]及基于互信息與詞語的共現(xiàn)方法[17]對數(shù)據(jù)進行測試,與文中方法進行對比,以驗證該方法的有效性。

        其中,基于互信息方法是基于大規(guī)模領域語料算其子串的內(nèi)部結合強度,把內(nèi)部結合強度超過預先設定閾值的子串抽取出來,完成術語候選的抽?。欢~語共現(xiàn)則是指在某一語篇中詞匯的使用與篇章的主題密切相關,同類詞匯共同出現(xiàn)在同一語境中,以達到篇章連貫與銜接的目的,實現(xiàn)語篇的連貫功能。而文中方法則是結合了規(guī)則描述語言及基于熵擴展的術語抽取方法,針對醫(yī)學領域?qū)λ惴ㄟM行改進形成的方法。

        為了評估文中構造的基于歧義切分校正的規(guī)則描述語言,以及基于熵擴展與機器學習的實體識別方法的性能,實驗利用準確率、召回率以及F1值為評價指標。

        3.2 識別結果

        實驗識別結果如圖7所示。

        圖7 實驗識別結果

        實驗結果表明,文中方法在針對醫(yī)療數(shù)據(jù)領域使用規(guī)則描述語言以及實體識別方法后,取得了一定的成效,識別效果有了一定的提高,識別與提取更為專業(yè)化、術語化,減少了無關詞語的出現(xiàn)概率,使得準確率較高。雖然由于設定的規(guī)則無法概括醫(yī)療數(shù)據(jù)的各個方面,以及在向量篩選中舍棄了部分標簽等因素,導致有部分關鍵詞未能識別,召回率相對于互信息方法較低,但是總的F1值仍然較高,證明該方法在醫(yī)學領域術語抽取中是有效可行的。

        4 結束語

        通過歧義切分校正的自然語言處理方法,對醫(yī)療數(shù)據(jù)中非結構化的醫(yī)學命名體進行了識別和關鍵字提取,并且用F1值來檢驗識別的準確度;然后通過語義分析,將標簽以及標簽的描述值組合成鍵-值對,并且用CHI計算描述值的特征值。最終使得醫(yī)療數(shù)據(jù)中醫(yī)生對病人情況的描述更為標準、統(tǒng)一。同時,通過打標簽的方法,讓用戶以可視化維度的方式更全面地理解病人,從而更好地描述一個病人的各種屬性以及狀況。在標簽提取過程中,經(jīng)過提取規(guī)則以及特征提取的篩選,該方法相對基于統(tǒng)計、基于語言學的提取方法,具有更好的擴展性,能夠根據(jù)應用領域提供特定的提取方法,從而提高了提取效果。

        猜你喜歡
        術語實體標簽
        前海自貿(mào)區(qū):金融服務實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        哲學評論(2017年1期)2017-07-31 18:04:00
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        標簽化傷害了誰
        基于多進制查詢樹的多標簽識別方法
        計算機工程(2015年8期)2015-07-03 12:20:27
        有感于幾個術語的定名與應用
        從術語學基本模型的演變看術語學的發(fā)展趨勢
        18禁无遮挡羞羞污污污污网站| 日本免费精品一区二区| 中文字幕隔壁人妻欲求不满| 亚洲欧美日韩综合一区二区| 免费a级毛片无码| 狠狠色婷婷久久一区二区| 五月天婷婷一区二区三区久久| 美女偷拍一区二区三区| 亚洲女人的天堂网av| 国产又大又黑又粗免费视频| 亚洲国产精品福利片在线观看| 97色偷偷色噜噜狠狠爱网站97| 精品亚洲不卡一区二区| 日本av不卡一区二区三区| 一本色道无码不卡在线观看| 国产精品毛片完整版视频| 午夜天堂一区人妻| 亚洲精品无码久久久影院相关影片| 亚洲国产精品sss在线观看av| 国产精品色内内在线播放| 久久伊人久久伊人久久| 中文字日产幕码三区的做法步| 18禁成人黄网站免费观看| 国产精品成人免费视频网站京东| 久久99久久99精品免观看女同| 翘臀诱惑中文字幕人妻| 91成人自拍国语对白| 国产一区二区女内射| 成人国产精品一区二区网站| 青青草国内视频在线观看| 蜜桃视频在线免费视频| 成人做爰69片免费看网站野花| 成人精品综合免费视频| 免费大学生国产在线观看p| 亚洲国产成人av毛片大全| 亚洲欧美综合精品成人网站| av香港经典三级级 在线| www.日本一区| 日本淫片一区二区三区| 风韵丰满熟妇啪啪区老熟熟女| 香蕉久久福利院|