亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的甲狀腺病史結構化研究與實現(xiàn)

2019-09-12 10:41:42駱軼姝申舒心陳德華

智能計算機與應用 2019年4期

駱軼姝申舒心陳德華

摘要：甲狀腺病史作為一類重要的非結構化文檔，對醫(yī)療診斷至關重要。針對具體的甲狀腺病史數(shù)據(jù)，提出一種基于深度學習的甲狀腺病史結構化處理方法。首先，構建專業(yè)詞庫和病史本體，使用專業(yè)詞庫指導分詞，基于本體結構完成結構化輸出;其次，通過使用實體識別技術，完成對分詞結果標簽的預測;最后，使用標簽抽取和詞庫匹配兩種方法對病史數(shù)據(jù)進行信息抽取，并將結構化結果以RDF進行存儲。實驗結果表明該方法的準確率和泛化性較傳統(tǒng)方法有明顯提升。

關鍵詞：甲狀腺;病史;深度學習;實體識別

文章編號：2095-2163（2019）04-0021-07?中圖分類號：TP311?文獻標志碼：A

0 引言

隨著醫(yī)學信息化水平的不斷提高，逐漸積累了越來越豐富的非結構化臨床診療數(shù)據(jù)。如何有效利用這些數(shù)據(jù)已然成為目前智慧醫(yī)療領域備受關注的重點研究課題。

甲狀腺疾病是內(nèi)分泌科常見疾病之一。甲狀腺病史作為非結構化臨床診療數(shù)據(jù)資源，為醫(yī)生診斷患者疾病提供了重要依據(jù)。但甲狀腺病史結構化主要面臨以下難點：適用于通用數(shù)據(jù)集的傳統(tǒng)分詞方法難以對醫(yī)學領域的專業(yè)知識進行準確分詞;對于傳統(tǒng)的信息抽取方法，當應用在非標準縮寫、術語以及拼寫錯誤和不完整句子上時，難以兼顧模型的泛化性和準確性;傳統(tǒng)的結構化輸出難以為結構化數(shù)據(jù)的存儲、分析、檢索起到便捷支持作用。

針對上述問題，本文結合甲狀腺病史數(shù)據(jù)的具體特點，提出一種基于深度學習的甲狀腺病史結構化處理方法，以期為中文臨床診療數(shù)據(jù)結構化提供參考。

1 方法

甲狀腺病史完整的結構化工作包含3個模塊，分別是：預處理模塊、實體識別模塊以及信息抽取模塊，如圖1所示。其中，預處理模塊和此過程中構建的基礎專業(yè)詞庫是整個框架的基礎，預處理的水平直接決定了實體識別模型的效果;實體識別模塊在預處理模塊輸出的數(shù)據(jù)集上訓練得到一個模型，該模型作為標注工具用以指導結構化;信息抽取模塊依賴于實體識別模型的標注結果和本體構建的結果，最終模塊會將結構化文本通過RDF（Resource Description Framework）以一種“樹型”結構進行存儲。

1.1 專業(yè)詞庫構建

構建專業(yè)詞庫主要目的在于數(shù)據(jù)預處理過程中指導原始數(shù)據(jù)分詞和結構化過程中基于詞庫匹配進行實體抽取。使用專業(yè)詞庫指導文本分詞則旨在避免通用分詞工具對專業(yè)數(shù)據(jù)進行誤分、錯分;基于詞庫進行信息抽取的核心思想是指結合領域知識和抽取目標信息建立的字符串標識匹配與定位。詞庫的最初構建來源于多個專業(yè)詞表，包括：ICD-10疾病標準[1]、2017年國家醫(yī)保藥品目錄、ICD-9-CM[2]（手術操作編碼）、某三甲醫(yī)院收費明細與收費標準和中華醫(yī)學會內(nèi)分泌分會發(fā)表的2008《甲狀腺疾病診治指南》[3]。標準詞表及其對應的實體類型和舉例詳見表1。

1.2 病史本體構建

由于甲狀腺病史文本表達形式多樣且內(nèi)容繁雜，相較于傳統(tǒng)的句子模板，通過使用構建甲狀腺病史本體的方法，對甲狀腺病史文本數(shù)據(jù)進行一定程度的抽象概括，更適用于當前結構化任務。相關研究表明，基于描述邏輯和規(guī)則的本體可以進一步表述數(shù)據(jù)的語義，本體基于邏輯的知識表示形式可以有效提高知識的語義表述能力，相應的邏輯推理算法可以改進知識的發(fā)現(xiàn)能力和解釋能力[4-5]?？紤]到對結構化結果的存儲、分析、檢索的便捷支持需要，本文使用決策七步法構建病史本體，使用自左向右的方法構建甲狀腺病史本體中的類和類之間的關系，并采用軟件Protégé完成本體模型的構建，繼而使用RDF[6]語言描述構建的本體模型。

（1）確定本體的專業(yè)領域和范疇。本文以醫(yī)學領域為特定的研究領域，構建甲狀腺病史本體：通過一套明確的體系規(guī)范甲狀腺病史數(shù)據(jù)中的詞匯，使數(shù)據(jù)中的術語得到統(tǒng)一，能夠被其它領域認可;基于本體結構，使用詞典匹配和實體識別標簽抽取實現(xiàn)甲狀腺病史的結構化。

（2）考慮復用現(xiàn)有本體的可能性。本文的原始數(shù)據(jù)來自于上海市某三甲醫(yī)院的真實臨床采集得到，本體的結構依據(jù)病史的內(nèi)容和記錄格式，且由于醫(yī)生的個人習慣原因，病史的記錄規(guī)則相對比較靈活，且構建本體的目的是為實現(xiàn)病史的結構化，目前也尚未見到可以復用或是具有參考價值的公開本體。

（3）列出本體中的重要術語。通過與標準詞表進行匹配構建基礎專業(yè)詞庫，通過專家糾錯和使用實體識別算法擴充專業(yè)詞庫。專業(yè)詞庫的專業(yè)術語樣本見表2。

（4）定義類和類的層次。通過實體識別算法構建詞典和實體標簽，然而大都屬于專業(yè)術語，且這些實體（見表2）的分布是散亂的，關系不明確，僅僅是信息抽取，很難達到預期結構化的效果。因此本文提出基于原始數(shù)據(jù)的記錄結構，依據(jù)標簽，將這些實體進行歸類。類的順序按照病史的數(shù)據(jù)結構自頂向下地逐級排序，依次是時間、地點、誘因、癥狀、檢查、治療、效果、入院情況和疾病;類的層次結構通常采用自左向右的方法加以確定，即先確定父類，再確定子類。將這種關系定義為part-of關系。

（5）定義類的屬性。在第（4）步的過程中，通過提取部分術語定義了類和類之間的關系，然而簡單的類名無法體現(xiàn)具體的知識，本體的具體知識通過定義類特有的屬性來體現(xiàn)。本文提出將現(xiàn)有的屬性分為2種，即：數(shù)據(jù)型屬性和對象型屬性。兩者間的區(qū)別就在于實例的不同。其中，數(shù)據(jù)型屬性是指實例中具有文字、字符串、數(shù)字和日期的屬性，包括：時間、地點、誘因、癥狀、效果、入院情況和疾病的屬性;對象型屬性是指實例中包含另一個子類的屬性，即該屬性不是具體的屬性值，而是另一個父類下的一個子類，包括：檢查和治療兩種屬性，檢查的屬性是某種檢查項目、接下去才是檢查內(nèi)容，治療下是某種治療方式、緊接著才是治療內(nèi)容。本文將數(shù)據(jù)型屬性定義為instance-of關系，對象型屬性定義為attribute-of關系。

在實體抽取的所有實體中，基本上形成了3種關系，見表3。

（6）本體決策。本體在使用前需要經(jīng)過3個步驟進行驗證，來證明本文構建的本體是否符合實際需求。首先經(jīng)過邏輯推理證明本體構建邏輯無誤;其次，本文基于本體結構，使用實體識別技術進行信息抽取，構建本體;最后，經(jīng)由專家驗證該本體的正確性。

（7）創(chuàng)建實例。本文使用本體的主要目的是為結構化數(shù)據(jù)的存儲、分析、檢索提供便捷支持，本體結構如圖2所示。

1.3 數(shù)據(jù)預處理

（1）數(shù)據(jù)標準化。甲狀腺疾病現(xiàn)病史文本數(shù)據(jù)是由醫(yī)生手動錄入，而不同的醫(yī)生有不同的輸入習慣，這主要體現(xiàn)在標點以及特殊符號使用上的不統(tǒng)一與不規(guī)范，導致分詞效果并不理想。同時存在比較嚴重的錯別字。故而在預處理過程中需要對標點符號進行規(guī)范化，并對錯別字做出修改。標準化樣例見表4。

（2）文本分詞。為確保實體識別模型的順利訓練，本文依賴基于標準詞表構建的專業(yè)詞庫對病史文本進行精準分詞。針對現(xiàn)有的中文分詞工具對專業(yè)性較高的醫(yī)學文本存在錯誤分詞的問題，建立專業(yè)詞庫，提高分詞準確度。專業(yè)詞庫包括癥狀、疾病、檢查和治療四個子庫，初始化來源于幾個專業(yè)數(shù)據(jù)集。另外，分詞模塊中需要對訓練集加上標注，專家團隊對13類實體進行標注，產(chǎn)生21種標簽用于模型的監(jiān)督學習。本文基于病史數(shù)據(jù)內(nèi)容對甲狀腺病史分詞后的數(shù)據(jù)設計標簽見表5。

本文為模型設計了13種標注，對應不同的語義內(nèi)容，這些標注包含了一定的實體信息。表5對部分語義內(nèi)容進行了詳細分類。為避免在結構化過程中的稀疏存儲，本體定義沒有做到細致的屬性劃分，這些標簽最終會有助于定義結構化內(nèi)容的屬性。

1.4 實體識別

在專業(yè)詞庫構建過程中，通過使用實體識別技術對專業(yè)詞庫進行擴充和更新;在結構化過程中，通過使用實體識別技術對給定文本進行標簽預測。本文使用Bi-LSTM[7-10]作為實體識別的主體，該模型在LSTM的基礎上加入逆向傳播過程，使得網(wǎng)絡可以同時利用上下文中的語義特征。另外，由于Bi-LSTM的各輸出之間沒有相互影響，僅僅獲得獨立的最大概率標簽，造成Bi-LSTM的輸出中可能存在非法標簽問題，即B-cause后連接I-time，本文為該模型添加CRF[11]的后處理層來適應多變的輸出。CRF中的轉移特征會分析輸出標簽之間的順序，以獲得最優(yōu)的標簽序列。Bi-LSTM-CRF網(wǎng)絡結構如圖3所示。

圖3中，第一層為詞嵌入層（Word Embedding layer），主要是將基于自定義詞典分詞后的序列文本數(shù)據(jù)轉化為詞向量序列，并將向量序列輸入模型進行訓練。第二層為Bi-LSTM編碼層，通過LTSM的正向推導和反向傳播對序列文本數(shù)據(jù)中的各個詞進行獨立分類，獲取標注信息。第三層為CRF層，通過使用CRF中的條件轉移矩陣從已獲得標注信息的分詞中選取合法標注，獲得最優(yōu)標注序列。第四層為輸出層，在給定目標語句的情況下，通過深度學習模型可以對目標語句自動進行單詞的語義標注。

1.5 信息抽取

在甲狀腺病史結構化過程中，本文主要選取2種方法用于信息抽取研究，即在不同部分的數(shù)據(jù)使用不同的方法：對于描述相對多樣化或是過度依賴上下文語義的實體使用實體識別標簽抽取，見表6。

除此以外，對于癥狀、檢查、治療、疾病這四類描述相對較為規(guī)范、固定的實體使用詞庫匹配的方法進行信息抽取。

最后結合病史本體結構，將通過上述兩種方法獲得的信息實現(xiàn)結構化輸出。

1.6 結構化數(shù)據(jù)存儲

RDF數(shù)據(jù)模型本質(zhì)上是一個圖結構模型，由主語、謂詞和對象組成，底層使用XML/RDF語言實現(xiàn)。由于醫(yī)學專業(yè)知識具有數(shù)據(jù)庫量大和增長快的特點，本文構建的現(xiàn)病史本體也需要以RDF的形式存儲。常用的單節(jié)點RDF數(shù)據(jù)庫不能滿足存儲現(xiàn)病史本體實例的需求，使用傳統(tǒng)的關系型數(shù)據(jù)庫存儲又面臨信息冗余高和查詢性能低的問題，所以研究和構建分布式的具備圖存儲功能的本體存儲系統(tǒng)是一個可行的方法。資源描述框架模型如圖4所示。

2 實驗

2.1 實驗數(shù)據(jù)

病史是病歷中的一部分，通常包括現(xiàn)病史、既往史、家族史、個人史和婚育史。其中，現(xiàn)病史記述患者發(fā)病后的全過程，即發(fā)生、發(fā)展、演變和診治的經(jīng)過，具有數(shù)據(jù)量最大、內(nèi)容最多和記錄結構最復雜的特點。本文選取上海某三甲醫(yī)院從2005～2015年十余年間、共9 386條甲狀腺病史中的現(xiàn)病史數(shù)據(jù)內(nèi)容作為實驗數(shù)據(jù)。

現(xiàn)病史從內(nèi)容上大致分為4個部分，也就是：疾病發(fā)生、病情發(fā)展、治療經(jīng)過和入院情況。其中，疾病發(fā)生主要包括：起病時間、臨床癥狀和起病誘因;病情發(fā)展主要包括：病程中主要癥狀的變化、新出現(xiàn)癥狀以及伴隨癥狀;治療經(jīng)過是指：本次就診前已經(jīng)接受過的診斷檢查及其結果，治療所用藥物的名稱、劑量、給藥途徑、療程及療效;入院情況是指：醫(yī)生從患者病后的精神、體力狀態(tài)、飲食情況、睡眠與大小便等方面，對病人得出全身情況的評價。甲狀腺病史樣例數(shù)據(jù)可表述如下。

2015-3患者因勞累出現(xiàn)消瘦、乏力、無多汗、心慌、無手抖等癥狀，至徐匯區(qū)中心醫(yī)院查甲狀腺功能提示甲亢，給予賽治最初20 mg，bid，口服2周后改用10 mg，bid，3周后復查甲狀腺功能后改用5 mg，bid，口服半月后復查甲狀腺功能FT3、FT4較前升高，1月前（2015-6-20）患者自訴雙眼突出逐漸明顯，并出現(xiàn)右眼復視，視力下降，2015-7-3隨至復旦大學附屬耳鼻喉醫(yī)院查雙眼CT提示雙側甲狀腺相關性眼病，查甲狀腺功能提示FT3 6.41 pmol/L，F(xiàn)T4 16.68 pmol/L，TSH 0.006 5 uIU/ml。今為求進一步診治，門診以“甲狀腺相關性眼病”收住院。發(fā)病以來，患者神志清楚，精神一般，雙眼突出，畏光流淚，無明顯充血水腫，右眼有復視，無嘔血、黑便，無腹痛，胃納可，二便可，夜眠佳，近期未見明顯體重下降。

2.2 實驗與結果

（1）參數(shù)設置。本文通過平均實驗結果來確定最優(yōu)的參數(shù)組合，實驗中采用的可調(diào)參數(shù)設置見表7。

（2）評估標準。對于實體關系抽取結果的評價，本文針對全部實體分別計算準確率（precision）、召回率（recall）和F1值。對應數(shù)學公式可順次表示如下：

其中，TP表示本類別中正確識別的樣本數(shù);FP表示本類中標注錯誤的樣本數(shù);FN表示原本屬于本類的標注，卻錯誤地標注為別的種類的標簽的樣本數(shù)。F1值可以加權調(diào)和平均模型的準確率和召回率，能綜合地表征一個模型的優(yōu)劣。

（3）實驗結果。實驗在現(xiàn)病史共定義13類特征實體，21種標簽，通過混淆矩陣計算出各類實體的準確率P、召回率R以及F1值。實驗結果見表8。

甲狀腺病史中現(xiàn)病史將識別結果繪制混淆矩陣，如圖5所示。

圖5中，顏色越亮代表該標簽預測的準確率越高，混淆矩陣的橫軸表示預測結果，縱軸表示真實標記，可以看到在O標記上，本文模型出現(xiàn)的偏差比較明顯，但依然保持在較高的水準，這是因為O標記總體數(shù)據(jù)樣本占據(jù)的比例最大、也相對更為分散。另外，文本的模型在時間點、肯定詞、否定詞等關鍵實體的識別上也達到了較高的準確率，這對本文結構化過程中的按時間節(jié)點分段，按肯定詞、否定詞分句有較大影響。

隨機選取一樣例做實體識別，識別結果展示如圖6所示。

通過實體識別后的數(shù)據(jù)就可以進行結構化處理，結構化結果中的一個樣例如圖7所示。

圖7中，通過{}及[]不同的括號來區(qū)分不同方法得到的結構化信息，{}為實體識別的內(nèi)容，[]為詞庫匹配的內(nèi)容。

（4）結構化存儲。將最終的結構化數(shù)據(jù)以資源描述框架的形式進行存儲。結構化存儲借助python第三方擴展（rdflib），以XML形式進行RDF序列化存儲，最終對每個時間段內(nèi)的內(nèi)容都生成一個XML文件。由于文本限制，只截取一條完整病史數(shù)據(jù)的結構化結果的起始部分內(nèi)容，序列化的一個樣本如圖8所示。

3 結束語

本文結合現(xiàn)有自然語言處理技術和甲狀腺病史的數(shù)據(jù)特征，提出了一種甲狀腺病史結構化處理方法。首先，構建專業(yè)詞庫和病史本體，分別用于指導分詞和實現(xiàn)結構化輸出;其次，對原始數(shù)據(jù)進行預處理，并將預處理后的數(shù)據(jù)進行實體識別，實現(xiàn)對分詞結果的標簽預測;最后，基于病史本體結構，使用標簽抽取和詞庫匹配兩種方法，實現(xiàn)對甲狀腺病史的結構化，并通過RDF將結構化結果進行存儲。

參考文獻

[1]SUNDARARAJAN V， HENDERSON T， PERRY C， et al. New ICD-10 version of the Charlson comorbidity index predicted in-hospital mortality[J]. Journal of Clinical Epidemiology， 2004， 57（12）：1288-1294.

[2]DEYO R A. Adapting a clinical comorbidity index for use with ICD-9-CM administrative data： A response[J]. Journal of Clinical Epidemiology， 1993， 46（10）：1081-1082.

[3]中華醫(yī)學會內(nèi)分泌學分會《中國甲狀腺疾病診治指南》編寫組. 中國甲狀腺疾病診治指南[J]. 中華內(nèi)科雜志， 2007， 47（10）：867-868.

[4]MAEDCHE A. Ontology learning for the semantic Web[M]// Ontology learning for the semantic Web. Boston， MA：Springer，?2002：117-147.

[5]杜文華. 本體構建方法比較研究[J]. 情報雜志， 2005（10）：24-25.

[6]GIBBINS N . Resource description framework[J]. Serials Review， 2009， 27（1）：58-61.

[7]QIN Ying， ZENG Yingfei. Research of clinical named entity recognition based on Bi-LSTM-CRF[J]. Journal of Shanghai Jiaotong University， 2018， 23（3）：392-397.

[8]ANH L T ， ARKHIPOV M Y ， BURTSEV M S . Application of a hybrid Bi-LSTM-CRF model to the task of Russian Named Entity Recognition[M]// FILCHENKOV A， PIVOVAROVA L， IKA J. Artificial intelligence and natural language. AINL 2017. Communications in Computer and Information Science. Cham：Springer， 2017，789：91-103.

[9]HUANG Zhiheng ， XU Wei ， YU Kai . Bidirectional LSTM-CRF models for sequence tagging[J].?arXiv preprint arXiv：1508.01991， 2015.

[10]楊錦鋒，關毅，何彬，等. 中文電子病歷命名實體和實體關系語料庫構建[J]. 軟件學報， 2016，27（11）：2725-2746.

[11]LAFFERTY J， MCCALLUM A， PEREIRA F. Conditional random fields： Probabilistic models for segmenting and labeling sequence data[C]//Proc. 18th International Conf. on Machine Learning.San Francisco， CA：Morgan Kaufmann， 2001： 282-289.