,,,,
隨著我國(guó)醫(yī)療信息化的發(fā)展,醫(yī)學(xué)科學(xué)文獻(xiàn)、網(wǎng)絡(luò)文檔、電子病歷等非結(jié)構(gòu)化數(shù)據(jù)正以指數(shù)級(jí)的速度增長(zhǎng),其中包含海量未被挖掘的醫(yī)學(xué)知識(shí)。借助人工智能技術(shù),在充分吸收專家經(jīng)驗(yàn)基礎(chǔ)上,構(gòu)建醫(yī)學(xué)知識(shí)圖譜,分析、挖掘醫(yī)學(xué)實(shí)體之間的潛在關(guān)聯(lián),加強(qiáng)數(shù)據(jù)反哺機(jī)制,對(duì)發(fā)展循證醫(yī)學(xué)、支持臨床決策、提高醫(yī)護(hù)人員的工作效率和患者的就診體驗(yàn)有著重要意義。
知識(shí)圖譜(Knowledge Graph)自2012年被提出以來發(fā)展迅速,得到了來自學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,醫(yī)學(xué)領(lǐng)域是知識(shí)圖譜應(yīng)用最廣的垂直領(lǐng)域之一。知識(shí)圖譜是由節(jié)點(diǎn)(實(shí)體)和標(biāo)注的邊(實(shí)體間的關(guān)系)組成的一種基于圖數(shù)據(jù)結(jié)構(gòu)的新知識(shí)表示方式,旨在描述真實(shí)世界中存在的各種實(shí)體或概念,及其之間的關(guān)系或關(guān)聯(lián)[1]。從技術(shù)角度來看,知識(shí)圖譜是一套工程技術(shù),包括知識(shí)抽取、知識(shí)表示、知識(shí)存儲(chǔ)、知識(shí)推理等一系列技術(shù)。隨著知識(shí)建模、動(dòng)態(tài)本體、自然語言處理、深度學(xué)習(xí)、圖數(shù)據(jù)庫、知識(shí)推理等技術(shù)的發(fā)展,醫(yī)學(xué)知識(shí)圖譜的構(gòu)建漸趨成熟。然而,由于醫(yī)學(xué)數(shù)據(jù)專業(yè)性強(qiáng)、結(jié)構(gòu)復(fù)雜等特點(diǎn),現(xiàn)有醫(yī)學(xué)知識(shí)圖譜構(gòu)建存在數(shù)據(jù)和知識(shí)源稀缺、效率低、拓展性差等問題。
本文解析了醫(yī)學(xué)知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù),介紹了利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法識(shí)別醫(yī)學(xué)命名實(shí)體和抽取實(shí)體鏈接和語義關(guān)系,以及醫(yī)學(xué)知識(shí)圖譜在當(dāng)今醫(yī)療服務(wù)中的應(yīng)用,總結(jié)了中文醫(yī)學(xué)知識(shí)圖譜構(gòu)建所面臨的問題和挑戰(zhàn),提出了相應(yīng)的對(duì)策和建議。
醫(yī)學(xué)知識(shí)圖譜是一個(gè)以實(shí)體為節(jié)點(diǎn)的巨大知識(shí)網(wǎng)絡(luò),包括實(shí)體、實(shí)體屬性及實(shí)體之間的關(guān)系。實(shí)體是知識(shí)圖譜的核心單元。根據(jù)研究目的和技術(shù)路線的不同,醫(yī)學(xué)知識(shí)圖譜的構(gòu)建流程也不盡相同。本文根據(jù)醫(yī)學(xué)知識(shí)圖譜的組成部分將其歸納為命名實(shí)體識(shí)別、實(shí)體鏈接、語義關(guān)系抽取、知識(shí)圖譜繪制和評(píng)估5部分(圖1)。
以下重點(diǎn)介紹基于非結(jié)構(gòu)化醫(yī)學(xué)文本,利用命名實(shí)體識(shí)別、實(shí)體鏈接技術(shù)和語義關(guān)系抽取技術(shù)構(gòu)建醫(yī)學(xué)知識(shí)圖譜。
圖1 醫(yī)學(xué)知識(shí)圖譜構(gòu)建流程
醫(yī)學(xué)領(lǐng)域命名實(shí)體識(shí)別[2]是指從臨床文本中識(shí)別感興趣的醫(yī)學(xué)實(shí)體(如疾病、癥狀、藥物等),以支持臨床研究。目前常用的醫(yī)學(xué)命名實(shí)體識(shí)別模型有條件隨機(jī)場(chǎng)模型、BiLSTM-CRF模型和遷移學(xué)習(xí)。
1.1.1 條件隨機(jī)場(chǎng)模型
20世紀(jì)90年代以來,統(tǒng)計(jì)模型一直是實(shí)體識(shí)別的重要方法,常用的統(tǒng)計(jì)模型有最大熵模型、隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型等,其中最具代表性的是條件隨機(jī)場(chǎng)模型。
條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)將命名實(shí)體識(shí)別轉(zhuǎn)化為序列標(biāo)注問題,具有很強(qiáng)的特征融合能力,可識(shí)別醫(yī)學(xué)文本中的實(shí)體。在CRF模型中,常見的特征工程有字特征、詞(性)特征、詞典特征[3]、詞聚類特征、位置特征、N-gram特征、語法特征、語言符號(hào)特征、規(guī)則特征、上下文窗口大小等。但傳統(tǒng)的CRF模型主要依賴兩個(gè)實(shí)體之間的外部標(biāo)簽傳遞信息,當(dāng)有多個(gè)外部標(biāo)簽傳遞時(shí),易發(fā)生梯度消失的問題。針對(duì)這一問題,Lee等[4]利用precursor-induced CRF模型,將記憶元素增加到外部子序列實(shí)體的隱藏變量中,利用記憶元素引導(dǎo)信息傳遞,以降低使用長(zhǎng)距離標(biāo)簽依賴性的計(jì)算成本。此外,分詞和命名實(shí)體識(shí)別分步進(jìn)行容易造成下層錯(cuò)誤向上累加傳遞,且不能充分利用融合信息。郁小玲等[5]針對(duì)這一問題提出了一種基于兩位一體的字標(biāo)注方法,將命名實(shí)體識(shí)別過程看作是序列的字標(biāo)注過程,利用CRF模型進(jìn)行電子病歷的實(shí)體識(shí)別時(shí)發(fā)現(xiàn),基于兩位一體的標(biāo)注方法的性能比單字標(biāo)注方法的性能提高了約2%。
醫(yī)學(xué)術(shù)語專業(yè)性強(qiáng),醫(yī)學(xué)文本書寫具有一定的規(guī)律,特征工程對(duì)醫(yī)學(xué)實(shí)體識(shí)別結(jié)果影響很大,但人工構(gòu)建特征工程費(fèi)事耗力,成本較高。
1.1.2 BiLSTM-CRF模型
為了減少人工構(gòu)建各種復(fù)雜的特征工程,學(xué)者提出使用神經(jīng)網(wǎng)絡(luò)模型識(shí)別醫(yī)學(xué)命名實(shí)體。在各種神經(jīng)結(jié)構(gòu)中,使用最廣泛的是基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory Network Conditional Random Field,BiLSTM-CRF)模型[6]。
BiLSTM-CRF模型共包含3層,自下而上依次為輸入層、隱含層和輸出層,其作用分別為將數(shù)據(jù)嵌入到模型中,利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)解決長(zhǎng)距離依賴問題,解碼輸出結(jié)果。李麗雙[7]為了近一步減少人工特征工程,提出一種基于CNN-BiLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,即利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)訓(xùn)練出具有形態(tài)特征的字符向量和具有語義特征信息的詞向量,將二者結(jié)合起來輸入到BiLSTM-CRF模型中。為引入句子層面的潛在語義信息和句法的一般特征,Lishuang等[8]將語言模型和句子層面的閱讀控制門(SC)整合到BiLSTM-CRF模型中,利用SC集成句子的隱含信息和語言模型提取更豐富的潛在特征。但無論是基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法還是深度學(xué)習(xí)方法,均只是停留在句子層面,沒有很好地利用篇章信息,造成了實(shí)體標(biāo)簽全文非一致性的問題。針對(duì)這一問題,楊培等[9]將注意(Attention)機(jī)制引入BiLSTM-CRF模型中,利用Attention機(jī)制獲取當(dāng)前詞在全文范圍內(nèi)的上下文表示。實(shí)驗(yàn)結(jié)果表明,相比之前的方法,該模型提高了同一篇文章中實(shí)體識(shí)別的一致性,并在BioCreative IVCHEMDNER數(shù)據(jù)集上取得了更好的結(jié)果,F(xiàn)值達(dá)90.77%。
實(shí)體識(shí)別訓(xùn)練語料的質(zhì)量和數(shù)量對(duì)基于監(jiān)督學(xué)習(xí)的實(shí)體識(shí)別結(jié)果影響很大,而醫(yī)學(xué)領(lǐng)域金標(biāo)準(zhǔn)語料較少,且構(gòu)建醫(yī)學(xué)標(biāo)準(zhǔn)語料成本較高。為減少對(duì)標(biāo)注語料的需求,不少學(xué)者試圖利用遷移學(xué)習(xí)的方法識(shí)別醫(yī)學(xué)命名實(shí)體[10],以期利用少量目標(biāo)領(lǐng)域標(biāo)注語料獲得較好的醫(yī)學(xué)命名實(shí)體識(shí)別性能。
醫(yī)學(xué)領(lǐng)域存在著大量的簡(jiǎn)寫、縮寫、不規(guī)范或模糊的表達(dá)及一詞多義或多詞同義的情況,嚴(yán)重影響了醫(yī)學(xué)實(shí)體的整合及醫(yī)學(xué)知識(shí)圖譜的構(gòu)建與補(bǔ)全。實(shí)體鏈接主要解決實(shí)體歧義性和多樣性的問題,即將文本中的實(shí)體指向其所代表的真實(shí)世界實(shí)體。實(shí)體鏈接的核心是計(jì)算實(shí)體提及(mention)和知識(shí)庫中實(shí)體的相似度,并基于上述相似度選擇特定實(shí)體提及的目標(biāo)實(shí)體,將抽取的實(shí)體與知識(shí)庫中對(duì)應(yīng)的實(shí)體進(jìn)行鏈接。具體的研究?jī)?nèi)容包括識(shí)別文檔中的目標(biāo)提及,針對(duì)每一個(gè)提及,識(shí)別該提及在知識(shí)圖譜中可能指向的候選目標(biāo)實(shí)體,然后基于提及的上下文等信息對(duì)目標(biāo)實(shí)體進(jìn)行排序,最后進(jìn)行空實(shí)體檢測(cè)與聚類。目前常用的實(shí)體鏈接技術(shù)包括基于統(tǒng)計(jì)模型和深度學(xué)習(xí)的方法。
基于統(tǒng)計(jì)模型方法的核心是挖掘可用于識(shí)別提及目標(biāo)實(shí)體相互關(guān)聯(lián)的證據(jù)信息,并將這些信息處理成可供計(jì)算機(jī)處理的形式,綜合不同證據(jù)構(gòu)建高性能的方法進(jìn)行鏈接決策。常見的統(tǒng)計(jì)模型包括SVM、樸素貝葉斯、馬爾可夫邏輯網(wǎng)絡(luò)和圖模型等。統(tǒng)計(jì)模型主要使用的證據(jù)信息包括實(shí)體統(tǒng)計(jì)信息、名稱統(tǒng)計(jì)信息、上下文詞語分布、實(shí)體關(guān)聯(lián)度、文章主題等信息,但手工構(gòu)建特征較為繁瑣且往往忽略了實(shí)體的內(nèi)部含義,適應(yīng)性較差。規(guī)范、健全的醫(yī)學(xué)知識(shí)庫較少,為減少對(duì)外部資源的依賴,AndresDuque 等[11]提出了一種基于圖形的無監(jiān)督技術(shù),即使用PubMed數(shù)據(jù)庫中的摘要構(gòu)建圖形知識(shí)庫,模糊實(shí)體的上下文,然后使用個(gè)性化PageRank算法執(zhí)行實(shí)體消歧。實(shí)驗(yàn)表明,在應(yīng)用于nlm數(shù)據(jù)集時(shí),該方法優(yōu)于最先進(jìn)的基于知識(shí)和無監(jiān)督方法,準(zhǔn)確率可提升10%。
相比傳統(tǒng)的統(tǒng)計(jì)模型方法,深度學(xué)習(xí)方法是指數(shù)據(jù)訓(xùn)練過程為一個(gè)“端到端”的過程,無需人工定義相關(guān)的特征,減少了人工構(gòu)建特征的成本[12]。而且,可學(xué)習(xí)任務(wù)特定的表示,建立不同模態(tài)、不同類型、不同語言之間信息的關(guān)聯(lián),通過將不同類型的信息映射到相同的特征空間,并通過提供高效的“端到端”訓(xùn)練算法,取得更好的實(shí)體鏈接性能。目前相關(guān)工作包括多源異構(gòu)特征的向量表示學(xué)習(xí)以及不同特征之間的相似度學(xué)習(xí),如Angen等[13]將字符級(jí)別的匹配、單詞的上下文和實(shí)體的語義匹配引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)。Hui Chen[14]將實(shí)體鏈接視為排名問題,利用雙線模型模擬不同空間中的詞與實(shí)體之間的相互作用,該模型有效提高了實(shí)體鏈接算法的性能,在基準(zhǔn)數(shù)據(jù)集CoNLL和TAC KBP 2010上獲得了最佳性能。但是,如何在深度學(xué)習(xí)方法中融入知識(shí)指導(dǎo)(如語言學(xué)結(jié)構(gòu)約束、知識(shí)結(jié)構(gòu))解決任務(wù)依賴問題和如何利用深度學(xué)習(xí)的方法解決實(shí)體標(biāo)注資源缺乏等問題,成為學(xué)者研究的熱點(diǎn)和難點(diǎn)。
語義關(guān)系抽取是知識(shí)圖譜構(gòu)建的關(guān)鍵環(huán)節(jié)之一,利用語義關(guān)系抽取技術(shù),可根據(jù)結(jié)構(gòu)化的抽取結(jié)果自動(dòng)生成知識(shí)圖譜。醫(yī)學(xué)領(lǐng)域常用的3種語義關(guān)系抽取的方法為基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和混合的方法。
1.3.1 基于機(jī)器學(xué)習(xí)的語義關(guān)系抽取
基于機(jī)器學(xué)習(xí)的方法將語義關(guān)系抽取視為分類問題,常用的方法包括基于特征(Feature-based)和基于核 (Kernel based)2種。
基于特征的方法是從文本中生成句法和語義等特征,以向量的形式呈遞給分類器,利用分類器判斷句子中實(shí)體對(duì)之間的關(guān)系。常用的分類模型包括最大熵模型 (MaxEnt)和支持向量機(jī) (SVM)[15],常用的特征工程為詞性特征(POS)、句法關(guān)系對(duì)(Sync Pair)、依存路徑、實(shí)體類型[16]及句法特征和文檔級(jí)特征[17]等?;诤说姆椒ㄊ菍?shí)體關(guān)系對(duì)編碼為某種結(jié)構(gòu),如序列、樹、圖、依存關(guān)系路徑等,核是計(jì)算對(duì)象之間相似度的函數(shù)。為提高從多句表達(dá)中提取關(guān)系的性能,Panyam等[18]修改了ASM 內(nèi)核模型,使其在化學(xué)物質(zhì)致病關(guān)系(Chemical-induced diseases,CID)抽取中的性能比其他機(jī)器學(xué)習(xí)的方法提升了4%。
基于特征進(jìn)行語義關(guān)系抽取的效果較好、速度很快,但該方法的重點(diǎn)不在于機(jī)器學(xué)習(xí)方法本身而在于如何選擇合適的特征描述訓(xùn)練數(shù)據(jù)的局部和全局特征,特征選取的好壞直接決定語義關(guān)系抽取結(jié)果的優(yōu)劣。此外,構(gòu)建特征工程和選擇最佳的特征工程組合需耗費(fèi)大量的時(shí)間和精力,并且很難找到新的有效特征進(jìn)一步提高醫(yī)學(xué)語義關(guān)系抽取的性能。不同于基于特征的方法,基于核的方法為多項(xiàng)式計(jì)算提供了較大的特征空間,不需要構(gòu)造固有的特征向量空間,不用枚舉所有的特征也可計(jì)算向量的點(diǎn)集,可靈活地利用多種不同的特征,彌補(bǔ)了基于特征方法的不足。但利用基于核的方法抽取醫(yī)學(xué)語義關(guān)系的速度較慢,不適合于大數(shù)據(jù)集的語義關(guān)系抽取。
1.3.2 基于深度學(xué)習(xí)的語義關(guān)系抽取
近年來,利用深度學(xué)習(xí)的方法抽取語義關(guān)系,在醫(yī)學(xué)語義關(guān)系抽取任務(wù)上占據(jù)了主導(dǎo)地位。常見的深度學(xué)習(xí)模型有卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN),兩種神經(jīng)網(wǎng)絡(luò)之間存在著顯著差異。CNN 模型可以捕獲基于卷積運(yùn)算的局部特征,更適合于短句子序列的語義抽?。籖NN模型善于學(xué)習(xí)長(zhǎng)期依賴特性,更適合處理長(zhǎng)句子,如Lee等[19]基于卷積神經(jīng)網(wǎng)絡(luò)提取概念之間的同義詞和下位詞之間的關(guān)系。
利用深度學(xué)習(xí)的方法抽取醫(yī)學(xué)語義關(guān)系,可大大減少人工特征工程的構(gòu)建。為進(jìn)一步提高模型的性能,還可在模型中引入位置特征、依賴關(guān)系[20]、先驗(yàn)知識(shí)和注意力機(jī)制等附加特征。例如,Lim S等[21]開發(fā)了一種包括位置特征和子樹包容特征等幾個(gè)附加功能的樹狀長(zhǎng)短期記憶網(wǎng)絡(luò) (TreeLSTM) 模型,用于提取化合物與基因之間的關(guān)系。Jianfeng等[22]將詞級(jí)別的注意力機(jī)制引入PCCN模型,以增加關(guān)鍵字的注意力權(quán)重。Huiwei等[23]提出一種基于依賴關(guān)系和先驗(yàn)知識(shí)的化學(xué)-疾病關(guān)系(Chemical-Disease Relations,CDR)抽取模型,即首先提取句子中化學(xué)和疾病對(duì)之間的最短依賴路徑 (SDP),包括詞語、依賴項(xiàng)的方向和依賴關(guān)系;在SDP上執(zhí)行卷積運(yùn)算,產(chǎn)生深層語義依賴特征;利用注意機(jī)制和知識(shí)庫對(duì)每個(gè)語義依賴向量構(gòu)建權(quán)重;結(jié)合依賴信息和先驗(yàn)知識(shí),利用含有加權(quán)語義依賴表示和知識(shí)表示的softmax層進(jìn)行分類。
1.3.3 基于混合方法的語義關(guān)系抽取
不同的模型在進(jìn)行語義關(guān)系抽取時(shí)各有優(yōu)勢(shì)。為更好地發(fā)揮各模型的優(yōu)勢(shì),提高醫(yī)學(xué)語義關(guān)系抽取的性能,近年來學(xué)者將研究焦點(diǎn)轉(zhuǎn)移到基于兩種或多種模型的混合方法,即結(jié)合2種或以上不同模型的優(yōu)勢(shì)構(gòu)建醫(yī)學(xué)語義關(guān)系抽取系統(tǒng)。李智恒等[24]將基于特征、基于圖核和基于規(guī)則的方法結(jié)合起來,利用半監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行句子級(jí)別和文檔級(jí)別的CID關(guān)系抽取,利用規(guī)則將句子級(jí)別和文檔級(jí)別的抽取結(jié)果進(jìn)行整合,生成最終結(jié)果;趙哲煥等[25]將基于深度學(xué)習(xí)和規(guī)則的方法結(jié)合在一起,利用句法卷積神經(jīng)網(wǎng)絡(luò)模型抽取存在某種關(guān)系的蛋白質(zhì)實(shí)體對(duì),而后基于句法模板和詞典匹配的方法抽取當(dāng)前兩個(gè)蛋白質(zhì)實(shí)體間的關(guān)系類型;Zhang Y等[26]人將 RNNs 和 CNNs模型結(jié)合,用于學(xué)習(xí)句子序列和依賴序列中的特征;Peng Y等人[27]將SVM、CNN和BiLSTM共3種模型結(jié)合在一起,構(gòu)建了一個(gè)化學(xué)-蛋白質(zhì)語義關(guān)系抽取系統(tǒng)。
將各模型混合在一起用于醫(yī)學(xué)語義關(guān)系抽取,可很好地利用各模型的優(yōu)勢(shì),提高醫(yī)學(xué)語義關(guān)系抽取的性能,基于大規(guī)模的人工標(biāo)注語料可進(jìn)一步提高模型的性能。但人工標(biāo)注耗時(shí)費(fèi)力、成本高,很難大規(guī)模推廣;基于無監(jiān)督的關(guān)系抽取得到的知識(shí)缺乏語義信息,很難歸一化;弱監(jiān)督雖然可以自動(dòng)生成大規(guī)模的訓(xùn)練預(yù)料,但需要使用已有的知識(shí)圖譜作為種子,且生成的語料也存在噪音數(shù)據(jù)的問題??梢?,目前構(gòu)建高性能、低語料依賴的醫(yī)學(xué)語義抽取模型仍是一難題。
醫(yī)學(xué)知識(shí)圖譜主要應(yīng)用在以下幾方面。
當(dāng)前患者“知癥不知病”“知病不知科”,醫(yī)院分診護(hù)士較少、工作量大的矛盾突出?;诖罅繖?quán)威的醫(yī)學(xué)先驗(yàn)知識(shí)和實(shí)時(shí)更新的患者健康及醫(yī)療數(shù)據(jù),以NLP技術(shù)(自然語言處理)為核心,結(jié)合醫(yī)學(xué)圖像圖像文字識(shí)別(Optical Character Recognition,OCR)能力和深度學(xué)習(xí)算法,構(gòu)建權(quán)威、完整、動(dòng)態(tài)的醫(yī)學(xué)知識(shí)圖譜,可將醫(yī)院導(dǎo)診服務(wù)從傳統(tǒng)的“依圖找科室”轉(zhuǎn)變?yōu)椤熬珳?zhǔn)找醫(yī)生”。基于底層構(gòu)建的知識(shí)圖譜,在患者掛號(hào)就診前,通過人機(jī)對(duì)話,幫助患者找到最適合的醫(yī)生,輔助醫(yī)生篩選出與其專業(yè)方向相匹配的患者,可有效改善患者就醫(yī)體驗(yàn),提高后續(xù)醫(yī)療服務(wù)的精準(zhǔn)度和效率與患者就診滿意度。
疾病篩查和預(yù)測(cè),是醫(yī)學(xué)知識(shí)圖譜典型應(yīng)用場(chǎng)景之一。利用人工智能技術(shù)構(gòu)建醫(yī)學(xué)知識(shí)圖譜,借以疾病診斷、預(yù)測(cè)模型,既可大量節(jié)省醫(yī)生查閱資料的時(shí)間,使其將主要精力和時(shí)間放在問診上,提高工作效率、緩解醫(yī)患關(guān)系,同時(shí)又能在疾病發(fā)生之前,提前進(jìn)行預(yù)警和干預(yù),減少治療成本,這對(duì)減輕我國(guó)醫(yī)療經(jīng)濟(jì)負(fù)擔(dān)具有重要意義。目前,許多企業(yè)已利用人工智能技術(shù)構(gòu)建了醫(yī)學(xué)知識(shí)圖譜,參與疾病篩查和預(yù)測(cè)。如“平安醫(yī)療科技”依托醫(yī)療大數(shù)據(jù)、知識(shí)圖譜平臺(tái)及疾病預(yù)測(cè)、影像分析與診斷、治療推薦和醫(yī)學(xué)自然語言理解四大引擎建立了智能眼部篩查、智能影像質(zhì)控、診斷、疾病風(fēng)險(xiǎn)預(yù)測(cè)及智能醫(yī)療助手五大智慧醫(yī)療解決方案,構(gòu)建了傳染病、慢性病智能預(yù)測(cè)和篩查模型,并為深圳、重慶等城市建立了疾病防控、預(yù)測(cè)體系。
我國(guó)正大力推廣分級(jí)診療政策,但目前醫(yī)生資源和患者數(shù)量供需嚴(yán)重不平衡,距離每2千人1名家庭醫(yī)生的目標(biāo)缺口還有50多萬,這很難在短時(shí)間內(nèi)填平;而且現(xiàn)在的家庭醫(yī)生普遍缺乏良好的培養(yǎng)體制,醫(yī)療水平有限,誤診率高達(dá)40%以上[28],這為醫(yī)學(xué)知識(shí)圖譜留出了很大的發(fā)揮空間。通過對(duì)診斷學(xué)、藥理學(xué)、心理學(xué)、傳染病學(xué)、遺傳病學(xué)、社會(huì)學(xué)等多學(xué)科的電子病歷、教科書、真人對(duì)話語料等數(shù)據(jù)進(jìn)行萃取、提煉、處理和加工,構(gòu)建多學(xué)科交叉醫(yī)學(xué)知識(shí)圖譜和利用知識(shí)圖譜的語義推理功能輔助醫(yī)生對(duì)兒童和成人的常見疾病進(jìn)行診斷,有助于優(yōu)化當(dāng)前疾病診斷和治療模式,彌補(bǔ)部分醫(yī)生醫(yī)學(xué)知識(shí)的不足,提高標(biāo)準(zhǔn)化診療水平和醫(yī)生工作效率及質(zhì)量。
當(dāng)前醫(yī)療保險(xiǎn)種類眾多、價(jià)格較貴,人們難以找到適合自己的醫(yī)療保險(xiǎn)類型。為讓更多人買到更高保額、更低保費(fèi)、更多保障范圍的保險(xiǎn)產(chǎn)品,提高產(chǎn)品的利潤(rùn)率,保險(xiǎn)公司紛紛進(jìn)行“AI+保險(xiǎn)”的技術(shù)升級(jí);通過將臨床醫(yī)學(xué)知識(shí)圖譜與人工智能相結(jié)合,精準(zhǔn)地分析投保人當(dāng)前風(fēng)險(xiǎn),預(yù)判未來風(fēng)險(xiǎn)趨勢(shì),幫助保險(xiǎn)公司有效降低風(fēng)險(xiǎn)保費(fèi),提升保險(xiǎn)公司的產(chǎn)品競(jìng)爭(zhēng)力和客戶體驗(yàn)。平安醫(yī)??萍纪ㄟ^構(gòu)建“藥品”“疾病”“處方”“健康因子”“醫(yī)生畫像”五大知識(shí)庫,構(gòu)建了精準(zhǔn)、全面的知識(shí)圖譜和數(shù)據(jù)湖,為用戶提供專業(yè)化、個(gè)性化、動(dòng)態(tài)化和集成化的智能醫(yī)保服務(wù)。
由于醫(yī)學(xué)知識(shí)專業(yè)性強(qiáng),醫(yī)患之間醫(yī)療信息不對(duì)稱的問題突出,部分患者難以理解醫(yī)生,而醫(yī)生也沒有足夠時(shí)間為患者講解,造成醫(yī)患關(guān)系惡化。在患者就診前,對(duì)其進(jìn)行相關(guān)的醫(yī)學(xué)知識(shí)科普宣傳,可有效地降低醫(yī)患之間的溝通成本,提高醫(yī)生工作效率,緩和醫(yī)患關(guān)系。利用醫(yī)學(xué)知識(shí)圖譜,可從患者視角出發(fā),將教科書式的醫(yī)學(xué)知識(shí)和治療方案解讀成患者易懂、實(shí)用的內(nèi)容,為患者提供疾病預(yù)防、治療的全流程參考意見,緩解治療過程中醫(yī)患信息不對(duì)稱的問題。此外,醫(yī)學(xué)知識(shí)圖譜還可將疾病治療費(fèi)用、常用藥品等關(guān)鍵信息嵌入其中,增加患者治療決策的參與度,提高就診體驗(yàn)。
知識(shí)圖譜具有強(qiáng)大的語義處理和開放獲取能力,是語義網(wǎng)和知識(shí)庫的升華[29]。人工智能技術(shù)的發(fā)展和應(yīng)用,提高了醫(yī)學(xué)知識(shí)圖譜的構(gòu)建效率和知識(shí)推理的準(zhǔn)確率,減少了構(gòu)建成本,為醫(yī)療行業(yè)的發(fā)展帶來了新的機(jī)遇,同時(shí)也帶來了一系列挑戰(zhàn)。
在數(shù)據(jù)層面上,醫(yī)療數(shù)據(jù)利用率不高。隨著我國(guó)醫(yī)療信息化的發(fā)展,各機(jī)構(gòu)雖然已積累了豐富的電子病歷和醫(yī)學(xué)科學(xué)文獻(xiàn)數(shù)據(jù),但各機(jī)構(gòu)之間數(shù)據(jù)壁壘高,數(shù)據(jù)無法實(shí)現(xiàn)互聯(lián)互通,大量數(shù)據(jù)停滯在一些淺層的應(yīng)用層面,難以向更深更廣處推進(jìn),公開獲取的中文醫(yī)學(xué)訓(xùn)練語料稀缺,醫(yī)療數(shù)據(jù)利用率不高。雖然大量高質(zhì)量的訓(xùn)練語料是進(jìn)行醫(yī)學(xué)知識(shí)圖譜構(gòu)建研究的基礎(chǔ),但當(dāng)前卻罕見可公開獲取的中文醫(yī)療標(biāo)注語料,增加了學(xué)者研究醫(yī)學(xué)知識(shí)圖譜構(gòu)建的成本和難度。中文醫(yī)學(xué)詞典和知識(shí)庫較少,中文醫(yī)學(xué)術(shù)語詞典和知識(shí)庫的稀缺,增加了中文醫(yī)學(xué)知識(shí)圖譜本體構(gòu)建或schema構(gòu)建的難度。此外,由于醫(yī)學(xué)術(shù)語別名眾多,臨床醫(yī)生病歷書寫不規(guī)范,也為醫(yī)學(xué)實(shí)體消歧帶來巨大阻礙。
在技術(shù)層面,中文醫(yī)療文本工具相對(duì)缺乏。中文醫(yī)療數(shù)據(jù)以半結(jié)構(gòu)化和非結(jié)構(gòu)化形式為主,需利用NLP技術(shù)對(duì)其進(jìn)行數(shù)據(jù)處理,但由于中文醫(yī)療語言獨(dú)特的語用規(guī)律,如中文、英文、符號(hào)、數(shù)字等多種字符混合使用,以及大量的縮略語、語法省略、醫(yī)學(xué)專業(yè)術(shù)語、特殊意義的符號(hào)等,致使很多英文文本處理工具不能很好地適用于中文文本的處理,增加了知識(shí)抽取的復(fù)雜性。同時(shí)可復(fù)制性差,醫(yī)學(xué)知識(shí)圖譜的技術(shù)棧比較長(zhǎng),圖譜構(gòu)建和運(yùn)維成本高。
對(duì)于今后醫(yī)學(xué)知識(shí)圖譜的研究,在數(shù)據(jù)源方面應(yīng)突破機(jī)構(gòu)間的數(shù)據(jù)壁壘,利用眾包技術(shù),增加可開放獲取的中文醫(yī)療標(biāo)注語料;專業(yè)機(jī)構(gòu)應(yīng)加強(qiáng)中文專業(yè)術(shù)語詞典和知識(shí)庫的構(gòu)建,為醫(yī)學(xué)領(lǐng)域提供更多規(guī)范化的詞典和知識(shí)庫。而在技術(shù)層面,可與人工智能技術(shù)相結(jié)合,利用深度學(xué)習(xí)、語音識(shí)別、圖像識(shí)別等技術(shù),構(gòu)建一個(gè)半自動(dòng)化或自動(dòng)化的、可自主學(xué)習(xí)和人機(jī)交互的醫(yī)學(xué)知識(shí)圖譜構(gòu)建和應(yīng)用的閉環(huán)系統(tǒng),以減少醫(yī)學(xué)知識(shí)圖譜構(gòu)建和運(yùn)維成本。