韓 普 葉東宇 陳文祺 顧 亮
(1.南京郵電大學管理學院,江蘇 南京 210003;2.江蘇省數(shù)據工程與知識服務重點實驗室,江蘇 南京 210023)
以習近平同志為核心的黨中央始終“把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置”,黨的二十大報告也提出“推進健康中國建設,把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置”。醫(yī)療健康事關人民生命健康安全,對經驗和知識依賴性強,需要精準、全面、高質量的知識服務[1-2]。知識組織是知識服務的前提和基礎[3-5],醫(yī)療健康數(shù)據的知識組織水平很大程度上決定了醫(yī)療健康知識服務的效率和質量[1]。
隨著互聯(lián)網和信息技術的快速發(fā)展,各類醫(yī)療健康活動產生了海量的文本、圖片、視頻和音頻等多模態(tài)數(shù)據。多模態(tài)數(shù)據雖然在底層表征上是異構的,但是相同實體的不同模態(tài)數(shù)據在高層語義上是一致的,表達相同或相似的語義信息。傳統(tǒng)知識組織體系主要針對單模態(tài)數(shù)據進行知識組織,難以支撐醫(yī)療健康領域多模態(tài)數(shù)據的語義表示、知識關聯(lián)和融合,當前迫切需要一種更為完善的知識組織方法對類型繁多、專業(yè)性強、分布稀疏的多模態(tài)醫(yī)療健康數(shù)據進行序化和組織。有效的知識組織模式不僅有助于縮小多模態(tài)數(shù)據間的異構鴻溝,獲得更強的語義理解、知識補全和知識推理能力,而且有助于提升多模態(tài)數(shù)據資源的利用效率和知識服務水平,從而更好地服務于“健康中國”國家戰(zhàn)略。
知識組織概念最早由分類法專家Bliss在1929年首次提出,1964年袁翰青教授在國內最早使用了知識組織的表述[6],隨后劉洪波[7]和王知津[8]等國內學者針對知識組織概念、模型、方法和應用進行了早期的理論和實踐探索。作為圖情理論和實踐研究的核心與熱點研究問題,隨著信息技術不斷發(fā)展,知識組織相關理論和實踐都取得了顯著進步。尤其是得益于大數(shù)據和深度學習的進步,知識組織的理論、方法和技術研究成為近些年圖書情報學領域的前沿課題[9-10]。本小節(jié)主要從模態(tài)視角和領域視角對知識組織的最新研究進展進行梳理。
大數(shù)據時代信息傳播豐富多彩,用戶獲取的信息不僅局限于傳統(tǒng)文本模態(tài),還包含了圖像、音頻和視頻等多模態(tài)數(shù)據。在此背景下,如何將多模態(tài)數(shù)據進行知識序化形成科學有效的知識組織體系成為當前學界的關注熱點[11]。已有研究主要從多模態(tài)知識融合、知識表示和實踐應用方面進行了重點關注。在方法和技術方面,Wang M等[12]借助維基百科圖像描述中的超鏈接信息關聯(lián)文本和圖像,以生成多模態(tài)語義關系。在實踐應用方面,Su J等[13]構建了可捕捉文本和圖像語義信息交互的多模態(tài)神經機器翻譯模型;蔣雨肖等[14]利用深度學習模型融合文本和圖像的語義特征,進而實現(xiàn)多模態(tài)信息分類。隨著深度學習和多模態(tài)學習的發(fā)展,多模態(tài)知識圖譜成為知識組織的重要方法和工具[15]。Xia F等[16]在已有醫(yī)學知識圖譜基礎上,借助圖像檢索構建醫(yī)學多模態(tài)知識圖譜;張瑩瑩等[17]在中文癥狀知識圖譜基礎上,融入圖片以豐富實體的視覺信息。在數(shù)字人文領域,視覺資源對象語義內容豐富[18-19];曾子明等[18]提出一種基于關聯(lián)數(shù)據的視覺資源組織方法來揭示知識間內在語義關聯(lián);夏立新等[20]和莊文杰等[21]分別以資源社會化標簽和視頻知識元進行非遺視覺資源的知識組織;周知等[22]提出了一種4層架構的數(shù)字人文圖像資源知識組織模型。
已有研究主要對多模態(tài)知識組織中的相關方法和技術進行了研究,這些研究大大拓展了多模態(tài)知識組織實踐的范圍,為多模態(tài)知識組織深入研究奠定了基礎??傮w上,相關研究主要停留在傳統(tǒng)的描述階段,盡管有部分文獻根據資源特征構建了基于關聯(lián)數(shù)據的知識組織模型,但主要依賴不同模態(tài)數(shù)據的元數(shù)據,難以充分利用多模態(tài)數(shù)據的深層語義信息,多模態(tài)數(shù)據資源的深度序化和模態(tài)間語義關聯(lián)迫切需要充分利用多模態(tài)數(shù)據的固有特征信息進行知識組織。
隨著知識組織研究的深入以及用戶精準知識服務的需求的推動,知識組織正走向領域知識組織時代[5-6]。醫(yī)療健康領域知識專業(yè)性強,實體數(shù)量巨大、更新速度快且實體間語義關系非常復雜[23-24]。已有文獻主要對醫(yī)療健康領域知識組織中的實體識別、實體對齊和關系抽取等關鍵問題進行了研究。在實體識別方面,Li L等[25]基于注意力機制與雙向長短期記憶網絡,提出一種改進的中文電子病歷實體識別模型,解決了長文本中遠距離帶來的信息缺失問題;Ji B等[26]基于多神經網絡協(xié)同合作方法,構建了中文醫(yī)學命名實體識別模型,并通過遷移學習引入非目標場景數(shù)據集提高模型泛化能力。在實體對齊方面,Hao J等[27]基于本體論、語義網和圖神經網絡提出了一種端到端實體對齊框架Medeto,有效提高了醫(yī)學知識庫中本體匹配的準確率;Su F等[28]采用關系聚合網絡提取文本特征,通過輔助信息不參與網絡反向傳播有效地提高了實體對抽取的效率。在關系抽取方面,Alicante A等[29]提出一種無監(jiān)督方法來抽取臨床記錄中的實體和實體間關系;Bai T等[30]設計了一種基于卷積神經網絡的分段關注機制,進而抽取中醫(yī)草藥文獻中實體間的語義關系。
作為實現(xiàn)醫(yī)療健康領域知識組織目標的最佳途徑之一,知識圖譜能夠以一種便于機器存儲、識別和理解的方式對數(shù)據進行有效的組織與管理[31],相關研究近些年受到了學界的極大關注[32]。為解決多源健康知識的異構問題,馬費成等[9]采用五元組形式進行健康知識表示。王文韜等[33]基于粒度原理將健康領域知識解構成不同知識單元。Warnat H S等[2]利用醫(yī)療健康數(shù)據和機器學習模型構建了疾病分類系統(tǒng)。以醫(yī)學學術文獻為數(shù)據源,Zhu C等[34]構建了疾病知識圖譜,蔡妙芝等[23]采用SPO語義三元組進行疾病知識組織?;趯めt(yī)問藥網結構化信息,武家偉等[35]構建了“疾病—癥狀”知識圖譜。陸泉等[36]提出了一個基于擴展疾病本體的醫(yī)學數(shù)據組織模型,實現(xiàn)電子病歷大數(shù)據的知識描述與組織。
綜上所述,現(xiàn)有的醫(yī)療健康知識組織傾向于在單模態(tài)視角下探討不同應用場景下的具體問題,部分研究關注了不同模態(tài)數(shù)據技術層面的知識融合,但缺少系統(tǒng)的多模態(tài)知識組織理論架構。多模態(tài)醫(yī)療健康數(shù)據的涌現(xiàn)使跨模態(tài)語義理解與知識組織變得更加迫切,有效的知識組織不僅能夠更全面地揭示不同模態(tài)醫(yī)療健康數(shù)據之間的語義關聯(lián),同時也能夠利用多模態(tài)數(shù)據補全做出更準確的疾病預測[37]。本研究將從多模態(tài)和多粒度視角下探究醫(yī)療健康數(shù)據的知識單元抽取、多模態(tài)知識單元構建和多模態(tài)知識圖譜補全等問題,進而構建醫(yī)療健康領域多模態(tài)知識組織模式,并在醫(yī)療健康知識問答等應用場景進行分析。
多模態(tài)醫(yī)療健康知識組織模式最終是實現(xiàn)多模態(tài)醫(yī)療健康數(shù)據的有效組織和應用。多模態(tài)醫(yī)療健康知識組織模式的關鍵步驟是通過醫(yī)療健康數(shù)據內涵特征分析,在已有的醫(yī)療知識圖譜基礎上融入其他模態(tài)信息以補全語義知識,并通過語義關聯(lián)為用戶提供醫(yī)療健康知識服務。其中,相較于傳統(tǒng)的知識組織模式,本文的多模態(tài)知識組織模式創(chuàng)新之處在于從醫(yī)療健康數(shù)據知識單元抽取和多模態(tài)知識單元構建方面強化多模態(tài)知識的深度處理與利用。具體如圖1所示。
圖1 多模態(tài)醫(yī)療健康數(shù)據的知識組織模式設計及應用方案
本文以醫(yī)療健康領域電子病歷文本和圖像數(shù)據為知識組織案例,按照圖1進行數(shù)據獲取及預處理、知識單元抽取、多模態(tài)知識單元構建、多模態(tài)知識組織表示以及知識服務應用的技術流程論證分析。
高質量的多模態(tài)數(shù)據集是實現(xiàn)醫(yī)療健康知識組織的基礎,本文的多模態(tài)醫(yī)療健康數(shù)據來源于醫(yī)療機構、在線健康平臺和醫(yī)學知識庫,主要包含文本、圖像、音頻和視頻4種模態(tài)數(shù)據。本研究一方面從合作醫(yī)療機構的臨床電子病歷獲取文本及CT、X光和超聲等醫(yī)學圖像數(shù)據,并對用戶隱私信息進行脫敏處理;另一方面利用爬蟲獲取疾病百科、醫(yī)學文獻和在線健康平臺的文本及圖像數(shù)據;另外,還通過在線短視頻平臺獲取音視頻模態(tài)數(shù)據。
盡管可利用的多模態(tài)醫(yī)療健康數(shù)據較多,但是不同來源的數(shù)據質量參差不齊,尤其是包含大量用戶生成內容的在線健康平臺數(shù)據需要清洗和加工。具體而言,首先通過去重、填補缺失值、處理異常值等方法對多模態(tài)數(shù)據進行預處理;然后利用YEDDA、CVAT、Praat和VoTT等標注工具對文本、圖像、音頻和視頻數(shù)據進行多輪標注;接著基于人工隨機檢查標注結果對多模態(tài)知識實體及語義關系標注規(guī)范進行適時修正;最終通過標注一致性檢驗,獲得高質量的多模態(tài)醫(yī)療健康標注數(shù)據集。
知識單元是知識的基本組分,對知識序化和知識組織有著極其重要的作用。雖然知識單元的分類標準與表達形式目前尚未統(tǒng)一,但已有研究多傾向于使用N元組描述知識單元[38]。一方面采用N元組形式可以將知識單元更好地表示為機器可處理的形式;另一方面可以更方便地實現(xiàn)知識圖譜的知識補全[39]?;谝陨峡紤],本文將使用三元組形式表示各模態(tài)醫(yī)療健康數(shù)據中的知識單元,進而為后續(xù)的多模態(tài)知識單元構建和知識圖譜補全奠定基礎。本研究中,每個模態(tài)數(shù)據知識單元定義為實體與實體間關系所構成的三元組,因此各模態(tài)數(shù)據中實體和實體間關系抽取是后續(xù)研究的關鍵環(huán)節(jié)。
盡管已有研究驗證了深度學習在實體識別任務上的優(yōu)勢,但醫(yī)療健康領域多模態(tài)數(shù)據具有高度的專業(yè)性,存在不同模態(tài)數(shù)據均指向同一實體的現(xiàn)象。如圖2所示,多模態(tài)醫(yī)療健康數(shù)據中文本描述“腫塊”、音頻數(shù)據“占位”、醫(yī)學影像中A區(qū)域和視頻中B部分,雖然描述方式不同,但均表征“腫瘤”疾病這一實體。此外,醫(yī)療健康領域各實體間還存在大量的一對多關系。這些因素給多模態(tài)醫(yī)療健康數(shù)據的知識單元抽取帶來了很大挑戰(zhàn)。因此,如何解決多模態(tài)數(shù)據中實體對齊和關系抽取是本部分的研究重點。
圖2 多模態(tài)醫(yī)療健康數(shù)據實體對齊
實體對齊是判斷不同數(shù)據源和不同模態(tài)實體是否為指向同一對象的過程。在已有研究基礎上,本小節(jié)首先利用深度神經網絡對文本、圖像、音頻和視頻數(shù)據進行特征抽?。蝗缓蠼柚鶤lignE、AVR-GCN和Cross-KG等方法實現(xiàn)多模態(tài)知識實體對齊和消融;最終構建<腫塊/占位/圖像A/視頻B>的實體對。
本研究中關系抽取任務主要是針對文本模態(tài)數(shù)據。由于醫(yī)療健康領域專業(yè)性強、實體表述多樣,實體間語義關系復雜,尤其關系重疊現(xiàn)象比較常見,如圖3中文本模態(tài)數(shù)據“左肺見高密度腫塊”中的實體“腫塊”與“左肺”和“高密度”均存在語義關系??紤]到傳統(tǒng)聯(lián)合抽取和Pipeline抽取方法難以解決此類問題,本研究采用端到端多模態(tài)生成模型抽取實體間語義關系。
圖3 多模態(tài)醫(yī)療健康數(shù)據中醫(yī)學實體關系抽取模型
在實體關系抽取任務中,首先將文本模態(tài)和圖像模態(tài)數(shù)據輸入編碼器(Encoder),然后將編碼后的信息輸入到解碼器(Decoder)中進行解碼,接著由解碼器生成包含實體和關系的序列“腫塊
圖3中,“腫塊
現(xiàn)有的多模態(tài)知識融合和知識組織研究大多直接將圖片與文本實體構成的知識單元嵌入知識圖譜[17,40]。但知識單元不是獨立存在的,只有將其置于原始語境下,才能夠最大化地理解知識單元的價值和作用[39]。本研究提出的知識組織模式創(chuàng)新之處在于整合多模態(tài)醫(yī)療健康數(shù)據以構建多模態(tài)知識單元,并在此基礎上實現(xiàn)醫(yī)療健康知識圖譜的模態(tài)補全,其中多模態(tài)知識單元是在特定語境下對特定知識實體及其關系的整合,相較于單模態(tài)的知識單元在內容上更加豐富。具體而言,多模態(tài)知識單元構建分為知識評估與知識融合兩個步驟。首先,對三元組形式的知識單元進行評估以剔除噪聲和無關信息進而得到知識真值;其次,融合知識真值與醫(yī)學知識庫中的專業(yè)知識得到包含上下文語義信息的多模態(tài)知識單元。本部分以圖4為例,通過知識評估與知識融合生成多模態(tài)知識單元。
圖4 醫(yī)療健康多模態(tài)知識單元構建過程
知識評估是通過關系構建、概率計算和評估排序得到多模態(tài)醫(yī)療健康數(shù)據中知識真值的過程。具體而言,首先基于YOLO和BiLSTM-CRF等算法對圖4中腦膜瘤多模態(tài)數(shù)據進行實體識別,分別抽取其圖像實體T1和T2,以及文本實體“右側鞍旁”和“形狀規(guī)則占位”;接著通過關系構建枚舉多模態(tài)知識實體間所有的關系路徑;然后將每條路徑作為訓練專家,通過隨機游走關系路徑圖來計算每條關系路徑終點的概率值[41];最后利用醫(yī)學知識庫中語義關系對預測結果進行排序評估并得到知識真值“<右側鞍旁,T2,形狀規(guī)則占位>”。
鑒于已有單模態(tài)文本的醫(yī)學知識圖譜研究已較為成熟[34-35],本研究在文本知識圖譜基礎上進行多模態(tài)醫(yī)療健康知識組織表示和補全,該部分工作主要包含多模態(tài)知識五元組構建和知識圖譜補全兩部分。五元組構建是在各模態(tài)知識單元基礎上,采用五元組形式對多模態(tài)醫(yī)療健康知識進行組織,具體以<多模知識單元U,實體E,關系R,領域D,參考源S>五元組形式TM進行存儲。其中,U包括文本單元UL、圖像單元UP、視頻單元UV和音頻單元UA,E表示實體集合,R表示實體間關系集合,D表示領域集合,S是描述參考源集合,TM=(UL∪UP∪UV∪UA)×E×R×D×S。如圖5所示,首先將包含圖像單元UP和文本單元UL的多模知識單元“神經源性腫瘤”存儲在U中;接著將通過實體識別和關系抽取的各部分實體以及實體間語義關系集分別存儲在E和R中;最后基于本體知識表示方法,將其他模態(tài)信息存儲在領域D中,將數(shù)據來源信息存儲在參考源S。
圖5 多模態(tài)醫(yī)療健康知識五元組構建(以文本—圖像為例)
知識圖譜補全是指將多模態(tài)知識五元組融入現(xiàn)有單模態(tài)醫(yī)學知識圖譜。本部分采用語義相似度計算和語義映射的方法將多模態(tài)知識五元組融入現(xiàn)有的知識圖譜,具體包含實體映射和關系映射兩部分。如圖6所示,多模態(tài)知識五元組中,實體E存在文本實體T1“右下縱膈”和T6“神經源性腫瘤”,關系R中具有T6-T1“發(fā)病部位”和T6-P1“圖片對應”;單模態(tài)醫(yī)學知識圖譜包含實體“縱膈”和“神經源性腫瘤”與表示關系的三元組“<神經源性腫瘤,發(fā)病部位,后縱膈、椎管內、腹膜后等>”。實體映射是將多模態(tài)知識五元組中的文本實體T1和T6分別同單模態(tài)醫(yī)學知識圖譜中的實體1和實體2建立映射;關系映射是將關系“T6-T1”和單模態(tài)醫(yī)學知識圖譜中關系1建立映射。由于單模態(tài)醫(yī)學知識圖譜不存在圖片數(shù)據,因此將“T6-P1”作為關系2“圖片對應”補全到單模態(tài)知識圖譜中,最終以
圖6 多模態(tài)醫(yī)療健康知識補全過程
本研究構建的多模態(tài)醫(yī)療健康知識組織模式可應用于跨模態(tài)知識檢索、視覺問答和輔助決策支持等應用場景。本節(jié)以醫(yī)療健康問答系統(tǒng)為實踐應用,驗證多模態(tài)知識組織模式在語義消歧和知識補全方面的優(yōu)勢,增強知識服務的有效性和全面性。
本研究構建的醫(yī)療健康知識問答系統(tǒng)主要分為用戶知識需求分析和動態(tài)知識匹配兩部分。知識需求分析通過獲取用戶的基本信息和主題意圖生成用戶知識需求模型。具體而言,首先通過基于規(guī)則和統(tǒng)計的方法獲取用戶基本信息,接著采用主題挖掘抽取用戶請求的主題意圖進而構建用戶知識需求模型;知識匹配是在多模態(tài)知識圖譜基礎上,利用語義相關度計算得到與用戶知識需求相關度高的知識標引結果集,并通過語義關聯(lián)實現(xiàn)用戶知識需求與多模態(tài)醫(yī)療健康知識的精準匹配。
本文以網上問診為例,構建基于多模態(tài)知識圖譜的醫(yī)療健康知識問答系統(tǒng),具體如圖7所示。在知識需求分析階段,首先利用多模態(tài)實體識別、目標檢測和關系抽取等方法獲取用戶提交數(shù)據的關鍵信息,然后采用主題挖掘方法對用戶查詢請求的主題意圖進行識別,進而構建用戶知識需求模型。具體地,首先分析和處理用戶提交的數(shù)據,抽取如“疼痛”“不均”“陰影”和醫(yī)學影像圖中病變部位等關鍵信息,然后基于主題挖掘算法識別用戶查詢請求的主題意圖并構建用戶知識需求模型。在知識匹配階段,首先計算用戶知識需求模型與多模態(tài)醫(yī)療健康知識單元的語義相關度,得到相關度較高的知識標引結果集,并利用多模態(tài)實體的語義關聯(lián)實現(xiàn)語義消歧,最終向用戶提供匹配度高的多模態(tài)醫(yī)療健康知識。具體地,通過語義相似度計算得到與用戶知識需求匹配度較高的知識標引結果集“肝膿腫”和“脂肪肝”。實際情況下,知識標引結果集中相關概念與用戶知識需求可能存在歧義,這將造成系統(tǒng)推送錯誤信息,如“脂肪肝”的病癥“密度降低”是指全肝密度降低,而用戶知識需求模型中“低密度陰影”則表明病變部位密度較低。因此系統(tǒng)將知識標引結果集與用戶知識需求進行多模態(tài)實體的語義關聯(lián),計算出用戶知識需求中“低密度”“不均”等實體與“肝膿腫”中文本和圖像實體具有最高關聯(lián)度,進而實現(xiàn)語義消歧,最終系統(tǒng)將可能性最高的結果“肝膿腫”及相關信息推送給用戶。
圖7 基于多模態(tài)知識圖譜的醫(yī)療健康問答系統(tǒng)
隨著信息技術的發(fā)展和大數(shù)據時代的到來,醫(yī)療健康領域文本、圖像、視頻數(shù)據增長迅速,傳統(tǒng)知識組織體系主要針對文本模態(tài)數(shù)據進行知識組織,目前迫切需要一種有效的組織方法對多模態(tài)數(shù)據進行序化整理組織以提升數(shù)據資源的利用效率,進而為用戶提供多維度多樣化知識服務。本文從多模態(tài)視角,通過分析文本、圖像、音頻和視頻多模態(tài)數(shù)據的內在特性和多模態(tài)數(shù)據間深層語義關系,基于多模態(tài)知識圖譜和語義知識組織框架,提出一種面向多模態(tài)醫(yī)療健康數(shù)據的知識組織模式,重點從多模態(tài)醫(yī)療健康數(shù)據的獲取和預處理、醫(yī)療健康數(shù)據的知識單元抽取、多模態(tài)知識單元構建、多模態(tài)知識組織表示和基于多模態(tài)醫(yī)療健康知識圖譜的知識服務等關鍵層面分析了具體實現(xiàn)路徑。本研究一方面推進了多模態(tài)知識組織的理論深度;另一方面有助于提升多模態(tài)數(shù)據資源的利用效率和知識服務水平,對提升國民健康信息素養(yǎng)和創(chuàng)新知識服務具有重要的現(xiàn)實意義。