隨著醫(yī)療信息化的發(fā)展,人們越來越多地希望能夠從網(wǎng)絡(luò)上獲得更為準確的疾病診療信息。通常情況下,人們通過搜索關(guān)鍵詞,利用百度、Google等搜索引擎獲得相關(guān)的網(wǎng)頁信息。但是這些信息還需要用戶自行鑒別,要求用戶具備一定的鑒別能力。用戶如果想利用普通的搜索引擎檢索到更準確的信息,需要一定的檢索能力,如使用關(guān)鍵詞組合表達查詢需求而不是用自然語言進行簡單檢索。由于人們更期望能從簡單的提問中直接獲得答案,因此智能問答系統(tǒng)應(yīng)運而生。智能問答系統(tǒng)的優(yōu)勢在于用戶可以用自然語言提問,系統(tǒng)返回的是用戶所需答案而不是相關(guān)網(wǎng)頁,因此能更好地滿足用戶的需求[1]。
中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所從2002年開始研制的中醫(yī)藥學(xué)語言系統(tǒng),借鑒本體論的方法,收錄中醫(yī)藥學(xué)及其相關(guān)學(xué)科的概念和術(shù)語,建立了大型的中醫(yī)藥學(xué)詞庫及其語義網(wǎng)絡(luò),為中醫(yī)藥知識智能化獲取奠定了堅實的基礎(chǔ)。本文旨在探討如何以中醫(yī)藥學(xué)語言系統(tǒng)為基礎(chǔ)構(gòu)建知識問答系統(tǒng),利用用戶提問和在知識圖譜中匹配與用戶需求最接近的答案,從而實現(xiàn)中醫(yī)藥知識的智能問答。
問答系統(tǒng)(Question Answering System, QA)是信息檢索系統(tǒng)的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題[2]。問答系統(tǒng)的實現(xiàn)涉及自然語言處理、信息檢索、數(shù)據(jù)挖掘等交叉性領(lǐng)域。與傳統(tǒng)的搜索引擎相比,問答系統(tǒng)的檢索效率更高。用戶期望在提出問題后,系統(tǒng)對問題進行語義理解,通過智能數(shù)據(jù)分析得到問題的答案。智能問答系統(tǒng)可將自然語言與產(chǎn)品交互,改善用戶體驗,其應(yīng)用潛力巨大,受到各大IT廠家的追捧。近年來國外知名公司紛紛開發(fā)自己的智能問答系統(tǒng)。從表達知識的角度不同可以將智能問答系統(tǒng)分為基于知識庫的問答系統(tǒng)、基于受限語言的數(shù)據(jù)庫查詢系統(tǒng)、基于常用問答對的問答系統(tǒng)和基于信息檢索的問答系統(tǒng)。2010年左右興起的基于知識圖譜的問答,其底層就是一個龐大的知識庫,典型的系統(tǒng)有IBM Wason及Wolfram Alpha等。Wolfram Alpha是沃爾夫勒姆研究公司開發(fā)出的新一代的計算知識引擎,它以公眾和獲得授權(quán)的資源為數(shù)據(jù)基礎(chǔ),通過發(fā)掘建立了一個異常龐大的經(jīng)過組織的數(shù)據(jù)庫,最后利用高級的自然語言算法進行處理,給出最后答案?;谥R庫的問答是目前問答系統(tǒng)發(fā)展的趨勢。
現(xiàn)代醫(yī)學(xué)和中醫(yī)藥學(xué)領(lǐng)域的智能問答系統(tǒng)目前還處于研究和發(fā)展階段?,F(xiàn)代醫(yī)學(xué)方面,主要有以美國國立醫(yī)學(xué)圖書館的統(tǒng)一的醫(yī)學(xué)語言系統(tǒng)(Unified medical language system, UMLS)為基礎(chǔ)研究的智能問答系統(tǒng)。UMLS是美國國立醫(yī)學(xué)圖書館開發(fā)的一個大型術(shù)語集成系統(tǒng),具有集成性、跨領(lǐng)域和工具化等特點,在信息檢索、自然語言處理、電子病歷、健康數(shù)據(jù)標準等方面得到了廣泛的研究和應(yīng)用[3]。其在智能檢索中主要應(yīng)用于擴展檢索、語義檢索和問答式檢索。Wang等[4]設(shè)計了引入UMLS的臨床醫(yī)學(xué)自動問答系統(tǒng),比較完整地展示了問答式檢索的基本流程和對UMLS的深入應(yīng)用;Terol等[5]設(shè)計開發(fā)了基于自然語言處理技術(shù)的智能系統(tǒng)推斷醫(yī)學(xué)領(lǐng)域的邏輯問題,這個系統(tǒng)使用UMLS和wordNET處理和管理醫(yī)學(xué)領(lǐng)域的術(shù)語。
互聯(lián)網(wǎng)已成為獲取知識的重要途徑,人們經(jīng)常利用互聯(lián)網(wǎng)進行自診,根據(jù)自己的癥狀搜索可能的疾病。在醫(yī)生給出診斷之后,又經(jīng)常在互聯(lián)網(wǎng)上檢索疾病相關(guān)的保健、康復(fù)等知識。目前國內(nèi)的醫(yī)療問答網(wǎng)站中,“好大夫”“尋醫(yī)問藥”等網(wǎng)站的主要模式是用戶公開提問,描述自己的病情,然后醫(yī)生回復(fù)診斷和治療相關(guān)的建議。上述這些網(wǎng)站和平臺提供的問答模式都是醫(yī)生進行在線回復(fù)或搜索給出相關(guān)檢索結(jié)果,尚未有智能知識問答系統(tǒng)提供服務(wù)。
中醫(yī)藥是我國醫(yī)療行業(yè)的重要組成部分,也是人們治未病、保健、養(yǎng)生的重要手段,智能知識問答系統(tǒng)在中醫(yī)藥領(lǐng)域的應(yīng)用也急需研究和發(fā)展。近年來有不少專家學(xué)者對中醫(yī)藥領(lǐng)域的智能問答系統(tǒng)進行了研究,主要都集中于構(gòu)建中醫(yī)藥某子領(lǐng)域本體,并基于本體構(gòu)建智能問答系統(tǒng)。如顧琳等[6]研發(fā)了基于本體的亞健康中醫(yī)輔助診斷系統(tǒng),該系統(tǒng)采用半自動方式獲取知識,構(gòu)建中醫(yī)亞健康本體,在領(lǐng)域本體驅(qū)動下進行基于模糊推理的方法對亞健康癥狀中醫(yī)輔助診斷知識進行推理;溫思琦等[7]針對中醫(yī)治療冠心病構(gòu)建自動問答系統(tǒng),采用文獻資料構(gòu)建中醫(yī)冠心病本體,然后設(shè)計了針對中醫(yī)冠心病受限領(lǐng)域的自動問答系統(tǒng)的實現(xiàn)方案。但是這些研究都未真正基于中醫(yī)藥領(lǐng)域本體構(gòu)建出實用的智能問答系統(tǒng)。
本文期望以中國中醫(yī)科學(xué)院信息所長期以來的研究成果——中醫(yī)藥學(xué)語言系統(tǒng)為基礎(chǔ),構(gòu)建實用的中醫(yī)智能問答系統(tǒng)。
本文以中醫(yī)藥學(xué)語言系統(tǒng)為基礎(chǔ),引入自然語言處理、知識庫、自動問答、信息檢索等技術(shù),結(jié)合中醫(yī)藥信息領(lǐng)域?qū)<业慕?jīng)驗知識,構(gòu)建一套智能知識問答系統(tǒng)。該系統(tǒng)將中醫(yī)藥學(xué)語言系統(tǒng)中的知識本體、專業(yè)概念術(shù)語、語義關(guān)系等規(guī)范的知識表示與醫(yī)學(xué)文獻中臨床病案有機結(jié)合起來,將相關(guān)癥狀、病證、治法、用藥等知識實體構(gòu)建關(guān)聯(lián)知識圖譜,通過自動問答技術(shù)為疾病的臨床診斷治療提供輔助方案。系統(tǒng)整體設(shè)計如圖1所示。
圖1 系統(tǒng)整體設(shè)計思路
本文以 “月經(jīng)病”為例介紹研究方案。
目前國內(nèi)的醫(yī)療問答網(wǎng)站中,“好大夫”“尋醫(yī)問藥”等網(wǎng)站的主要模式是用戶公開提問、描述病情后,醫(yī)生回復(fù)診斷和治療相關(guān)的建議。除了少量由用戶設(shè)置為隱私的數(shù)據(jù),其他的任何人均為自由訪問?!按河赆t(yī)生”平臺的目標則是建立醫(yī)生和患者之間的離線商務(wù)模式,使網(wǎng)站成為醫(yī)生和患者之間診斷治療的前臺。人群調(diào)研也顯示普通大眾對于常見病、多發(fā)病的網(wǎng)絡(luò)了解需求也日漸增加,不再滿足于網(wǎng)頁搜索給出的泛泛結(jié)果,更傾向于能夠獲得對自己提問更有針對性的直接回答。
月經(jīng)病是指月經(jīng)經(jīng)量、顏色、周期、經(jīng)期發(fā)生了異常的變化,臨床上包括月經(jīng)先期、月經(jīng)后期、月經(jīng)先后無定期、行經(jīng)期延長、月經(jīng)過多、月經(jīng)過少、崩漏、閉經(jīng)等,是婦科常見病、多發(fā)病。雖然給患者帶來的痛苦不大,但有些患者因為忙碌等其他原因不能及時去醫(yī)院就醫(yī)而比較傾向于在網(wǎng)絡(luò)中先尋求答案,更希望獲得的答案具有針對性,能解決問題。
本文數(shù)據(jù)內(nèi)容包括3部分。
第一部分是文獻數(shù)據(jù)。在“中國中醫(yī)藥數(shù)據(jù)庫”中通過主題檢索“月經(jīng)病”進行加權(quán)拓展檢索,即包括主題詞表 “月經(jīng)病”及其下位詞“崩漏”“閉經(jīng)”“功能性子宮出血”“經(jīng)前期綜合征”“逆經(jīng)”“痛經(jīng)”“月經(jīng)過多”“月經(jīng)過少”“月經(jīng)失調(diào)”所有主題詞的文獻,結(jié)果返回14 231篇文獻;然后通過特征詞二次檢索“病例報告”,即文獻中含有實際病例的文獻,結(jié)果返回5 653篇文獻。以這些文獻中的病例記錄為本文的數(shù)據(jù)基礎(chǔ),將篩選出的文獻中的病歷部分進行文本化。
第二部分是醫(yī)案數(shù)據(jù)。本文采集現(xiàn)代婦科專家病案60余本,對其中的月經(jīng)病醫(yī)案進行整理。
第三部分是教材。采集中醫(yī)藥院?!吨嗅t(yī)婦科學(xué)》與《方劑學(xué)》中關(guān)于月經(jīng)病治療的文本,作為經(jīng)典數(shù)據(jù)。
中醫(yī)藥知識問答系統(tǒng)主要分為知識抽取模塊,知識庫管理模塊、自動問答模塊、術(shù)語反饋模塊和信息檢索模塊五大模塊。
3.3.1 知識抽取模塊
為實現(xiàn)知識概念、知識屬性、知識關(guān)系、知識分類等知識實體信息的抽取和融合,系統(tǒng)將基于中醫(yī)藥學(xué)語言系統(tǒng)結(jié)合中文分詞、命名實體抽取、屬性抽取、關(guān)聯(lián)關(guān)系抽取等自然語言處理關(guān)鍵技術(shù)對中醫(yī)文獻進行知識實體信息抽取,為中醫(yī)藥領(lǐng)域知識庫的構(gòu)建提供數(shù)據(jù)支持。
3.3.2 知識圖譜管理模塊
基于中醫(yī)藥學(xué)語言系統(tǒng),利用知識抽取模塊產(chǎn)生的知識實體信息形成知識圖譜,并進行有效的存儲和管理。知識圖譜是由“節(jié)點”和“邊”組成的、具有語義相關(guān)特性的網(wǎng)絡(luò),其中“節(jié)點”表示各種知識實體(包括領(lǐng)域基本概念、專業(yè)術(shù)語、專有名詞等,知識實體可以具有多重屬性信息),“邊”表示知識實體間的多種關(guān)系。中醫(yī)藥知識圖譜是實現(xiàn)知識問答的基礎(chǔ),知識問答系統(tǒng)基于中醫(yī)藥知識圖譜的知識實體及關(guān)聯(lián)關(guān)系可以發(fā)現(xiàn)用戶問題中的關(guān)聯(lián)知識,并通過進一步的推理,利用關(guān)鍵概念和實體的權(quán)重獲得用戶問題的答案。
3.3.3 自動問答模塊
在用戶輸入病情描述后,基于中醫(yī)藥學(xué)語言系統(tǒng)的標準化知識表示,利用中文分詞、命名實體抽取技術(shù),將患者描述的自然語言轉(zhuǎn)化為癥狀等規(guī)范知識表示;然后基于知識圖譜查找關(guān)聯(lián)知識體系,判斷用戶可能患有的病證及其概率,給出病證的相關(guān)信息,并通過與用戶交互反饋形成較為可信的結(jié)論;同時將利用信息搜索功能,將相似度達到一定比例病案找出來,為用戶提供輔助診療建議。
3.3.4 術(shù)語反饋模塊
對知識抽取結(jié)果進行分析比對識別新的術(shù)語信息,并將其反饋給中醫(yī)藥語言系統(tǒng),經(jīng)過專家審核確定是否新術(shù)語在語言系統(tǒng)中的添加。由此形成一個良性循環(huán),為中醫(yī)藥學(xué)語言系統(tǒng)提供更多的概念術(shù)語,同時也為知識庫和知識圖譜的構(gòu)建充實更多的語料。
3.3.5 信息檢索模塊
對中醫(yī)文獻等數(shù)據(jù)資源和知識圖譜數(shù)據(jù)建立全文索引,提供病案文本和知識圖譜的全文檢索功能。自動問答模塊在獲取到用戶數(shù)據(jù)以后,將提煉出的規(guī)范知識表示作為輸入調(diào)用信息檢索模塊,信息檢索模塊將根據(jù)索引信息獲得相關(guān)的病案和知識實體信息,并根據(jù)相似度進行排序輸出。
構(gòu)建基于中醫(yī)藥學(xué)語言系統(tǒng)的知識問答系統(tǒng),有助于幫助人們用更便捷的方式獲得中醫(yī)藥診療知識,改變傳統(tǒng)搜索引擎帶來的檢索弊端。該系統(tǒng)從語義表達的角度,以知識圖譜的形式分析用戶自然語言檢索的語義邏輯關(guān)系,為用戶提供精準的信息資源。同時,根據(jù)用戶自然語言的輸入及時反饋,可促進中醫(yī)藥學(xué)語言系統(tǒng)的發(fā)展、豐富系統(tǒng)內(nèi)容、優(yōu)化語義關(guān)系,從而進一步提高其效能。