任秋靜,溫川飆
(成都中醫(yī)藥大學,四川 成都 610075)
人工智能是一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推理和學習)相關的各種功能的模型和系統(tǒng)[1]。其研究領域包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能技術目前應用于各個領域,產(chǎn)生了各類與其相關的交叉學科。而作為新興交叉學科之一的中醫(yī)藥信息化發(fā)展至今,已經(jīng)形成了諸多喜人的成果,人工智能與中醫(yī)藥結合的應用研究在不斷成長和突破。
中醫(yī)藥在人工智能的研究和應用上盡管有所發(fā)展,但仍遠落后于西方現(xiàn)代醫(yī)學。我們在知網(wǎng)檢索中以人工智能為主題共檢索到158587 條結果;以“人工智能醫(yī)學”為主題檢索到2152 條;而以“人工智能中醫(yī)”為主題則檢索到598 條,在醫(yī)學領域占比約27%。通過中國知網(wǎng)發(fā)文趨勢統(tǒng)計圖(圖1)可以看出“人工智能中醫(yī)”文獻數(shù)在2016 年以后顯著增漲。因此我們選取了2016 年至2020 年間關于知識系統(tǒng)構建方向的論文按照基礎本體和分科知識系統(tǒng)兩部分進行歸類總結和梳理。
圖1 中國知網(wǎng)“人工智能中醫(yī)”發(fā)文趨勢統(tǒng)計
2016 年孫靜等[2]構建了癥狀本體表達模型。研究依據(jù)中醫(yī)診法劃分癥狀本體類,癥狀本體類屬性共23 個。同時構建了癥狀本體實例庫,采用“ICD”的多軸分類思想,將本體類及其屬性等24 個方面作為癥狀分類軸心,癥狀內涵可由24個軸心及其值組合表達,并采用分類與編碼技術對癥狀實例進行了編碼。對部位、色、病癥等參照癥狀本體類劃分方法,構建了相應屬性值的層次結構。用C/S 模式研制了癥狀數(shù)據(jù)采集系統(tǒng),探索了一條癥狀本體應用路徑,在人機交互的模式下采集癥狀信息,以結構化、規(guī)范化的形式保存、導出癥狀數(shù)據(jù)。該數(shù)據(jù)可用于多角度挖掘利用。但是癥狀本體表達模型并未考慮到舌診、脈診癥狀表達,且還存在屬性分類不夠完善、陰性癥狀、復合癥狀無法表達等不足。癥狀本體表達模型的建立同樣是對本體研究方法進行了探索。
2017 年袁玉虎等[3]結合中醫(yī)臨床病歷(以現(xiàn)病史為主)和PubMed 題錄文獻文本開展癥狀表型命名實體的抽取方法研究,通過構建的較大規(guī)模語料集和未標注數(shù)據(jù),進行了基于Bootstrapping,分類學習(條件隨機場和結構化支持向量機)和特征學習(詞嵌入與網(wǎng)絡嵌入)等多種方法,在人工審核和數(shù)據(jù)預處理的基礎上,構建了包含1200 個以現(xiàn)病史為主的中醫(yī)臨床病歷標注語料。研究表明基于深度表示的癥狀表型實體命名抽取方法在未標注語料的整合與性能方面都存在較大優(yōu)勢,已經(jīng)具備一定的中英文命名實體抽取實用價值。該研究是對本體構建方法的又一探索。
2018 年賈李蓉等[4]對原中醫(yī)臨床術語系統(tǒng)進行優(yōu)化,發(fā)布中醫(yī)臨床術語系統(tǒng) v2.0(TCMCTS v2.0)。該研究基于系統(tǒng)整體框架的構建原則,參照中醫(yī)病證相關國家標準、教材及醫(yī)院實際分科情況,對中醫(yī)臨床術語系統(tǒng) v2.0(TCMCTS v2.0)病證分類體系進行探討研究,形成中醫(yī)疾病一級分類9 個,證候一級分類 10 個;并根據(jù)臨床實用性和證候概念的自身特點,形成了證候類概念多維度歸類的原則,使之更加貼近臨床使用需求。朱彥等[5]從應用角度分析了臨床術語集支持語義表達、多來源術語集融合、多維度查詢統(tǒng)計、語義查詢推理及輕知識庫的等5 種不同表達層次和需求,對中醫(yī)臨床術語系統(tǒng)進行內容上的擴展和技術上的更新,特別是對切合臨床做出了調整,使之能支持臨床電子病歷規(guī)范化錄入;支持臨床文獻進行語義標引;含有藥物編碼分類;與其他術語映射,實現(xiàn)跨領域的語義查詢檢索。這是對中醫(yī)臨床術語在內容上和技術上的完善和發(fā)展。
王瓊等[6]構建了中醫(yī)癥狀本體知識表示模型。研究參考已有中醫(yī)語料庫的構建方法和標注規(guī)范,構建了適用于癥狀術語獲取的語料,并通過分析中醫(yī)臨床病歷文本中癥狀術語的構成模式,提出了利用術語構詞模式來中醫(yī)癥狀術語進行自動獲取的方法,一種基于泛化模式與統(tǒng)計特征相結合的方法,從中醫(yī)臨床病歷中進行癥狀術語的自動獲取。在獲取了大量臨床癥狀術語后,結合《中醫(yī)臨床常見癥狀術語規(guī)范》和《中醫(yī)癥狀學研究》兩部中醫(yī)著作中收錄的癥狀術語,利用本體構建方法,以中醫(yī)四診為頂層分類概念,構建了中醫(yī)癥狀本體知識表示模型。該研究是針對本體本身內容的構建和擴展的研究。
陳璟等[7]對基于聚類的中醫(yī)臨床術語語義關系進行了研究。運用本體技術,從關系模式、句法模式、聚類模式等層面,提出一種基于多百科結合互補的方法,用以構建適合語義關系研究的中醫(yī)臨床語料庫。并結合同義詞詞林的特性,對句法模式的泛化方法展開研究。采取聚類和句法模式相結合的方法,對中醫(yī)臨床術語實體之間的語義關系進行歸類,并根據(jù)聚類結果重新構建語義框架。該研究是對本體本身內容的研究,通過歸類對語義框架做出了優(yōu)化。
2019 趙立鵬等[8]進行了面向中醫(yī)文本的關系抽取技術研究。研究內容總體上圍繞“實體”和“關系”兩個概念展開。首先研究中醫(yī)文本實體識別的方法,采用了雙向長短記憶神經(jīng)網(wǎng)絡和條件隨機場相結合的模型來實現(xiàn)對于中醫(yī)文本實體對的識別。其次研究中醫(yī)文本實體關系抽取的方法,使用基于深度學習原理的關系抽取算法實現(xiàn)文本實體關系特征的自動抽取,針對中醫(yī)文本的概念模糊化、語言抽象化、通假字、實體名偏長、一詞多義和多詞一義等特點和難點。采用了門控制循環(huán)單元與卷積神經(jīng)網(wǎng)絡,并引入注意力機制,其中門控制循環(huán)單元是長短記憶神經(jīng)網(wǎng)絡的一種改進,減少了訓練參數(shù),提高了模型訓練的速率。該研究對實體與關系從研究方法上進行了改良與擴展。
肖猛等[9]面向中醫(yī)證候的健康領域知識圖譜構建進行了研究。該研究對知識圖譜內的核心實體進行了定義,然后根據(jù)實體的特點對實體間的語義關系進行了定義,并構建領域本體完成對知識圖譜數(shù)據(jù)模式的定義。針對命名實體識別過程,提出了一個基于詞向量拼接的實體識別。此外,基于構建的知識圖譜提出了一個語義檢索模型,并提出了面向中醫(yī)健康管理的語義檢索模型,該模型比傳統(tǒng)的基于關鍵詞的信息檢索方式的模型可以更好的理解用戶的檢索意圖?;诖?,團隊成功構建了一個以中醫(yī)健康領域知識圖譜為基礎的健康管理平臺,該平臺主要分為兩個部分:面向領域專家提供了概念管理、實體管理等功能;面向用戶提供了知識檢索以及自動問答等服務。該研究擴展了本體內容,使得本體內容從疾病診療延伸到健康管理。
2020 年鄧宇等[10]構建關聯(lián)型知識數(shù)據(jù)庫和“多維度”中醫(yī)藥知識共享服務。該研究基于Docker 的分布式服務模式部署平臺整體架構,利用輕量級虛擬化技術實現(xiàn)資源隔離,并將各種環(huán)境依賴和應用統(tǒng)一打包,多個業(yè)務系統(tǒng)獨立部署在Docker 容器中,將復雜的應用系統(tǒng)拆分成多個功能單一、業(yè)務邏輯簡單的服務進行獨立部署。依據(jù)中醫(yī)藥術語詞庫為基礎創(chuàng)建搜索引擎,采用知識圖譜的形式將文獻信息中蘊含的病、癥、證、治、方、藥等各知識節(jié)點進行關聯(lián)呈現(xiàn)。利用關鍵詞庫建立索引技術,實現(xiàn)跨庫、跨字段精準檢索,使用知識圖譜技術,構建融合國醫(yī)大師專科專病用方經(jīng)驗、名老中醫(yī)醫(yī)案、中醫(yī)常用方劑、常見病診療指南、中成藥等中醫(yī)藥特色的關聯(lián)型知識數(shù)據(jù)庫。該研究是中醫(yī)藥知識數(shù)據(jù)庫構建和共享方法的又一拓展。
2016 年袁鋒等[11]對中醫(yī)醫(yī)案文本挖掘進行研究。該研究把人工蜂群算法應用于中醫(yī)醫(yī)案本體庫的構建。設計基于人工蜂群算法的本體學習技術,通過中文分詞技術、互信息及規(guī)則過濾等策略,以醫(yī)案中的中醫(yī)四診、中醫(yī)診斷、西醫(yī)診斷、證型、治法為信息語料進行分析、驗證,設計概念提取方法,同時利用小生境技術的融合、演化算法豐富種群的多樣性構建本體。應用條件隨機場、基于本體的修正及特征模板的修正方法對中醫(yī)醫(yī)案命名實體進行識別,構建基于本體的中醫(yī)醫(yī)案命名實體識別算法。并設計了一種基于詞共現(xiàn)組合的中醫(yī)醫(yī)案向量空間模型。利用關聯(lián)規(guī)則算法抽取出中醫(yī)醫(yī)案的二階詞共現(xiàn)組合,定義詞共現(xiàn)的度量方法,構建基于詞共現(xiàn)組合的向量空間模型。還提出一種基于螢火蟲算法的中醫(yī)醫(yī)案文本聚類算法。引入粒計算思想,通過適應度變化情況動態(tài)確定螢火蟲算法的迭代和模擬退火算法的抽樣,擴大模擬退火的擾動增加種群的選擇范圍。該研究是對本體構建從研究方法上的一大探索。
2017 年王斯琪等[12]對中醫(yī)舌象、脈象本體構建進行了研究。研究按照七步法構建中醫(yī)舌象、脈象本體,從已發(fā)布的標準、《中醫(yī)藥學名詞》、《中醫(yī)癥狀學研究》、《中醫(yī)癥狀鑒別診斷學第二版》中收集舌象、脈象術語,進行去重和同義詞整合處理。然后采用自上而下的方法初步確定分類框架,再從術語中提取屬性值自下而上聚類,確定本體類、屬性及約束,利用Protégé 進行舌象、脈象本體的編輯。利用信息分類與編碼技術,以屬性組合的代碼形式對舌象、脈象本體實例進行表示,并構建實例庫。根據(jù)分類框架和聚類結果劃分了舌象、脈象本體類。促進了舌象、脈象信息的數(shù)據(jù)化、結構化。該研究從舌、脈本體內容和關系角度出發(fā),成功構建舌、脈本體。
于琦等[13]對基于本體的中醫(yī)醫(yī)案知識服務于共享系統(tǒng)構建進行了研究。該研究從中醫(yī)醫(yī)案入手,以本體論為基礎,采用語義網(wǎng)及自然語言處理方法,實現(xiàn)中醫(yī)醫(yī)案信息的獲取與組織管理。在中醫(yī)醫(yī)案本體框架下構建中醫(yī)醫(yī)案術語體系,通過實體識別和本體映射的方式,從醫(yī)案中獲取診療信息,存儲成為結構化數(shù)據(jù)庫,并可實現(xiàn)醫(yī)案的統(tǒng)一管理、檢索和挖掘利用。研究探索了基于本體的中醫(yī)醫(yī)案信息獲取方法,構建了中醫(yī)醫(yī)案知識服務與共享系統(tǒng),實現(xiàn)了中醫(yī)醫(yī)案的信息抽取、數(shù)據(jù)庫自動構建、管理和挖掘利用。該研究對醫(yī)案服務共享系統(tǒng)進行了方法上的探索。
綜上所述,中醫(yī)知識系統(tǒng)構建已初具模型,并且在基礎本體建設以及各個分科領域建設都取得了成效及進步,其發(fā)展也越來深入和全面。
得出的結論是:(1)在中醫(yī)藥人工智能發(fā)展方面,知識系統(tǒng)的構建成果比較顯著;其中基礎術語構建已相當完備,并且在本體建設的基礎上開展了諸多更進一步的研究,其中包括古籍整理、醫(yī)案挖掘以及舌像本體構建,接下來的研究可以從各個分科對中醫(yī)藥本體進行更加完備和全面的研究與構建。(2)對于本體發(fā)展的研究,研究人員主要從基于本體本身和本體研究方法兩個方向開展研究。在本體發(fā)展過程中,本體內容在逐步豐富,本體研究方法以及方向都在不斷改良和擴展。同時可以在更加便捷和實用的本體研究方法上做出進一步的探索。
從目前的成果來看,機器學習、自然語言處理等當下火熱的人工智能技術應用于知識系統(tǒng)的構建對中醫(yī)藥人工智能的發(fā)展進行了積極地促進作用。中醫(yī)藥知識系統(tǒng)的構建與完善還需要更多的研究人員進行探索與研究,以期成功實現(xiàn)中醫(yī)藥的傳承和現(xiàn)代化發(fā)展。