潘曄,婁靜,潘玉穎,范軍銘,侯留法
河南省中醫(yī)藥研究院附屬醫(yī)院,河南 鄭州 450004
近年來,中醫(yī)藥數(shù)據(jù)挖掘相關研究發(fā)展迅速,尤其名老中醫(yī)傳承、名醫(yī)經(jīng)驗規(guī)律方面成果顯著。辨證論治是一個主觀決策的過程,不同醫(yī)者對癥候的認識不同,即使同一病癥,其注重的關鍵癥候也不同。名老中醫(yī)經(jīng)驗探索的關鍵在于發(fā)掘名老中醫(yī)辨證論治獨特的專注點。辨證論治注重整體觀念,兼顧個性化體征,關注每次就診的不同癥候。四診信息所蘊含的數(shù)據(jù)具有高度的個體性、動態(tài)性、多樣性。運用數(shù)據(jù)挖掘方法將海量知識進行歸納分析,發(fā)現(xiàn)能反映疾病本質(zhì)與辨證施治的關鍵聯(lián)系,以及各個信息元之間的內(nèi)在隱含關系,解決中醫(yī)特色研究和發(fā)展中的關鍵問題——隱性知識的顯性表達,無論名老中醫(yī)傳承、經(jīng)驗總結(jié)、古籍文獻挖掘與數(shù)據(jù)庫文獻研究,關鍵在于中醫(yī)藥隱性知識的挖掘。數(shù)據(jù)挖掘可為中醫(yī)各個特色信息元之間內(nèi)在隱含關系的挖掘、規(guī)律的總結(jié)、問題的發(fā)現(xiàn)等提供技術和方法學支持。茲就中國知識資源總庫(CNKI)中醫(yī)藥數(shù)據(jù)挖掘文獻進行整理,為相關研究提供參考。
以“中醫(yī)藥”與“數(shù)據(jù)挖掘”為關鍵詞檢索,文獻類型包括學術期刊與學位論文,起止時間1998-2020年,得到文獻3 844篇,主要分類為醫(yī)藥衛(wèi)生科技、信息科技、基礎科學。鑒于本文側(cè)重研究者對中醫(yī)藥數(shù)據(jù)挖掘的應用,所以選定文獻分類目錄為醫(yī)藥衛(wèi)生科技,信息科技與基礎科學相關文獻因側(cè)重于相關信息系統(tǒng)構(gòu)建與算法研究而排除,得到相關文獻3 654篇。將檢索文獻下載并進行篩選及內(nèi)容梳理,刪除重復文獻,將少數(shù)非中醫(yī)藥數(shù)據(jù)挖掘文獻排除,最終得到3 597篇。本文借鑒文獻計量學的共詞分析,但側(cè)重辨證論治過程中數(shù)據(jù)挖掘方法的應用。對處方進行數(shù)據(jù)挖掘分析,歸為用藥規(guī)律類;癥候與證型的對應關系分析,歸為辨證規(guī)律類;癥候-證型-用藥均使用數(shù)據(jù)挖掘分析,歸為辨證用藥規(guī)律類;選穴穴位及對應癥候分析,歸為選穴規(guī)律類;以某一疾病的公開文獻為數(shù)據(jù)源進行數(shù)據(jù)挖掘方法分析,按其主要內(nèi)容分為用藥規(guī)律類或文獻綜述類;將網(wǎng)絡藥理學與數(shù)據(jù)挖掘方法結(jié)合進行中藥研究,按其內(nèi)容側(cè)重歸為用藥規(guī)律類或中藥研究類;數(shù)據(jù)挖掘算法研究及醫(yī)藥信息系統(tǒng)構(gòu)建的文獻,歸為中醫(yī)藥信息化類。具體文獻數(shù)量與類型見圖1。
圖1 中醫(yī)藥數(shù)據(jù)挖掘類文獻類型數(shù)量
從圖1可以看出,關于用藥規(guī)律的文獻最多,且逐年增加。用藥規(guī)律的數(shù)據(jù)來源廣泛,包括病歷收集、名家醫(yī)案、古籍資料等,其研究目的在于了解治療某一疾病的用藥規(guī)律,特別是角藥和對藥的應用,從而發(fā)現(xiàn)名家或古籍的用藥獨特之處。用藥規(guī)律的類型越來越豐富,不限于對某一病癥的用藥分析,近年來單味飲片用藥規(guī)律、配伍用藥規(guī)律、名方用藥規(guī)律、成藥用藥規(guī)律的研究越來越多。用藥規(guī)律通常與檢驗指標、中藥研究的動物實驗、網(wǎng)絡藥理學、基因分析、分子機制等共同分析,為中藥研發(fā)提供理論支持與量化指標。
文獻綜述類數(shù)量次之,近年來通常采用的方法是對中醫(yī)藥某一方面進行關鍵詞搜索,對得到的文獻結(jié)果進行整理與分析,博取各家之長,探索不同派系辨證論治的共性與特性。辨證規(guī)律類文獻采用收集名家病歷,分析某一疾病不同證型的癥候規(guī)律、證素規(guī)律,通過主成分分析法、決策樹方法等以明確證型的主要對應癥候。辨證用藥規(guī)律類文獻將證型、癥候、用藥綜合分析,對辨證論治的全過程進行數(shù)據(jù)挖掘分析得到綜合分析結(jié)果,是通過數(shù)據(jù)驗證對某方向、某派別中醫(yī)學術思想的總結(jié)。選穴規(guī)律類通過總結(jié)某一病癥針灸腧穴記錄,采用關聯(lián)分析找到關鍵穴位。中醫(yī)藥信息化類文獻雖然在醫(yī)藥衛(wèi)生領域并不多,但內(nèi)容新穎,是中醫(yī)藥與蓬勃發(fā)展的信息化技術充分融合。中醫(yī)藥信息化文獻包含中醫(yī)藥數(shù)據(jù)挖掘常用模型算法研究與比較、中醫(yī)藥隱性知識發(fā)現(xiàn)、中醫(yī)藥本體知識構(gòu)建、中醫(yī)藥信息化系統(tǒng)設計與構(gòu)建、中醫(yī)藥知識可視化等。特別是將中醫(yī)藥大數(shù)據(jù)分析系統(tǒng)嵌入醫(yī)院信息系統(tǒng)(HIS)方向的研究,代表了中醫(yī)藥人工智能的發(fā)展趨勢。
數(shù)據(jù)挖掘軟件與平臺是中醫(yī)藥數(shù)據(jù)挖掘研究的一大利器。隨著中醫(yī)藥數(shù)據(jù)挖掘類研究的興起,各種中醫(yī)藥數(shù)據(jù)挖掘平臺與軟件隨之出現(xiàn)。經(jīng)典的數(shù)據(jù)挖掘過程一般包含數(shù)據(jù)準備、數(shù)據(jù)變換、建模、結(jié)果解釋和展示4個步驟。由于每種模型要求輸入變量的類型與屬性不同,且有特定格式,所以需要進行數(shù)據(jù)準備與變換。而數(shù)據(jù)挖掘建模得到的結(jié)果如何與中醫(yī)藥專業(yè)知識結(jié)合進行解釋與展示,對操作者的統(tǒng)計知識有一定要求,經(jīng)典數(shù)據(jù)挖掘?qū)χ嗅t(yī)藥研究者過于抽象。早期進行中醫(yī)藥數(shù)據(jù)挖掘,統(tǒng)計軟件是主要工具,但統(tǒng)計軟件存在專業(yè)性強、數(shù)據(jù)處理難度大等缺點,所以,專業(yè)的中醫(yī)藥數(shù)據(jù)挖掘軟件應運而生。
專業(yè)的中醫(yī)藥數(shù)據(jù)挖掘軟件,輸入數(shù)據(jù)均為中醫(yī)藥研究者熟悉的病歷數(shù)據(jù)、處方數(shù)據(jù),不需要進行數(shù)據(jù)的準備與類型轉(zhuǎn)換,對結(jié)果的展示也進行了注釋,便于理解。專業(yè)的中醫(yī)藥數(shù)據(jù)挖掘軟件背后依托專業(yè)團隊,版本更新快速且專業(yè),不少中醫(yī)藥研究者借此取得良好研究成果?,F(xiàn)有的主流中醫(yī)藥數(shù)據(jù)挖掘軟件有“中醫(yī)傳承輔助平臺”與“古今醫(yī)案云平臺”,以及許多文本挖掘平臺與軟件,如沈陽教授的ROST CM系統(tǒng)、Weka軟件等。
文獻中出現(xiàn)最多的3種數(shù)據(jù)挖掘工具是SPSS、中醫(yī)傳承輔助平臺、古今醫(yī)案云平臺。SPSS Modeler將數(shù)據(jù)挖掘過程簡化為節(jié)點,相對于SPSS Statistics的數(shù)據(jù)界面更易操作。以用藥規(guī)律分析為例,數(shù)據(jù)準備時需根據(jù)藥典或其他標準進行藥品名稱標準化,繁瑣且易出錯。標準化后的數(shù)據(jù)需添加類型節(jié)點,轉(zhuǎn)化為名義變量,才能進行網(wǎng)絡圖分析與關聯(lián)規(guī)則分析。中醫(yī)傳承輔助平臺的數(shù)據(jù)錄入只能采用人工錄入醫(yī)案。古今醫(yī)案云平臺可按照相應格式導入數(shù)據(jù),提高效率,擴大數(shù)據(jù)量,該平臺包含數(shù)據(jù)標準化模塊,自動進行標準化,只需人工審核糾錯即可。藥品屬性分析方面,若不采用專業(yè)數(shù)據(jù)挖掘軟件,需對照藥典進行藥物性味、歸經(jīng)及功效的對應關系分析,上述兩平臺在此方面比較便捷,可自動得到相應的雷達圖。算法方面,SPSS Modeler建模節(jié)點無論關聯(lián)還是分類模型,均包含多種算法。數(shù)據(jù)挖掘平臺的算法已預設好,調(diào)整參數(shù)即可,有利有弊。優(yōu)點是操作比較簡單,缺點是無法調(diào)整模型得到更優(yōu)結(jié)論。
中醫(yī)藥數(shù)據(jù)挖掘平臺進行用藥分析時,藥物頻次、屬性、配伍、新方發(fā)現(xiàn)比較便捷,故用藥規(guī)律文獻較多,也是內(nèi)容模式化的原因之一。中醫(yī)傳承輔助平臺與古今醫(yī)案云平臺均有癥候分析與方證分析功能,但使用者較少,將數(shù)據(jù)挖掘更多地應用于方證分析是創(chuàng)新的方向之一。數(shù)據(jù)挖掘工具也越來越多樣,不僅僅指中醫(yī)藥數(shù)據(jù)挖掘的平臺與軟件,隨著HIS普及,數(shù)據(jù)挖掘系統(tǒng)與工具正與HIS系統(tǒng)整合,可在臨床工作時進行科研分析。
目前用藥規(guī)律和辨證規(guī)律常用的數(shù)據(jù)挖掘算法為關聯(lián)規(guī)則、聚類分析、主成分分析、因子分析,復雜網(wǎng)絡分析并非經(jīng)典數(shù)據(jù)挖掘方法,但應用廣泛。用藥規(guī)律通過同時出現(xiàn)判斷角藥和對藥,辨證規(guī)律確定證型對應癥候,在文獻計量學中的應用為共詞分析,中藥研究通過多個對象推出另一對象,將多藥物之間關聯(lián)展現(xiàn)。聚類分析將研究對象相似或相近的加以歸類,將一組數(shù)據(jù)按照本身的內(nèi)在規(guī)律分為幾類。分類原則為組間差距大,組內(nèi)差距小,把相似的事物聚集在一起,進而嘗試發(fā)現(xiàn)核心要素如核心處方、辨證核心要素,以及固定搭配如藥癥關系、新處方的發(fā)掘等。主成分分析與因子分析均為通過降維技術把多個變量化為少數(shù)主成分或因子的統(tǒng)計分析方法,這些主成分或主因子能反映原始變量的絕大部分信息,通常被用于癥候與證型對應分析。復雜網(wǎng)絡指通過將復雜系統(tǒng)內(nèi)部元素抽象為節(jié)點,元素間關系抽象為邊,從而構(gòu)建具有復雜關聯(lián)關系的網(wǎng)絡。通過這種抽象,復雜網(wǎng)絡僅保留系統(tǒng)內(nèi)部組織結(jié)構(gòu)及關聯(lián)關系,過濾了其他復雜信息,從而使研究者可專注復雜系統(tǒng)內(nèi)部特征及性質(zhì)。復雜網(wǎng)絡被用于建立中藥藥性、功效、方劑網(wǎng)絡,也用于發(fā)現(xiàn)穴位或藥物配伍規(guī)律。
算法應用方面,如果只是生硬采用經(jīng)典數(shù)據(jù)挖掘方法進行中醫(yī)藥數(shù)據(jù)挖掘而不作相應改進,那么得到的僅為相關性的大小,而非癥候-證型-方劑蘊含的因果關系,其結(jié)論僅是中醫(yī)基礎理論的驗證,或無法解釋被認為規(guī)避的異常結(jié)論。
數(shù)據(jù)挖掘的分類模型與預測模型被用于解決臨床實際問題,并取得很好效果。崔偉峰等將隨機森林用于原發(fā)性高血壓心血管風險預后模型,并證實有效;宮文浩等用決策樹和人工神經(jīng)網(wǎng)絡建立小兒肺炎痰熱閉肺證診斷模型,探索小兒肺炎痰熱閉肺證的決定要素,促進中醫(yī)標準化;夏庭偉使用支持向量機、決策樹、多項式樸素貝葉斯等多種機器學習算法,構(gòu)建標準化的證型、舌圖像獲取途徑,再與臨床綜合數(shù)據(jù)特征融合,構(gòu)建2型糖尿病并發(fā)腎病混合深度神經(jīng)網(wǎng)絡診斷預測模型,并以此評估探索中醫(yī)證候與舌圖像對疾病風險預測的實際意義。
①數(shù)據(jù)的標準化程度不一致,導致數(shù)據(jù)質(zhì)量偏低、處理費時費力。如不同醫(yī)院的診斷代碼標準不同,中醫(yī)醫(yī)院采用中醫(yī)證編碼(TCD)而西醫(yī)醫(yī)院采用國際疾病分類(ICD)、醫(yī)保診斷代碼與院內(nèi)代碼不同、藥品名稱存在地域性差異等。解決此類問題,需標準化處理,中醫(yī)藥數(shù)據(jù)挖掘軟件已對此開發(fā)了標準化模塊。②病歷的規(guī)范程度。醫(yī)院院內(nèi)質(zhì)控一般針對住院病歷,而門診病歷的質(zhì)量則難以保證,除醫(yī)院硬性規(guī)定,門診病歷內(nèi)容難免缺失,用詞不規(guī)范。由于實際門診就診患者較多,為保證效率,醫(yī)生難免以最簡單方式完成門診病歷,導致中醫(yī)寶貴的四診數(shù)據(jù)、既往史數(shù)據(jù)不詳細,以致可挖掘內(nèi)容較少。而辨證論治的思維及重要信息都包含在門診病歷中。對此,已有學者從系統(tǒng)層面進行改進。潘玉穎等不僅創(chuàng)立了老中醫(yī)經(jīng)驗搜索平臺,且建立與HIS連接的病歷診斷評價系統(tǒng),自動對門診病歷進行質(zhì)量評分,為可挖掘病歷數(shù)據(jù)提供來源,有利于門診病歷質(zhì)量標準的建立,以及取得高質(zhì)量門診病歷作為數(shù)據(jù)源。
中醫(yī)病歷數(shù)據(jù)的主觀性較強,導致中醫(yī)藥數(shù)據(jù)整合與平臺建立難度較大。在商業(yè)數(shù)據(jù)挖掘與互聯(lián)網(wǎng)數(shù)據(jù)挖掘方向,數(shù)據(jù)來源為真實產(chǎn)生的記錄,收集方向不受人工干預,分析一般以全面為主?,F(xiàn)有中醫(yī)藥數(shù)據(jù)挖掘多源自經(jīng)過人工挑選的數(shù)據(jù),中醫(yī)對癥候的描述多為主觀感受記錄。對數(shù)據(jù)進行處理與整合及結(jié)構(gòu)化數(shù)據(jù)是針對上述問題的解決方法。從本研究收集到文獻的分析樣本量看,均為小樣本數(shù)據(jù),尤其細分到具體證型時,樣本量更少。中醫(yī)數(shù)據(jù)如證型、四診癥候、方劑藥品屬性、功效、藥品組合等維度較廣,但由于樣本數(shù)量太少,采用經(jīng)典的數(shù)據(jù)挖掘算法所得到的結(jié)論不如大樣本數(shù)據(jù)有價值。因此,建立中醫(yī)藥結(jié)構(gòu)化數(shù)據(jù)庫,廣泛收集有效病歷數(shù)據(jù),提取處理為目標數(shù)據(jù),累積到一定數(shù)據(jù)量后再進行分析,可作為解決方法。此思路與從CNKI、萬方等數(shù)據(jù)庫收集數(shù)據(jù)的綜述類文獻想法不謀而合。
目前中藥處方有效性的療效評價方法難以確定,缺乏權(quán)威系統(tǒng)的評價方法。如果無效的方劑數(shù)據(jù)較多,則挖掘結(jié)果的質(zhì)量存在瑕疵。處方有效性判斷是中醫(yī)藥數(shù)據(jù)挖掘問題的立題之本。中醫(yī)療效通常通過口碑傳播,目前眾多名老中醫(yī)經(jīng)驗探究與數(shù)據(jù)挖掘研究預設了名老中醫(yī)治療某方面疾病的經(jīng)驗是有效的,但缺乏客觀指標。若有檢查、檢驗指標可驗證療效的疾病,則可通過指標值對比進行療效判定。無法通過指標值進行療效評價的疾病,還需學者在療效評價方面進行探索,如評價量表及完整的患者療效評價體系。目前一些醫(yī)院在患者就診后根據(jù)診斷特性進行短信或微信回訪也是較為可行的方法。
隨著人工智能技術不斷應用,中醫(yī)藥數(shù)據(jù)挖掘乃至整個中醫(yī)藥臨床與科研的發(fā)展方向均為信息化、智能化,中醫(yī)藥數(shù)據(jù)挖掘與HIS深度融合是大勢所趨。中醫(yī)藥數(shù)據(jù)挖掘文獻發(fā)表量逐年增加,臨床工作者對其應用程度也不斷加深,并更加貼近臨床工作。在系統(tǒng)中嵌入中醫(yī)藥數(shù)據(jù)挖掘平臺,通過將HIS數(shù)據(jù)進行抽取并進行標準化處理,解決了中醫(yī)藥數(shù)據(jù)挖掘中的數(shù)據(jù)處理難題。在日常開具處方過程中,出現(xiàn)類似知識庫的提示,將名老中醫(yī)的經(jīng)驗直接展示推薦,將有益于日常臨床處方、學習及病歷書寫標準化??纱┐髟O備技術越來越成熟,中醫(yī)癥候與四診信息的自動化采集越來越可行。通過分析舌診與面診數(shù)據(jù),可以得到標準化高質(zhì)量的四診數(shù)據(jù)與癥候數(shù)據(jù)??梢?,主觀化的問診數(shù)據(jù)通過變成可量化的機器采集,能保證癥候數(shù)據(jù)的客觀性與標準化,推動數(shù)據(jù)挖掘在辨證規(guī)律上的應用。
中醫(yī)藥數(shù)據(jù)的結(jié)構(gòu)化整合與展現(xiàn)越來越普遍。醫(yī)院大量臨床數(shù)據(jù)及管理數(shù)據(jù)的出現(xiàn),刺激著數(shù)據(jù)挖掘技術的深層次開發(fā)應用,并反向作用于醫(yī)院的進一步發(fā)展。近年來,關于中醫(yī)臨床知識的本體構(gòu)建逐漸增多,知識本體能更好傳播中醫(yī)治療方法與名家經(jīng)驗,并與數(shù)據(jù)挖掘研究相互驗證。蔡云對周仲瑛教授治療肺癌的知識本體進行了構(gòu)建及數(shù)據(jù)挖掘研究。知識本體科學系統(tǒng)地處理中醫(yī)數(shù)據(jù),有利于中醫(yī)學術思想的總結(jié)與分享,有助于形成結(jié)構(gòu)化的中醫(yī)藥數(shù)據(jù)庫。來源于結(jié)構(gòu)化數(shù)據(jù)庫的中醫(yī)藥數(shù)據(jù)挖掘研究可克服主觀化及小樣本缺點,實現(xiàn)真正的中醫(yī)藥大數(shù)據(jù)。
中醫(yī)藥數(shù)據(jù)的可視化也在不斷發(fā)展,有利于中醫(yī)藥知識的展現(xiàn)與分享。本研究所收集的文獻中,近年出現(xiàn)的知識圖譜與可視化軟件有Gephi、Bibexcel、NetDraw、CiteSpace及VOSviewer等。這些軟件可快速全面從公開文獻中挖掘中醫(yī)隱性知識,有利于中醫(yī)數(shù)據(jù)的結(jié)構(gòu)化。
臨床科研一體化與多維度數(shù)據(jù)整合也是發(fā)展中醫(yī)藥數(shù)據(jù)挖掘的方法。針對中醫(yī)療效難以判斷的問題,可建立療效評價與量表系統(tǒng)。整合的數(shù)據(jù)不僅包含辨證論治過程,還包含療效評價與患者個人信息。療效評價系統(tǒng)是針對疾病開發(fā)療效評價方法,即將指標、量表、短信微信回訪相結(jié)合,患者達到特定病程后自動評價療效。程小恩等通過采集四川省80多家中醫(yī)醫(yī)院30多萬條電子病歷,利用大數(shù)據(jù)分析和數(shù)據(jù)挖掘技術,構(gòu)建中醫(yī)特色的“三名樹網(wǎng)”可視化模型展示名醫(yī)、名科、名院數(shù)據(jù),從而科學評估醫(yī)生、科室、醫(yī)院的業(yè)務水平,輔助管理層合理利用醫(yī)療資源。隨著信息化程度加深與大數(shù)據(jù)戰(zhàn)略全面開展,此類綜合系統(tǒng)將越來越普遍;包含客觀療效評價、整合多維度多地區(qū)數(shù)據(jù)的科研大數(shù)據(jù)平臺將越來越多。
本研究通過收集梳理CNKI文獻,對中醫(yī)藥數(shù)據(jù)挖掘的應用現(xiàn)狀進行整理分析,發(fā)現(xiàn)中醫(yī)藥數(shù)據(jù)挖掘研究雖處于蓬勃發(fā)展階段,但存在應用方式單一模式化問題。中醫(yī)藥數(shù)據(jù)挖掘依托醫(yī)院信息化推進與數(shù)據(jù)挖掘算法的推廣,發(fā)展現(xiàn)狀與兩者密切相關。中醫(yī)藥數(shù)據(jù)挖掘與辨證論治思想相契合,有利于探究中醫(yī)藥隱性知識。如何在保留中醫(yī)藥特色的基礎上進行研究,充分將兩者融合是難點,筆者認為更全面智能的信息化、平臺化是解決問題關鍵,值得今后重點關注。