蘇州市中醫(yī)醫(yī)院,江蘇 蘇州 215009
文本數(shù)據(jù)挖掘技術(shù)在名老中醫(yī)臨床診療經(jīng)驗的應(yīng)用研究
甄曙光歐陽八四董宏利樂音子顏帥*
蘇州市中醫(yī)醫(yī)院,江蘇 蘇州 215009
文本數(shù)據(jù)挖掘技術(shù)通過數(shù)據(jù)整理分析實現(xiàn)中醫(yī)臨床診療數(shù)字化、文本向量呈像,并從大量醫(yī)案中整理出中醫(yī)辨證論治及理法方藥的規(guī)律性。文章闡述挖掘中醫(yī)醫(yī)案規(guī)律性及數(shù)字化的方法,規(guī)范化處理中醫(yī)醫(yī)案文本,從而獲取隱含于辨證論治及理法方藥之間的具有鮮明個性化的診療經(jīng)驗,論證了存在于臨床醫(yī)案中辨證用藥配伍之間的關(guān)系。使用真實世界臨床研究范式理論指導(dǎo)病歷采集工作,不僅可如實記錄診療活動的全過程,更有利于發(fā)掘其內(nèi)在的診病邏輯思維模式。
文本數(shù)據(jù)挖掘;名老中醫(yī);診療經(jīng)驗
中醫(yī)藥作為我國珍貴的歷史文化遺產(chǎn),有著悠久的歷史、廣大的群眾基礎(chǔ)以及良好的療效。傳統(tǒng)中醫(yī)藥的核心特點是,以古典醫(yī)籍著作為理論基礎(chǔ),與我國特有的哲學(xué)思維互相滲透。在當今倡導(dǎo)返璞歸真、崇尚綠色療法的潮流下,中醫(yī)藥以其特有的魅力顯示出獨特的優(yōu)勢,經(jīng)過幾千年來中醫(yī)各家的努力和傳承,必將更多地發(fā)揮其對全人類的醫(yī)療保健作用,為全世界人民謀福祉。隨著科技的日新月異,數(shù)字化是各個行業(yè)的大勢所趨,中醫(yī)藥學(xué)在對已有的中醫(yī)藥理論和經(jīng)驗科學(xué)地繼承、更好發(fā)揚的前提下,也應(yīng)秉承與時俱進的思想,力爭實現(xiàn)規(guī)范化及數(shù)字化。而中國當代名醫(yī)大家的診療經(jīng)驗, 是他們在多年診療中將中醫(yī)經(jīng)典理論與臨床相結(jié)合,并予以泛化創(chuàng)新的結(jié)果,呈現(xiàn)了名老中醫(yī)的獨創(chuàng)心得或見解,是祖國傳統(tǒng)醫(yī)學(xué)的珍貴寶藏[1]。名老中醫(yī)通過大量的臨床實踐,積累了豐富的診療經(jīng)驗,其處方信息錯綜復(fù)雜,方劑配伍包含多維度關(guān)聯(lián),承載了無數(shù)名醫(yī)的心血?!皵?shù)據(jù)豐富而知識貧乏”的問題是當前亟待解決的問題,運用數(shù)據(jù)挖掘手段對名老中醫(yī)醫(yī)案進行規(guī)范化處理與挖掘成為中醫(yī)醫(yī)案信息化的重要手段,總結(jié)歸納名老中醫(yī)用藥特點和規(guī)律,提煉出臨證經(jīng)驗中蘊藏的新理論、新方藥,指導(dǎo)臨床實踐并提高臨床療效;在完善補充中醫(yī)藥理論體系的同時,還能促進整個中醫(yī)理論體系的創(chuàng)新和發(fā)展[2]。筆者系統(tǒng)論述數(shù)據(jù)挖掘方法在名老中醫(yī)用藥規(guī)律研究中的具體應(yīng)用,旨在將文本數(shù)據(jù)挖掘技術(shù)應(yīng)用于名老中醫(yī)診療經(jīng)驗及學(xué)術(shù)傳承領(lǐng)域的可行性提供參考。
在各種各樣的學(xué)科領(lǐng)域和行業(yè)中“數(shù)據(jù)正在以一個戲劇性的速度被收集和積累”,迫切需要新一代的計算理論和智能工具,幫助人類從迅速增長的海量數(shù)據(jù)中提取有用的信息(知識)。這些理論和工具就是“從數(shù)據(jù)庫中發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)”這門新興的學(xué)科[3]。數(shù)據(jù)挖掘(Data Mining),又譯為資料探勘、數(shù)據(jù)采礦。通過探索和分析大量數(shù)據(jù)從而發(fā)現(xiàn)有意義的模式和規(guī)則。它的核心概念是藉由相關(guān)方法或軟件程序從海量數(shù)據(jù)中自動整理出特殊相關(guān)性的信息的過程。主要有數(shù)據(jù)收集、發(fā)掘規(guī)律和規(guī)律呈像3個步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等[4]。數(shù)據(jù)挖掘一般都借助于計算機科學(xué)的相關(guān)技術(shù)完成,并通過計算機編程、在線分析處理、情報檢索、數(shù)據(jù)統(tǒng)計、名老中醫(yī)醫(yī)案系統(tǒng)和規(guī)律識別等步驟來實現(xiàn)對文本的挖掘[5]。
數(shù)據(jù)文本挖掘仔細分析研究存儲于知識庫中的海量數(shù)據(jù),通過使用統(tǒng)計學(xué)、人工智能(計算智能)或模式識別等技術(shù),從而發(fā)現(xiàn)有意義的新的相關(guān)性、模式和趨勢的過程。它結(jié)合分析知識基礎(chǔ)、成熟的分析技巧以及相關(guān)行業(yè)經(jīng)驗來利用及處理企業(yè)大量的數(shù)據(jù),通過建立預(yù)測性模型揭示隱藏的趨勢和模式,將海量醫(yī)案數(shù)據(jù)以直觀、規(guī)律易于接受的方式呈現(xiàn)出來。此類信息具有潛在價值,能夠支持決策,可以為企業(yè)帶來利益,甚至為科學(xué)研究尋找突破口。1999年Berry和Linoff給出如下定義:數(shù)據(jù)挖掘本質(zhì)是基于知識發(fā)現(xiàn),通過探索和分析大規(guī)模數(shù)據(jù)從而發(fā)現(xiàn)有意義的模式和規(guī)則的過程[6]。大多數(shù)數(shù)據(jù)挖掘方法都是基于統(tǒng)計學(xué)、模式識別和機器學(xué)習等學(xué)科領(lǐng)域中嘗試性和測試性的技術(shù)如分類、聚類、回歸等。見圖1。
所謂文本,涵蓋了病史、癥狀、體征、特殊實驗室檢查、治療情況,以及發(fā)病季節(jié)、發(fā)病影響因素,體質(zhì)、既往患病情況、心理因素和社會、政治、經(jīng)濟、環(huán)境等臨床診療數(shù)據(jù)。文本挖掘?qū)⑸鲜鲂畔⒆鳛檠芯繉ο?,分別采用定量計算和定性分析的方法,總結(jié)有價值的、創(chuàng)新知識的過程,是數(shù)據(jù)挖掘的一個分支;文本數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于多個領(lǐng)域,但在不同領(lǐng)域中,其研究的側(cè)重點及目的不盡相同,導(dǎo)致其在各個領(lǐng)域中的作用也不完全相同[7]。由于對病案信息的采集迄今沒有統(tǒng)一的標準,而名老中醫(yī)每日的診療都會產(chǎn)生大量的文本信息,這些未經(jīng)整理的數(shù)據(jù)在結(jié)構(gòu)上雜亂無章,如何進行科學(xué)的歸類、選擇、分析和使用,這就是文本數(shù)據(jù)挖掘技術(shù)亟待解決的問題。在名老中醫(yī)的病案信息中,除了醫(yī)學(xué)信息本身具有的類型繁多、關(guān)系復(fù)雜的特點之外,由于其臨床診斷和治療的思維決策過程的個體化特色非常明顯,不同名老中醫(yī)的原始病案信息多包含有更多較為典型的個性化習慣用語,這種個性化特色一方面代表了名醫(yī)經(jīng)驗的實質(zhì)所在,另一方面,也造成了這種“以人為綱”的名醫(yī)醫(yī)案的數(shù)據(jù)分析挖掘與 “以病為綱”的基于流行病學(xué)證候調(diào)查基礎(chǔ)上一般意義上的巨大差異[8]。在名老中醫(yī)病案信息的規(guī)范化方面,為了體現(xiàn)方法的客觀性,既要遵照中醫(yī)界現(xiàn)有的規(guī)范或標準對相關(guān)信息進行取舍、合并或分解,又要注意緊密結(jié)合名醫(yī)本身的意見和建議,以保證規(guī)范后的信息不偏離名醫(yī)醫(yī)案的本質(zhì),只有這樣才能從源頭上保證挖掘結(jié)果真實性。
2.1 人工蜂群算法 針對中醫(yī)醫(yī)案本體的構(gòu)建、命名實體識別等難點問題,曾有學(xué)者嘗試過眾多命名規(guī)則,并在一定程度上形成共識,在此羅列幾種得到較為廣泛認可的方法:采用適當?shù)恼Z義標注,自動抽取醫(yī)案特征信息,確定較為規(guī)范且得到廣泛共識的語義標注[4]。以最大熵方法來命名中醫(yī)病案專有名詞;松耦合的生物醫(yī)學(xué)命名實體識別算法。其中袁鋒團隊對于大量文獻進行整理研究,總結(jié)中醫(yī)病案專有名詞的語義結(jié)構(gòu)及語法結(jié)構(gòu)特點,設(shè)計了分別利用人工蜂群算法提取概念與概念間的關(guān)聯(lián)規(guī)則的命名實體識別算法,重建中醫(yī)醫(yī)案本體的語法及構(gòu)詞規(guī)則,形成了人工蜂群算法的雛形,并使用該種算法相對合理地揭示中醫(yī)醫(yī)案中存在的方、癥、證及性味、歸經(jīng)等多種復(fù)雜的關(guān)系[9]。盡管眾多學(xué)者致力于中醫(yī)醫(yī)案本體的構(gòu)建和命名實體識別方面的優(yōu)化,但是中醫(yī)病案專有名詞的隱含內(nèi)涵還需進一步完善和擴展,例如在中醫(yī)診療過程中相關(guān)專有名詞的一致性問題,直接應(yīng)用古典醫(yī)籍的古文語義信息等。除此之外,在浩澣的中醫(yī)醫(yī)案中收集并形成文本時,醫(yī)案本身所隱含的哲學(xué)內(nèi)涵無法充分展現(xiàn)的問題也亟需進一步的思考。
2.2 條件隨機域模型與算法 條件隨機域(CRF) 是一種研究觀察序列與狀態(tài)序列無向圖的模型[9],它可通過樣本訓(xùn)練學(xué)習已知標記的序列分布,并對新樣本的未知序列進行識別標記。醫(yī)案中的中醫(yī)藥各種臨床術(shù)語信息的識別與提取問題,其本質(zhì)上是語言標記序列識別問題。而序列標記的機器學(xué)習模型主要包括貝葉斯理論,隱馬爾科夫模型,最大熵模型,以及條件隨機域等[10]。相對于隱馬爾科夫模型和最大熵模型,條件隨機域在信息序列計算時權(quán)重偏置更小,序列特征靈活性更高。對于復(fù)雜變化的中醫(yī)藥語言而言,條件隨機域模型更能充分反映中醫(yī)藥名詞之間的聯(lián)系和內(nèi)涵。江啟煜等[11]基于條件隨機域構(gòu)建的文本信息挖掘模型對不同臨床術(shù)語類型,不同的病種識別效果良好,對于高效整理和挖掘名老中醫(yī)臨床醫(yī)案中的經(jīng)驗與學(xué)術(shù)思想及名老中醫(yī)的學(xué)術(shù)思想和經(jīng)驗傳承具有重要意義。
2.3 ROST-CM文本法 ROST Content Mining(ROST-CM)由中國武漢大學(xué)沈陽教授研發(fā),該軟件可實現(xiàn)瀏覽分析、頻次統(tǒng)計、聚類分析等一系列文本挖掘,其強項在于文本挖掘前期的中文預(yù)處理[12]。吳斌等[13]應(yīng)用ROST-CM分析工具從中國知網(wǎng)數(shù)據(jù)庫中挖掘骨關(guān)節(jié)炎的中醫(yī)證候特點及用藥規(guī)律,經(jīng)文本格式轉(zhuǎn)化、詞頻分析和語義網(wǎng)絡(luò)進行分析處理后,研究顯示骨關(guān)節(jié)炎是以肝腎虧虛為基礎(chǔ)的虛實夾雜的證候特征,治療用藥規(guī)律以強筋健骨的處方為主,常用中藥包括補益肝腎、祛風寒濕、活血化瘀三大類。然而有研究表明[14]對于非結(jié)構(gòu)化的中文文本數(shù)據(jù),借助ROST-CM可實現(xiàn)文本預(yù)處理的全部過程,并可將文本文件轉(zhuǎn)換成語義網(wǎng)絡(luò)和共現(xiàn)矩陣文件,而后期各種聚類算法和社會網(wǎng)絡(luò)分析則可通過Net Draw等軟件呈現(xiàn)結(jié)構(gòu)關(guān)系。
2.4 偏序結(jié)構(gòu)圖法 對于文本挖掘的不斷探索中,有學(xué)者嘗試將形式概念分析理論應(yīng)用到文本挖掘領(lǐng)域,這是該領(lǐng)域的一次創(chuàng)新和發(fā)展,在該理論的支撐下,研究者不斷進取和探索,將文本形式背景的概念與屬性抽離出來,建立一種新穎的更為合理的對應(yīng)關(guān)系,這種關(guān)系的基礎(chǔ)呈像為網(wǎng)格結(jié)構(gòu),其能更加直觀、形象的展示屬性與對象之間的內(nèi)在關(guān)系[15]。與以往的文獻文本挖掘方法相比,利用屬性偏序結(jié)構(gòu)圖具有明顯的優(yōu)勢。在早期的數(shù)據(jù)挖掘研究中,頻數(shù)分析法是較為主流的研究方法,通過百分比的大小比較統(tǒng)計文獻中相關(guān)信息的頻數(shù),最后將其分布規(guī)律以直觀的數(shù)率形式呈現(xiàn)出來。將大量的文獻信息,從屬性及對象兩方面對其進行了可視化的表達。利用偏序結(jié)構(gòu)圖的方法,轉(zhuǎn)化為具有層級關(guān)系的偏序圖;最后,通過文本挖掘?qū)ο笃蚪Y(jié)構(gòu)圖,能夠?qū)崿F(xiàn)對具有獨有屬性的文獻迅速、及時查找,且圖形的結(jié)果無交叉連線,結(jié)構(gòu)層次清晰明確,思路清楚[16]。盡管偏序結(jié)構(gòu)圖與文本挖掘其它方法相比有著諸多優(yōu)越性,但仍有一些問題值得深思并予以改進:提取關(guān)鍵詞的過程存在著不同程度的主觀性,這種主觀性的存在會對形式背景的確立造成負面影響,隨著偏序圖生成過程中的扭曲偏離,文本挖掘的效果和準確性也將大大降低[17]。除此之外,通過名老中醫(yī)醫(yī)案Access 數(shù)據(jù)庫,運用SQL對數(shù)據(jù)進行處理,采用Cytoscape 軟件分析名老中醫(yī)診療經(jīng)驗[18];降噪及關(guān)鍵詞頻統(tǒng)計的數(shù)據(jù)分層算法探討名老中醫(yī)治療某種疾病的用藥規(guī)律[19]等技術(shù),因其應(yīng)用范圍有限,此處不予贅述。
名老中醫(yī)的臨床經(jīng)驗和學(xué)術(shù)思想是中醫(yī)學(xué)的重要瑰寶,在高水平中醫(yī)人才的培養(yǎng)過程中,臨床經(jīng)驗和學(xué)術(shù)思想的傳承研究極其重要,其對祖國傳統(tǒng)醫(yī)學(xué)的未來發(fā)展也極為重要。但在傳統(tǒng)的培養(yǎng)和學(xué)習模式中,新晉醫(yī)師主要通過跟隨名老中醫(yī)出診抄方的形式來繼承學(xué)習,日積月累的學(xué)習積累下大量的醫(yī)案資料,這些傳統(tǒng)筆記式的資料沒有經(jīng)過系統(tǒng)的整理、篩選,無法尋找隱含在其中的個性化規(guī)律,如:對于同一病、同一證的治療過程中,會出現(xiàn)大量的兩種相似的配伍組合,傳統(tǒng)的跟隨抄方筆記無法實現(xiàn)對大樣本數(shù)據(jù)的有效總結(jié)和分析,這就大大影響了年輕中醫(yī)師的學(xué)習效率,刻苦枯燥的學(xué)習也許只是“事倍功半”。
文本數(shù)據(jù)挖掘技術(shù),通過對數(shù)據(jù)的整理分析實現(xiàn)中醫(yī)臨床診療數(shù)字化、文本向量呈像,并從大量醫(yī)案中整理出中醫(yī)辨證論治及理法方藥的規(guī)律性。通過文本數(shù)據(jù)挖掘,可以實現(xiàn)原始資料的總結(jié)、分析及高度整合,將大量枯燥的、抽象的中醫(yī)醫(yī)案以較為直觀的數(shù)據(jù)形式呈現(xiàn)出來,年輕的中醫(yī)醫(yī)師利用數(shù)據(jù)結(jié)論去追溯回顧臨床診療過程,會起到“事半功倍”的效果,稱之為中醫(yī)繼承學(xué)習領(lǐng)域中的革命性飛躍。使用真實世界臨床研究范式理論指導(dǎo)病歷采集工作,可如實地記錄診療活動的全過程,有利于發(fā)掘其內(nèi)在的診病邏輯思維模式,為名老中醫(yī)學(xué)術(shù)傳承的研究提供了強大的理論指導(dǎo)和方法論指導(dǎo)。近年國際、國內(nèi)提出了真實世界研巧(RWS),文本數(shù)據(jù)挖掘可結(jié)合該理念更好地適應(yīng)臨床實情。特別是在名醫(yī)經(jīng)驗的傳承上可基于RWS的理念,綜合運用文本數(shù)據(jù)挖據(jù)的方法,同時及時與名醫(yī)本人溝通,保證傳承質(zhì)量同時,又為中醫(yī)臨床研究提供了新的途徑[20],具有較好的社會推廣應(yīng)用價值。
[1]黎芬芬,鄧鑫,陳然. 名老中醫(yī)經(jīng)驗思想傳承的思考[J].中華中醫(yī)藥雜志, 2016, 31(7):2685-2687 .
[2]沈春鋒,王彩華,陸煒青,等. 名老中醫(yī)傳承中的隱性知識挖掘[J]. 中醫(yī)雜志, 2016,57(11):930-932.
[3]柴園園,賈利民,陳鈞. 大數(shù)據(jù)與計算智能[M].北京:科學(xué)出版社,2017:118-131.
[4]袁鋒. 中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D].濟南:山東師范大學(xué), 2016.
[5]鄭強,劉奇軍,王正華,等.生物醫(yī)學(xué)命名實體識別的研究與進展[J].計算機應(yīng)用研究,2010,27 ( 3):811-815.
[6]張云濤,龔玲.數(shù)據(jù)挖掘原理與技術(shù)[M].北京: 電子工業(yè)出版社,2004: 1
[7]崔雷. 生物醫(yī)學(xué)文本挖掘:步驟與工具[J]. 中華醫(yī)學(xué)圖書情報雜志, 2017, 26 (3):1-5.
[8]沈毅,傅萍,孔麗婭. 數(shù)據(jù)挖掘方法在名老中醫(yī)用藥規(guī)律研究中的應(yīng)用[J].中醫(yī)雜志, 2016 , 57 (10):890-893.
[9]張榕.術(shù)語定義抽取、聚類與術(shù)語識別研究[D].北京: 北京語言大學(xué),2006.
[10]王星,劉偉.基于引文的中文學(xué)術(shù)文獻自動標引方法研究[J].圖書情報工作, 2014, 58 (3):106-110.
[11]江啟煜,鄭美思,李紅毅,等. 基于條件隨機域的禤國維名老中醫(yī)醫(yī)案挖掘分析[J].中國實驗方劑學(xué)雜志,2017,23(9):118-131.
[12]方琴. ROST內(nèi)容挖掘系統(tǒng)對內(nèi)容分析法影響的研究[J].課程教育研究,2014 (1):234-235.
[13]吳斌,李延萍.基于ROST-CM文本分析骨關(guān)節(jié)炎的中醫(yī)證候及用藥規(guī)律[J].時珍國醫(yī)國藥,2017, 28(4):1015-1017.
[14]張幸芝,雷潤玲,楊超.文本挖掘-基于ROST-CM和Net Draw的內(nèi)容分析[J].科技文獻信息管理,2017, 31(1):17-33.
[15]譚勇,郭洪濤,鄭光,等.利用文本挖掘技術(shù)探索中醫(yī)藥治療疾病的用藥規(guī)律[J].世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代,2010,12(5):823-827.
[16]Y Xu, T Zhang, X Wang, et al. Data mining in traditional chinese ophthalmologic formulae based on theory of structural partial-ordered attribute diagram [J]. ICIC Express Letters, (Part B: Application), 2013, 7(3): 953-958.
[17]管芳.基于偏序結(jié)構(gòu)圖對中醫(yī)藥治療失眠文獻的文本挖掘[D]. 秦皇島:燕山大學(xué), 2014.
[18]王文靜,戈娜,郭維加,等.文本挖掘糖尿病腎病臨床試驗中醫(yī)診療特點[J].中國實驗方劑學(xué)雜志,2016,22(6):210-215.
[19]李雨彥,鄭光,劉良.文本挖掘探討青風藤用藥規(guī)律研究[J]. 世界中醫(yī)藥, 2016,10(6):823-827.
[20]符宇,范冠杰,黃皓月,等. 基于大數(shù)據(jù)名老中醫(yī)學(xué)術(shù)經(jīng)驗傳承研究方法的思考[J].中華中醫(yī)藥雜志, 2017,32(4):1644-1646.
江蘇省中醫(yī)藥管理局科技項目(YB2017061);蘇州市產(chǎn)業(yè)技術(shù)創(chuàng)新專項(民生科技-醫(yī)療衛(wèi)生應(yīng)用基礎(chǔ)研究)(SYS201775);蘇州市產(chǎn)業(yè)技術(shù)創(chuàng)新專項(民生科技-關(guān)鍵技術(shù)應(yīng)用研究)(SS201744);蘇州市中醫(yī)醫(yī)院院級課題(KY170210)。
甄曙光(1983-),男,漢族,碩士研究生,主治中醫(yī)師,研究方向為中醫(yī)藥防治肛腸疾病。E-mail:49662562@qq.com
顏帥(1986-),男,漢族,博士后在讀,研究方向為中醫(yī)藥防治功能性便秘。E-mail:plmokn74123@163.com
R-05
A
1007-8517(2017)22-0127-04
2017-10-10 編輯:張 強)