張慧芹,郝 鈺,李 健,鄭 光,劉忠第,姜 淼,呂愛平△
(1.北京中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院,北京 100029;2.蘭州大學(xué)信息學(xué)院,蘭州 730107;3.中國中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所,北京 100700)
非酒精性脂肪性肝病(non-alcoholic fatty liver disease,NAFLD)是指除外過量飲酒和其他明確因素,以肝細胞內(nèi)脂肪變性、脂肪貯積為特征的臨床病理綜合征,其疾病譜通常包括單純性脂肪肝、非酒精性脂肪性肝炎和肝硬化[1]。根據(jù)非酒精性脂肪性肝病的病機及臨床證候特征,中醫(yī)將其歸為“脅痛”、“積聚”、“肝痞”等范疇,不同醫(yī)家在治療方案及用藥上存在一定差異,尚未形成共識[2]。近年來,非酒精性脂肪性肝病受到學(xué)術(shù)界高度重視,臨床及基礎(chǔ)研究大量開展,相關(guān)研究報道(文獻數(shù)量)急劇增多,已形成豐富、開放式的數(shù)據(jù)庫資源。如中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫(Chinese BioMdeical Literature Database,SinoMed,http:∥sinomed.cintcm.ac.cn/index.jsp)、中 國 知 網(wǎng) 數(shù) 據(jù) 庫 (China National Knowledge Infrastructure,CNKI,http:∥epub.cnki.net)等?;谶@些數(shù)據(jù)庫資源,研究者可以借助數(shù)據(jù)挖掘技術(shù)獲取有價值的信息,理解疾病的中醫(yī)證候、方劑配伍等內(nèi)在規(guī)律及原理。
本文采用課題組成熟的文本挖掘技術(shù),結(jié)合原文獻回溯、人工閱讀分析等方法,對非酒精性脂肪性肝病相關(guān)的中文文獻進行了文本挖掘及關(guān)系網(wǎng)構(gòu)建,提取了與該病相關(guān)的中醫(yī)證候、中藥用藥規(guī)律等信息,對中醫(yī)藥干預(yù)非酒精性脂肪性肝病的“理-法-方-藥”規(guī)律及作用機制提供了客觀證據(jù)。
在中國生物醫(yī)學(xué)文獻數(shù)據(jù)庫(SinoMed)中以缺省“智能”狀態(tài)下檢索“非酒精性脂肪肝 or非酒精性脂肪性肝病”,共得到文獻52964篇(文獻檢索時間節(jié)點:2014年2月9日),依次下載所有文獻并保存(文件的后綴均為txt格式,以ANSI編碼格式)。
應(yīng)用課題組自行研發(fā)的文本提取工具(軟著登字第0261882號,登記號2010SR073409),對已下載的txt文本數(shù)據(jù)進行信息提取,轉(zhuǎn)換為格式化,便于Microsoft SQL Server(以下簡稱SQL)處理文件格式并導(dǎo)入SQL。
假設(shè)每篇文獻的貢獻度相同,1篇文獻中重復(fù)出現(xiàn)的關(guān)鍵詞只計算1次。據(jù)此構(gòu)建基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計的數(shù)據(jù)分層算法,進行數(shù)據(jù)清洗、一維信息(頻數(shù))提取、二維信息(關(guān)系/詞對)構(gòu)建[3]。
用 Cytoscape2.8 軟件(http:∥www.cytoscape.org)對不同頻次二維信息(關(guān)鍵詞對)進行可視化網(wǎng)絡(luò)構(gòu)建,并結(jié)合專業(yè)知識進行評析。對其中不合理的數(shù)據(jù)做原文獻回溯、查詢,并進一步清洗噪音。
文本挖掘格式化數(shù)據(jù)庫,按證候出現(xiàn)文獻頻次高低列前10位的證候依次是肝氣郁結(jié)、肝郁脾虛、痰瘀互結(jié)、濕熱內(nèi)蘊、腎陰虛、肝腎陰虛、肝郁氣滯、氣滯血瘀、脾氣虛和痰濕內(nèi)阻(圖1-A)。為探明證候間的關(guān)系,對同時出現(xiàn)的證候詞匯構(gòu)建網(wǎng)絡(luò)(圖1-B),圖中圓圈為證型名稱,連線代表證候兩兩之間的聯(lián)系。連線越多,表明該證型與疾病的關(guān)聯(lián)程度越高,越處于核心位置;圓圈越大,代表該證型與其他證型在文獻中出現(xiàn)的頻次越高,其權(quán)重越大。網(wǎng)絡(luò)分析表明,非酒精性脂肪性肝病的核心證型為肝氣郁結(jié)、痰瘀互結(jié)、濕熱內(nèi)蘊、肝郁脾虛和肝腎陰虛(圖1-C)。
圖1 非酒精性脂肪性肝病相關(guān)證候類型及證候網(wǎng)絡(luò)圖
數(shù)據(jù)挖掘非酒精性脂肪性肝病的中醫(yī)用藥規(guī)律表明,文獻頻次排前10位的中藥包括天冬、丹參、柴胡、山楂、澤瀉、大黃、何首烏、虎杖、決明子和郁金(圖2-A)。對同時出現(xiàn)在方劑中的中藥構(gòu)建網(wǎng)絡(luò)分布圖表明,丹參、山楂、澤瀉、柴胡、白術(shù)、何首烏和郁金7味中藥關(guān)聯(lián)度最高(圖2-B),是干預(yù)非酒精性脂肪性肝病的核心藥物。值得指出的是,天冬并非臨床治療非酒精性脂肪性肝病的常用中藥,初步推測其可能為文本中存在的噪音,回溯原文發(fā)現(xiàn)天冬一詞來自“天冬氨酸轉(zhuǎn)移酶(AST)”,是脂肪肝臨床檢測的主要生化指標(biāo)。
圖2 與非酒精性脂肪性肝病干預(yù)相關(guān)的中藥及相互作用網(wǎng)絡(luò)圖
文本挖掘防治非酒精性脂肪性肝病的常用方劑結(jié)果表明,柴胡疏肝散、四逆散、逍遙散、二陳湯、大柴胡湯、降脂保肝湯、茵陳蒿湯、小柴胡湯、膈下逐瘀湯和調(diào)肝湯出現(xiàn)頻次較高,列前10位(圖3-A)。方劑間網(wǎng)絡(luò)關(guān)系提示,膈下逐瘀湯、四逆散、柴胡疏肝散、二陳湯是干預(yù)非酒精性脂肪性肝病的核心方劑(圖3-B)。
圖3 治療非酒精性脂肪性肝病的核心方劑圖
文本挖掘(Text Mining)技術(shù)是以統(tǒng)計數(shù)理分析、計算語言學(xué)為理論基礎(chǔ),服務(wù)于醫(yī)藥、生物、化學(xué)文獻研究等學(xué)科的新興交叉學(xué)科[4]。通過在數(shù)據(jù)庫大量文獻中進行的信息抽取、語詞識別、發(fā)現(xiàn)知識間的關(guān)聯(lián)等[5],能夠快速、有效地找到所需信息,并發(fā)現(xiàn)隱藏的知識信息和規(guī)律,解決了由于文獻的數(shù)量龐大、缺乏組織整理以及電子格式多種多樣且不能充分利用這些數(shù)據(jù)的問題,它能對各種電子數(shù)據(jù)庫的海量文獻數(shù)據(jù)進行整合、關(guān)聯(lián)及綜合分析,獲得的結(jié)果更具有代表性、可信度更高[6]。在現(xiàn)代中醫(yī)藥研究領(lǐng)域,此方法從某種層次上促進中醫(yī)臨床研究和中藥復(fù)方研發(fā)等多個方面[7],為中西醫(yī)結(jié)合研究提供新的思路、方法和途徑,其結(jié)果更加客觀及可視化,可重復(fù)性強。
“非酒精性脂肪肝”屬于中醫(yī)學(xué)“脅痛”、“積聚”等范疇。中醫(yī)認為其病因與過食肥甘厚味、久臥久坐、體豐痰盈、感受濕熱毒邪、情志失調(diào)、久病體虛等有關(guān)?;谖谋就诰驍?shù)據(jù),結(jié)合文獻回溯和分析結(jié)果提示,中醫(yī)在干預(yù)非酒精性脂肪性肝病上遵循一定的“理法方藥”規(guī)律,可概括為以下3種診治思路和干預(yù)模式。
治法當(dāng)以疏肝解郁、行氣和中,方劑以柴胡疏肝散為主。柴胡疏肝散出自《醫(yī)學(xué)統(tǒng)旨》,以《傷寒論》“四逆散”基礎(chǔ)方為疏肝理氣之代表方劑,功能疏肝解郁、行氣止痛,主治脅肋疼痛,或寒熱往來、噯氣太息、脘腹脹滿,脈弦?,F(xiàn)代常用于非酒精性脂肪肝、急性肝炎、慢性胃炎、急性膽囊炎、脅間神經(jīng)痛等屬肝郁氣滯者,類似相關(guān)功效的方劑有小柴胡湯和逍遙散。
治法當(dāng)以疏肝養(yǎng)血、活血化瘀,以膈下逐瘀湯為主加減。膈下逐瘀湯是清代名醫(yī)王清任的名方,主治膈下氣滯血瘀形成痞塊、痛處不移、臥則腹墜、腎瀉久瀉,現(xiàn)用于非酒精性脂肪肝、慢性活動性肝炎、慢性肝硬化等屬血瘀氣滯者,類似相關(guān)功效的方劑有四物湯、桃紅四物湯、當(dāng)歸芍藥散、復(fù)元活血湯和血府逐瘀湯等。
治法為健脾養(yǎng)胃、化濁消瘀,以二陳湯為主加減。二陳湯源于宋·《太平惠民和劑局方》,由法半夏、陳皮、茯苓、甘草組成,是一種能燥濕化痰、理氣和中的中醫(yī)藥方劑(二陳的由來是因配藥時選取半夏和陳皮應(yīng)以陳舊者為佳而得此名),現(xiàn)代常用于非酒精性脂肪肝、慢性胃炎、慢性膽囊炎等屬脾胃痰濕、肝郁氣滯者。類似相關(guān)功效的方劑還有六君子湯、半夏瀉心湯、平胃散、連樸飲、參苓白術(shù)散、五苓散等。
結(jié)合中醫(yī)臨床病案資料,對于非酒精性脂肪性肝病的治療常常是理氣、活血和化濕的方劑同時合用,如柴胡疏肝散+膈下逐瘀湯+六君子湯,或者柴胡疏肝散+復(fù)元活血湯+平胃散,或者二陳湯+血府逐瘀湯+柴胡疏肝散。理氣、活血和化濕的3個方劑組成一個藥物網(wǎng)絡(luò),多成分、多功能、多層次、多靶點地進行機體內(nèi)部互相調(diào)節(jié)、互相平衡、扶正祛邪、祛濁降脂。
誠然,本研究尚存在一定的局限性,僅僅定向挖掘非酒精性脂肪肝的證候特點和用藥規(guī)律,對于“方-證”對應(yīng)原則及方藥作用機制的研究還未能實現(xiàn)。然而,本研究旨在建立一種從海量文本數(shù)據(jù)獲取“知識”和潛在“規(guī)律”,用于理解中醫(yī)基礎(chǔ)理論的內(nèi)涵及方劑作用原理的生物信息學(xué)方法[8,9]。此外,文本挖掘及關(guān)系網(wǎng)構(gòu)建策略對于發(fā)現(xiàn)新藥(新配伍組合)提供了可操作的技術(shù)平臺。
[1]李軍祥,陳潤花,蘇冬梅,等.非酒精性脂肪肝中醫(yī)治療研究進展[J].世界華人消化雜志,2010,18(14):1442-1446.
[2]李軍祥,陳潤花.非酒精性脂肪性肝病的中醫(yī)藥研究進展[J].現(xiàn)代消化及介入治療,2009,14(3):180-185.
[3]Zheng G.,Jiang M.,He XJ.,Zhao J.,Guo HT.,Chen G.,Zha QL.,Lu AP.Discrete derivative:a data slcing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,4:18-23.
[4]薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報·自然科學(xué)版,2005,19(4):59-63.
[5]J.C.,Lamirel S.A.Shehabi,M.Hoffmann,et al.Intelligent Patent AnalysisThrough the Use ofa NeuralNetwork:Experiment of Multi-viewpoint Analysis with the Multi SOM Model[M].The ACL 2003Workshop on Patent Corpus Processing,2003:7-23.
[6]Rodriguez-Esteban R.Biomedical text mining and its applications[J].PLOS Compute Biol.,2009,5(12):e1000597.
[7]Zheng G,et al.Two Dimensions Data Slicing Algorithm,a New Approach in Mining rules of literature in traditional Chinese Medicine in Communicationsin Computerand Information Science[M].Springer-Verlag Berlin Heidelberg,2011:161-174.
[8]Li S.,et al.Understanding ZHENG in traditional Chinese medicine in the context of Neuro-Endocrine-Immune network[J].IET Syst Biol,2007,1(1):51-60.
[9]姜淼,查青林,郭玉明,等.基于中醫(yī)藥科學(xué)思維的生物醫(yī)學(xué)創(chuàng)新研究思路與方法[J].中國中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2010,16(5):354.