張佛曉
摘要:藏醫(yī)藥學是我國極具民族特色的醫(yī)藥學科之一,在藏族人民漫長的生產(chǎn)、生活實踐中,其系統(tǒng)的理論和獨特的臨床療效及用藥特色,為藏族人民繁衍生息、保障生命健康做出了重要貢獻,越來越多的人開始注意到藏醫(yī)藥學科的發(fā)展。
但是由于藏醫(yī)藥事業(yè)發(fā)展起步晚、起點低、底子薄,和其他醫(yī)藥學科相比還存在很大的差距,所以對藏醫(yī)藥事業(yè)的科學化研究迫在眉睫。
雖然數(shù)據(jù)挖掘技術已經(jīng)在傳統(tǒng)醫(yī)學如:中醫(yī)藥學科上得到了廣泛地應用,如聚類算法、關聯(lián)規(guī)則算法、分類算法。但由于藏醫(yī)和中醫(yī)有著諸多臨床診療上的差距,使得對于藏醫(yī)藥的研究中不可完全套用中醫(yī)數(shù)據(jù)挖掘的方法。文章主要總結(jié)常用的數(shù)據(jù)挖掘技術及近年來數(shù)據(jù)挖掘技術在藏醫(yī)藥上的發(fā)展及前景展望。
關鍵詞:藏醫(yī)診療 數(shù)據(jù)挖掘 分類聚類 關聯(lián)規(guī)則
1常用的數(shù)據(jù)挖掘技術
1.1數(shù)據(jù)預處理
數(shù)據(jù)預處理占到數(shù)據(jù)挖掘60%的時間,良好的數(shù)據(jù)預處理是得到有效挖掘結(jié)果的重要前提?,F(xiàn)有的數(shù)據(jù)預處理技術主要包括數(shù)據(jù)清洗、數(shù)據(jù)采樣、特征處理、特征選擇和降維。
由于醫(yī)療數(shù)據(jù)的特點,一方面數(shù)據(jù)獲取比較困難,往往獲得的數(shù)據(jù)往往會存在缺失、冗余等問題。另一方面,醫(yī)療數(shù)據(jù)中包含很多患者信息,需要做各種脫敏處理,否則會侵犯患者的個人隱私。
如對藏醫(yī)中慢性萎縮性胃炎診療數(shù)據(jù)進行數(shù)據(jù)預處理,包括對數(shù)據(jù)中的缺失值進行填充、對不符合常理的數(shù)據(jù)進行刪除,對樣本數(shù)據(jù)進行采樣,減少因數(shù)據(jù)類別不平衡對結(jié)果的影響。對特征進行處理,數(shù)據(jù)主要是數(shù)值型和類別型的數(shù)據(jù),常用的方法有歸一化和標準化、log數(shù)值域的變化、數(shù)據(jù)離散化、orie-hot編碼等。對數(shù)據(jù)進行降維和特征提取等,從而達到壓縮數(shù)據(jù)維度、減少規(guī)則冗余度的目的,從而提高癥型分類和預測的準確率。
1.2關聯(lián)分析算法
R.Agrawal等首先提出了經(jīng)典的頻繁項集挖掘方法AIS,Apriorl[6]算法;J.S.Park等對關聯(lián)規(guī)則算法進行改進提出DHP算法有效的減小了頻繁候選集的規(guī)模;同年,Savasere提出基于劃分的關聯(lián)規(guī)則算法減少算法對數(shù)據(jù)集的掃描次數(shù),大大的提高了算法的效率;之后R .Wille提出了基于概念格的挖掘算法等,隨著時代的變化關聯(lián)規(guī)則算法也在不斷地演變改進。
關聯(lián)規(guī)則分析在醫(yī)療數(shù)據(jù)研究中發(fā)揮著重要的作用,用于挖掘癥狀和癥型之間的潛在關系,發(fā)現(xiàn)“癥狀癥狀、癥狀 癥型”等數(shù)據(jù)中的內(nèi)在聯(lián)系,尋找臨床數(shù)據(jù)隱藏的價值,讓醫(yī)生能更好的對患者進行診斷,可以為分類和預測做輔助作用是癥型的預測和分類研究中的重要環(huán)節(jié)。
1.3分類算法
目前數(shù)據(jù)挖掘中常用的分類算法有SVM算法(SupportVector Machine),決策樹算法(Decision Tree),K近鄰算法,樸素貝葉斯算法,神經(jīng)網(wǎng)絡算法,以及邏輯回歸(LogisticRegression)等。但是鑒于目前需要解決的問題的難度和醫(yī)療數(shù)據(jù)維度的復雜性的不斷增加,傳統(tǒng)的數(shù)據(jù)挖掘算法已經(jīng)不能滿足需求,由此出現(xiàn)了多種集成學習算法,集成學習主要分為bagging和boosting兩種方式,是將某些弱學習器通過投票的方式或者取平均值的方式得出最終的結(jié)果,從而使預測準確率得到很大的提升。
2數(shù)據(jù)挖掘在藏醫(yī)中應用
2.1數(shù)據(jù)挖掘在藏醫(yī)輔助決策診療中的應用
目前對常見的高原常見?。ㄎs性胃炎),藏醫(yī)主要依據(jù)個人經(jīng)驗來對患者進行診斷,包括對患者的脈象診斷,患者的舌苔情況,患者的尿液顏色和氣味及患者的癥狀等。脈象下包括洪、滑、緊等十七個方面,舌苔的顏色和厚度等七個方面,而尿液的情況也比較復雜,包括尿液的顏色,尿液的氣味等十七個方面的判斷,對于同一種疾病癥狀也很復雜。拿萎縮性胃炎來說,在藏醫(yī)中萎縮性胃炎一般分為四個癥型,不同的癥型及相同的癥型患者的癥狀和體征表現(xiàn)往往有很大差距。所以僅通過個人經(jīng)驗判斷比較容易出錯,需要通過科學的手段對癥型和癥狀進行判斷。
可以利用數(shù)據(jù)挖掘中無監(jiān)督學習的聚類算法結(jié)合臨床診療數(shù)據(jù)對高原常見病(萎縮性胃炎)進行合理的分型,運用數(shù)據(jù)挖掘中的關聯(lián)規(guī)則算法,發(fā)現(xiàn)藏因臨床診療“癥狀癥型,癥狀 癥狀”之間隱含的規(guī)則,尋找臨床數(shù)據(jù)隱藏的價值,讓醫(yī)生能更好的對患者進行診斷,可以為分類和預測做輔助作用是癥型的預測和分類研究中的重要環(huán)節(jié)。
據(jù)統(tǒng)計藏醫(yī)中存在著針灸和放血治療的疾?。ㄗC候)多達489種可以利用聚類分析和關聯(lián)規(guī)則分析藏醫(yī)中針灸的穴位定位、穴位主治病種等。在治療方法上,藏族醫(yī)學運用不同穴位治療的相同的疾病最多的是癲狂、昏厥、氣短的疾病,對于急性發(fā)作的神志疾病、呼吸系統(tǒng)疾病、心腦血管疾病能起到非常獨特的療效。
2.2數(shù)據(jù)挖掘在藏醫(yī)用藥規(guī)律的研究
目前藏藥組方規(guī)律的研究主要是在臨床藥物觀察、大量文獻整理研究、通過各種藥理實驗等方面。很少有通過數(shù)據(jù)挖掘的算法進行藏醫(yī)組方規(guī)律的研究,目前聚類算法和關聯(lián)規(guī)則算法在藏醫(yī)用藥規(guī)律研究中有很好的效果,在萎縮性胃炎用藥方面主要采用apriori算法對每味藥進行頻繁項集,置信度和支持的的挖掘,得出可信的用藥的組合規(guī)律。同時可以利用無監(jiān)督的聚類算法對藥物進行聚類可以新處方規(guī)律的挖掘。
張藝等人在藏醫(yī)脾胃病研究中利用關聯(lián)規(guī)則算法對脾胃病用藥得出了置信度大于0.85的治療藏醫(yī)中脾胃病的新處方,利用層次聚類算法演化得出了新的核心用藥組合。
藥物可能會因為在是否飽腹或者是所處的時間對治療效果有一定的影響,王明強等人在藏醫(yī)隆滯布病的用藥組方規(guī)律研究中加入了時序關系挖掘,利用關聯(lián)規(guī)則算法得出效果明顯的加入了時序關系的藥物組方規(guī)律。
3總結(jié)
近幾年來逐漸開始有研究者將數(shù)據(jù)挖掘算法應用于藏醫(yī)的癥狀癥型分析和藥物組方規(guī)律的挖掘中,這對藏醫(yī)藥科學的發(fā)展起到了很大的推動作用,目前藏醫(yī)在科學性和規(guī)范性上還處于初級階段,在這方面的研究提高了藏醫(yī)癥型診斷的科學性,以及用藥的規(guī)范性。慢慢的推動藏醫(yī)由經(jīng)驗主義到科學主義的演變。
參考文獻
[l]王培培,健康體檢數(shù)據(jù)預處理方法研究與應用[D].鄭州大學,2016.
[2] Han J,Kamber M. Data Mining: Concepts and 'rechniques,Morgan Kaufmann[Jl. Machine Press, 2001 (in Chinese, 2006,1(4):394-395.
[3] Dunham M H. Data Mining: Introductory and AdvancedTopicsEMl// Data mining introductory and advanced topics/.Prentice Hall/Pearson Education, 2003.
[4] Zhi-Gang J, Xu J. Research on Data Preprocess inData Mining and Its Application[J]. Application Research ofComputers, 2004, 21(7):117-118.
[5]Agrawal R, Srikant R.Mining association rules between setsof items in large databases[Al.ProcACM SIG MOD Int'I ConfManagement of dataECl.Washington DC, May 1993.207-216
[6]Agrawal R, Srikant R.Fast algorithms for mining associationrules[A].Proc 20th In't I Conf Very Large Database[Cl.Santiago,Chile, Sept 1994.487-499
[7] Park J S,Chen M S,Yu P S.An effective hash-basedalgorithm for mining association rules[J]. Acm Sigmod Record,1995, 24(2):175-186.
[8] Savasere A, Orniecinski E,Navathe S B. An EfficientAlgorithm for Mining Association Rules in Large Databases[C]//International Conference on Very Large Data Bases. MorganKaufmann Publishers Inc. 1995:432-444.
[9] Ganter B,Godin R. Formal Concept AnalysisLMl. SpringerBerlin Heidelberg, 1999.
[10] Joachims T. Transductive Inference for Text Classificationusing Support Vector MachinesECl// Sixteenth InternationalConference on Machine Learning. Morgan Kaufmann PublishersInc. 1999:200-209.
[11] Quinlan J R. C4.5: programs for machine learning[M].Morgan Kaufmann Publishers Inc. 1993.
[12] Cover T M, Hart P E. Nearest neighbor patternclassification. IEEE Trans Inf Theory IT-13(1):21-27[J]. IEEETransactions on Information Theory, 1967, 13(1):21-27.
[13] Mccallum A, Nigam K.A Comparison of Event Models forNaive Bayes Text Classification[J]. IN AAAI-98 WORKSHOP ONLEARNING FOR TEXT CATEGORIZATION, 1998, 62(2):4148.
[14] Hagan M.T., Demuth H.B., Beale M.H.: Neural NetworkDesign. PWS Publishing, Boston (1996)
[15] Hosmer D W, Lemeshow S.Applied logistic regression[M].Wiley, 2000.
[16]王世潁.基于醫(yī)療數(shù)據(jù)挖掘的高原常見病藏醫(yī)診療決策支持技術研究[D]青海大學.
[17]歐陽波.基于數(shù)據(jù)挖掘的藏蒙放血和灸療法比較研究[D]北京中醫(yī)藥大學.
[18]張藝.基于數(shù)據(jù)挖掘和整合藥理學平臺的藏醫(yī)治療脾胃病用藥規(guī)律及作用機制[J]中國中藥雜志2018,16.
[19]王明陽,基于數(shù)據(jù)挖掘的藏醫(yī)隆滯布病癥狀、用藥規(guī)律的探索與分析[D]北京中醫(yī)藥大學.