,
(1.遼寧中醫(yī)藥大學,遼寧 沈陽 110032;2.遼寧中醫(yī)藥大學附屬醫(yī)院,遼寧 沈陽 130032)
數(shù)據(jù)收集和數(shù)據(jù)存儲技術的快速進步使得各組織機構可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術處理它們。有時,即使數(shù)據(jù)集相對較小,由于數(shù)據(jù)本身的非傳統(tǒng)特點,例如像中醫(yī)的證候信息,也不能使用傳統(tǒng)的方法處理。在另外一些情況下,需要回答的問題不能使用已有的數(shù)據(jù)分析技術來解決。因此,就需要開發(fā)新的方法。數(shù)據(jù)挖掘是一種技術,它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復雜算法相結合。數(shù)據(jù)挖掘為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊的數(shù)據(jù)類型提供了令人振奮的機會[1]。中醫(yī)學界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關重要。然而,由于這些數(shù)據(jù)的規(guī)模、噪聲和高維性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集,需要新的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘開發(fā)的技術可以幫助中醫(yī)研究人員解決這些問題。
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還具有預測未來貫徹結果的能力,例如,預測一位向心性肥胖的人出現(xiàn)乏力、多飲,但目前測量血糖、血脂、血壓都正常,在未來半年內是否發(fā)生2型糖尿病。數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉換為有用信息的整個過程,如圖1所示[2]。該過程包括一系列轉換步驟,從數(shù)據(jù)的預處理到數(shù)據(jù)挖掘結果的后處理。
數(shù)據(jù)挖掘利用了來自如下一些領域的思想:(1)
圖1 數(shù)據(jù)庫知識發(fā)展(KDD)過程
來自統(tǒng)計學的抽樣、估計和假設檢驗。(2)人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化、進化計算,信息論、信號處理、可視化和信息檢索[2]。通常,數(shù)據(jù)挖掘任務分為兩大類:一類是預測任務,這些任務的目標是根據(jù)其他屬性的值,預測特定屬性的值;另一類是描述任務,這類任務的目標是導出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關、趨勢、聚類、軌跡和異常)。描述性數(shù)據(jù)挖掘任務通常是探查性的,并且常常需要后處理技術驗證和解釋結果。
(1)預測建模,涉及以說明變量函數(shù)的方式為目標變量建立模型。有兩類預測建模任務:分類,用于預測離散的目標變量;回歸,用于預測連續(xù)的目標變量。預測建??梢杂脕斫鉀Q中醫(yī)脈診的客觀化指標確定問題。為進行這一任務,我們需要一個數(shù)據(jù)集(脈名,相對客觀指標1,相對客觀指標2,……)??陀^指標相對化是指因測量者的體質不同而進行的修正,脈名的確定應該有權威的中醫(yī)專家確定。由此可以確定不同脈的客觀化指標的范圍,但需要后處理技術檢驗。(2)關聯(lián)分析,用來發(fā)現(xiàn)描述數(shù)據(jù)中強關聯(lián)特征的模式。關聯(lián)分析在中醫(yī)中的應用包括找出某一疾病患者出現(xiàn)的各種癥狀和體征之間的聯(lián)系,方劑的配伍規(guī)則。對中醫(yī)古代文獻中復雜的定性描述進行關聯(lián)分析,揭示其規(guī)律實現(xiàn)標準化[3]。(3)聚類分析,旨在發(fā)現(xiàn)緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。中醫(yī)標準化診斷和治療是現(xiàn)今研究的熱點,而標準化要解決的第一個問題就是經(jīng)西醫(yī)確診后的疾病的中醫(yī)證候分類問題[4]。例如,代謝綜合征到底有哪些證型,要解決這個問題需要的觀測值特別多,而且具有高維性,聚類分析可以進行初步的篩選和分類。(4)異常檢測的任務是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,目標是發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。異常檢測的應用包括疾病的不尋常模式,藥物的不典型副作用。由此可見,對中醫(yī)觀測數(shù)據(jù)的挖掘應采用多種方法分批、多層次的挖掘,對結果應該綜合分析,并且得到專家的一致共識,才有參照意義。
以上所論及的挖掘算法都并非專為中醫(yī)開發(fā)的,它們的適應范圍廣,中醫(yī)研究是可以借鑒的[5]。如果根據(jù)中醫(yī)自身特點而研發(fā)的挖掘算法,則可以更好解決中醫(yī)研究中遇到的問題。筆者認為在這方面醫(yī)圣張仲景已經(jīng)樹立了榜樣,他的《傷寒論》就應用了數(shù)據(jù)挖掘技術。他分析的數(shù)據(jù)就是大量臨床病例,分析數(shù)據(jù)所使用的方法來源有三,其一是他精通中國古代數(shù)學;其二是他鉆研《素問》、《九卷》、《八十一難》、《陰陽大論》、《胎臚藥錄》等典籍,從中得出的術數(shù)模型;其三是一些統(tǒng)計學方法。他得出的模式是六經(jīng)辨證模式,此模式成為中醫(yī)臨床最重要的辨證模式。六經(jīng)辨證模式解決了中醫(yī)外感病的分類與治療問題,外感病傳變、轉屬等諸多問題。以上雖有杜撰之嫌,但也的確能給研究者一些啟示。
[1]ZhangHui Tang,著.高 升,譯.數(shù)據(jù)挖掘原理與應用[M].北京:清華大學出版社,2007:2-4.
[2]Pang-Ning Tan,著.范 明,譯.數(shù)據(jù)挖掘導論[M].北京:人民郵電出版社,2006:1-4.
[3]秦雪君,施 誠.數(shù)據(jù)挖掘技術在中醫(yī)藥領域的應用[J].醫(yī)學信息,2006,19(5):945-947.
[4]張 琴,劉 平,張文彤.數(shù)據(jù)挖掘技術在中醫(yī)證候學研究中的應用[J].上海中醫(yī)藥雜志,2006,40(3):3-5.
[5]龔燕冰,倪 青,王永炎.中醫(yī)證候研究的現(xiàn)代方法學述評[J].北京中醫(yī)藥大學學報,2006,29(12):797-801.