王鐘廉
(西安交通大學(xué)附屬中學(xué),陜西西安,710000)
隨著當(dāng)今世界經(jīng)濟(jì)、文化、政治等的高速發(fā)展,計(jì)算機(jī)自20世紀(jì)50年代產(chǎn)生以來(lái),便經(jīng)歷著一代又一代的革新前進(jìn),并很快的滲透到社會(huì)生活的方方面面,為人們的工作、學(xué)習(xí)帶來(lái)了翻天覆地的變化,越來(lái)越成為了人們生活中不可分割的一部分。與此同時(shí),近些年來(lái),數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算、機(jī)器學(xué)習(xí),深度學(xué)習(xí)等最新技術(shù)越來(lái)越受到科研工作者的青睞[1],引起了廣泛的研究興趣,并在許多領(lǐng)域中得到不同程度的轉(zhuǎn)化利用,成為促使我國(guó)經(jīng)濟(jì)發(fā)展與技術(shù)革新的一大驅(qū)動(dòng)力量。我們每天被科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、金融數(shù)據(jù)、銷(xiāo)售數(shù)據(jù)等各式各樣的海量數(shù)據(jù)所淹沒(méi),如何從大量的、有噪聲的、不完全的、模糊的實(shí)際應(yīng)用數(shù)據(jù)中提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)成為當(dāng)前困擾著人們的一大難題。在此大背景之下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。
數(shù)據(jù)挖掘是20世紀(jì)末逐漸形成的一個(gè)多學(xué)科交叉領(lǐng)域,它是一個(gè)融合了人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)以及知識(shí)工程等諸多領(lǐng)域技術(shù)的一個(gè)多學(xué)科交叉領(lǐng)域。目前,已經(jīng)成功地應(yīng)用在金融、零售、醫(yī)藥、通訊、電子工程、航空等有大量數(shù)據(jù)和深度分析需求的領(lǐng)域,是當(dāng)前數(shù)據(jù)庫(kù)和信息決策領(lǐng)域的最前沿研究方向之一[2]。例如,數(shù)據(jù)挖掘技術(shù)在CRM(客戶(hù)關(guān)系管理)中的應(yīng)用,成功地將數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)轉(zhuǎn)變?yōu)闃O具實(shí)用價(jià)值的分析依據(jù),為生產(chǎn)新產(chǎn)品提供決策[3],幫助企業(yè)確定客戶(hù)的特點(diǎn),提供個(gè)性化的服務(wù);利用數(shù)據(jù)挖掘技術(shù)研發(fā)的指紋、虹膜,人臉等生物特征識(shí)別技術(shù),成功地應(yīng)用到現(xiàn)實(shí)安全加密,人事考勤之中,促進(jìn)了生產(chǎn)力的發(fā)展;分類(lèi)算法在醫(yī)學(xué)影像上應(yīng)用,成功的鑒別出了精神疾病患者區(qū)別于健康人的生物標(biāo)志,促進(jìn)了醫(yī)學(xué)研究的不斷進(jìn)步,在輔助醫(yī)師做出正確的診斷,并及時(shí)的采取治療措施上取得了巨大成功。在此熱潮的推動(dòng)下,各行各業(yè)都在加緊步伐利用數(shù)據(jù)挖掘技術(shù)發(fā)掘潛在價(jià)值,創(chuàng)造新的財(cái)富。
中醫(yī)藥物治療乳腺癌具有廣泛的適應(yīng)癥和獨(dú)特的優(yōu)勢(shì)。根據(jù)臨床醫(yī)生的經(jīng)驗(yàn),各項(xiàng)中醫(yī)癥素表現(xiàn)與乳腺癌不同分期階段存在一定的關(guān)聯(lián)關(guān)系,中醫(yī)癥狀間的關(guān)聯(lián)關(guān)系和諸多癥狀之間的規(guī)律性。但是這種單純依靠經(jīng)驗(yàn)的診斷方法缺乏統(tǒng)一的規(guī)范,難以做到診斷的標(biāo)準(zhǔn)化。其次,疾病的復(fù)雜性和體質(zhì)的差異,造成病人是多種癥素兼夾復(fù)合,有時(shí)臨床醫(yī)師可能會(huì)被自身的經(jīng)驗(yàn)所誤導(dǎo)。
因此,可以通過(guò)一定的規(guī)則,挖掘出各中醫(yī)癥素與乳腺癌TNM分期之間的關(guān)系。探索不同分期階段的乳腺癌患者的中醫(yī)癥素分布規(guī)律,指導(dǎo)乳腺癌的中醫(yī)臨床治療。數(shù)據(jù)挖掘技術(shù)發(fā)展較為成熟,具有堅(jiān)實(shí)的理論基礎(chǔ),充分利用它在處理大數(shù)據(jù)方面的優(yōu)勢(shì),通過(guò)尖端的算法充分分析復(fù)雜無(wú)序數(shù)據(jù)背后潛在的信息。本論文研究的意義在于,通過(guò)對(duì)臨床醫(yī)學(xué)數(shù)據(jù)的分析,以期得到影響乳腺癌不同分期階段與各項(xiàng)中醫(yī)癥素的交互關(guān)系,并且依據(jù)規(guī)則分析病因、預(yù)測(cè)病情的發(fā)展以及為未來(lái)臨床提供有效借鑒。同時(shí),針對(duì)其他類(lèi)型的實(shí)際問(wèn)題,可以利用類(lèi)似的研究思想進(jìn)行分析[4]。
本實(shí)驗(yàn)的主要目的是利用數(shù)據(jù)挖掘的算法對(duì)數(shù)據(jù)進(jìn)行處理,得到六項(xiàng)中醫(yī)癥素(肝氣郁結(jié)、熱毒蘊(yùn)含、沖任失調(diào)、氣血兩虛、脾胃虛弱、肝腎陰虛)得分與乳腺癌TNM(H1、H2、H3、H4)分期之間的關(guān)系。這是一個(gè)典型的分類(lèi)問(wèn)題,可以見(jiàn)四個(gè)乳腺癌TNM分期看作要?jiǎng)澐值念?lèi)別,六項(xiàng)中醫(yī)癥素當(dāng)作屬性特折,因此可以簡(jiǎn)化為利用特征進(jìn)行分類(lèi)的問(wèn)題。在各種分類(lèi)算法中,我們采取基于樹(shù)的分類(lèi)器方法。具體地,我們擬采用三種最常見(jiàn)的分類(lèi)方法,分別是決策樹(shù),分類(lèi)與回歸樹(shù)(CART),隨機(jī)森林(randomforest)[5]。
決策樹(shù),其核心是ID3算法,它是最簡(jiǎn)單與基礎(chǔ)的分類(lèi)器。它將一個(gè)樣本的屬性特征進(jìn)行層層分裂,最后得出其分類(lèi)類(lèi)別,因其上小下大的形狀酷似一顆倒懸的樹(shù)而得名。ID3算法就是在每次需要分裂時(shí)計(jì)算出每個(gè)屬性的信息增益,然后選擇信息增益率最大的屬性進(jìn)行分裂[6]。
所謂信息增益是針對(duì)一個(gè)一個(gè)特征而言的,系統(tǒng)有它和沒(méi)有它時(shí)的信息量各是多少,兩者的差值就是這個(gè)特征給系統(tǒng)帶來(lái)的信息量,即信息增益。計(jì)算信息增益首先要計(jì)算信息熵,信息上就是一個(gè)離散隨機(jī)事件出現(xiàn)的概率,一個(gè)系統(tǒng)越有序。
假如有變量X其可能的取值有n種,每一種取到的概率為Pi,那么X的熵就定義為:
如果系統(tǒng)中存在m個(gè)變量X,那么總的信息熵為:
分裂X所帶來(lái)的信息增益為:
通過(guò)選取信息增益最大的屬性結(jié)點(diǎn),就可以完成決策樹(shù)的構(gòu)建。
分類(lèi)與回歸樹(shù)的英文是Classi fi cation and regression tree,縮寫(xiě)是CART。分類(lèi)與回歸樹(shù)與簡(jiǎn)單的決策樹(shù)算法最大的不同在于,CART本質(zhì)是對(duì)特征空間進(jìn)行二元?jiǎng)澐郑碈ART生成的決策樹(shù)是一棵二叉樹(shù)),內(nèi)部結(jié)點(diǎn)特征的取值為“是”和“否”,左分支是取值為“是”的分支,右分支是取值為“否”的分支。對(duì)于目標(biāo)類(lèi)別大于兩個(gè)的實(shí)際問(wèn)題而言,CART算法在進(jìn)行樹(shù)的構(gòu)建的過(guò)程中通過(guò)考慮將目標(biāo)類(lèi)別合并成兩個(gè)超類(lèi)別,來(lái)進(jìn)行二元?jiǎng)澐帧?/p>
具體地,CART是通過(guò)一種叫做Gini指數(shù)的指標(biāo)進(jìn)行最優(yōu)特征的選取。
GINI指數(shù)是一種用來(lái)度量樣本內(nèi)分布差異大小的一項(xiàng)指標(biāo),最開(kāi)始來(lái)源于經(jīng)濟(jì)學(xué)家對(duì)某地區(qū)的收入分配差異。Gini指數(shù)是介于0~1之間的數(shù),0-完全相等,1-完全不相等;總體內(nèi)包含的類(lèi)別越雜亂,GINI指數(shù)就越大?;嶂笖?shù)關(guān)注目標(biāo)變量里最大的類(lèi),它試圖找到一個(gè)劃分把它和其他的類(lèi)區(qū)分開(kāi)來(lái)。
隨機(jī)森林英文Random Forest顧名思義,Random就是隨機(jī)抽取,F(xiàn)orest就是說(shuō)這里不止一棵樹(shù),而由一群決策樹(shù)組成的一片森林,連起來(lái)就是用隨機(jī)抽取的方法訓(xùn)練出一群決策樹(shù)來(lái)完成分類(lèi)任務(wù)。
隨機(jī)森林用了兩次隨機(jī)抽取,一次是對(duì)訓(xùn)練樣本的隨機(jī)抽??;另一次是對(duì)變量(特征)的隨機(jī)抽取。對(duì)樣本的隨機(jī)抽取是指在對(duì)每一棵樹(shù)的模型構(gòu)建中,通過(guò)有放回的抽取與原始樣本大小相等的樣本來(lái)作為訓(xùn)練數(shù)據(jù)集[7]。一方面解決樣本數(shù)量有限的問(wèn)題,另一方面由于每次抽取的樣本都是隨機(jī)的,可以保證構(gòu)建的樹(shù)之間存在差異。而對(duì)樣本的隨機(jī)抽取,是指每次構(gòu)建分類(lèi)樹(shù)的時(shí)候都從所有特征里抽取相同數(shù)量的部分特征,從而使得每棵樹(shù)實(shí)際用到的特征都不是完全一樣的。RF的核心是由弱變強(qiáng)思想的運(yùn)用。每棵決策樹(shù)由于只用了部分變量、部分樣本訓(xùn)練而成,可能單個(gè)的分類(lèi)準(zhǔn)確率并不是很高。但是當(dāng)一群這樣的決策樹(shù)組合起來(lái)分別對(duì)輸入數(shù)據(jù)作出判斷時(shí),可以帶來(lái)較高的準(zhǔn)確率。有點(diǎn)類(lèi)似于俗語(yǔ)“三個(gè)臭皮匠頂個(gè)諸葛亮”。由于構(gòu)建了多顆決策樹(shù),每棵樹(shù)都可以做出分類(lèi)決策結(jié)果,根據(jù)少數(shù)服從多數(shù)的原則,最后的類(lèi)別由所有樹(shù)中票數(shù)較高的那個(gè)類(lèi)別所決定。隨機(jī)森林有兩個(gè)重要的參數(shù)一是樹(shù)節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù),二是隨機(jī)森林中樹(shù)的個(gè)數(shù)。隨機(jī)森林相較于前兩種分類(lèi)器最大的特點(diǎn)是,隨機(jī)建立了多棵分類(lèi)樹(shù),通過(guò)投票決定最有優(yōu)分類(lèi),這樣做大大提高了分類(lèi)的準(zhǔn)確性但增大了運(yùn)算量。
圖1所示為四種乳腺癌TNM分期所包含的樣本數(shù)量,圖2表示的是六項(xiàng)中醫(yī)癥素中存在缺失值的情況。在實(shí)際應(yīng)用中,由于各種不確定因素,數(shù)據(jù)極易受噪聲、缺失值等因素的影響,導(dǎo)致數(shù)據(jù)的質(zhì)量變低。對(duì)于樣本量有限的數(shù)據(jù)而言,基于低質(zhì)量的噪聲數(shù)據(jù)構(gòu)建的模型常常會(huì)偏離實(shí)際的情況,從而使得模型的通用性變低,不能很好的應(yīng)用在其他場(chǎng)景之中。運(yùn)用數(shù)據(jù)預(yù)處理技術(shù),可以顯著的提高挖掘模型的總體質(zhì)量[8]。
圖1 TNM分期的樣本分布情況
在本試驗(yàn)中,分別采用了三種不同的分類(lèi)器算法來(lái)對(duì)乳腺癌TNM分期階段進(jìn)行分類(lèi)研究,并比價(jià)了三種算法的分類(lèi)性能。在這里,分類(lèi)性能好壞主要是通過(guò)分類(lèi)準(zhǔn)確率來(lái)進(jìn)行衡量的。分類(lèi)準(zhǔn)確性即為所有通過(guò)算法正確分類(lèi)的樣本數(shù)占總樣本量的比例即:
分類(lèi)準(zhǔn)確率=準(zhǔn)確分類(lèi)數(shù)÷參與分類(lèi)樣本總數(shù)×100%
圖2 屬性缺失值的分布情況
為了對(duì)缺失值進(jìn)行數(shù)據(jù)預(yù)處理操作,比較了兩種不同的缺失值替換策略,分別是直接去掉含缺失值的樣本以及利用對(duì)應(yīng)屬性特征的均值替換缺失值。表1所示即為實(shí)驗(yàn)結(jié)果,由表可知,三種分類(lèi)算法中,隨機(jī)森林取得了最高的分了性能,說(shuō)明隨機(jī)森林方法在該問(wèn)題的研究中具有較大的優(yōu)勢(shì);對(duì)于兩種確實(shí)只替換策略,取得的結(jié)果比較接近,其中去掉缺失值策略稍微高于利用均值替換缺失值,這可能是由于本實(shí)驗(yàn)中包含的樣本相對(duì)較多,去掉其中較少的包含缺失值的樣本沒(méi)有對(duì)構(gòu)建的模型造成影響。
表1 基于三種分類(lèi)器算法在不同缺失值替換策略下的分類(lèi)性能比較
表2 隨機(jī)森林中不同數(shù)量樹(shù)對(duì)分類(lèi)結(jié)果的影響
此外,由于隨機(jī)森林是一種受包含樹(shù)的個(gè)數(shù)影響較大的算法,因此在此基礎(chǔ)之上,為了研究樹(shù)的數(shù)量對(duì)其分類(lèi)性能的影響,我們將樹(shù)的個(gè)數(shù)分別設(shè)置為10,30,50,100,200,300,500,1000。由表2結(jié)果可知,隨著森林所包含的樹(shù)越來(lái)越多,分類(lèi)性能由92.01%到96.12%逐漸升高。由此可見(jiàn)構(gòu)建決策樹(shù)的個(gè)數(shù)越多,分類(lèi)的準(zhǔn)確率也就越高。但是因此所帶的是計(jì)算速度的降低。
數(shù)據(jù)挖掘是一種針對(duì)海量數(shù)據(jù)進(jìn)行處理分析的技術(shù),能夠發(fā)現(xiàn)隱藏在數(shù)據(jù)之中的潛在有價(jià)值信息,將數(shù)據(jù)挖掘的知識(shí)應(yīng)用到臨床實(shí)踐當(dāng)中是一次有意義的嘗試過(guò)程。本論文主要利用數(shù)據(jù)挖掘中的分類(lèi)算法對(duì)乳腺癌不同分期階段進(jìn)行分類(lèi)研究,通過(guò)對(duì)決策樹(shù),分類(lèi)與回歸樹(shù)以及隨機(jī)森林三種方法的分析,我們發(fā)現(xiàn)隨機(jī)森林的分類(lèi)性能要明顯的高于其他兩種。此外,隨機(jī)森林算法的性能受其所包含的樹(shù)的個(gè)數(shù)影響較大,一般情況下樹(shù)越多,分類(lèi)結(jié)果越高。這可能是因?yàn)殡S著樹(shù)的增多,隨機(jī)采樣的樣本越均勻,最后構(gòu)建的模型就越穩(wěn)定,更具有代表性。
在現(xiàn)實(shí)生活中,數(shù)據(jù)挖掘技術(shù)處理可用于多種實(shí)際問(wèn)題的分析處理之中,尤其是在醫(yī)療領(lǐng)域中的應(yīng)用可以大大促進(jìn)理論知識(shí)到臨床實(shí)踐的轉(zhuǎn)化。
* [1]趙倩倩, 程國(guó)建, 冀乾宇. 大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J]. 電腦知識(shí)與技術(shù), 2014, 33): 7831—7833
* [2] 朱建平, 張潤(rùn)楚. 數(shù)據(jù)挖掘的發(fā)展及其特點(diǎn)[J]. 統(tǒng)計(jì)與決策,2002,( 07): 71—72.
* [3] 李寶東, 宋瀚濤. 數(shù)據(jù)挖掘在客戶(hù)關(guān)系管理(CRM)中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用研究, 2002, 19(10): 71—74.
* [4]彭丹, 謝鵬.大腦認(rèn)知功能的神經(jīng)影像學(xué)研究現(xiàn)狀[J]. 中國(guó)臨床康復(fù) , 2006,38): 133—135.
* [5]趙紫奉,李韶斌,孔抗美.基于決策樹(shù)算法的疾病診斷分析[J].中國(guó)衛(wèi)生信息管理雜志,2011,8(05):67—69.
* [6]趙微,蘇健民.基于ID3算法決策樹(shù)的研究與改進(jìn)[J].科技信息(科學(xué)教研),2008,(23):383+392.
* [7]方匡南,吳見(jiàn)彬,朱建平,謝邦昌. 隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011,26(03):32—38.
* [8]李曉菲. 數(shù)據(jù)預(yù)處理算法的研究與應(yīng)用[D].西南交通大學(xué),2006.