梁懷新 宋佳霖 鄭存芳,2 洪文學*
1(燕山大學電氣工程學院,河北 秦皇島 066004) 2(燕山大學里仁學院,河北 秦皇島 066004)
乳腺癌是最常見的女性惡性腫瘤之一,不僅是中國也是世界女性發(fā)病率最高的腫瘤[1-2]。在中國,乳腺癌的發(fā)病率逐年增長,據全國腫瘤中心統計,2015年乳腺癌的病例達到26.9萬例,死亡病例高達7萬例[3]。并且,隨著人們生活水平的提高,中國乳腺癌的發(fā)病率仍然呈逐年遞增的趨勢,嚴重威脅著女性的身體健康。因其發(fā)病機理尚未完全清楚,采用科學的手段針對乳腺癌進行早期診斷對于防治腫瘤具有十分重要的意義。目前,很多學者已對采用機器學習算法診斷乳腺癌進行了相關研究,算法涉及神經網絡[4-5]、支持向量機[6]、決策樹算法[7]、免疫分類算法[8]等。
很多傳統的機器學習算法并不具備增量學習能力,隨著數據量的增大,一次性獲得知識的完備模式是很困難的,根據人類漸進式認知原理,學習知識是一個循序漸進的過程。因此,在機器學習中引入增量學習的思想尤為重要,目前增量學習的機器學習算法涉及神經網絡[9]、概念格的構建[10]、隨機森林[11]、支持向量機[12]、多模態(tài)增量學習[13]等。增量學習的出現使得動態(tài)自學習成為可能,有助于在大數據背景下快速挖掘有價值的信息獲得完備模式。如今,機器學習方法是否具有增量學習,已經成為衡量學習方法好壞的一項重要指標。
Lasso(least absolute shrinkage and selected operator)算法[14]是一種新的高維特征選擇正則化方法,于20世紀末被提出,可實現特征因子變量精簡的效果。2002年,Efron提出最小角回歸算法(least angle regression,LARS),使得Lasso的計算效率大大提高。Lasso算法可以方便地處理連續(xù)、離散、二值數據,具有較高的特征選擇能力。目前,涉及Lasso與乳腺癌的相關融合研究[15-16]還不是很多。本研究結合增量學習和Lasso特征篩選融合,增量學習中的?;^程必然導致特征維數的增多,結合Lasso算法,可在保證分類準確率的情況下降低維度,實現動態(tài)的數據挖掘過程。
1982年,德國Wille教授首次提出形式概念分析(formal concept analysis,FCA)理論[17],它可以有效反映出概念間的泛化與例化關系。概念格是一種形式概念分析理論的數學邏輯思維理論,是形式概念分析理論的數學化的可視化描述。但是,當數據量不斷增大時,會存在連線交叉、層次不清的問題,不利于可視化數據挖掘。洪文學教授提出了一種可表示事物普遍性和特異性聯系的可視化工具——屬性偏序結構圖,具有頻數統計、關聯分析等集成功能,已經在很多領域得到應用[18-22]。
目前,屬性偏序結構圖的生成是基于批量式生成方法,無法動態(tài)根據數據量的增大進行調整。基于此,本研究提出一種基于增量學習和Lasso特征選擇的多維數據規(guī)則發(fā)現的可視化方法,針對?;髷祿S數變多的情況,采用Lasso方法進行二次特征篩選來實現降維,以降低規(guī)則復雜度;之后提出新的基于基尼指數和覆蓋對象的行列優(yōu)化方法,對形式背景進行優(yōu)化,生成屬性偏序結構圖,進而進行規(guī)則提取。該方法實現了將規(guī)則提取可視化,取得了96.52%的診斷準確率,高于主流分類器水平,豐富了數據挖掘可視化方法,有助于降低與專家名醫(yī)溝通的醫(yī)學門檻。
實驗數據選自UCI標準數據庫的Wisconsin大學Madison醫(yī)學院乳腺癌數據集:Breast Cancer Wisconsin Data Set (Original),http://archive.ics.uci.edu/ml/datasets.html。其中,樣本總數為699個,包含條件屬性8個、決策屬性1個,屬性說明見表1。為了處理方便,本研究將缺失的16個樣本剔除,最終剩余完整樣本總數為683個。
為了詳細說明采用本算法對乳腺癌數據進行模式識別的過程,對一些必要概念進行定義。
1.2.1相關定義
定義1:形式背景。形式概念分析中,形式背景可以由K={P,M,G}三元組組成。其中,P表示對象集合,M表示屬性集合,G?P×M表示P和M的二元關系組成的集合。(p,m)∈G或pGm表示對象p∈P具有屬性m。此外,形式背景可用矩陣表示(見表2),每一行代表一個對象,每一列代表其具有某一屬性。行列交叉處若標注1,則表示此對象具有該屬性,若標注0表示不具有該屬性。
表1 乳腺癌數據集屬性Tab.1 The attributes of the breast cancer data
表2 形式背景Tab.2 The formal context
對象子集X?P,屬性子集Y?M,則有
f(X)={y∈M|?x∈X,xGy}
(1)
g(Y)={x∈P|?y∈Y,xGy}
(2)
式中,f(X)表示X中所有對象具有的屬性集合,g(Y)表示Y中所有屬性具有的對象集合。
定義2:決策系統、決策信息表。用一個四元組S=表示一信息系統,U是對象集合,A=C∪D是屬性集合,其中C是條件屬性集合,D表示決策屬性集合。V=∪Va,Va表示屬性a的值域。f:U×A→V表示信息函數,?a∈A,x∈U,有f(x,a)∈Va。用五元組(U,C,A,D,f)表示決策信息表,見表3。
表3 決策信息表Tab.3 The decision-making information table
在決策信息表中,若某兩個對象彼此具有相同的條件屬性和決策屬性,則二者具有相同模式,將相同對象的數目稱作模式的度,例如在表2中,對象x1與對象x5各屬性完全相同,則保留x1,模式度為2。
定義3:決策模式信息表。稱六元組(U,C,I′,D,K′,Du)為決策模式信息表,與信息表相比,I′表示U與C之間的映射關系,K′表示U與D之間的映射關系,Du表示模式的度。將表3表示為決策模式信息表,見表4。
表4 決策模式信息表Tab.4 The decision-making information and pattern table
定義4:等價關系、等價類。在決策系統S=中,存在屬性子集B?A,決定了等價關系
IND(B)=
{(x,y)∈U×U|?a∈B,f(x,a)=f(y,a)}
(3)
并得到了U的一個劃分,可用U/IND(B)表示。其中,等價關系之間的交也是一種等價關系,表示為
[x]IND(B)=∩[x]B
(4)
其中
[x]B={y∈U|?a∈B,f(x,a)=f(y,a)}
(5)
稱為等價類。
定義5:集合覆蓋。在學習新的模式時,根據不同的覆蓋關系,將進行不同操作。為便于后面的討論,在此定義一些關于覆蓋的基本概念,關于覆蓋理論的具體研究可參照文獻[23]。
設U是論域,C是U的一組非空子集族,且∪C=U,則稱C是U的全覆蓋,或C是U的一個覆蓋。設U1是U的非空真子集族,C1是U1的覆蓋,則稱C1是U的子域覆蓋。設非空子集族C={K1,K2,…,Kn}(n>1),是論域U上的一個覆蓋,若Ki∩Kj=Ф(i≠j),則C被稱為論域U的一個劃分,也被稱為論域U上的互斥覆蓋。特別地,當|C|=2時,互斥覆蓋也稱為矛盾覆蓋。設Ci、Cj是論域U上的子域覆蓋,若(∪Ci)∩(∪Cj)≠ Ф,且(∪Ci)?(∪Cj) (i≠j),則Ci、Cj是U上的互不包含覆蓋。設非空子集族Ci、Cj是論域U的子域覆蓋,若∪Ci?∪Cj,則稱在論域U上Ci是Cj的伴生覆蓋。
1.2.2增量學習
增量學習的基本思想是將新數據的對象和屬性求交集,根據不同的覆蓋結果關系做出不同的操作,其中涉及模式的增加、刪除、更新以及相應庫數據的修改等。這里定義具有相同條件屬性和決策屬性的集合為一個對象的模式。
置初始的形式背景K={P,M,G}為空,即論域為Ф,當存在新增對象X*時,設存在新增概念為(X*,f(X*)),其中f(X*)表示對象X*的條件屬性集合。添加f(X*)到屬性庫L,對象X*保存到對象庫Q,然后生成形式背景K*={X*,f(X*),G}。
大規(guī)模的增量學習可以認為是很多單次增量學習的疊加,這里以每次學習一個概念為例進行說明。原始形式背景K={P,M,G},設多次學習后的原有對象集合為P,屬性庫屬性集合為L,假設存在新增的概念(X*,f(X*)),集合f(X*)與屬性庫集合L做覆蓋運算f(X*)∩L,根據覆蓋結果進行下一步操作。
若屬性集合存在新增屬性,則f(X*)與L是互斥覆蓋關系,將新增屬性追加到屬性庫L,形成新的屬性庫L*=(L∪fadd(X*)),其中fadd(X*)表示屬性集合f(X*)中新增的屬性。更新形式背景K*={P∪X*,M∪fadd(X*),G}。
若不存在新增屬性,那么新增屬性集合與原集合之間可能存在子域覆蓋關系、全覆蓋關系、互不包含覆蓋關系、伴生覆蓋關系。根據不同覆蓋關系對屬性庫做相關操作,對于屬性庫L模更新有以下幾種情況:
1)若為全覆蓋關系,則f(X*)=L,屬性庫不做新增;
2)若為子域覆蓋關系,f(X*)?L,保持屬性庫L不變;
3)若為互不包含覆蓋關系,更新新增屬性L∪fadd(X*);
4)若為伴生覆蓋關系,f(X*)?L,同樣做更新L∪fadd(X*),保留原屬性集合不變。
當概念的外延很多時,對應的屬性就很容易出現重復的模式,即為既存模式庫中模式的全覆蓋關系。因此,為了得到約簡的模式,提高生成形式背景的時間效率,當有新的概念(X*,f(X*))加入形成二值背景F時,進行模式檢測,將相同模式對象合并,刪除新增模式,并計算合并增加屬性度到當前模式。
1.2.3Lasso
特征選擇對于建模具有重要的作用,在起初的研究中往往選擇很多特征,以盡可能詳盡地描述和表征對象。然而,一些高維的特征集合對模式識別、規(guī)則提取等數據挖掘過程有時并沒有體現理想的優(yōu)勢,反而一些自變量因其具有強解釋力、高價值,常常可以來提高模型的解釋性和預測精度。因此,選擇適合模型的特征尤為重要。
Lasso的提出有效解決了特征選擇問題,因其具有較好的特征選擇能力被廣泛應用[24-25],對特征數大于實例數的模型效果尤為明顯。該算法通過利用自變量系數絕對值之和構造懲罰函數,通過使其小于特定值來達到使某些變量系數壓縮為零的目的,進而得到非零系數對應的特征為被選的屬性變量,實現了指標集合的降維目的,有利于實現集合的精簡。Lasso主要是通過一范數懲罰回歸來求得最優(yōu)解。
設存在數據(X,Y),其中X=(x1,x2,…,xj,…,xp)T,p表示屬性特征的數量,總樣本數為N,xj=(x1j,x2j,…,xnj)表示預測變量特征,Y=(y1,y2,…,yi,…,yn)T是回歸量,也可以是不同樣本類別標簽。首先,將xj標準化、yi中心化,有
Lasso最小化殘差平方和如下:
(8)
(9)
式中,yi是響應變量,xij=(xi1,xi2,…,xin)是觀察向量,βj為第j個變量的回歸系數。
s>0,用于控制系數壓縮為零的數量。當s取較小值時,與響應變量關聯小的預測變量所對應的系數將會被壓縮至零;而當s很大時,回歸系數一范數失去限定作用,無法起到特征選擇的作用。
最小角回歸算法(LAPS)是解決Lasso問題的一種經典算快速高效方法[26],LARS方法可有效得到Lasso中方程的最優(yōu)解,使殘差逐漸減小,只需n步(n為變量數)就可以得到尋找一范數正則化路徑。LARS算法每一次選擇回歸殘差作為被選特征的計算指標,使當前殘差與預測變量的關聯系數與上一被選特征相同。其中,回歸殘差包括響應變量和被選特征的綜合信息。LARS算法基本流程如下:
Input: 原始數據,殘差Y,變量集X。Output: 回歸路徑圖。
1)X,Y中心標準化;
2)找到當前殘差Y與X相關系數(記做Y^X)最大的變量X1;
3)在solution path上尋找另一個變量X2,使得Y2^X2=Y1^X1,solution path中加入X2并調整為X1和X2角分線方向;
4)重復上述方法直到所有變量加入。
根據表2生成系數回歸圖,見圖1。從中可以得到每一個變量的回歸路徑,縱軸是回歸系數的估計值,右側軸上的數字對應著變量下標,可以看出特征選擇順序為X3>X1>X2。
圖1 Lasso回歸系數估計 Fig.1 The Lasso regression coefficient estimation diagram
1.2.4屬性偏序結構圖生成
屬性偏序結構是基于屬性偏序的性質和數學意義生成的層次結構,由經過概念格中選定頂點的完全子格構成[27]。屬性偏序結構是一個有層次的倒樹形結構,其數據內部關聯及意義清晰,可視化效果相比概念格更好。屬性偏序結構圖是基于二值形式背景生成的,具有自動聚類的效果,而原始數據往往是定量的連續(xù)數據,因此需要將連續(xù)數據進行?;?、行列優(yōu)化等必要處理。本研究提出了基于有監(jiān)督的連續(xù)數據?;椒?,同時提出基于基尼(Gini)指數和屬性覆蓋對象綜合指標作為行列優(yōu)化中重要屬性選擇的指標,引入基于類別純度表征的基尼指數,以突出類別信息。
假設集合S中包含s個數據,m個不同類別,將m個不同類定義為Ci(i=1,2,…,m)。根據屬性值將集合S劃分為m個子集Si(i=1,2,…,m),假設Si集合屬于類別Ci,集合Si包含的樣本數目為si,則集合S的Gini指數為
(10)
式中,pi表示的是某一樣本屬于類別Ci的概率值。
在選擇分裂屬性時,假設根據某個屬性將集合S劃分為N個子集Sj(j=1,2,…,N),則分裂后的Ginisplit指標表示為
(11)
式中,sj為屬于某一個類別的樣本數,s為所有類別數目。
本研究?;惴▊未a如下:
Input:原始數據(n行m列)
Output:粒化后數據
1 for Column=1 to m
2 計算每一列數據的潛在分割點P;
3 計算每個分割點的Ginisplit,記錄最小的Ginisplit對應位置wi;
4 從Wi+1開始至n行進行純度檢測,若類別一致,停止計算,否則返回2、3步;
5 End for
至此根據?;?guī)則生成的形式背景較為稀疏,通過行列變換可將數據內部結構和普遍性以及特異性展現得更為明顯。本研究提出新的行列變換指標CGAO(combination of Gini and objects),即將表征類別純度的Gini指數和覆蓋對象數目融合進行特征提取和特征變換,有
(12)
式中,mi∈M(i=1,2,…,n)表示某個屬性。
Input:形式背景K,行數m,列數n
Output:優(yōu)化后形式背景
1 Row=1,Column=1;
2 For Column=1 to n;
3 得到可能的子形式背景K1與K2
4 If K1與K2沒有交集
5 對當前形式背景進行優(yōu)化
6 Else
7 Row++;
8 End if
9 If Row>=m
10 Column++;Row++;
11 Else
12 Continue;
13 End if
14 End for
1.2.5實驗過程
為了驗證規(guī)則提取方法的客觀性,首先將本實驗數據隨機劃分為訓練集(80%數據)和測試集(20%數據),對比試驗過程,保持訓練集和測試集不變。其中,訓練集中包含樣本共計546例,良性360例,惡性186例。以下實驗過程均在訓練集上進行。
步驟1:數據標準化。為消除量綱以及數據自身變異對實驗的影響,先將每一列屬性值標準化,使其平均值為0,標準差為1。
步驟2:特征選擇。本研究采用R語言Lasso程序包內置算法,對特征屬性進行一次篩選,根據前面介紹的Lasso算法,將全部數據導入,生成系數回歸路徑,見圖2??梢钥闯?,經過Lasso被選擇出的屬性重要順序為X6>X3>X2>X1>X7>X8>X4>X5>X9。為了清晰地說明診斷過程,將屬性X6、X2、X3、X1優(yōu)先選擇出來。
圖2 乳腺癌診斷Lasso回歸系數估計Fig.2 The Lasso regression coefficient estimation
步驟3:數據?;?。采用本文第4.1節(jié)中的粒化方法,對每列屬性值計算Gini指數,得到所有分割點,實現數據二值化,進而生成形式背景。經過計算,得到的分割點情況如表5所示。
將分割區(qū)間按照字母和數字組合方式加以轉換,每個屬性為一個字母表示,區(qū)間段的索引值用數組加以組合,對象可用數字代表,如屬性X3的區(qū)間表示為C1-(0,0.278],C2-(0.278,0.389],C3-(0.389,0.833],C4-(0.833,1],以此類推。
表5 特征X1、X2、X3、X6樣本分割點Tab.5 The split points of the attributes X1, X2, X3, X6
步驟4:增量學習。根據本文第1.2.2節(jié)給出的增量學習具體步驟進行數據的增量學習,而后采用基于CGAO指標進行屬性特征選擇,從而實現進行行列變換,生成的部分形式背景見表6。
表6 部分優(yōu)化形式背景Tab.6 The partial optimized formal context
步驟5:二次特征篩選。經過?;驮隽繉W習后,分割點將數據劃分到不同的區(qū)間,特征維數由初始的3維變?yōu)?7維,提升了將近6倍,若生成屬性偏序結構圖會出現分支、層數較多的情況,不利于進行規(guī)則提取可視化和約簡。因此,采用Lasso算法進行二次特征篩選,既有利于可視化規(guī)則發(fā)現,也保持了細化特征區(qū)間段的優(yōu)點。經過Lasso算法篩選的系數回歸路徑如圖3所示??梢姡凑仗卣骱Y選順序,優(yōu)先被選擇的特征為特征2、特征3、特征6,即屬性B1、C1、D1??梢?,基于Lasso算法的二次篩選起到了很好的降維作用。
圖3 二次Lasso回歸系數估計Fig.3 The second Lasso regression coefficient estimation
步驟6:生成決策模式信息表。經過對粒化后的數據進行特征篩選后,會產生大量的相同模式,形成不一致決策信息,將不一致決策按照模式度小的服從模式度大的規(guī)則進行合并。計算每一個模式的模式度,并將相同模式進行約簡合并,以形成決策規(guī)則,生成決策模式信息表,見表7。
表7 乳腺癌數據決策模式信息Tab.7 The decision-making information and pattern table of the breast cancer data
圖4 乳腺癌診斷屬性偏序結構圖Fig.4 The attribute partial order structure diagram of the breast cancer diagnosis
步驟7:生成屬性偏序結構圖。根據決策模式信息表的前4列數據構成形式背景,在進行基于CGAO綜合指標的行列優(yōu)化形式背景后,生成屬性偏序結構圖,如圖4所示。共分為條件屬性層和決策屬性層兩個部分,a1~a3表示屬性特征,即歸一化后的不同區(qū)間段,o1~o8表示對象,其中o1~o3、o5屬于良性腫瘤類別,o4、o6~o8屬于惡性腫瘤類別。屬性偏序結構圖的條件屬性層分為4小層,其中越靠上層越具有普遍性,是事物共性的表達。
步驟8:規(guī)則提取。本研究的規(guī)則提取建立在將屬性值歸一化的基礎上,每一條支路都是一條完備的規(guī)則,如支路1,當某對象具有屬性a1、a2、a3時,即當細胞大小均勻性在 (0,0.167]內,細胞形狀均勻性在 (0,0.278]內,裸核在 (0,0.167]區(qū)間內的條件同時滿足時,判定該對象為良性。若對象不具有某個屬性,則用x表示該屬性為空。根據屬性偏序圖可得出診斷規(guī)則,轉換為IF-THEN形式表示如下:
1)IF(X2(細胞大小均勻性)∈(0,0.167])AND(X3(細胞形狀均勻性)∈(0,0.278])THEN 診斷=良性;
2)IF(X2(細胞大小均勻性)∈(0,0.167])AND(X3(細胞形狀均勻性)=x)AND(X6(裸核)∈(0,0.167])THEN 診斷=良性;
3)IF(X2(細胞大小均勻性)∈(0,0.167])AND(X3(細胞形狀均勻性)=x)AND(X6(裸核)=x)THEN 診斷=惡性;
4)IF(X2(細胞大小均勻性)=x)AND(X3(細胞形狀均勻性)∈(0,0.278])AND(X6(裸核)∈(0,0.167])THEN 診斷=良性;
5)IF(X2(細胞大小均勻性)=x)AND(X3(細胞形狀均勻性)∈ (0,0.278])AND(X6(裸核)=x)THEN 診斷=惡性;
6)IF(X2(細胞大小均勻性)=x)AND(X3(細胞形狀均勻性)=x)AND(X6(裸核)∈(0,0.167])THEN 診斷=惡性;
7)IF(X2(細胞大小均勻性)=x)AND(X3(細胞形狀均勻性)=x)AND(X6(裸核)=x)THEN 診斷=惡性。
采用上述診斷規(guī)則,對隨機抽取的20%測試集數據進行測試,結果見表8。
表8 乳腺癌診斷準確率Tab.8 The precision of the breast cancer diagnosis
由表8可知,采用80%數據集提取出的7條規(guī)則進行模式識別,經過10次測試,得到平均準確率為96.52%,其中判斷正確132例、錯誤5例,在一定程度上說明了本算法的可行性。
為了對比本算法的準確率和客觀性,將數據集在其他4個分類器進行測試,其中包括隨機森林、支持向量機、Adaboost、KNN分類器(K=1,3),實驗數據均為經過本研究?;?、形式背景優(yōu)化后的乳腺癌數據,準確率比較結果見表9。
表9 與其他分類器比較結果Tab.9 The comparison of the precision with other classifiers
經過和其他5個分類器進行比較得出:基于本研究Lasso二次篩選出的3個特征的基礎上,高于主流分類器的分類水平,準確率可達96.52%,高于Adaboost、1NN、3NN、以及隨機森林和SVM分類器。
在兩次Lasso篩選過程中,首先在9維中選擇4維進行增量學習,此后從17維增量形式背景中選出前3維特征進行基于特征的規(guī)則提取。為了說明方法選擇的準確性和有效性,設計了實驗進行驗證:按照屬性特征的相關性大小和系統推薦順序,在對一次和二次Lasso篩選時,重要的屬性特征分別篩選出來進行規(guī)則提取,設計分類器,此過程保持訓練集合測試集不變,重復相同的乳腺癌數據的增量診斷過程,從而得到準確率比較,見表10。
表10 Lasso特征選擇數目與準確率比較Tab.10 The comparison of the precision with the numbers of the selected Lasso attributes
由此可知,采用本研究的Lasso特征選擇數目組合方式進行乳腺癌數據診斷的準確率最高,且說明了在選定一次Lasso特征數的情況下,并不是維數越高分類效果越好,因此尋求最佳的特征數目組合尤為主要。
為了更具體地說明本研究結合增量學習算法的可行性,將乳腺癌數據集合按比例分割來完成增量學習過程,采用順序增量學習的方法來逐條學習數據,采用分類最優(yōu)的Lasso特征篩選數目組合方式,對通過按比例增量學習后的數據進行規(guī)則提取,生成屬性偏序結構圖,以研究與分類準確率的關系,見表11。為方便進行說明,僅展示基于增量學習數據比例為20%、30%、50%、80%(依次對應圖5中的(a)~(d))的屬性偏序結構圖。
表11 順序學習增量比例與分類準確率比較Tab.11 The comparison of the precision with different proportions of the incremental learning data in order
圖5 不同順序增量學習比例數據屬性偏序結構圖。(a)20%;(b)30%;(c)50%;(d)80%Fig.5 The attribute partial order structure diagrams with different proportions of the incremental learning data in order.(a)20%; (b)30%; (c)50%; (d)80%
由表11可知,隨著數據增量學習比例逐漸提升,本方法對乳腺癌數據分類準確率逐步提升,當增量學習數據量達到20%時,分類準確率已經接近支持向量機(95%)分類水平,超過隨機森林分類器水平(94.25%)。結合圖5中的(a)~(d)可知,當增量學習數據量達到30%時,診斷規(guī)則已經提取完備。增量學習的引入可以更加清晰地得到規(guī)則模式完備的數據量臨界,有助于在滿足分類正確率的前提下采用更精簡的數據集進行數據挖掘,提高數據集的使用效率。
本方法實現了乳腺癌數據的診斷規(guī)則提取和可視化,其中增量學習思想的引入使得原始屬性偏序結構圖的批量式成圖方法具有動態(tài)學習的能力;同時,由于兩級Lasso特征篩選對高價值特征數目的控制,實現了降維,所以本方法可應對較大數據集的模式學習過程,保證較好的規(guī)則可視化效果。通過對原始數據的?;⒃隽繉W習、特征篩選、模式約簡等過程訓練,得到最簡的模式識別準則,以實現測試數據的準確性評判。直觀的規(guī)則可視化對于乳腺癌的診斷降低了復雜度,提高了規(guī)則的可讀性。經過屬性偏序結構圖的可視化,將約簡后的規(guī)則以圖形化的方式顯示出來,一目了然,層次結構簡單鮮明,提高了規(guī)則的形象化表達,降低了非醫(yī)學背景人群進行診斷數據挖掘和與醫(yī)生溝通的門檻和難度,證明在提供腫瘤相關參數的情況下用本方法進行乳腺癌腫瘤性質的輔助診斷是可行的。
從數據適用性角度分析,本方法可用于對連續(xù)的定量數據和離散的定性數據進行相關參數處理。連續(xù)數據經過歸一化后進行粒化處理,經過增量學習系統生成形式背景;而定性數據可直接生成形式背景,并與連續(xù)數據的背景融合。
從增量學習模塊設計角度,本方法的引入使屬性偏序分類器具有動態(tài)學習規(guī)則的能力,同時可以自動約簡冗余模式,減少了內存占用,理論上可實現較大規(guī)模數據的連續(xù)增量模式學習。
在表10的兩級Lasso特征不同組合對準確率影響的試驗結果中可以看到,從橫向和縱向分析來看,并不是特征數越多分類效果越好,這與選擇變量的相關性有關。一次Lasso特征篩選是針對原始的連續(xù)數據進行的,二次特征選擇是針對經過粒化后的形式背景的二值數據進行的,因此屬性特征選擇的價值性也與?;瘻蕜t的選擇和效果有關。針對本方法,將多級Lasso特征篩選組合設置為反饋調節(jié),以準確率為基本決策指標來尋找局部最優(yōu)組合。因此,在現有基礎上擴大特征篩選數目,挖掘多數據量下穩(wěn)定的特征篩選組合,是下一步研究重點。
隨著數據量的不斷增大,引入增量學習和Lasso特征選擇算法,使得利用屬性偏序結構圖動態(tài)處理高維數特征的乳腺癌數據成為可能,使得診斷系統具有自學習能力,可自動根據屬性和模式覆蓋結果進行更新。本研究結合Lasso進行二次特征篩選,融合增量學習機器學習算法,實現了動態(tài)更新屬性偏序結構圖生成診斷規(guī)則;提出了基于Gini指數的粒化算法,以及基于CGAO指標最小的行列變換算法,實現了選擇覆蓋大且類別純的屬性作為行列變換的指標參數;同時利用提取規(guī)則與其他分類器進行分類準確率比較,得到了較為理想的分類效果。實驗證明,基于本方法的乳腺癌診斷有利于診斷系統的自動化,是一種有效的腫瘤輔助診斷方式。接下來將擴大Lasso特征選取數目,尋求針對更多維數特征的數據集選取最佳Lasso特征順序組合的研究方法,從而進一步提高基于腫瘤參數特征的癌癥診斷準確率。