陳 濤
(陜西理工大學(xué) 數(shù)學(xué)與計算機科學(xué)學(xué)院,漢中 723000)
特征基因選擇是從基因表達譜的成千上萬個基因中選擇部分與組織樣本類別信息有密切聯(lián)系的基因,對于提高基因表達譜的數(shù)據(jù)質(zhì)量、約簡數(shù)據(jù)維數(shù)、降低算法復(fù)雜性以及臨床醫(yī)學(xué)診療等有著重要意義,已成為基因表達譜數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向[1,2].
模糊粗糙集是由Dubois和Prade提出的處理數(shù)值型數(shù)據(jù)中存在的不一致性問題的數(shù)學(xué)方法,它將處理分類不確定性的粗糙集和邊界不確定性的模糊集有效結(jié)合起來處理實值、區(qū)間值和集值數(shù)據(jù)表,取得一定的成功[3].隨著研究的深入,一系列擴展模型被提出,其中核模糊粗糙集是一類有效的擴展模型,引起學(xué)者的關(guān)注和興趣,逐步被引入到數(shù)據(jù)挖掘領(lǐng)域.胡清華[4,5]等利用高斯核函數(shù)來產(chǎn)生模糊等價關(guān)系,整合核函數(shù)和模糊粗糙集的優(yōu)點,提出核模糊粗糙集模型;Zeng等[6]基于核模糊粗糙集實現(xiàn)增量特征選擇;Ghosh等[7]在核模糊粗糙集基礎(chǔ)上提出MFRSA-NFS-HIS方法進行特征選擇;Chen等[8]提出基于高斯核模糊粗糙集的參數(shù)化屬性約簡方法;葉秋萍等[3]構(gòu)造了一種新的核模糊粗糙集模型;曾安平等[9]提出基于高斯核模糊粗糙集模型的近似集增量更新方法;曾凱[10]提出多核?;哪:植谟嬎隳P?在各種核模糊粗糙集模型中,利用高斯核函數(shù)計算模糊等價關(guān)系,而高斯核參數(shù)控制了模糊?;臻g的粒度大小,對模型性能影響較大,所以核參數(shù)選擇對于核模糊粗糙集模型的性能至關(guān)重要.然而,核參數(shù)取值沒有統(tǒng)一標準,且對不同問題,核參數(shù)取值往往具有較大差異,這限制了核模糊粗糙集及相關(guān)擴展模型的廣泛應(yīng)用.
差分進化算法(DE)是一種新型群體智能優(yōu)化算法,主要對種群中個體通過變異、交叉和選擇等操作實現(xiàn)求解優(yōu)化問題.它以模型原理簡單、收斂速度快和全局最優(yōu)解等優(yōu)點被廣泛地應(yīng)用于參數(shù)優(yōu)化、智能控制及組合優(yōu)化等領(lǐng)域[11,12].
針對以上分析,本文提出一種特征基因的混合選擇方法,采用ReliefF算法對所有基因進行排序,選取排序前k個基因作為初選基因子集;設(shè)計了基于差分進化算法優(yōu)化的核模糊粗糙集模型用于特征基因終選,獲得特征基因子集.最后,用基因表達譜上的仿真實驗對4種算法性能進行對比,驗證了本文算法有效性和優(yōu)越性.
定義1U是一個非空有限論域,若?x,y,z∈U,滿足以下條件:
(1)自反性:R(x,x)=1;
(2)對稱性:R(x,y)=R(y,x);
(3)傳遞性:R(x,y)=R(y,z)?R(x,y)=R(x,z);
則稱R是U上的一個等價關(guān)系.
定義2R是U上一個等價關(guān)系,基于R將屬性值相等的對象聚為一個子集,稱為等價類.x所在的等價類被表示為[x]R.
定義5U是一個非空有限論域,R∈F(U×U).若?x,y,z∈U,滿足:
(1)自反性:R(x,x)=1;
(2)對稱性:R(x,y)=R(y,x);
(3)傳遞性:min{R(x,y),R(y,z)}≤R(x,z);
則稱R是U上的一個模糊等價關(guān)系.
定義6 設(shè)二元函數(shù)T:I×I→I,I=[0,1].若?a,b,c∈I,滿足:
(1)交換性:T(a,b)=T(b,a);
(2)結(jié)合性:T(T(a,b),c)=T(a,T(b,c);
(3)單調(diào)性:a≤c,b≤d?T(a,b)≤T(c,d);
(4)邊界條件:T(a,1)=a,T(1,a)=a;
則稱T為I上的三角?;騎模.
定義7U是一個非空有限論域,R∈F(U×U).若?x,y,z∈U,滿足:
(1)自反性:R(x,x)=1;
(2)對稱性:R(x,y)=R(y,x);
(3)傳遞性:T(R(x,y),R(y,z))≤R(x,z);
則稱R是U上的一個T-模糊等價關(guān)系.
定義8R是U上的一個模糊等價關(guān)系,X是U上的一個模糊子集,則
更一般地,Yeung[5,6]等建立了T-模和S-模的模糊下近似和模糊上近似,即:
推論基于高斯核函數(shù)計算的模糊關(guān)系RG是一個Tcos模糊等價關(guān)系.
定義10 給定論域U上的基于高斯核函數(shù)的Tcos模糊等價關(guān)系RG,模糊子集X∈F(U)的模糊下近似、上近似定義分別為:
其中,
模糊依賴度是Pawlak粗糙集中近似質(zhì)量的模糊拓展,反映了樣本在特征空間必然隸屬于其相應(yīng)決策的平均程度.該指標值越大,則模糊近似空間分類越確定、對決策的近似能力越強,決策對此屬性子集的依賴性越大.
基于高斯核函數(shù)的模糊依賴度計算過程見算法1.
算法1. 基于高斯核函數(shù)的模糊依賴度計算
定義12 是一個核模糊近似空間,a∈B?C.若γB(D)=γB-a(D),則稱a在B中相對于D是冗余的;否則,稱a必要的.
定義13 是一個核模糊近似空間,B?C.若B滿足:
(1) 充分條件:γB(D)=γC(D);
(2) 必要條件:?a∈B,a在B中相對D是必要的.
則稱B是一個相對約簡.
經(jīng)過設(shè)計階段基本確定作品具體功能模塊,在開發(fā)階段,需要對小組隊員進行詳細分工,每個學(xué)生根據(jù)自己的特點,分配相應(yīng)的功能模塊進行開發(fā)。在開發(fā)過程中,要求組員之間一定要加強溝通和交流,確保各個模塊之間接口的統(tǒng)一性。往往在開發(fā)過程中,會發(fā)現(xiàn)作品的一些地方不夠完善,這時會增加一些新的功能,使得作品更加完善合理。
如果通過計算每個屬性的模糊依賴度,并選擇依賴度大的屬性作為約簡的屬性子集,這樣在一定程度上會帶來冗余屬性的存在,同時沒有考慮到依賴度小的屬性也可能對整個屬性子集具有較大貢獻.所以,以模糊依賴度為度量,采用前向貪心搜索策略設(shè)計屬性約簡算法,詳見算法2.
算法 2. 基于高斯核模糊粗糙集模型的屬性約簡
差分進化算法DE是在同一代種群中,將當(dāng)前個體與其他個體進行充分混合而得到新個體,這樣充分利用種群中其他個體的有效信息,有利于算法搜索能力的提高.DE采用貪婪搜索和實數(shù)編碼降低了算法進化過程的復(fù)雜性,并且具有原理簡單、搜索速度快和優(yōu)化精度高等優(yōu)點,廣泛用于數(shù)據(jù)挖掘、模式識別和參數(shù)優(yōu)化等領(lǐng)域.
高斯核模糊粗糙集模型中,利用高斯核函數(shù)計算樣本之間相似關(guān)系時,需要設(shè)置核參數(shù)δ值.核參數(shù)δ控制了由高斯核函數(shù)誘導(dǎo)的模糊?;臻g的粒度大小,對于核模糊粗糙集性能具有較大影響.目前,核參數(shù)δ取值沒有統(tǒng)一的標準或方法,且不同研究對象的參數(shù)取值差別較大,極大限制核模糊粗糙集模型的廣泛應(yīng)用.
為了有效解決這個問題,本文采用差分進化算法實現(xiàn)核參數(shù)δ優(yōu)化選擇,提高核模糊粗糙集模型的約簡性能和算法穩(wěn)定性.
(1) 定義個體.
種群中的每一個個體代表了核模糊粗糙集模型中的核參數(shù)δ,其取值范圍是(0,1).
(2) 設(shè)計適應(yīng)度函數(shù).
屬性約簡的主要目標是利用較少的屬性獲得盡可能高的分類精度,最終目的是使得約簡之后的屬性集具有較高的識別率.所以,將屬性子集對樣本類別的識別精度作為適應(yīng)度函數(shù),即f(x)=accuracy(x),其中,x代表個體,即核參數(shù);accuracy∈(0,100]是在數(shù)據(jù)集上采用5折交叉驗證方法獲得的平均分類精度.
算法3. 基于差分進化算法的核模糊粗糙集參數(shù)優(yōu)化
本文采用5個基因表達譜進行仿真實驗來驗證算法有效性,具體描述見表1.
大量研究表明ReliefF、Kruskalwallis、Gini Index等算法在特征或基因選擇中具有較好的性能和優(yōu)勢,所以本文算法(ReliefF+改進的核模糊粗糙集)將與這些算法進行對比來說明本文算法的有效性和優(yōu)越性.為保證試驗結(jié)果并非偶然,每個實驗重復(fù)20次,取其平均值為試驗結(jié)果.
算法中采用差分進化算法進行核參數(shù)優(yōu)化,參數(shù)設(shè)置為:種群規(guī)模NP=15,變異算子F=1,交叉算子CR=0.5,最大迭代次數(shù)T=50,變量上、下界分別是xupper=1和xlow=0.
圖1顯示前k個基因?qū)λ惴ǚ诸惥鹊挠绊?,橫軸代表利用ReliefF、KruskalWallis和Gini Index選擇的前20,40,…,300個基因,縱軸代表分類精度.從圖1可知:
1)本文算法在所有數(shù)據(jù)集上的分類精度最高,且在不同基因數(shù)下的分類精度均達到最高,說明本文算法所選擇的特征基因與樣本類別有著重要的內(nèi)在聯(lián)系,對腫瘤類型及亞型的識別有重要意義.另外,本文算法分類精度明顯優(yōu)于ReliefF算法,說明“初選+終選”的混合選擇思路是提高基因選擇性能的有效途徑,兩種方法互為補充,ReliefF剔除無效基因,核模糊粗糙集進一步約簡冗余基因,最終獲得特征基因.
2)基因數(shù)量對本文算法的分類精度影響最小,遠小于其他算法.初選的基因數(shù)對本文算法分類精度影響較小,僅在DLBCL上精度變化相對較大,而基因數(shù)量對其他3種算法影響較大.說明本文算法可以降低基因數(shù)量對算法性能的影響,不再為選擇前k個基因中k值的確定過于煩惱.
表1 基因表達譜
圖1 前k個基因?qū)λ惴ǚ诸愋阅艿挠绊慒ig.1 The influence of the top-ranked k genes on the classification performance
表2給出不同基因數(shù)量下分類精度的平均結(jié)果.本文算法分類精度依然最高,這與圖1中結(jié)果是一致的.本文算法在5個數(shù)據(jù)集上的分類精度相比其他算法,分別提高了9.61%、14.08%、10.23%、2.63%和2.3%.表中avg代表各算法在5個數(shù)據(jù)集上分類精度的平均值,本文算法精度達到92.92%,相比其他算法分別提高12.48%、12.08%和9.02%.
表2 不同基因數(shù)量下的平均分類精度比較Tab.2 Comparison of average classification accuracy with different numbers of genes
表3給出本文算法在不同數(shù)量的初選基因下選擇的最優(yōu)核參數(shù).可知,不同數(shù)據(jù)集的最優(yōu)核參數(shù)各不相同;即使同一數(shù)據(jù)集,最優(yōu)核參數(shù)隨初選基因數(shù)不同而變化,且變化較大.說明核參數(shù)取值沒有一定規(guī)律,在一定程度上限制了核模糊粗糙集的廣泛應(yīng)用.所以,利用差分進化算法優(yōu)化核參數(shù),進一步提升了核模糊粗糙集的性能.
表3 不同初選基因數(shù)量下最優(yōu)核參數(shù)值
表4給出本文算法在不同初選基因數(shù)下獲得的特征基因數(shù)量.可知,本文算法選擇的特征基因數(shù)量遠遠低于初選基因數(shù)量(即遠低于ReliefF、Kruskalwallis、Gini Index等算法選擇的基因數(shù)量),僅用很少幾個基因就可獲得更高分類精度.在這5個數(shù)據(jù)集上,首先利用ReliefF算法選擇排序的前200個基因,然后采用本文算法選擇的特征基因數(shù)量分別是4、2、8、3和10,特征基因數(shù)量不到初選基因數(shù)量的1/20,但其分類精度卻大幅提高.說明本文算法所選擇的特征基因?qū)τ谀[瘤具有更強識別性能,充分表明很少的特征基因才是引起腫瘤等病變的直接原因.
表4 特征基因的數(shù)量Tab.4 The number of feature genes
表5給出本文算法選擇的特征基因(初選基因數(shù)為300),這些基因?qū)τ谀[瘤類別及亞型具有較強的鑒別能力,為臨床醫(yī)學(xué)中致病基因的研究提供了參考和依據(jù).
表5 特征基因
本文首先利用ReliefF算法保留與樣本類別具有較高關(guān)聯(lián)度的基因?qū)崿F(xiàn)基因初選,然后采用優(yōu)化的核模糊粗糙集模型進一步剔除冗余基因?qū)崿F(xiàn)特征基因終選.基因表達譜上的實驗結(jié)果表明,本文算法選擇的特征基因在樣本識別精度、基因數(shù)量和算法穩(wěn)定性等方面具有較強優(yōu)勢,可為臨床醫(yī)學(xué)的研究提供直接參考.
參 考 文 獻
[1] Chen T, Xue H F, Hong Z L, et al. A hybrid ensemble method based on double disturbance for classifying microarray data [J]. Bio-medical materials and engineering, 2015, 26(s1): S1961-S1968.
[2] Chen T, Hong Z L, Zhao H, et al. A novel feature gene selection method based on neighborhood mutual information [J]. International Journal of Hybrid Information Technology, 2015, 8(7): 277-292.
[3] 葉秋萍, 張紅英. 基于一種新的核函數(shù)的模糊粗糙集[J].計算機科學(xué), 2017, 44(9): 70-73.
[4] Hu Q H, Zhang L, Chen D G, et al. Gaussian kernel based fuzzy rough sets: Model, uncertainty measures and applications [J]. International Journal of Approximate Reasoning, 2010, 51(4): 453-471.
[5] Hu Q H, Yu D R, Pedrycz W, et al. Kernelized fuzzy rough sets and their applications [J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(11): 1649-1667.
[6] Zeng A, Li T R, Liu D, et al. A fuzzy rough set approach for incremental feature selection on hybrid information systems [J]. Fuzzy Sets and Systems, 2015, 258: 39-60.
[7] Ghosh S, Prasad P S, Rao C R.An efficient gaussian kernel based fuzzy-rough set approach for feature selection[C]//Springer. International Workshop on Multi-disciplinary Trends in Artificial Intelligence. Chiang Mai:Springer International Publishing, 2016: 38-49.
[8] Chen D G, Hu Q H, Yang Y P. Parameterized attribute reduction with Gaussian kernel based fuzzy rough sets [J]. Information Sciences, 2011, 181(23): 5169-5179.
[9] 曾安平, 李天瑞, 羅 川. 高斯核模糊粗糙集中對象集變化時近似集增量更新方法研究[J].計算機科學(xué), 2013, 40(7): 173-177.
[10] 曾 凱,佘 堃. 基于多核?;哪:植谟嬎隳P蚚J]. 電子科技大學(xué)學(xué)報, 2014, 43(5): 717-723.
[11] De Falco I. Differentialevolution for automatic rule extraction from medical databases [J]. Applied Soft Computing, 2013, 13(2): 1265-1283.
[12] Chen T, Hong Z L, Deng F A, et al. A hybrid feature gene selection method based on fuzzy neighborhood rough set with information entropy [J].International Journal of Signal Processing, Image Processing and Pattern Recognition, 2014, 7(6): 95-110.