亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        腫瘤特征基因選擇的互信息最值過濾原則與粒子群優(yōu)化算法

        2018-04-12 07:15:37喻德曠
        計(jì)算機(jī)應(yīng)用 2018年2期
        關(guān)鍵詞:過濾法互信息子集

        喻德曠,楊 誼

        (南方醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,廣州 510515)(*通信作者電子郵箱yiyang20110130@163.com)

        0 引言

        隨著基因芯片技術(shù)的發(fā)展,目前已經(jīng)可以利用基因表達(dá)譜對腫瘤進(jìn)行分子識別、分型,查找腫瘤標(biāo)志物?;谏倭繕颖?樣本量<100),基因芯片技術(shù)能夠產(chǎn)生大量基因(基因量>10 000),但僅有少量基因與腫瘤的發(fā)生密切相關(guān),稱為特征基因(Feature Genes),其他非特征基因稱為管家基因(House-keeping Genes)[1]。從大量基因中選取有效可靠的特征基因,去除管家基因,是進(jìn)行正常組織與腫瘤組織區(qū)別以及腫瘤亞型分類的關(guān)鍵[2],特征基因的準(zhǔn)確篩選能夠減輕分類器的計(jì)算負(fù)擔(dān),提高分類準(zhǔn)確度和效率。在此基礎(chǔ)上還可以提示分子生物學(xué)實(shí)驗(yàn)方向,幫助發(fā)現(xiàn)腫瘤的新分型以及新的腫瘤生物標(biāo)記[1-2],因此,特征基因選擇是腫瘤識別與分類問題的研究重點(diǎn)。

        基因數(shù)據(jù)小樣本、高維數(shù)、高冗余的特點(diǎn)容易導(dǎo)致“維數(shù)災(zāi)難”(Curse of Dimensionality)和“過擬合”(Over-fitting)[3]。目前有許多文獻(xiàn)對特征選擇算法作了探索,常見的特征選擇算法主要分為三種類型:過濾法(Filter)、封裝法(Wrapper)和嵌入法(Embedded)[3]。過濾法是按照某種原則直接排除掉不滿足條件的基因,保留最符合條件的若干基因,例如:文獻(xiàn)[4]采用t-test過濾法;文獻(xiàn)[5]比較了信噪比、Fisher Ration等過濾法的機(jī)制。這一類方法的優(yōu)點(diǎn)是選擇結(jié)果獨(dú)立于分類算法模型,簡單快速,計(jì)算量小,算法過程容易實(shí)現(xiàn);但過濾法算法往往基于單個(gè)基因進(jìn)行指標(biāo)計(jì)算,沒有考慮到基因之間的相關(guān)性[6]。封裝法指定分類器,以啟發(fā)式算法逼近最優(yōu)解來尋找特征基因集合,通常的做法是直接利用分類算法來評估特征基因子集,例如:文獻(xiàn)[7]采用支持向量機(jī)(Support Vector Machine, SVM)方法通過遞歸特征消除獲得白血病和腸癌數(shù)據(jù)的特征基因子集;文獻(xiàn)[8-9]采用粗糙集提取基因數(shù)據(jù)中的屬性,獲得特征基因子集;文獻(xiàn)[10]提出了一種優(yōu)化的鄰域粗糙集的混合基因選擇算法。這一類方法可對不同的分類器選出自適應(yīng)特征子集,但算法實(shí)現(xiàn)較為復(fù)雜,計(jì)算代價(jià)較高,容易產(chǎn)生過擬合,容易受噪聲干擾。嵌入法是將特征選擇算法嵌入到學(xué)習(xí)算法中,例如:文獻(xiàn)[11]采用ReliefF+SVM法挑選出排序靠前的若干個(gè)基因作為特征基因,再使用SVM選擇法進(jìn)一步對這些特征基因進(jìn)行遞歸排序;文獻(xiàn)[12]采用基于SVM的直推式學(xué)習(xí)法選擇特征基因;文獻(xiàn)[13]提出了一種融合0/1隨機(jī)矩陣替換與SVM的基因選擇方法。這類方法能與分類器較好地耦合,但算法復(fù)雜,需要結(jié)合具體數(shù)據(jù)處理多種特定情況,并且選擇結(jié)果對分類器依賴性大。

        為了提高特征基因提取的準(zhǔn)確率和效率,并使海量復(fù)雜醫(yī)學(xué)數(shù)據(jù)的處理變得簡便,本文嘗試將群體智能算法與改進(jìn)的過濾法的優(yōu)勢相結(jié)合,進(jìn)行特征基因選擇。近年來興起的群體智能算法逐漸被用于復(fù)雜數(shù)據(jù)的處理,這是一類仿生啟發(fā)式算法,通過模仿昆蟲、獸群、鳥群和魚群的群集行為,利用群體智慧進(jìn)行協(xié)同搜索,群體按照合作的方式尋找目標(biāo),群體中的每個(gè)成員通過自身的經(jīng)驗(yàn)和學(xué)習(xí)其他成員的經(jīng)驗(yàn)來不斷地改變搜索的方向[14],在解空間內(nèi)找到最優(yōu)解。粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法是一種出色的群體智能算法,它利用群體中的個(gè)體對信息的共享,使整個(gè)群體的運(yùn)動(dòng)產(chǎn)生從無序到有序的演化過程,從而在問題求解空間中獲得最優(yōu)解。PSO是一種并行算法,適合解決數(shù)據(jù)計(jì)算量巨大的問題[15],具有易實(shí)現(xiàn)、不受解空間限制性假設(shè)的約束等優(yōu)點(diǎn),但容易產(chǎn)生局部收斂,得不到全局最優(yōu)解,因此出現(xiàn)了大量的改進(jìn)研究,如:文獻(xiàn)[16]提出了自適應(yīng)PSO算法,通過評價(jià)迭代過程中每個(gè)粒子的性能來改善結(jié)果;文獻(xiàn)[17]提出了具有完全學(xué)習(xí)策略的量子行為粒子群(Quantum-behaved Particle Swarm Optimization algorithm based on Comprehensive Learning strategy, CLQPSO)算法,在迭代更新時(shí)能充分利用所有粒子當(dāng)前最佳位置所提供的社會信息,并通過粒子間的社會合作豐富種群的多樣性,提高算法在求解多峰問題時(shí)的全局收斂性能;文獻(xiàn)[18]利用二進(jìn)制PSO算法與抗早熟的遺傳算法相結(jié)合提出了二進(jìn)制粒子群優(yōu)化與防治基因算法(Binary Partical Swarm Optimization and Combat Genetic Algorithm, BPSO-CGA),實(shí)現(xiàn)了較好的特征基因選擇效果。

        1 特征基因選擇算法設(shè)計(jì)思路

        基于以上分析,本文首先借鑒過濾法思路簡單、實(shí)現(xiàn)容易的優(yōu)點(diǎn),改進(jìn)其只考慮單變量因素的缺點(diǎn),將基因之間以及基因與類別之間的關(guān)聯(lián)關(guān)系考慮進(jìn)來,對候選基因進(jìn)行初步篩選,得到一個(gè)盡可能包含更多特征基因的候選基因子集(Feature Gene Candidate Subset, FGCS)。接著,利用粒子群算法的思路,優(yōu)化其算法過程,設(shè)計(jì)迭代過程中參數(shù)的自適應(yīng)調(diào)整機(jī)制,提高其全局最優(yōu)解的搜索概率和速度。運(yùn)用優(yōu)化后的粒子群算法對候選基因進(jìn)行優(yōu)選,得到核心信息基因子集(Core Feature Gene Subset, CFGS),使得該子集盡可能將特征基因包含進(jìn)來,且減少冗余度,便于后續(xù)分類。最后基于CFGS運(yùn)用分類器進(jìn)行樣本的腫瘤/正常組織分類。這一方法既利用了過濾法的簡便特征,又考慮了多變量關(guān)系,還利用了粒子群算法的群體智能優(yōu)勢,提高了參數(shù)的自適應(yīng)性,獲得了比前述多種方法更為準(zhǔn)確、高效的分類結(jié)果,能為醫(yī)學(xué)研究和實(shí)驗(yàn)提供更為準(zhǔn)確和簡便的計(jì)算方法,可作為醫(yī)學(xué)實(shí)驗(yàn)設(shè)計(jì)參考和仿真演化模型參考。

        2 互信息最值過濾法獲得候選特征基因子集

        如前所述,過濾法采用某種指標(biāo)對所有基因計(jì)算其屬于特征基因的權(quán)重(該權(quán)重反映了各個(gè)基因?qū)Ψ诸惖闹匾潭然蛳嚓P(guān)程度),刪除權(quán)重小于給定閾值的低相關(guān)度基因,保留權(quán)重較大的前Nt個(gè)基因(認(rèn)為這些基因是與腫瘤密切相關(guān)的基因)。常用的權(quán)重指標(biāo)有信噪比(Signal-to-Noise Ratio, SNR)、t-檢驗(yàn)(t-statistic)、卡方統(tǒng)計(jì)值(Chi-Square)、信息增益(Information Gain, IG)等。權(quán)重過濾不依賴于具體的分類算法,可避免過擬合現(xiàn)象,算法實(shí)現(xiàn)簡單,時(shí)間耗費(fèi)小,能夠快速排除大量無關(guān)基因和噪聲數(shù)據(jù);但是,過濾法往往只考慮了單一指標(biāo)的權(quán)重,沒有考慮基因之間的關(guān)系。實(shí)驗(yàn)表明,常存在若干個(gè)關(guān)系密切的基因的組合作為腫瘤標(biāo)志的情況,某個(gè)權(quán)重較大的基因被選中,與它密切相關(guān)的其他基因也應(yīng)當(dāng)作為信息基因被選中[14]。

        互信息(Mutual Information, MI)是信息論里一種信息度量,是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量,可以表示兩個(gè)隨機(jī)變量間的統(tǒng)計(jì)相關(guān)性或者依賴程度。文獻(xiàn)[19]提出了一種基于互信息的特征基因快速選取方法,文獻(xiàn)[20]提出了利用鄰域互信息最大化原則篩選特征基因的方法,它們都利用了同一分類系統(tǒng)的基因在統(tǒng)計(jì)學(xué)上是高度相關(guān)的原理。本文借鑒該思路提出互信息最值過濾原則(Mutual Information Maximum Value Filter Criteria, MIMVFC),通過在指標(biāo)權(quán)重最大的Nt個(gè)基因中進(jìn)一步尋找相似度(相關(guān)性)最大的基因來生成候選特征基因子集。

        在信息論中,互信息用熵來計(jì)算。熵表示的是不確定性的量度[15]。設(shè)離散隨機(jī)變量x(x∈T1)的概率密度分布函數(shù)為p(x),則x的特征熵H(X)定義為:

        (1)

        設(shè)離散隨機(jī)變量y(y∈T2)的概率密度分布函數(shù)為p(y),則y的特征熵H(Y)定義為:

        (2)

        由于熵的值常用于相對運(yùn)算中,所以式(2)中l(wèi)og定義與底無關(guān),計(jì)算時(shí)由程序語言中的DLL設(shè)置,常設(shè)置為以e為底。根據(jù)熵的連鎖規(guī)則,有:

        H(x,y)=H(x)+H(y|x)=H(y)+H(x|y)

        (3)

        定義x和y的互信息I(x,y):

        I(x,y)=H(x)-H(x|y)=H(y)-H(y|x)

        (4)

        按照熵的定義展開得到:

        (5)

        (6)

        其中:I(j,ck)的值介于0和1之間,值越小,表示基因j的表達(dá)與分類的關(guān)系越小,該基因越有可能是管家基因;反之,該基因越有可能提示分類信息,成為候選基因。

        (7)

        其中:I(j,k)的值介于0和1之間,值越小,表示基因j和k的表達(dá)與分類的關(guān)系越小,它們在分類方面的趨近于獨(dú)立;反之,這兩個(gè)基因越有可能聯(lián)合提示分類信息,同時(shí)屬于候選基因集合。

        在選擇出了Nt個(gè)基因-類別熵最大的基因后,依據(jù)互信息最大化原則在剩余的基因中進(jìn)行選擇:按照Max{I(j,k)}即基因-基因熵最大原則,選擇與這Nt個(gè)基因相關(guān)度最高的γNt(γ>0)個(gè)基因組成候選特征基因子集。本文的互信息最值過濾原則(MIMVFC)與文獻(xiàn)[20]的鄰域互信息計(jì)算方式不同,本文采用醫(yī)學(xué)實(shí)驗(yàn)中基因高低表達(dá)個(gè)數(shù)與總基因個(gè)數(shù)之間的比例關(guān)系作為衡量準(zhǔn)則,取代后者較為復(fù)雜的對數(shù)計(jì)算,運(yùn)算時(shí)間明顯減少。在結(jié)果精度方面雖略有降低,但多次預(yù)處理的結(jié)果顯示該損失可以忽略。

        采用MIMVFC能夠很快地排除大部分的噪聲和管家基因,但得到的候選子集還不是最優(yōu)、最精簡的特征基因子集,需要進(jìn)一步優(yōu)化。

        3 粒子群優(yōu)化算法獲得特征基因子集

        粒子群優(yōu)化算法源于對鳥群捕食行為的研究,它利用群體中的個(gè)體對信息的共享,使得整個(gè)群體的運(yùn)動(dòng)在問題求解空間中從無序到有序演化,從而獲得問題的最優(yōu)解。PSO的進(jìn)化公式基于粒子前一時(shí)刻的信息,通過處理粒子自身經(jīng)驗(yàn)信息和群體共享信息決定粒子當(dāng)前時(shí)刻的位置。將特征基因選擇問題映射為PSO問題的直觀描述是:一群基因試圖尋找自己的指示歸類,開始時(shí)所有基因都不知道自己能夠指示哪個(gè)類別(或不能指示任何類別),但是它們知道自己當(dāng)前的值的表達(dá)狀態(tài)(高或低),那么求解自己的歸屬類的最佳策略就是根據(jù)適應(yīng)度函數(shù)(Fitness Function)的大小來判斷和搜尋目前距離目標(biāo)最近的基因,從而改變自己的歸屬,最后得到自己的歸屬。在PSO中,每個(gè)優(yōu)化問題的解相當(dāng)于搜索空間中的一個(gè)粒子,每個(gè)粒子都具有一個(gè)位置向量(粒子在解空間的位置)和速度向量(決定下次變化的方向和速度),并可以根據(jù)目標(biāo)函數(shù)來計(jì)算當(dāng)前的所在位置的適應(yīng)值(fitness value)。在每次的迭代中,種群中的粒子除了根據(jù)自身的經(jīng)驗(yàn)(個(gè)體歷史位置)進(jìn)行學(xué)習(xí)以外,還可以根據(jù)種群中最優(yōu)粒子的經(jīng)驗(yàn)(社會信息)來學(xué)習(xí),從而確定下一次迭代時(shí)需要如何調(diào)整和改變自己移動(dòng)的方向和速度。逐步迭代,最終整個(gè)種群的粒子趨于最優(yōu)解。

        令Xi=(xi1,xi2,…,xin)代表粒子i的位置向量,Vi=(vi1,vi2,…,vin)代表粒子i的速度向量,其中n為粒子個(gè)數(shù)即解的個(gè)數(shù)。經(jīng)典粒子群優(yōu)化算法的迭代算子形式如下:

        速度向量迭代公式為:

        Vi=Vi+δ1r1(Pbesti-Xi)+δ2r2(Gbesti-Xi)

        (8)

        位置向量迭代公式為:

        Xi=Xi+Vi

        (9)

        其中:Pbesti和Gbesti分別代表粒子i的歷史最佳位置向量和全局(種群)歷史最佳位置向量;參數(shù)δ1和δ2是學(xué)習(xí)因子,分別表示粒子跟蹤自己的歷史記錄和群體的歷史記錄的權(quán)值;r1和r2為[0,1]區(qū)間的隨機(jī)值,以增加搜索的隨機(jī)性。種群中的粒子通過不斷地向自身和種群的歷史信息進(jìn)行學(xué)習(xí),從而可以找出問題的最優(yōu)解。

        但是,實(shí)驗(yàn)表明,式(9)中Vi的更新較快,使得PSO算法的全局快搜能力很強(qiáng),但是局部細(xì)搜能力較差。實(shí)際上,在算法迭代初期PSO應(yīng)當(dāng)有著較強(qiáng)的全局掃描能力,而在算法后期應(yīng)該具有更強(qiáng)的局部搜索能力。為了達(dá)到這一點(diǎn),文獻(xiàn)[11]引入慣性權(quán)重,設(shè)計(jì)了PSO的慣性權(quán)重模型:

        Vi=ωVi+δ1r1(Pbesti-Xi)+δ2r2(Gbesti-Xi)

        (10)

        其中:參數(shù)ω∈[0,1]是PSO的慣性權(quán)重(Inertia Weight),它的取值位于[0,1]區(qū)間。開始令ω取較大值,使得PSO搜索空間大,速度變化快,全局優(yōu)化能力較強(qiáng);隨著迭代的深入,ω遞減,使得PSO在較為確定的小空間內(nèi)放慢速度搜索;當(dāng)?shù)Y(jié)束時(shí),ω=0。

        上述方法中,ω的值需要人工干預(yù),修改的時(shí)機(jī)和值主要取決于經(jīng)驗(yàn),往往存在較大誤差和運(yùn)氣成分。為了自適應(yīng)修改ω值,更好地模擬粒子的智能運(yùn)動(dòng),本文設(shè)計(jì)了ω的非線性遞減公式:

        ω(t+1)=ω(t)×(MaxIter-Iter(t))/MaxIter

        (11)

        其中:MaxIter為最大迭代次數(shù);Iter(t)為當(dāng)前已經(jīng)執(zhí)行了的迭代次數(shù)。這樣,在搜索前期,速度降低的速率較大,而搜索后期的速度降低得較慢,并且,速率變化率(加速度)是非線性的。這些都更為符合復(fù)雜群體運(yùn)動(dòng)系統(tǒng)的特點(diǎn)。

        定義粒子的適應(yīng)度函數(shù)來判斷粒子目前的位置狀況:

        fit(Xi)=wA(Xi)+(1-w)(N-R(Xi))/N

        (12)

        其中:A(Xi)∈[0,1]為使用Xi進(jìn)行留一交叉驗(yàn)證分類準(zhǔn)確度;R(Xi)是Xi中的基因個(gè)數(shù);N為每個(gè)樣本中的基因總數(shù);w∈(0,1)為調(diào)節(jié)系數(shù)。文獻(xiàn)[20]對PSO算法的優(yōu)化主要體現(xiàn)在適應(yīng)度函數(shù)的新設(shè)計(jì)上,再次利用屬性之間的鄰域互信息度量適應(yīng)度;而文本對PSO的優(yōu)化則體現(xiàn)在運(yùn)用自調(diào)整的非線性遞減的慣性權(quán)重來自適應(yīng)調(diào)節(jié)不同階段PSO的搜索速度,在適應(yīng)度函數(shù)的設(shè)計(jì)上未采用互信息而是采用以上一次的適應(yīng)度作為本次更新的基準(zhǔn),主要原因是經(jīng)過MIMVFC的過濾,所保留下來的基因都具有較多的高表達(dá)屬性,互信息的區(qū)分能力已經(jīng)沒有第一階段明顯,所以不再采用互信息作為適應(yīng)度函數(shù)的計(jì)算因素。

        本文提出的慣性權(quán)重粒子群優(yōu)化(Inertia Weight Particle Swarm Optimization, IWPSO)算法框架如圖1所示。

        圖1 IWPSO算法框架Fig. 1 Framework of IWPSO algorithm

        4 實(shí)驗(yàn)結(jié)果與分析

        本文實(shí)驗(yàn)環(huán)境如下:Windows 7操作系統(tǒng),Matlab 7編程平臺,機(jī)器配置CPU Core i3, 3.2 GHz,4 GB內(nèi)存。

        4.1 實(shí)驗(yàn)數(shù)據(jù)集

        采用以下三組數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。1)白血病數(shù)據(jù)集leukemia(http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi),共包含72個(gè)樣本,7 129個(gè)基因,其中:47個(gè)樣本為急性淋巴白血病(ALL),25個(gè)樣本為急性骨髓白血病(AML)。2)大腸癌數(shù)據(jù)集colon 1(http://microarray.princefon.edn/oncology/affydafa/index.htm/),共包含62個(gè)樣本,2 000個(gè)基因,其中:42個(gè)為大腸癌樣本,20個(gè)為正常組織樣本。3)乳腺癌數(shù)據(jù)集breast cancer(http://mgm.duke.edu/geneme/dnamicro/work/),共包含49個(gè)樣本,7 219個(gè)基因,其中:24個(gè)樣本為乳腺癌,25個(gè)是正常組織。各基因數(shù)據(jù)集中的缺失數(shù)據(jù)已經(jīng)按照醫(yī)學(xué)實(shí)驗(yàn)中的常規(guī)線性填充法處理。

        4.2 過濾法對特征基因提取的分類結(jié)果對比

        首先比較本文的互信息最值過濾法MIMVFC、信噪比、t-檢驗(yàn)、卡方統(tǒng)計(jì)值和信息增益所獲得候選特征基因子集進(jìn)行分類的準(zhǔn)確度,分類結(jié)果金標(biāo)準(zhǔn)為公開的腫瘤基因表達(dá)譜的已經(jīng)分類的實(shí)驗(yàn)數(shù)據(jù)。比例系數(shù)α=β∈[1.5,2],γ=2,這三個(gè)比例系數(shù)均來自于大量實(shí)驗(yàn)測定所得到的經(jīng)驗(yàn)值設(shè)置,如果α、β過大,γ過小會遺漏部分特征基因,反之則會導(dǎo)致運(yùn)行代價(jià)過大。為保持驗(yàn)證的同一性,所有過濾法得到的候選基因個(gè)數(shù)Nt均設(shè)置為基因總數(shù)的1/40(取整),例如在leukemia和breast cancer數(shù)據(jù)集中設(shè)置為200,在colon 1數(shù)據(jù)集中設(shè)置為50。

        將三個(gè)腫瘤表達(dá)譜數(shù)據(jù)集分別按1∶1、2∶1、3∶1的比例隨機(jī)分為訓(xùn)練集和測試集。對于訓(xùn)練集,采用5-折交叉檢驗(yàn)法(five-fold cross validation),將訓(xùn)練集的樣本分為5等份,輪流將其中4份樣本作為訓(xùn)練樣本,剩余1份樣本作為測試樣本,重復(fù)測試直至訓(xùn)練集內(nèi)所有樣本都經(jīng)過一次測試,得到各個(gè)過濾法的最優(yōu)參數(shù)設(shè)置。用該配置對于測試集的每個(gè)樣本進(jìn)行逐一分類測試。當(dāng)訓(xùn)練集和測試集為1∶1、2∶1、3∶1時(shí),正確和錯(cuò)誤分類樣本個(gè)數(shù)如表1所示。從三個(gè)腫瘤基因表達(dá)譜庫在多個(gè)不同訓(xùn)練集:測試集比例下的分類結(jié)果可以看到,本文的MIMVFC方法充分考慮了多變量關(guān)系,處理結(jié)果的準(zhǔn)確率在大部分情況下都是最高的,Chi-Square方法次之,優(yōu)于其他三種單因素過濾法。MIMVFC方法的基因-基因與基因-類別之間的互信息相關(guān)原則的有效性得以體現(xiàn)。

        分類準(zhǔn)確率對比如圖2所示。從圖2可以看到,MIMVFC在大部分情況下能夠獲得比其他過濾方法更好的候選特征基因子集,主要原因是原始數(shù)據(jù)中含有較多的噪聲,SNR和IG方法容易受到噪聲干擾;而t-statistic和Chi-Square的公式中都采用了標(biāo)準(zhǔn)誤差的做法,能夠減少噪聲的影響,但t-statistic只考慮了單一指標(biāo)的權(quán)重,沒有考慮基因之間的關(guān)系,所選擇的候選特征基因的分類效果不如本文的MIMVFC;Chi-Square準(zhǔn)確率較高的原因主要是該方法屬于非參數(shù)檢驗(yàn),涉及到兩個(gè)及兩個(gè)以上樣本率(構(gòu)成比)以及兩個(gè)分類變量的關(guān)聯(lián)性分析,而非單純的單因素分析,少數(shù)情況下Chi-Square的處理結(jié)果更好,這與實(shí)際數(shù)據(jù)的取值范圍和分布、數(shù)據(jù)缺失的填充方法等有一定關(guān)系。對同一數(shù)據(jù)集,不同的訓(xùn)練集∶測試集的比例下五種算法的分類準(zhǔn)確率分布如圖3所示,其中橫坐標(biāo)為采用的方法編號,1表示SNR,2表示t-statistic,3表示Chi-Square,4表示IG,5表示MIMVFC。由圖3可以得知,對同一數(shù)據(jù)集,當(dāng)訓(xùn)練集∶測試集的比例增大時(shí),五種過濾法的分類準(zhǔn)確率大都呈現(xiàn)提高的趨勢,而且在不同比例條件下,MIMVFC的分類準(zhǔn)確率比較穩(wěn)定,浮動(dòng)范圍較?。籆hi-Square的準(zhǔn)確率接近MIMVFC,但它的結(jié)果的偏差范圍較大;其他三種過濾方法的準(zhǔn)確率較低。同時(shí)也可以看到,雖然MIMVFC的分類結(jié)果比幾種主流的過濾法有較大改善,但是它的總體準(zhǔn)確率在83%~89%,還有改進(jìn)的空間,所以接著借助IWPSO算法進(jìn)一步提高。

        表1 不同訓(xùn)練集與測試集的比例時(shí)分類結(jié)果Tab. 1 Classification results under different ratio of training samples and test samples

        4.3 不同粒子群算法提取特征基因的分類結(jié)果對比

        對于前述MIMVFC獲得的3個(gè)腫瘤基因表達(dá)譜庫的FGCS,分別采用標(biāo)準(zhǔn)PSO、文獻(xiàn)[18]的BPSO-CGA和本文IWPSO進(jìn)行樣本的腫瘤/正常組織分類實(shí)驗(yàn),其中標(biāo)準(zhǔn)PSO是改進(jìn)算法常用的對照算法,而文獻(xiàn)[18]的BPSO-CGA則是在腫瘤基因表達(dá)譜上分類性能較好的PSO算法,具有可比性。實(shí)驗(yàn)指標(biāo)包括三種方法的特征基因提取規(guī)模、分類準(zhǔn)確率與運(yùn)算耗時(shí)。

        實(shí)驗(yàn)參數(shù)設(shè)置:三種PSO算法的公共參數(shù)最大迭代次數(shù)MaxIter=1 000,初始粒子個(gè)數(shù)n=100。標(biāo)準(zhǔn)PSO的參數(shù)δ1和δ2初始值根據(jù)經(jīng)驗(yàn)均設(shè)置為2,表示粒子跟蹤自己的歷史記錄和群體的歷史記錄的權(quán)值相等;r1和r2為[0,1]區(qū)間的隨機(jī)值,以增加搜索的隨機(jī)性。文獻(xiàn)[18]的BPSO-CGA的初始參數(shù)按原文設(shè)置。本文IWPSO在標(biāo)準(zhǔn)PSO的基礎(chǔ)上,對新增參數(shù)初始設(shè)置為:慣性權(quán)重ω初始值取1,以使得算法初期全局搜索速度快,該值將在迭代過程中由式(11)計(jì)算產(chǎn)生動(dòng)態(tài)變化。調(diào)節(jié)系數(shù)w=0.5表示對上一次迭代的結(jié)果取50%的置信度,既不過度依賴、也不完全放棄上一次的結(jié)果。IWPSO的參數(shù)在運(yùn)行過程中自動(dòng)迭代更新,無需人工干涉。初始粒子群均采用MIMVFC過濾后的結(jié)果FGCS,以相同的起點(diǎn)比較三種PSO算法的有效性。對于每個(gè)FGCS各運(yùn)行10次,從最后得到的特征基因子集大小、耗時(shí)和測試集分類準(zhǔn)確率三個(gè)方面取平均值,綜合測試三種粒子群算法的結(jié)果(平均值±偏差)如表2所示。

        從表2可知,三種PSO算法所獲得的特征基因子集中的基因個(gè)數(shù)都小于預(yù)定的初始值100,比候選特征子集的規(guī)模小得多,本文IWPSO算法在3個(gè)數(shù)據(jù)集上所獲得的特征子集都是最小的,說明它能夠有效地提取最精簡的基因作為分類代表。IWPSO耗時(shí)比標(biāo)準(zhǔn)PSO短,略高于文獻(xiàn)[11]的BPSO-CGA,該耗時(shí)在實(shí)際應(yīng)用中可以為用戶接受。在分類準(zhǔn)確率方面,IWPSO是最高的,其次是文獻(xiàn)[18]的BPSO-CGA,均高于標(biāo)準(zhǔn)PSO,并且比僅使用MIMVFC過濾法進(jìn)行分類的準(zhǔn)確率有明顯提高,說明了本文改進(jìn)方法的有效性。與文獻(xiàn)[20]給出的在相同數(shù)據(jù)集leukemia dataset上所處理的結(jié)果相比,本文的分類精度雖然略低(平均值約低1.96個(gè)百分點(diǎn)),但偏差范圍明顯較小,說明本文改進(jìn)方法的穩(wěn)定性和適應(yīng)性更好。主要原因是通過對過濾法的改進(jìn),利用互信息最值篩選原則獲得較高質(zhì)量的起點(diǎn),再通過優(yōu)化的粒子群算法IWPSO,不僅在初始階段提高了搜索速度,而且在后期最優(yōu)解可能存在的較小的特定區(qū)域進(jìn)行慢速細(xì)致搜索,從而能更好地獲得最優(yōu)解,提升分類準(zhǔn)確率。

        圖2 在不同的訓(xùn)練集與測試集比例下五種過濾算法的分類準(zhǔn)確率對比Fig. 2 Classification accuracy comparison with different ratio between training samples and testing samples by 5 filter algorithms

        圖3 對同一數(shù)據(jù)集不同的訓(xùn)練集與測試集的比例下五種過濾算法的分類準(zhǔn)確率對比Fig. 3 Classification accuracy comparison of 5 filter algorithms with different ratio between training samples and testing samples on same dataset

        表2 三種粒子群算法的結(jié)果Tab. 2 Comprehensive testing results of three particle swarm optimization algorithms

        5 結(jié)語

        本文設(shè)計(jì)了基于互信息的最值過濾原則消除與腫瘤分類無關(guān)的噪聲和冗余基因,這種思路不僅容易實(shí)現(xiàn)、計(jì)算簡便,而且由于考慮了基因-基因與基因-類別的互信息,更符合基因優(yōu)選原理,所獲得的候選基因子集更為準(zhǔn)確且規(guī)模更小,不僅可以減輕后續(xù)分類器的計(jì)算負(fù)擔(dān),還可以提高分類器的分類準(zhǔn)確度,便于分子生物學(xué)實(shí)驗(yàn)設(shè)計(jì)和驗(yàn)證,對于腫瘤標(biāo)志物的查找和腫瘤發(fā)生發(fā)展分子機(jī)制的闡明具有一定的提示意義。

        本文還通過對PSO算法加以慣性權(quán)重調(diào)控,使得迭代過程中的權(quán)值隨著搜索階段而自適應(yīng)改變,實(shí)現(xiàn)了初期快速搜索、后期準(zhǔn)確定位。過濾法與粒子群優(yōu)化算法的結(jié)合運(yùn)用,不僅提高了結(jié)果的準(zhǔn)確度,而且大幅度減少了運(yùn)算時(shí)間,對于海量數(shù)據(jù)的分析和處理提供了很好的探索方向。

        本文方法目前僅用于二分類問題,如果要用于多分類問題,需要進(jìn)一步探索多個(gè)類別之間參數(shù)閾值的設(shè)置方法,這是正在與醫(yī)學(xué)專業(yè)人員討論的問題,也是今后的突破點(diǎn)之一。下一步的工作包括:將探索區(qū)域擴(kuò)展到腫瘤亞型的自動(dòng)分類方面,即多分類問題的求解;沿著基因-基因熵的思路,探索尋找指定屬性的基因的通用方法;對PSO算法根據(jù)不同的具體問題的要求實(shí)現(xiàn)對應(yīng)參數(shù)的自適應(yīng)策略。

        參考文獻(xiàn)(References)

        [1]HSIEH S Y, CHOU Y C. A faster cDNA microarray gene expression data classifier for diagnosing diseases [J]. IEEE//ACM Transactions on Computational Biology & Bioinformatics, 2016, 13 (1): 43-54.

        [2]BUTT H Z, SYLVIUS N, SALEM M K, et al. Microarray-based gene expression profiling of abdominal aortic aneurysm [J]. European Journal of Vascular and Endovascular Surgery, 2016, 52(1): 47-55.

        [3]徐久成,李濤,孫林,等.基于信噪比與鄰域粗糙集的特征基因選擇方法[J].數(shù)據(jù)采集與處理,2015,30(5):973-981. (XU J C, LI T, SUN L, et al. Feature gene selection based on SNR and neighborhood rough set [J]. Journal of Data Acquisition and Processing, 2015, 30(5): 973-981.)

        [4]ZHAO Z, WANG L, LIU H. Efficient spectral feature selection with minimum redundancy [C]// Proceedings of the 2010 Twenty-Fourth AAAI Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2010: 673-678.

        [5]李曉波,彭司華.多類別腫瘤分類的特恒基因選擇方法研究[J].復(fù)旦學(xué)報(bào),2014,53(3):305-312. (LI X B, PENG S H. Informative gene selection methods for multi-category cancer classification [J]. Journal of Fudan University (Natural Science), 2014, 53(3): 305-312.)

        [6]徐久成,馮森,穆輝宇.基于信噪比與隨機(jī)森林的腫瘤特征基因選擇[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,45(2):87-92. (XU J C, FENG S, MU H Y. Tumor feature gene selection based on SNR and random forest [J]. Journal of Henan Normal University (Natural Science Edition), 2017, 45(2): 87-92.)

        [7]YU B, LI S, LIU H J. A hybrid gene selection method for tumor classification based on genetic algorithm and support vector machine [J]. Journal of Computational and Theoretical Nanoscience, 2015, 12(11): 4730-4735.

        [8]HU Q H, AN S, YU D R. Soft fuzzy rough sets for robust feature evaluation and selection [J]. Information Sciences, 2010, 180(22): 4384-4400.

        [9]CHEN D G, ZHAO S Y. Local reduction of decision system with fuzzy rough sets [J]. Fuzzy Sets and Systems, 2010, 161(13): 1871-1883.

        [10]陳濤,洪增林,鄧方安.基于優(yōu)化的鄰域粗糙集的混合基因選擇算法[J].計(jì)算機(jī)科學(xué),2014,41(10):291-294. (CHEN T, HONG Z L, DENG F A. Hybrid gene selection algorithm based on optimized neighborhood rough set [J]. Computer Science, 2014, 41(10): 291-294.)

        [11]LI X, PENG S, CHEN J, et al. SVM-T-RFE: a novel gene selection algorithm for identifying metastasis-related genes in colorectal cancer using gene expression profiles [J]. Biochemical and Biophysical Research Communications, 2012, 419(2): 148-153.

        [12]MAULIK U, MUKHOPADHYAY A, CHAKRABORTY D. Gene-expression-based cancer subtypes prediction through feature selection and transductive SVM [J]. IEEE Transactions on Biomedical Engineering, 2013, 60(4): 1111-1117.

        [13]謝志偉,王志明,駱劍鋒.基于RD-SVM的腫瘤信息基因選擇算法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(5):310-313. (XIE Z W, WANG Z M, LUO J F. Tumor informative gene selection algorithm based on RD-SVM [J]. Computer Applications and Software, 2015, 32(5): 310-313.)

        [14]KANEHISA M, GOTO S, SATO Y, et al. Data, information, knowledge and principle: back to metabolism in KEGG [J]. Nucleic Acids Research, 2014, 42: D199-D205.

        [15]楊淑瑩.群體智能與仿生計(jì)算[M].北京:電子工業(yè)出版社,2016:109-124. (YANG S Y. Swarm Intelligence and Bionic Computation [M]. Beijing: Publishing House of Electronics Industry, 2016: 109-124.)

        [16]ZHAN Z H, ZHANG J, LI Y, et al. Adaptive particle swarm optimization [J]. IEEE Transactions on Systems, Man, and Cybernetics — Part B: Cybernetics, 2009, 39(6): 1362-1381.

        [17]陳偉,周頔,孫俊,等.一種采用完全學(xué)習(xí)策略的量子行為粒子群優(yōu)化算法[J].控制與決策,2012,27(5):719-730. (CHEN W, ZHOU D, SUN J, et al. Improved quantum-behaved particle swarm optimization algorithm based on comprehensive learning strategy [J]. Control and Decision, 2012, 27(5): 719-730.)

        [18]CHUANG L Y, YANG C H, LI J C, et al. A hybrid BPSO-CGA approach for gene selection and classification of microarray data [J]. Journal of Computional Biology, 2012, 19(1): 68-82.

        [19]XU J C,XU T H,SUN L,et al. An efficient gene selection technique based on fuzzy C-means and neighborhood rough set [J]. Applied Mathematics & Information Sciences, 2014, 8(6): 3101-3110.

        [20]徐天賀,馬媛媛,徐久成.一種基于鄰域互信息最大化和粒子群優(yōu)化的特征基因選擇方法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(8):1775-1779. (XU T H, MA Y Y, XU J C. Efficient gene selection technique based on maximum neighborhood mutual information and particle swarm optimization [J]. Journal of Chinese Computer Systems, 2016, 37(8): 1775-1779.)

        猜你喜歡
        過濾法互信息子集
        基于深度強(qiáng)化學(xué)習(xí)的直流配電線路短路故障測距方法
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        關(guān)于奇數(shù)階二元子集的分離序列
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        改進(jìn)的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        基于增量式互信息的圖像快速匹配方法
        藥品檢驗(yàn)中薄膜過濾法的應(yīng)用價(jià)值
        国模少妇一区二区三区| 国产精品白浆无码流出| 国产精品亚洲综合天堂夜夜| 精品久久杨幂国产杨幂| 亚洲蜜芽在线精品一区| 亚洲av网站首页在线观看| 日本免费久久高清视频| 国产精品无码无卡无需播放器 | 国产品精品久久久久中文| 黄色三级视频中文字幕| 国产成人综合精品一区二区| 亚洲tv精品一区二区三区| 久久精品国产亚洲超碰av| 国产裸体美女永久免费无遮挡 | 亚洲AV成人无码久久精品在| 偷拍一区二区三区黄片| 久久99精品久久久久久清纯| 天堂8中文在线最新版在线| 98国产精品永久在线观看| 三个黑人插一个女的视频| 亚洲日韩成人无码| 亚洲av无码一区二区二三区| 免费一区二区三区在线视频| 亚洲综合日韩中文字幕| 亚洲av无吗国产精品| 国内自拍色第一页第二页| 少妇爆乳无码专区| 国产内射性高湖| av大片在线无码永久免费网址| 久久精品国产亚洲av性瑜伽| 亚洲裸男gv网站| 人妻无码一区二区三区四区 | 插上翅膀插上科学的翅膀飞| 国产熟妇人妻精品一区二区动漫 | 国产高清吃奶成免费视频网站| 亚洲av手机在线一区| 4hu四虎永久免费地址ww416| 爽爽午夜影视窝窝看片| 大肥婆老熟女一区二区精品| 偷拍一区二区三区四区| 最近中文字幕视频完整版在线看|