劉翠翠
(長(zhǎng)沙醫(yī)學(xué)院,湖南 長(zhǎng)沙 410219)
基于改進(jìn)鄰域粗糙集的腫瘤特征基因選擇算法的研究
劉翠翠
(長(zhǎng)沙醫(yī)學(xué)院,湖南 長(zhǎng)沙 410219)
針對(duì)當(dāng)前腫瘤特征基因選擇算法準(zhǔn)確率不高及工作效率較低的問(wèn)題,文章對(duì)鄰域粗糙集進(jìn)行改進(jìn)來(lái)解決此類問(wèn)題。文章首先對(duì)領(lǐng)域粗糙集的相關(guān)理論進(jìn)行了分析;其次分析了粒子群算法,設(shè)計(jì)出改進(jìn)的鄰域粗糙集腫瘤特征選擇算法;最后給出了改進(jìn)算法的實(shí)現(xiàn)和仿真實(shí)驗(yàn),希望對(duì)于算法研究人員和醫(yī)務(wù)人員具有一定的積極意義。
鄰域粗糙集;算法;腫瘤特征
隨著科技的進(jìn)步,在生物技術(shù)和生命科學(xué)的研究中,海量的模糊數(shù)據(jù)及大量的不確定性問(wèn)題給研究工作帶來(lái)了指數(shù)級(jí)增長(zhǎng)的復(fù)雜數(shù)據(jù)處理困難。當(dāng)前,對(duì)人類健康和壽命的影響最大的疾病是腫瘤,如何盡早地對(duì)腫瘤進(jìn)行分類和區(qū)別惡性腫瘤及良性腫瘤,可以對(duì)疾病的及早治療提供科學(xué)的依據(jù),提高病人的存活率。在腫瘤基因的表達(dá)譜數(shù)據(jù)上具有低樣本、連續(xù)型、高維度和不完備的特征,當(dāng)前的很多數(shù)據(jù)挖掘算法無(wú)法對(duì)基因數(shù)據(jù)進(jìn)行準(zhǔn)備的分類和預(yù)測(cè),本文通過(guò)改進(jìn)鄰域粗糙集來(lái)提高和簡(jiǎn)化特征選擇過(guò)程,提高工作效率。
1.1 粗糙集
1982年,波蘭數(shù)學(xué)家Paw lak提出了粗糙集理論,其主要思想是將知識(shí)按照某種等價(jià)關(guān)系,按照上下近似的概念將知識(shí)劃分到不同的區(qū)域中。該理論是一種可以處理分析不確定知識(shí)和模糊數(shù)據(jù)的數(shù)學(xué)工具,可以從一些不一致的、不完整的、不精確的數(shù)據(jù)中找到隱含的規(guī)律和知識(shí)。
在粗糙集理論方面,需要掌握幾個(gè)基本的概念:
(1)等價(jià)類。假設(shè)一個(gè)信息系統(tǒng)K=(U,A,V,f),其中U為知識(shí),即論域;A是屬性的非空有限集;V是信息函數(shù),表示具體對(duì)象上的信息值,對(duì)于屬性子集P屬于A,則在論域中存在一個(gè)對(duì)象x,等價(jià)類滿足條件為:
(2)不可辨關(guān)系。假設(shè)S是U上的一個(gè)等價(jià)關(guān)系,P屬于S且不為空,則P中所有等價(jià)關(guān)系的交集為P上的不可辨關(guān)系,公式如下所示:
(3)知識(shí)約簡(jiǎn)。知識(shí)約簡(jiǎn)指的是在信息系統(tǒng)中,在知識(shí)庫(kù)中對(duì)其中不重要的及不相關(guān)的知識(shí)進(jìn)行刪除,但知識(shí)庫(kù)的分類能力不變。
1.2 鄰域粗糙集
粗糙集只能夠?qū)﹄x散型的數(shù)據(jù)進(jìn)行分析,但是在現(xiàn)實(shí)的知識(shí)體系里,數(shù)據(jù)基本上都是數(shù)據(jù)值型的,這使得數(shù)據(jù)必須進(jìn)行離散化后才能夠進(jìn)行處理分析,嚴(yán)重影響了算法的運(yùn)行效率且可能造成數(shù)據(jù)的失真。在此基礎(chǔ)上,提出了領(lǐng)域粗糙集,數(shù)據(jù)無(wú)需進(jìn)行離散化即可處理,大大提高了效率。
在粗糙集理論上,提出了鄰域近似空間、上下近似、鄰域不確定性、聯(lián)合鄰域熵等概念,有效地完善了鄰域粗糙集理論。
1.3 基因特征選擇
基因特征選擇的目的是在正常樣本和疾病樣本中,每個(gè)樣本中都存在大量的基因,而部分基因只存在少量的樣本中,在小樣本和大基因問(wèn)題上找出差異的基因,對(duì)診斷腫瘤和分類是非常重要的。
基因特征的選擇首先是基因表達(dá)數(shù)據(jù)獲取,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理分析,其次選擇提取特征基因,建立分類模型,最后對(duì)分類的結(jié)果進(jìn)行預(yù)測(cè)和評(píng)估。整個(gè)基因特征選擇的流程如圖1所示。
圖1 基因特征選擇流程
2.1 粒子群算法
1995年,Kennedy和Eberhart提出了基于迭代的粒子群優(yōu)化算法,該算法的最大優(yōu)點(diǎn)是具有全局優(yōu)化能力且便于實(shí)現(xiàn)。
粒子群算法的思想是:對(duì)一個(gè)d維的搜索空間中里有大量的以特定速度飛行粒子存在,每個(gè)粒子可以看作是沒(méi)有體積、沒(méi)有質(zhì)量的點(diǎn),每個(gè)粒子根據(jù)其他粒子的飛行經(jīng)驗(yàn)來(lái)調(diào)整個(gè)體的飛行軌跡,并不斷地向最優(yōu)點(diǎn)靠攏。
在粒子群算法中,粒子是不斷向最優(yōu)點(diǎn)靠攏的,其粒子對(duì)于飛行的位置和速度調(diào)整主要通過(guò)以下公式來(lái)實(shí)現(xiàn):
其中l(wèi)ocij表示粒子i在第j維空間中的位置,vij表示粒子i在第j維空間中飛行的速度,w表示慣性權(quán)值,c1和c2是加速因子,其值為正常數(shù),r1和r2在[0,1]中的隨機(jī)數(shù)。
2.2 改進(jìn)的鄰域粗糙集腫瘤特征選擇算法
鄰域粗糙集的思想是對(duì)屬性集中的每一個(gè)屬性都賦個(gè)值,即權(quán)重,對(duì)聚類相關(guān)性較強(qiáng)的屬性不斷增加其權(quán)重的值,去掉權(quán)值較小的屬性后,再次對(duì)余下的屬性進(jìn)行權(quán)重分配,去掉較小值,這樣周而復(fù)始,使得在空間中噪聲的影響不斷減小,這樣分類的最終結(jié)果不斷接近最優(yōu)。但是這種方法存在著一個(gè)問(wèn)題,就是對(duì)樣本之間的特征沒(méi)有進(jìn)行充分的考慮,使得分類的精度受到影響。
針對(duì)鄰域粗糙集算法的不足,本文結(jié)合粒子群算法對(duì)其進(jìn)行改進(jìn),改進(jìn)的鄰域粗糙集腫瘤特征選擇算法流程描述如下:
(1)給基因集中的每個(gè)元素賦予一個(gè)權(quán)重值w。
(2)對(duì)空間中樣本進(jìn)行探索,找到N個(gè)最近命中樣本和N個(gè)最近命失樣本。
(3)計(jì)算任意的基因的權(quán)重,通過(guò)相同類別的最近鄰居,通過(guò)適應(yīng)度函數(shù)Fit(g,xi,xj)找到不同基因之間的差異。
(4)找到屬性中權(quán)重最小值中的屬性的位置。
(5)從屬性集合中刪除最小值屬性。
(6)得到新的基因組集,查看得到的結(jié)果是否滿足條件,假如不滿足并轉(zhuǎn)到第(1)步,滿足則直接結(jié)束。
在改進(jìn)的算法中,屬性是非常重要的,可以有效影響決策;另外,適應(yīng)度函數(shù)可以有效評(píng)價(jià)粒子質(zhì)量,適應(yīng)度函數(shù)可以有效地讓質(zhì)量好的粒子留下,進(jìn)行排除差的粒子。
為了更好地評(píng)價(jià)改進(jìn)的鄰域粗糙集腫瘤特征選擇算法的優(yōu)劣,本文對(duì)白血病、肺癌、結(jié)腸癌及前列腺癌4種常見(jiàn)的基因表達(dá)譜數(shù)據(jù)集進(jìn)行分析,本文采用的樣本數(shù)據(jù)集描述如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)所用的電腦采用聯(lián)想電腦(i5,3.2 GHz,8 GB內(nèi)存),仿真軟件采用matlab2010,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 實(shí)驗(yàn)結(jié)果比較
通過(guò)實(shí)驗(yàn)可以看出,改進(jìn)的鄰域粗糙集在進(jìn)行腫瘤特征基因上,其分類正確率高于傳統(tǒng)的粒子群算法,一定程度上改進(jìn)了腫瘤特征基因分類的性能,提高了準(zhǔn)確率。
本文對(duì)粒子群算法和鄰域特征集進(jìn)行了分析,并在其基礎(chǔ)上對(duì)兩種算法的優(yōu)點(diǎn)進(jìn)行了總結(jié),設(shè)計(jì)出改進(jìn)的鄰域特征集,在對(duì)腫瘤特征基因選擇上具有較好的準(zhǔn)確性,提高了工作的效率。由于本文的篇幅所限,在算法的具體實(shí)現(xiàn)和實(shí)驗(yàn)數(shù)據(jù)方面沒(méi)有給出全面的資料,不足之處,盡請(qǐng)見(jiàn)諒。
[1]張麗君,李舟軍.微陣列數(shù)據(jù)癌癥分類問(wèn)題中的基因選擇[J].計(jì)算機(jī)研究與發(fā)展,2009(5):794-802.
[2]楊明.一種基于一致性準(zhǔn)則的屬性約簡(jiǎn)算法[J].計(jì)算機(jī)學(xué)報(bào),2010(2):231-239.
[3]王明怡,吳平,王德林.基于相關(guān)性分析的基因選擇算法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2004(10):1289-1292.
[4]徐菲菲,苗奪謙,魏萊.基于模糊粗糙集的腫瘤分類特征基因選取[J].計(jì)算機(jī)科學(xué),2009(3):196-200.
Study on the genetic selection algorithm of tumor characteristics based on improved neighborhood rough sets
Liu Cuicui
(Changsha Medical University, Changsha 410219, China)
Aim ing at the problem of high accuracy and low efficiency of the current tumor feature gene selection algorithm, this paper improves the neighborhood rough set to solve the problem. Firstly, the paper analyzes the relative theory of the field rough set, then analyzes the particle swarm optim ization algorithm, and designs the improved feature selection algorithm of the neighborhood rough set tumor. Finally, it gives out the implementation of the improved algorithm and the simulation experiment, hoping to have some positive significance for the arithmetic researcher and the medical staff.
neighborhood rough set; algorithm; tumor characteristics
劉翠翠(1983— ),女,湖南岳陽(yáng),碩士,講師;研究方向:生物信息學(xué),計(jì)算機(jī)應(yīng)用。