亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖譜方法實(shí)現(xiàn)DLBCL信息基因的提取與分類(lèi)①

        2019-02-15 03:53:04左常玲夏百花
        關(guān)鍵詞:分類(lèi)實(shí)驗(yàn)信息

        左常玲, 夏百花

        (安徽三聯(lián)學(xué)院電子電氣工程學(xué)院,安徽 合肥 230601)

        0 引 言

        在基因表達(dá)譜數(shù)據(jù)中,與腫瘤相關(guān)基因只占極少數(shù),大量基因在不同腫瘤、腫瘤亞型以及正常狀態(tài)下表達(dá)幾乎沒(méi)有變化。或受外界環(huán)境污染、技術(shù)限制、人為讀數(shù)錯(cuò)誤等影響而出現(xiàn)異常值,通常把這些基因記為噪聲。如果分析整個(gè)基因表達(dá)譜,則會(huì)使信息基因(能識(shí)別腫瘤類(lèi)型的基因)被噪聲所淹沒(méi),使之無(wú)法有效從微陣列數(shù)據(jù)中獲取分類(lèi)信息。

        為更有效獲取信息基因,降低后續(xù)處理復(fù)雜度以及除去噪聲的影響,研究分為兩步:異常值基因的初步處理和基于圖譜性質(zhì)的信息基因的選取。

        1 異常值基因的初步處理

        彌漫大B細(xì)胞淋巴瘤(DLBCL)的基因表達(dá)譜數(shù)據(jù)可描述為一個(gè)MatrixG=(gi,j)M×N,M、N分別為樣本規(guī)模和基因變量規(guī)模,首先進(jìn)行歸一化處理,如式(1)所示:

        (1)

        (2)

        (3)

        若(3)式成立,則消去該基因,從上式可以看出T是衡量一類(lèi)中基因表達(dá)值偏離均值水平程度,T越大,表明該基因的表達(dá)情況越偏離均值水平,則視為異常值。實(shí)驗(yàn)中T取值1.1。

        2 基于圖譜性質(zhì)的信息基因選取

        (1)構(gòu)建關(guān)系矩陣

        對(duì)任意基因gj=[g1,jg2,j…gM,j]T,M表示樣本規(guī)模,將基因gj在樣本中的表達(dá)值看作為一個(gè)點(diǎn),其點(diǎn)間邊的權(quán)值wi,k為高斯權(quán)函數(shù),如(4)式所示:

        (4)

        接著構(gòu)建Laplace 矩陣:

        (5)

        則得到一個(gè)M×M關(guān)系矩陣R,該矩陣展現(xiàn)了基因在各樣本中表達(dá)值之間的親近關(guān)系。

        (2)對(duì)關(guān)系矩陣進(jìn)行奇異值分解(SVD)

        (3)構(gòu)建理想分類(lèi)模板

        分類(lèi)問(wèn)題(只關(guān)注二分類(lèi)問(wèn)題,多分類(lèi)可以類(lèi)推),其實(shí)可以看成是與分類(lèi)模板之間的匹配問(wèn)題,提出的分類(lèi)模板描述為:假設(shè)有若干樣本分屬A與B兩類(lèi),每個(gè)樣本有N個(gè)特征。A類(lèi)有M1個(gè)樣本;B類(lèi)有M2個(gè)樣本。針對(duì)某一特征可以設(shè)計(jì)出這樣一個(gè)分類(lèi)模板:

        圖1 理想分類(lèi)模板示意圖

        可以根據(jù)該特征來(lái)判定一未知樣本屬于A類(lèi),或者B類(lèi)。

        (6)

        (4)計(jì)算模板與譜特征夾角系數(shù)

        cos(SDLBCL,SDLBCL_Template)=

        (7)

        cos(SFL,SFL_Template)=

        (8)

        綜合DLBCL類(lèi)與FL類(lèi)譜特征與模板夾角系數(shù):

        cos(S,S_Template)=κ×

        cos(SDLBCL,SDLBCL_Template)+(1-κ)×

        cos(SFL,SFL_Template)

        (9)

        (5)建立評(píng)價(jià)函數(shù),選取信息基因子集

        好的信息基因,在不同類(lèi)別中,d越大越好;同類(lèi)中,cos(S,S_Template)越大越好,故構(gòu)建以下評(píng)價(jià)函數(shù),實(shí)現(xiàn)對(duì)信息基因的選?。?/p>

        F_cost=η·d·cos(S,S_Template)

        (10)

        其中,η是放大因子,實(shí)驗(yàn)中η=100,便于評(píng)價(jià)函數(shù)的比較。對(duì)每個(gè)基因都進(jìn)行上述(1)~(5)步的計(jì)算,選取F_cost較大的作為信息基因子集,實(shí)現(xiàn)對(duì)基因表達(dá)譜數(shù)據(jù)的降維與噪聲的降噪處理。

        3 實(shí)驗(yàn)流程

        利用當(dāng)前流行的分類(lèi)器SVM進(jìn)行分類(lèi)實(shí)驗(yàn),其核函數(shù)采用高斯核函數(shù),Sigma為高斯噪聲的標(biāo)準(zhǔn)差,實(shí)驗(yàn)步驟如下:

        Step 1:對(duì)DLBCL數(shù)據(jù)進(jìn)行歸一化處理;

        Step 2:對(duì)DLBCL數(shù)據(jù)的異常值初步處理;

        Step 3:按照基于圖譜性質(zhì)的信息基因選取的(1)~(5)步驟實(shí)現(xiàn)信息基因的提取;

        Step 4:運(yùn)用SVM實(shí)現(xiàn)DLBCL數(shù)據(jù)的分類(lèi),并作出分析。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 模擬實(shí)驗(yàn)

        圖譜方法作為一種新手段應(yīng)用于DLBCL的分類(lèi),實(shí)驗(yàn)了模擬數(shù)據(jù)以驗(yàn)證其可行性。模擬數(shù)據(jù)是由四組點(diǎn)集構(gòu)成,每組分兩類(lèi)即A類(lèi)與B類(lèi),數(shù)據(jù)是隨機(jī)產(chǎn)生,具體如表1所示:

        表1 四組模擬數(shù)據(jù)

        AB0、AB2、AB10和AB40四組數(shù)據(jù)的平面顯示,其A類(lèi)與B類(lèi)的可分性越來(lái)明顯,如圖2(a)所示;圖2(b)給出了對(duì)應(yīng)點(diǎn)集的特征值分布。

        圖2(a) AB0、AB2、AB10和AB40點(diǎn)集分布圖。x、y表示點(diǎn)的坐標(biāo);圖2 (b) 為(a)對(duì)應(yīng)點(diǎn)集構(gòu)造Laplace圖后經(jīng)SVD分解得到的特征值分布,橫坐標(biāo)是特征值序號(hào),

        圖3 選取不同信息基因數(shù)時(shí),SVM(Sigma=45)

        對(duì)DLBCL數(shù)據(jù)的分類(lèi)結(jié)果

        圖4 選取170個(gè)信息基因,SVM高斯核中Sigma的不同

        取值對(duì)分類(lèi)正確率的影響

        從模擬數(shù)據(jù)可以看出,類(lèi)內(nèi)點(diǎn)越近,類(lèi)間點(diǎn)越遠(yuǎn),則特征值分布展現(xiàn)出的兩條帶狀——A類(lèi)與B類(lèi)越明顯,從而驗(yàn)證了圖的譜特征分布可以很好的識(shí)別不同樣本類(lèi)型。

        4.2 DLBCL實(shí)驗(yàn)結(jié)果

        如圖3所示,運(yùn)用提出的方法選取信息基因,在信息基因數(shù)L=60時(shí),準(zhǔn)確率已達(dá)到近90%,隨著信息基因數(shù)的增加,分類(lèi)準(zhǔn)確率越來(lái)越高,當(dāng)L=170時(shí),77個(gè)樣本僅有1個(gè)被錯(cuò)分,隨后準(zhǔn)確率趨于穩(wěn)定。而圖4展示了變量Sigma變化對(duì)分類(lèi)結(jié)果影響不大,分類(lèi)準(zhǔn)確率都大于95%。

        從圖3和圖4中可知,信息基因選取170時(shí),分類(lèi)正確率達(dá)到最好的效果,表明了這170個(gè)基因包含了最多分類(lèi)信息,故對(duì)這些基因分析其變化幅度如圖5所示:

        圖5 170個(gè)信息基因的平均變化幅度

        (每個(gè)基因都?xì)w一化到-1到1之間),即MCAGE

        圖6 不同變化幅度范圍內(nèi),信息基因數(shù)統(tǒng)計(jì)

        根據(jù)圖5對(duì)信息基因的平均變化幅度進(jìn)行統(tǒng)計(jì),MCAGE值可根據(jù)|μj,DLBCL-μj,FL|/2計(jì)算。如圖6所示,在DLBCL和FL類(lèi)中,信息基因的MCAGE主要在0到0.15之間,占信息基因總數(shù)的81.77%,大于0.15的只有極少數(shù),并且MCAGE最大不超過(guò)0.35。

        5 結(jié) 論

        圖譜理論應(yīng)用于生物信息學(xué)是一個(gè)新的研究方向?;趫D譜方法分析基因表達(dá)譜數(shù)據(jù),對(duì)基因構(gòu)圖,獲取圖的譜特征分布,并將其作為刻畫(huà)該基因與腫瘤類(lèi)型相關(guān)性的新途徑。模擬實(shí)驗(yàn)和真實(shí)實(shí)驗(yàn)結(jié)果可以驗(yàn)證此研究方法是可行的和有效的。DLBCL數(shù)據(jù)實(shí)驗(yàn)中,無(wú)論信息基因選取的多少,還是分類(lèi)器中參數(shù)的調(diào)整,分類(lèi)準(zhǔn)確率都在85%以上,其最優(yōu)分類(lèi)準(zhǔn)確率是98.7%,結(jié)果是令人滿(mǎn)意的。

        對(duì)選取的信息基因的分析中,MCAGE反映了每個(gè)信息基因在DLBCL類(lèi)和FL類(lèi)中表達(dá)值的平均變化幅度。由圖6顯示,與DLBCL類(lèi)別判定有關(guān)的基因有80%變化幅度范圍在0.15以下,變化幅度越大,信息基因數(shù)越少。經(jīng)上分析,在一定程度上圖5和6給出了與DLBCL類(lèi)型識(shí)別有關(guān)的信息基因的表達(dá)規(guī)律,以輔助腫瘤專(zhuān)家識(shí)別和治療DLBCL。

        猜你喜歡
        分類(lèi)實(shí)驗(yàn)信息
        記一次有趣的實(shí)驗(yàn)
        分類(lèi)算一算
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        展會(huì)信息
        久久精品一品道久久精品9| 欧美激情一区二区三区| 国产精品免费看久久久8| 99成人精品| 人妻少妇无乱码中文字幕| 成人日韩av不卡在线观看| 东京热东京道日韩av| 国产一区二区三区免费视| 奇米影视色777四色在线首页 | 久久与欧美视频| 视频一区精品中文字幕| 日本成本人片视频免费| 国产极品美女高潮抽搐免费网站| 久久亚洲国产精品123区| 国产中文字幕亚洲国产| 国产精品videossex国产高清| 久久中文精品无码中文字幕| 中文字幕一区二区三区日韩网| 中文字幕亚洲入口久久 | 日日噜噜噜夜夜爽爽狠狠视频| 中文字幕久久久人妻无码| 少妇人妻一区二区三飞| 东北少妇不戴套对白第一次| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 人妻少妇人人丰满视频网站| 国产中文字幕亚洲精品| 五月丁香综合激情六月久久| 久久精品波多野结衣中文字幕| 日韩在线精品视频免费| 色爱情人网站| 久久久久亚洲av无码专区网站| av草草久久久久久久久久久| 中文字幕一区二区av| 国产精品久久国产精品99 gif| 亚洲欧美日韩一区二区三区在线| 成年女人窝窝视频| 亚洲第一黄色免费网站| 国产成人精品无码一区二区老年人| 国产爆乳乱码女大生Av| 国产大屁股熟女流白浆一区二区| 在线亚洲高清揄拍自拍一品区 |