亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于關(guān)鍵節(jié)點(diǎn)子團(tuán)的乳腺癌候選疾病模塊挖掘算法

2016-06-22 06:59:59王一斌程詠梅張紹武

東南大學(xué)學(xué)報(自然科學(xué)版) 2016年2期

關(guān)鍵詞：乳腺癌

王一斌　程詠梅　張紹武

(西北工業(yè)大學(xué)信息融合技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 西安 710072)

基于關(guān)鍵節(jié)點(diǎn)子團(tuán)的乳腺癌候選疾病模塊挖掘算法

王一斌程詠梅張紹武

(西北工業(yè)大學(xué)信息融合技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室, 西安 710072)

摘要:為解決乳腺癌疾病模塊挖掘方法中基因表達(dá)譜樣本數(shù)量少、數(shù)據(jù)不完整、存在噪聲和偏差的問題,提出了一種基于關(guān)鍵節(jié)點(diǎn)子團(tuán)和局部適應(yīng)度的候選疾病模塊挖掘算法——KNGLF算法.該算法首先將候選基因與致病基因間的重疊相似性得分和功能相似性得分進(jìn)行融合,通過比較融合得分與閾值,篩選出關(guān)鍵節(jié)點(diǎn),并構(gòu)建關(guān)鍵節(jié)點(diǎn)子團(tuán);然后,基于局部適應(yīng)度及不同節(jié)點(diǎn)對應(yīng)的不同判定標(biāo)準(zhǔn),擴(kuò)展挖掘候選疾病模塊;最后,根據(jù)富集分析結(jié)果確定候選疾病基因模塊.實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有其他乳腺癌模塊挖掘算法相比,KNGLF中關(guān)鍵節(jié)點(diǎn)選擇算法所得平均排名較小,曲線下面積較大.KNGLF算法挖掘出15個具有較顯著生物意義的乳腺癌候選疾病模塊.此外,KNGLF算法還可擴(kuò)展至其他疾病候選模塊.

關(guān)鍵詞:乳腺癌;疾病模塊挖掘;候選基因打分;關(guān)鍵節(jié)點(diǎn)子團(tuán);局部適應(yīng)度

癌癥是一種細(xì)胞失控增長的復(fù)雜多發(fā)疾病,在全世界范圍內(nèi)已成為一個重要的公共健康問題[1].在各類型癌癥中,乳腺癌是全球女性最常見的惡性腫瘤,世界上絕大多數(shù)國家在過去20年中發(fā)病率都持續(xù)增長[2].以統(tǒng)計(jì)生化試驗(yàn)的方法來尋求疾病分子靶點(diǎn)進(jìn)行治療,雖然取得了一定的成果,但大都以特定的基因目標(biāo)為試驗(yàn)對象,因而所得結(jié)果有限,且需消耗大量時間和人力物力.

通過生物網(wǎng)絡(luò)挖掘疾病功能模塊,不僅能為分子靶點(diǎn)研究提供有效的信息,還能展示疾病基因及其產(chǎn)物以及它們彼此之間的協(xié)同關(guān)系,全面闡明其在復(fù)雜疾病過程中的作用機(jī)理.目前,學(xué)者們已提出了多種基于網(wǎng)絡(luò)的乳腺癌疾病模塊挖掘方法.Yang等[3]提出了一種基于路徑的乳腺癌核心模塊挖掘方法,利用該方法雖然辨識出了一些與該疾病有關(guān)的生物標(biāo)記和功能模塊,但由于主要依靠基因表達(dá)譜數(shù)據(jù),故易受表達(dá)數(shù)據(jù)缺失、冗余和偏差以及樣本數(shù)量有限的影響,且模塊構(gòu)建較為簡單,沒有進(jìn)行更深入的篩選.Jia等[4]利用已有工具從構(gòu)建出的局部共表達(dá)網(wǎng)絡(luò)中挖掘模塊,然后結(jié)合差異表達(dá)基因和顯著樣本的分布特性來篩選出癌癥風(fēng)險模塊,通過與已知癌癥樣本之間的風(fēng)險關(guān)系來判斷模塊的疾病風(fēng)險程度;該方法仍局限于表達(dá)譜所涉及的基因,且使用統(tǒng)一的閾值來確定基因間連接關(guān)系,故而會導(dǎo)致一些弱相關(guān)性基因丟失.

鑒于此,本文提出了一種新的基于關(guān)鍵節(jié)點(diǎn)子團(tuán)和局部適應(yīng)度算法來挖掘乳腺癌候選疾病模塊.該算法不使用基因表達(dá)譜數(shù)據(jù),采用融合打分策略篩選出關(guān)鍵節(jié)點(diǎn)并構(gòu)建關(guān)鍵節(jié)點(diǎn)子團(tuán),借助關(guān)鍵節(jié)點(diǎn)子團(tuán)和局部適應(yīng)度的思想進(jìn)行模塊挖掘,并根據(jù)富集分析來決定所挖掘模塊是否為候選致病基因模塊.

1材料和方法

1.1數(shù)據(jù)集

本文算法采用乳腺癌致病基因、人類蛋白質(zhì)相互作用(PPI)、表型相似性及GO四個數(shù)據(jù)集.致病基因數(shù)據(jù)集由3部分組成,其中2部分來源于BCDB(BreastCancerGeneDataBase)數(shù)據(jù)庫和G2SBC(TheGenes-to-SystemsBreastCancer)數(shù)據(jù)庫,另一部分從OMIM(OnlineMendelianInheritanceinMan)GeneMap數(shù)據(jù)庫篩選得到.人類蛋白質(zhì)相互作用數(shù)據(jù)來源于HPRD(HumanProteinReferenceDatabase)數(shù)據(jù)庫.表型相似性數(shù)據(jù)來自文獻(xiàn)[5].

利用致病基因集和表型相似性數(shù)據(jù)集,構(gòu)造候選基因集.首先,將一個致病基因相對應(yīng)的表型MIM編號映射到表型相似性得分矩陣中,并將該表型與其他所有表型的相似性得分平均值作為閾值.然后,挑選相似性得分大于此閾值的其他表型作為候選表型,并在OMIM中找到候選表型所對應(yīng)的基因.最后,對候選表型所涉及的每一個基因進(jìn)行連鎖間隔長度為10的關(guān)聯(lián)查詢,構(gòu)建候選基因.對每一個乳腺癌致病基因進(jìn)行同樣的處理,構(gòu)成候選基因集.

1.2KNGLF算法

1.2.1關(guān)鍵節(jié)點(diǎn)選擇

對某個候選基因g,它與致病基因集V之間存在3個度量值:平均兩節(jié)點(diǎn)拓?fù)渲丿B度量值Tag(V,g)、多節(jié)點(diǎn)拓?fù)渲丿B度量值Tmg(V,g)、GO注釋間的功能相似性度量值sim(V,g).這3個值可融合成綜合得分函數(shù)F(V,g),即

F(V,g)=αTag(V,g)+βTmg(V,g)+γsim(V,g)

(1)

式中,α,β,γ為加權(quán)系數(shù).

令閾值為tc,若F(V,g)≥tc,則該候選基因g被視為關(guān)鍵節(jié)點(diǎn).下面就Tag(V,g),Tmg(V,g),sim(V,g)和tc的定義及計(jì)算方法進(jìn)行詳細(xì)描述.

1) 平均兩節(jié)點(diǎn)間拓?fù)渲丿B相似性度量

在無權(quán)網(wǎng)絡(luò)中,節(jié)點(diǎn)i,j之間的拓?fù)渲丿B相似性度量定義為[6]

(2)

下面對鄰居節(jié)點(diǎn)的范疇進(jìn)行擴(kuò)展.所用的鄰居節(jié)點(diǎn)中加入了與源節(jié)點(diǎn)之間步長為二步和三步的節(jié)點(diǎn),即與源節(jié)點(diǎn)之間通過1個或2個節(jié)點(diǎn)相連的節(jié)點(diǎn).考慮到PPI網(wǎng)絡(luò)的計(jì)算復(fù)雜度,設(shè)定最大步長為3,即分別計(jì)算一步、二步和三步鄰居節(jié)點(diǎn)條件下候選基因g與乳腺癌致病基因集V之間的平均兩節(jié)點(diǎn)拓?fù)渲丿B度量值at1(V,g),at2(V,g)和at3(V,g),計(jì)算公式如下:

(3)

式中,n為致病基因集V中致病基因數(shù)目;d為V中的一個致病基因;m為節(jié)點(diǎn)間步長;tm(d,g)為不同步長條件下d,g兩節(jié)點(diǎn)間的拓?fù)渲丿B相似性度量.

將3種不同條件下的平均兩節(jié)點(diǎn)拓?fù)渲丿B度量值進(jìn)行歸一化并加以融合,得到候選基因g與致病基因集V之間的平均兩節(jié)點(diǎn)拓?fù)渲丿B度量值

Tag(V,g)為

Tag(V,g)=xat1(V,g)+yat2(V,g)+zat3(V,g)

(4)

式中,x,y,z為融合系數(shù).

2) 多節(jié)點(diǎn)間拓?fù)渲丿B相似性度量

對于某個候選基因g和致病基因集V,一步、二步和三步鄰居節(jié)點(diǎn)條件下的多節(jié)點(diǎn)拓?fù)渲丿B度量值mt1(V,g),mt2(V,g)和mt3(V,g)的計(jì)算公式為

mtm(V,g)=tm(d1,d2,…,dn-1,dn,g)=

(5)

式中,{d1,d2,…,dn}∈V.

將3種不同條件下的多節(jié)點(diǎn)拓?fù)渲丿B度量值歸一化并融合,得到候選基因g與整體致病基因集V之間的多節(jié)點(diǎn)拓?fù)渲丿B度量值Tmg(V,g)為

Tmg(V,g)=xmt1(V,g)+ymt2(V,g)+zmt3(V,g)

(6)

3) 基因之間功能相似性度量

一個基因可用一個或多個GO術(shù)語進(jìn)行描述.對于某個GO術(shù)語a而言,其深度信息為

DP(a)=SP(a,R)

(7)

式中,SP為2個GO術(shù)語間的最短路徑,表示在有向無環(huán)圖中連接2個節(jié)點(diǎn)所經(jīng)過的最少邊數(shù);R表示根目錄,即GO術(shù)語中3個最基本根目錄(分子功能、生物過程和細(xì)胞成分)中的任意一個.

對于任意給定的2個GO術(shù)語a和b,若c為a和b公共的父節(jié)點(diǎn),則a和b間的功能相似度度量值為

(8)

Δ=SP(a,c)-SP(b,c) SP(a,c)≠SP(b,c)1 SP(a,c)=SP(b,c){

式中,f1,f2分別為DP,SP對功能相似度貢獻(xiàn)率的調(diào)節(jié)參數(shù),且f1,f2∈(0,1).

一個基因J可用多個術(shù)語進(jìn)行注釋.單個術(shù)語和單個基因的功能相似性度量值定義為

(9)

式中,Tl∈J={T1,T2,…,Tp};To為任一術(shù)語且To?J.

假設(shè)2個基因JA和JB,令{TA1,TA2,…,TAh}和{TB1,TB2,…,TBq}分別為其所對應(yīng)的術(shù)語集,JZ為JA和JB的交集,JA-JZ為JA和JZ的差集,JB-JZ為JB和JZ的差集,則JA和JB之間的功能相似性度量值為

(10)

式中,Tz為JZ中的術(shù)語;Ts為JA和JZ差集中的術(shù)語;Tt為JB和JZ差集中的術(shù)語;h,q分別為基因JA和JB所包含的注釋術(shù)語數(shù)目.

基因間功能相似性取值范圍為[0,1],GO術(shù)語與自身的功能相似性度量值定義為

(11)

由此便可計(jì)算候選基因g和乳腺癌致病基因集V間的功能相似性度量值為

(12)

1.2.2模塊和節(jié)點(diǎn)局部適應(yīng)度

對于一個有權(quán)或無權(quán)網(wǎng)絡(luò)G(V,E),令其中某一模塊H中節(jié)點(diǎn)v(H?G)的加權(quán)入度為din(H,v),表示模塊H中所有與節(jié)點(diǎn)v直接相連的節(jié)點(diǎn)的邊權(quán)重總和;令節(jié)點(diǎn)v的加權(quán)出度為dout(H,v),表示屬于G但不屬于模塊H的節(jié)點(diǎn)與節(jié)點(diǎn)v直接相連的邊權(quán)重總和,即

式中,u為網(wǎng)絡(luò)中的節(jié)點(diǎn);w(u,v)表示與v直接相連的邊權(quán)重.

模塊H的局部適應(yīng)度fH為

(13)

對于模塊H中的任一節(jié)點(diǎn)v,其節(jié)點(diǎn)局部適應(yīng)度fHv定義為節(jié)點(diǎn)v加入模塊H前后模塊H的局部適應(yīng)度變化之差,即

fHv=fH∪{v}-fH

(14)

式中,fHU{v},fH分別表示模塊H包含、不包含節(jié)點(diǎn)v時的局部適應(yīng)度.

1.2.3算法步驟

KNGLF算法的詳細(xì)步驟如下:

① 針對PPI網(wǎng)絡(luò),構(gòu)建獨(dú)立的關(guān)鍵節(jié)點(diǎn)子團(tuán)集合{GK1,GK2,…,GKi,…,GKm},且各關(guān)鍵節(jié)點(diǎn)子團(tuán)中要求包含2個及2個以上節(jié)點(diǎn).

② 在PPI網(wǎng)絡(luò)中,尋找關(guān)鍵節(jié)點(diǎn)子團(tuán)集合中某一關(guān)鍵節(jié)點(diǎn)子團(tuán)GKi的鄰居節(jié)點(diǎn)集合M.

③ 對M中不同節(jié)點(diǎn)采用不同的判斷標(biāo)準(zhǔn).若M中包含有GKi以外的其他關(guān)鍵節(jié)點(diǎn)集合{K1,K2,…,Ki,…,Kn},則轉(zhuǎn)至步驟④;否則,轉(zhuǎn)至步驟⑤.

④ 計(jì)算關(guān)鍵節(jié)點(diǎn)集合中某個關(guān)鍵節(jié)點(diǎn)Ki對子團(tuán)GKi的節(jié)點(diǎn)局部適應(yīng)度fGki.若fGki>0,則將該節(jié)點(diǎn)添加到關(guān)鍵節(jié)點(diǎn)子團(tuán)GKi中,更新關(guān)鍵節(jié)點(diǎn)子團(tuán)并返回步驟②;否則,舍棄該節(jié)點(diǎn),從關(guān)鍵節(jié)點(diǎn)集合選擇剩余的其他關(guān)鍵節(jié)點(diǎn),繼續(xù)比較節(jié)點(diǎn)局部適應(yīng)度,直至遍歷集合{K1,K2,…,Ki,…,Kn}中所有關(guān)鍵節(jié)點(diǎn).

⑤ 計(jì)算M中所有非關(guān)鍵節(jié)點(diǎn)對關(guān)鍵節(jié)點(diǎn)子團(tuán)GKi的節(jié)點(diǎn)局部適應(yīng)度,令節(jié)點(diǎn)局部適應(yīng)度最大的非關(guān)鍵節(jié)點(diǎn)為P′,如果fGKi>tm(tm為所設(shè)閾值),則將該節(jié)點(diǎn)添加到子團(tuán)GKi中,更新子團(tuán)并返回步驟②;否則,子團(tuán)GKi停止擴(kuò)張,該模塊挖掘結(jié)束,選擇關(guān)鍵節(jié)點(diǎn)子團(tuán)集合中下一個子團(tuán)并返回步驟②進(jìn)行模塊挖掘工作,直至遍歷集合{GK1,GK2,…,GKi,…,GKm}中的每一個子團(tuán).

1.2.4參數(shù)選取

對于已知包含n個致病基因的乳腺癌致病基因集,預(yù)設(shè)了一系列融合系數(shù),并采用留一法進(jìn)行驗(yàn)證,得到不同參數(shù)情形下各致病基因排名,選取各情形下排名前20%的基因,并從中統(tǒng)計(jì)致病基因數(shù)目,選取數(shù)目最多時所對應(yīng)的參數(shù)為最優(yōu)融合參數(shù).對于式(1),選取α=3,β=1,γ=4;對于式(4)和 (6),選取x=5,y=2,z=1;對于式(8)選取f1=0.8,f2=0.1.

利用留一法進(jìn)行驗(yàn)證的過程中,將各種參數(shù)條件下的致病基因進(jìn)行排名,分別計(jì)算不同條件下排名前90%的各致病基因的綜合得分,并將得分平均值作為關(guān)鍵節(jié)點(diǎn)的選取閾值tc.利用PPI網(wǎng)絡(luò)中現(xiàn)有的連接關(guān)系,將乳腺癌已知致病基因構(gòu)建成若干個規(guī)模不同的模塊,分別計(jì)算這些模塊的適應(yīng)度,選取平均模塊適應(yīng)度值作為非關(guān)鍵節(jié)點(diǎn)能否加入模塊的閾值tm.

2結(jié)果和討論

2.1挖掘結(jié)果及部分富集分析

在致病基因集中,從BCGB,G2SBC和OMIM數(shù)據(jù)庫中分別收集了62,44和48個致病基因,剔除重復(fù)數(shù)據(jù)后,獲得138個乳腺癌致病基因.利用表型間相似性構(gòu)建相應(yīng)候選基因集,通過打分篩選,最終得到1 935個關(guān)鍵節(jié)點(diǎn),并構(gòu)建出各關(guān)鍵節(jié)點(diǎn)子團(tuán).采用KNGLF算法挖掘候選疾病模塊,應(yīng)用在線工具Go-TermFinder進(jìn)行富集分析和確認(rèn),顯著性閾值P默認(rèn)為0.01,最終獲得15個具有一定生物學(xué)意義乳腺癌候選疾病模塊.

以排名第1的關(guān)鍵節(jié)點(diǎn)子團(tuán)所挖掘出的TZMMZ候選疾病模塊為例,利用生物信息數(shù)據(jù)平臺DAVID[7],分別在生物過程、細(xì)胞成分和分子功能以及KEGG通路中進(jìn)行富集條目(P<0.01)分析.從分析結(jié)果中發(fā)現(xiàn),該模塊的富集條目主要集中在調(diào)控過程,如血管再生、某些復(fù)合物的合成過程、新陳代謝過程和細(xì)胞活動方面以及部分轉(zhuǎn)錄化合物的活性和綁定功能方面.其中,GO:0045766和GO:0001525涉及到血管再生,尤其是對乳腺組織的血管再生和增殖;GO:0061180涉及乳腺上皮細(xì)胞發(fā)展和乳腺增生過程,文獻(xiàn)[8]也提出該注釋相關(guān)的血管內(nèi)皮增長因子與乳腺極性組織的缺失有關(guān).在KEGG通路富集分析中,hsa04110直接磷酸化和激活了腫瘤抑制蛋白p53,而p53與其轉(zhuǎn)錄目標(biāo)在乳腺癌中其重要作用;ko03440同源重組為DNA雙鏈損傷精確修復(fù)的關(guān)鍵,與乳腺癌相關(guān)的抑癌基因通過同源重組共同起作用.由此可以推測,該模塊可能對乳腺癌抑制細(xì)胞起負(fù)作用,同時激活癌細(xì)胞并使其失控增長.

2.2算法比較

對于乳腺癌致病基因集,分別采用KNGLF中關(guān)鍵節(jié)點(diǎn)選擇算法、重啟隨機(jī)游走 (randomwalkwithrestart,RWR)算法[9]、Wu等[10]提出的CIPHER算法以及關(guān)鍵節(jié)點(diǎn)選擇算法中單一的相似性度量算法(平均兩節(jié)點(diǎn)拓相撲重疊相似度量算法、多節(jié)點(diǎn)拓?fù)渲丿B相似度算法和基因間功能相似度量算法)對致病基因平均排名比[11](meanrankratio,MRR)進(jìn)行計(jì)算和比較,結(jié)果見表1.由表可知,KNGLF中關(guān)鍵節(jié)點(diǎn)選擇算法的平均排名比最小,優(yōu)于關(guān)鍵節(jié)點(diǎn)選擇算法中單一的相似性度量算法、RWR算法和CIPHER算法.圖1為前3種算法的ROC曲線.由圖可知,KNGLF中關(guān)鍵節(jié)點(diǎn)選擇算法、CIPHER算法和RWR算法的曲線下面積(AUC)分別為93.37%,88.27%和84.24%.

表1　乳腺癌致病基因在不同打分算法下的平均排名比

圖13種算法的ROC曲線

表2　基于3種算法的乳腺癌模塊挖掘結(jié)果

文獻(xiàn)[4]利用乳腺癌基因表達(dá)譜數(shù)據(jù)GSE20437和所挖掘出的乳腺癌風(fēng)險模塊,依據(jù)所提的樣本疾病風(fēng)險評估算法對每個樣本進(jìn)行評估打分,并按得分高低進(jìn)行排序,從而得到不同情形下的真陽性率(truepositiverate,TPR)、假陽性率(falsepositiverate,TPR)及其相應(yīng)的ROC曲線.使用相同的乳腺癌表達(dá)譜數(shù)據(jù)和評估方法,結(jié)合KNGLF算法所得的乳腺癌候選疾病模塊繪制出相應(yīng)的ROC曲線(見圖2).由圖可知,文獻(xiàn)[4]算法和KNGLF算法的乳腺癌樣本風(fēng)險評估ROC曲線下面積分別為89.29%和78.62%.相比于文獻(xiàn)[4]算法所得的乳腺癌樣本風(fēng)險評估ROC曲線面積,KNGLF算法高出10.67%.因此,KNGLF算法明顯提高了乳腺癌候選疾病模塊挖掘的準(zhǔn)確性和可靠性.

圖2　乳腺癌基因表達(dá)譜評估ROC曲線

3結(jié)語

針對利用基因表達(dá)譜數(shù)據(jù)進(jìn)行乳腺癌疾病模塊挖掘時易受樣本數(shù)量少、數(shù)據(jù)不完整影響、存在噪聲和偏差的問題,提出了一種基于關(guān)鍵節(jié)點(diǎn)子團(tuán)和局部適應(yīng)度的模塊挖掘KNGLF算法.該算法未采用基因表達(dá)譜數(shù)據(jù),而是通過整合疾病表型信息、GO深度信息、PPI網(wǎng)絡(luò)等對候選基因進(jìn)行打分,篩選關(guān)鍵節(jié)點(diǎn)來構(gòu)建關(guān)鍵節(jié)點(diǎn)子團(tuán),使用局部適應(yīng)度和富集顯著性分析思想進(jìn)行模塊挖掘和確認(rèn).實(shí)驗(yàn)結(jié)果表明,利用KNGLF算法所挖掘出的模塊不僅有較好的富集顯著性,且與乳腺癌疾病密切相關(guān),在該疾病的發(fā)生和發(fā)展過程中起到了一定的作用和影響.相比于其他打分策略,KNGLF算法打分策略得到的致病基因平均排名較低,AUC值大于RWR算法和CIPHER算法;與其他模塊挖掘算法相比,KNGLF算法挖掘的模塊不僅包含較多核心基因數(shù)目,而且在模塊數(shù)目、平均模塊P值、模塊Top5平均P值、模塊Top10平均P值、平均模塊密度等方面具有明顯優(yōu)勢.由此可知,KNGLF算法不依賴于表達(dá)譜數(shù)據(jù),可準(zhǔn)確挖掘出具有一定生物意義的乳腺癌候選模塊,對疾病病理了解、前期診斷、后期預(yù)防和治療提供了較大幫助,還可進(jìn)一步擴(kuò)展用于挖掘其他疾病候選模塊.

參考文獻(xiàn) (References)

[1]KimSY,HahnWC.Cancergenomics:Integratingformandfunction[J]. Carcinogenesis, 2007, 28(7): 1387-1392.DOI:10.1093/carcin/bgm086.

[2]EarlyBreastCancerTrialists’CollaborativeGroup.Adjuvantbisphosphonatetreatmentinearlybreastcancer:Meta-analysesofindividualpatientdatafromrandomisedtrials[J]. The Lancet, 2015, 386(10001): 1353-1361.DOI:10.1016/S0140-6736(15)60908-4.

[3]YangR,DaigleBJJr,PetzoldLR,etal.Coremodulebiomarkeridentificationwithnetworkexplorationforbreastcancermetastasis[J]. BMC Bioinformatics, 2012, 13(1): 12-1-12-11.DOI:10.1186/1471-2105-13-12.

[4]JiaX,MiaoZ,LiW,etal.Cancer-riskmoduleidentificationandmodule-baseddiseaseriskevaluation:Acasestudyonlungcancer[J]. PloS ONE, 2014, 9(3):e92395.DOI:10.1371/journal.pone.0092395.

[5]vanDrielMA,BruggemanJ,VriendG,etal.Atext-mininganalysisofthehumanphenome[J]. European Journal of Human Genetics, 2006, 14(5): 535-542.DOI:10.1038/sj.ejhg.5201585.

[6]LiA,HorvathS.Networkneighborhoodanalysiswiththemulti-nodetopologicaloverlapmeasure[J]. Bioinformatics, 2007, 23(2): 222-231.DOI:10.1093/bioinformatics/btl581.

[7]AlvordG,RoayaeiJ,StephensR,etal.TheDAVIDgenefunctionalclassificationtool:Anovelbiologicalmodule-centricalgorithmtofunctionallyanalyzelargegenelists[J]. Genome Biol, 2007, 8(9):R183.DOI:10.1186/gb-2007-8-9-r183.

[8]ChenA,CuevasI,KennyPA,etal.Endothelialcellmigrationandvascularendothelialgrowthfactorexpressionaretheresultoflossofbreasttissuepolarity[J]. Cancer Rresearch, 2009, 69(16): 6721-6729.DOI:10.1158/0008-5472.CAN-08-4069.

[9]K?hlerS,BauerS,HornD,etal.Walkingtheinteractomeforprioritizationofcandidatediseasegenes[J]. The American Journal of Human Genetics, 2008, 82(4): 949-958.DOI:10.1016/j.ajhg.2008.02.013.

[10]WuX,JiangR,ZhangMQ,etal.Network-basedglobalinferenceofhumandiseasegenes[J]. Molecular Systems Biology, 2008, 4(1): 189-1-189-11.DOI:10.1038/msb.2008.27.

[11]JiangR,GanM,HeP.Constructingagenesemanticsimilaritynetworkfortheinferenceofdiseasegenes[J]. BMC System Biology, 2011, 5(S2):S2-1-S2-11.DOI:10.1186/1752-0509-5-S2-S2.

Miningalgorithmforbreastcancercandidatediseasemodulebasedonkeynodegroups

WangYibinChengYongmeiZhangShaowu

(KeyLaboratoryofInformationFusionTechnologyofMinistryofEducation,NorthwesternPolytechnicalUniversity,Xi’an710072,China)

Abstract:In order to solve the problems of small quantity, incomplete data, noise, and bias of the gene expression profile in the method for breast cancer disease module mining, a mining algorithm for candidate disease module based on the key node groups and the local node fitness constraints, the key node groups and local fitness (KNGLF) algorithm, is proposed. First, the topological overlap similarity score and the functional similarity score between the candidate genes and the pathogenic genes are fused into a fusion score. Through comparing the fusion score with the threshold value, the key nodes are selected and the key node groups are constructed. Then, the breast cancer candidate disease modules are mined based on the local fitness constraints and different decision criteria for different nodes. Finally, according to the enrichment analysis results, the candidate disease gene modules are identified. The experimental results show that compared with other existing mining algorithms for breast cancer module, the key node selection algorithm in the KNGLF algorithm has the smaller MRR (mean rank ratio) but the greater AUC (area under curve). Fifteen breast cancer candidate gene modules with significant biological significance are identified by the KNGLF algorithm. Besides, the KNGLF algorithm can be extended to identify other diseases related candidate modules.

Key words:breast cancer; disease module mining; candidate gene score; key node groups; local fitness

DOI:10.3969/j.issn.1001-0505.2016.02.007

收稿日期:2015-07-15.

作者簡介:王一斌(1982—),男,博士生；張紹武(聯(lián)系人),男,博士,教授,博士生導(dǎo)師,zhangsw@nwpu.edu.cn.

基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61170134,61473232,91430111)、國家自然科學(xué)基金青年基金資助項(xiàng)目(61502396)、互聯(lián)網(wǎng)金融創(chuàng)新及監(jiān)管四川省協(xié)同創(chuàng)新中心資助項(xiàng)目.

中圖分類號:R318.04;Q78

文獻(xiàn)標(biāo)志碼:A

文章編號:1001-0505(2016)02-0265-06

引用本文: 王一斌,程詠梅,張紹武.基于關(guān)鍵節(jié)點(diǎn)子團(tuán)的乳腺癌候選疾病模塊挖掘算法[J].東南大學(xué)學(xué)報(自然科學(xué)版),2016,46(2):265-270.DOI:10.3969/j.issn.1001-0505.2016.02.007.