宋子健 岳欣蕾 李建偉
摘要:針對(duì)目前關(guān)鍵基因預(yù)測(cè)不準(zhǔn)確和預(yù)測(cè)算法缺乏等問(wèn)題,本文提出一種基于控制理論的關(guān)鍵基因預(yù)測(cè)算法。首先,從TCGA數(shù)據(jù)庫(kù)收集結(jié)直腸癌數(shù)據(jù),使用計(jì)算機(jī)工具預(yù)處理數(shù)據(jù),并利用結(jié)直腸癌數(shù)據(jù)和LncMAP數(shù)據(jù)庫(kù)數(shù)據(jù)構(gòu)建lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)。然后,設(shè)計(jì)一種新的篩選方法,基于控制理論中的最小驅(qū)動(dòng)節(jié)點(diǎn)集思想和可控性動(dòng)態(tài)分類理論,篩選得到關(guān)鍵節(jié)點(diǎn)基因集;將突變得分和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅秩诤戏治?,得到潛在關(guān)鍵基因集。最后,對(duì)關(guān)鍵節(jié)點(diǎn)基因集和潛在關(guān)鍵基因集取交集,得到關(guān)鍵基因集。結(jié)合相關(guān)文獻(xiàn)和CGC數(shù)據(jù)庫(kù)對(duì)關(guān)鍵基因集進(jìn)行驗(yàn)證,證實(shí)了該預(yù)測(cè)算法的有效性,為預(yù)測(cè)結(jié)直腸癌關(guān)鍵基因提供了一種新的思路和方法。
關(guān)鍵詞:控制理論;關(guān)鍵基因;結(jié)直腸癌;最小驅(qū)動(dòng)節(jié)點(diǎn)集
中圖分類號(hào):TP301? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)30-0028-05
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Key Gene Prediction Algorithm Based on Control Theory
SONG Zi-jian, YUE Xin-lei, LI Jian-wei
(School of Artificial Intelligence and Data Science, Hebei University of Technology, Tianjin 300130, China)
Abstract:Aiming at the problems of inaccurate prediction of key genes and lack of prediction algorithm, this paper proposes a key gene prediction algorithm based on control theory. Firstly, the data of colorectal cancer were collected from TCGA database, and preprocessed by computer tools. The lncRNA-TF-gene regulatory network was constructed using colorectal cancer data and LncMAP database data. Then, a new screening method is designed, based on the idea of minimum driven node set in control theory and controllable dynamic classification theory, the key node gene set is screened; the mutation score and network topology analysis score are fused to get the potential key gene set. Finally, the intersection of key node gene set and potential key gene set is obtained. Combined with the relevant literature and CGC database to verify the key gene set, the effectiveness of the prediction algorithm is confirmed, which provides a new idea and method for predicting the key genes of colorectal cancer.
Key words:control theory; key genes; colorectal cancer; minimum driven node set
1 引言
癌癥是嚴(yán)重危害中國(guó)人民健康的公共衛(wèi)生問(wèn)題,且近幾年來(lái)罹患癌癥人數(shù)處于不斷增長(zhǎng)狀態(tài)。而作為第三大惡性腫瘤的結(jié)直腸癌由于具有惡性程度高、病程進(jìn)展迅速、易復(fù)發(fā)和轉(zhuǎn)移等特點(diǎn),對(duì)人類健康和生命安全構(gòu)成重大威脅。結(jié)直腸癌的形成始于正常上皮粘膜向過(guò)度增生上皮的轉(zhuǎn)化,這些過(guò)度增殖的腸上皮細(xì)胞由于失去其組織和結(jié)構(gòu),所以具有形成腺瘤的能力。少部分的結(jié)直腸癌病例是遺傳性的,而絕大部分是散發(fā)性的[1]。研究表明[2],結(jié)直腸癌的發(fā)生發(fā)展與多基因及多因素有關(guān)。而目前對(duì)于結(jié)直腸癌中的分子機(jī)制和關(guān)鍵基因尚未完全了解,導(dǎo)致治療結(jié)直腸癌的研究受到了阻礙。因此,如何更好地研究結(jié)直腸癌中的分子機(jī)制和關(guān)鍵基因成了一個(gè)亟待解決的問(wèn)題,開發(fā)新的關(guān)鍵基因預(yù)測(cè)算法對(duì)于癌癥的診斷、治療和預(yù)后都具有重要意義。
關(guān)鍵基因在人類生理過(guò)程和疾病發(fā)生過(guò)程中具有不可忽視的調(diào)控作用,了解關(guān)鍵基因在疾病中的功能和作用,對(duì)疾病的調(diào)控方式、復(fù)雜通路、發(fā)生發(fā)展、治療和預(yù)后等方面具有重大意義[3]。由于現(xiàn)有技術(shù)方面的限制,僅通過(guò)生物實(shí)驗(yàn)測(cè)定基因功能所耗費(fèi)的時(shí)間成本和經(jīng)濟(jì)成本難以估量。針對(duì)這一難題,利用當(dāng)前現(xiàn)有的數(shù)據(jù)發(fā)現(xiàn)結(jié)直腸癌關(guān)鍵基因的預(yù)測(cè)算法亟待開發(fā)。目前,已有許多數(shù)據(jù)庫(kù)收集已被實(shí)驗(yàn)證實(shí)的癌癥的關(guān)鍵基因,經(jīng)整理后供廣大的研究人員使用,也有依據(jù)單一的算法預(yù)測(cè)癌癥的關(guān)鍵基因。已有文獻(xiàn)表明[4],可以通過(guò)基因的突變信息來(lái)篩選癌癥的關(guān)鍵基因,也有文獻(xiàn)研究表明[5],可以基于生物網(wǎng)絡(luò)篩選癌癥的關(guān)鍵基因,這些理論和研究成果為進(jìn)一步開發(fā)關(guān)鍵基因預(yù)測(cè)算法提供了幫助。
綜上所述,本章提出了一種新的關(guān)鍵基因預(yù)測(cè)方法,以結(jié)直腸癌數(shù)據(jù)為研究對(duì)象進(jìn)行分析。在該方法中,引入了控制理論的有關(guān)思想和方法,首次將突變得分和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅窒嘟Y(jié)合。實(shí)驗(yàn)結(jié)果表明,本研究提出的預(yù)測(cè)算法能有效地預(yù)測(cè)結(jié)直腸癌關(guān)鍵基因,該工作將在預(yù)測(cè)關(guān)鍵基因方面發(fā)揮重要作用。
2 lncRNA-TF-gene網(wǎng)絡(luò)構(gòu)建
基于控制理論的關(guān)鍵基因預(yù)測(cè)算法的總體框架如圖1所示。
如圖1所示,預(yù)測(cè)算法的主要流程如下:首先,收集TCGA數(shù)據(jù)庫(kù)中結(jié)直腸癌的數(shù)據(jù)。針對(duì)以往預(yù)測(cè)算法中忽略lncRNA的問(wèn)題,構(gòu)建lncRNA-TF-gene調(diào)控網(wǎng)絡(luò),可以更為全面地研究lncRNA與基因在結(jié)直腸癌間的作用機(jī)制和功能。然后,引入控制理論中的可控性動(dòng)態(tài)分類理論和最小驅(qū)動(dòng)節(jié)點(diǎn)集思想,通過(guò)分析調(diào)控網(wǎng)絡(luò)建立關(guān)鍵節(jié)點(diǎn)基因集,并提出基于融合信息的關(guān)鍵基因篩選方法,將突變得分和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅窒嘟Y(jié)合,篩選得到關(guān)鍵基因集。最后,結(jié)合文獻(xiàn)和數(shù)據(jù)庫(kù)數(shù)據(jù)驗(yàn)證關(guān)鍵基因集與結(jié)直腸癌之間的關(guān)系,以檢驗(yàn)預(yù)測(cè)算法的有效性。
2.1 TCGA結(jié)直腸癌數(shù)據(jù)收集
TCGA計(jì)劃[6]由國(guó)家癌癥研究所與國(guó)家人類基因組研究所共同展開,對(duì)多種癌癥的差異基因圖譜進(jìn)行全面繪制,并構(gòu)建了TCGA數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)進(jìn)行整理,供廣大研究人員使用研究。結(jié)直腸癌的數(shù)據(jù)來(lái)源TCGA數(shù)據(jù)庫(kù),數(shù)據(jù)集預(yù)處理過(guò)程主要包括如下步驟:1)收集TCGA數(shù)據(jù)庫(kù)中結(jié)直腸癌數(shù)據(jù),利用TCGA官方提供gdc-client軟件進(jìn)行數(shù)據(jù)下載,得到COAD數(shù)據(jù)和READ數(shù)據(jù)。其中,COAD指結(jié)腸癌,READ指直腸癌,綜合兩個(gè)數(shù)據(jù)集進(jìn)行整合得到完整的結(jié)直腸癌數(shù)據(jù);2)編寫R語(yǔ)言代碼對(duì)數(shù)據(jù)采用RMA算法進(jìn)行背景校正和歸一化處理;3)利用Ensembl數(shù)據(jù)庫(kù)[7]下載gtf壓縮文件,對(duì)表達(dá)譜矩陣Ensembl ID進(jìn)行基因名的轉(zhuǎn)化。
2.2 lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)構(gòu)建
轉(zhuǎn)錄因子(transcription factor,TF)是一群能與基因上游特定序列專一性結(jié)合,從而保證目的基因以特定的強(qiáng)度在特定的時(shí)間與空間表達(dá)的蛋白質(zhì)分子。轉(zhuǎn)錄調(diào)控對(duì)疾病的影響是研究的熱點(diǎn)之一,科學(xué)家發(fā)現(xiàn)lncRNA與轉(zhuǎn)錄因子存在轉(zhuǎn)錄調(diào)控[8]。通過(guò)lncRNA-TF-gene的調(diào)控網(wǎng)絡(luò),可以分析結(jié)直腸癌中基因間的調(diào)控關(guān)系。
而目前常用的lncRNA調(diào)控關(guān)系數(shù)據(jù)庫(kù)是LncMAP數(shù)據(jù)庫(kù)[9],它主要探索人類lncRNA的調(diào)控功能,并收集公開的各種測(cè)序數(shù)據(jù)以及l(fā)ncRNA的相互作用關(guān)系數(shù)據(jù),并利用線性回歸方法預(yù)測(cè)轉(zhuǎn)錄因子與基因之間的關(guān)聯(lián)性。
線性回歸[10]是回歸分析中第一種經(jīng)過(guò)嚴(yán)格研究并在實(shí)際應(yīng)用中使用的類型,廣泛應(yīng)用于基因調(diào)控網(wǎng)絡(luò)的分析中。通過(guò)構(gòu)建損失函數(shù),來(lái)求解損失函數(shù)最小時(shí)的參數(shù)w和b??梢员磉_(dá)成如下公式:
[y=wx+b]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
利用LncMAP數(shù)據(jù)庫(kù)獲取lncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù),依據(jù)閾值為P<0.05,score>0.95進(jìn)行篩選,得到lncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù)集A,并結(jié)合python語(yǔ)言遍歷文獻(xiàn)后得到lncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù)集B。編寫R語(yǔ)言代碼整理數(shù)據(jù)集A和數(shù)據(jù)集B后得到交集調(diào)控關(guān)系數(shù)據(jù)集。利用Cytoscape3.7.2軟件構(gòu)建lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)并進(jìn)行初步分析,以供后續(xù)研究。
3 關(guān)鍵節(jié)點(diǎn)集構(gòu)建
3.1 控制理論介紹
控制理論[11]是以數(shù)學(xué)方法和計(jì)算機(jī)技術(shù)為主要工具,研究各種控制策略及控制系統(tǒng)的理論、方法和技術(shù)。它通過(guò)對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及網(wǎng)絡(luò)環(huán)境下先進(jìn)控制理論與方法的研究,充分利用網(wǎng)絡(luò)資源,實(shí)現(xiàn)從決策到控制的全過(guò)程優(yōu)化?;诳刂评碚摰膹?fù)雜網(wǎng)絡(luò)研究為生物信息學(xué)提供了新的思路,復(fù)雜網(wǎng)絡(luò)是從真實(shí)系統(tǒng)中抽象得到的一類具有復(fù)雜拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)模型?,F(xiàn)實(shí)世界的真實(shí)系統(tǒng)大多是非線性系統(tǒng),但非線性關(guān)系很難被刻畫,因此借鑒線性系統(tǒng)的動(dòng)力學(xué),可以研究非線性的復(fù)雜網(wǎng)絡(luò)[12]。根據(jù)控制理論,包含 N 個(gè)節(jié)點(diǎn)的線性系統(tǒng)動(dòng)力學(xué)方程如下:
[dxtdt=Axt+But? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?](2)
其中,向量[xt]表示網(wǎng)絡(luò)內(nèi)的N個(gè)節(jié)點(diǎn)在t時(shí)刻的狀態(tài)。[ut]表示外部控制的M個(gè)節(jié)點(diǎn)在[t]時(shí)刻的狀態(tài)。若存在一個(gè)連續(xù)的輸入[ut],使得在有限的時(shí)間內(nèi),能使得線性時(shí)不變系統(tǒng)能夠從任意的初始狀態(tài)達(dá)到任意的終止?fàn)顟B(tài),則稱這個(gè)系統(tǒng)是可控的。
3.2 最小驅(qū)動(dòng)節(jié)點(diǎn)集思想
Liu等[13]結(jié)合圖論方法和結(jié)構(gòu)可控性定理,提出了一個(gè)基于圖模型的最大匹配算法求解最小驅(qū)動(dòng)節(jié)點(diǎn)集的復(fù)雜網(wǎng)絡(luò)可控性分析框架。該框架提出通過(guò)最小驅(qū)動(dòng)節(jié)點(diǎn)集可以實(shí)現(xiàn)控制整個(gè)網(wǎng)絡(luò)的目的,從理論上證明了最小驅(qū)動(dòng)節(jié)點(diǎn)集就是最大匹配中的未匹配節(jié)點(diǎn)集。最小驅(qū)動(dòng)節(jié)點(diǎn)集中節(jié)點(diǎn)數(shù)量越多,意味著復(fù)雜網(wǎng)絡(luò)的可控性越低,反之亦然。此外,最小驅(qū)動(dòng)節(jié)點(diǎn)集的節(jié)點(diǎn)數(shù)量由網(wǎng)絡(luò)中的度決定,網(wǎng)絡(luò)的度越大,最小驅(qū)動(dòng)節(jié)點(diǎn)集中節(jié)點(diǎn)數(shù)量越少,復(fù)雜網(wǎng)絡(luò)的可控性就越低。
3.3 可控性動(dòng)態(tài)分類理論
可控性動(dòng)態(tài)分類理論基于Kalman判定條件[14]和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)判斷整個(gè)網(wǎng)絡(luò)是否滿足可控性。核心思想是將網(wǎng)絡(luò)看作矩陣,將矩陣中的所有元素設(shè)為0或已確定的常數(shù)。若一個(gè)網(wǎng)絡(luò)是可控的,那么網(wǎng)絡(luò)中邊的權(quán)重不影響網(wǎng)絡(luò)的可控性。Kalman判定條件如下:
設(shè)A為網(wǎng)絡(luò)的連接矩陣,B為外部輸入矩陣,那么定義矩陣C為:
[C=B,AB,A2B,…,AN?1B]? ? ? ? ? ? ? ? ? ? ? (3)
當(dāng)矩陣C為滿秩時(shí),即
[rankC=rankB,AB,A2B,…,AN?1B=N]時(shí),網(wǎng)絡(luò)是可控的。
Vin等人基于可控性動(dòng)態(tài)分類理論分析了蛋白質(zhì)互作網(wǎng)絡(luò)的可控性[15],并對(duì)Liu等人的研究進(jìn)行了改進(jìn),將蛋白質(zhì)相互作用網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)逐個(gè)刪除,檢驗(yàn)最小驅(qū)動(dòng)節(jié)點(diǎn)集中節(jié)點(diǎn)數(shù)量的變化,若節(jié)點(diǎn)數(shù)量增加,則說(shuō)明刪除的節(jié)點(diǎn)為關(guān)鍵節(jié)點(diǎn);若節(jié)點(diǎn)數(shù)量保持不變,則說(shuō)明刪除的節(jié)點(diǎn)為普通節(jié)點(diǎn);若節(jié)點(diǎn)數(shù)量減少,則說(shuō)明刪除的節(jié)點(diǎn)為冗余節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明,關(guān)鍵節(jié)點(diǎn)代表的蛋白質(zhì)是患病的主要因素。而普通節(jié)點(diǎn)和冗余節(jié)點(diǎn)這兩種類型的蛋白質(zhì)的代表性不足。
3.4 關(guān)鍵節(jié)點(diǎn)基因集構(gòu)建流程
基于上述理論,借助Liu[16]的框架代碼,結(jié)合readr包后導(dǎo)入結(jié)直腸癌的表達(dá)譜數(shù)據(jù),編寫R語(yǔ)言代碼分析構(gòu)建lncRNA-TF-gene調(diào)控網(wǎng)絡(luò),閾值設(shè)為P<0.05,分析后構(gòu)建最小驅(qū)動(dòng)節(jié)點(diǎn)集?;诳煽匦詣?dòng)態(tài)分類理論,移除最小驅(qū)動(dòng)節(jié)點(diǎn)集的每個(gè)節(jié)點(diǎn),依據(jù)移除后對(duì)調(diào)控網(wǎng)絡(luò)的影響,將最小驅(qū)動(dòng)節(jié)點(diǎn)集的節(jié)點(diǎn)進(jìn)行分類,分為關(guān)鍵節(jié)點(diǎn)、普通節(jié)點(diǎn)和冗余節(jié)點(diǎn)。利用write.csv函數(shù)導(dǎo)出分類結(jié)果和關(guān)鍵節(jié)點(diǎn)基因,以便后續(xù)分析。
4 基于融合信息篩選關(guān)鍵基因
針對(duì)目前篩選關(guān)鍵基因方法單一的問(wèn)題,本節(jié)研究將突變頻率和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅诌M(jìn)行融合,利用突變得分和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅值娜诤闲畔?duì)lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)進(jìn)行分析,得到潛在關(guān)鍵基因,以便后續(xù)研究。
4.1 突變得分
突變得分通常指每一個(gè)配子發(fā)生突變的概率[17],即用一定數(shù)目配子中的突變配子數(shù)表示。在無(wú)性繁殖的細(xì)菌中,突變得分代表用每一個(gè)細(xì)胞世代中每個(gè)細(xì)菌發(fā)生突變的概率,即用一定數(shù)目的細(xì)菌在一次分裂過(guò)程中發(fā)生突變的次數(shù)表示。不同生物或同一生物個(gè)體的不同基因的自發(fā)突變率是不相同的。突變得分的估算方法因生物生殖方式的不同而不同。在有性生殖的生物中,突變率通常為每一個(gè)配子發(fā)生突變的概率,即用一定數(shù)目配子中的突變配子數(shù)表示。在無(wú)性繁殖的細(xì)菌中,突變率代表每一個(gè)細(xì)胞世代中每個(gè)細(xì)菌發(fā)生突變的概率,即用一定數(shù)目的細(xì)菌在一次分裂過(guò)程中發(fā)生突變的次數(shù)表示。
通過(guò)TCGA數(shù)據(jù)庫(kù)下載結(jié)直腸癌對(duì)應(yīng)突變數(shù)據(jù)集,基于突變的變體分類,僅選擇具有功能的突變,例如splice_site,in_frame_del和frame_shift_del等,并計(jì)算突變頻率。基因的變異越頻繁,在排名列表中就越高。根據(jù)TCGA數(shù)據(jù)的突變頻率計(jì)算調(diào)控網(wǎng)絡(luò)中基因的突變得分,利用Python語(yǔ)言排序后整理,得到基因突變得分列表。
4.2 網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅?/p>
網(wǎng)絡(luò)拓?fù)浣y(tǒng)計(jì)參數(shù)反映網(wǎng)絡(luò)的結(jié)構(gòu)和動(dòng)力學(xué)特性,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的分析一般包括以下幾個(gè)方面:將交互關(guān)系復(fù)雜的系統(tǒng)建模為網(wǎng)絡(luò),然后計(jì)算網(wǎng)絡(luò)拓?fù)鋮?shù)來(lái)研究網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特性,根據(jù)網(wǎng)絡(luò)演化過(guò)程中網(wǎng)絡(luò)拓?fù)鋮?shù)的變化來(lái)分析網(wǎng)絡(luò)演化對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的影響[18]。
本研究通過(guò)3個(gè)網(wǎng)絡(luò)拓?fù)浞椒▽?duì)潛在mRNA關(guān)鍵基因進(jìn)行聯(lián)合分析,即degree、MNC和MCC網(wǎng)絡(luò)拓?fù)浞治龇椒╗19]。degree代表節(jié)點(diǎn)的度,v為圖中節(jié)點(diǎn)數(shù)目,MNC為最大鄰域分量,其公式為:
[MNCv=VMCv]? ? ? ? ? ? ? ? ? ? ? ? (4)
其中[V ]指網(wǎng)絡(luò)中節(jié)點(diǎn)的總和,[MCv]指子圖與子圖間的最大連接分量。
MCC網(wǎng)絡(luò)拓?fù)浞治龇椒梢院芎玫胤治龉?jié)點(diǎn)數(shù)目較多的復(fù)雜網(wǎng)絡(luò)。給定一個(gè)節(jié)點(diǎn)v,MCC的定義為:
[MCCv=C∈SvC?1!]? ? ? ? ? ? ? ? ? ? ? (5)
其中,[C]為屬于[Sv]的一個(gè)團(tuán),[Sv]為包含節(jié)點(diǎn)[v]的最大團(tuán)的集合,[C?1]表示小于[C]的所有正整數(shù)的階乘。
利用Cytoscape3.7.2軟件的cytoHubba插件中的MNC、MCC和Degree網(wǎng)絡(luò)拓?fù)浞治龇椒ǚ治鰈ncRNA-TF-gene調(diào)控網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅诌M(jìn)行排序,利用python語(yǔ)言整理后得到網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅至斜怼?/p>
4.3 潛在關(guān)鍵基因篩選
若一個(gè)基因可以同時(shí)出現(xiàn)在突變得分列表和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅至斜碇?,則認(rèn)為該基因是潛在關(guān)鍵基因。因此,利用python語(yǔ)言的numpy程序包[20]分別統(tǒng)計(jì)突變得分列表和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅至斜碇信琶?0名的基因,并通過(guò)R語(yǔ)言對(duì)兩個(gè)列表下排名前50名的基因取交集,整理后得到潛在關(guān)鍵基因集。
4.4 關(guān)鍵基因篩選及驗(yàn)證
結(jié)合上文的關(guān)鍵節(jié)點(diǎn)基因集和潛在關(guān)鍵基因集,通過(guò)R語(yǔ)言找到兩個(gè)基因集的共同基因,整理后命名為關(guān)鍵基因集,關(guān)鍵基因在結(jié)直腸癌的發(fā)病過(guò)程中起到了重要的調(diào)控作用。為了驗(yàn)證實(shí)驗(yàn)結(jié)果的有效性,利用python遍歷文獻(xiàn)中的實(shí)驗(yàn)數(shù)據(jù),結(jié)合CGC數(shù)據(jù)庫(kù)[21]中的數(shù)據(jù)對(duì)關(guān)鍵基因集中的基因進(jìn)行驗(yàn)證。利用兩方面數(shù)據(jù)對(duì)關(guān)鍵基因集進(jìn)行驗(yàn)證,以便對(duì)預(yù)測(cè)算法的效果進(jìn)行評(píng)估。
5 實(shí)驗(yàn)結(jié)果與分析
5.1 lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)
利用TCGA數(shù)據(jù)庫(kù)共得到60477條基因表達(dá)譜數(shù)據(jù),經(jīng)背景校正、歸一化處理、基因名轉(zhuǎn)化后,整理為csv格式,以便后續(xù)分析。
利用LncMAP數(shù)據(jù)庫(kù)共獲取到102111條結(jié)直腸癌中l(wèi)ncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù),整理后命名為lncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù)集A,利用python語(yǔ)言共收集到32011條結(jié)直腸癌中l(wèi)ncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù),整理后命名為lncRNA-TF-gene調(diào)控關(guān)系數(shù)據(jù)集B。將調(diào)控關(guān)系數(shù)據(jù)集A與調(diào)控關(guān)系數(shù)據(jù)集B取交集后得到10521條調(diào)控關(guān)系數(shù)據(jù),整理后命名為交集調(diào)控關(guān)系數(shù)據(jù)集,部分?jǐn)?shù)據(jù)如表1所示。結(jié)果表明,lncRNA-TF-gene調(diào)控關(guān)系顯著相關(guān)并且具有顯著差異性,可作為調(diào)控網(wǎng)絡(luò)進(jìn)行研究。利用Cytoscape3.7.2軟件構(gòu)建lncRNA-TF-gene調(diào)控網(wǎng)絡(luò),并采用NetworkAnalyzer功能對(duì)調(diào)控網(wǎng)絡(luò)進(jìn)行分析。
5.2 關(guān)鍵節(jié)點(diǎn)基因集
基于最小驅(qū)動(dòng)節(jié)點(diǎn)集思想,對(duì)lncRNA-TF-gene調(diào)控網(wǎng)絡(luò)進(jìn)行篩選分析,共得到1021個(gè)驅(qū)動(dòng)節(jié)點(diǎn)基因,整理后命名為最小驅(qū)動(dòng)節(jié)點(diǎn)集。依據(jù)可控性動(dòng)態(tài)分類理論,對(duì)最小驅(qū)動(dòng)節(jié)點(diǎn)集進(jìn)行分類,分類后的結(jié)果如表2所示,扇形圖如圖2所示。可控性動(dòng)態(tài)分類篩選出的14%的關(guān)鍵節(jié)點(diǎn)基因,可作為研究潛在的關(guān)鍵基因。關(guān)鍵節(jié)點(diǎn)基因集的部分結(jié)果如表3所示,其中,K為lncRNA-TF-gene調(diào)控中節(jié)點(diǎn)的度,Kin為節(jié)點(diǎn)的入度,Kout為節(jié)點(diǎn)的出度,TypeI為冗余和普通節(jié)點(diǎn)基因,TypeII為關(guān)鍵基因,0表示否,1表示是。
5.3 潛在關(guān)鍵基因集
利用R語(yǔ)言下載TCGA數(shù)據(jù)庫(kù)中結(jié)直腸癌的臨床數(shù)據(jù),保存為RData格式。編寫R語(yǔ)言代碼計(jì)算突變得分,利用python語(yǔ)言的numpy程序包整理后得到突變得分列表,得分前10名的基因如表4所示。利用Cytoscape3.7.2軟件的cytoHubba插件的MNC、MCC和Degree網(wǎng)絡(luò)拓?fù)渲笜?biāo)聯(lián)合分析lncRNA-TF-gene調(diào)控網(wǎng)絡(luò),利用Python語(yǔ)言的numpy程序包整理后得到網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅至斜?,得分?0名的基因如表5所示。
利用Python語(yǔ)言的numpy程序包分別統(tǒng)計(jì)突變得分列表和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅至斜碇信琶?0名的基因,對(duì)兩個(gè)列表中排名前50名的基因集取交集,得到36個(gè)潛在關(guān)鍵基因。
5.4? 關(guān)鍵基因集及驗(yàn)證
結(jié)合上文的關(guān)鍵節(jié)點(diǎn)基因集和潛在關(guān)鍵基因集,對(duì)兩個(gè)基因集取交集,共得到17個(gè)關(guān)鍵基因(CASP3、JAK1、CDK2、CCL5、FN1、PCNA、MAPK8、SOD1、PPARG、VEGFA、TGFB1、CDKN1A、AKT1、TP53、BCL2、MAPK3和MAPK1)。為了驗(yàn)證實(shí)驗(yàn)的有效性,通過(guò)CGC網(wǎng)站和大量文獻(xiàn)對(duì)關(guān)鍵基因進(jìn)行驗(yàn)證,發(fā)現(xiàn)17個(gè)關(guān)鍵基因中有13個(gè)已經(jīng)通過(guò)CGC網(wǎng)站和相關(guān)文獻(xiàn)得到證實(shí),與結(jié)直腸癌有密切關(guān)系。這表明其余4個(gè)關(guān)鍵基因有很大可能與結(jié)直腸癌也密切相關(guān)。這些關(guān)鍵基因?qū)ξ磥?lái)結(jié)直腸癌機(jī)理研究和開發(fā)靶向藥物均具有重要參考價(jià)值。
6 結(jié)論
本文提出了一種基于控制理論的結(jié)直腸癌關(guān)鍵基因預(yù)測(cè)算法,本算法基于突變得分和網(wǎng)絡(luò)拓?fù)浞治龇椒ǖ梅值娜诤闲畔⑦M(jìn)行關(guān)鍵基因篩選。實(shí)驗(yàn)結(jié)果證實(shí),關(guān)鍵基因的預(yù)測(cè)準(zhǔn)確性較以往的預(yù)測(cè)算法得到了顯著提高。本算法不僅可以應(yīng)用在結(jié)直腸癌的關(guān)鍵基因預(yù)測(cè),還可以廣泛應(yīng)用在各類癌癥的關(guān)鍵基因預(yù)測(cè)中,為今后發(fā)現(xiàn)癌癥的關(guān)鍵基因提供新的一種思路和選擇。
參考文獻(xiàn):
[1] Cancho V G,Bazán J L,Dey D K.A new class of regression model for a bounded response with application in the study of the incidence rate of colorectal cancer[J].Statistical Methods in Medical Research,2020,29(7):2015-2033.
[2] Maduni? K,Zhang T,Mayboroda O A,et al.Colorectal cancer cell lines show striking diversity of their O-glycome reflecting the cellular differentiation phenotype[J].Cellular and Molecular Life Sciences,2021,78(1):337-350.
[3] Baratti D,Kusamura S,Pietrantonio F,et al.Progress in treatments for colorectal cancer peritoneal metastases during the years 2010-2015.A systematic review[J].Critical Reviews in Oncology/Hematology,2016,100:209-222.
[4] Reimand J,Bader G D.Systematic analysis of somatic mutations in phosphorylation signaling predicts novel cancer drivers[J].Molecular Systems Biology,2013,9(1):637.
[5] Hou J P,Ma J.DawnRank:discovering personalized driver genes in cancer[J].Genome Med,2014,6(7):56.
[6] Network C G A R,Weinstein J N,Collisson E A,et al.The cancer genome atlas pan-cancer analysis project[J].Nature Genetics,2013,45(10):1113-1120.
[7] Flicek P,Amode M R,Barrell D,et al.Ensembl 2012[J].Nucleic Acids Research,2012,40(database issue):D84-D90.
[8] Ji Y,Gu Y Q,Hong S,et al.Comprehensive analysis of lncRNA-TF crosstalks and identification of prognostic regulatory feedback loops of glioblastoma using lncRNA/TF-mediated ceRNA network[J].Journal of Cellular Biochemistry,2020,121(1):755-767.
[9] Li Y S,Li L L,Wang Z S,et al.LncMAP:Pan-cancer atlas of long noncoding RNA-mediated transcriptional network perturbations[J].Nucleic Acids Research,2018,46(3):1113-1123.
[10] Calinski T,Steel R G D,Torrie J H.Principles and procedures of statistics:a biometrical approach[J].Biometrics,1981,37(4):859.
[11] Narendra K S.Neural networks for control theory and practice[J].Proceedings of the IEEE,1996,84(10):1385-1406.
[12] 王婉寧.基于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)可控性的致病基因識(shí)別方法研究[D].西安:西安理工大學(xué),2019.
[13] McDowell J J.Matching theory in natural human environments[J].The Behavior Analyst,1988,11(2):95-109.
[14]WELCH G, BISHOP G. An Introduction to the Kalman Filter[M]. University of North Carolina at Chapel Hill, 1995.
[15] Vinayagam A,Gibson T E,Lee H J,et al.Controllability analysis of the directed human protein interaction network identifies disease genes and drug targets[J].Proceedings of the National Academy of Sciences of the United States of America,2016,113(18):4976-4981.
[16] Liu Y Y,Slotine J J,Barabási A L.Controllability of complex networks[J].Nature,2011,473(7346):167-173.
[17] Devarakonda S,Rotolo F,Tsao M S,et al.Tumor mutation burden as a biomarker in resected non-small-cell lung cancer[J].Journal of Clinical Oncology,2018,36(30):2995-3006.
[18] 周庚.復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)中心性度量算法的研究及應(yīng)用[D].蘭州:蘭州理工大學(xué),2020.
[19] Chin C H,Chen S H,Wu H H,et al.cytoHubba:identifying hub objects and sub-networks from complex interactome[J].BMC Systems Biology,2014,8(Suppl 4):S11.
[20] van der Walt S,Colbert S C,Varoquaux G.The NumPy array:a structure for efficient numerical computation[J].Computing in Science & Engineering,2011,13(2):22-30.
[21] Sondka Z,Bamford S,Cole C G,et al.The COSMIC Cancer Gene Census:describing genetic dysfunction across all human cancers[J].Nature Reviews Cancer,2018,18(11):696-705.
【通聯(lián)編輯:唐一東】