劉 健 顧 揚(yáng) 程玉虎 王雪松
基因突變是由DNA 分子中堿基對(duì)發(fā)生增添、缺失或替換而引起的基因結(jié)構(gòu)變化.基因突變具有隨機(jī)性,是一種可遺傳的變異現(xiàn)象.致病基因突變通過阻止一種或多種蛋白質(zhì)正常工作擾亂正常發(fā)育過程或?qū)е录膊?癌癥是由控制細(xì)胞功能的基因突變引起的一系列相關(guān)疾病的統(tǒng)稱.導(dǎo)致癌癥的基因突變可能遺傳自父母,也可能是人體自身受致癌環(huán)境或致癌物質(zhì)刺激導(dǎo)致細(xì)胞分裂時(shí)產(chǎn)生的錯(cuò)誤.一般來說,癌細(xì)胞比正常細(xì)胞有更多的基因突變.乳腺癌是世界上最常見的疾病之一,2018 年新增乳腺癌患者約20 億人[1].醫(yī)學(xué)領(lǐng)域的多項(xiàng)研究表明,BRCA1、BRCA2 和PALB2 基因的突變會(huì)導(dǎo)致乳腺癌風(fēng)險(xiǎn)增加,其他與乳腺癌患病風(fēng)險(xiǎn)相關(guān)的基因突變包括ATM、TP53、PTEN 等.因此,從乳腺癌組學(xué)數(shù)據(jù)中挖掘出與其密切相關(guān)的致病基因?qū)θ橄侔┑呐R床診斷、預(yù)后和治療有著深遠(yuǎn)意義.
在生物信息學(xué)中,癌癥致病基因預(yù)測(cè)通過基因排序方法實(shí)現(xiàn).基于網(wǎng)絡(luò)相似度的基因排序算法通過分析多種基因?疾病網(wǎng)絡(luò)中的局部、全局信息,計(jì)算基因與疾病之間的相似性,從而對(duì)基因進(jìn)行排序.例如,Kohler 等[2]提出重啟隨機(jī)游走算法利用網(wǎng)絡(luò)全局拓?fù)湫畔?duì)致病基因進(jìn)行預(yù)測(cè);Xu 等[3]提出多路徑隨機(jī)游走的網(wǎng)絡(luò)嵌入模型對(duì)異構(gòu)網(wǎng)絡(luò)進(jìn)行致病基因預(yù)測(cè).這些方法過度依賴網(wǎng)絡(luò)拓?fù)湫畔?不能對(duì)網(wǎng)絡(luò)外的基因進(jìn)行預(yù)測(cè),且對(duì)癌癥數(shù)據(jù)中的噪聲比較敏感.隨著機(jī)器學(xué)習(xí)理論的發(fā)展,基于機(jī)器學(xué)習(xí)的基因排序方法利用監(jiān)督學(xué)習(xí)或非監(jiān)督學(xué)習(xí)方式實(shí)現(xiàn)基因預(yù)測(cè),能夠挖掘到與癌癥相關(guān)的致病基因,被廣泛應(yīng)用于癌癥致病基因的預(yù)測(cè).例如Han 等[4]將圖卷積網(wǎng)絡(luò)和矩陣分解結(jié)合提出一種疾病基因關(guān)聯(lián)任務(wù)框架;Natarajan 等[5]將推薦系統(tǒng)中的歸納矩陣補(bǔ)全用于預(yù)測(cè)基因與疾病的相關(guān)性.
在乳腺癌致病基因預(yù)測(cè)方面,自然啟發(fā)式算法應(yīng)用較廣,例如粒子群優(yōu)化 (Particle swarm optimization,PSO)、遺傳算法等.Sahu 等[6]提出一種基于PSO 的基因選擇算法,首先采用k均值聚類方法對(duì)數(shù)據(jù)集進(jìn)行聚類,利用信噪比評(píng)分對(duì)聚類簇中的基因進(jìn)行排序,然后從每個(gè)聚類簇中收集得分最高的基因生成新的特征子集,最后將新特征子集作為PSO 的輸入,生成優(yōu)化后的特征子集.Malar 等[7]通過將關(guān)聯(lián)特征選擇方法和改進(jìn)的二進(jìn)制PSO 結(jié)合選擇致病基因,同時(shí)解決了微陣列數(shù)據(jù)的高維性問題.為了消除對(duì)乳腺癌無意義的基因,AliazKovic等[8]將遺傳算法用于提取乳腺癌數(shù)據(jù)中的重要信息,挖掘與乳腺癌生物過程相關(guān)的致病基因.Sangaiah 等[9]將特征加權(quán)和基于熵的遺傳算法結(jié)合起來,提出一種乳腺癌致病基因預(yù)測(cè)的混合方法.Alzubaidi 等[10]將遺傳算法與互信息結(jié)合應(yīng)用于乳腺癌致病基因選擇.通過遺傳算法將基于互信息的基因選擇算法轉(zhuǎn)化為全局優(yōu)化算法,能夠有效選擇基因.避免算法陷入局部最優(yōu).Alomari 等[11]結(jié)合最小冗余、最大關(guān)聯(lián)算法和花授粉算法來確定包含更多癌癥信息的基因子集.Hamim 等[12]提出一種基于決策樹模型的乳腺癌致病基因選擇策略,該策略包括兩個(gè)階段:基于Fisher 評(píng)分的過濾階段和基于C5.0 算法的基因選擇階段.Liu 等[13]為了提高基因選擇效率,將基因評(píng)分與深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生的基因重要性相結(jié)合,同時(shí)考慮癌癥亞型間的差異性和亞型內(nèi)基因間的相關(guān)性來選擇乳腺癌三陰性亞型的最優(yōu)致病基因子集.Zhao 等[14]基于信息熵的不確定性系數(shù)被用來定義基因間是否存在邏輯關(guān)系,進(jìn)而構(gòu)建基因邏輯網(wǎng)絡(luò),最終通過比較對(duì)照組與實(shí)驗(yàn)組網(wǎng)絡(luò)之間的差異程度,提取乳腺癌致病基因.
上述預(yù)測(cè)方法都是基于已有癌癥組學(xué)數(shù)據(jù)進(jìn)行基因預(yù)測(cè),這些組學(xué)數(shù)據(jù)來源于對(duì)癌癥患者的測(cè)序.換言之,這些方法僅能根據(jù)目前已發(fā)病患者的基因突變狀態(tài)來分析基因與癌癥之間的關(guān)聯(lián),無法預(yù)知患者發(fā)病前的基因突變狀態(tài),而發(fā)病前的基因突變狀態(tài)與發(fā)病基因突變狀態(tài)之間的差異才是癌癥發(fā)生的關(guān)鍵.
強(qiáng)化學(xué)習(xí)[15]是一類結(jié)合了優(yōu)化控制思想和生命體學(xué)習(xí)行為的機(jī)器學(xué)習(xí)方法,其要求待處理的問題環(huán)境擁有馬爾可夫性質(zhì),即當(dāng)前狀態(tài)僅受上一狀態(tài)的影響,與其余狀態(tài)無關(guān).強(qiáng)化學(xué)習(xí)希望智能體在指定的狀態(tài)能夠得到讓回報(bào)最大化的動(dòng)作,并通過智能體與環(huán)境的交互進(jìn)行學(xué)習(xí),從而改變特定狀態(tài)選擇某個(gè)動(dòng)作的趨勢(shì).強(qiáng)化學(xué)習(xí)還是一種擁有自主決策能力的算法,它使智能體通過在環(huán)境中的不斷試錯(cuò)得到回報(bào)值和下一時(shí)刻狀態(tài)的觀測(cè)值,最終學(xué)習(xí)到一個(gè)能夠獲取較大折扣累積回報(bào)的策略.強(qiáng)化學(xué)習(xí)已被成功應(yīng)用于多個(gè)研究領(lǐng)域,例如,數(shù)據(jù)驅(qū)動(dòng)控制[16]、多機(jī)協(xié)同決策[17]、交通控制[18]等.
本文通過分析基因突變,發(fā)現(xiàn)其過程滿足馬爾可夫過程,且基因突變與癌癥之間的關(guān)聯(lián)性可以通過強(qiáng)化學(xué)習(xí)中累計(jì)回報(bào)函數(shù)構(gòu)建的方式進(jìn)行計(jì)算.因此,基于乳腺癌突變數(shù)據(jù),本文設(shè)計(jì)一套強(qiáng)化學(xué)習(xí)環(huán)境與算法對(duì)患者從正?;蛲蛔儬顟B(tài)至死亡基因突變狀態(tài)的過程進(jìn)行評(píng)估、決策,旨在為癌癥致病基因預(yù)測(cè)提供新思路,并挖掘出導(dǎo)致乳腺癌死亡狀態(tài)的致病基因.實(shí)驗(yàn)結(jié)果表明,提出的強(qiáng)化學(xué)習(xí)算法能夠挖掘出與乳腺癌密切相關(guān)的致病基因.
由于基因突變并非確定性事件,在非人為干涉的前提下,基因突變可視為一個(gè)隨機(jī)過程.設(shè)任意t時(shí)刻基因突變狀態(tài)(后文簡(jiǎn)稱狀態(tài))為st,下一時(shí)刻狀態(tài)為st+1,則在t+1 時(shí)刻狀態(tài)發(fā)生的變化只與t時(shí)刻的狀態(tài)有關(guān),與之前 0~t ?1 的狀態(tài)并無關(guān)聯(lián),即
其中,P(·) 為概率.基于上述考慮,可以認(rèn)為基因突變對(duì)應(yīng)的隨機(jī)過程為馬爾可夫過程.
本文根據(jù)乳腺癌患者生存數(shù)據(jù)中患者的臨床信息來定義死亡狀態(tài)和非死亡狀態(tài).患者生存數(shù)據(jù)兼有時(shí)間和結(jié)局兩種屬性信息.時(shí)間描述的是患者由觀察起點(diǎn)至觀察終點(diǎn)的時(shí)間間隔,通常稱為生存時(shí)間.患者生存數(shù)據(jù)的結(jié)局即為觀察終點(diǎn),觀察終點(diǎn)分為死亡和存活兩種,在生存數(shù)據(jù)中記為1 和0.在本文中,如果某患者的觀察終點(diǎn)為死亡,則將該患者在乳腺癌數(shù)據(jù)中的基因突變狀態(tài)定義為死亡狀態(tài).值得注意的是,具有相同基因突變狀態(tài)的患者,觀察終點(diǎn)并不一定相同,因此通過定義死亡率來更加精細(xì)地對(duì)數(shù)據(jù)進(jìn)行描述.若基因突變狀態(tài)使所有癌癥患者死亡,則該狀態(tài)的死亡率為100%;若基因突變狀態(tài)有一定概率導(dǎo)致患者死亡,例如100個(gè)患者有相同的狀態(tài),其中有10個(gè)患者死亡,則死亡率為10%.這里將有概率死亡的基因突變狀態(tài)統(tǒng)稱為死亡狀態(tài).設(shè)一個(gè)基因與t時(shí)刻狀態(tài)st之間的關(guān)聯(lián)性為r(st),已有基因排序算法更關(guān)注對(duì)歷史病例數(shù)據(jù)的數(shù)理統(tǒng)計(jì),通過計(jì)算r(st) 的大小來評(píng)價(jià)某個(gè)基因突變與癌癥患者之間的聯(lián)系強(qiáng)弱.然而這類方法沒有充分考慮患者的死亡狀態(tài),且忽視了癌癥的發(fā)生過程,比如死亡狀態(tài)sα雖然死亡率不高,且r(st)值較小,但可能在一定時(shí)期內(nèi)突變成死亡率很高的其他狀態(tài),這類狀態(tài)sα中的基因與癌癥患者死亡之間的應(yīng)該有很強(qiáng)的關(guān)聯(lián)性.因此,對(duì)基因與癌癥患者之間關(guān)聯(lián)的評(píng)估不應(yīng)只關(guān)注狀態(tài)st中基因與癌癥關(guān)聯(lián)性,更應(yīng)從一個(gè)正常狀態(tài)經(jīng)歷漫長(zhǎng)基因突變過程至死亡狀態(tài)的角度,評(píng)估突變基因與某個(gè)死亡狀態(tài)的關(guān)聯(lián)性,即
乳腺癌突變數(shù)據(jù)中,每個(gè)患者的所有基因突變狀態(tài)是一個(gè)樣本,每個(gè)基因在所有患者上的突變狀況是一個(gè)特征,如圖1 所示.患者的某個(gè)基因發(fā)生突變,則記為1 (圖1 中黑色格子),不發(fā)生突變則記為0 (圖1 中非黑色格子).本文構(gòu)建強(qiáng)化學(xué)習(xí)環(huán)境如下:將基因作為智能體 (Agent),t時(shí)刻基因突變狀況作為狀態(tài)st,基因突變作為動(dòng)作at,根據(jù)死亡狀態(tài)的死亡率設(shè)計(jì)回報(bào)函數(shù)r(st),當(dāng)智能體達(dá)到死亡狀態(tài)時(shí)獲得最優(yōu)策略,停止與環(huán)境交互,給予高回報(bào)值.基因突變數(shù)據(jù)中的基因數(shù)目成百上千,在一個(gè)狀態(tài)中,使用單智能體進(jìn)行強(qiáng)化學(xué)習(xí)時(shí),狀態(tài)?動(dòng)作空間復(fù)雜度極高,需要大量計(jì)算成本.為此,考慮利用多智能體深度Q 網(wǎng)絡(luò) (Deep Q network,DQN)[19]對(duì)乳腺癌突變數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí).一方面,相比于Q 學(xué)習(xí)方法,DQN 通過訓(xùn)練更新值函數(shù)神經(jīng)網(wǎng)絡(luò)的參數(shù),減小狀態(tài)高維度對(duì)算法訓(xùn)練效果的影響;另一方面,使用多智能體進(jìn)行強(qiáng)化學(xué)習(xí),可降低動(dòng)作空間復(fù)雜度,大大減少?gòu)?qiáng)化學(xué)習(xí)的計(jì)算量.
圖1 乳腺癌突變數(shù)據(jù)Fig.1 Breast cancer mutation data
多智能體DQN 使得學(xué)習(xí)任務(wù)的復(fù)雜度減小,但多智能體的動(dòng)作維度并沒有下降,智能體探索到最優(yōu)策略的概率很低.由于所有死亡狀態(tài)均來自乳腺癌突變數(shù)據(jù),可將死亡狀態(tài)作為專家意見指導(dǎo)強(qiáng)化學(xué)習(xí)過程,根據(jù)演示學(xué)習(xí)理論,提出兩種多智能體DQN:基于行為克隆的多智能體DQN (Behavioral cloning-based multi-agent DQN,BCDQN)和基于預(yù)訓(xùn)練記憶的多智能體DQN (Pre-training memory-based multi-agent DQN,PMDQN).設(shè)置探索經(jīng)驗(yàn)池B1和演示經(jīng)驗(yàn)池B2兩個(gè)經(jīng)驗(yàn)池,更好地實(shí)現(xiàn)演示學(xué)習(xí).當(dāng)智能體數(shù)量較少時(shí),BCDQN使智能體在每一步探索時(shí)都給出專家意見,保證B1和B2在狀態(tài)上同分布,實(shí)現(xiàn)探索策略對(duì)專家策略的完全克隆;當(dāng)智能體數(shù)量較大時(shí),PMDQN 通過預(yù)訓(xùn)練將一定數(shù)量的專家經(jīng)驗(yàn)保存在B2中,再使智能體隨機(jī)探索填充B1,并通過訓(xùn)練最終實(shí)現(xiàn)B1和B2同分布,這能夠使B2中樣本之間的相關(guān)性下降,從而加快算法的學(xué)習(xí).
式中,設(shè)死亡狀態(tài)(Dead)的死亡率為Pd,即若狀態(tài)對(duì)應(yīng)的死亡率不為0,則智能體在該狀態(tài)有Pd的概率死亡.若智能體觸發(fā)死亡事件,則停止智能體與環(huán)境的交互.智能體在環(huán)境中探索時(shí),智能體如果存活則給予智能體負(fù)的回報(bào),智能體在環(huán)境中存活的時(shí)間越長(zhǎng),對(duì)應(yīng)的累積回報(bào)就越低,其中,γ(0<γ <1) 為折扣因子.式(4)中的D則限制了狀態(tài)的變化幅度,以避免違背基因突變的客觀規(guī)律,即智能體要想獲得更高的回報(bào)則必須要用較小動(dòng)作幅度觸發(fā)死亡事件.由于D值在N足夠大情況下會(huì)遠(yuǎn)大于1,由霍夫丁不等式可知,隨機(jī)變量總和與其期望值之間的偏差上限與隨機(jī)變量取值區(qū)間大小正相關(guān).因此,使用常數(shù)η(0<η <1) 限制回報(bào)變化幅度,降低學(xué)習(xí)任務(wù)的復(fù)雜度.
強(qiáng)化學(xué)習(xí)目標(biāo)是找到最優(yōu)策略π?=P(at|st),即最大化期望折扣回報(bào)
常用的強(qiáng)化學(xué)習(xí)算法為異步策略的Q 學(xué)習(xí)方法[6].對(duì)于當(dāng)前的學(xué)習(xí)問題,Q 學(xué)習(xí)方法的迭代公式為
從式(6)可以看出,Q 學(xué)習(xí)方法要求智能體使用貪心算法進(jìn)行動(dòng)作選擇,從而剛性保證算法的收斂.Q 學(xué)習(xí)方法傾向于直接估計(jì)狀態(tài)?動(dòng)作值矩陣.在所設(shè)計(jì)的環(huán)境中,狀態(tài)、動(dòng)作都是二進(jìn)制向量,所以動(dòng)作空間復(fù)雜度為 2N+1,狀態(tài)空間復(fù)雜度為 2N.如果使用Q 學(xué)習(xí)方法,則需要估計(jì)復(fù)雜度為 22N+1的值函數(shù)矩陣.Q 學(xué)習(xí)方法在N很大時(shí),需要耗費(fèi)大量時(shí)間遍歷求解值函數(shù)矩陣.為此,本文選擇使用DQN 通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練更新值函數(shù)的參數(shù),減小狀態(tài)維度對(duì)算法訓(xùn)練效果的影響.DQN 的更新目標(biāo)為
相應(yīng)的損失函數(shù)為
其中,θ為值函數(shù)網(wǎng)絡(luò)參數(shù).DQN 采用經(jīng)驗(yàn)回放技術(shù),訓(xùn)練值函數(shù)網(wǎng)絡(luò)所用的數(shù)據(jù)需要從環(huán)境交互得到的經(jīng)驗(yàn)信息中隨機(jī)采樣得到,以消除訓(xùn)練數(shù)據(jù)之間的相關(guān)性,從而滿足深度學(xué)習(xí)對(duì)訓(xùn)練集數(shù)據(jù)獨(dú)立同分布的前提條件.DQN 可以高效處理狀態(tài)?動(dòng)作空間維度較大的學(xué)習(xí)問題,并通過經(jīng)驗(yàn)回放技術(shù)提高經(jīng)驗(yàn)數(shù)據(jù)的利用效率.
本文實(shí)驗(yàn)環(huán)境如果使用單智能體深度強(qiáng)化學(xué)習(xí)算法,則其狀態(tài)?動(dòng)作空間復(fù)雜度為 22N+1;如果使用多智能框架,則會(huì)使 2N+1的動(dòng)作空間復(fù)雜度變?yōu)?2N,整體上的狀態(tài)?動(dòng)作空間復(fù)雜度則變?yōu)镹2N+1.環(huán)境所使用的基因數(shù)N一般很大,因此N2N+1?22N+1,多智能體框架可以大幅降低學(xué)習(xí)問題的復(fù)雜程度,減少了設(shè)計(jì)單智能體所需的網(wǎng)絡(luò)參數(shù).
圖2 多智能體強(qiáng)化學(xué)習(xí)框架(以第k個(gè)智能體為例)Fig.2 Multi-agent reinforcement learning framework(Take the k-th agent as an example)
每個(gè)智能體的更新目標(biāo)為
其中,第k個(gè)智能體的動(dòng)作ak屬于各自的動(dòng)作空間Ak,θk則為第k個(gè)智能體的值函數(shù)網(wǎng)絡(luò)參數(shù).第k個(gè)智能體系統(tǒng)的損失函數(shù)為
多智能體DQN 的偽代碼如算法1 所示.
本文環(huán)境中的基因數(shù)目N很大,則對(duì)應(yīng)的動(dòng)作維度也很大,這使得智能體通過隨機(jī)探索找到最優(yōu)路徑的概率很低.單純使用多智能體框架也無法完全避免難以探索得到最優(yōu)路徑的問題,這是因?yàn)?多智能體框架可以使得學(xué)習(xí)任務(wù)的復(fù)雜度下降,但動(dòng)作的維數(shù)并沒有下降,因而隨機(jī)探索得到最優(yōu)策略的概率還是很低.考慮到環(huán)境中包含的所有死亡狀態(tài)和狀態(tài)轉(zhuǎn)移均已知,本文將死亡狀態(tài)視為專家意見,采用演示學(xué)習(xí)[20]方式加快算法的學(xué)習(xí).
在計(jì)算專家意見對(duì)應(yīng)的回報(bào)re(st)時(shí),需要考慮死亡概率,即
其中,s?為目標(biāo)狀態(tài),Pd(s?) 為目標(biāo)狀態(tài)的死亡概率.每個(gè)智能體的更新目標(biāo)為
如果專家意見對(duì)應(yīng)的回報(bào)和環(huán)境的期望回報(bào)E[r(st)]不相符,值估計(jì)將不收斂,這時(shí)專家系統(tǒng)給出的動(dòng)作a?即為最優(yōu)動(dòng)作.為了更好地實(shí)現(xiàn)演示學(xué)習(xí),單獨(dú)設(shè)計(jì)一個(gè)經(jīng)驗(yàn)池B2來保存演示經(jīng)驗(yàn).將隨機(jī)探索得到的經(jīng)驗(yàn)池B1和演示經(jīng)驗(yàn)池B2的經(jīng)驗(yàn)按照Ps的概率進(jìn)行采樣,即用于網(wǎng)絡(luò)訓(xùn)練的Batch 有Ps的概率從B1采樣,1?Ps的概率從B2采樣.基于值的強(qiáng)化學(xué)習(xí)問題本質(zhì)上是對(duì)值函數(shù)的擬合問題,所以無論是專家經(jīng)驗(yàn)還是智能體隨機(jī)探索得到的非最優(yōu)解經(jīng)驗(yàn),都需要應(yīng)用于值迭代.
啟發(fā)于行為克隆[21]思想,在智能體隨機(jī)探索的同時(shí),對(duì)應(yīng)每一步都給出相應(yīng)的專家意見,專家意見即為最優(yōu)策略,以保證B1和B2在狀態(tài)上同分布.算法的每一次迭代訓(xùn)練都會(huì)拉近B1和B2之間對(duì)應(yīng)動(dòng)作的分布差異,當(dāng)算法收斂時(shí),B1和B2將完全同分布,從而實(shí)現(xiàn)了智能體探索策略對(duì)專家策略的完全克隆.BCDQN 的優(yōu)勢(shì)是算法會(huì)收斂到與專家策略完全相同的策略上.
令Lo和Le分別為智能體探索系統(tǒng)和專家演示系統(tǒng)的損失函數(shù),則有
其中,ψ和φ分別為探索路徑下的狀態(tài)空間和動(dòng)作空間.最終BCDQN 的損失函數(shù)為
綜上所述,BCDQN 的偽代碼如下:
算法2.BCDQN 算法
隨著N的增大,BCDQN 中B1和B2狀態(tài)上同分布反而會(huì)使得智能體難以找到最優(yōu)路徑.N越大,智能體的隨機(jī)探索得到最優(yōu)路徑的概率就越低,經(jīng)驗(yàn)池里經(jīng)驗(yàn)向量來自同一條路徑的概率就越高,這間接增加了訓(xùn)練樣本間的相關(guān)性.而深度強(qiáng)化學(xué)習(xí)要求訓(xùn)練樣本間要盡可能獨(dú)立,所以提出基于預(yù)訓(xùn)練記憶的多智能體DQN (PMDQN)先使智能體在環(huán)境中進(jìn)行預(yù)訓(xùn)練,并將數(shù)量T的專家經(jīng)驗(yàn)保存在B2中,然后不再對(duì)B2進(jìn)行更新.隨后使智能體進(jìn)行隨機(jī)探索填充B1,并繼續(xù)智能體的訓(xùn)練.由于最終算法收斂時(shí),B1和B2不一定會(huì)完全同分布,因此,智能體不能保證學(xué)習(xí)到最優(yōu)策略.但PMDQN 可以使專家經(jīng)驗(yàn)池提供的樣本間的相關(guān)性下降,并加快了算法的學(xué)習(xí)速度.
這時(shí),智能體探索系統(tǒng)和專家演示系統(tǒng)的損失函數(shù)分別為L(zhǎng)o和Le,則有
最終PMDQN 的損失函數(shù)為
PMDQN 的偽代碼如下:
算法3.PMDQN 算法
通過比較每個(gè)基因突變狀態(tài)sk的值進(jìn)行乳腺癌致病基因排序.可表示為
式中,由于第k個(gè)智能體從未突變狀態(tài)(sk=0)到最終突變狀態(tài)(sk=1 )采取的動(dòng)作為ak=1;從突變狀態(tài)(sk=1)到最終突變狀態(tài)(sk=1)采取的動(dòng)作為ak=0 ,所以可以用于表示某個(gè)基因突變對(duì)患者死亡貢獻(xiàn)度的高低.這里默認(rèn)最終狀態(tài)為未突變狀態(tài)(sk=0)時(shí),對(duì)乳腺癌突變基因的分析無意義.
在多智能體框架中,每一個(gè)智能體只處理動(dòng)作空間為2、狀態(tài)空間為 2N的強(qiáng)化學(xué)習(xí)問題,并使用基于值的強(qiáng)化學(xué)習(xí)來進(jìn)行訓(xùn)練,這時(shí)輸入為N維二進(jìn)制向量,輸出為2 維的Q 值.這時(shí)的多智能框架對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的要求不高.為了加快多智能體的訓(xùn)練速度,所有DQN 僅使用單層神經(jīng)網(wǎng)絡(luò),即第k個(gè)網(wǎng)絡(luò)參數(shù)θk只包含權(quán)值向量wk和偏置向量bk,則有
深度強(qiáng)化學(xué)習(xí)方法主要通過評(píng)估狀態(tài)?動(dòng)作值的高低來決定動(dòng)作:如果某個(gè)基因在式(21)中的值越大,說明智能體在任意狀態(tài)下發(fā)生突變的狀態(tài)?動(dòng)作值越大,即該基因發(fā)生突變導(dǎo)致病人死亡的概率越高.因此,通過式(21)指標(biāo)可以排序出基因突變與患者死亡之間的關(guān)聯(lián)性.最后,根據(jù)需求選擇排序靠前的n個(gè)基因作為致病基因.
本文通過在乳腺癌基因突變數(shù)據(jù)構(gòu)建的環(huán)境來預(yù)測(cè)乳腺癌的致病基因.乳腺癌突變數(shù)據(jù)和生存數(shù)據(jù)由TCGA 數(shù)據(jù)官網(wǎng)下載得到(網(wǎng)址:https://portal.gdc.cancer.gov).深度強(qiáng)化學(xué)習(xí)的訓(xùn)練時(shí)間與環(huán)境的狀態(tài)?動(dòng)作空間復(fù)雜度正相關(guān).一般環(huán)境的狀態(tài)?動(dòng)作空間復(fù)雜度越高,需要的神經(jīng)網(wǎng)絡(luò)越復(fù)雜,訓(xùn)練時(shí)間越長(zhǎng).受限于實(shí)驗(yàn)設(shè)備的計(jì)算效率,實(shí)驗(yàn)中需要通過一定的規(guī)則來限制狀態(tài)、動(dòng)作的維度,因此通過基因突變率來篩選基因數(shù)目.
根據(jù)乳腺癌突變數(shù)據(jù)中的基因突變率將實(shí)驗(yàn)設(shè)置為2 組:第1 組選擇基因突變率≥50% 的基因,得到N=188個(gè)基因,其中包含53 種不同的死亡狀態(tài);第2 組選擇基因突變率≥30% 的基因,得到N=420個(gè)基因,其中包含81 種不同的死亡狀態(tài).由于BCDQN 比PMDQN 更穩(wěn)定,所以N=188時(shí)使用BCDQN 進(jìn)行訓(xùn)練.當(dāng)N=420 時(shí),BCDQN需耗費(fèi)大量時(shí)間進(jìn)行訓(xùn)練,為了使算法快速收斂,使用PMDQN 進(jìn)行訓(xùn)練.
本文將基因突變視為多智能體的動(dòng)作,若基因突變率太低,則基因/智能體數(shù)目增多,而死亡狀態(tài)中突變基因的占比急劇減小,多智能體很難通過動(dòng)作學(xué)習(xí)到死亡狀態(tài),所以選擇使用30%、50%的基因突變率來確保構(gòu)建環(huán)境所用的基因數(shù)滿足智能體對(duì)乳腺癌死亡狀態(tài)的學(xué)習(xí).當(dāng)然,也可以選擇其他突變率的基因數(shù)目,例如突變率≥40 %,理論上在合理的基因突變率范圍內(nèi),本文提出的算法都能夠適用.不同基因突變率數(shù)據(jù)集的選擇會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響,這體現(xiàn)在兩個(gè)方面:1) 突變率越低得到的基因數(shù)目越大,狀態(tài)?動(dòng)作空間維度也越大,導(dǎo)致模型收斂速度變慢,無法學(xué)習(xí)到最優(yōu)策略;突變率越高,則得到的基因越少,使得強(qiáng)化學(xué)習(xí)任務(wù)更簡(jiǎn)單,且過高突變率的基因使乳腺癌致病基因預(yù)測(cè)任務(wù)無意義.2) 突變率改變將會(huì)產(chǎn)生不同的患者死亡率,影響智能體完成任務(wù)情況.因此,在實(shí)驗(yàn)設(shè)備的允許的情況下,建議基因突變率的選擇范圍為10%~50%.
當(dāng)N=188 時(shí),使用BCDQN 進(jìn)行訓(xùn)練.多智能體在53個(gè)死亡狀態(tài)上的回報(bào)值如圖3 所示,其中,橫坐標(biāo)表示episode,縱坐標(biāo)表示回報(bào)值.由圖3可以看出,所有的策略處于收斂狀態(tài),在每個(gè)死亡狀態(tài)上,多智能體在每個(gè)episode 都可以取得穩(wěn)定的回報(bào).由于策略收斂,BCDQN 可以完成所有學(xué)習(xí)任務(wù),具備較好的魯棒性.圖4 表示當(dāng)N=188時(shí),多智能體完成任務(wù)情況 (達(dá)到死亡狀態(tài)),其中,橫坐標(biāo)表示episode,縱坐標(biāo)表示完成任務(wù)的次數(shù).圖4 中除0、1、6、7 四個(gè)死亡狀態(tài)外,智能體能夠穩(wěn)定學(xué)習(xí)到死亡狀態(tài)的最優(yōu)策略.智能體在0、1、6、7 四個(gè)死亡狀態(tài)產(chǎn)生波動(dòng)是由于這幾個(gè)死亡狀態(tài)的死亡率較低 (死亡率分別為4.60%、9.7%、7.69%和9.09%),使得智能體在上限步數(shù)內(nèi)雖然停留在死亡狀態(tài)卻無法觸發(fā)死亡事件,導(dǎo)致智能體無法完全保證穩(wěn)定學(xué)習(xí)到最優(yōu)策略.BCDQN 在狀態(tài)?動(dòng)作空間維度較小環(huán)境中可以確保找到最優(yōu)策略.而在較復(fù)雜的狀態(tài)?動(dòng)作空間維度中,若存在充足的專家經(jīng)驗(yàn),則算法一定可以收斂至最優(yōu)策略,但需要耗費(fèi)的訓(xùn)練時(shí)間難以估計(jì).
圖3 當(dāng)N =188 時(shí),BCDQN 在53個(gè)死亡狀態(tài)上的回報(bào)值Fig.3 The rewards of BCDQN at 53 death states under the condition of N=188
圖4 當(dāng)N =188 時(shí),BCDQN 在53個(gè)死亡狀態(tài)上的完成任務(wù)情況Fig.4 The task completion status of BCDQN at 53 death states under the condition of N=188
當(dāng)N=420 時(shí),使用PMDQN 進(jìn)行訓(xùn)練.多智能體在81個(gè)死亡狀態(tài)上的回報(bào)值如圖5 所示.除61、62、67、69、71 五個(gè)死亡狀態(tài)外,多智能體可在其余所有死亡狀態(tài)上學(xué)習(xí)到最高的回報(bào)值.圖6是當(dāng)N=420 時(shí),多智能體完成任務(wù)情況.除61、62、67、69、71 五個(gè)死亡狀態(tài)外,智能體能夠?qū)W習(xí)到死亡狀態(tài)的最優(yōu)策略.產(chǎn)生這種結(jié)果的原因是由于智能體增多導(dǎo)致動(dòng)作?狀態(tài)空間復(fù)雜度增大,智能體訓(xùn)練時(shí)間不夠長(zhǎng),暫時(shí)沒有學(xué)習(xí)到最優(yōu)策略.PMDQN 雖然保證了采樣效率,提供了大量有效的專家經(jīng)驗(yàn),加快了算法的訓(xùn)練,卻不可避免地會(huì)因?yàn)榄h(huán)境的太過復(fù)雜而遇到專家經(jīng)驗(yàn)不足的問題.此時(shí)通過專家經(jīng)驗(yàn)的擴(kuò)充可在一定程度上的減少這種陷入局部最優(yōu)現(xiàn)象的發(fā)生.當(dāng)N=420 時(shí),狀態(tài)?空間維度較大且復(fù)雜,多智能體在一個(gè)情節(jié)內(nèi)經(jīng)歷的軌跡較長(zhǎng),這也會(huì)導(dǎo)致智能體無法探索到上述五個(gè)死亡狀態(tài).因此,也可以嘗試?yán)迷鰪?qiáng)探索的強(qiáng)化學(xué)習(xí)方法解決此問題.
圖5 當(dāng)時(shí),PMDQN 在81個(gè)死亡狀態(tài)上的回報(bào)值N=420Fig.5 The rewards of PMDQN at 81 death states under the condition of N=420
圖6 當(dāng)N =420 時(shí),PMDQN 在81個(gè)死亡狀態(tài)上的完成任務(wù)情況Fig.6 The task completion status of PMDQN at 81 death states under the condition of N=420
根據(jù)上述結(jié)果,總結(jié)BCDQN 和PMDQN 的特點(diǎn)和適用情況如下:BCDQN 在狀態(tài)?動(dòng)作空間維度較小時(shí),能夠保證智能體探索到與專家策略相同的策略,穩(wěn)定找到最優(yōu)策略;在狀態(tài)?動(dòng)作空間維度大且復(fù)雜時(shí),PMDQN 可以減小樣本間的相關(guān)性,滿足更多智能體快速進(jìn)行強(qiáng)化學(xué)習(xí),但不能保證智能體學(xué)習(xí)到最優(yōu)策略.綜上所述,在實(shí)驗(yàn)設(shè)備允許情況下,建議在N <420 時(shí)使用BCDQN,在N ≥420時(shí)使用PMDQN.
當(dāng)N=188 和N=420 時(shí),BCDQN 和PMDQN預(yù)測(cè)的前10個(gè)致病基因如表1 所示.在這兩種情況下,預(yù)測(cè)的致病基因有重疊部分,例如TP53、MYC 和PVT1.
表1 BCDQN 和PMDQN 預(yù)測(cè)的前10個(gè)致病基因Table 1 Top 10 pathogenic genes predicted by BCDQN and PMDQN
腫瘤抑制基因TP53 在控制細(xì)胞增殖、細(xì)胞存活和基因組完整性的許多細(xì)胞通路中發(fā)揮著關(guān)鍵作用.當(dāng)細(xì)胞經(jīng)歷應(yīng)激條件 (如DNA 損傷、缺氧或致癌基因激活)時(shí),TP53 作為細(xì)胞增殖的制動(dòng)器,幾乎在所有類型的癌癥中發(fā)生突變.Silwal-Pandit 等[22]分析了1 420 名乳腺癌患者體細(xì)胞的TP53 突變,研究結(jié)果表明TP53 突變譜在乳腺癌中具有亞型特異性和明顯的預(yù)后相關(guān)性.Funda 等[23]對(duì)257 例轉(zhuǎn)移性乳腺癌患者的202個(gè)基因進(jìn)行了高通量測(cè)序,研究表明TP53 在乳腺癌的三種亞型中都存在顯著突變,且與無復(fù)發(fā)生存期、無進(jìn)展生存期和總生存期相關(guān).Han 等[24]分析了187 例轉(zhuǎn)移性乳腺癌患者的血液樣本,研究表明TP53 突變轉(zhuǎn)移性乳腺癌患者的預(yù)后明顯低于TP53 野生型患者,特別是激素受體陽性/表皮生長(zhǎng)因子受體2 陰性和三陰性隊(duì)列患者.在TP53 突變的患者中,DNA 結(jié)合域中非錯(cuò)義突變的乳腺癌患者的相關(guān)生存率更低.
MYC 是細(xì)胞生長(zhǎng)、增殖、代謝、分化和凋亡的關(guān)鍵調(diào)控因子,它的擴(kuò)增或過表達(dá)常見于多種惡性腫瘤.乳腺癌中MYC 的解除涉及多種機(jī)制,包括基因擴(kuò)增、轉(zhuǎn)錄調(diào)節(jié)、mRNA 和蛋白質(zhì)穩(wěn)定,這與腫瘤抑制子的缺失和致癌途徑的激活相關(guān).Xu 等[25]報(bào)道了腫瘤抑制因子BRCA1 能夠抑制MYC 的轉(zhuǎn)錄和轉(zhuǎn)化活性,并且BRCA1 缺失和MYC 過表達(dá)導(dǎo)致乳腺癌的發(fā)生,特別是基底細(xì)胞樣亞型的乳腺癌.Terunuma 等[26]發(fā)現(xiàn)乳腺癌中2-羥戊二酸水平升高與MYC 通路激活之間存在關(guān)聯(lián),并在人類乳腺上皮細(xì)胞和乳腺癌細(xì)胞中MYC 的過表達(dá)和敲低進(jìn)一步證實(shí)了這一關(guān)系.Camarda 等[27]通過靶向代謝組學(xué)方法,發(fā)現(xiàn)脂肪酸氧化中間體在MYC 驅(qū)動(dòng)的三陰性乳腺癌模型中顯著上調(diào).
PVT1 在多種惡性腫瘤中高表達(dá),是潛在的癌基因,它還可與MYC 基因相互作用,通過多種途徑參與惡性腫瘤細(xì)胞的增殖、凋亡等調(diào)控.Cho 等[28]證明了PVT1 啟動(dòng)子具有獨(dú)立于PVT1 lncRNA的腫瘤抑制功能,且PVT1 啟動(dòng)子CRISPR 增強(qiáng)了乳腺癌細(xì)胞在體內(nèi)的競(jìng)爭(zhēng)和生長(zhǎng).Tang 等[29]報(bào)道了PVT1 在臨床三陰性乳腺癌中上調(diào),并促進(jìn)KLF5/beta-catenin 信號(hào)通路以驅(qū)動(dòng)三陰性乳腺癌的發(fā)生.Wang 等[30]的研究表明,PVT1 的表達(dá)增加與乳腺癌患者的臨床分期、淋巴結(jié)轉(zhuǎn)移和總生存率有關(guān).
為進(jìn)一步驗(yàn)證預(yù)測(cè)得到的致病基因與乳腺癌密切相關(guān),首先利用ToppGene 工具(網(wǎng)址:https://toppgene.cchmc.org/)進(jìn)行基因富集分析.基因富集分析是指將一組基因按照基因組注釋信息進(jìn)行分類的過程,能夠發(fā)現(xiàn)基因間是否具有某方面的共性.基因組注釋信息存儲(chǔ)于基因注釋數(shù)據(jù)庫(kù)(Gene anotation database),能夠幫助理解基因功能,發(fā)現(xiàn)基因與疾病之間的關(guān)聯(lián)等.本文采用的基因注釋數(shù)據(jù)庫(kù)是基因本體數(shù)據(jù)庫(kù)(Gene ontology,GO),其涵蓋多種語義分類,如分子功能、生物學(xué)過程、細(xì)胞組分等.GO 術(shù)語 (GO term) 是GO 數(shù)據(jù)庫(kù)中的基本描述單元,可描述基因產(chǎn)物的功能,例如:GO 術(shù)語:regulation of DNA biosynthetic process 描述的是一組基因在生物過程中對(duì)DNA 生物合成過程起調(diào)節(jié)作用.
在富集分析圈圖(圖7~8)中,圓形的左半圓部分表示基因,右半邊表示GO 術(shù)語,基因與GO術(shù)語之間有連線表示基因產(chǎn)物與GO 術(shù)語相關(guān),一個(gè)基因與越多GO 術(shù)語相連,則表示該基因的產(chǎn)物功能越多.圖7 是在N=188 時(shí),前10個(gè)致病基因的富集分析圈圖,其中基因CCDC26 無法與其他基因得到富集結(jié)果.圖7 中的GO 術(shù)語是從富集結(jié)果的眾多GO 術(shù)語中與乳腺功能密切相關(guān)的15個(gè)GO 術(shù)語,基因MYC 與最多數(shù)目的GO 術(shù)語相連,且與多個(gè)乳腺癌相關(guān)的GO 術(shù)語有關(guān),表示MYC與乳腺癌的發(fā)生、發(fā)展最為密切,其次是基因TP53,以此類推.由此可見,圖7 中的9個(gè)基因的產(chǎn)物都與乳腺癌的發(fā)病過程相關(guān).雖然CCDC26 無法與其他基因得到富集結(jié)果,但在文獻(xiàn)[31]中,CCDC26作為下調(diào)基因,可在多種癌癥的發(fā)生過程產(chǎn)生作用,例如白血病、膠質(zhì)瘤等.
圖7 當(dāng)N =188 時(shí),BCDQN 預(yù)測(cè)的前10個(gè)致病基因的富集分析圈圖Fig.7 The enrichment analysis circle diagram of the top 10 pathogenic genes predicted by BCDQN under the condition of N=188
圖8 是在N=420 時(shí),前10個(gè)致病基因的富集分析圈圖,本文從富集結(jié)果的眾多GO 術(shù)語中選擇了與乳腺功能密切相關(guān)的18個(gè)GO 術(shù)語.基因TP53、MYC、PIK3CA、PVT1 和TG 與這18個(gè)GO 術(shù)語相關(guān),表明與乳腺癌有關(guān)聯(lián).雖然基因HHLA1、ASAP1 與上述18個(gè)GO 術(shù)語無關(guān),但與基因MYC、PVT1、TG 一起與GO 術(shù)語:Human Leukemia Schoch05 1052genes 相關(guān),即與白血病相關(guān).基因SNORA12 在文獻(xiàn)[32]中被驗(yàn)證為宮頸癌的8個(gè)過表達(dá)基因之一.通過RNA 測(cè)序結(jié)果,基因RN7SL329P 是前列腺癌中前10 位差異表達(dá)的IncRNAs[33].
值得注意的是,生命科學(xué)是一門實(shí)驗(yàn)科學(xué),由人類在長(zhǎng)期的科學(xué)探究中不斷積累知識(shí)逐步完善.本文預(yù)測(cè)的部分致病基因現(xiàn)階段雖與乳腺癌無直接關(guān)聯(lián),但都參與了其他癌癥的發(fā)生過程,可作為乳腺癌的候選致病基因以待臨床驗(yàn)證.導(dǎo)致乳腺癌風(fēng)險(xiǎn)增加最常見的突變基因BRCA1、BRCA2 和PALB2 沒有出現(xiàn)在本實(shí)驗(yàn)中,這是由于這些基因的突變率沒有達(dá)到實(shí)驗(yàn)設(shè)置要求,即在N=188 和N=420的實(shí)驗(yàn)中不包含這些基因.受篇幅限制,這里僅提供兩種方法預(yù)測(cè)的前10個(gè)基因,排名靠后的基因不再進(jìn)行分析,但是,這并不代表這些基因與乳腺癌無關(guān),例如,N=420 的實(shí)驗(yàn)結(jié)果中,基因PIK3CA 排在第2 位,但在N=188 的實(shí)驗(yàn)結(jié)果中,其排在第23 位.
本文基于乳腺癌突變數(shù)據(jù),構(gòu)建多智能體強(qiáng)化學(xué)習(xí)環(huán)境,并根據(jù)突變數(shù)據(jù)特性設(shè)計(jì)了兩種基于演示學(xué)習(xí)的多智能體DQN.借鑒行為克隆思想提出BCDQN,將患者死亡狀態(tài)作為專家信息,對(duì)智能體的每一步探索都給予指導(dǎo),最終實(shí)現(xiàn)探索經(jīng)驗(yàn)池與專家經(jīng)驗(yàn)池完全同分布.為了滿足更多智能體快速進(jìn)行強(qiáng)化學(xué)習(xí),并減小樣本間的相關(guān)性,提出PMDQN 通過預(yù)訓(xùn)練方式將一定數(shù)量的專家經(jīng)驗(yàn)保存在專家經(jīng)驗(yàn)池中,然后令智能體進(jìn)行隨機(jī)探索,加快智能體探索到與專家策略相同的策略.最后,通過基因富集分析對(duì)預(yù)測(cè)得到的致病基因進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,本文方法能夠挖掘出乳腺癌致病基因.同時(shí),該算法也挖掘出一些與其他癌癥的發(fā)生過程相關(guān)的基因,可作為乳腺癌的候選致病基因.
未來的研究工作包括設(shè)計(jì)癌癥連續(xù)數(shù)據(jù)的強(qiáng)化學(xué)習(xí)環(huán)境,進(jìn)一步提出適用于連續(xù)數(shù)據(jù)的多智能體強(qiáng)化學(xué)習(xí)算法.