余其澳 宋歡 汪曉東 李立
結(jié)直腸癌是威脅人類身體健康的主要癌癥之一,據(jù)估計僅2018年全球就新出現(xiàn)180萬結(jié)直腸癌患病病例和88.1萬死亡病例。其在全球的發(fā)病率為第三位(10.8%),死亡率為第二位(9.2%)[1]。在結(jié)直腸癌相關(guān)問題的研究過程中,生物樣本庫(Biobank)起到了難以替代的作用,在這之中,英國生物樣本庫(UK Biobank)是國際上最大的生物樣本庫之一[2-4]。
生物樣本庫是指通過規(guī)范化收集、處理和儲存的健康與患病生物所擁有的生物大分子、細胞、組織和器官等樣本的生物樣本管理系統(tǒng),生物樣本包括人體器官、組織、全血、血漿、血清、生物體液或經(jīng)初步處理過的生物樣本(DNA、RNA、蛋白質(zhì)等)以及與這些生物樣本相關(guān)的臨床、病理、治療、隨訪、知情同意等資料及其相關(guān)的質(zhì)量控制、信息管理[3]。UK Biobank于1999年設立,2006年開始運營,2006~2010年間于全英國范圍招募了50萬樣本貢獻者。其宗旨被定為:向全球范圍內(nèi)獲得準許的對“最常見以及威脅生命的疾病”進行重要研究的研究者提供樣本庫中的材料[2]。
本文大致從以下兩個方面探討UK Biobank在結(jié)直腸癌臨床治療及研究中的應用以及優(yōu)勢——UK Biobank與結(jié)直腸癌的病因分析、風險預測模型建立。
針對大群體進行研究時使用過去的數(shù)據(jù)記錄管理方法有諸多弊端,主要可以歸結(jié)于以下兩點:首先,盡管健康記錄的數(shù)字化程度不斷提高,但大部分醫(yī)療保健系統(tǒng)仍依賴于紙質(zhì)記錄和手工記錄數(shù)據(jù),從而導致數(shù)據(jù)記錄不標準化、容易出錯[5]。其次,此前的臨床研究數(shù)據(jù)往往被硬件設備、法律、知識產(chǎn)權(quán)要求、安全和保密協(xié)議所約束[6],如果沒有一個大型的計劃來將其統(tǒng)一整合,不僅使得大樣本群體的研究變得十分困難,也幾乎斷絕了那些沒有設備、資源的小型研究團隊參與研究的可能。為了解決以上問題,各國相繼提出了建立Biobank的計劃,試圖通過建立規(guī)范地收集、整理、存儲與提供的樣本管理系統(tǒng)助力臨床研究。以下分別從環(huán)境因素、內(nèi)源因素、生活方式與結(jié)直腸癌患病的關(guān)系的臨床研究中討論Biobank在結(jié)直腸癌臨床研究中存在的優(yōu)勢。
借由Biobank的大量數(shù)據(jù),可深入研究外界環(huán)境因子或者環(huán)境因子與基因之間的相互作用與結(jié)直腸癌患病之間的關(guān)系。這對結(jié)直腸癌的預防和通過個體生活環(huán)境預測其患結(jié)直腸癌的風險具有一定的指導意義。通過Biobank了解到患者的經(jīng)濟情況能夠分析患者所生活的社會環(huán)境對其患結(jié)直腸癌風險的影響。如Pang等[7]對來自中國慢性病前瞻性研究的512 715名成年人進行社會經(jīng)濟情況與結(jié)直腸癌患病之間的關(guān)系的分析,使用比例風險回歸模型來估計地區(qū)水平(GDP、可支配收入等)和個人水平(受教育程度、家庭收入等)與相關(guān)癌癥的矯正風險比(hazard ratio,HR)。發(fā)現(xiàn)GDP、可支配收入及家庭收入與結(jié)直腸癌發(fā)病率呈正相關(guān)且差異具有統(tǒng)計學意義(P<0.05),其中區(qū)域GDP分為三檔:<60000、60000~99999、>99999(CNY)。分別對應的結(jié)直腸癌HR及其95%置信區(qū)間(confidence interval,CI)為:1.00(0.92~1.09)、1.73(1.64~1.82)、1.95(1.84~2.07)??芍涫杖敕譃槿龣n:<20 000、20 000~39 999、>39 999(CNY)。分別對應的HR及 95%CI為:1.00(0.93~1.08)、1.41(1.33~1.49)、1.87(1.77~1.98)。家庭收入分為五檔:<2 500、2 500~4 999、5 000~9 999、10 000~19 999、20 000~34 999、>35 000(CNY)。對應的HR及95%CI為:1.00(0.81~1.24)、1.16(1.00~1.35)、1.31(1.19~1.44)、1.59(1.49~1.69)、1.79(1.67~1.92)、1.86(1.70~2.02)。在沒有Biobank進行統(tǒng)一收集的情況下,除非研究需要,社會經(jīng)濟狀況和身體狀況的記錄往往處于分離的狀態(tài),可能對研究造成不小的阻礙。
環(huán)境中的生物化學因子對結(jié)直腸癌的患病亦存在影響,但由于化學物質(zhì)在環(huán)境中的分布情況通常是復雜的,準確的測量化學物質(zhì)在體內(nèi)的暴露水平還存在許多客觀問題。Biobank中存有數(shù)百個性狀和數(shù)百萬個相關(guān)基因變異的信息?;诖祟悢?shù)據(jù),研究者可以通過直接確定化學物質(zhì)與基因之間的相互作用從而研究化學物質(zhì)與結(jié)直腸癌之間的關(guān)系,Tan等[8]對UK Biobank中的數(shù)據(jù)進行生物信息學分析,從遺傳學的角度探討結(jié)直腸癌與環(huán)境化學物質(zhì)之間的關(guān)系,觀測到某些化學物質(zhì)和結(jié)直腸癌患病率之間的正相關(guān)性差異具有統(tǒng)計學意義(P<0.05),并且檢測出了5種與結(jié)直腸癌患病有關(guān)的化學物質(zhì)——致癌物質(zhì)兩種:甲硝基亞硝胍(methylnitronitrosoguanidine)、異煙肼(isoniazid),具有抑制癌癥發(fā)生及發(fā)展能力的三種:PD 0325901、舒林酸硫化物(sulindac sulfide)及入核受體抑制劑(importazole)。
以上的研究表明,在研究環(huán)境因素與結(jié)直腸癌患病的關(guān)系之中,Biobank的出現(xiàn)使得研究以往因樣本數(shù)量不足、數(shù)據(jù)記錄的不標準或缺失而難以進行的研究課題成為可能,我們不否認現(xiàn)在單一研究的標準樣本能夠基本達到甚至超越Biobank的樣本數(shù)量,例如同樣是分析某類型患者社會經(jīng)濟環(huán)境與癌癥患病的關(guān)系的Ellis等[9]和Warren等[10]的研究樣本分別為加州癌癥登記處(California Cancer Registry)的897 833例樣本和美國南方社區(qū)研究的47 596例有效樣本。相較于此類研究,Biobank在臨床研究中的優(yōu)勢在于,于研究者而言,Biobank中只用上線下載即可獲得的大量高質(zhì)量數(shù)據(jù),顯然更易于獲取[8]。
癌癥的成因與內(nèi)源因素關(guān)系頗大,基于Biobank中全面的基因組、機體內(nèi)生化因子等數(shù)據(jù),研究者能夠更加簡便地研究某一內(nèi)源因素對結(jié)直腸癌患病的影響。
GeneATLAS是龐大的資源,根據(jù)UK Biobank隊列存儲了數(shù)百個性狀和數(shù)百萬個相關(guān)基因變異的信息,為研究人員從UK Biobank獲取數(shù)據(jù)提供了方便的方式[11],基于此,研究者能夠通過基因標記間接評估內(nèi)源生化因子與結(jié)直腸癌之間的關(guān)系,早期有關(guān)25-羥基維生素D(25(OH)D)水平在癌癥風險與死亡率的作用的研究存在有相當大的爭議。Ong等[12]對UK Biobank中的受試者使用5個25(OH)D基因標記評估基于基因預測的25(OH)D濃度是否與總體癌癥易感性和癌癥死亡率相關(guān)。在個體癌癥風險方面,使用固定效應反方差加權(quán)模型對公開數(shù)據(jù)進行薈萃分析。關(guān)聯(lián)估計使用因果優(yōu)勢比(casual odds ratio,COR)來表示,結(jié)果顯示未發(fā)現(xiàn)25(OH)D的濃度與結(jié)直腸癌患病風險之間存在相互作用(COR:0.94,95%CI:0.79~1.13)。Cho等[13]在對來自UK Biobank的3 523例結(jié)直腸癌患者和10 522例正常對照組分析線粒體三羧酸循環(huán)的遺傳變異與結(jié)直腸癌之間的關(guān)系,用條件logistic回歸模型估計結(jié)直腸癌的優(yōu)勢比(odds ratio,OR)和95%CI。發(fā)現(xiàn)rs35494819(SUCLG2)的突變與結(jié)直腸癌患病之間的相關(guān)性具有統(tǒng)計學意義[每增加一個次要等位基因的OR為0.82(95%CI0.74~0.92)]。并且在結(jié)直腸癌中,三羧酸循環(huán)變異體和肥胖、能量攝入和劇烈體育活動的相互作用差異均具有統(tǒng)計學意義(P<0.05),同時也發(fā)現(xiàn)在結(jié)直腸癌的檸檬酸循環(huán)的SNPs之間有顯著的SNP-SNP相互作用。
其同樣為研究體內(nèi)生化因子與結(jié)直腸癌患病的關(guān)系提供了樣本,Peila等[14]調(diào)查了性激素和性激素結(jié)合球蛋白與結(jié)直腸癌患癌風險在流行病學中的關(guān)系,選取UK Biobank中的206 508名男性和219 106名女性為樣本,使用比例風險回歸模型以評估結(jié)直腸癌患病的風險。指出未發(fā)現(xiàn)性激素和性激素結(jié)合球蛋白與結(jié)直腸癌患病風險之間的相關(guān)性。Larsson 等[15]、Knuppel等[16]和 Murphy 等[17]對 UK Biobank中的樣本分別進行胰島素樣生長因子-1(IGF-1)和患癌風險的相關(guān)性的研究,均表示血清胰島素樣生長因子-1循環(huán)水平的升高和結(jié)直腸癌患病風險增加存在因果關(guān)系。同時Murphy等[17]也發(fā)現(xiàn)胰島素樣生長因子結(jié)合蛋白3(IGFBP3)的循環(huán)水平升高預示著更高的結(jié)直腸癌患病風險。He等[18]有關(guān)循環(huán)肝功能與結(jié)直腸癌風險的前瞻性研究發(fā)現(xiàn),基線處的丙氨酸轉(zhuǎn)氨酶,谷草轉(zhuǎn)氨酶,總膽紅素,γ谷氨酰轉(zhuǎn)移酶,總蛋白和白蛋白循環(huán)水平與患結(jié)直腸癌風險呈負相關(guān)(P<0.01),多變量風險比(HR)及95%CI分別為 0.62(0.51~0.75)、0.63(0.53~0.75)、 0.85(0.72~1.02)、 0.74(0.61~0.89)、0.70(0.59~0.84)和0.66(0.55~0.79)。與遠端結(jié)腸癌和直腸癌相比,近端結(jié)腸癌的此種相關(guān)性更強,但早、中、晚發(fā)結(jié)直腸癌的此種相關(guān)性一致。
不僅是機體內(nèi)的生物化學物質(zhì),利用Biobank的數(shù)據(jù)也能夠研究機體的宏觀健康狀況與結(jié)直腸癌患病的關(guān)系,Hillreiner等[19]進行了一項有關(guān)心肺健康與結(jié)直腸癌關(guān)系的研究。心肺健康被定義為75%最大心率下的體力工作能力,標準化體重(PWC75%)。實驗樣本為59 191名UK Biobank中的受試者。使用多變量比例風險回歸模型來獲取多變量矯正風險比(HR)和相應的95%置信區(qū)間(CI)。發(fā)現(xiàn)在比較PWC75%的第75和第25百分位時,結(jié)直腸癌的多變量矯正風險比為0.78(95%CI:062~0.97),表明心肺健康與結(jié)腸癌患病風險呈負相關(guān)(HR:0.74,95%CI:0.56~0.97),與直腸癌患病風險呈負相關(guān)(HR:0.88,95%CI:0.62~1.26)。
以上研究表明基于Biobank的研究有助于發(fā)現(xiàn)或證實機體內(nèi)生物化學因子及機體的健康狀況與結(jié)直腸癌患病風險之間的相關(guān)性,并可以借這些聯(lián)系提出相應的能預測結(jié)直腸癌患癌的生物學標志物。并且不難看出,Biobank可以為內(nèi)源因素中多個不同的研究方向提供充足的研究樣本,無論是基因、內(nèi)源生化因子還是機體的宏觀健康狀況,Biobank都有相應的樣本儲備,這一特性是具有前瞻性的,可以為未來可能的研究方向提供樣本,而不是在研究人員確定研究方向之后再開始收集有關(guān)的研究數(shù)據(jù),顯著地縮短了研究周期。
建設UK Biobank時,研究員通過24小時的在線膳食評估收集食物和飲料攝入的信息[2]。以往有關(guān)飲食和結(jié)直腸癌患病之間的關(guān)系的研究大多基于20世紀90年代的飲食攝入情況。而現(xiàn)在得益于Biobank中大量患者的病理、治療、隨訪數(shù)據(jù),患者生活方式(膳食等)與結(jié)直腸癌患病之間的聯(lián)系可被更加精確地研究并為結(jié)直腸癌的早期預防給出意見。Bradbury等[20]使用飲食頻率問卷來調(diào)查UK Biobank中的475 581名受試者。使用比例風險回歸模型來估計膳食因素調(diào)整后的結(jié)直腸癌風險比。發(fā)現(xiàn)與平均每天攝入21克紅肉和加工肉制品的參與者相比,平均每天攝入76克紅肉和加工肉制品的參與者患結(jié)直腸癌的風險要高出20%(95%CI:4%~37%)(P<0.05)。Knuppel等[21]也得出了類似的結(jié)論。Bradbury同時在研究中指出,尚無證據(jù)表明其他肉類(魚、家禽等)與結(jié)直腸癌患癌相關(guān)。與不攝入酒精的參與者相比,攝入酒精超過10克/天的參與者患結(jié)直腸癌的風險增加了8%(95%CI:4%~12%)(P<0.01)。無證據(jù)表明奶酪、水果、蔬菜、茶和咖啡會影響結(jié)直腸癌患癌風險。
Biobank在這方面的作用對比其余的研究計劃所使用的樣本,如Bernstein等[22]用作研究樣本的護士健康研究(NHS)以及Tabung等[23]用作樣本的衛(wèi)生專業(yè)人員隨訪研究(HPFS),并無太大優(yōu)勢可言。
總的來說,在Biobank結(jié)直腸癌的病因分析中起到的作用大致有以下幾點:(1)提供多樣的高質(zhì)量的樣本,盡管單一研究的樣本能夠達到甚至超越Biobank的樣本數(shù)量以及質(zhì)量,但為單一的研究而收集的樣本數(shù)據(jù)較為有限,相較之下,Biobank存儲的數(shù)據(jù)更加多元,能夠為各類研究以相對較低的資源消耗提供相應的大量高質(zhì)量樣本,且存在只使用Biobank中的數(shù)據(jù)就能完成大部分有關(guān)病因分析的臨床研究的可能;(2)過去大規(guī)模研究樣本的獲取對于小型研究團隊而言幾乎不可能實現(xiàn),但Biobank的出現(xiàn)使得這一切成為可能[24];(3)減少了研究者為進行研究花費的數(shù)據(jù)收集整理的時間,縮短研究周期。
臨床應用上,風險預測模型作為評估和量化風險與效益的基本工具,能為醫(yī)療工作者的決策提供更加直觀理性的信息,為臨床研究者更加精準地篩選合適的研究對象。而且隨著經(jīng)濟發(fā)展及技術(shù)進步,數(shù)據(jù)分析的能力逐漸升高,臨床預測模型更傾向于采用更大的數(shù)據(jù)更復雜的模型和算法,達到更精確的結(jié)果?;贐iobank中大量的數(shù)據(jù)可以建立或者改進風險預測模型、評價已有風險預測模型的預測能力和指明未來的研究方向。而在臨床上,風險預測模型主要分為診斷模型和預后模型[25],以下分別從這兩個方面來說明Biobank在結(jié)直腸癌臨床風險預測模型的建立之中的應用。
UK Biobank能用于檢測風險預測模型的效果,使用這種檢測能力,讓風險預測模型的預測能力的驗證更加簡便。如Jia等[26]利用全基因組相關(guān)研究構(gòu)建了多基因風險評分(polygenic risk scores,PRS)并用其對多種癌癥的突變體進行風險評估。發(fā)現(xiàn)在對UK Biobank中的400 812名參與者進行中位數(shù)為5.8年的隨訪后,與平均風險人群相比,PRS最高的前5%的個體患結(jié)直腸癌的風險增加了2~3倍,這表明PRS能在癌癥風險升高時識別出較大比例的人群,證明PRS存在用于個性化癌癥風險預測的潛在的臨床效用。
Biobank也可被用于風險預測模型預測效果的橫向比較,Li等[27]進行了一項探究基于常見基因多態(tài)性的預測實現(xiàn)結(jié)直腸癌風險的分期可能性的研究。先在蘇格蘭結(jié)直腸癌病例對照研究中對此前發(fā)布的11項全基因組關(guān)聯(lián)分析(GWAS)進行比較,發(fā)現(xiàn)針對116個結(jié)直腸癌單核苷酸多態(tài)性的加權(quán)多基因風險評分(wPRS116)具有最好的預測能力。并且其預測性能在UK Biobank中得到了證實。實驗表明,在英國的一般人群中,利用遺傳風險分析可以實現(xiàn)中等程度的風險鑒別,這可能有助于識別由于遺傳易感性而具有更高患結(jié)直腸癌風險的亞群體。Saunders等[28]在不確定生活方式/環(huán)境(基于問卷的/經(jīng)典的/表型的)危險因素的情況下,外部驗證及比較為預測結(jié)直腸癌患病而建立的常見基因多態(tài)性(單核苷酸多態(tài)性)的風險評分的研究表明:在不考慮年齡的情況下,增加表型危險因素可以改善對男性的結(jié)直腸癌辨別能力,但對女性沒有效果。而添加表型危險因素和年齡則提高了對所有病例的鑒別度。其中表現(xiàn)最好的模型包括單核苷酸多態(tài)性、表型危險因素和年齡。同時指出在未來的分層結(jié)直腸癌篩查項目中都應該考慮將基因和生活方式/環(huán)境信息納入的可能。
通過對Biobank的數(shù)據(jù)研究可以發(fā)現(xiàn)癌癥復發(fā)或轉(zhuǎn)移的標志物從而指導術(shù)后輔助治療以改善患者的預后。Kodeda等[29]評估了原發(fā)性直腸癌的基因改變預測直腸癌局部復發(fā)的能力,使用瑞典薩爾格林斯卡醫(yī)院臨床數(shù)據(jù)庫中的兩組直腸癌切除患者(R0),一組較早出現(xiàn)局部復發(fā),一組在93個月的隨訪后近似認為痊愈。用CGH陣列(比較基因組雜交)分析原發(fā)腫瘤的DNA后發(fā)現(xiàn)在腫瘤局部復發(fā)的DNA中4q31.1-31.22區(qū)域的拷貝數(shù)增加有統(tǒng)計學意義(P<0.05),即此區(qū)域的擴增可能表示存在局部復發(fā)的高可能性。Messick等[30]的一項評價癌胚抗原細胞黏附分子-7(CEACAM-7)作為生物標志物對直腸癌復發(fā)的的預測研究,研究員從克利夫蘭診所的結(jié)直腸癌數(shù)據(jù)庫和冷凍組織Biobank中選取樣本,采用實時熒光定量聚合酶鏈式反應分析直腸黏膜組織和直腸癌組織中CEACAM-7 mRNA的表達。得出CEACAM-7在直腸癌中的表達相較正常黏膜降低了21倍(P<0.01),在復發(fā)腫瘤中CEACAM-7的表達水平相對較低,即可以通過其存在于長期存活者和復發(fā)性疾病患者之間的表達差異引入潛在的腫瘤標志物,以定義輔助治療獲益最大的患者子集。Messick等[31]在對原發(fā)結(jié)直腸癌及其相應的淋巴結(jié)轉(zhuǎn)移之間的分子差異進行研究,發(fā)現(xiàn)腫瘤細胞的分子特征,特別是CpG島的甲基化分子表型在原發(fā)腫瘤和相應的淋巴結(jié)轉(zhuǎn)移灶之間是不同的。因此在輔助治療的決定中應該將淋巴結(jié)轉(zhuǎn)移灶和原發(fā)腫瘤的分子表型納入考慮。
在精準醫(yī)學的時代,無論是腫瘤的精準醫(yī)療或者是個體化醫(yī)療,都是以群體的遺傳背景等數(shù)據(jù)為基礎(chǔ)信息,通過深入的數(shù)據(jù)分析找出規(guī)律,指導個人的特征性診療。Biobank在這之中的作用是難以替代的,其重要作用主要有以下三點:其一,以UK Biobank為主的Biobank為結(jié)直腸癌的臨床研究提供了大量而且全面的實驗數(shù)據(jù)和生物樣本,為精準醫(yī)療的建設發(fā)展做出了彌足輕重的貢獻,其所有的樣本也在試驗成果轉(zhuǎn)化并應用于臨床醫(yī)療的過程中占據(jù)著不可或缺的地位,對于結(jié)直腸癌的病因探究、預防、治療、診斷有巨大的影響[4]。其二,Biobank因其樣本采集存儲整理的標準化,擁有多樣的高質(zhì)量的樣本,相較為有限幾個對象的研究而收集的樣本,Biobank數(shù)據(jù)的存儲更加多元,能夠為各種研究以相對較低的資源消耗提供相應的大量高質(zhì)量樣本,且存在只使用Biobank中的數(shù)據(jù)就能完成大部分臨床研究的可能。其三,此前的臨床研究數(shù)據(jù)往往被拘束在硬件設備、法律、知識產(chǎn)權(quán)要求、安全和保密協(xié)議造就的孤島上,Biobank的建立使得那些沒有設備或機會來產(chǎn)生或獲得這些數(shù)據(jù)的小型研究小組也能夠獲得這些寶貴的數(shù)據(jù)資源[24]。