施雯靖,潘賢潤,呂哲宇,詹超英,沈百榮*
(1. 四川大學華西醫(yī)院疾病分子網絡前沿科學中心 成都 610212;2. 成都中醫(yī)藥大學醫(yī)學技術學院 成都 610075;3. 四川化工職業(yè)技術學院數字經濟學院 四川 瀘州 646300)
口腔鱗狀細胞癌(oral squamous cell carcinoma,OSCC)是一種特發(fā)在口腔的惡性腫瘤,癌變的鱗狀細胞可發(fā)生在牙齦、硬腭、舌、頰粘膜、唇等器官,屬于頭頸部最惡性的腫瘤,超過50%的頭頸部癌癥為口腔鱗狀細胞癌[1]。2020 年,全球范圍內口腔癌死亡病例177 757 例(占全部癌癥的1.8%),新增病例377 713 例(占全部癌癥的2%)[2],而超過90%的口腔癌為口腔鱗狀細胞癌[3]。盡管發(fā)病率和死亡率從1975 年起有所下降[4],但目前沒有針對口腔癌的常規(guī)篩查測試或計劃,也沒有血液測試可以進行診斷,幾乎一半口腔癌或口咽癌在首次診斷時已擴散到淋巴結。2006 年,以EGRF 為靶點的西妥昔單抗被FDA 批準用于治療口腔鱗狀細胞癌,是目前唯一可用于口腔鱗狀細胞癌的分子靶向療法[5],西妥昔單抗的有效性與病人的遺傳和基因表達譜有關[6]。
煙草和酒精是口腔鱗狀細胞癌最強的兩個生活習慣相關的風險因素。文獻[7]指出,口腔癌的發(fā)病風險會隨著吸煙時間和每日吸煙頻率的增加而顯著增加。煙草中發(fā)現的許多化學物質會直接破壞DNA,造成生長失控。目前的研究并不確定酒精是否會直接損害DNA,但已經有研究證明,酒精有助于許多破壞DNA 的化學物質更容易進入細胞[8],并且酗酒和大量吸煙的人患口腔癌的風險比不吸煙不喝酒的人高30 倍[9]。遺傳突變決定了部分人對某些類型的致癌化學物質進行分解的能力較差,因此他們對煙草、酒精和某些工業(yè)化學品的致癌作用更為敏感。文獻[6]提出與非OSCC 的頭頸癌和其他鱗狀細胞癌相比,HRAS 和PIK3CA 是唯一顯著突變的致癌基因,并且此類突變的分布在具有不同風險習慣(吸煙、過度飲酒或嚼檳榔)的人群中也是不同的。
2011 年,文獻[10]發(fā)布了口腔癌相關基因數據庫OCDB v.2,包括了374 個基因。但其相關性的可信度不足,數據庫中并不能提供明確的報道證實某一基因與口腔癌相關。該數據庫的初始版本距今已過十年,數據在此期間沒有進行更新。文獻[11]建立了哥本哈根口腔鱗狀細胞癌數據庫,但該研究重點關注患者的臨床信息,沒有收錄關于基因或突變方面的數據,且出于隱私保護的考慮,該數據庫并未公開發(fā)表。文獻[12]于2021 年發(fā)表了口腔癌基因組變異數據庫dbGENVOC,但其數據僅包括325 名印度口腔癌患者和手動整理出版文獻中的118 名患者數據,同時只簡單納入了變異的描述信息,對患者沒有任何描述。遺傳變異與疾病的關系并不是單一的,在不同的患者間也存在異質性的問題。因此,上述3 個數據庫對臨床的參考與應用價值有限。對于目前已有的遺傳變異數據庫,如Clinvar和OMIM,盡管它們包含的疾病種類非常全面,但并未收錄研究對象的臨床信息,也就無法直接在臨床上利用其數據。
精準醫(yī)療和數據驅動的第四科學研究范式的發(fā)展[13],需要基因組學和臨床組學融合的數據。本文通過把碎片性的口腔鱗狀細胞癌相關遺傳變異與對應的臨床信息融合起來,構建了口腔鱗狀細胞癌遺傳變異數據庫(the OSCC genetic variation database,GVDoscc) (http://sysbio.org.cn/GVDoscc)。為 口 腔領域的相關工作者提供了高質量的開源數據集。
從美國國家生物信息技術中心(the national center for biotechnology information, NCBI)建立的Pubmed(https://pubmed.ncbi.nlm.nih.gov/)數據庫使用檢索詞“(Oral Squamous Cell Carcinoma[ti] OR OSCC[ti])NOT review[ptyp] AND English[LA] AND (1991/01/01[DP]: 2021/7/1[DP])”獲取英文非綜述類文獻6 137 篇,作為本文的數據源。
數據庫的收集、搭建流程和功能簡介如圖1 所示,從Pubmed 數據庫獲取到口腔鱗狀細胞癌的相關文獻后,利用PubTator 對全文中的基因或突變進行注釋。PubTator 是一種網絡服務工具,為基因與蛋白質、遺傳變異、疾病、化學物質、物種和細胞系提供來自文本挖掘系統(tǒng)的自動注釋[14]。若整篇文章中都未曾出現一次基因或突變的名稱,則刪去此文獻;然后對篩查得到的3 884 篇文獻進行人工注釋,并對Pubtator 的注釋進行二次核查。數據庫采用B/S 結構(Browser/Server,瀏覽器/服務器模式),用戶可以通過瀏覽器直接進行訪問,前端網頁由html 和JavaScript 完成,后端服務器采用Apache搭建而成,PHP 用于連接后臺數據庫,數據存儲在MySQL 數據庫中。用戶可以通過在線訪問數據庫來進行分類瀏覽或檢索自己需要的信息,統(tǒng)計頁面也提供了對所有收錄數據的整體統(tǒng)計,用戶還可以在提交頁面上傳新數據,經管理員審核通過后,將會被添加進數據庫中。
圖1 GVDoscc 數據庫搭建流程
1.2.1 篩選標準
本研究在文獻初篩后,基于人工閱讀方式,采用以下納入和排除標準對文獻進行篩選。
納入標準。1) 在Pubmed 數據庫中公開發(fā)表的有關口腔鱗狀細胞癌遺傳變異的流行病學研究;2) 具有臨床上確診為口腔鱗狀細胞癌的患者及其對照樣本信息。
排除標準。1)評論、社論等不予收錄;2)病例報告所包含的樣本量太少,不具有普適性,不予收錄;3) 綜述及meta 分析文章,追溯文中數據來源原文按納入排除標準處理。
1.2.2 數據庫結構
數據庫主要由3 張實體表和1 張關系主表(Main)組成,實體表包括樣臨床樣本表(Sample)、參考文獻表(Reference)以及變異表(Mutation)。具體描述如下。
樣本表:樣本編號(Sample ID)、試驗對象年齡(Age)、試驗對象國籍(Country)、試驗人數(Size)、性別(Gender)、樣本來源(Source);
參考文獻表:PMID(該文獻在Pubmed 中的編號)、發(fā)表年份(Year)、文獻題目(Title)、作者(Author)和期刊名(Journal);
變異表:變異編號(Mutation ID)、變異分類(Classification)、變異名稱(Name)、變異位點(Position)、堿 基 變 化(Base variation)、變 異 結 果(Consequence)、基因(Symbol)、基因所在位點(Gene location)、氨基酸變化(Amino Acid variation);
主表:數據唯一的主編號(Main ID)、變異所導致的病理作用(Pathological Function)、臨床特征(Clinical Significance)、臨床應用(Application)、患者的變異頻率(Patient-frequency)、對照的變異頻率(Control-frequency)、結論(Summary)。
1.3.1 PPI 網絡分析
String 數據庫旨在收集、評分和整合所有公開可用的蛋白質?蛋白質相互作用信息來源,并通過計算預測來補充這些信息。String 目前版本為v11.5,已收錄人類(Homo sapiens)的19 303 個蛋白[15]。將收錄的基因映射到String 數據庫中(置信度>0.9),構建了蛋白質互作(protein protein interaction, PPI)網絡,并通過Cytoscape 計算節(jié)點的度中心性,以降序排列,取前5%為關鍵基因。Cytoscape 是一個專注于網絡可視化和分析的開源軟件項目,用于將生物分子交互網絡、高通量基因表達數據和其他的分子狀態(tài)信息整合在一起[16]。
1.3.2 功能富集分析基因本體(gene ontology, GO)是一個在生物信息學領域中廣泛使用的本體,包含了生物學領域知識體系本質的表示形式,從基因的分子功能、生物過程和細胞組分這3 方面對目標進行注釋[17]。GO可用于系統(tǒng)分析和標注基因產物的功能;KEGG 數據庫則是用于分子水平信息,尤其是基因組測序等高通量生成的大規(guī)模數據集,來了解細胞、生物和生態(tài)等生物系統(tǒng)的高級功能和效用[18];KEGG 的通路數據庫可用于系統(tǒng)層次的疾病機制的分析。在數據庫構建的基礎上,本文對數據庫中的基因進行了GO 富集分析(P值<0.05)和KEGG 通路富集分析(P值<0.05,富集倍數>2)。
在經過上述的篩選和整理后,本文共收錄了1 020種口腔鱗狀細胞癌相關遺傳變異,涉及到436 個蛋白編碼基因和18 個miRNA 基因,相關臨床樣本總數為82 863 個。其中,明確標明為男性和女性的分別為44 475 個和15 169 個,具體數據統(tǒng)計見表1。其中,部分樣本數據沒有注釋性別,導致男性樣本和女性樣本人數之和小于樣本總人數。
表1 數據庫基本數據統(tǒng)計
根據在原始試驗中,該遺傳變異參與的正常生物學過程、病理過程及治療干預藥理學反應,將其按生物標志物類型分為診斷、治療和預后3 類(8%、29%、30%),其中,非單一類型的生物標志物(占診斷、治療和預后的2 種及以上)共182 個,占33%。
按照數據庫的結構和應用需求,本文設計了7 個在線使用的功能模塊:網頁基本介紹、分類瀏覽、高級檢索、統(tǒng)計結果展示、數據提交、用戶幫助和管理維護。
基本介紹:對數據庫的內容進行基本介紹,展示引用相關資源、相關數據庫和研究機構網址等信息。
分類瀏覽:用戶可根據3 種分類方式(變異類型、臨床樣本來源、突變的相關基因分類等)對數據進行瀏覽。
高級檢索:用戶根據突變名稱、數據來源(地點)、基因名稱等條件檢索需要的信息。
統(tǒng)計結果:主要由遺傳變異的分類、頻率排前10 位的基因、突變在染色體上分布和臨床樣本來源的地理位置分布熱圖組成。
數據提交:用戶只需填寫4 個條目,包括突變名稱、參考文獻、聯系郵箱和細節(jié),即可提交新數據,其中突變名稱與郵箱為必填項。在審核成功后,系統(tǒng)會將新的數據添加進本數據庫中。
用戶幫助:詳細介紹了數據庫的操作方式,確保用戶能夠正確查找到自己需要的信息。
管理維護:對數據庫進行更新與維護,更新間隔保持在3~6 個月,在數據更新時,相應的統(tǒng)計也會進行更新。
2.3.1 PPI 分析結果
首先將收錄的436 個編碼基因通過String 映射到PPI 網絡中,成功映射了256 個節(jié)點與1 085 條關系。通過度中心性,共篩選出了12 個關鍵基因,如圖2 與表2 所示,包括PIK3R1、TP53、PIK3CA、MAPK1、HRAS、AKT1、KRAS、RHOA、MYC、EGFR、RELA 以及NRAS。
表2 關鍵基因在OSCC 中的功能
圖2 口腔鱗狀細胞癌相關基因所構成的蛋白質相互作用網絡
2.3.2 功能富集分析結果
將收錄的基因進行GO 富集分析,得到了549 個生物過程、63 個細胞組分和106 個分子功能。在經過KEGG 通路分析后,得到了118 個相關通路,對上述4 種分析方式的前10 條結果按基因數目降序排列,見表3~表6。
表3 根據基因數目排列的前十位生物過程
表4 根據基因數目排列的前十位細胞成分
表5 根據基因數目排列的前十位分子功能
表6 根據基因數目排列的前十位KEGG 通路
由表3 可見,富集最多在RNA 聚合酶II 啟動子轉錄的正調控(17.59%)上,RNA 聚合酶II 的作用是催化DNA 轉錄,合成mRNA 及大多數hnRNA和miRNA 的前體;細胞組分:超過30%的基因富集在細胞核(43.43%)、細胞質(37.42%)和細胞膜(32.74%)上;分子功能:富集結果都與結合密切相關,其中蛋白結合(64.14%)上在此次分析中富集的基因最多,牽涉了288 個基因。在經過KEGG通路分析后發(fā)現基因顯著富集在癌癥途徑(pathways in cancer)上,并且參與了PI3K-Akt 信號通路和黏著斑(focal adhesion)。
基于基因表達模式的分類表明,OSCC 可以分為不同的亞型,文獻[19]通過免疫組化發(fā)現在不同OSCC 亞型中,EGFR、MTDH 和ERCC1 的表達水平存在顯著的差別。文獻[20]發(fā)現不同的腫瘤亞型對不同類型的療法存在優(yōu)先反應[20]。因此,需要高質量的數據庫來對患者的免疫狀態(tài)進行精確判斷,本文將Pubmed 中碎片化的結論收集起來,基于1991?2021 年間的334 篇文獻中的1 020 條遺傳變異數據,構建了一個全面、專業(yè)的口腔鱗狀細胞癌數據庫,對變異進行分類和對樣本信息進行歸納。在生物信息學分析后發(fā)現,PPI 的關鍵基因包括PIK3、RAS 家族和基因TP53 等。PI3K 參與的PI3K-Akt 通路,調節(jié)了細胞的增殖分化、凋亡等多種功能,在KEGG 同樣也被富集,其過度活化與人體腫瘤的發(fā)展密切相關[21],早在2006 年就有第一個新型PI3K 抑制劑開始了臨床試驗[22];RAS基因的突變存在于30%的人類惡性腫瘤中,其功能是調節(jié)細胞的分化增殖,被稱為細胞信號網絡傳遞中的“分子開關”[23];p53 作為TP53 基因表達的蛋白產物,在人類惡性腫瘤中普遍存在[24],被認為是目前最重要的抑癌基因。GO 分析結果主要富集在細胞的轉錄和調控、基本組成結構(細胞核、細胞膜、細胞質)上,說明此類基因與腫瘤的發(fā)生、發(fā)展或轉移密切相關。
癌癥是復雜的、異質的和動態(tài)的疾病,將腫瘤的基因分析與個體生理狀態(tài)的深度縱向分析(深度表型)相結合是預防、診斷和治療癌癥的關鍵,而挖掘深度表型首先需要提高診斷的精度[25]。從建模的角度,可以通過對不同的生物標志物進行組合和建模,提高預測口腔鱗狀細胞癌的發(fā)生和進展的準確性。未來將進一步更新數據庫的內容和結構,同時基于數據庫建立知識圖譜和知識引導的模型,通過結合臨床研究、對口腔鱗狀細胞癌的基因變異異質性進行深度分析,為臨床的精準診療提供數據和信息支撐。