陳敬恒 陳凱奇 何達東 石宇雄
廣州市番禺區(qū)中醫(yī)院骨傷科,廣東廣州 511400
絕經婦女骨質疏松癥(postmenopausal osteoporosis,PMOP)屬Ⅰ型原發(fā)性骨質疏松癥,主要發(fā)病機制為女性絕經后雌激素水平下降,骨量丟失,骨脆性增加,其導致的骨折會極大地增加患者的致殘率、病死率,加重社會經濟負擔,現已成為重要的公共衛(wèi)生問題[1]。PMOP 發(fā)病的本質是成骨、破骨細胞的活動發(fā)生紊亂,骨代謝平衡被打破。長鏈非編碼RNA(long noncoding RNA,lncRNA)是不翻譯蛋白質的功能性RNA 分子,參與轉錄調控、轉錄后調控、表觀遺傳調控等過程,對機體重要的生物學功能起到調節(jié)作用[2]。近年來隨著測序技術快速發(fā)展,多項研究報道,lncRNA 可能參與調控機體骨代謝平衡[3-5],但目前l(fā)ncRNA 參與調控PMOP 的分子機制尚不明確。機器學習是通過計算機模擬人類學習過程涉及的概率學、統(tǒng)計學、人工智能的新興學科,被廣泛應用于生物醫(yī)學領域[6-7]。隨機森林算法通過對分類變量進行反復迭代計算評分,生成高準確度分類器,篩選關鍵變量,常被作為挖掘生物標記物的重要機器學習算法[8]。本研究擬通過隨機森林算法篩選PMOP 的關鍵lncRNA,并通過生物信息學方法預測分析靶標基因及其相關生物學過程,為PMOP 的診斷治療提供新的靶點方向。
從基因表達數據庫檢索PMOP 患者芯片數據,檢索時限為建庫至2020 年12 月。下載GSE56815 芯片數據,該芯片基于GPL96 HG-U133A 平臺檢測,包括40 例PMOP 患者與40 名正常絕經后女性的測序數據。
使用R 語言oligo 軟件包[9]對GSE56815 芯片數據進行RMA 基因校正標準化處理,通過Ensemble Gene 97 數據庫[10]進行基因重注釋,獲得基因類型、基因名及探針對應關系,獲得lncRNA 表達矩陣。當有多個探針對應同一個基因時,取平均值作為最終表達值。
使用R 語言Randomforest 軟件包建立隨機森林模型,該模型通過隨機生成lncRNA 分類樹并對分類結果打分,隨后模型會對所有單棵樹的分類結果進行統(tǒng)計判定,獲得高準確性分類結果。使用Caret 軟件包對上述分類結果進行重要性排序,篩選前10 位關鍵lncRNA。
靶標基因是非編碼RNA 參與調控生物學過程的重要中介分子,本研究使用starBase V2.0 數據庫[11]進行l(wèi)ncRNA 靶標基因預測分析。將lncRNA 的Gene Symbol 上傳至starBase V2.0,設定物種為“Homo sapiens”(人類),運行預測分析,數據庫將識別目標lncRNA 并對基于文獻、實驗驗證的靶標基因結果進行匯總。
生物學過程依賴于遺傳物質翻譯的蛋白質分子互相協(xié)作完成,對共同參與相關生物學過程的基因進行PPI 分析與網絡構建,有助于深入理解基因作用關系。借助在線網站STRING V11[12]進行靶標基因PPI 網絡構建與分析,將靶標基因上傳至STRING 進行分析,下載保存結果。
預測靶標基因富集的KEGG 信號通路[13]、GO 生物學注釋[14]過程,有助于探索lncRNA 調控PMOP 的分子機制。使用clusterProfiler[15]軟件包進行GO 富集分析,使用在線數據庫KOBAS 3.0[16]進行KEGG 信號通路富集分析,以P <0.05 為差異有統(tǒng)計學意義。
通過對GSE56815 芯片數據進行校正標準化處理及重注釋共識別出其中127 個PMOP 相關lncRNA,篩選重要性排名前10 的關鍵lncRNA:LINC01963、SNHG32、POLR2J4、WT1-AS、LINC00474、PCOTH、EGOT、LINC01565、LINC01140、LINC01558。見圖1。
圖1 絕經婦女骨質疏松癥長鏈非編碼RNA 重要性隨機森林圖
將關鍵lncRNA 整理上傳至starBase V2.0 數據庫,運行靶標基因預測分析,數據庫共識別出LINC01140、LINC01963、PCOTH、POLR2J4、WT1-AS 這5 個lncRNA,其余l(xiāng)ncRNA 未有相關靶標基因,將結果導入至網絡構建軟件Cytoscape 進行l(wèi)ncRNA-靶標基因調控網絡構建。見圖2。圖中菱形節(jié)點為lncRNA,圓形節(jié)點為靶標基因。
圖2 長鏈非編碼RNA-靶標基因調控網絡
共識別出61 個節(jié)點(node),存在30 個互作聯系(edge),平均節(jié)點連接度(degree)為0.98,網絡富集置信度為0.0092。將結果導入至Cytoscape,以靶標基因為網絡節(jié)點,互作聯系為節(jié)點連線,將無互作關系節(jié)點隱去,構建靶標基因PPI 網絡。見圖3。
圖3 蛋白質-蛋白質相互作用網絡
靶標基因共富集于52 個KEGG 信號通路,以P<0.05進行篩選,共獲得12 個差異顯著的信號通路。見表1。
表1 KEGG 信號通路富集分析
GO 生物學富集分析結果主要涉及RNA 聚合酶Ⅱ活性、DNA 導向的5’-3’RNA 聚合酶活性、5’-3’RNA 聚合酶活性、RNA 聚合酶活性、肌動蛋白結合、氧化還原酶活性、醛醇-輔酶Ⅱ的氧化還原酶活性、作用于CH-OH 供體的氧化還原酶活性、核苷酸轉移酶活性、乙醇脫氫酶活性、輔酶結合、肌動蛋白纖維結合、醛酮還原酶活性,根據富集基因數量及P 值繪制GO 富集柱狀圖。見圖4。
隨著現代科學技術的發(fā)展,人體各種微觀分子功能結構被逐步發(fā)現與認知。lncRNA 是一類長度在200 nt 以上、序列特征接近于信使RNA 但不能翻譯蛋白質的遺傳物質,既往被認為是基因組中的“噪聲”“暗物質”,無特殊作用[17]。但近年來伴隨著高通量測序技術的發(fā)展,研究者認識到lncRNA 廣泛分布于遺傳信息內,能從轉錄、轉錄后、表觀遺傳修飾等多方面進行遺傳信息的調控,參與機體重要生物學過程。越來越多研究[3,18]發(fā)現,lncRNA 可能參與調控人體骨吸收-骨形成過程,在骨代謝過程發(fā)揮重要調控作用,攜帶重要遺傳信息的lncRNA 可能是診斷及治療PMOP 的新靶點。
機器學習算法模型目前被應用于多個領域,在研究中體現出較好的預測價值與臨床意義[19]。本研究借助隨機森林算法,對PMOP 患者芯片數據進行分類樹建立與迭代評分,根據重要性大小進行排序,以此篩選出PMOP 關鍵lncRNA,進而預測分析關鍵lncRNA靶標基因及其調控網絡、PPI、信號通路等分子機制,對lncRNA 調控PMOP 機制展開探索。
成骨細胞-破骨細胞活動是骨代謝過程的本質體現,lncRNA 可能通過信號、導向、誘餌等生物學效應模式[20]參與調控成骨細胞、破骨細胞及骨髓間充質干細胞的分化、增殖等活動,影響骨代謝平衡。研究[21]表明,LINC01140 通過抑制miR-23b 表達,減輕低密度脂蛋白誘導骨髓巨噬細胞炎癥反應,骨髓巨噬細胞作為破骨細胞的前體細胞,在炎癥反應刺激下可能增強破骨分化趨勢,LINC01140 可能是調控破骨分化的轉錄阻滯物。POLR2J4 是RNA 聚合酶Ⅱ亞家族J4 型,參與轉錄翻譯調控,與多種代謝性疾病的診斷預后密切相關[22]。LINC01963 通過靶向miR-641/TMEFF2 與負責調控細胞基礎生命活動的絲裂原活化蛋白激酶信號通路相串擾,參與調控成骨、破骨細胞活動[23-24]。WT1-AS 被認為是多種腫瘤的重要調控因子,通過多途徑調控細胞增殖凋亡活動[25-26]。
從富集的GO 過程來看,靶標基因主要集中于細胞層面的RNA 聚合酶、氧化還原酶等酶活性的調控,與上述lncRNA 主要功能活動相一致,通過調控成骨、破骨細胞活動,影響骨代謝平衡。KEGG 信號通路富集結果顯示,除了RNA 降解、RNA 聚合酶等轉錄翻譯相關信號通路調控外,靶標基因還富集于甘油酯代謝、半乳糖代謝、氨基酸代謝等活動。Zhao 等[27]通過脂質組學發(fā)現,PMOP 小鼠多種脂質代謝活動發(fā)生明顯變化,且其脂代謝與骨代謝之間存在重要聯系。半乳糖代謝與衰老密切相關,D-半乳糖通過誘導氧化應激導致衰老,抑制D-半乳糖代謝活動可改善衰老大鼠的骨代謝活動[28]。
lncRNA 對體內多個生物學過程的調控作用正逐漸被闡明,深入研究lncRNA 在不同疾病發(fā)生發(fā)展過程中發(fā)揮的作用及其分子機制有助于深化對疾病病理機制的理解,為提出更加切實有效的治療方式提供基礎。本研究借助隨機森林算法篩選出PMOP 關鍵lncRNA 并對靶標基因及潛在分子機制進行預測探索,綜合分析lncRNA 參與調控成骨細胞、破骨細胞增殖分化活動、遺傳物質轉錄翻譯、機體糖脂代謝等活動的可能。目前研究對lncRNA 在機體發(fā)揮的作用仍較少,研究手段、水平及范圍較有限,希望本研究能為lncRNA 診斷治療PMOP 提供理論依據與思路方向。