摘" 要: 在癌癥檢測領域,細胞游離DNA的高通量測序技術已引發(fā)一場重大變革,為非侵入性癌癥檢測提供了新的可能性。利用測序數(shù)據(jù)做出可靠且精確的預測至關重要,但是測序成本高昂。針對這一需求,提出一種基于流動注意力機制的深度學習模型。通過定義差異甲基化區(qū)域對數(shù)據(jù)進行預處理,使得滿足深度學習數(shù)據(jù)量的要求,并整合全基因組雙硫酸鹽測序數(shù)據(jù)中的DNA序列和甲基化信息,以實現(xiàn)對髓母細胞瘤患者進行預測。實驗結果表明,該方法提高了診斷過程的準確性,且受試者工作特征曲線面積達到99.73%,展示了深度學習技術在癌癥早期診斷中的潛在應用前景。
關鍵詞: 非侵入性癌癥檢測; 流動注意力機制; 細胞游離DNA; 高通量測序技術; 深度學習; 差異甲基化區(qū)域
中圖分類號: TN911.23?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)22?0139?07
Non?invasive cancer detection based on flow attention mechanism
Abstract: In the field of cancer detection, the high?throughput sequencing technology of cell?free DNA has triggered a significant revolution, providing new possibilities for non?invasive cancer detection methods. Using sequencing data to make reliable and accurate predictions is critical, but sequencing is expensive. To address this demand, a deep learning model based on dynamic attention mechanism is proposed. Data were preprocessed by defining differential methylation regions to meet deep learning data volume requirements, and DNA sequence and methylation information from whole?genome disulfate sequencing data were integrated to achieve prediction of medulloblastoma patients. The experimental results show that the method can improve the accuracy of the diagnosis process, and the area under the subject working characteristic curve can reach 99.73%, demonstrating the potential application prospect of deep learning technology in the early diagnosis of cancer.
Keywords: non?invasive cancer detection; dynamic attention mechanism; cell?free DNA; high?throughput sequencing technology; deep learning; differential methylation region
0" 引" 言
兒童腦腫瘤是兒童中最常見的惡性腫瘤,約占所有兒科腫瘤[1?2]的25%。被認為是15歲以下兒童死亡的第二主要原因[3]。在兒童腦腫瘤中,髓母細胞瘤(Medulloblastoma, MB)被認為是兒童中最常見的惡性腦腫瘤[4]。MB約占全球影響兒科的中樞神經(jīng)系統(tǒng)腫瘤[5?6]的15%~20%。它起源于小腦的后部,并迅速向其他腦部區(qū)域發(fā)展[7]。精確的早期診斷髓母細胞瘤對于決定適當?shù)闹委煼桨负碗S訪程序至關重要,這一程序相應地會提高髓母細胞瘤患者的生存率,并避免了在早期階段未經(jīng)診斷和治療可能發(fā)生的急性副作用[8?9]。這些副作用會影響兒童的運動和協(xié)調能力,并降低他們的生活質量。循環(huán)DNA(circulating free DNA, cfDNA)是釋放到血漿和尿液等體液中的降解的DNA片段,主要由凋亡或壞死細胞產生[10]。據(jù)報道,在癌癥早期,即使患者沒有明顯的臨床癥狀,癌細胞中的DNA狀態(tài)也已發(fā)生變化,并且可以在癌癥患者的血漿中檢測到作為循環(huán)腫瘤DNA(circulating tumor DNA, ctDNA)[11?12]。隨著高通量測序技術的發(fā)展,通過在cfDNA測序數(shù)據(jù)中識別癌癥信號的非侵入性方法正在成為癌癥診斷的新型液體活檢方法[13]。
大多數(shù)cfDNA研究集中在癌基因突變上,通過檢測致癌基因中的特定突變來計算ctDNA在總cfDNA中的存在和比例[14?15]。然而,在早期癌癥階段,ctDNA的比例太低,無法通過常規(guī)測序方法檢測到[16?17]。此外,驅動癌癥發(fā)生的突變通常是多樣化的,導致不同患者或腫瘤組織中不同位置的異質性,這限制了通過ctDNA突變檢測癌癥的潛力[18]。一些其他研究試圖通過cfDNA檢測染色體在癌癥發(fā)生過程中的重排,例如拷貝數(shù)變化和片段模式,并發(fā)現(xiàn)這些特征與癌癥之間存在的關聯(lián)[19?22]。然而,由于cfDNA測序數(shù)據(jù)是混合數(shù)據(jù),并且信噪比低,導致這些低分辨率特征在檢測早期癌癥時幾乎無法與噪聲區(qū)分開來,因此無法單獨作為早期癌癥檢測的準確生物標志物。
DNA的甲基化狀態(tài)在早期癌癥中廣泛發(fā)生變化,涉及整個基因組,這使得甲基化成為早期癌癥檢測中一個重要的信息特征[23?24]。因此,整合不同CpG位點的甲基化狀態(tài)或不同亞基因組區(qū)域的甲基化狀態(tài)成為提高癌癥檢測精度的有前景的方法[25?26]。此外,由于總cfDNA中ctDNA的比例與腫瘤負擔呈一致關系,對cfDNA進行解卷積以推斷其來源,成為估計癌癥存在和嚴重程度的有希望的方法[27?28]。然而,這些方法的性能仍受到信噪比低的限制。文獻[29]引入了基于概率方法的CancerLocator來預測癌癥的位置和腫瘤負擔,在患者血漿樣本上取得了令人滿意的結果。CancerLocator利用相鄰CpG位點之間甲基化狀態(tài)的局部相關性,以單個測序讀數(shù)的分辨率預測cfDNA的來源,為研究cfDNA測序數(shù)據(jù)提供了一種新穎的讀數(shù)視角。然而,不同深度的測序數(shù)據(jù)可能會將系統(tǒng)偏差引入到癌癥檢測器的預測結果中,從而可能進一步降低癌癥診斷的準確性。隨后,文獻[30]提出了一種基于概率方法的升級版方法,稱為CancerDetector,并且表現(xiàn)優(yōu)于CancerLocator。
近期研究發(fā)現(xiàn),從腦脊液(CSF)中可以提取大量cfDNA,并在多種腦腫瘤患者中檢測到高含量的ctDNA。同時研究表明,甲基化狀態(tài)在一定程度上受周圍DNA序列的順式調節(jié)[31]。因此,周圍的DNA序列可能為分析甲基化狀態(tài)和預測單個讀數(shù)的來源提供有價值的信息。鑒于此,本文提出一種基于分析腦脊髓液中的髓母細胞瘤全基因組雙硫酸鹽測序(WGBS)數(shù)據(jù)的DeepCancer的深度學習模型。DeepCancer可以整合選定的全基因組差異甲基化區(qū)域(DMRs)的DNA序列和甲基化信息,從而使得即使在非常低的測序深度下也能實現(xiàn)準確的預測。DeepCancer成功地在低測序深度的cfDNA全基因組雙硫酸鹽測序(WGBS)數(shù)據(jù)(覆蓋范圍從1×~10×)中實現(xiàn)了0.997 3(均值 )的髓母細胞瘤診斷的受試者工作特征曲線下面積(AUROC)。結果表明,通過將DNA序列和甲基化信息結合起來,DeepCancer可以在癌癥的早期階段對不同測序深度的數(shù)據(jù)進行診斷,這對于進一步的臨床應用有很大幫助。
1" 數(shù)據(jù)收集與預處理
在本研究中使用的數(shù)據(jù)源自美國國家生物信息中心(NCBI),編號為GSE142241的數(shù)據(jù)集[32]。該數(shù)據(jù)集提供了一組豐富的髓母細胞瘤樣本數(shù)據(jù),其中包括22例不同患者的樣本,如表1所示。為了實現(xiàn)本研究的目標,從中挑選了7例經(jīng)過全基因組雙硫酸鹽測序(WGBS)的癌癥患者樣本,以及6例同樣經(jīng)過WGBS測序的正常樣本,其中包括4例被診斷為腦積水的患者樣本。
首先,本文利用fastp工具進行原始序列讀取的質量控制。fastp是一個高效的序列分析工具,專為快速而全面地進行質量控制和預處理所設計。它能夠自動識別并剔除低質量的讀取和污染的序列,如接頭序列和低復雜度序列。fastp的使用大大提高了數(shù)據(jù)處理的效率,同時保留了數(shù)據(jù)分析所需的高質量讀取。
經(jīng)過fastp處理后,本文使用BS?Seeker2軟件對所有WGBS數(shù)據(jù)進行比對。BS?Seeker2是一種針對雙硫酸鹽測序數(shù)據(jù)設計的比對工具,能夠高效準確地將讀取映射到參考基因組[33]上。在本研究中,所有的WGBS數(shù)據(jù)都與人類基因組參考序列hg19進行了精確比對。BS?Seeker2通過其優(yōu)化的算法,確保了比對的準確性,為甲基化分析提供了可靠的基礎。
比對完成后,本文運用samtools工具進行了序列數(shù)據(jù)的排序和優(yōu)化處理。samtools是一款用于處理SAM/BAM文件格式的工具,支持序列數(shù)據(jù)的排序、索引和查看等功能。此外,samtools還能有效地識別并刪除可能存在的PCR重復項,進一步提高數(shù)據(jù)質量。
完成上述預處理步驟后,本文對所有CpG位點的甲基化狀態(tài)進行了調用,為深入分析和對骨髓母細胞瘤的精準診斷提供了必要的數(shù)據(jù)支持。這一步驟是通過專門的生物信息學工具完成的,旨在準確識別每個CpG位點的甲基化水平,為后續(xù)的表觀遺傳學分析和疾病相關研究提供了重要的數(shù)據(jù)基礎。
2" 基于流動注意力機制的腫瘤預測模型實現(xiàn)
2.1" 定義髓母細胞瘤特有的差異甲基化區(qū)域
在當前的癌癥研究中,關于差異甲基化區(qū)域(DMR)的定義已成為研究重點,這些研究方法主要聚焦于對特定基因組區(qū)域內的總讀數(shù)進行統(tǒng)計分析[34?38]。然而,在血漿中的游離DNA(cfDNA),尤其是源自癌細胞的讀數(shù),在癌癥早期階段常常極其稀少。這種情況在傳統(tǒng)的統(tǒng)計分析中會受到來自健康組織的異常數(shù)據(jù)的影響,導致癌細胞來源的讀數(shù)難以準確識別。為了解決這個問題,在本研究中采用了一種新的方法,將DMR定義為那些在甲基化模式上可以明顯區(qū)分腫瘤來源讀數(shù)和健康血漿讀數(shù)的基因組區(qū)域。這種定義方式顯著提高了利用cfDNA測序數(shù)據(jù)進行癌癥檢測的分辨率。
本文提出了“差異區(qū)域”這一概念,并通過以下步驟進行定義。首先,將整個基因組劃分為不重疊的300 bp區(qū)域,并篩選出那些在所有訓練樣本中讀數(shù)不低于15的區(qū)域。對于這些區(qū)域,進一步計算了每個區(qū)域內所有DNA片段的甲基化比率,并分析它們在癌組織和健康血漿中的cfDNA的分布特征。此外,本研究特別關注那些含有3個或更多CpG位點的讀取。然后,通過比較健康血漿和癌組織樣本在這些區(qū)域的甲基化率最大值和最小值,定義了低甲基化和高甲基化的轉換區(qū)域。例如,如果健康血漿的最小甲基化率(Hmin)與癌組織的最小甲基化率(Tmin)之差超過特定閾值,則該區(qū)域被標記為低甲基化轉換區(qū)域。相應地,甲基化率低于Hmin的所有讀取被視為低甲基化轉換讀取。高甲基化轉換區(qū)域也是以類似的方法定義。考慮到髓母細胞瘤(MB)通常表現(xiàn)出顯著的全基因組低甲基化模式,本研究特別關注于MB中的低甲基化轉換區(qū)域,以期對這一疾病的早期診斷提供更準確的分子標志。差異區(qū)域定義整體流程如圖1所示。
2.2" 預測cfDNA讀取數(shù)據(jù)的起源
在本研究中,為了精確捕捉并描述血漿中的游離DNA(cfDNA)全基因組雙硫酸鹽測序(WGBS)數(shù)據(jù),特別是腫瘤來源讀數(shù)的DNA序列和甲基化特征,開發(fā)了名為DeepCancer的深度學習模型。該模型旨在預測癌癥組織來源的讀數(shù)強度。為了訓練這一模型,專注于分析切換區(qū)域中的讀取,這些讀取具備至少3個CpG位點,因此含有豐富的甲基化信息。
為了有效地處理這些復雜的數(shù)據(jù)集,采用二元分類方法來區(qū)分每個讀取的來源。在此方法中,為每個讀取分配了標簽,其中來自健康血漿的讀取標記為0,而來自癌癥組織的讀取標記為1。將每個讀取修剪至相同長度,即66個堿基對(在本研究中標記為L=66)。最后,為了保持數(shù)據(jù)平衡并減少偏差,對這些讀取進行了隨機二次采樣,確保健康血漿和癌癥組織來源的讀取數(shù)量在模型訓練中保持均衡。
在本文模型中,將每個讀取的核堿基通過one?hot矩陣進行編碼,同時將堿基的甲基化狀態(tài)整合到編碼過程中。在這種編碼機制下,1表示堿基處于甲基化狀態(tài),而0表示未甲基化。這樣,每個讀取被有效地轉換成一個L×5的矩陣,捕捉了每個堿基的遺傳信息及其甲基化狀態(tài)。
為了從這些編碼數(shù)據(jù)中提取有用的模式和特征,DeepCancer模型包括多個層次的深度學習架構。首先,輸入層后接兩個一維卷積層和最大池化層,這有助于提取讀取數(shù)據(jù)中的局部模式。緊接著,引入一個創(chuàng)新的流動注意力機制層,它通過動態(tài)調整模型的關注點來提高特征提取的靈敏度和準確性。此外,一個扁平層被用來將多維數(shù)據(jù)轉換為一維,以便輸入到后續(xù)的兩個密集層中。最終,模型輸出一個連續(xù)的值,范圍為0~1,這個分數(shù)代表每個讀取屬于癌癥組織的概率,值越接近1,表明該讀取來自癌癥組織的可能性越高。整個深度學習模型的結構圖在圖2中有詳細展示,其中每一層的功能和對數(shù)據(jù)的處理方式都有清晰的標注。
2.3" 流動注意力機制
自注意力機制通過對查詢(Query)、鍵(Key)和值(Value)的建模,能夠實現(xiàn)對長距離特征間依賴性的提取,進而有助于捕獲全局特征信息。然而,自注意力機制在輸入序列長度為n時的時間復雜度為[On2]。為此,本研究旨在采用流動注意力(flow?attention)方法來降低復雜度,并解決傳統(tǒng)注意力機制的問題。該方法從網(wǎng)絡流的角度出發(fā)(一端稱為信息流的源,另一端稱為信息流的匯,源和匯是相對的),并利用信息流的守恒性質(輸入信息流等于輸出信息流),引入競爭機制到注意力機制中,從而將時間復雜度降低到線性[On]。流動注意力不引入特殊的歸納偏見,依然具有良好的通用性。文獻[29]展示了流動注意力在計算機視覺、自然語言處理和長序列處理領域的優(yōu)勢。
流動注意力層重新整合信息流以捕獲序列中的關鍵特征。該層中每個節(jié)點的輸入和輸出流可以捕獲全局交互特征。該模塊的輸入為CNN層輸出的矩陣[X'],大小為200×66。首先,通過使用式(1)~式(3)對輸入序列[X']進行線性投影,得到Qurey(Q)、Key(K)和Value(V)向量。WQ、WK和WV分別表示向量Q、K和V的權重矩陣。
[Q=WQX']" " " " " " " " "(1)
[K=WKX'] (2)
[V=WVX'] (3)
然后,使用式(4)和式(5)對向量Q和K進行非負投影,同時確保注意力圖為非負。由于輸入信息流等于輸出信息流,因此在信息流側保持受限時引入競爭或分配機制。
當匯聚側的輸出信息流保持恒定時,匯聚的輸入信息流向量I=(I1,I2,…,In-1,In)如式(6)所示。其中I表示注意力權重矩陣的行和。為了在信息流的源內引入競爭機制,將注意力機制與外部網(wǎng)絡的交互信息量設為1,稱之為匯聚的流入守恒。因此,源的流出信息向量[O'=O′1,O′2,…,O′n-1,O′n]如式(7)所示,表示源的重要性。
當源的流入保持恒定時,源的流出信息向量O=(O1,O2,[…],Om-1,Om)如公式(8)所示。其中O表示注意力權重矩陣的列和。為了在匯內引入分配機制,將注意力機制與外部網(wǎng)絡的交互信息量設為1,稱之為源的流出守恒。因此,匯的流入信息向量 [I'=I′1,I′2,…,I′m-1,I′m]如公式(9)所示,表示匯需要獲取的信息量。
基于上述守恒的信息流可以獲得包含源競爭機制和匯分配機制的流動注意力,如公式(10)所示。
式中[Θ]表示逐元素乘法。最后,執(zhí)行最終的投影操作并獲得輸出特征R′,即200維度的66個CNN向量。
3" 實驗過程
3.1" 評估措施
為了評估所提出的DeepCancer的性能,采用了多種評估措施。這些指標包含準確率、F1分數(shù)、受試者工作特征(ROC)曲線和區(qū)域下的精確率?召回率(AUPR)等。[Accuracy]和[F1]公式如下:
3.2" 實驗設置
在本研究中,DeepCancer模型采用TensorFlow框架和Adam優(yōu)化器。具體的實驗環(huán)境與配置如表2所示。
3.3" DeepCancer在髓母細胞瘤中的表現(xiàn)
在本研究中,一旦切換區(qū)域被準確確定后,從數(shù)據(jù)集中留出兩個完整樣本的讀?。╮eads)數(shù)據(jù)作為測試集,以便在后續(xù)對模型的效能進行評估。接下來,為了構建一個有效的訓練和驗證體系,從剩余的80%樣本中隨機抽取了75%用于構建訓練集,而剩下的25%則被用作驗證集。為了確保模型訓練的可靠性并減少深度學習方法固有的隨機性,對訓練過程進行了10次的隨機重復。
為了全面評估DeepCancer模型的性能,采用受試者工作特征(ROC)曲線和區(qū)域下的精確率?召回率(AUPR)等關鍵指標。這些評估方法主要用于衡量DeepCancer模型在區(qū)分髓母細胞瘤患者和正常人群中cfDNA讀取數(shù)據(jù)的能力。10次隨機實驗結果如圖3所示。圖中展示了模型預測的準確性和可靠性,以及其在實際應用中的潛在價值。
3.4" 消融實驗
為了具體量化流動注意力機制對模型性能的影響,設計并進行了消融實驗。在這些實驗中,移除了模型中的流動注意力層,以便觀察并比較模型性能在有無此機制時的差異。具體來說,本文關注模型在包含流動注意力機制和不包含該機制情況下的受試者工作特征曲線(AUROC)和區(qū)域下的精確率?召回率曲線(AUPR)表現(xiàn)。實驗結果顯示,去除流動注意力層后,模型在癌癥檢測的AUROC下降了約2.7%,AUPR下降了2.8%,結果如圖4所示。
這一性能的下降清楚地證明了流動注意力機制在提升模型處理和理解復雜癌癥數(shù)據(jù)集方面的關鍵作用,尤其是在挖掘和利用DNA序列與甲基化數(shù)據(jù)的深層相關性方面。
將消融實驗前后的模型進行了對比,結果如表3所示。
4" 結" 論
本文提出并實現(xiàn)了一種名為DeepCancer的深度學習模型,通過綜合分析cfDNA WGBS數(shù)據(jù)來提高髓母細胞瘤的檢測準確性,AUROC及AUPR值分別達到了99.73%和99.72%。整個研究包含多個關鍵階段,包括數(shù)據(jù)預處理、深度學習特征提取、特征融合及降維、融合特征集的選擇和分類。這一過程不僅展示了深度學習技術在復雜生物數(shù)據(jù)解讀中的潛力,而且還突出了甲基化信息在提高癌癥檢測準確性方面的重要性。
通過對比實驗,證實了結合DNA序列和甲基化信息的DeepCancer模型在多個性能指標上,相較于僅使用DNA序列信息的模型,AUROC及AUPR值分別提升了2.7%及2.8%。此外,實驗結果還揭示了流動注意力機制在提升模型性能方面的關鍵作用。流動注意力機制的核心特點在于其能夠動態(tài)地分配處理資源,尤其是在處理復雜的癌癥數(shù)據(jù)集時。最后還通過消融實驗進一步驗證了流動注意力層對于模型性能的貢獻。
綜合來看,DeepCancer模型的表現(xiàn)優(yōu)異,提供了一種有效的工具,能夠協(xié)助病理學家更準確地識別髓母細胞瘤。此外,該模型還有助于減輕病理學家在手動診斷過程中的負擔,加快分類過程,實現(xiàn)高精度同時降低診斷成本,并為患者的后續(xù)治療和管理提供支持。未來的研究將集中于結合更多特征與深度學習技術,以及探索其他深度學習技術在腫瘤分析中的應用。
參考文獻
[1] POLLACK I F, JAKACKI R I. Childhood brain tumors: epidemiology, current management and future directions [J]. Nature reviews neurology, 2011, 7(9): 495?506.
[2] PONNUSAMY R, SATHIAMOORTHY S. Bleeding and z?line classification by DWT based SIFT using KNN and SVM [J]. Advances in intelligent systems and computing, 2020, 1108: 679?688.
[3] AILION A S, HORTMAN K, KING T Z. Childhood brain tumors: a systematic review of the structural neuroimaging literature [J]. Neuropsychology review, 2017, 27(1/2): 220?244.
[4] Lü M, ZHOU M, SHPANSKAYA K, et al. MR imaging?based radiomic signatures of distinct molecular subgroups of medulloblastoma [J]. American journal of neuroradiology, 2018, 40(1): 154?161.
[5] ARSENI C, CIUREA A V. Statistical survey of 276 cases of medulloblastoma (1935–1978) [J]. Acta neurochirurgica, 1981, 57(3/4): 159?162.
[6] POLEDNAK A P, FLANNERY J T. Brain, other central nervous system, and eye cancer [J]. Cancer, 1995, 75(S1): 330?337.
[7] HOVESTADT V, AYRAULT O, SWARTLING F J, et al. Medulloblastomics revisited: biological and clinical insights from thousands of patients [J]. Nature reviews cancer, 2024, 20: 42?56.
[8] DAVIS F G, FREELS S, GRUTSCH J, et al. Survival rates in patients with primary malignant brain tumors stratified by patient age and tumor histological type: an analysis based on surveillance, epidemiology, and end results (SEER) data, 1973?1991 [J]. Journal of neurosurgery, 1998, 88(1): 1?10.
[9] TOMOHISA F, AKIRA T, YOSHIAKI A, et al. Primary brain tumors in children under age 3 years [J]. Brain tumor pathology, 1998, 15(1): 7.
[10] CROWLEY E, DI NICOLANTONIO F, LOUPAKIS F, et al. Liquid biopsy: monitoring cancer?genetics in the blood [J]. Nature reviews clinical oncology, 2013, 10(8): 472.
[11] BAYLIN S B, ESTELLER M, ROUNTREE M R, et al. Aberrant patterns of DNA methylation, chromatin formation and gene expression in cancer [J]. Human molecular genetics, 2001, 10(7): 687?692.
[12] SCHWARZENBACH H, HOON D S B, PANTEL K. Cell?free nucleic acids as biomarkers in cancer patients [J]. Nature reviews cancer clinical oncology, 2011, 1(6): 426.
[13] WAN J C M, MASSIE C, GARCIA?CORBACHO J, et al. Liquid biopsies come of age: towards implementation of circulating tumour DNA [J]. Nature reviews cancer, 2017, 17(4): 223.
[14] BETTEGOWDA C, SAUSEN M, LEARY R J, et al. Detection of circulating tumor DNA in early? and late?stage human malignancies [J]. Science translational medicine, 2014, 6: 224.
[15] ABBOSH C, BIRKBAK N J, WILSON G A, et al. Phylo?genetic ctDNA analysis depicts early?stage lungcancer evolution [J]. Nature, 2017, 545: 446?451.
[16] NEWMAN A M, BRATMAN S V, TO J, et al. An ultrasen?sitive method for quantitating circulating tumor DNA with broad patient coverage [J]. Nature medicine, 2014, 20(5): 548.
[17] HEITZER E, HAQUE I S, ROBERTS C E S, et al. Current and future perspectives of liquid biopsies in genomics?driven oncology [J]. Nature reviews neuroscience, 2019(2): 71?88.
[18] BURRELL R A, MCGRANAHAN N, BARTEK J, et al. The causes and consequences of genetic heterogeneity in cancer evolution [J]. Nature, 2013, 501: 338?345.
[19] CHICARD M, BOYAULT S, COLMET DAAGE L, et al. Genomic copy number profiling using circulating free tumor DNA highlights heterogeneity in neuroblastoma [J]. Clinical cancer research an official journal of the American association for cancer research, 2016, 22: 5564?5573.
[20] WEISS G J, BECK J, BRAUN D P, et al. Tumor cell?free DNA copy number instability predicts therapeutic response to immunotherapy [J]. Clinical cancer research, 2017, 23(17): 5074?5081.
[21] SNYDER M, KIRCHER M, HILL A, et al. Cell?free DNA comprises an invivo nucleosome footprint that informs its tissues?of?origin [J]. Cell, 2016, 164(1/2): 57?68.
[22] CRISTIANO S, LEAL A, PHALLEN J, et al. Genome?wide cell free DNA fragmentation in patients with cancer [J]. Nature, 2019, 570: 385?389.
[23] FEINBERG A P, OHLSSON R, HENIKOFF S. The epigenetic progenitor origin of human cancer [J]. Nature reviews genetics, 2006, 7(1): 21?33.
[24] ALVAREZ H, OPALINSKA J, ZHOU L, et al. Widespread hypomethylation occurs early and synergizes with gene amplification during esophageal carcinogenesis [J]. PLoS genetics, 2011, 7: e1001356.
[25] WARTON K, SAMIMI G. Methylation of cell?free circulating DNA in the diagnosis of cancer [J]. Frontiers in molecular biosciences, 2015, 2: 13.
[26] CHAN K C A, JIANG P, CHAN C W M, et al. Noninvasive detection of cancer?associated genome?wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing [J]. Pnas, 2013, 110(47): 18761?18768.
[27] ADALSTEINSSON V A, HA G, FREEMAN S S, et al. Scalable whole?exome sequencing of cell?free DNA reveals high concordance with metastatic tumors [J].Nature communications, 2017, 8(1): 1324.
[28] FENG H, JIN P, WU H. Disease prediction by cell?free DNA methylation [J]. Briefings in bioinformatics, 2019, 20: 585?597.
[29] KANG S, LI Q, CHEN Q, et al. Cancer locator: non?invasive cancer diagnosis and tissue?of?origin prediction using methylation profiles of cell?free DNA [J]. Genome biology, 2017, 18(1): 53.
[30] LI W, LI Q, KANG S, et al. Cancer detector: ultrasensitive and non?invasive cancer detection at the resolution of individual reads using cell?free DNA methylation sequencing data [J]. Plos one, 2018, 13(5): 1?10.
[31] LIENERT F, WIRBELAUER C, SOM I, et al. Identification of genetic elements that autonomously determine DNA methylation states [J]. Nature genetics, 2011, 43: 1091?1097.
[32] CEDAR H, BERGMAN Y. Programming of DNA methylation patterns [J]. Annual review of biochemistry, 2012, 81(1): 97?117.
[33] LI J, ZHAO S, LEE M, et al. Reliable tumor detection by whole?genome methylation sequencing of cell?free DNA in cerebrospinal fluid of pediatric medulloblastoma [J]. Science advances, 2020, 6(42): 102.
[34] GUO W, FIZIEV P, YAN W, et al. BS?Seeker2: a versatile aligning pipeline for bisulfite sequencing data [J]. BMC genomics, 2013, 14: 774.
[35] LIGGETT T, MELNIKOV A, YI Q L, et al. Differential methylation of cell?free circulating DNA among patients with pancreatic cancer versus chronic pancreatitis [J]. Cancer, 2010, 116: 1674?1680.
[36] JüHLING F, KRETZMER H, BERNHART S H, et al. Metilene: fast and sensitive calling of differentially methylated regions from bisulfite sequencing data [J]. Genome research, 2016, 26: 256?262.
[37] LI S, GARRETT?BAKELMAN F E, AKALIN A, et al. An optimized algorithm for detecting and annotating regional differential methylation [J]. BMC bioinformatics, 2013, 14: S10.
[38] HEBESTREIT K, DUGAS M, KLEIN H U. Detection of significantly differentially methylated regions in targeted bisulfite sequencing data [J]. Bioinformatics, 2013, 29: 1647?1653.
[39] WU H, XU T, FENG H, et al. Detection of differentially methylated regions from whole?genome bisulfite sequencing data without replicates [J]. Nucleic acids research, 2015, 43: e141.