王 芳 房建成 許媛麗 李婷婷 劉紅星
(河北燕達陸道培醫(yī)院病理和檢驗醫(yī)學科,廊坊065201)
某個體或群體中,免疫球蛋白(Immunoglobulin,IG)和/或T細胞受體(T cell receptor,TCR)基因V區(qū)序列多樣性的集合稱為免疫組庫(Immune repertoire,IR)。理論上講每個人體內(nèi)可以有超過2×1012個可能的重排的IG和TCR序列,幾乎每個B/T細胞都有自己不同的IG/TCR序列,稱為序列多樣性[1]。但在抗感染、自身免疫病、實體腫瘤以及B/T細胞腫瘤時,由于反應性或克隆性B/T細胞增殖,可導致IG/TCR序列多樣性減少。因此IR中IG/TCR基因序列多樣性反映了B/T細胞增殖克隆性和機體的免疫狀況,與B/T細胞腫瘤、其他實體腫瘤、自身免疫病和感染都密切相關[2]。
目前普遍采用多重PCR和毛細管電泳技術(Capillary electrophoresis,CE)對IR的多樣性進行分析[3,4]。近年來新一代高通量測序(Next generation sequencing,NGS)技術的日漸成熟和推廣應用,提供了接近成熟的技術基礎,促進了IR分析的研究和應用。IR分析本質上是基于大數(shù)據(jù)量的統(tǒng)計學分析,目前分析結果多是將序列按照家族分類以柱狀圖的形式展示,缺乏量化的多樣性評價指標。本研究以初診急性B淋巴細胞白血病(B cell acute lymphoblastic leukemia,B-ALL)和免疫球蛋白重鏈(Immunoglobulin heavy chain,IGH)基因為例,擬探討稀疏分析、Shannon-Wiener指數(shù)和Simpson指數(shù)三種統(tǒng)計學指標在IR分析中的應用。
1.1實驗材料、試劑 隨機選取2015年11月至2017年12月經(jīng)CE檢測IGH基因重排克隆性分析結果為陽性的36例初診B-ALL患者,以及經(jīng)CE檢測IGH基因重排克隆性分析結果為陰性的15例健康對照。男女比1.43∶1,年齡范圍3~53歲,中位年齡14歲。本研究經(jīng)過河北燕達陸道培醫(yī)院倫理委員會批準,志愿者均簽署了知情同意書。
實驗所用的主要儀器和試劑:血液基因組柱式小量提取試劑盒(蘇泰械備20140022號,江蘇康為世紀生物科技有限公司); LymphoTrack IGH Assay-PGM試劑盒(美國Invivoscribe公司); Ion Torrent PGM二代測序儀及配套試劑、AB 2720 PCR儀和7500熒光定量PCR儀均為美國Thermo Fisher公司產(chǎn)品;超微量紫外分光光度計Quawell Q5000(美國Quawell公司)。
1.2實驗方法 提取骨髓或外周血標本中的基因組DNA并測量濃度。分別取50 ng DNA進行IGH V區(qū)片段擴增建庫,使用熒光定量PCR法對文庫定量,然后取合適濃度的文庫進行NGS測序。所有操作均按照試劑和儀器的說明書進行。
將Ion PGM上產(chǎn)生的FASTQ格式數(shù)據(jù)使用MiXCR軟件[5]進行數(shù)據(jù)質控、IGH序列的家族比對分析,采用稀疏分析、Shannon-Wiener指數(shù)(以Shannon-Wiener指數(shù)均值表示)、Simpson指數(shù)(以inverse Simpson指數(shù)均數(shù)表示)三種指標進行多樣性分析,并繪制稀疏曲線[6]。
2.1CE和NGS測序結果 36例初診B-ALL患者的標本IGH重排克隆性用CE法均檢測為陽性,呈單克隆或雙克隆結果。15例健康個體對照標本均為陰性,呈多克隆結果。每份標本NGS測序所得到的可供分析的序列條數(shù)均>50 000,質量≥Q20的堿基占比>90%。將51例標本根據(jù)CE檢測IGH克隆性重排的結果分為兩組:陽性(36例初診B-ALL患者P1-36,組1)和陰性(15例健康個體N1-15,組2)。
2.2兩組標本在稀疏分析中繪制的稀疏曲線不同 稀疏分析根據(jù)隨機抽樣來計算抽樣所得到的序列中所觀察到的序列種類的數(shù)目,根據(jù)稀疏分析所繪制的稀疏曲線可以將不同組標本的IGH基因IR多樣性可視化地展現(xiàn)出來,同時可以顯示該分析的隨機抽樣量是否充分。兩組標本在稀疏分析中通過抽樣所觀察到的序列種類的數(shù)目有所差異(圖1),組1中位數(shù)為75(33~215.5),組2中位數(shù)為363(243.5~500.5)。以標本N7和P31為例,N7的CE檢測IGH克隆性重排結果為陰性,IGH的三個范圍的擴增片段均為高斯分布(圖2A);而P31的CE檢測結果為陽性,三個范圍的擴增片段均只有一個片段,多樣性顯著減少(圖2B)。
兩份標本NGS所得序列的稀疏曲線也有差異(圖2C)。在抽樣的序列數(shù)由0增加至5×104時,P31曲線上升較少,快速到達平臺期,縱坐標顯示其序列種類較少;而N7曲線快速上升,縱坐標顯示其在采樣很小的情況下序列多樣性即超過800,說明其序列多樣性顯著。在進一步加大抽樣序列數(shù)的情況下,P31的曲線始終維持在平臺期,多樣性沒有增加,說明該標本抽樣充分,多樣性較少;而N7通過數(shù)據(jù)外推所得擬合曲線仍然緩慢上升直至平臺期,說明其隨著抽樣序列數(shù)的增加,其多樣性仍在進一步增加,同時由于擬合曲線只是反映根據(jù)實際數(shù)據(jù)外推所得到的假設數(shù)據(jù),因此擬合曲線的出現(xiàn)也說明該標本的采樣需要進一步增加。但由于真實數(shù)據(jù)所得的稀疏曲線已經(jīng)可以表現(xiàn)為出現(xiàn)平臺期的趨勢,因此該例標本的抽樣量被認為可接受。
圖1 標本多樣性Fig.1 Sample diversity Note: The horizontal represented the samples,the vertical represented the number of species that were sampled in every sample.Blue dots and red dots marked group 1 and group 2,respectively.
圖2 CE檢測結果及稀疏曲線Fig.2 CE testing results and rarefaction curvesNote: A and B were the CE testing results of IGH clonal rearrangement in Sample N7 and P31,respectively.C were the rarefaction curves of Sample N7 and P31,the horizontal “sample size” represented the number of reads randomly sampled from the sequenced reads in the analysis,and the vertical “Diversity” represented the number of species that were actually observed in a sample size.Solid and dashed lines marked interpolated and extrapolated regions of rarefaction curves respectively.Shaded areas marked 95% confidence intervals.
圖3 兩組標本Shannon-Wiener指數(shù)和Simpson指數(shù)Fig.3 Shannon-Wiener Index and Simpson IndexNote: A and B were the mean values of Shannon-Wiener index and inverse Simpson index,respectively.The horizontal represented the samples,the vertical represented the index values.Blue dots and red dots marked group 1 and group 2,respectively.
2.3兩組標本的Shannon-Wiener指數(shù)及Simpson指數(shù)不同 Shannon-Wiener指數(shù)和Simpson指數(shù)可以將IGH 基因序列多樣性進行量化。兩組標本的兩個指數(shù)均數(shù)均有差異(圖3)。組1(CE檢測IGH克隆性重排陽性)中Shannon-Wiener指數(shù)均數(shù)中位數(shù)為2.78(1.95~3.83),其中88.89%(32/36例)標本Shannon-Wiener指數(shù)均數(shù)<10,而組2(CE檢測IGH克隆性重排陰性)中100%(15/15例)Shannon-Wiener指數(shù)均數(shù)>100(圖3A),中位數(shù)為232.35(151.46~418.63)。Simpson指數(shù)的結果類似(圖3B),組1中inverse Simpson指數(shù)均數(shù)中位數(shù)為2.01(1.58~2.64),其中Shannon-Wiener指數(shù)均數(shù)<10的32例標本inverse Simpson指數(shù)均數(shù)<3,組2中100%(15/15例)inverse Simpson指數(shù)均數(shù)>80,中位數(shù)為203.21(130.57~372.47)。
通過計算組1標本NGS測序結果中每一份標本前兩位的序列比例之和(以S表示),可以發(fā)現(xiàn),Shannon-Wiener指數(shù)均數(shù)<10的32例標本S值的中位數(shù)為93.72%(85.49%~98.60%),而Shannon-Wiener指數(shù)均數(shù) >10的4例標本P21、P24、P29、P34的S值低于上述水平,分別為15.80%、15.70%、66.33%、50.58%。而在Simpson指數(shù)這個指標中,僅P21、P24這兩例S值非常低的標本inverse Simpson指數(shù)均數(shù)>5,而P29、P34這兩例標本的inverse Simpson指數(shù)均數(shù)分別為4.29、4.27,接近其余32例標本的指數(shù)均數(shù)水平(圖3B)。
IR分析在感染、自身免疫病、實體腫瘤及B/T細胞腫瘤的診斷和鑒別診斷方面有廣泛且重要的潛在應用價值。NGS由于測序原理的優(yōu)勢,能夠同時得到片段長度和序列信息,為IR分析提供了較為理想的技術基礎,也是近年來分子醫(yī)學的研究熱點之一。近年來使用NGS 方法確定IG 基因序列多樣性的研究進展迅速, 可用于對淋巴細胞組庫的組成進行定性、疾病監(jiān)測、描述與疾病進展和復發(fā)相關的惡性腫瘤細胞中的抗體演變和多樣化的程度、以及評估造血干細胞移植之后的免疫重建等方面[7-11]。但在IR分析時,一直缺乏較好的量化評價指標。本文用IGH和初診的B-ALL為樣本,探討稀疏分析、Shannon-Wiener指數(shù)、Simpson指數(shù)三種指標在IR分析中的應用價值。
稀疏分析經(jīng)常被用于生物學中群落物種及微生物的多樣性分析[12,13]。其應用的前提條件有采樣相對充分、均質分布等[14]。而IR分析時,對B/T細胞的采樣,一般通過外周血采集,能夠滿足上述條件。因此稀疏分析可能也適用于IR多樣性的分析。本研究的結果也顯示可以通過稀疏曲線來可視化地展現(xiàn)不同標本中IGH基因IR的多樣性。在圖1中可以看出兩組標本多樣性的不同,但在組1中P36標本的序列種類數(shù)目為2 002,遠遠偏離組1其余35例標本的范圍,看起來IGH克隆性重排應該為陰性,但是結合其優(yōu)勢克隆的比例(95.27%)以及Shannon-Wiener指數(shù)均數(shù)(1.32)與inverse Simpson指數(shù)均數(shù)(1.10)可以看出該標本中有一個高比例的優(yōu)勢克隆,其IGH克隆性重排結果與CE檢測結果相符。因此對于標本IGH重排克隆性的分析,不能簡單依靠一個指標來判斷,應該結合多個指標綜合分析。
Shannon-Wiener指數(shù)與Simpson指數(shù)是描述群落物種多樣性的兩種α多樣性指數(shù),能夠對群落物種組成的豐富度及均勻度進行綜合評價,是目前生態(tài)學中應用最廣泛的兩個數(shù)量指標[15]。正常情況下,不同的B細胞的IGH序列幾乎互不相同。一般認為B細胞腫瘤起源于一個B細胞,所有的腫瘤細胞均應該具有相同的IGH序列。因此,IGH序列多樣性可以反映不同B細胞組成的豐富度。在一定程度上Shannon-Wiener指數(shù)與Simpson指數(shù)可能也適用于對IGH序列多樣性的分析。本研究的結果顯示,Shannon-Wiener指數(shù)和Simpson指數(shù)可以對IG的多樣性進行量化。組1和組2數(shù)據(jù)之間具有很大差異,在組1中,由于不同標本中克隆細胞的比例不同,因此這兩個指數(shù)值會出現(xiàn)較大的差異。優(yōu)勢克隆所占比例高的標本整體B細胞的多樣性自然會減少。本研究中出現(xiàn)的P21、P24、P29、P34這4例標本中,由于P21、P24標本中優(yōu)勢克隆所占比例很低(15.80%、15.70%),因此Shannon-Wiener指數(shù)與Simpson指數(shù)值均高于組1的普遍水平;而P29、P34這2例標本,其優(yōu)勢克隆所占比例雖然低于其余32例標本,但比例也在50%以上,相對P21、P24來說多樣性相對少一些,因此Simpson指數(shù)值更接近于其余32例標本,這也說明在豐富度不變的情況下,Simpson指數(shù)比Shannon-Wiener指數(shù)對均勻度更敏感,這與文獻報道一致[14]。綜上所述,本研究初步顯示稀疏分析可以通過稀疏曲線可視化地展現(xiàn)IGH基因IR的多樣性,而Shannon-Wiener指數(shù) 與Simpson指數(shù)可以給出評價多樣性的部分量化指標,而對于IGH多樣性的分析不應單獨應用某一個指標,應綜合運用多種指標進行更全面地判斷。