丁曉燕,沈夢(mèng)婕,李 嵐,景鵬偉,黃國(guó)寧,葉 虹
(人類胚胎工程重慶市重點(diǎn)實(shí)驗(yàn)室/重慶市生殖醫(yī)學(xué)臨床研究中心/重慶市婦幼保健院 400013)
中國(guó)是出生缺陷高發(fā)國(guó)家,出生缺陷不但嚴(yán)重影響新生兒身心健康,也給家庭和社會(huì)帶來(lái)沉重的負(fù)擔(dān)[1]。染色體異常是導(dǎo)致新生兒出生缺陷的常見(jiàn)原因,染色體結(jié)構(gòu)或數(shù)目異常會(huì)引起一系列的臨床疾病,是造成胎兒流產(chǎn)、新生兒畸形、智力低下、發(fā)育遲緩等疾病的根本原因[2-4]。隨著國(guó)家對(duì)出生缺陷的重視以及人們對(duì)生育質(zhì)量要求的提高,產(chǎn)前診斷的需求量及工作量日益增加,羊水細(xì)胞培養(yǎng)及染色體核型分析是篩查胎兒先天疾病的首選方法[5]。
隨著輔助生殖技術(shù)(assisted reproductive technology,ART)的發(fā)展,越來(lái)越多的不孕患者選擇通過(guò)ART解決生育問(wèn)題。而隨著“二孩”及“三孩”政策的開(kāi)放,高齡助孕的患者逐漸增多,助孕前的染色體核型檢查及高齡孕婦的產(chǎn)前診斷已成為很多生殖中心的重要工作,需要安排大量的人力物力來(lái)完成,且需要等待較長(zhǎng)的時(shí)間才能出具檢測(cè)報(bào)告[6]。
傳統(tǒng)染色體核型分析主要依靠人工分析,經(jīng)過(guò)專業(yè)訓(xùn)練的技術(shù)人員通過(guò)顯微鏡拍攝的單個(gè)細(xì)胞圖片觀察染色體,根據(jù)其形態(tài)結(jié)構(gòu)判斷染色體是否重復(fù)、缺失、易位或倒位。這一流程需要經(jīng)驗(yàn)豐富的專業(yè)技術(shù)人員操作,雖然現(xiàn)有的專用顯微鏡可以自動(dòng)或半自動(dòng)進(jìn)行染色體分類,但效果并非特別理想,未能分割的聚簇會(huì)導(dǎo)致系統(tǒng)誤報(bào),染色體碎片會(huì)增加系統(tǒng)的錯(cuò)誤率[6]。隨著計(jì)算能力的飛速發(fā)展和大數(shù)據(jù)的應(yīng)用,人工智能(artificial intelligence,AI)圖像識(shí)別技術(shù)深度神經(jīng)網(wǎng)絡(luò)成為新的圖像識(shí)別熱點(diǎn)。本研究以經(jīng)過(guò)分類標(biāo)記的染色體圖庫(kù)作為訓(xùn)練集,讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人類染色體各個(gè)核型特征,實(shí)現(xiàn)可針對(duì)中期染色體圖像自動(dòng)分類過(guò)程,在保證分類準(zhǔn)確率的同時(shí)降低對(duì)人工的依賴性。
1.1數(shù)據(jù)集
采用的所有圖像均來(lái)自重慶市婦幼保健院生殖醫(yī)學(xué)中心,包括外周血及羊水標(biāo)本制備的染色體圖像。圖像庫(kù)由1 652組不同中期染色體圖片組成,每組由兩張圖片組成,一張為經(jīng)過(guò)專業(yè)醫(yī)師分割的圖片,一張為專業(yè)醫(yī)師完成識(shí)別并分類排序的圖片。見(jiàn)圖1。
圖1 中期染色體及其分析排版結(jié)果
隨機(jī)將圖像庫(kù)中的1 000組歸為訓(xùn)練組,用于神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練和修正。將1 000張已經(jīng)標(biāo)記的圖片所包含的約46 000條染色體以40條一組重新隨機(jī)分布到圖片上,每條染色體需經(jīng)過(guò)0~360°的隨機(jī)旋轉(zhuǎn),且互不重疊,最終生成10 000張圖片組成訓(xùn)練組。剩余的652組圖像分為測(cè)試組(300例)與驗(yàn)證組(352例),分別用于實(shí)時(shí)觀察神經(jīng)網(wǎng)絡(luò)的收斂效果和檢驗(yàn)神經(jīng)網(wǎng)絡(luò)的性能。
1.2方法
1.2.1軟硬件平臺(tái)
所有的網(wǎng)絡(luò)均采用Python3.6語(yǔ)言編寫的TensorFlow1.2框架下搭建,整個(gè)試驗(yàn)在Ubuntu 16.04系統(tǒng)下運(yùn)行。計(jì)算機(jī)配置:Intel(R) i7-7820X CPU,64G RAM,NVIDIA 2080TI 11GB GPU *2。
1.2.2不同染色體核型分類方法
一名長(zhǎng)期進(jìn)行染色體分類的專業(yè)技師利用普通顯微鏡(Olympus BX51)人工分析染色體圖像(A組),利用全自動(dòng)染色體顯微圖像掃描分析系統(tǒng)(ZEISS MetaSystems Imager Z2)對(duì)染色體圖片進(jìn)行分析(B組),與AI模型(AI組)對(duì)染色體圖片分析的準(zhǔn)確率及分析時(shí)間進(jìn)行對(duì)比(n=50)。
1.3統(tǒng)計(jì)學(xué)處理
2.1AI神經(jīng)網(wǎng)絡(luò)建立
采用一個(gè)通用圖像分割網(wǎng)絡(luò)Mask-RCNN[7],其是一種基于區(qū)域的神經(jīng)網(wǎng)絡(luò)架構(gòu)。采用數(shù)據(jù)集預(yù)訓(xùn)練模型參數(shù)初始化對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù),其余參數(shù)進(jìn)行隨機(jī)初始化。 驗(yàn)證組測(cè)試分類識(shí)別的準(zhǔn)確率為91.35%~98.61%,中位準(zhǔn)確率為94.38%。采用驗(yàn)證組對(duì)已收斂的深度網(wǎng)絡(luò)進(jìn)行測(cè)試,該網(wǎng)絡(luò)能夠較好地劃出目標(biāo)區(qū)域并分類,見(jiàn)圖2。
圖2 經(jīng)深度神經(jīng)網(wǎng)絡(luò)識(shí)別的染色體區(qū)域并分類
2.2人機(jī)分類比較
長(zhǎng)期進(jìn)行染色體分類的專業(yè)技師利用普通顯微鏡進(jìn)行一個(gè)染色體圖像的分析時(shí)間大約為10 min,而人工利用全自動(dòng)染色體顯微圖像掃描分析系統(tǒng)對(duì)染色體圖片進(jìn)行分析,每個(gè)染色體圖片大約需要2~5 min,準(zhǔn)確率均為100%。
專業(yè)技師利用全自動(dòng)染色體顯微圖像掃描分析系統(tǒng)分割粘連、重疊的染色體大約需要1~2 min,然后將圖片傳遞給深度神經(jīng)網(wǎng)絡(luò),其能在幾秒內(nèi)完成染色體分類,正確率為96.0%,因此在人工配合下可在1~2 min左右完成染色體的識(shí)別和分類。3組的識(shí)別時(shí)間比較,差異有統(tǒng)計(jì)學(xué)意義(P<0.05);而準(zhǔn)確率比較,差異無(wú)統(tǒng)計(jì)學(xué)意義,見(jiàn)表1。
表1 不同染色體分類方法耗時(shí)與準(zhǔn)確率比較
以往的染色體核型分析工作幾乎均由專業(yè)人員人工完成,包括培養(yǎng)、制片、鏡檢,其過(guò)程煩瑣,雖然準(zhǔn)確率有保障,但效率比較低下,導(dǎo)致染色體檢查結(jié)果等待時(shí)間較長(zhǎng)。半自動(dòng)或全自動(dòng)染色體分析系統(tǒng)的出現(xiàn)使染色體核型分析的效率得到了很大的提高,然而這些系統(tǒng)只是在染色體圖像的拍攝和選取方面做到了全自動(dòng),而在染色體圖像分割和染色體核型分析方面還是需要專業(yè)技師的參與[8],即仍然是通過(guò)人機(jī)交互的模式完成的,并沒(méi)有真正做到“全自動(dòng)”。
隨著計(jì)算機(jī)計(jì)算能力的飛速發(fā)展和大數(shù)據(jù)的應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)成為新的圖像識(shí)別熱點(diǎn)。AI圖像識(shí)別技術(shù)用于醫(yī)學(xué)影像的輔助診斷已有大量研究,包括胸部、心血管疾病、骨科疾病及神經(jīng)系統(tǒng)疾病影像等,這些研究成果如果用于臨床將大大減少臨床醫(yī)師的工作量及輔助提高診斷的準(zhǔn)確率[9-10]。關(guān)于染色體核型的AI分析也早有研究,但有很多技術(shù)難題沒(méi)有克服,且準(zhǔn)確率一直較低。WU等[11]采用VGG-net-d的網(wǎng)絡(luò)架構(gòu),識(shí)別染色體的準(zhǔn)確率達(dá)到了63.5%。GUPTA等[12]采用孿生雙網(wǎng)絡(luò)互糾正分類法,準(zhǔn)確率達(dá)到85.6%。LIN等[13]采用基于ResNeXt框架的遷移學(xué)習(xí)識(shí)別法,準(zhǔn)確率達(dá)到了94.09%。然而這些研究的準(zhǔn)確率還遠(yuǎn)遠(yuǎn)不足以用于臨床。
染色體識(shí)別的兩個(gè)難點(diǎn)在于分割和分類[14]。由于顯微鏡下的染色體難免粘連或重疊,不成熟的分割算法導(dǎo)致后續(xù)的分類準(zhǔn)確率降低[15]。然而人工分割重疊的染色體要求的技術(shù)不高,時(shí)間較短,且后續(xù)神經(jīng)網(wǎng)絡(luò)識(shí)別率還能得到提高。而影響染色體分類的難點(diǎn)主要在于染色體彎曲折疊等不同的形態(tài)。有研究發(fā)現(xiàn)將彎曲折疊的染色體進(jìn)行伸直處理,使染色體的識(shí)別率達(dá)到了很大的提升,然而這種方法并不能完全適用于所有染色體圖像中的情況[16]。本研究發(fā)現(xiàn)只需將各種形態(tài)的染色體隨機(jī)旋轉(zhuǎn),反復(fù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)便可以高效識(shí)別呈現(xiàn)各種形態(tài)的染色體。因此相較于傳統(tǒng)的染色體核型分析流程,采用預(yù)先人工處理,再采用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類的方法,不但提高了效率,同時(shí)降低了對(duì)技術(shù)人員的要求。
本研究通過(guò)現(xiàn)有圖像庫(kù)訓(xùn)練出的神經(jīng)網(wǎng)絡(luò),對(duì)染色體的識(shí)別率可高達(dá)96.0%,所耗費(fèi)的時(shí)間僅為傳統(tǒng)人工識(shí)別的五分之一,較全自動(dòng)染色體分析系統(tǒng)的所需時(shí)間也顯著降低,大大提高了染色體核型分析的效率,從而降低了患者等待檢測(cè)結(jié)果的時(shí)間。由于培養(yǎng)一名專業(yè)的遺傳學(xué)醫(yī)師需要漫長(zhǎng)的時(shí)間,其經(jīng)驗(yàn)也需要在工作中不斷積累,期間必定耗費(fèi)大量的人力物力,需要大量的醫(yī)務(wù)工作者為染色體核型分析付出大量的工作。本研究建立的AI深度神經(jīng)網(wǎng)絡(luò)可以高效、準(zhǔn)確地識(shí)別出染色體核型,而且可以集成到現(xiàn)有的核型分析系統(tǒng)中或通過(guò)網(wǎng)絡(luò)集成到云端。并且隨著應(yīng)用的推廣,圖像庫(kù)的數(shù)據(jù)集會(huì)得到不斷的補(bǔ)充,通過(guò)AI神經(jīng)網(wǎng)絡(luò)的自主學(xué)習(xí)及調(diào)整功能,識(shí)別率會(huì)得到進(jìn)一步的提高,將大大減輕醫(yī)護(hù)人員的工作負(fù)擔(dān),并減輕患者的經(jīng)濟(jì)負(fù)擔(dān)及減少患者的等待時(shí)間。