亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

深度學(xué)習(xí)方法對(duì)周圍型肺癌和肺結(jié)核球的分類初探

2020-05-09 06:18:28王彬冰白雪陳明鄭光浩胡東張璐張華賈宏遠(yuǎn)劉吉平單國(guó)平

浙江醫(yī)學(xué) 2020年7期

王彬冰白雪陳明鄭光浩胡東張璐張華賈宏遠(yuǎn) 劉吉平單國(guó)平

在放射治療中，腫瘤靶區(qū)的自動(dòng)勾畫是研究者感興趣的問題[1-5]。CT影像中，對(duì)于肺內(nèi)孤立性團(tuán)塊影病灶，雖然可以通過閾值分割、卷積神經(jīng)網(wǎng)絡(luò)等方法確定其范圍，但無法確定病灶的性質(zhì)。其中，周圍型肺癌和肺結(jié)核球就存在以上鑒別困難。深度學(xué)習(xí)方法在圖像分類領(lǐng)域獲得了廣泛認(rèn)可，它通過多層非線性變換，從海量數(shù)據(jù)中自動(dòng)提取抽象特征，既消除了主觀因素的影響，又能提取到更加高級(jí)的抽象特征[6-8]。但是，目前未見其用于肺癌或肺結(jié)核球方面的相關(guān)報(bào)道；缺乏大樣本量的圖譜可能是原因之一。本研究在前期收集的肺癌和肺結(jié)核圖譜的工作基礎(chǔ)上，使用深度學(xué)習(xí)方法對(duì)以上兩者進(jìn)行分類，旨在實(shí)現(xiàn)肺內(nèi)病灶的良惡性判斷，減少醫(yī)生重復(fù)工作量和肉眼觀察可能出現(xiàn)的疏漏，以期提高肺癌靶區(qū)自動(dòng)勾畫的準(zhǔn)確性。本研究使用2家醫(yī)院的胸部CT檢查數(shù)據(jù)，比較了病理類型明確的肺癌和肺結(jié)核2D紋理圖片，現(xiàn)將結(jié)果報(bào)道如下。

1 材料和方法

1.1 圖像數(shù)據(jù)獲取（1）肺癌圖譜：選自浙江省腫瘤醫(yī)院61例周圍型肺癌患者，均為肺實(shí)性病灶，無肺部彌漫性疾病和其他實(shí)變，且經(jīng)病理證實(shí)為肺癌。CT影像來源于GE LightSpeed CT模擬機(jī)和Philips Brilliance Big Bore CT模擬機(jī)，掃描電壓均為120kV，電流80mA，平掃，掃描層厚5mm，患者由經(jīng)驗(yàn)豐富的臨床醫(yī)師勾畫可見腫瘤病灶，勾畫窗寬設(shè)置為[-1 000，500]，腫瘤CT橫斷面最長(zhǎng)徑為 1.2～4.4cm（2.3±0.6）cm。（2）肺結(jié)核球圖譜選自阿克蘇地區(qū)第一人民醫(yī)院53例患者，均有肺結(jié)核球病史，CT影像提示為繼發(fā)性肺結(jié)核并有結(jié)核球，且無肺部彌漫性疾病和其他實(shí)變。CT影像來源于Siemens Emotion CT和Siemens SOMATOM Definition Flash CT，掃描電壓分別為 130、100kV，電流 80mA，平掃，掃描層厚2mm。CT影像經(jīng)網(wǎng)絡(luò)傳輸?shù)絉ayStation（RaySearch Laboratories AB，斯德哥爾摩，瑞典）治療計(jì)劃系統(tǒng)，由經(jīng)驗(yàn)豐富的放射影像科醫(yī)生使用輪廓勾畫工具標(biāo)記結(jié)核球病灶，結(jié)核球CT橫斷面最長(zhǎng)徑為1.3～4.5（2.9±0.4）cm。肺組織在縱隔窗、窗寬[-125，225]條件下，使用閾值勾畫工具勾畫，隨后在肺窗[-1 000，500]下檢查并修改，勾畫完成后，影像數(shù)據(jù)和輪廓數(shù)據(jù)分別以DICOM和DICOMRT格式導(dǎo)出。

1.2 訓(xùn)練集數(shù)據(jù)增強(qiáng) 本研究是對(duì)肺癌和肺結(jié)核球的分類模型研究，研究的感興趣區(qū)是第一節(jié)中影像醫(yī)生所標(biāo)記的范圍以及其臨近區(qū)域。而原始DICOM影像包含的信息多，如果直接使用原始DICOM影像進(jìn)行訓(xùn)練，效果不理想，模型不易收斂，因此對(duì)圖像作了如下處理：（1）只提取圖像中肺組織部分，去除其他組織，減少無關(guān)圖像信息；（2）根據(jù)標(biāo)記的肺癌或肺結(jié)核球輪廓裁剪圖像，裁剪圖像像素56×56，減少其他肺組織紋理對(duì)分類的影響。擴(kuò)大訓(xùn)練圖譜數(shù)據(jù)集是降低過擬合的有效方法，對(duì)采集的肺癌和肺結(jié)核球圖譜，本研究對(duì)訓(xùn)練圖譜庫(kù)中圖像作平移、反轉(zhuǎn)、旋轉(zhuǎn)處理，見圖1。經(jīng)過數(shù)據(jù)增強(qiáng)后，數(shù)據(jù)庫(kù)中一共包含了2 346張肺癌圖像和2 340張肺結(jié)核球圖像。

圖1 訓(xùn)練集數(shù)據(jù)處理與數(shù)據(jù)增強(qiáng)

1.3 卷積神經(jīng)網(wǎng)絡(luò)模型本研究對(duì)已標(biāo)注為肺癌和肺結(jié)核球的影像，使用基于GoogLeNet的模型進(jìn)行訓(xùn)練，GoogLeNet提出的多尺度感知層Inception結(jié)構(gòu)使用密集成分來近似最優(yōu)的局部稀疏結(jié)構(gòu)，以提高計(jì)算性能。GoogLeNet使用224×224的圖像作為輸入，但如果圖像尺寸過大，則易把不相關(guān)信息混入訓(xùn)練圖像，直接影響分類結(jié)果；而且GoogLeNet對(duì)大尺寸自然圖像使用的大尺寸卷積核和大步長(zhǎng)，在識(shí)別肺癌/肺結(jié)核球特征時(shí)，略顯粗糙。對(duì)于所收集圖像的統(tǒng)計(jì)發(fā)現(xiàn)，使用56×56（約3.7cm×3.7cm）的圖像可以包含絕大多數(shù)的感興趣區(qū)（肺癌、肺結(jié)核球的平均最長(zhǎng)徑為2.3、2.9cm）。因此，在本研究修改了訓(xùn)練模型，使它適應(yīng)較小尺寸的圖像，并且提取到更精細(xì)的特征，使用線性整流函數(shù)（rectified linear unit，ReLU）作為激活函數(shù)。GoogLeNe網(wǎng)絡(luò)模型結(jié)構(gòu)及參數(shù)見表1。

1.4 數(shù)據(jù)測(cè)試分析測(cè)試集數(shù)據(jù)選擇獨(dú)立于訓(xùn)練集的患者CT影像，其中肺癌62幅，肺結(jié)核球圖譜84幅，使用與生成訓(xùn)練集圖譜相同的方法獲得，所選擇圖譜均經(jīng)病理證實(shí)為肺癌和肺結(jié)核球，掃描條件同1.1。訓(xùn)練集數(shù)據(jù)用于模型訓(xùn)練，驗(yàn)證集數(shù)據(jù)用于評(píng)估超參數(shù)的好壞，測(cè)試集數(shù)據(jù)用于評(píng)估模型是否只過度擬合了訓(xùn)練數(shù)據(jù)以及模型的泛化能力。為了測(cè)試模型在不同情況下的分類能力，對(duì)這146張圖譜分別按2種方法分組：（1）為比較不同CT來源對(duì)最終分類結(jié)果的影響，測(cè)試集被分成兩組：測(cè)試集圖譜和訓(xùn)練集圖譜來源一致（A組，70張）；在測(cè)試集中加入其他來源圖譜（B組，76張）。（2）為比較模型對(duì)不同大小病灶的分類能力，測(cè)試集被分成病灶CT橫斷面最長(zhǎng)徑＜3cm（C組，88張）和≥3cm（D組，58張）。使用caffe深度學(xué)習(xí)框架訓(xùn)練模型，訓(xùn)練在一臺(tái)intel Core i7-7700HQ CPU@2.80GHz、GPU NVIDIA GeForce 940MX、8GB RAM的電腦上完成，迭代100 000次。定義TP為將肺癌預(yù)測(cè)為肺癌數(shù)，TN為將肺結(jié)核球預(yù)測(cè)為肺結(jié)核球數(shù)，F(xiàn)P為將肺結(jié)核球預(yù)測(cè)為肺癌數(shù)，F(xiàn)N為將肺癌預(yù)測(cè)為肺結(jié)核球數(shù)，計(jì)算模型對(duì)肺癌/肺結(jié)核球分類的精確率（Precision）P=TP/（TP+FP），召回率（recall）R=TP/（TP+FN），F(xiàn)值（F-Measure）F=（2*P*R）/（P+R）。

表1 GoogLeNet網(wǎng)絡(luò)模型結(jié)構(gòu)及參數(shù)

2 結(jié)果

2.1 不同CT設(shè)備的CT密度表本研究所收集的CT影像來源于4臺(tái)不同的CT機(jī)，CT密度表見圖2。CT密度表均使用CIRS Model 062M模體在每臺(tái)CT機(jī)上測(cè)量。當(dāng) HU 值在[-1 000，-750]和[500，1 500]區(qū)間內(nèi)，4 臺(tái)CT機(jī)的HU值和物理密度對(duì)應(yīng)關(guān)系之間存在一些差別；[-750，500]區(qū)間范圍內(nèi)各CT機(jī)之間HU值和物理密度對(duì)應(yīng)關(guān)系接近。本研究所標(biāo)記的感興趣區(qū)域在肺窗[-1 000，500]下，處于HU值和物理密度對(duì)應(yīng)關(guān)系符合度較好的區(qū)間。

2.2 模型分類結(jié)果使用深度學(xué)習(xí)網(wǎng)絡(luò)模型對(duì)肺癌、肺結(jié)核球進(jìn)行分類，迭代100 000次，訓(xùn)練過程見圖3。可以看到模型損失函數(shù)Loss值隨迭代步數(shù)增加逐漸趨于0，Accuracy為模型對(duì)驗(yàn)證集數(shù)據(jù)正確分類的概率，其值隨迭代步數(shù)增加逐漸趨于1。訓(xùn)練完成后，分別對(duì)測(cè)試集中每張圖片輸出模型預(yù)測(cè)的屬于肺癌或肺結(jié)核球的概率，以50%概率為分類閾值。模型的總體分類精確率、召回率、F值分別為88.9%、77.4%、82.8%，分類結(jié)果見表2。

圖3 模型訓(xùn)練的Loss值及Accuracy曲線

表2 模型對(duì)肺癌、肺結(jié)核分類的結(jié)果

在A組中，分類精確率、召回率、F值分別為89.3%（較高）、96.2%、92.6%（較好）；在B組加入了未包含在訓(xùn)練集中的其他CT機(jī)型來源的測(cè)試集圖譜，分類精確率、召回率、F值分別為88.5%、63.9%、74.2%，均低于A組。從病灶大小分布來看，A組中有38.5%（10/26）的肺癌圖譜病灶最長(zhǎng)徑＞3cm，有29.5%（13/44）的肺結(jié)核球圖譜病灶最長(zhǎng)徑＞3cm。B組中有38.8%（14/36）的肺癌圖譜病灶最長(zhǎng)徑＞3cm，有52.5%（21/40）的肺結(jié)核球圖譜病灶最長(zhǎng)徑＞3cm。分類結(jié)果表明，A組中有1例（10%）病灶最長(zhǎng)徑＞3cm的肺癌圖譜和2例（15.4%）病灶最長(zhǎng)徑＞3cm的肺結(jié)核球圖譜分類錯(cuò)誤。而B組分類錯(cuò)誤的13例肺癌圖譜中，有11例（84.6%）為新CT機(jī)型來源圖譜，且這11例新圖譜中有8例（72.7%）圖譜的病灶最長(zhǎng)徑＞3cm。而肺結(jié)核球測(cè)試集圖譜與訓(xùn)練集圖譜來源相同，因此分類準(zhǔn)確率較高，A、B兩組中肺結(jié)核球被錯(cuò)誤分類的比例分布為6.8%和7.5%。C組為肺癌或肺結(jié)核球病灶最長(zhǎng)徑＜3cm的圖譜，模型對(duì)C組的分類精確率、召回率、F值分別為89.2%、86.8%、88.0%，均高于D組（88.2%、62.5%、73.2%）。其中C組分類錯(cuò)誤的圖譜主要為不同CT來源的肺癌圖譜（4例），D組有6例不同CT來源的肺癌圖譜被錯(cuò)誤分類。結(jié)果顯示模型對(duì)與訓(xùn)練集圖譜來源不同以及病灶最長(zhǎng)徑＞3cm的圖譜分類能力較弱。

分類模型對(duì)A、B、C、D組圖譜分類的AUC值分別為 0.987、0.897、0.959、0.887，可以看到模型對(duì) A 組和 C組有較理想的分類結(jié)果。模型對(duì)測(cè)試集圖譜的分類概率結(jié)果見圖4。

圖4 各組圖譜分類結(jié)果的ROC曲線（特異度表示測(cè)試集腫瘤圖譜分類結(jié)果的假陽性率，靈敏度表示測(cè)試集腫瘤圖譜分類結(jié)果的真陽性率）

3 討論

周圍型肺癌與肺結(jié)核球的鑒別存在一定困難。對(duì)于一些不典型病例，易造成誤判。本文對(duì)深度學(xué)習(xí)方法在肺癌和肺結(jié)核球分類問題上的有效性進(jìn)行了研究，在對(duì)2D訓(xùn)練圖像進(jìn)行肺組織提取、裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)方法后，使用改進(jìn)的GoogLeNet模型對(duì)周圍型肺癌和肺結(jié)核球分類模型進(jìn)行訓(xùn)練，使它更好地識(shí)別肺癌和肺結(jié)核球圖像的細(xì)節(jié)特征。最后使用了不同圖像來源和特征的測(cè)試集圖譜，測(cè)試了模型的分類能力。研究結(jié)果對(duì)于放射治療中肺癌的靶區(qū)自動(dòng)勾畫具有實(shí)際應(yīng)用價(jià)值。目前肺癌與肺結(jié)核球鑒別診斷的技術(shù)主要包括：（1）使用CAD法提取病變圖像的參數(shù)特征，然后進(jìn)行分類[9-10]；（2）使用能譜CT并對(duì)能譜衰減曲線、物質(zhì)分離和Eff-Z等多參數(shù)進(jìn)行定量分析，以提高鑒別診斷正確率[11-12]；（3）采用深度學(xué)習(xí)分類方法，以平掃CT影像為學(xué)習(xí)圖譜庫(kù)，克服部分患者不能接受增強(qiáng)CT檢查、增加額外檢查費(fèi)用、引入其他參數(shù)的定量分析等問題。

在二分類問題中，訓(xùn)練集兩類樣本的數(shù)量是否平衡，會(huì)對(duì)訓(xùn)練結(jié)果產(chǎn)生影響。因此，本研究在選擇訓(xùn)練樣本時(shí)，通過病例數(shù)、數(shù)據(jù)增強(qiáng)等方法控制兩類樣本的比例，最終訓(xùn)練集中兩類樣本比例為1.003∶1。為避免當(dāng)肺癌和肺結(jié)核球靠近胸壁時(shí)無法識(shí)別病灶，本研究使用閾值勾畫和人工勾畫結(jié)合的方法對(duì)肺組織進(jìn)行準(zhǔn)確分割，以獲得高質(zhì)量的訓(xùn)練數(shù)據(jù)。對(duì)獨(dú)立于訓(xùn)練樣本的肺癌和肺結(jié)核球CT影像測(cè)試結(jié)果表面，分類模型能有效地區(qū)分兩者。深度學(xué)習(xí)方法除了需要大量數(shù)據(jù)和高質(zhì)量標(biāo)記作為訓(xùn)練集外，還需要注意不同設(shè)備訓(xùn)練集數(shù)據(jù)來源對(duì)最終訓(xùn)練結(jié)果的影響[13]。雖然在臨床實(shí)踐中，CT圖像掃描的管電壓、重建層厚相對(duì)固定，但不同設(shè)備間硬件差異以及圖像算法均可導(dǎo)致兩種機(jī)型掃描圖像的差異。本研究發(fā)現(xiàn)，如果訓(xùn)練集CT圖像和測(cè)試CT圖像均來自相同的多個(gè)掃描機(jī)型，模型分類結(jié)果較好，但是在測(cè)試集中加入其他CT設(shè)備的影像，分類結(jié)果明顯下降。這是由于訓(xùn)練集中的樣本缺乏差異性造成的。這提示不同中心之間的訓(xùn)練模型使用前，應(yīng)加入相應(yīng)訓(xùn)練數(shù)據(jù)重新訓(xùn)練。

本研究還發(fā)現(xiàn)，模型的分類能力受病灶最長(zhǎng)徑大小的影響。病灶最長(zhǎng)徑＜3cm的圖譜分類結(jié)果好于＞3cm的圖譜。造成分類結(jié)果差異大的原因可能來自2個(gè)方面：（1）訓(xùn)練集圖譜中，肺癌的平均最長(zhǎng)徑較小[（2.3±0.6）cm 比（2.9±0.4）cm]，因此訓(xùn)練集中＞3cm 的肺癌圖譜樣本量較少，而肺結(jié)核圖譜樣本量較多，樣本數(shù)不平衡導(dǎo)致分類結(jié)果出現(xiàn)偏差。（2）考慮到計(jì)算效率，在準(zhǔn)備訓(xùn)練集時(shí)，裁剪圖譜使用3.7cm×3.7cm的圖像尺寸。＞3cm的腫塊可能超出圖像范圍而造成圖像特征不全，影響分類學(xué)習(xí)結(jié)果。本研究存在一定的局限性，如選取的病例圖譜數(shù)量仍有待擴(kuò)大，而更大的圖譜庫(kù)有助于得到更高的分類準(zhǔn)確度，同時(shí)有效避免數(shù)據(jù)過擬合。另外，本研究只選取了肺癌和肺結(jié)核球兩類病灶作為訓(xùn)練圖譜，在實(shí)際臨床工作中訓(xùn)練集圖譜的分類方法還能進(jìn)一步細(xì)分，如可以包括病理分型分期，預(yù)測(cè)治療效果、基因表型的研究等，這將在今后完善相應(yīng)類型的圖譜。

綜上所述，深度學(xué)習(xí)方法對(duì)周圍型肺癌和結(jié)核球的鑒別診斷具有一定的潛力，可以有效地鑒別周圍型肺癌和肺結(jié)核球，但病灶大小以及訓(xùn)練集、測(cè)試集圖譜來源對(duì)訓(xùn)練結(jié)果有一定影響。