陳劉萍 余 卓 潘亞玲 王晗琦 陸 勇
骨質(zhì)疏松癥可以通過檢查骨密度來早期預(yù)測(cè)。QCT(quantitative computed tomography),又稱定量CT,具有分別測(cè)量骨松質(zhì)及骨皮質(zhì)密度的優(yōu)勢(shì),預(yù)測(cè)骨折風(fēng)險(xiǎn)的能力高[1]。然而,目前所使用的QCT軟件后處理工作多是機(jī)械的人工操作,耗費(fèi)大量的時(shí)間和人力成本,這使得我們迫切需要一種全自動(dòng)的人工智能(artificial intelligence, AI)程序來輔助完成這項(xiàng)工作。因此,本研究的目的是構(gòu)建一種基于低劑量胸部CT的AI骨密度測(cè)量系統(tǒng),旨在從常規(guī)胸部CT中測(cè)量骨密度,并驗(yàn)證其與QCT測(cè)量骨密度的一致性。
通過回顧性納入2020年5月至2020年11月接受低劑量胸部CT肺癌篩查的健康體檢者。納入標(biāo)準(zhǔn):20周歲以上的體檢健康者。排除標(biāo)準(zhǔn):①近期準(zhǔn)備懷孕或者已懷孕的女性;②上腹部掃描范圍內(nèi)有金屬植入物的患者[2]。共納入研究對(duì)象1 427例,其中女性613例,男性814 例。年齡范圍為22~86 歲,平均年齡為(49.2±15.2)歲。所有受試者的CT掃描設(shè)備為荷蘭飛利浦公司的iCT 256 CT掃描儀,掃描范圍為肺尖到L2椎體下緣。掃描參數(shù):管電壓120 kV,平均管電流30 mA,采用自動(dòng)毫安秒技術(shù),掃描層厚×層距=5 mm×5 mm,矩陣512×512,掃描視野500 mm。采用標(biāo)準(zhǔn)算法重建,重建層厚×層距=1 mm×1 mm。
AI 骨密度測(cè)量系統(tǒng)包括椎體分割和骨密度的回歸預(yù)測(cè)。椎體的分割使用Unet 全卷積神經(jīng)網(wǎng)絡(luò),選取T12~L2 椎體進(jìn)行感興趣區(qū)(ROI)提取,ROI 的設(shè)置為以椎體中心點(diǎn)向周圍擴(kuò)散取最大體積立方體,同時(shí)不包含骨皮質(zhì)。骨密度提取采用DenseNet 卷積神經(jīng)網(wǎng)絡(luò),最終計(jì)算出以mg/cm3為單位的骨密度值。
Unet 最早由德國弗萊堡大學(xué)的Olaf Ronneberger于2015 年提出[3],之后Unet 及其改進(jìn)型模型被廣泛應(yīng)用于醫(yī)學(xué)生物領(lǐng)域的圖像分割[3]。Unet 是一種編解碼的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),整個(gè)網(wǎng)絡(luò)類似一個(gè)U型結(jié)構(gòu),如圖1所示。
圖1 Unet網(wǎng)絡(luò)結(jié)構(gòu)
圖2 DenseNet預(yù)測(cè)骨密度的流程圖
圖3 分割效果圖A~D依次為原始圖像、金標(biāo)準(zhǔn)、分割結(jié)果、3D渲染的分割結(jié)果。
圖4 AI骨密度測(cè)量系統(tǒng)和QCT測(cè)量骨密度值的相關(guān)性散點(diǎn)圖(A)和Bland-Altman圖(B)
圖5 AI骨密度測(cè)量系統(tǒng)檢測(cè)骨質(zhì)疏松ROC曲線
Unet 模型是2D 圖像作為輸入,輸出為與原圖大小相同的分割結(jié)果。模型分為左半部的下采樣和右半部的上采樣組成。在下采樣部分,模型共進(jìn)行4 次下采樣,分別獲得不同尺度的特征圖{F1,F(xiàn)2,F(xiàn)3,F(xiàn)4};每次下采集之前,先進(jìn)行2次核大小為3×3的卷積,然后進(jìn)行核大小為2×2的最大池化操作,最后使用激活函數(shù)層ReLU 完成下采樣。在上采樣部分,模型同樣進(jìn)行4 次上采樣,分別獲得不同尺度的特征圖{F5,F(xiàn)5,F(xiàn)7,F(xiàn)8};上采樣操作時(shí),首先進(jìn)行核大小為2×2的卷積完成上采樣,然后將得到的特征圖Fx與對(duì)應(yīng)尺度的特征圖F(9-x)由進(jìn)行拼接,然后使用核大小為3×3 進(jìn)行卷積。在獲得最后的上采樣的特征圖F8后,再進(jìn)行2 次卷積操作,最后通過核大小為1×1 的卷積完成輸出,實(shí)現(xiàn)端到端的分割。
Unet 分割模型采用Dice 系數(shù)作為評(píng)價(jià)指標(biāo),公式如下:
其中,e和f分別表示真實(shí)分割圖與模型分割圖。Dice系數(shù)越高,證明模型分割結(jié)果越接近真實(shí)分割圖,分割性能越好。
為解決神經(jīng)網(wǎng)絡(luò)加深而帶來的退化問題,2017年康奈爾大學(xué)、清華大學(xué)、Facebook AI 研究院的學(xué)者聯(lián)合提出一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)DenseNet[4]。DenseNet 解決網(wǎng)絡(luò)退化的最大特點(diǎn)即它將低層的神經(jīng)網(wǎng)絡(luò)層通過短連接的方式連接到高層的神經(jīng)網(wǎng)絡(luò)層。DenseNet 中的基本單元為密集塊(dense block,DB),DB 模塊是由批歸一化層(batch normalization,BN)、ReLU 激活函數(shù)層、卷積層組成,簡(jiǎn)稱為BNReLU-Conv 結(jié)構(gòu)。另外DenseNet 使用這種統(tǒng)一的DB模塊可以有效避免各級(jí)輸出的特征圖尺寸不一致的情況。圖2為使用DenseNet進(jìn)行圖像分割的示意圖,模型通過多個(gè)DB 模塊對(duì)輸入圖像進(jìn)行特征的提取和學(xué)習(xí),最終實(shí)現(xiàn)端到端的分割。對(duì)于DenseNet 的評(píng)價(jià)指標(biāo)與Unet等網(wǎng)絡(luò)一致。
由于DenseNet 的密集連接會(huì)使得在高層的網(wǎng)絡(luò)由于不斷的concat連接而導(dǎo)致通道數(shù)擴(kuò)大,從而可能大大增加計(jì)算量,因此在每個(gè)DB 模塊前往往添加一個(gè)瓶頸層(bottleneck layer)即1×1 的Conv 操作,可以降維減少計(jì)算量,同時(shí)又能保證多個(gè)通道的特征不丟失。
QCT 骨密度測(cè)量使用QCT Pro Model 4 骨密度測(cè)量系統(tǒng)(QCT Pro 6.1,美國 Mindways 公司)分別在T12、L1 及L2 椎體骨松質(zhì)中央放置橢圓形的ROI,深度設(shè)置為9 mm,避開周圍骨皮質(zhì)和后方椎靜脈叢。
所有的統(tǒng)計(jì)分析都是通過SPSS26.0 統(tǒng)計(jì)學(xué)軟件進(jìn)行的,顯著性水平設(shè)定為P<0.05。計(jì)量資料用平均值±標(biāo)準(zhǔn)差表示。采用配對(duì)t檢驗(yàn)比較AI 骨密度測(cè)量系統(tǒng)和QCT 獲得骨密度的差異和Bland-Altman 法分析2 種方法的一致性。雙變量線性相關(guān)性系數(shù)和單因素線性回歸分析被用來評(píng)估2 種方法所得骨密度相關(guān)性。根據(jù)美國放射學(xué)會(huì)(ACR)腰椎QCT 骨質(zhì)疏松診斷標(biāo)準(zhǔn)[5],將QCT 骨密度值分為3 個(gè)亞組,即<80 mg/cm3為骨質(zhì)疏松;80~120 mg/cm3為骨量減低;>120 mg/cm3為骨量正常。采用單因素ANOVA 檢驗(yàn)評(píng)估AI 骨密度測(cè)量系統(tǒng)所得骨密度在3 個(gè)亞組間的差異,事后比較采用LSD 法。繪制AI 模型預(yù)測(cè)骨密度值的受試者工作特征 (receiver operating characteristic, ROC)曲線,計(jì)算靈敏度、特異度及曲線下面積(area under of curve, AUC)。
本研究采用NVIDIA 1080Ti GPU 計(jì)算,計(jì)算時(shí)間141 s,資源消耗1 960 Mb,在測(cè)試集上測(cè)試得到相應(yīng)的Dice 系數(shù)為0.969。分割效果如圖3 所示,可以看出分割結(jié)果基本上與標(biāo)簽達(dá)到一致,并通過3D 渲染的后處理方法,分割效果較好。分割結(jié)果Dice 評(píng)分和訓(xùn)練數(shù)據(jù)集數(shù)量成正比,當(dāng)訓(xùn)練數(shù)據(jù)集為300 時(shí),Dice 系數(shù)為0.7 左右,當(dāng)數(shù)據(jù)集為2 000例以上時(shí),Dice 系數(shù)可以逐漸收斂達(dá)到0.96 以上。
AI 骨密度測(cè)量系統(tǒng)與QCT 測(cè)量T12、L1、L2椎體骨密度的Pearson 相關(guān)系數(shù)分別為0.988、0.992、0.990(均P<0.001)。整體回歸檢測(cè)模型誤差性能的平均絕對(duì)誤差(MAE) 為3.660,見圖4A。Bland-Altman 分析顯示AI 骨密度測(cè)量系統(tǒng)與QCT 測(cè)量T12~L2 椎體骨密度具有高度的一致性,2種方法測(cè)量的T12、L1、L2 椎體骨密度差值均數(shù)分別為2.96(95%CI 2.62~3.31) mg/cm3(P<0.001),1.46 (95%CI 1.18~1.74) mg/cm3(P<0.001) 及1.61(95%CI 1.30~1.92)mg/cm3(P<0.001),差值大部分位于差值平均值±1.96 標(biāo)準(zhǔn)差范圍內(nèi),見圖4B。
以L1 和L2 椎體骨密度平均值[骨密度ave(L1+L2)]作為診斷骨質(zhì)疏松癥的依據(jù)。采用AI 骨密度測(cè)量系統(tǒng)和QCT測(cè)得的L1和L2椎體骨密度平均值,在各年齡段中的差異均沒有統(tǒng)計(jì)學(xué)意義(均P>0.05),詳見表1。
表1 2種方法測(cè)量不同年齡段的骨密度差異± s,mg·cm-3
表1 2種方法測(cè)量不同年齡段的骨密度差異± s,mg·cm-3
年齡/歲<30 30~34 35~39 40~44 45~49 50~54 55~59 60~64 65~69 70~74 75~79 80~84≥85女性骨密度(n=613)男性骨密度(n=814)例數(shù)52 78 73 53 50 56 56 72 70 34 17 P值0.380 0.435 0.479 0.548 0.667 0.757 0.622 0.879 0.790 0.830 0.745例數(shù)83 100 100 91 60 54 63 94 81 54 26 1 1 QCT測(cè)量179.43±26.87 181.01±29.68 178.87±24.20 176.64±28.58 161.21±27.14 142.89±31.84 112.75±23.37 100.19±21.50 94.80 ±30.73 84.97 ±33.84 75.00±23.72 76.95 131.71 AI測(cè)量174.98±24.21 177.46±27.04 176.13±22.29 173.37±27.27 158.92±25.99 141.06±30.93 110.62±22.29 99.64±21.06 93.43±29.98 83.27±31.08 72.60±18.70 81.81 133.76 7 1 QCT測(cè)量166.11±29.10 170.42±27.00 159.70±26.69 154.02±30.25 149.30±23.34 133.11±28.46 129.69±31.10 118.03±24.28 111.09±31.61 96.26±26.60 90.18±31.06 108.38±34.88 111.21 AI測(cè)量165.21±27.73 169.26±25.37 158.49±25.49 152.99±29.82 147.97±21.93 132.55±27.03 129.10±29.60 117.17±22.68 109.37±27.75 96.66±26.09 90.49±29.11 106.65±27.91 110.30 P值0.838 0.752 0.744 0.816 0.749 0.916 0.914 0.804 0.714 0.937 0.971 0.920
AI骨密度測(cè)量系統(tǒng)測(cè)量3個(gè)亞組的骨密度ave(L1+L2)(單 位: mg/cm3) 分 別 為161.63±26.08、 101.55±11.65、66.31±13.06,3個(gè)亞組兩兩之間骨密度差異均具有統(tǒng)計(jì)學(xué)意義(均P<0.001)。如圖5 所示,在測(cè)試集上,AI 骨密度測(cè)量系統(tǒng)預(yù)測(cè)骨密度值診斷骨質(zhì)疏松的性能表現(xiàn)優(yōu)秀:AUC=0.996 (95%CI 0.994~0.998),P<0.001,靈敏度為0.989,特異度為0.905。實(shí)驗(yàn)結(jié)果表明此系統(tǒng)用于實(shí)際臨床診斷。
本研究構(gòu)建了一種基于低劑量胸部CT 的AI骨密度測(cè)量系統(tǒng),該系統(tǒng)設(shè)計(jì)用于與QCT 結(jié)果對(duì)比,旨在評(píng)估其測(cè)量骨密度的準(zhǔn)確性。在不同性別、年齡、體重指數(shù)和無論骨骼健康狀態(tài)如何的情況下,AI 骨密度測(cè)量系統(tǒng)與QCT 獲得的骨密度之間有很強(qiáng)的正向關(guān)聯(lián)性和高度的一致性,因此,本研究結(jié)果表明這種基于常規(guī)CT 的AI骨密度測(cè)量系統(tǒng)能夠成功地預(yù)測(cè)各種人群的骨密度。當(dāng)以QCT 結(jié)果為標(biāo)準(zhǔn)時(shí),AI 骨密度測(cè)量系統(tǒng)預(yù)測(cè)骨密度能夠準(zhǔn)確地區(qū)分骨量正常、骨量減低和骨質(zhì)疏松,這表明該模型在使用胸部CT圖像確定骨骼健康分類方面可能與QCT 一樣是有效的。
骨質(zhì)疏松癥以骨密度降低為特征,與脆性骨折有關(guān)。骨密度可以反映70%~75%的骨強(qiáng)度變化,從而被認(rèn)為是目前臨床篩查、診斷及監(jiān)測(cè)骨質(zhì)疏松癥的主要指標(biāo)[6]。DXA 是診斷骨質(zhì)疏松和進(jìn)行全身骨密度評(píng)估的最廣泛的技術(shù)。然而,DXA 容易受腹主動(dòng)脈鈣化和脊柱退行性變的影響。QCT 可以通過多平面的立體空間定位測(cè)量,可以有效規(guī)避上述病變,在骨質(zhì)疏松癥的評(píng)估中得到醫(yī)生的廣泛認(rèn)可[7-8]。由于后處理設(shè)備的需要和后處理工作的繁瑣,QCT 在大多數(shù)醫(yī)院并沒有得到廣泛的應(yīng)用。本研究構(gòu)建了基于常規(guī)CT 的AI 骨密度測(cè)量系統(tǒng)的方法全自動(dòng)測(cè)量骨密度,結(jié)果表明,在測(cè)試集上測(cè)試得到相應(yīng)的Dice 系數(shù)為0.969,分割效果較好。通過AI 骨密度測(cè)量系統(tǒng)獲得的平均骨密度的Pearson相關(guān)系數(shù)非常接近1,與QCT 得到的平均骨密度值之間存在很強(qiáng)的相關(guān)性。并且,Bland-Altman 一致性限值表明,2 種方法之間沒有顯著差異。椎體壓縮骨折常見于胸腰椎交界區(qū)(T10~L2)[9],我們驗(yàn)證了AI 骨密度測(cè)量系統(tǒng)測(cè)量T12 椎體至L2 椎體骨密度是有效且準(zhǔn)確的,有潛力預(yù)測(cè)這些存在高風(fēng)險(xiǎn)壓縮性骨折的椎體的骨折風(fēng)險(xiǎn)。一項(xiàng)基于QCT 的全國多中心研究中國骨質(zhì)疏松癥患病率的研究[7]指出,年齡≥50歲的男性骨質(zhì)疏松癥患病率為13.5%,幾乎是基于DXA 研究報(bào)道的2倍。這促使我們尋找一種便捷而有效的工具,以便應(yīng)用于所有性別人群骨質(zhì)疏松癥篩查中。我們的研究結(jié)果表明在不同性別和年齡段的人群中AI 骨密度測(cè)量系統(tǒng)與QCT 測(cè)量結(jié)果均沒有顯著差異,這為全自動(dòng)骨密度測(cè)量模型的臨床推廣提供了參考依據(jù)。
Savage 等[10]構(gòu)建了一種基于常規(guī)CT 的AI 骨密度測(cè)量模型,可以成功地確定椎體CT 衰減值,并與DXA 結(jié)果呈現(xiàn)中度相關(guān),但在此研究中樣本量只有65 例,且部分受試者接受兩種檢查的時(shí)間間隔長(zhǎng)達(dá)2年,可能降低研究結(jié)果的精確性。Pan 等[11]的研究基于全自動(dòng)骨密度測(cè)量系統(tǒng)與QCT 對(duì)T12~L2 椎體骨密度測(cè)量的相關(guān)性達(dá)0.96 左右,該研究只納入了50歲以上人群數(shù)據(jù)。Fang 等[12]提出了一種深度卷積神經(jīng)網(wǎng)絡(luò)算法,該算法模型能夠計(jì)算出類似于QCT 的骨密度值,經(jīng)該算法回歸模型所得的L1~L4椎體骨密度與QCT 得到的骨密度的Pearson 相關(guān)系數(shù)在0.98 以上,兩者之間存在很強(qiáng)的相關(guān)性,然而他們的模型在不同廠商的CT掃描儀上獲得的骨密度存在一定差異。本研究使用了優(yōu)化后的AI 骨密度測(cè)量系統(tǒng),測(cè)量T12~L2 椎體骨密度的相關(guān)系數(shù)均在0.99 以上,稍優(yōu)于既往研究報(bào)道的結(jié)果。與此同時(shí),本模型有利于用在胸部CT 機(jī)會(huì)性篩查骨質(zhì)疏松,其掃描范圍一般包括L1 椎體下界[13]。另外,本研究結(jié)果表明該模型預(yù)測(cè)各年齡段和不同性別人群的骨密度均有較高的準(zhǔn)確性,可能有機(jī)會(huì)拓展AI 骨密度測(cè)量系統(tǒng)用于骨質(zhì)疏松癥篩查的適用人群。
本研究具有如下的優(yōu)點(diǎn):首先,利用了基于多個(gè)中心的數(shù)據(jù)建立的AI 骨密度測(cè)量系統(tǒng),該模型較之前診對(duì)單中心,單一CT 掃描儀的數(shù)據(jù)模型有進(jìn)一步的優(yōu)化。其次,納入了大樣本不同性別、年齡和體質(zhì)指數(shù)的體檢人群,可以作為將該AI 系統(tǒng)代替QCT 應(yīng)用于臨床篩查骨質(zhì)疏松的參考依據(jù)。第三,驗(yàn)證了該模型用于篩查骨質(zhì)異常的準(zhǔn)確性,結(jié)果表明可以通過從常規(guī)CT掃描中獲得的骨密度預(yù)測(cè)骨質(zhì)疏松癥。
本研究也存在一些局限性,首先,只對(duì)平掃CT數(shù)據(jù)進(jìn)行分析,增強(qiáng)后AI 與QCT 測(cè)量骨密度一致性需要進(jìn)一步驗(yàn)證[14]。其次,該模型尚不能自動(dòng)排除有骨島等異常的椎體,這些椎體的骨密度與實(shí)際情況相差較大,可能對(duì)臨床診斷結(jié)果有顯著影響。