彭麗琴,萬(wàn)雷,汪茂文,李卓,王鵬,劉太昂,王亞輝,趙虎
(1.中山大學(xué)中山醫(yī)學(xué)院法醫(yī)學(xué)系 廣東省法醫(yī)學(xué)轉(zhuǎn)化醫(yī)學(xué)工程技術(shù)研究中心,廣東 廣州 510080;2.司法鑒定科學(xué)研究院 上海市法醫(yī)學(xué)重點(diǎn)實(shí)驗(yàn)室 司法部司法鑒定重點(diǎn)實(shí)驗(yàn)室 上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺(tái),上海 200063;3.上海真譜信息科技有限公司,上海 200444)
骨齡是基于個(gè)體骨骼成熟度進(jìn)行的年齡估計(jì),代表人體的生物學(xué)年齡。臨床上常用于對(duì)兒童青少年的發(fā)育情況評(píng)估,法庭科學(xué)中常用于對(duì)青少年犯罪嫌疑人的定罪量刑。傳統(tǒng)的骨齡評(píng)估方法主要是通過影像片人工讀取骨骺干骺端的發(fā)育形態(tài),其中使用最廣泛的是Greulich-Pyle圖譜法[1]和Tanner-Whitehouse法[2]。但是人工讀片效率較低,且閱片者之間存在不可避免的內(nèi)部差異性。因此,從20世紀(jì)80年代末開始,研究學(xué)者們開始探尋將骨齡評(píng)估計(jì)算機(jī)自動(dòng)化[3-4]。其中,機(jī)器學(xué)習(xí)成為最受關(guān)注的技術(shù),并應(yīng)用于骨齡評(píng)估。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,其核心是使用算法解析數(shù)據(jù),然后對(duì)某件事情做出決定或預(yù)測(cè)。該過程可以看作是尋找一個(gè)函數(shù),輸入是樣本數(shù)據(jù),輸出是期望的結(jié)果。2006年,HINTON等[5]提出的深度學(xué)習(xí)(deep learning,DL)算法是其中最具代表性的算法之一,從海量的訓(xùn)練數(shù)據(jù)集中自動(dòng)學(xué)習(xí)任務(wù)相關(guān)特性及多層網(wǎng)絡(luò)模型的構(gòu)建,大大提升了分類、預(yù)測(cè)結(jié)果的準(zhǔn)確性。目前已被廣泛應(yīng)用于醫(yī)學(xué)圖像領(lǐng)域,如肺結(jié)節(jié)良惡性的預(yù)測(cè)[6]、前列腺癌的診斷[7]、鼻咽癌的預(yù)后估計(jì)[8]、骨齡評(píng)估[9]等。2017年,北美放射學(xué)會(huì)舉行的骨齡評(píng)估挑戰(zhàn)賽[10]中,排名前三的人工智能技術(shù)均為DL算法。
對(duì)于青少年骨齡評(píng)估而言,目前國(guó)內(nèi)外絕大多數(shù)學(xué)者使用的是手腕關(guān)節(jié)X線影像學(xué)圖片[11-14],因?yàn)槭滞箨P(guān)節(jié)中包含長(zhǎng)管狀骨、短管狀骨及不規(guī)則骨等多種形態(tài)的骨骼,掌指骨、尺橈骨以及腕骨可以不同程度地反映全身各大關(guān)節(jié)不同形態(tài)骨骼的發(fā)育狀況[15]。此外,手腕關(guān)節(jié)攝片較為簡(jiǎn)便,X線攝片對(duì)個(gè)體的電離輻射較小,可滿足醫(yī)學(xué)倫理學(xué)的基本要求。但使用手腕關(guān)節(jié)X線影像學(xué)資料進(jìn)行青少年骨齡評(píng)估具有一定的局限性,因?yàn)槭滞箨P(guān)節(jié)骨骼在18.0周歲左右已趨于閉合,這對(duì)于超過18.0周歲青少年群體的骨齡評(píng)估價(jià)值相對(duì)較弱,而18.0周歲是我國(guó)司法體系中一個(gè)重要的年齡節(jié)點(diǎn)。骨盆的髂嵴、坐骨結(jié)節(jié)骨骺則成熟相對(duì)較晚[16-17],而且骨盆的繼發(fā)骨化中心出現(xiàn)較晚,如髂嵴、坐骨繼發(fā)骨化中心在11.0~12.0周歲才開始出現(xiàn),至20.0周歲時(shí),骨骺方趨于閉合[18]。因此,這完全符合《中華人民共和國(guó)刑事訴訟法》規(guī)定的14.0、16.0、18.0周歲的骨齡判斷,采用骨盆X線影像學(xué)資料較好地彌補(bǔ)了青少年手腕關(guān)節(jié)骨齡評(píng)估的年齡缺陷。本研究擬選用VGG19、Inception-V3和Inception-ResNet-V2 3種經(jīng)典的圖像識(shí)別DL網(wǎng)絡(luò)模型對(duì)我國(guó)漢族人群骨盆X線片進(jìn)行骨齡評(píng)估研究,并對(duì)3種DL網(wǎng)絡(luò)模型的性能進(jìn)行比較。
本研究調(diào)取了962例漢族11.0~<21.0歲男、女性骨盆X線影像學(xué)資料作為數(shù)據(jù)集,上述骨盆X線影像學(xué)資料拍攝于2005—2018年上海市(200例)、浙江省(222例)、海南省(123例)、吉林省(128例)及河南?。?89例)5個(gè)省市的醫(yī)院。其中男性481例,女性481例。上述個(gè)體的生活年齡來自其身份證或戶籍信息。
納入標(biāo)準(zhǔn):體檢確認(rèn)身體健康,營(yíng)養(yǎng)狀況良好。采用馬爾丁金屬測(cè)量計(jì)、經(jīng)校準(zhǔn)的杠桿秤分別測(cè)身高、體質(zhì)量,選擇在“國(guó)人正常身高、體質(zhì)量范圍調(diào)查表”[19]規(guī)定范圍內(nèi)的個(gè)體作為研究對(duì)象。排除標(biāo)準(zhǔn):參加特殊文藝、體育訓(xùn)練的個(gè)體,服用影響骨骼發(fā)育藥物史的患者,有影響骨骼發(fā)育疾病史或外傷史的患者。從上述男、女性青少年骨盆X線片樣本集中采取隨機(jī)抽樣的方法抽取80%作為訓(xùn)練和驗(yàn)證集,用于模型擬合和超參數(shù)的調(diào)整;20%作為測(cè)試集,用于評(píng)估模型泛化能力。如圖1所示。
本研究符合醫(yī)學(xué)倫理學(xué)有關(guān)條款規(guī)定。
圖1 訓(xùn)練和驗(yàn)證集、測(cè)試集樣本分布Fig.1 Distribution of training and validation set and test set
1.2.1 圖像預(yù)處理
(1)骨盆骨骼X線片為DL網(wǎng)絡(luò)模型的信息來源,采用python 3.7軟件對(duì)圖像進(jìn)行預(yù)處理。人工裁減掉圖像上的無關(guān)字符,如片號(hào)、姓名、拍攝日期以及醫(yī)院名稱等內(nèi)容。
(2)將圖像縮放至同一尺寸:通過雙線性插值,將圖像統(tǒng)一縮放至256像素×256像素。
(3)隨機(jī)旋轉(zhuǎn):骨盆X線片的旋轉(zhuǎn)理論上不應(yīng)該影響對(duì)年齡的回歸預(yù)測(cè),為了增加模型的泛化能力,對(duì)所有的圖像都會(huì)進(jìn)行-30°~30°的隨機(jī)旋轉(zhuǎn)(圖2)。
圖2 圖像旋轉(zhuǎn)示意圖Fig.2 Diagram of image rotation
(4)調(diào)整圖像對(duì)比度、亮度:對(duì)比度是指一幅圖像中明暗區(qū)域最亮的白和最暗的黑之間不同亮度層級(jí)的測(cè)量,即指一幅圖像灰度反差的大小。亮度是指照射在景物或者圖像上光線的明暗程度。骨盆圖像對(duì)比度、亮度的變化,理論上不應(yīng)該影響對(duì)年齡的回歸預(yù)測(cè),為了增加模型的泛化能力,隨機(jī)調(diào)整X線片對(duì)比度(調(diào)節(jié)因子為0.5),并均勻選擇亮度因子(調(diào)節(jié)因子為0.5~1.5),對(duì)圖像進(jìn)行亮度調(diào)整(圖3)。
圖3 圖像亮度調(diào)整示意圖Fig.3 Schematic diagram of image brightness adjustment
1.2.2 模型訓(xùn)練
(1)網(wǎng)絡(luò)結(jié)構(gòu)的選擇
DL卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)因引入了權(quán)值共享、局部互聯(lián)、閾值激活的方法,使得神經(jīng)網(wǎng)絡(luò)更符合生物神經(jīng)元的稀疏性和有效性。CNN可擴(kuò)展性強(qiáng),通過多層疊加,可以實(shí)現(xiàn)不同特征的提取,通常淺層次的神經(jīng)元提取淺層特征(如直線和圓?。Mㄟ^前面的層層組合,深層次的神經(jīng)元就可以提取出類似骨骺的外觀、形態(tài)、大小等復(fù)雜特征。由于具備以上優(yōu)點(diǎn),CNN近年來在圖像識(shí)別、回歸預(yù)測(cè)等方面被廣泛應(yīng)用。其無需人為提取特征,而是將整張圖像直接輸入網(wǎng)絡(luò),由網(wǎng)絡(luò)自己提取特征并回歸識(shí)別,不同層次的網(wǎng)絡(luò)會(huì)提取不同的特征[20]。
通常一個(gè)CNN由卷積層、激活層、池化層、損失函數(shù)層組成。卷積層的目的是提取輸入對(duì)象的不同特征,網(wǎng)絡(luò)層數(shù)更多則能從低級(jí)特征中迭代提取更復(fù)雜的特征。激活層用于增強(qiáng)判定函數(shù)和整個(gè)神經(jīng)網(wǎng)絡(luò)的非線性特性。池化層的主要作用為降采樣,即減少參數(shù)的數(shù)量和計(jì)算量。損失函數(shù)層主要是度量神經(jīng)網(wǎng)絡(luò)的輸出的預(yù)測(cè)值與實(shí)際值之間的差距,通常是網(wǎng)絡(luò)的最后一層,各種不同的損失函數(shù)適用于不同類型的任務(wù)。本研究類型屬于回歸問題,因此選用均方根誤差(root mean square error,RMSE)作為損失函數(shù)層。
在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)大賽上,從AlexNet[21]開始涌現(xiàn)出一大批超越人工識(shí)別準(zhǔn)確率的網(wǎng)絡(luò)。VGGNet[22]證明了2個(gè)3×3的卷積核可以替代1個(gè)5×5的卷積操作,有效降低了參數(shù)量,并提升了準(zhǔn)確率。GoogLeNet[23]第一次組合不同大小卷積核提取的特征。ResNet[24]提出使用殘差結(jié)構(gòu),可以使網(wǎng)絡(luò)更好地關(guān)注高頻差異信息,使得網(wǎng)絡(luò)可以變得更深,大幅提升了準(zhǔn)確率。DenseNet[25]提出密集連接的思想,將卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率推上了又一個(gè)臺(tái)階。因此,本研究將借鑒已有的模型(https://github.com/pytorch/vision/tree/master/torchvision/models)來進(jìn)行遷移學(xué)習(xí),這樣既能保證網(wǎng)絡(luò)的深度特征提取,又能降低學(xué)習(xí)的成本。本研究選取VGG19、Inception-V3和Inception-ResNet-V2 3種結(jié)構(gòu)[26]進(jìn)行對(duì)比實(shí)驗(yàn)。其中VGG19是由VGG16發(fā)展而來,加深了網(wǎng)絡(luò)層數(shù);Inception-V3是由GoogLeNet發(fā)展而來,通過并行的卷積和不對(duì)稱卷積,利用更少的參數(shù)獲取更好的結(jié)果;增加網(wǎng)絡(luò)的深度和寬度都會(huì)提升網(wǎng)絡(luò)的性能,Inception-ResNet-V2堅(jiān)固了深度和寬度兩方面特性,理論上可以使得網(wǎng)絡(luò)性能達(dá)到最佳。
(2)參數(shù)的設(shè)置及算法優(yōu)化
本研究使用遷移學(xué)習(xí),即在訓(xùn)練前加載3種模型已經(jīng)在ImageNet上訓(xùn)練好的權(quán)重作為初始權(quán)重,之后在自己的數(shù)據(jù)集上進(jìn)行再學(xué)習(xí)。采用Adam優(yōu)化算法對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練,將訓(xùn)練次數(shù)設(shè)置為200輪,訓(xùn)練的最小批量數(shù)是32。動(dòng)量值為0.9,參數(shù)以0.0005的衰退值下降,以樣本的圖像為輸入,樣本的生活年齡作為模型訓(xùn)練的目標(biāo)值。每一輪訓(xùn)練結(jié)束都在驗(yàn)證集上測(cè)試結(jié)果,保存在驗(yàn)證集上表現(xiàn)最好的模型參數(shù)。3種模型示意圖分別見圖4~6。
本研究基于i9-9900K+RTX 2080Ti硬件平臺(tái)的win10操作系統(tǒng)。算法開發(fā)過程借助PyCharm軟件(美國(guó)Jetbrains公司)和開源工具Jupyter Notebook 6.0.2(美國(guó)Patent&Trademark辦公室),并使用Anaconda進(jìn)行開發(fā)環(huán)境管理。語(yǔ)言環(huán)境基于Keras-GPU以及python 3.7。采用python 3.7統(tǒng)計(jì)3種模型測(cè)試集男、女性各年齡段的年齡()、RMSE、平均絕對(duì)誤差(mean absolute error,MAE)指標(biāo)。繪制Bland-Altman散點(diǎn)圖計(jì)算預(yù)測(cè)數(shù)據(jù)的95%一致性界限(95% limits of agreement,95%LOA),以評(píng)估3種模型的預(yù)測(cè)性能。同時(shí),采用SPSS 21.0軟件(美國(guó)IBM公司)對(duì)3種模型RMSE、MAE值進(jìn)行配對(duì)t檢驗(yàn),檢驗(yàn)水準(zhǔn)α=0.05。
圖4 VGG19模型示意圖Fig.4 Schematic diagram of VGG19 model
圖5 Inception-V3模型示意圖Fig.5 Schematic diagram of Inception-V3 model
圖6 Inception-ResNet-V2模型示意圖Fig.6 Schematic diagram of Inception-ResNet-V2 model
VGG19網(wǎng)絡(luò)模型中,RMSE范圍為0.59~2.01歲,平均RMSE為1.29歲;MAE范圍為0.49~1.74歲,平均MAE為1.02歲。其中12.0~<13.0歲年齡組總測(cè)試集的RMSE值和MAE值最低,分別為0.85歲和0.68歲;11.0~<12.0歲年齡組的RMSE值和MAE值最高,分別為1.73歲和1.42歲,結(jié)果見表1。
Inception-V3模型中,RMSE范圍為0.50~2.88歲,平均RMSE為1.17歲;MAE范圍為0.36~2.12歲,平均MAE為0.82歲。其中20.0~<21.0歲年齡組總測(cè)試集的RMSE值和MAE值最低,分別為0.70歲和0.54歲;11.0~<12.0歲年齡組的RMSE值和MAE值最高,分別為2.30歲和1.62歲,結(jié)果見表2。
Inception-ResNet-V2模型中,RMSE范圍為0.41~2.14歲,平均RMSE為1.11歲;MAE范圍為0.32~1.78歲,平均MAE為0.84歲。其中18.0~<19.0歲年齡組總測(cè)試集的RMSE值和MAE值最低,分別為0.49歲和0.38歲;20.0~<21.0歲年齡組的RMSE值和MAE值最高,分別為1.54歲和1.18歲,結(jié)果見表3。
將3種CNN模型的RMSE、MAE分別進(jìn)行配對(duì)t檢驗(yàn),結(jié)果顯示:VGG19模型的MAE與Inception-ResNet-V2模型的MAE之間差異有統(tǒng)計(jì)學(xué)意義(P=0.020),VGG19模型的RMSE與Inception-ResNet-V2模型的RMSE之間差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。VGG19模型與Inception-V3模型相比,RMSE、MAE之間差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。Inception-V3模型的RMSE、MAE與Inception-ResNet-V2模型相比,差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 漢族男、女性骨盆圖像VGG19模型獨(dú)立測(cè)試集預(yù)測(cè)結(jié)果Fig.1 The prediction results of the independent test set of the VGG19 model of the pelvic images of male and female Han nationality
表2 漢族男、女性骨盆圖像Inception-V3模型獨(dú)立測(cè)試集預(yù)測(cè)結(jié)果Fig.2 The prediction results of the independent test set of the Inception-V3 model of the pelvic images of male and female Han nationality
表3 漢族男女性骨盆圖像Inception-ResNet-V2模型獨(dú)立測(cè)試集預(yù)測(cè)結(jié)果Fig.3 The prediction results of the independent test set of the Inception-ResNet-V2 model of the pelvic images of male and female Han nationality
3種CNN模型測(cè)試集的預(yù)測(cè)年齡與生活年齡的Bland-Altman散點(diǎn)圖(圖7)顯示:VGG19網(wǎng)絡(luò)模型的預(yù)測(cè)年齡與生活年齡的平均差值的絕對(duì)值為0.16歲,95%LOA為-2.34~2.67歲;Inception-V3網(wǎng)絡(luò)模型的預(yù)測(cè)年齡與生活年齡的平均差值的絕對(duì)值為0.26歲,95%LOA為-2.51~1.98歲;Inception-ResNet-V2網(wǎng)絡(luò)模型的預(yù)測(cè)年齡與生活年齡的平均差值的絕對(duì)值為0.08歲,95%LOA為-2.25~2.10歲。其中Inception-ResNet-V2網(wǎng)絡(luò)模型的散點(diǎn)圖更為集中分布,Inception-V3模型分布在界限外的點(diǎn)數(shù)最少,而VGG19網(wǎng)絡(luò)模型的散點(diǎn)圖分布相對(duì)離散。
圖7 模型測(cè)試集預(yù)測(cè)年齡與生活年齡的Bland-Altman散點(diǎn)圖Fig.7 Bland-Altman plot of the prediction age estimated by 3 models on test set and real chronological age
近年來,機(jī)器學(xué)習(xí)在自動(dòng)駕駛[27]、計(jì)算機(jī)視覺[28]、語(yǔ)音識(shí)別[29]、醫(yī)學(xué)診斷[30]等領(lǐng)域均取得了巨大的成就。2014—2019年,王亞輝課題組[31-33]曾應(yīng)用支持向量機(jī)、主成分分析等淺層學(xué)習(xí)算法對(duì)我國(guó)漢族青少年手腕關(guān)節(jié)、維吾爾族青少年膝關(guān)節(jié)X線骨齡深入研究,結(jié)果表明,基于支持向量機(jī)算法實(shí)現(xiàn)尺、橈骨遠(yuǎn)端骨骺發(fā)育分級(jí)的自動(dòng)化評(píng)估是可靠的、可行的,基于支持向量機(jī)及主成分分析算法建立的骨齡回歸算法模型可以實(shí)現(xiàn)較高準(zhǔn)確率的年齡預(yù)測(cè)。隨著人工智能技術(shù)的不斷革新與換代,DL以及神經(jīng)網(wǎng)絡(luò)模型逐步成為機(jī)器學(xué)習(xí)領(lǐng)域新的研究方向及熱點(diǎn)問題。DL逐步在影像學(xué)、腫瘤學(xué)、病理學(xué)、外科學(xué)以及語(yǔ)音識(shí)別領(lǐng)域的研究中取得突破性進(jìn)展,在人臉識(shí)別、信息檢索等領(lǐng)域也展示出獨(dú)特優(yōu)勢(shì)并被廣泛應(yīng)用[34-35]。人工智能網(wǎng)絡(luò)算法也由反向傳播算法(backpropagation algorithm,BPA)、支持向量機(jī)(support vector machine,SVM)等淺層算法發(fā)展到當(dāng)前的DL算法。DL算法不需要人工提取特征點(diǎn),可以通過建立多層次的網(wǎng)絡(luò)聯(lián)系,自動(dòng)從大數(shù)據(jù)中學(xué)習(xí)知識(shí),預(yù)測(cè)效率及準(zhǔn)確性更高。尤其CNN在圖像識(shí)別領(lǐng)域有著突出的表現(xiàn),多次在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)大賽中取得優(yōu)異的成績(jī)[21,36-37]。本研究選取的VGG19[38]、Inception-V3[39]、Inception-ResNet-V2[40]3種DL網(wǎng)絡(luò)模型均為廣泛應(yīng)用于各種圖像識(shí)別的經(jīng)典CNN模型。髂嵴、坐骨結(jié)節(jié)骨骺發(fā)育相對(duì)較晚,相對(duì)于手腕關(guān)節(jié)而言,對(duì)年齡較大的青少年骨齡評(píng)估更有應(yīng)用價(jià)值。鑒于此,本課題組調(diào)取了上海市、浙江省、海南省、吉林省及河南省962例漢族青少年男、女性骨盆X線片進(jìn)行骨齡自動(dòng)評(píng)估,研究的開展可為我國(guó)法醫(yī)學(xué)領(lǐng)域骨齡評(píng)估的機(jī)器學(xué)習(xí)算法選擇提供一定的參考價(jià)值。
RMSE和MAE是衡量變量精度的兩個(gè)最常用的指標(biāo),同時(shí)也是機(jī)器學(xué)習(xí)中評(píng)價(jià)網(wǎng)絡(luò)模型的兩個(gè)重要參數(shù)。RMSE是指預(yù)測(cè)值與真實(shí)值偏差的平方與觀測(cè)次數(shù)n比值的平方根,用來衡量觀測(cè)值與真實(shí)值之間的偏差。MAE是指絕對(duì)誤差的平均值。RMSE和MAE越小,說明預(yù)測(cè)值越接近真實(shí)值、絕對(duì)誤差越小,表明用于骨齡評(píng)估的網(wǎng)絡(luò)模型效果越好。本研究結(jié)果顯示,就RMSE指標(biāo)而言,3種模型的差異無統(tǒng)計(jì)學(xué)意義。但對(duì)于MAE指標(biāo)而言,VGG19模型的MAE值大于Inception-ResNet-V2模型,且二者差異有統(tǒng)計(jì)學(xué)意義。換言之,Inception-ResNet-V2模型骨齡自動(dòng)評(píng)估的性能要優(yōu)于VGG19模型。
另外,從本研究樣本年齡組來看,上述3種DL網(wǎng)絡(luò)模型中較小和較大年齡組的RMSE和MAE相對(duì)偏大,尤以11.0~<12.0歲和20.0~<21.0歲為著。這主要是因?yàn)樵?1.0~<12.0歲時(shí),可以反映骨盆骨齡的指標(biāo)相對(duì)有限,加之髂嵴、坐骨結(jié)節(jié)骨骺尚未出現(xiàn),因此,該年齡段的髂嵴、坐骨結(jié)節(jié)的發(fā)育狀況尚不能全面反映骨盆骨齡的變化。因此,RMSE和MAE相對(duì)其他年齡組偏大。而在20.0~<21.0歲時(shí),髂嵴、坐骨結(jié)節(jié)等骨盆骨骺已趨閉合,髂嵴、坐骨結(jié)節(jié)已不能全面反映骨盆骨齡的動(dòng)態(tài)變化,此時(shí)反映骨盆骨齡的指標(biāo)已不再是骨骺的發(fā)育程度。因此,RMSE和MAE相對(duì)其他年齡組也會(huì)偏大。這一研究結(jié)果與臨床實(shí)踐中通過人工方法識(shí)別骨盆X線骨齡的結(jié)果是一致的。
Bland-Altman散點(diǎn)圖常用于評(píng)測(cè)兩種測(cè)量方法的一致性。本研究結(jié)果顯示,Inception-ResNet-V2網(wǎng)絡(luò)模型的預(yù)測(cè)年齡與生活年齡的平均差值為0.08歲,在3種DL模型中最小,VGG19模型次之,Inception-V3模型的平均差值最大。同時(shí),VGG19模型的95%LOA大于Inception-V3模型及Inception-ResNet-V2模型,散點(diǎn)分布更加偏離差值均值線。Inception-V3模型與Inception-ResNet-V2模型相比,95%LOA更大,散點(diǎn)也相對(duì)更偏離差值均值線。
綜上所述,VGG19模型在骨齡自動(dòng)評(píng)估性能方面明顯弱于Inception-ResNet-V2模型。VGG19模型與Inception-V3模型相比,RMSE、MAE差異無統(tǒng)計(jì)學(xué)意義,雖然散點(diǎn)圖中差值均值更小,但散點(diǎn)較Inception-V3模型更偏離差值均值線。據(jù)此認(rèn)為,VGG19模型和Inception-V3模型的骨齡評(píng)估性能相當(dāng)。而Inception-V3與Inception-ResNet-V2模型相比,RMSE、MAE值之間差異均無統(tǒng)計(jì)學(xué)意義,但進(jìn)一步分析散點(diǎn)圖發(fā)現(xiàn),Inception-ResNet-V2模型的散點(diǎn)更集中于差值均值線附近。因此,筆者認(rèn)為,在給予骨盆的年齡預(yù)測(cè)任務(wù)中,不同視野范圍的卷積塊的拼接效益要大于殘差所帶來的效益。對(duì)于青少年骨齡研究而言,更推薦使用Inception-ResNet-V2模型。綜上,以上3種DL網(wǎng)絡(luò)模型在用于骨盆骨齡自動(dòng)評(píng)估時(shí)本研究組更推薦Inception-ResNet-V2模型。2018年,鄧振華團(tuán)隊(duì)[41]采用AlexNet模型對(duì)來自四川的1 875例骨盆樣本進(jìn)行訓(xùn)練,得到MAE和RMSE值分別為0.94、1.30歲。本研究的VGG19模型結(jié)果與其相當(dāng),而Inception-V3、Inception-ResNet-V2模型優(yōu)于該結(jié)果。
在醫(yī)學(xué)圖像領(lǐng)域,由于醫(yī)護(hù)人員資源有限,標(biāo)注數(shù)據(jù)困難,導(dǎo)致可用于訓(xùn)練集的同分布標(biāo)注數(shù)據(jù)非常少,這是制約DL的關(guān)鍵因素,也是遷移學(xué)習(xí)在醫(yī)學(xué)圖像領(lǐng)域應(yīng)用廣泛的原因之一。因此,為了更好地捕捉樣本的數(shù)據(jù)特征,我們選擇了遷移學(xué)習(xí),在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行完全訓(xùn)練。并且應(yīng)用數(shù)據(jù)增強(qiáng)技術(shù),來泛化數(shù)據(jù),增加模型的魯棒性。本結(jié)果顯示,在有限的樣本量中,模型亦表現(xiàn)出了較好的準(zhǔn)確性,這也證實(shí)了遷移學(xué)習(xí)在有限數(shù)據(jù)集里的可應(yīng)用性。
本研究通過對(duì)3種熱門DL網(wǎng)絡(luò)模型在骨盆骨齡評(píng)估方面的性能進(jìn)行對(duì)比,為我國(guó)年齡較大青少年的骨齡評(píng)估提供了一定的參考價(jià)值,并推薦青少年骨齡評(píng)估使用Inception-ResNet-V2模型。然而,本研究仍有進(jìn)一步改進(jìn)的空間:(1)3種DL模型的RMSE、MAE均略高于國(guó)內(nèi)外用手腕關(guān)節(jié)X線影像進(jìn)行DL骨齡評(píng)估時(shí)的 RMSE、MAE[11,13,42]。分析原因可能與手腕關(guān)節(jié)X線攝片的外部干擾因素如偽影等較少有關(guān),而骨盆區(qū)域因有腹盆部器官的重影影響,在DL過程中可能造成一定的干擾。未來可考慮在圖像預(yù)處理階段將腹部區(qū)域偽影濾除,或采用三維CT等更高質(zhì)量、結(jié)構(gòu)清晰的影像;(2)本研究組采用的962例樣本量在DL領(lǐng)域來說仍略顯不足,理論上來說,一定范圍內(nèi)訓(xùn)練集樣本量越大,DL的效果相對(duì)越好。雖然我們采用了遷移學(xué)習(xí)來彌補(bǔ),但在未來仍可考慮加大訓(xùn)練集樣本量。另外,我國(guó)作為一個(gè)多民族國(guó)家,各民族之間的生活環(huán)境、生活水平均存在一定的差異,因此骨骼發(fā)育亦可能存在差異,本研究樣本均為漢族,未來可采集其他民族樣本,訓(xùn)練相應(yīng)民族的模型。