熊剪 曹永杰 馬永剛 楊孝通 張吉 黃平1, 萬昌武
(1貴州醫(yī)科大學(xué)法醫(yī)學(xué)院 貴陽 550004; 2司法鑒定科學(xué)研究院/上海市法醫(yī)學(xué)重點實驗室/司法部司法鑒定重點實驗室/上海市司法鑒定專業(yè)技術(shù)服務(wù)平臺 上海 200063; 3南京醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院2021級博士研究生 南京 211166;4西安交通大學(xué)附屬三二O一醫(yī)院影像科 漢中 723000; 5山西醫(yī)科大學(xué)法醫(yī)學(xué)院 太原 030001)
年齡推斷是法醫(yī)個體識別實踐中的重要一環(huán),精確的推斷年齡可有效縮小信息查找范圍。未成年人年齡推斷的研究已趨于成熟,但成人年齡推斷方法的發(fā)展相對較緩。在法醫(yī)工作中,成年人的骨骼年齡推斷才是經(jīng)常面臨的問題,因此國內(nèi)外學(xué)者開展了大量研究,探索恥骨聯(lián)合面、髂骨耳狀面、肋骨胸骨端和顱縫等指標(biāo)應(yīng)用于成年人年齡推斷的可行性[1-3]。其中恥骨聯(lián)合在成年后仍表現(xiàn)出規(guī)律的增齡性變化,可作為成人年齡推斷指標(biāo)。Suchey-Brooks分級方法根據(jù)恥骨聯(lián)合形態(tài)變化整體分為6個等級[1],將其研究樣本每一等級的平均年齡作為預(yù)測年齡進行成人年齡推斷,是最常用的恥骨聯(lián)合整體分級年齡推斷方法[4]。Hanihara等[5]通過對恥骨聯(lián)合表面的7個特征進行評分,使用線性回歸模型預(yù)測年齡,是最常用的特征評分年齡推斷方法。
隨著薄層掃描CT技術(shù)和容積再現(xiàn)技術(shù)(volume rendering technique,VRT)的快速發(fā)展,與恥骨聯(lián)合面表面的形態(tài)學(xué)變化特征相結(jié)合的研究逐年增多。相較于傳統(tǒng)方法,CT掃描避免了在復(fù)雜的處理過程中對真實骨骼脆弱部分的損害,同時清晰還原骨骼表面形態(tài)特征[6]。其次,在建立龐大的參考樣本數(shù)據(jù)庫時,CT數(shù)據(jù)可以實時更新和共享,有利于推進不同地區(qū)不同人群的骨齡研究。Suchey-Brooks分級方法已廣泛應(yīng)用于CT三維重建模型[7-9],Hisham等[7]應(yīng)用于馬來西亞人群時,以分級年齡范圍為標(biāo)準(zhǔn)的準(zhǔn)確率達(dá)97.8%,而Hall等[8]應(yīng)用于澳大利亞樣本時,男性準(zhǔn)確率僅67%。這種整體分級方法只能預(yù)測分級的平均年齡,存在較大方法誤差,且評價過程較主觀,應(yīng)用于不同樣本時差異較大。而特征評分法通過對各個特征的形態(tài)變化進行描述和評分,能相對客觀地定量評估骨骼形態(tài)變化,從而得出確切年齡。目前尚缺乏適用于恥骨聯(lián)合三維模型的特征評分體系。
既往研究常用線性回歸來擬合恥骨聯(lián)合特征評分與年齡的關(guān)系[9],但線性回歸模型用于年齡推斷時存在較大誤差。機器學(xué)習(xí)算法的蓬勃發(fā)展為建立年齡推斷模型提供了新思路和新方法,已應(yīng)用于肋軟骨[11]、骨盆[12]和顱縫[13]年齡推斷中。機器學(xué)習(xí)回歸模型在處理年齡推斷問題時具有一定的優(yōu)勢,相較于線性回歸,更適用于處理復(fù)雜的多維數(shù)據(jù),可以提取數(shù)據(jù)中隱藏的有效信息[14],并識別年齡和骨骼形態(tài)變化特征之間的變量關(guān)系[15]。因此,機器學(xué)習(xí)回歸模型結(jié)合恥骨聯(lián)合形態(tài)變化的方法在成年人的年齡推斷中具有很大的潛力。
本研究通過觀察恥骨聯(lián)合三維重建模型的形態(tài)學(xué)變化,建立新的特征評分體系;使用機器學(xué)習(xí)回歸模型擬合訓(xùn)練樣本特征評分與年齡的關(guān)系,建立成年人年齡推斷模型,旨在進一步提升成人年齡推斷的準(zhǔn)確性。
研究對象回顧性收集2018年1月1日—2020年12月31日陜西省漢中醫(yī)院放射科的734例腹部或盆腔CT掃描病例資料,其中男性350例、女性384例。排除影響恥骨聯(lián)合增齡性變化的疾病、外傷、手術(shù)史及骨骼畸形等情況,從上述CT數(shù)據(jù)中隨機抽樣選取男性315例(中位年齡45.5歲)、女性334例(中位年齡46歲)作為訓(xùn)練集進行模型訓(xùn)練和參數(shù)選擇,剩余的85例樣本作為測試集。
為評價模型的泛化能力設(shè)置3個獨立測試集。(1)臨床CT測試集:男性35例(中位年齡44歲)、女性50例(中位年齡34.5歲);(2)PMCT測試集:回顧性收集的2013—2019年司法鑒定科學(xué)研究院96例死后CT掃描,男性51例(中位年齡53歲)、女性45例(中位年齡57歲);(3)真實骨骼CT測試集:收集司法鑒定科學(xué)研究院2000—2008年保存完好的82例真實恥骨,男性40例(中位年齡32.0歲)、女性42例(中位年齡34.5歲)。采用薄層CT將恥骨放置于解剖位置進行掃描。訓(xùn)練集及各測試集樣本年齡分布見表1。
樣本收集符合醫(yī)學(xué)倫理規(guī)定,經(jīng)司法鑒定科學(xué)研究院醫(yī)學(xué)倫理委員會審查同意(2020-03-27),由于研究對象的匿名性和本研究的回顧性,倫理委員會予以免除患者知情同意書。
儀器臨床來源的腹部或盆腔CT掃描均采用Optima CT660 (美國GE Healthcare公司),掃描厚度為0.625 mm,管電流為300 mA,管電壓為120 kV。測試樣本使用CT-SOMATOM Definition AS (德國Siemens Medical Solutions公司)掃描,管電壓為120 kV,管電流為110 mA,掃描厚度為0.6 mm。
所有樣本均保存為醫(yī)學(xué)數(shù)字成像與通信(DICOM)文件,數(shù)據(jù)導(dǎo)入RadiAnt DICOM Viewer 4.6.5軟件(波蘭Medixant公司)中進行3D虛擬重建,對恥骨聯(lián)合形態(tài)進行觀察對特征評分。
評分方法第一步,3名觀察者(A為法醫(yī)學(xué)博士研究生,B、C為法醫(yī)學(xué)碩士研究生)按照Suchey-Brooks分級方法[1]對所有的恥骨聯(lián)合虛擬模型進行分級。第二步,根據(jù)分級結(jié)果觀察樣本,同時參考已建立的評分系統(tǒng)的特征[5,10],篩選出7個在VR重建模型上可觀察到的年齡相關(guān)性形態(tài)學(xué)特征,即腹側(cè)緣、背側(cè)緣、聯(lián)合面下端、聯(lián)合面上端、腹側(cè)斜面、恥骨結(jié)節(jié)、聯(lián)合面溝嵴(圖1)。第三步,3名觀察者依次對649例虛擬骨骼樣本進行觀察,根據(jù)特征的時序性變化將其細(xì)分為3~5個階段,并為每個階段賦予分?jǐn)?shù),其中兩位觀察者的評分一致即作為最終標(biāo)準(zhǔn)。形態(tài)特征及其相關(guān)的評分標(biāo)準(zhǔn)如表2所示,各特征的評分用于評估雙側(cè)和性別差異、確定與年齡的相關(guān)性,并推導(dǎo)回歸模型。
圖1 恥骨聯(lián)合三維重建不同特征的形態(tài)變化Fig 1 Different morphological characteristics of pubic symphysis in three-dimensional reconstruction
統(tǒng)計學(xué)分析使用獨立樣本t檢驗分析虛擬恥骨聯(lián)合模型形態(tài)的左右兩側(cè)差異和男女性別差異,雙側(cè)檢驗以P<0.05評定顯著性。觀察者內(nèi)和觀察者間一致性使用Cohen’s kappa檢驗進行評估,從總訓(xùn)練樣本中隨機抽取50例樣本,由2位觀察者(A和B)重復(fù)評估。初次評估3周后,第一位觀察者對50例樣本進行再次評估以計算觀察者內(nèi)誤差。對所有649例訓(xùn)練樣本進行Spearman相關(guān)性檢驗,用于評估腹側(cè)緣等級、背側(cè)緣等級、聯(lián)合面下端等級、聯(lián)合面上端等級、腹側(cè)斜面等級、恥骨結(jié)節(jié)等級和聯(lián)合面溝嵴等級與實際年齡之間的相關(guān)性。
機器學(xué)習(xí)年齡推斷模型的構(gòu)建及檢驗利用訓(xùn)練集(n=649)恥骨聯(lián)合特征所獲得的評分,采用梯度提升回歸(gradient boosting regression,GBR)(參數(shù)設(shè)置:最大葉節(jié)點數(shù)=20,最大深度=2)、決策樹回歸(decision tree regression,DTR)(參數(shù)設(shè)置:最大葉節(jié)點數(shù)=20)、支持向量機回歸(support vector regression,SVR)(參數(shù)設(shè)置:懲戒參數(shù)=0.5)、貝葉斯嶺回歸(Bayesian ridge regression,BRR)(參數(shù)設(shè)置:最大迭代次數(shù)=300)、集成學(xué)習(xí)回歸(adaptive boosting,AdaBoost)(參數(shù)設(shè)置:最大迭代次數(shù)=100)、多層感知機回歸(multilayer Perceptron,MLP)(參數(shù)設(shè)置:最大迭代次數(shù)=300)等機器學(xué)習(xí)回歸算法來推導(dǎo)恥骨形態(tài)特征與年齡之間的關(guān)系[16]。模型其余參數(shù)與scikit-learn網(wǎng)站(https://scikit-learn.org)默認(rèn)參數(shù)一致。應(yīng)用K折交叉驗證(K=10)評估回歸模型的預(yù)測性能。
所有模型完成訓(xùn)練后,分別計算訓(xùn)練集、10折交叉驗證及每個測試集的預(yù)測年齡和真實年齡之間的平均絕對誤差(mean absolute error,MAE)、平均誤差(mean error,ME)、均方誤差(root mean square error,RMSE)、絕對誤差5歲以內(nèi)百分比(AE<5%)和絕對誤差10歲以內(nèi)百分比(AE<10%),以比較各模型的準(zhǔn)確性和泛化能力。采用Bland-Altman圖和組內(nèi)相關(guān)系數(shù)(ICC)分別評估測試樣本的模型預(yù)測年齡與真實年齡的相關(guān)性和一致性。
采用IBM SPSS 21.0(美國IBM公司)進行恥骨聯(lián)合特征評分與年齡的相關(guān)性分析,通過scikit-learn(V 0.17)和python(V 3.8)進行模型訓(xùn)練和測試。
恥骨聯(lián)合各特征評分與年齡的相關(guān)性分析虛擬恥骨聯(lián)合模型形態(tài)的左右兩側(cè)差異無統(tǒng)計學(xué)意義,而性別差異有統(tǒng)計學(xué)意義,因此按性別分別建立預(yù)測模型。結(jié)果顯示恥骨聯(lián)合形態(tài)各特征K值都在0.815以上,表明不同觀察者對三維重建模型上不同形態(tài)特征的評分具有良好的一致性。男性和女性恥骨聯(lián)合各特征及其評分與真實年齡分布如圖2和3所示,可見各特征等級變化趨勢隨年齡升高而增加,且各等級間存在明顯差異。年齡與恥骨聯(lián)合各特征等級高度相關(guān),所有相關(guān)系數(shù)均有統(tǒng)計學(xué)意義(P<0.05,表3),男性恥骨表面溝嵴等級與年齡相關(guān)性最高(r=0.814,P=5.5349E-8),女性腹側(cè)斜坡等級與年齡相關(guān)性最高(r=0.838,P=1.3131E-10)??傮w腹側(cè)斜坡等級與年齡相關(guān)性最高(r=0.800,P=1.6513E-16)。
圖2 男性年齡分布與形態(tài)特征等級Fig 2 Age distribution according to morphological feature scores in males
圖3 女性年齡分布與形態(tài)特征等級Fig 3 Age distribution according to morphological feature scores in females
表3 形態(tài)特征等級和真實年齡之間的Spearman相關(guān)系數(shù)Tab 3 Spearman’s correlation between chronological age and morphological feature scores
訓(xùn)練集與交叉驗證集結(jié)果通過擬合訓(xùn)練集和交叉驗證集數(shù)據(jù)分性別建立GBR、SVR、DTR、AdaBoost、MLP和BRR等6種年齡估計模型。男性和女性所有年齡推斷模型在訓(xùn)練集、10折交叉驗證集及各獨立測試集上的性能評估如表4和5所示。男性中,AdaBoost的綜合準(zhǔn)確性最高,訓(xùn)練集MAE為5.23歲,RMSE為6.90歲,AE<5%及AE<10%分別為58.73%和80.95%;10折交叉驗證集MAE為6.10歲,RMSE為8.35歲,AE<5%和AE<10%分別為59.14%和82.86%。女性中,GBR的綜合準(zhǔn)確性最高,訓(xùn)練集MAE為3.94歲,RMSE為5.25歲,AE<5%和AE<10%分別為69.46%和93.11%;10折交叉驗證集MAE為5.12歲,RMSE為6.71歲,AE<5%和AE<10%分別為67.45%和92.45%。
表4 男性中訓(xùn)練集、驗證集和測試集樣本年齡推斷的準(zhǔn)確性Tab 4 Accuracy of adult age estimation in the samples of training set, validation set and test sets in males
表5 女性中訓(xùn)練集、驗證集和測試樣本集年齡推斷的準(zhǔn)確性Tab 5 Accuracy of adult age estimation in the samples of training set, validation set and test sets in females
測試集結(jié)果用訓(xùn)練好的模型分性別對3個獨立測試集進行年齡預(yù)測以評估模型的準(zhǔn)確率和泛化能力。3個獨立測試集中各模型的性能如表4和5所示,男性中年齡推斷模型的誤差較低(MAE<10歲),AdaBoost在3個測試集上表現(xiàn)最好,MAE為5.23~7.04歲,RMSE為7.70~8.98歲,AE<5%和AE<10%分別為47.0%~51.4%和65.7%~82.5%。在40~70歲的年齡區(qū)間內(nèi),男性AdaBoost年齡推斷模型的MAE均<10歲(表6)。該模型在3個獨立測試集上的預(yù)測年齡與真實年齡之間高度相關(guān)(臨床CT測試集:ICC=0.788;PMCT測試集:ICC=0.827;真實骨骼CT測試集:ICC=0.894),Bland-Altman圖顯示預(yù)測年齡與真實年齡之間的平均差異在-0.18~-4.67歲(圖4)。
圖4 男性中AdaBoost模型在3個測試集中的預(yù)測年齡和真實年齡之間的相關(guān)性Bland-Altman圖Fig 4 Bland-Altman plot of the correlation between predicted age and true age in the 3 test sets analyzed by AdaBoost model in males
表6 男性AdaBoost年齡推斷模型用于測試集每10歲年齡組的準(zhǔn)確率Tab 6 Accuracy of the male AdaBoost age inference model for test set per 10 years age group
女性年齡推斷模型中,GBR在3個測試集上表現(xiàn)最好,MAE為5.02~5.71歲,RMSE為6.44~7.63歲,AE<5%和AE<10%分別為54.00%~62.30%和83.33%~88.00%。在10~70歲的年齡區(qū)間內(nèi),女性GBR年齡推斷模型的MAE<10歲(表7)。該模型在3個獨立測試集的預(yù)測年齡與真實年齡之間高度相關(guān)(臨床CT測試集:ICC=0.930;PMCT測試集:ICC=0.923;真實骨骼CT測試集:ICC=0.881)。Bland-Altman圖顯示預(yù)測年齡與真實年齡之間的平均差異在-0.74~-2.49歲(圖5)。
表7 女性GBR年齡推斷模型用于測試集每10歲年齡組的準(zhǔn)確率Tab 7 Accuracy of the female GBR age inference model for test set per 10 years age group
成年人年齡推斷是法醫(yī)實踐中經(jīng)常面對的重要難題。由于成年后多數(shù)骨骼發(fā)育基本停止,骨骺和牙齒等發(fā)育相關(guān)的觀測指標(biāo)難以直接用于成人年齡推斷。恥骨聯(lián)合表面形態(tài)不僅在年輕時表現(xiàn)為規(guī)律的骨骺融合,在老年時也表現(xiàn)為有據(jù)可循的退行性變化。這些變化呈現(xiàn)階段性,可以劃分為明確的年齡段或等級,在成年人的年齡推斷時具有良好表現(xiàn)[16]。
Hanihara等[5]通過對70例雙側(cè)恥骨聯(lián)合進行研究后,選擇對溝嵴、恥骨結(jié)節(jié)、恥骨表面下端、骨化結(jié)節(jié)、腹側(cè)緣、背側(cè)緣、恥骨聯(lián)合表面邊界等7個特征進行描述,并根據(jù)時序性變化分別賦予1~4分,使用多元回歸和量化理論模型對所得評分進行分析,獲得年齡推斷方程,從而定量評估骨骼年齡。有效避免了評估整體分級帶來的主觀性誤差,提高了年齡推斷的準(zhǔn)確性。Chen等[10]在此基礎(chǔ)上,用262例中國漢族男性恥骨聯(lián)合作為訓(xùn)練樣本,增加了腹側(cè)斜坡、聯(lián)合面骨質(zhì)作為特征,使用相同的方法獲得年齡推斷方程,對骨骼年齡進行定量評估。然而,這些年齡推斷方程未在獨立測試樣本上進行驗證,其適用性和準(zhǔn)確率有待進一步檢驗。
本研究采用薄層掃描CT技術(shù)和容積再現(xiàn)技術(shù),沿用Suchey-Brooks的分級思路,對訓(xùn)練集中649例恥骨聯(lián)合三維重組模型進行形態(tài)學(xué)分析,發(fā)現(xiàn)孔隙度和聯(lián)合面骨質(zhì)在VR上難以觀測,與Wink等[17]及Villa等[18]研究結(jié)果一致,因此舍棄此類特征作為評分指標(biāo)。同時參考Chen等[10]和Hanihara等[5]評分系統(tǒng)中恥骨聯(lián)合形態(tài)特征,選擇了在容積再現(xiàn)上能清晰表現(xiàn)的腹側(cè)緣、背側(cè)緣、聯(lián)合面下端、聯(lián)合面上端、腹側(cè)斜面、恥骨結(jié)節(jié)、聯(lián)合面溝嵴等7個特征作為研究對象。Telmon等[19]也通過研究表明,這幾類特征在虛擬模型上的增齡性變化表現(xiàn)與真實骨骼間無統(tǒng)計學(xué)差異。觀察訓(xùn)練樣本特征的形態(tài)變化,重新劃分評分等級,并與年齡進行相關(guān)性分析,結(jié)果表明重新劃分的等級與年齡高度相關(guān)。訓(xùn)練集男女樣本整體相關(guān)性均有統(tǒng)計學(xué)意義(P均<0.001):腹側(cè)緣(r=0.738)、背側(cè)緣(r=0.700)、聯(lián)合面下端(r=0.728)、聯(lián)合面上端(r=0.776)、腹側(cè)斜面(r=0.800)、恥骨結(jié)節(jié)(r=0.728)、聯(lián)合面溝嵴(r=0.796)。評分隨年齡增加而升高,且各評分之間差異顯著,由此證明新的評分系統(tǒng)適用于建立年齡推斷模型。
既往的研究中,對髖臼、顱縫、髂骨、坐骨結(jié)節(jié)等骨骼形態(tài)變化等級評分后,常用數(shù)學(xué)統(tǒng)計理論推斷年齡,如直線回歸、多元逐步回歸、理論量化模型等線性回歸分析[20-22]。效率及準(zhǔn)確率較傳統(tǒng)分級方法有所提升,但線性回歸分析在處理年齡推斷問題上具有局限性:(1)法醫(yī)學(xué)年齡推斷特征評分與年齡之間不屬于線性結(jié)構(gòu),而線性回歸只能描述變量間的線性關(guān)系。(2)傳統(tǒng)的線性回歸數(shù)學(xué)統(tǒng)計模型無法處理異常值,在數(shù)據(jù)存在噪聲時會導(dǎo)致預(yù)測結(jié)果存在巨大誤差。使用機器學(xué)習(xí)非線性回歸模型能在多維空間中對數(shù)據(jù)進行擬合,可以處理復(fù)雜的非線性關(guān)系,通過正則化等數(shù)據(jù)預(yù)處理方式可以降低噪音影響,適用于建立年齡推斷模型。Zhang等[23]使用5種機器學(xué)習(xí)回歸模型對502例肋骨的形態(tài)變化等級評分與年齡的關(guān)系進行建模,其中DTR模型在測試集上表現(xiàn)最佳,男性MAE為5.31歲,但老年樣本較少,且未在不同樣本上進行驗證。Fan等[24]使用5種機器學(xué)習(xí)回歸模型對230例顱縫的愈合等級評分與年齡的關(guān)系進行擬合,其中SVR模型在測試集上表現(xiàn)最佳,得到的最小MAE為7.73歲,精確度較傳統(tǒng)的線性回歸方程有所提高。一方面由于顱縫的愈合等級與年齡相關(guān)性在老年時稍顯不足,另一方面訓(xùn)練集中老年樣本較少,所以在<30歲或>60歲的年齡段表現(xiàn)欠佳,MAE>10歲。本研究在獲得恥骨聯(lián)合形態(tài)變化等級評分后按男性和女性分別建立6個機器學(xué)習(xí)回歸模型,同時分別在臨床CT樣本、PMCT樣本和真實骨骼CT掃描樣本上進行驗證。結(jié)果顯示:男性AdaBoost年齡推斷模型在3個獨立測試集上都表現(xiàn)良好,整體MAE分別為5.23、7.04和5.77歲。女性GBR年齡推斷模型應(yīng)用于3個獨立測試集時,整體MAE分別為5.16、5.02和5.71歲。男性和女性年齡推斷最優(yōu)模型MAE顯示各年齡段誤差無明顯差異,在60歲以后的年齡段MAE<10歲。Savall等[25]使用傳統(tǒng)恥骨年齡推斷方法在評估法國男性個體年齡時,60歲以后年齡段MAE>10歲(56~95歲男性MAE為14.1~33.0歲)。相較之,本研究提高了老年的年齡推斷準(zhǔn)確率。本研究建立的男性和女性年齡推斷模型適用于不同來源的CT數(shù)據(jù),在實際案例中可應(yīng)用于不同場景。
本研究的創(chuàng)新性:通過觀察恥骨聯(lián)合CT重建模型的增齡性形態(tài)學(xué)變化,建立了虛擬恥骨聯(lián)合表面形態(tài)特征評分系統(tǒng),并使用機器學(xué)習(xí)回歸算法對恥骨聯(lián)合各特征評分?jǐn)?shù)據(jù)進行擬合,建立量化的成人年齡推斷模型,相較于傳統(tǒng)分級方法降低了主觀性誤差,提高了年齡推斷準(zhǔn)確率。本研究的不足:訓(xùn)練樣本還不夠充足,且分布不均勻;特征評分過程仍存在一定的主觀性誤差,后期考慮引入機器學(xué)習(xí)圖像識別技術(shù)替代人工評分過程來完全消除主觀性誤差。
作者貢獻(xiàn)聲明熊剪 論文構(gòu)思、設(shè)計和撰寫,文獻(xiàn)調(diào)研,可行性分析,數(shù)據(jù)整理,構(gòu)建模型。曹永杰 可行性分析,論文修訂。馬永剛,楊孝通數(shù)據(jù)收集,繪制圖表。張吉,黃平 繪制圖表,研究設(shè)計,數(shù)據(jù)分析。萬昌武 研究設(shè)計,論文構(gòu)思和修訂。
利益沖突聲明所有作者均聲明不存在利益沖突。