傅賢君 汪嬋嬋
摘要:傳統(tǒng)的骨齡評估方法通常是由骨齡專家根據GP法或計分法對手部X光片進行判讀,這種方法具有較大的工作量,長測量周期和主觀性強的缺點,而計算機輔助診斷具有快速、準確、可重復的優(yōu)勢。該文提出了一種基于數字圖像處理技術與深度學習技術對手部X光片進行骨齡計算機輔助診斷的新方法,圖像預處理方面綜合閾值操作及提取最大連通域方法提取手掌輪廓,并基于Xception的深度卷積神經網絡得到骨齡評估回歸分析模型,多尺度提取特征,實現骨齡自動化精準評估。實驗表明上述方法能快速準確地對灰度不均勻的手部X線平片進行骨齡檢測。
關鍵詞:骨齡檢測;數字圖像處理;深度學習;回歸分析
中圖分類號:TP391.4? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)12-0183-03
1 背景
通過骨齡評估能較準確的確定兒童的生物學年齡,及早了解兒童的生長發(fā)育情況,同時能對一些兒科內分泌疾病作出早期判斷[1]。骨齡檢測還能被更廣泛應用于司法判案、運動員實際年齡確定之中。由于傳統(tǒng)的人工判讀骨齡方法煩瑣費時,同時精確度因評定者而異。計算機輔助診斷具有快速、準確、可重復的優(yōu)勢,而傳統(tǒng)的骨齡評估方法通常是由骨齡專家根據GP法[2]或計分法[3]對手部X光片進行判讀,這種方法具有較大的工作量,長測量周期和主觀性強的缺點。因此,隨著計算機技術的不斷發(fā)展,國內外科研機構都在積極探索利用使用計算機輔助診斷技術實現骨齡檢測,并在最近幾年取得了很大進展。
目前,國內外已有一些基于X光手部圖像的骨齡評估方法。Thodberg等[4]開發(fā)了一款基于主動外觀模型的網絡遠程自動評估軟件BoneXpert,由于該系統(tǒng)無須人工干預,目前此軟件已在多個國家使用并得到驗證。但該方法容易導致欠分割甚至無法分割。Spampinato等[5]提出了基于深度學習方法的骨齡檢測模型,并在公開數據集上得到了平均差異約0.8年的良好結果。而現如今深度學習技術的不斷發(fā)展,也勢必會帶動骨齡檢測的進展。本研究提出了結合傳統(tǒng)數字圖像處理技術與深度學習技術,對手部X光片進行分析,最終實現骨齡的自動準確評估。
2 手掌輪廓提取方法
手部X光圖像中手掌輪廓與背景之間的變化較小,移除背景并提取出手掌輪廓圖像能有效減少噪聲干擾,因此需要進行圖像預處理操作。在圖像預處理部分,共分為DICOM圖像格式轉化為BMP圖像格式[6]、中值濾波去噪[7]、手部X光圖像二值化操作即閾值處理、提取最大連通域等四個方面。其中DICOM數據轉化為BMP圖像是為了使其方便使用OpenCV進行處理;中值濾波可有效去除圖像中可能存在的脈沖噪聲;自動閾值處理可獲得手部輪廓,方便后面提取手掌感興趣區(qū)域;提取最大連通域的操作可獲得手掌感興趣區(qū)域。
具體研究方案如圖1。
這里簡要介紹一下圖像閾值操作及最大連通域操作過程。
2.1 圖像閾值操作
圖像閾值操作[8]是數字圖像處理中主要承擔提取形狀特征、邊緣分析處理、移除背景等多個方面作用,它也是圖像預處理的一種基本方法。在醫(yī)學數據可視化中,圖像閾值處理對于提取圖像邊界輪廓特征,從而根據邊界特征配準得到原圖的主要特征是至關重要的,閾值處理后的圖片也可通過掩膜處理得到移除背景后的感興趣區(qū)域。
圖像閾值處理通常有三種,包括全局、局部、動態(tài)閾值法。全局閾值法是指使用一個閾值來對整張圖像進行操作,當圖像中某個像素對應的灰度值大于閾值時,將該像素灰度值設置為前景;反之則設置為背景。局部閾值法則根據圖像中某一像素灰度值與鄰域中其他像素的局部灰度特性來特定該像素的閾值。動態(tài)閾值法則是基于局部閾值,通過加入像素的坐標位置優(yōu)化分割,適用于灰度不均勻的圖像,但可能時間開銷較大。
這里為了提高算法的時效性,預處理過程僅采用全局閾值法對手部X光圖片進行操作。
由于圖像存在與手部影像軟組織較為接近的背景,且灰度呈現變化,若設置固定閾值進行二值化對部分圖片會遺留大量背景,使得獲取最大連通域時出現偏差。這里使用一個自動獲取圖像背景閾值的方法,公式如下:
2.2 提取最大連通域
連通域標記算法[9]通常用于提取圖像中的前景區(qū)域。常用的連通域快速標記算法有:基于像素的連通域標記算法。通過遍歷圖像中的所有像素并在每行或每列中記錄連續(xù)的等效標記對,重新標記原始圖像?;谟纬痰倪B通域標記算法。通過逐行掃描圖像,將每行中的連續(xù)白色像素序列定義為組,將等效序列分配給每個組,然后重新標記原始圖像。 這種方法在不增加存儲空間的前提下保證了提取結果的準確性?;谳喞倪B通域標記算法。從下到上,從左到右遍歷圖像,標記每個新輪廓。標記所需的空間在這種實踐中是最小的。
本文采用基于輪廓的連通域標記算法,針對每一個輪廓,在標記每一個輪廓之后計算其面積,即像素點數量,根據閾值操作處理結果,其中面積最大的連通域即為手掌感興趣區(qū)域,如圖4所示,即最大連通域提取結果。
在得到最大連通域的基礎上,通過計算最大連通域的最小外接矩形。為使得手指部分包含完整,對外接矩形進行微調,即可得到最終的手掌感興趣區(qū)域。如圖5所示。
3 基于深度學習方法的骨齡回歸分析
3.1 卷積神經網絡
卷積神經網絡是一種由輸入層、多個隱藏層、輸出層及特征學習部分組成的多層神經網絡,包含有卷積層(Convolution Layer)、池化層(Pooling Layer)、全連接層(Fully Connected Layer)、激活器(Activation Function)、優(yōu)化器(Optimization Function)、損失函數(Cost Function)等。卷積神經網絡的目的是找到一個未知函數的近似值,它是由許多相互連接的神經元組成,神經元接收輸入并生成輸出與權重。在網絡訓練過程中,反向傳播是一個不斷更新偏差和權重的過程,而損失函數用來計算預測值與真實值之間的差距來判定是否需要對權重及偏差進行更新。激活函數根據需要將神經元的輸入層映射到輸出層,被激活的神經元會輸出結果。
Inception網絡是現今廣受歡迎的卷積神經網絡。卷積神經網絡相比較于傳統(tǒng)神經網絡的深度和寬度都大幅增加,意味著它能提取到更多的特征用于分類。Inception同樣也是通過增加模型的規(guī)模來保證它的性能。模型復雜度增加雖然可以讓神經網絡變得更深,但也會導致參數量大幅增加,同時算力成本也會指數型增加。模型往往會出現過擬合的情況,因此不能沒有根據地通過增加模型的深度和寬度。于是,為了增加模型的深度,往往減少模型的寬度來進行的。另一種普遍應用的卷積神經網絡VGG則將尺寸全部替換成3*3,一方面保證了模型的性能,另一方面也可以減少模型的寬度,事實證明這樣能取得很好的效果。傳統(tǒng)的深度神經網絡中卷積層是由完全連接實現的,而Inception網絡將其轉變成稀疏連接,且根據生物神經元工作的實際特質,采用多個尺寸不一致的卷積核的堆疊,在不同的空間尺度上提取更豐富的特征,然后通過多層級聯使得輸出一致,這樣網絡在確保參數量的不增加的情況下,提升了網絡的寬度,同時也增加了網絡在多個尺度下的適應性。
Inception v3[10]對Inception模塊又做了進一步改進。首先是對大卷積核進行分解。分解卷積核尺寸主要有兩個辦法,其一是將其分解為對稱的小卷積核,其二為分解為不對稱的卷積核。對于5*5的卷積核,Inception v3將其分成2個3*3的卷積核。同時對于n*n尺寸的卷積核,Inception v3將其分為1*n與n*1尺寸卷積核的堆疊,這種不對稱方法是的參數大量減少,同時非線性層的增加,提高了模型的表達能力,似的網絡能提取到更多的特征,同時處理空間特征的速度與數量都大幅增加。但這種分解方法在低維的特征圖中表現不好,在高維的特征圖中有較好的結果。
本文的骨干網絡采用Xception網絡,Xception[11]是對Inception v3的一種改進,主要思想是在Inception v3的基礎上引入了深度可分卷積,進一步提高了模型的分類效果,同時模型的復雜度也沒有增加。若將Inception v3的原始模塊簡化,僅保留包含3*3的卷積分支,再將1*1卷積進行拼接,再進一步增多3*3卷積的分支,使它與1*1卷積的輸出通道數相等。此時每個3*3卷積僅作用于包含有一個通道的特征圖上,這就是Xception的基本模塊,即深度可分卷積模塊。
通過卷積神經網絡,對前面預處理過的帶年齡標注手部X光平片進行訓練分析,建立快速、準確、健壯性高的模型。該模塊采用多種當前效果優(yōu)良的深度學習分類模型進行多對比實驗,實現實時骨齡評估。具體邏輯如圖6所示:
3.2 數據集
本文采用的數據集來自2018年北美放射研究學會(RSNA Pediatric Boneage)公開的12611張手部X光平片,生理年齡區(qū)間為2至14歲。通過手掌輪廓提取方法對X光片中的手掌輪廓進行提取后,實驗采用10000張作為訓練集,2611張作為驗證集。
3.3 實驗結果與討論
本文所采用的Xception網絡結構是在基于Python的深度學習庫TensorFlow中實現的。實驗平臺為HPZ840服務器,Tesla K40c和 Quadro K5200, CPU E5-2650 v3 2.30GHz, 內存126G,操作系統(tǒng)是Ubuntu16.04。優(yōu)化器選擇adam函數,激活函數使用ReLU,損失使用平均絕對誤差(Mean Absolute Error,MAE)。MAE為絕對誤差的平均值,能更好地反映預測值誤差的實際情況,其公式如下所示。
其中[hxi]為模型預測值,[yi]為樣本標簽值。
使用本研究提出的手掌輪廓提取方法及基于Xception的預測模型,最終得到的模型測試結果為MAE=7.6個月,即骨齡預測結果與骨齡真實值之間的誤差為0.63歲,已優(yōu)于17年Spampinato等提出的使用深度學習回歸分析方法得到的0.8歲結果。
當使用未使用手掌輪廓提取方法去除背景數據進行訓練時,模型訓練時的驗證結果為MAE=9.6個月,證明本實驗采用的去背景預處理是行之有效的。
同時,與國內外骨齡自動化評估方法進行對比,通過對比可發(fā)現,同樣是在12.6K大小的RSNA Pediatric Boneage數據集上進行測試,本研究提出的方法誤差要遠優(yōu)于Lee等提出的結果。相對比于其他數據量較小的結果,本文的準確率也有所提高,證明了本研究提出算法的優(yōu)越性。
4 結束語
本文提出了一種基于數字圖像處理技術與深度學習技術對手部X光片進行骨齡計算機輔助診斷方法。通過傳統(tǒng)的數字圖像方法對手掌輪廓進行提取,而后采用基于Xception網絡的卷積神經網絡方法進行回歸分析。使用去背景后的X光手部圖像在Xception網絡中進行骨齡評估模型訓練,當使用MAE作為評價標準,誤差為7.6個月,相比較于國內外研究成果已處于國際先進水平。未來期望結合對抗生成網絡進一步擴增數據集,同時優(yōu)化骨干網絡,提高深度學習特征提取能力,開發(fā)出性能更優(yōu)的骨齡自動化評估模型。
參考文獻:
[1] 張紹巖,劉麗娟,張繼業(yè),等.RUS-CHN圖譜骨齡評價法用于推測青少年年齡[J].中國法醫(yī)學雜志,2009,24(4):249-253.
[2] Greulich W W,Pyle S I,Todd T W.Radiographic atlas of skeletal development of the hand and wrist[M].Stanford University Press Stanford,1959.
[3] Tanner J M,Healy M J R,Goldstein H,et al.Assessment of skeletal maturity and prediction of adult height (TW3)[M].3rd ed.London:WB Saunders,2001:243-54.
[4] Thodberg H H,Kreiborg S,Juul A,et al.The BoneXpert method for automated determination of skeletal maturity[J].IEEE Transactions on Medical Imaging,2009,28(1):52-66.
[5] Spampinato C,Palazzo S,Giordano D,et al.Deep learning for automated skeletal bone age assessment in X-ray images[J].Medical Image Analysis,2017(36):41-51.
[6] 王成波,陳偉,謝兵,等.DICOM圖像與BMP圖像的轉換研究[J].醫(yī)療衛(wèi)生裝備,2004(1):13-14,17.
[7] Ko S J,Lee Y H.Center weighted Median filters and their applications to image enhancement[J].IEEE Transactions on Circuits and Systems,1991,38(9):984-993.
[8] Otsu N.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man,and Cybernetics,1979,9(1):62-66.
[9] 高紅波,王衛(wèi)星.一種二值圖像連通區(qū)域標記的新算法[J].計算機應用,2007(11):2776-2777,2785.
[10] Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:2818-2826.
[11] Chollet F.Xception:deep learning with depthwise separable convolutions[C].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:1800-1807.
[12] Lee J H,Kim K G.Applying deep learning in medical images:the case of bone age estimation[J].Healthcare Informatics Research,2018,24(1):86-92.
【通聯編輯:謝媛媛】