王鳳丹,次旦旺久,焦 洋,潘 慧,銀 武,金征宇
(中國(guó)醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 北京協(xié)和醫(yī)院 1.放射科,2.普內(nèi)科, 3.內(nèi)分泌科,北京 100730;4.西藏自治區(qū)人民醫(yī)院 放射科, 西藏 拉薩 850000)
兒童的生長(zhǎng)發(fā)育決定了一個(gè)地區(qū)未來(lái)人口的健康狀況和社會(huì)發(fā)展?jié)撃?。隨著社會(huì)的發(fā)展,對(duì)兒童生長(zhǎng)發(fā)育進(jìn)行準(zhǔn)確的個(gè)體化評(píng)估的需求日漸增加。與日歷年齡相比,骨齡(bone age,BA)更能準(zhǔn)確地反應(yīng)兒童及青少年生長(zhǎng)發(fā)育的實(shí)際情況[1],因此骨齡被廣泛用于預(yù)測(cè)兒童的身高及初潮年齡、診斷和隨訪(fǎng)生長(zhǎng)發(fā)育提前或延遲相關(guān)疾病、運(yùn)動(dòng)員選材及法醫(yī)學(xué)量刑。檢查骨齡僅需拍攝左手正位片,輻射劑量?jī)H0.00012毫西弗(millisie-vert,mSv),對(duì)兒童非常安全[2]。
雖然骨齡應(yīng)用廣泛,但實(shí)踐中這不僅需要培訓(xùn)專(zhuān)業(yè)技師攝片、專(zhuān)業(yè)醫(yī)生閱片,更需要整個(gè)醫(yī)療體系持續(xù)投入大量時(shí)間、精力及財(cái)力。中國(guó)幅員遼闊,醫(yī)療質(zhì)量與可及性分布不均,很多地區(qū)醫(yī)療資源緊缺,更缺乏有骨齡判讀經(jīng)驗(yàn)和資質(zhì)的醫(yī)護(hù)人員[3]。人工智能(artificial intelligence, AI)不依賴(lài)大量時(shí)間、精力及財(cái)力的持續(xù)投入,為以有限醫(yī)療資源實(shí)現(xiàn)高效準(zhǔn)確的骨齡評(píng)估提供了可能。
骨齡的評(píng)估方法眾多,主要有計(jì)數(shù)法、圖譜法和積分法3種類(lèi)型[4]。計(jì)數(shù)法是通過(guò)觀察骨化中心出現(xiàn)的時(shí)間、數(shù)目和成熟度判斷骨齡,由于誤差較大,且需要多部位攝片增加了輻射劑量,目前使用較少。Greulich-Pyle圖譜法(簡(jiǎn)稱(chēng)GP法)是全世界使用最廣泛的骨齡判讀方法,閱片者比對(duì)標(biāo)準(zhǔn)片進(jìn)行骨齡判斷,該圖譜基本涵蓋了手腕骨發(fā)育過(guò)程中的所有共性的骨性指征。Tanner-Whitehouse法(簡(jiǎn)稱(chēng)TW法),根據(jù)手腕部20個(gè)骨化中心的出現(xiàn)及形態(tài)改變進(jìn)行分級(jí)評(píng)分,給予各骨化中心以不同的比重。中國(guó)人手腕發(fā)育標(biāo)準(zhǔn)-CHN法依照TW法制定,納入14個(gè)骨化中心,后經(jīng)修訂為中華05法。積分法結(jié)果較為準(zhǔn)確,但需要進(jìn)行專(zhuān)業(yè)訓(xùn)練,使用起來(lái)較為耗時(shí)。即使是經(jīng)優(yōu)化的TW3法,一般情況下醫(yī)生讀一張骨齡片至少需要8 min[4]。
無(wú)論使用哪種方法評(píng)估骨齡,人工讀片、分析及推斷骨齡均有工作量大、耗時(shí)長(zhǎng)、一致性欠佳的局限性。不同閱片者的水平和能力不盡相同,故讀片的一致性不佳;對(duì)同一張骨齡圖像,同一個(gè)閱片者不同時(shí)間的判定結(jié)果、不同閱片者之間的判定結(jié)果均有較大差異[5]。隨著計(jì)算機(jī)和圖像處理技術(shù)的發(fā)展,AI能提供相對(duì)統(tǒng)一、穩(wěn)定、便捷的骨齡結(jié)果,節(jié)省培訓(xùn)專(zhuān)業(yè)人員所需的費(fèi)用、時(shí)間和精力,提高讀片的準(zhǔn)確性和一致性,有很好的應(yīng)用前景。
AI是計(jì)算機(jī)科學(xué)的一個(gè)分支,指表現(xiàn)出與人類(lèi)智能(如推理和學(xué)習(xí))相關(guān)的各種功能的能力,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等(圖1)。機(jī)器學(xué)習(xí)(machine learning,ML)隸屬于AI,指使用計(jì)算機(jī)作為工具,研究怎樣使用計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類(lèi)學(xué)習(xí)活動(dòng)。深度學(xué)習(xí)(deep learning,DL)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,實(shí)質(zhì)是一種算法思維,其核心是對(duì)人腦思維深層次學(xué)習(xí)的模擬,通過(guò)模擬人腦的深層次抽象認(rèn)知過(guò)程,實(shí)現(xiàn)計(jì)算機(jī)對(duì)數(shù)據(jù)的復(fù)雜運(yùn)算和優(yōu)化?!吧疃取斌w現(xiàn)在該算法有多個(gè)隱含層,因此在處理圖像、聲音和文本時(shí),是通過(guò)每一層網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行提取處理。常見(jiàn)的深度學(xué)習(xí)算法有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、深度信念網(wǎng)絡(luò)和循環(huán)/遞歸神經(jīng)網(wǎng)絡(luò)。
AI.artificial intelligence;ML.machine learning;DL.deep learning;CNN.convolutional neural network
不同的深度學(xué)習(xí)算法用于不同的任務(wù),適用于醫(yī)學(xué)影像領(lǐng)域的算法是CNN,它是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),由一個(gè)或多個(gè)卷積層組成,對(duì)數(shù)據(jù)中的局部特征進(jìn)行卷積操作,可以進(jìn)行監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。隨著研究的不斷進(jìn)步,在CNN的基礎(chǔ)上又產(chǎn)生了各種改進(jìn)結(jié)構(gòu)和算法,如深度神經(jīng)殘差網(wǎng)絡(luò)(residual network,ResNet)。
開(kāi)發(fā)AI骨齡系統(tǒng)需要訓(xùn)練、驗(yàn)證、測(cè)試這3個(gè)階段,用與訓(xùn)練集不同來(lái)源數(shù)據(jù)進(jìn)行測(cè)試,同時(shí)不斷調(diào)整AI各項(xiàng)參數(shù)是檢驗(yàn)AI普適性的常用手段。近幾年來(lái),國(guó)外陸續(xù)有研究機(jī)構(gòu)嘗試開(kāi)發(fā)基于深度學(xué)習(xí)的AI骨齡評(píng)估軟件。依據(jù)TW法,使用1 391張骨齡片構(gòu)建的CNN模型與人類(lèi)專(zhuān)家判讀骨齡的平均絕對(duì)離差為0.79歲[6]。依據(jù)GP(Greulich-Pyle)法,一項(xiàng)研究使用遷移學(xué)習(xí)分析了4 278張女性?xún)和? 047張男性?xún)和驱g片,通過(guò)組織、骨骼、背景、視準(zhǔn)及標(biāo)記注釋5個(gè)取樣點(diǎn),所構(gòu)建的AI骨齡軟件的準(zhǔn)確率約為90%[7];另一研究納入大樣本(14 036例)骨齡片,結(jié)果顯示AI與人的判定結(jié)果無(wú)統(tǒng)計(jì)學(xué)差異,同時(shí)AI相比于人更加穩(wěn)定[8]?;谑谞柖肷结t(yī)院數(shù)據(jù)所開(kāi)發(fā)的韓國(guó)兒童AI骨齡軟件(VUNO Med-BoneAge)[9],GP法骨齡準(zhǔn)確率可達(dá)93%,并獲得了韓國(guó)FDA批準(zhǔn)。韓國(guó)FDA批準(zhǔn)的另外2款A(yù)I骨齡軟件,是依照TW法建立的HH-boneage.io solution和MediAI-BA solution[10]。
北美放射學(xué)年會(huì)(Radiological Society of North America, RSNA)曾舉行了一場(chǎng)骨齡機(jī)器學(xué)習(xí)挑戰(zhàn)賽[11],數(shù)據(jù)庫(kù)來(lái)自斯坦福大學(xué)露西爾·帕卡德兒童醫(yī)院和科羅拉多州兒童醫(yī)院。有來(lái)自世界各地的260個(gè)個(gè)人或團(tuán)隊(duì)報(bào)名比賽,最終僅有48個(gè)參賽者提交了骨齡算法,但是在這個(gè)挑戰(zhàn)賽里所涌現(xiàn)的新工具和新方法將促進(jìn)AI診斷效能的進(jìn)一步提高。
在國(guó)外AI骨齡軟件的研究中,研發(fā)數(shù)據(jù)大多來(lái)自美國(guó)或西歐,對(duì)不同地域、種族、社會(huì)經(jīng)濟(jì)地位人群的研究較為缺乏。測(cè)試AI準(zhǔn)確性所用的測(cè)試集數(shù)量較少(200~280例),在AI算法和模型構(gòu)造上有許多需要改進(jìn)之處,準(zhǔn)確性有待提高。此外,在這些研究中,用于前期訓(xùn)練開(kāi)發(fā)AI的骨齡圖像與用于測(cè)試AI準(zhǔn)確性的骨齡圖像均來(lái)自于相同的臨床中心,但實(shí)際上不同臨床中心的受檢者及病種存在很大差異,骨齡特征也隨之變化,用相同來(lái)源的骨齡圖像進(jìn)行評(píng)估無(wú)法體現(xiàn)及驗(yàn)證AI的普適性。
國(guó)內(nèi)對(duì)AI骨齡評(píng)估的研究緊跟國(guó)外同行的步伐。有學(xué)者將CNN與多核學(xué)習(xí)算法結(jié)合[12],將兩個(gè)不同數(shù)據(jù)融合策略的CNN模型聯(lián)合使用[13],使用回歸CNN算法[14],或者對(duì)GoogleNet深度學(xué)習(xí)架構(gòu)Inception ResNet V2網(wǎng)絡(luò)進(jìn)行優(yōu)化[15]以構(gòu)建AI骨齡判讀模型。一項(xiàng)研究使用北美放射學(xué)年會(huì)骨齡機(jī)器學(xué)習(xí)挑戰(zhàn)賽的骨齡數(shù)據(jù),構(gòu)造了改進(jìn)的ResNet網(wǎng)絡(luò)[16],其準(zhǔn)確率為男性87.15%,女性85.38%。但這幾項(xiàng)研究使用的均是國(guó)外公開(kāi)集骨齡數(shù)據(jù),處于構(gòu)造算法和模型階段,缺乏大樣本中國(guó)兒童骨齡數(shù)據(jù)作為訓(xùn)練集,尚未在中國(guó)人群骨齡數(shù)據(jù)進(jìn)行驗(yàn)證及測(cè)試,離實(shí)際應(yīng)用還有很多臨床及技術(shù)問(wèn)題需要解決(圖2)。
挑戰(zhàn)賽公開(kāi)集內(nèi)部分骨齡片圖像質(zhì)量與中國(guó)大部分中心骨齡片的圖像質(zhì)量不同,因此用挑戰(zhàn)賽公開(kāi)集訓(xùn)練的AI模型不能直接用于中國(guó)
為了開(kāi)發(fā)適合中國(guó)兒童的AI骨齡軟件,多個(gè)團(tuán)隊(duì)以中國(guó)兒童骨齡片作為訓(xùn)練集進(jìn)行研發(fā),但訓(xùn)練集和驗(yàn)證集多來(lái)自于單個(gè)醫(yī)學(xué)中心。一項(xiàng)研究使用ResNet算法深度學(xué)習(xí)11 858例骨齡片(南方地區(qū)單中心)所構(gòu)建的AI軟件[17],其GP法骨齡與金標(biāo)準(zhǔn)之間的平均絕對(duì)離差約為0.46歲。另一團(tuán)隊(duì)基于9 059個(gè)漢族兒童的骨齡資料(南方地區(qū)單中心)[18],結(jié)合ResNet配準(zhǔn)模型和分類(lèi)模型構(gòu)建了AI骨齡軟件,使用來(lái)自北京單中心的有生長(zhǎng)發(fā)育異常的漢族兒童(745例)以及生活在拉薩地區(qū)(海拔3 650 m)的藏族兒童(300例)的骨齡數(shù)據(jù)進(jìn)行測(cè)試,該AI軟件判讀GP法骨齡的準(zhǔn)確率均可達(dá)到85%左右[19-20]。另有團(tuán)隊(duì)使用56例來(lái)自北方地區(qū)的骨齡片[21]測(cè)試基于南方地區(qū)骨齡數(shù)據(jù)所開(kāi)發(fā)的AI軟件[22],發(fā)現(xiàn)AI軟件提高了醫(yī)生使用中華05法進(jìn)行骨齡診斷的準(zhǔn)確性。AI算法有一定的數(shù)據(jù)依賴(lài)性,這些研究提示以單中心大樣本骨齡數(shù)據(jù)訓(xùn)練先進(jìn)的深度學(xué)習(xí)算法,所構(gòu)建的AI軟件可在不同的醫(yī)學(xué)中心和不同的民族得到較好的骨齡結(jié)果。其他學(xué)者對(duì)西南地區(qū)[23]和北方地區(qū)[24]的AI骨齡研究,也表明AI可在數(shù)s內(nèi)得出骨齡結(jié)果,輔助臨床醫(yī)生進(jìn)行更為準(zhǔn)確的骨齡評(píng)估。
前文對(duì)中英文文獻(xiàn)的回顧發(fā)現(xiàn),有些研究并未詳細(xì)披露訓(xùn)練AI軟件所使用的骨齡數(shù)據(jù)來(lái)源、數(shù)量、男女比例和年齡分布,以及詳細(xì)的模型算法構(gòu)造。不同的研究使用不同的統(tǒng)計(jì)學(xué)術(shù)語(yǔ)評(píng)價(jià)AI骨齡軟件的準(zhǔn)確性,缺乏統(tǒng)一的評(píng)估標(biāo)準(zhǔn)。此外,遺傳、種族、營(yíng)養(yǎng)、氣候、社會(huì)經(jīng)濟(jì)等多種因素都會(huì)對(duì)兒童的生長(zhǎng)發(fā)育及骨齡產(chǎn)生影響[25]。這些均體現(xiàn)了骨齡評(píng)估的復(fù)雜性。2021年一項(xiàng)薈萃分析研究對(duì)全世界54家AI公司所開(kāi)發(fā)的100個(gè)商業(yè)化AI產(chǎn)品進(jìn)行評(píng)估[26],發(fā)現(xiàn)其算法構(gòu)建、定價(jià)方式及監(jiān)管策略異質(zhì)性很大。這100個(gè)AI產(chǎn)品中,多達(dá)64個(gè)并無(wú)有效性及準(zhǔn)確性檢測(cè)的文章作為支撐。而36個(gè)有正式文章發(fā)表的AI產(chǎn)品,文章也是集中在診斷準(zhǔn)確性檢測(cè)上,缺乏對(duì)診治決策、費(fèi)效比及患者預(yù)后等高階的證據(jù)。根據(jù)2020年底發(fā)布的《中國(guó)醫(yī)學(xué)影像AI發(fā)展報(bào)告》[27],目前在中國(guó)有10家AI公司的核心業(yè)務(wù)包含骨齡,但有成熟產(chǎn)品的只有4家,獲得三類(lèi)器械批準(zhǔn)的僅有1家,有正式發(fā)表的科研文章作為支撐的產(chǎn)品甚少。
盡管AI在醫(yī)學(xué)領(lǐng)域的應(yīng)用前景廣闊,但技術(shù)上需要在算法、算力和系統(tǒng)構(gòu)架實(shí)現(xiàn)真正革新和突破;產(chǎn)品上,需要基于檢查部位的多任務(wù)模型,需要基于臨床工作流的全流程方案;商業(yè)上,需要完整的AI產(chǎn)品形態(tài),各方均能接受的定價(jià)系統(tǒng);安全上,需要進(jìn)一步健全數(shù)據(jù)安全性和規(guī)范化使用法律法規(guī);監(jiān)管上,需要建立健全臨床準(zhǔn)入和評(píng)價(jià)體系[28]。2021年6月歐洲發(fā)布相關(guān)指南[29],指出在評(píng)價(jià)影像領(lǐng)域商用AI軟件時(shí),要對(duì)相關(guān)性、準(zhǔn)確性和驗(yàn)證、 實(shí)用性和流程整合、 監(jiān)管和法律、費(fèi)用和服務(wù)5個(gè)方面進(jìn)行全面考量,其中最需明確的是該AI要解決什么樣的臨床問(wèn)題,其收益和風(fēng)險(xiǎn)是什么,AI算法是否經(jīng)過(guò)第三方的嚴(yán)格檢驗(yàn),AI如何用于臨床工作。
國(guó)內(nèi)醫(yī)務(wù)人員對(duì)AI的接受度及歡迎度較高,短短幾年時(shí)間內(nèi)AI技術(shù)幾乎在醫(yī)學(xué)影像領(lǐng)域全程嵌入。AI骨齡系統(tǒng)與醫(yī)學(xué)影像存檔與通訊系統(tǒng)及放射科信息系統(tǒng)接口對(duì)接,可以實(shí)現(xiàn)骨齡圖像自動(dòng)抓取、閱片分析及結(jié)構(gòu)化報(bào)告(圖3),極大提高了影像科醫(yī)師的工作效率與骨齡判讀的準(zhǔn)確性。AI技術(shù)必然深刻改變影像科醫(yī)生的工作方式,對(duì)骨齡評(píng)估產(chǎn)生深遠(yuǎn)影響。
人工智能骨齡軟件作為插件嵌入影像科醫(yī)生閱片工作站,醫(yī)生打開(kāi)一份骨齡檢查時(shí),軟件會(huì)自動(dòng)抓取圖像,并呈現(xiàn)出上圖的結(jié)構(gòu)化報(bào)告,提供不同評(píng)估方法的骨齡結(jié)果(右上角紅框)供醫(yī)生選擇,整個(gè)過(guò)程僅需數(shù)秒