王 萌,弭博巖,鄭 奮
(海軍軍醫(yī)大學(xué) 衛(wèi)生勤務(wù)學(xué)系 計算機與仿真技術(shù)教研室,上海200433)
近年來,隨著人工智能技術(shù)的蓬勃發(fā)展,其在醫(yī)療衛(wèi)生領(lǐng)域逐漸占據(jù)重要的地位,已在并發(fā)癥預(yù)測、康復(fù)護理、疾病管理等方向得到廣泛應(yīng)用。胎兒健康監(jiān)測是評估胎兒健康狀況、及時識別胎兒潛在健康危險及降低產(chǎn)婦妊娠意外的有效手段,但由于監(jiān)測項目及參數(shù)在時域、形態(tài)學(xué)等方面指標(biāo)眾多,如非經(jīng)過專業(yè)培訓(xùn)且經(jīng)驗豐富的醫(yī)生,在進行判讀時容易受到主觀因素的影響,從而引發(fā)誤診漏診。人工智能技術(shù)能摒棄主觀因素影響,從海量數(shù)據(jù)中自動化提取出計算機可識別的病理特征,從而構(gòu)建出穩(wěn)健、可靠的模型[1],為構(gòu)建靈敏、準(zhǔn)確、方便地監(jiān)測胎兒健康狀況提供可能,人工智能技術(shù)與胎兒健康監(jiān)測領(lǐng)域相結(jié)合已成為數(shù)字醫(yī)學(xué)的重要發(fā)展趨勢之一。
人工智能技術(shù)是指使計算機對人的思維過程和行為進行模擬,從而實現(xiàn)自動化從海量數(shù)據(jù)中獲取并分析有價值的信息。人工智能技術(shù)的引入在目前在我國的醫(yī)療健康行業(yè)中已在逐漸發(fā)展和完善[2],并已初具使用效果。人工智能技術(shù)的很多重要分支在胎兒健康監(jiān)測領(lǐng)域中都有著很高的應(yīng)用前景,主要利用了機器學(xué)習(xí)[3]、深度學(xué)習(xí)、計算機視覺[4]等多種技術(shù)。
宮內(nèi)窘迫是胎兒在宮內(nèi)的缺氧征象,嚴(yán)重會危及胎兒生命。電子胎心監(jiān)護[5]是臨床應(yīng)用最廣泛的判別胎兒宮內(nèi)窘迫的常用方法之一。在實際應(yīng)用中,由于監(jiān)測信號的復(fù)雜多樣,致使人工判讀結(jié)果效率低、效果易產(chǎn)生偏差,因此已有眾多學(xué)者利用機器學(xué)習(xí)算法從胎心監(jiān)護參數(shù)中提取特征并進行模型訓(xùn)練。
2.1 模型評估方式
為直觀反映各機器學(xué)習(xí)模型的分類性能,通常以模型預(yù)測結(jié)果的分類歸屬[6]為基礎(chǔ),計算出的準(zhǔn)確率、精確率、召回率、特異度來對模型進行評價。準(zhǔn)確率是模型預(yù)測每個類別正確的樣本所占的比例大小;精確率是所有預(yù)測結(jié)果為每類的樣本中預(yù)測正確的樣本所占的比例,召回率是每個類別真實結(jié)果為該類樣本中預(yù)測結(jié)果正確的樣本比例,特異度是將負(fù)樣本識別正確占所有負(fù)樣本的比例。以上四個指標(biāo)均為越大效果越好。
2.2 算法概述
Hoodbhoy[7]等以加利福尼亞大學(xué)歐文機器學(xué)習(xí)庫中的胎心監(jiān)護圖數(shù)據(jù)進行模型訓(xùn)練,運用極端梯度提升樹(Extreme Gradient Boosting,XGBoost)算法得到最優(yōu)判別結(jié)果。聶磊[8]以同一數(shù)據(jù)集進行模型訓(xùn)練,將五種機器學(xué)習(xí)模型進行對比,提出的集成算法(Stacking)為最優(yōu)方案。曾冬洲等[9]以福建省某醫(yī)院的脫敏臨床數(shù)據(jù)進行訓(xùn)練,將應(yīng)用梯度提升決策樹和邏輯回歸相融合(gradient boosting decision tree-logistic regression,GBDT-LR),設(shè)計了預(yù)診斷模型,融合后的模型較單個模型的預(yù)測效果有顯著提升。郝婧宇等[10]以波爾圖大學(xué)公開的葡萄牙孕婦胎心監(jiān)護數(shù)據(jù)進行模型訓(xùn)練,提出了一種運用五層堆疊(Stacking-5)模型融合的方法,相較于融合前檢測效果大幅度提升。以上算法對比如表1所示。
表1 評價指標(biāo)對比
胎兒畸形雖不會對胎兒造成致命傷害,但難以預(yù)測出生后的影響,一些嚴(yán)重疾病會給家庭造成很大負(fù)擔(dān)[11]。超聲檢測[12]是判斷畸形的常用手段,但由于畸形種類較多,成因繁雜,致使手動測量效率低下,且漏診現(xiàn)象較為常見。運用機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)結(jié)合超聲信號進行胎兒畸形篩查的方式已成為研究熱點。
Zhang等[13]提出一種基于監(jiān)督文本的精確分割方法自動化測量胎兒頭部和股骨,平均精度為96.85%、84.37%。Matthew等[14]運用全卷積網(wǎng)絡(luò)來測量胎兒頭圍和雙頂徑值,該模型的表現(xiàn)水平與專家相似。李志昂等[15]對圖像分割領(lǐng)域U-NET[16]結(jié)構(gòu)進行改進,引入擴張卷積模塊,提出一種對胎兒的腹圍、股骨長以及頭臀徑等參數(shù)進行測量的方法(D-UNET),模型測量值幾乎等同于醫(yī)生手工標(biāo)注的標(biāo)準(zhǔn)測量值,精度較高。汪金婷等[17]將U-NET與目標(biāo)檢測模型YOLOv3[18]相結(jié)合并進行改進,最終模型Dice系數(shù)、豪斯多夫距離和頭圍絕對差值分別為97.81±1.41、1.32±0.86、2.02±1.97,能克服干擾,提高胎兒頭圍測量精度。
近年來,我國胎兒巨大兒的發(fā)生率逐年升高[19]。巨大兒易增加產(chǎn)婦產(chǎn)傷及母嬰并發(fā)癥風(fēng)險[20]。我國估測新生兒體重的常用手段為超聲信號結(jié)合Hadlock公式[21],但對于巨大兒的預(yù)測精度有很大提升空間。
李昆等[22]運用深度神經(jīng)網(wǎng)絡(luò)進行預(yù)測模型構(gòu)建,最終將預(yù)測體重誤差控制在100 g到500 g之間,能夠減少嚴(yán)重的預(yù)測失誤。董蓉蓉等[23]利用新生兒出生體質(zhì)量及超聲測量數(shù)據(jù)分別進行多元線性回歸計算、機器學(xué)習(xí)模型訓(xùn)練,并與Hadlock公式預(yù)測結(jié)果進行比較,提出的多元線性回歸方法將預(yù)測的正確率提升8.63%,靈敏度提升19.36%,機器學(xué)習(xí)算法將預(yù)測正確率平均提升14.42%,靈敏度平均提升44.09%。Ye等[24]運用機器學(xué)習(xí)中的集成方法結(jié)合多個模型,提高了胎兒體重預(yù)測精度。張碩彥等[25]在長短期記憶網(wǎng)絡(luò)的基礎(chǔ)上提出一種變長時間間隔的模型,使預(yù)測平均相對誤差下降0.65%。
人工智能技術(shù)在胎兒健康監(jiān)測領(lǐng)域有著廣闊的發(fā)展前景。相較于傳統(tǒng)、手工的監(jiān)測方式,人工智能技術(shù)的引入能在眾多方面提升胎兒健康監(jiān)測效能。但結(jié)合實際應(yīng)用需求進行分析,在算法設(shè)計、統(tǒng)一評價指標(biāo)、臨床實踐驗證三方面還存在提升空間。
由于模型訓(xùn)練需要大量數(shù)據(jù),可用數(shù)據(jù)量過少、噪聲數(shù)據(jù)過多從而產(chǎn)生的訓(xùn)練過擬合現(xiàn)象是需要克服的。此外,部分算法雖相較于傳統(tǒng)算法有所提高,但與同領(lǐng)域?qū)<医淌诘淖R別結(jié)果相比還有所差距,提升算法精度工作仍應(yīng)繼續(xù)。
對于同一研究方向的算法而言,設(shè)計過程與實際臨床之間的評價指標(biāo)無法統(tǒng)一,在分析多個算法之間的優(yōu)劣時難以進行對比,因此統(tǒng)一評價指標(biāo)對于分析與提升算法效能而言有著重要意義。
部分算法雖運用測試集檢測效果優(yōu)越,但缺乏臨床的實踐驗證,難以進行廣泛推廣及應(yīng)用。
因此,廣大科研工作者應(yīng)繼續(xù)推進人工智能技術(shù)與醫(yī)學(xué)領(lǐng)域的結(jié)合,不斷優(yōu)化算法、調(diào)整參數(shù),進一步提升模型性能,推進臨床應(yīng)用,以推動數(shù)字醫(yī)學(xué)的蓬勃發(fā)展。