梁春瀅,曾祥衛(wèi),陳靜
廣東省藥品監(jiān)督管理局審評認(rèn)證中心 (廣東廣州 510080)
近年來,人工智能(artificial intelligence,AI)技術(shù)在醫(yī)學(xué)領(lǐng)域的發(fā)展迅速,越來越多的病理AI 軟件面市并服務(wù)于臨床,但目前國內(nèi)大部分的病理AI軟件還難以解決復(fù)雜的醫(yī)療決策問題,同時也缺乏動態(tài)學(xué)習(xí)、邏輯推理等高級功能。國家藥品監(jiān)督管理局注冊產(chǎn)品數(shù)據(jù)庫顯示,已上市的病理AI 軟件的臨床用途主要集中在對病變細(xì)胞或組織進(jìn)行標(biāo)記、識別、分類和細(xì)胞計數(shù)等方面,尚缺少對病變性質(zhì)進(jìn)行判斷并給出具體臨床建議、輔助診斷、用藥指導(dǎo)或治療依據(jù)的應(yīng)用,對真正輔助臨床決策或解決傳統(tǒng)病理診斷存在主觀問題的目標(biāo)還有很大的差距。然而要實現(xiàn)上述臨床功能,對病理AI 軟件的算法性能則提出了更高要求,病理AI 軟件研發(fā)過程也將面臨復(fù)雜臨床使用場景的全面分析、核心算法的合理設(shè)計、強算力對海量數(shù)據(jù)的訓(xùn)練及科學(xué)的性能測試手段等方面的挑戰(zhàn)。
全面、準(zhǔn)確的需求分析是軟件研發(fā)的首要步驟,直接決定了軟件算法模型的設(shè)計和數(shù)據(jù)收集等。對于病理AI 軟件而言,臨床使用場景是需求分析中的關(guān)鍵要素。臨床使用場景包括臨床病種、適用人群、流行病學(xué)、操作對象和應(yīng)用場景等,其中臨床病種目前主要為乳腺疾病、宮頸癌、胃癌等,適用人群可分為不同性別、年齡、人種或高危人群等,操作對象通常為臨床醫(yī)師、閱片醫(yī)師或護(hù)理人員、患者等,應(yīng)用場景包括疾病預(yù)測、分期分診(腫瘤二分類等)、指導(dǎo)治療和預(yù)后評估等。
目前,病理AI 軟件的算法可基于已有研究的網(wǎng)絡(luò)模型,選擇單一的網(wǎng)絡(luò)模型或融合多個網(wǎng)絡(luò)模型,通過數(shù)據(jù)集的訓(xùn)練來調(diào)整系數(shù)而得到最優(yōu)的模型。在設(shè)計模型時,設(shè)計人員通常要考慮模型的效率和精度,同時也要兼顧減少模型的參數(shù)和計算冗余的問題,這些均與選擇的基礎(chǔ)網(wǎng)絡(luò)模型息息相關(guān),比如深度學(xué)習(xí)算法中的基礎(chǔ)網(wǎng)絡(luò)模型已有較成熟的研究,通常深層級的網(wǎng)絡(luò)結(jié)構(gòu)更利于提取豐富的圖像特征,但也伴隨參數(shù)冗余、梯度消失和訓(xùn)練復(fù)雜等缺點,這就決定了深層級的網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢并不具有普適性。因此,在病理AI軟件的實際研發(fā)中,研發(fā)者充分權(quán)衡基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)勢和缺點,結(jié)合需求分析,深度挖掘病理圖像特征,才能設(shè)計出滿足臨床用途的最優(yōu)算法。
選擇好基礎(chǔ)網(wǎng)絡(luò)架構(gòu)后,需通過特定數(shù)據(jù)集進(jìn)行訓(xùn)練來調(diào)整參數(shù),但在模型優(yōu)化過程通常會遇到過擬合和欠擬合情況,可通過數(shù)據(jù)增強、減小網(wǎng)絡(luò)容量、添加權(quán)重正則化、添加dropout 等技術(shù)手段防止神經(jīng)網(wǎng)絡(luò)過擬合,通過加大模型參數(shù)避免欠擬合[1]。
評估算法是否滿足預(yù)期目標(biāo),需經(jīng)過充分的算法測試、驗證與確認(rèn)活動。構(gòu)建科學(xué)的算法評估方法應(yīng)基于充分了解產(chǎn)品算法結(jié)構(gòu)、預(yù)期目標(biāo)任務(wù)和臨床需求,可從軟件整個研發(fā)周期中的需求階段、設(shè)計階段、實現(xiàn)階段和運行階段確立對應(yīng)的評估指標(biāo)、接受準(zhǔn)則和關(guān)鍵活動,進(jìn)而形成每個階段的評估報告,注意測試人員應(yīng)獨立于研發(fā)人員,以保證測試的可靠性和完整性[2]。評估指標(biāo)不局限于響應(yīng)時間、精度、召回率、準(zhǔn)確率、重復(fù)性與再現(xiàn)性、時效性、靈敏度、特異度和ROC 曲線下面積,可使用單一指標(biāo),也可組合設(shè)置指標(biāo),最終的評估則需進(jìn)一步評審和確認(rèn)每個環(huán)節(jié)是否達(dá)到放行要求。
數(shù)據(jù)集是AI 軟件學(xué)習(xí)的素材,直接參與了算法模型的訓(xùn)練、優(yōu)化和最終評估階段。保證數(shù)據(jù)的準(zhǔn)確性、可用性、一致性和完整性是構(gòu)建數(shù)據(jù)集的基本要求。軟件研發(fā)者在構(gòu)建數(shù)據(jù)集時需重點關(guān)注數(shù)據(jù)的來源和采集、數(shù)據(jù)標(biāo)注和質(zhì)控、數(shù)據(jù)集的構(gòu)成。
數(shù)據(jù)的來源可影響數(shù)據(jù)的完整性和準(zhǔn)確性。為使數(shù)據(jù)集盡可能滿足臨床預(yù)期使用各類場景要求,一方面從臨床用途上考慮覆蓋各類特殊及對抗性樣本,如涵蓋預(yù)期適用人群、不同部位,病灶大小、病程范圍及腫瘤類型、分化程度等;或從地理分布上考慮數(shù)據(jù)差異性,需盡可能來自不同地域和臨床機構(gòu);另外,需從設(shè)備使用上考慮硬件兼容性,如盡可能來自不同的采集設(shè)備[3]。
規(guī)范數(shù)據(jù)的采集主要考慮數(shù)據(jù)的可用性和一致性,如數(shù)字圖像保存格式、大小等不同可影響算法性能,同時防止采集的數(shù)據(jù)出現(xiàn)不能識別或讀取的情況。數(shù)據(jù)采集過程至少保證設(shè)備采集方式(二維、三維動態(tài)、實時成像或掃描成像)、采集參數(shù)(如成像倍數(shù)等)、采集精度(如分辨力、信噪比)、輸出數(shù)字圖像的參數(shù)[儲存格式(DICOM、TIFF 等標(biāo)準(zhǔn)格式)、像素大小、對比度、壓縮因子等]的統(tǒng)一。
數(shù)據(jù)標(biāo)注過程是否規(guī)范將影響數(shù)據(jù)的準(zhǔn)確性和一致性??刂茦?biāo)注數(shù)據(jù)的質(zhì)量重點把握以下幾點:(1)確定統(tǒng)一的參考標(biāo)準(zhǔn),如宮頸細(xì)胞學(xué)中的TBS分類標(biāo)準(zhǔn)、專家共識等;(2)標(biāo)準(zhǔn)化流程和規(guī)范化操作,包括具體的標(biāo)注流程、標(biāo)注人員要求、定義標(biāo)注范圍(如標(biāo)記細(xì)胞核、腺體、組織等)、特定病種標(biāo)注形式(如中心點標(biāo)注、細(xì)胞邊緣標(biāo)注)和確保追溯性等;(3)保證標(biāo)注團(tuán)隊的專業(yè)性,對標(biāo)注專家提出明確的閱片資質(zhì)要求,明確區(qū)分標(biāo)注、復(fù)核和仲裁人員的任務(wù)和權(quán)限,針對疑難病例樣本可考慮多人標(biāo)注,以提高數(shù)據(jù)標(biāo)注的可信度和質(zhì)量。
基于數(shù)據(jù)集在算法模型評估中的功能,需構(gòu)建訓(xùn)練集、驗證集和測試集。美國FDA 起草的指南指出,制造商需適當(dāng)區(qū)分三者[4],同時國內(nèi)發(fā)布的審評要點也明確各個數(shù)據(jù)集之間的樣本應(yīng)無交集[3]。因此,在實際設(shè)計研發(fā)中,研發(fā)者需采取一定的措施保證各個數(shù)據(jù)集之間的獨立性。
為避免數(shù)據(jù)偏性,各個數(shù)據(jù)集的樣本分布應(yīng)盡可能均衡,陰陽性樣本的比例應(yīng)盡量合理。同時,各數(shù)據(jù)集的樣本量除考慮滿足算法結(jié)構(gòu)測試和預(yù)期任務(wù)外,還需考慮流行病學(xué)和統(tǒng)計學(xué)要求,若樣本量太少,會造成結(jié)果的偏倚和算法泛化能力的降低。另外,數(shù)據(jù)集的來源應(yīng)盡量接近臨床樣本真實情況,對來源于第三方平臺的數(shù)據(jù)要充分評估與臨床機構(gòu)數(shù)據(jù)的同質(zhì)性。
病理切片的質(zhì)量是獲取高質(zhì)量標(biāo)注數(shù)據(jù)的基礎(chǔ),研發(fā)者在前期策劃時應(yīng)考慮制定病理切片的質(zhì)量要求,進(jìn)而在數(shù)據(jù)采集環(huán)節(jié)嚴(yán)格控制樣本的納入和排除,控制不嚴(yán)時出現(xiàn)取材不全、染色過程結(jié)構(gòu)紋理不清晰、各組織層次不強、切片厚薄不一、切片封片劑過多等問題可影響后續(xù)采集圖像的質(zhì)量,造成圖像特征提取的偏差,不利于驗證標(biāo)準(zhǔn)化的設(shè)備采集參數(shù),從而降低診斷結(jié)果的準(zhǔn)確性。
而提高病理切片的質(zhì)量需嚴(yán)格規(guī)范制片的標(biāo)準(zhǔn)流程和質(zhì)控手段[5],若采用市面全自動化的染色、制片一體機,還要關(guān)注設(shè)備參數(shù)的設(shè)定和確認(rèn)。另外,上市產(chǎn)品臨床使用有相關(guān)反饋,軟件算法的性能或因染色方法(HE、巴氏等)、制片方式(模式、沉降式)等的不同存在差異。因此,在軟件研發(fā)時,盡可能驗證不同病理切片的兼容性或根據(jù)產(chǎn)品已有的研究結(jié)果對臨床使用過程作出限制,包括在軟件中前置設(shè)定圖像匹配度要求或說明書中明確病理切片質(zhì)量要求、染色方式和采集圖像參數(shù)統(tǒng)一等,以提高后續(xù)產(chǎn)品診斷結(jié)果的準(zhǔn)確性。
AI 技術(shù)在病理診斷領(lǐng)域的應(yīng)用正在不斷探索中,AI 軟件在實際的臨床實踐中將不斷遇到疑難病例及復(fù)雜且不可預(yù)測的使用場景,研發(fā)者需在軟件研發(fā)階段盡可能分析多方面的影響因素,并找到相應(yīng)的策略來提高算法的性能。除本文提及因素外,研發(fā)者還可從研發(fā)新的算法模型、尋求更科學(xué)合理的算法測試方法和評估體系等方向進(jìn)行探索。另外,基于深度學(xué)習(xí)算法自適應(yīng)學(xué)習(xí)和不斷迭代的特性,還需進(jìn)一步考慮相應(yīng)的網(wǎng)絡(luò)安全防護(hù)設(shè)計來防止數(shù)據(jù)污染、數(shù)據(jù)投毒和對抗性樣本等對模型的攻擊,以更好保證產(chǎn)品診斷結(jié)果的準(zhǔn)確性。
另外在國家層面,則可考慮進(jìn)一步加大國內(nèi)AI 技術(shù)在醫(yī)學(xué)領(lǐng)域的科研投入,推進(jìn)臨床、軟件研發(fā)企業(yè)、檢測機構(gòu)和審評機構(gòu)共建高質(zhì)量可共享的大數(shù)據(jù)環(huán)境,同時加快完善國內(nèi)的AI 應(yīng)用標(biāo)準(zhǔn)、測試評價體系及產(chǎn)業(yè)的服務(wù)性政策,推動AI 技術(shù)在病理診斷和輔助診斷方面發(fā)揮更大作用,并可持續(xù)向精準(zhǔn)醫(yī)療或疾病預(yù)防等方向發(fā)展。