溫硯中 韓樾夏 孫劍飛
生物醫(yī)學(xué)是綜合生命科學(xué)、生物學(xué)和醫(yī)學(xué)等多個(gè)領(lǐng)域的前沿交叉科學(xué),致力于運(yùn)用工程技術(shù)手段探索和解決生命科學(xué)與醫(yī)學(xué)相關(guān)問(wèn)題,繼而推動(dòng)人類(lèi)生命健康的發(fā)展。在生物醫(yī)學(xué)研究中,科研工作者往往需要對(duì)復(fù)雜且多樣的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行解讀和分析,從中提取有價(jià)值的信息以理解復(fù)雜的生物醫(yī)學(xué)問(wèn)題,進(jìn)而促進(jìn)科學(xué)發(fā)現(xiàn)或推動(dòng)臨床診療的進(jìn)步。作為生物醫(yī)學(xué)領(lǐng)域的知識(shí)載體,這些數(shù)據(jù)或包含了大量疾病、藥物、蛋白質(zhì)、基因等多層次的生物醫(yī)學(xué)關(guān)聯(lián)規(guī)律,或蘊(yùn)含著助力科學(xué)探索的潛能,掌握這些信息對(duì)生物醫(yī)學(xué)相關(guān)研究向前發(fā)展至關(guān)重要。然而,隨著生物科學(xué)技術(shù)以及計(jì)算機(jī)技術(shù)的發(fā)展,大量的生物醫(yī)學(xué)數(shù)據(jù)快速產(chǎn)生并積累,如PB到EB級(jí)別的基因組學(xué)、蛋白質(zhì)組學(xué)等生命科學(xué)組學(xué)數(shù)據(jù),磁共振成像、CT成像等醫(yī)學(xué)影像數(shù)據(jù),收錄超3600萬(wàn)篇文獻(xiàn)的MEDLINE生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)等,生物醫(yī)學(xué)進(jìn)入了大數(shù)據(jù)時(shí)代。隨著生物醫(yī)學(xué)大數(shù)據(jù)的日益擴(kuò)張,如何高效利用和挖掘這些多樣化數(shù)據(jù)以驅(qū)動(dòng)臨床診療和科學(xué)實(shí)踐成為生物醫(yī)學(xué)研究的方向之一。
生物醫(yī)學(xué)研究致力于洞察生命科學(xué)規(guī)律,促進(jìn)精準(zhǔn)醫(yī)學(xué)發(fā)展。在推動(dòng)臨床診療和科學(xué)發(fā)現(xiàn)的發(fā)展中,預(yù)測(cè)和分析通常扮演著重要的角色??茖W(xué)家一方面需要通過(guò)知悉領(lǐng)域數(shù)據(jù)來(lái)預(yù)測(cè)前沿趨勢(shì)或錨定突破方向;另一方面需要采用高效的技術(shù)方法分析數(shù)據(jù)以支撐科學(xué)結(jié)論或決策。隨著生物醫(yī)學(xué)進(jìn)入大數(shù)據(jù)時(shí)代,科學(xué)家對(duì)數(shù)據(jù)的高效利用愈發(fā)關(guān)鍵,故此可以將生物醫(yī)學(xué)研究發(fā)展面臨的問(wèn)題歸為基于生物醫(yī)學(xué)大數(shù)據(jù)的高效預(yù)測(cè)和高效分析。
高效預(yù)測(cè)
預(yù)測(cè)可以理解為通過(guò)對(duì)已有的生物醫(yī)學(xué)大數(shù)據(jù)進(jìn)行充分“查閱”并“歸納”,總結(jié)出當(dāng)前尚未被發(fā)現(xiàn)或被關(guān)注的信息,如潛在的藥物靶點(diǎn)、潛在生物學(xué)信號(hào)通路、新型化合物結(jié)構(gòu)等。預(yù)測(cè)重在基于現(xiàn)有的數(shù)據(jù)挖掘出新的有價(jià)值的科研線索。早在1986年,芝加哥大學(xué)教授斯旺森(Swanson)就曾基于生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)預(yù)測(cè)出鎂元素缺乏和偏頭痛之間存在潛在關(guān)聯(lián),進(jìn)而提出假說(shuō)并由實(shí)驗(yàn)驗(yàn)證。傳統(tǒng)的預(yù)測(cè)方法大多依賴于人工投入,科研人員需要先廣泛搜集目標(biāo)數(shù)據(jù),然后手動(dòng)分析和總結(jié)數(shù)據(jù)中有價(jià)值的信息,最后歸納得出預(yù)測(cè)性結(jié)論。但當(dāng)下是生物醫(yī)學(xué)大數(shù)據(jù)時(shí)代,傳統(tǒng)方法不僅會(huì)消耗科研人員大量的時(shí)間精力,而且難以適應(yīng)迅速增長(zhǎng)的數(shù)據(jù)量以及不斷涌現(xiàn)的復(fù)雜數(shù)據(jù)。因此需要更加高效的新方法來(lái)幫助預(yù)測(cè)任務(wù)的實(shí)現(xiàn)。
高效分析
分析通常指對(duì)生理信號(hào)、醫(yī)學(xué)圖像等具有表征意義的生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行特征識(shí)別,從而揭示數(shù)據(jù)所反映的一系列生物醫(yī)學(xué)現(xiàn)象。如臨床醫(yī)學(xué)中通過(guò)對(duì)肺部CT成像進(jìn)行仔細(xì)觀察和分析來(lái)確定患者肺部健康與否,從而給出診斷結(jié)論。傳統(tǒng)的類(lèi)似醫(yī)學(xué)圖像分析任務(wù)主要基于長(zhǎng)期醫(yī)學(xué)或科研實(shí)踐中積累的專業(yè)經(jīng)驗(yàn)和經(jīng)典案例,在實(shí)際分析中已經(jīng)是成熟且可靠的方法。但隨著數(shù)據(jù)采集技術(shù)的不斷升級(jí),傳統(tǒng)的人工分析方法在面臨大量的數(shù)據(jù)處理任務(wù)時(shí)可能遇到效率低下的困境。因此,自動(dòng)化且高質(zhì)量的分析方法顯得尤為必要,以期節(jié)省科研人員的時(shí)間精力,加速生物醫(yī)學(xué)研究進(jìn)程。
近十多年以來(lái),人工智能技術(shù)(a r t i f icial intelligence, AI)得到迅猛發(fā)展。在AI技術(shù)的加持下,計(jì)算機(jī)能夠高效處理和分析大量的生物醫(yī)學(xué)數(shù)據(jù)。通過(guò)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù),計(jì)算機(jī)可以自動(dòng)學(xué)習(xí)和總結(jié)數(shù)據(jù)中蘊(yùn)含的規(guī)律和知識(shí),訓(xùn)練出AI模型用于高效預(yù)測(cè)和分析工作,進(jìn)而代替人工完成復(fù)雜任務(wù)或前瞻性預(yù)測(cè),輔助臨床診療和科學(xué)實(shí)驗(yàn)的推進(jìn)。經(jīng)過(guò)多年的沉淀,AI已經(jīng)深入影響到生物醫(yī)學(xué)領(lǐng)域。從模型的角度看,AI模型經(jīng)歷了機(jī)器學(xué)習(xí)(machine learning, ML),深度學(xué)習(xí)(deep learning, DL),預(yù)訓(xùn)練模型(pretrained language model, PLM)和大模型(large language model, LLM)4個(gè)階段[1]。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方法,主要基于統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué),可以通過(guò)構(gòu)建數(shù)學(xué)模型和算法使計(jì)算機(jī)對(duì)大量生物醫(yī)學(xué)數(shù)據(jù)進(jìn)行自動(dòng)學(xué)習(xí),不斷迭代訓(xùn)練來(lái)優(yōu)化其用于預(yù)測(cè)或決策的性能。由于傳統(tǒng)機(jī)器學(xué)習(xí)方法大多依賴于標(biāo)注數(shù)據(jù),因此根據(jù)數(shù)據(jù)是否被標(biāo)注,機(jī)器學(xué)習(xí)可以分為有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)是指使用有明確標(biāo)簽的數(shù)據(jù)來(lái)訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)中的規(guī)律和模式。例如可以根據(jù)過(guò)往病人的飲食習(xí)慣、血糖、血脂等記錄以及是否患有糖尿病的標(biāo)簽,訓(xùn)練AI學(xué)會(huì)“根據(jù)病人記錄判斷其是否會(huì)發(fā)作糖尿病”。有監(jiān)督學(xué)習(xí)的目標(biāo)是讓計(jì)算機(jī)基于帶有標(biāo)簽的輸入輸出對(duì),學(xué)習(xí)一個(gè)從輸入到輸出的映射關(guān)系,使其能夠在未知數(shù)據(jù)中更好地進(jìn)行預(yù)測(cè)或分類(lèi)。常見(jiàn)的有監(jiān)督學(xué)習(xí)算法包括決策樹(shù)、樸素貝葉斯、支持向量機(jī)等。
無(wú)監(jiān)督學(xué)習(xí)主要針對(duì)未標(biāo)注數(shù)據(jù)學(xué)習(xí)其潛在規(guī)律和模式。不同于有監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)不需要依賴已知的數(shù)據(jù)標(biāo)簽,而是通過(guò)算法來(lái)自行發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特征。例如在面對(duì)大量的基因數(shù)據(jù)時(shí),可以使用無(wú)監(jiān)督學(xué)習(xí)讓計(jì)算機(jī)自動(dòng)將功能相似的基因聚集在一起,幫助科學(xué)家理解基因的生物學(xué)功能而無(wú)須對(duì)基因功能預(yù)先標(biāo)注。因此,無(wú)監(jiān)督學(xué)習(xí)的目標(biāo)是學(xué)習(xí)數(shù)據(jù)內(nèi)在的結(jié)構(gòu)和模式,以適應(yīng)對(duì)未知數(shù)據(jù)的判斷。常見(jiàn)的無(wú)監(jiān)督學(xué)習(xí)算法包括聚類(lèi)、主成分分析等。
半監(jiān)督學(xué)習(xí)是有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的方法,旨在使用少量的標(biāo)注數(shù)據(jù)和大量的未標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí)。其核心思想在于,首先使用小部分的標(biāo)注數(shù)據(jù)基于有監(jiān)督學(xué)習(xí)訓(xùn)練模型學(xué)習(xí)輸入到輸出的映射關(guān)系,然后使用大量的未標(biāo)注數(shù)據(jù)去調(diào)優(yōu)模型,提高模型的泛化能力。半監(jiān)督學(xué)習(xí)一定程度上避免了數(shù)據(jù)和資源的浪費(fèi),同時(shí)也解決了有監(jiān)督學(xué)習(xí)下的模型泛化能力不強(qiáng)和無(wú)監(jiān)督學(xué)習(xí)下的模型不精確等問(wèn)題。常見(jiàn)的半監(jiān)督學(xué)習(xí)算法包括轉(zhuǎn)導(dǎo)支持向量機(jī)、生成模型算法、自訓(xùn)練算法等。
深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一種技術(shù),主要用到了人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)的新手段。傳統(tǒng)機(jī)器學(xué)習(xí)方法一般需要人工構(gòu)造特征,而通過(guò)多層次的神經(jīng)網(wǎng)絡(luò)模型,深度學(xué)習(xí)可以自動(dòng)地從大量的數(shù)據(jù)中提取特征并學(xué)習(xí)隱藏在數(shù)據(jù)中的復(fù)雜模式,尤其可以節(jié)省人工構(gòu)造生物醫(yī)學(xué)數(shù)據(jù)特征的過(guò)程。根據(jù)不同的方法和策略,深度學(xué)習(xí)包括單神經(jīng)網(wǎng)絡(luò)、多任務(wù)學(xué)習(xí)、混合模型、遷移學(xué)習(xí)等多種模式。
單神經(jīng)網(wǎng)絡(luò)模式是指在數(shù)據(jù)建模時(shí)僅使用一種神經(jīng)網(wǎng)絡(luò)模型。常見(jiàn)的神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)。CNN主要由輸入層、嵌入層、卷積層、池化層、全連接層和輸出層等構(gòu)件組成,其核心思想在于利用多層次卷積操作來(lái)處理數(shù)據(jù)。類(lèi)似人腦在面對(duì)視覺(jué)信息時(shí)對(duì)不同特征的識(shí)別,卷積操作是層層遞進(jìn),由低向高的過(guò)程,最后實(shí)現(xiàn)對(duì)數(shù)據(jù)特征的提取,如識(shí)別圖像。CNN在生物醫(yī)學(xué)中常被用于醫(yī)學(xué)圖像分析處理,如圖像分類(lèi)、目標(biāo)檢測(cè)等。RNN更擅長(zhǎng)處理序列型數(shù)據(jù)。在對(duì)序列數(shù)據(jù)建模時(shí),RNN引入了隱藏狀態(tài)設(shè)置來(lái)建立前后數(shù)據(jù)之間的依賴關(guān)系,因而可以有效利用長(zhǎng)距離之前的信息,達(dá)到“記憶”的效果。這使得RNN能夠隨著時(shí)間推移捕捉數(shù)據(jù)中的長(zhǎng)期依賴關(guān)系,可用于處理生物醫(yī)學(xué)中的時(shí)序數(shù)據(jù),如心電圖、腦電圖等,輔助疾病狀態(tài)的識(shí)別和預(yù)測(cè)。
多任務(wù)學(xué)習(xí)采用了歸納學(xué)習(xí)的思想。在面對(duì)某一任務(wù)可以分解為多項(xiàng)子任務(wù)的場(chǎng)景時(shí),可以訓(xùn)練模型同時(shí)適應(yīng)多個(gè)子任務(wù),模型在子任務(wù)之間通過(guò)“共享經(jīng)驗(yàn)”來(lái)整合學(xué)習(xí)成果,例如訓(xùn)練AI自動(dòng)從生物醫(yī)學(xué)文本中識(shí)別基因、蛋白質(zhì)、疾病。首先在3個(gè)對(duì)應(yīng)不同概念的數(shù)據(jù)集上訓(xùn)練AI分別識(shí)別基因、蛋白質(zhì)、疾病,通過(guò)在3個(gè)任務(wù)間共享特征來(lái)使模型達(dá)到“經(jīng)驗(yàn)共享”的效果,從而實(shí)現(xiàn)模型對(duì)3種概念的同時(shí)識(shí)別。通過(guò)共享特征的學(xué)習(xí),多任務(wù)學(xué)習(xí)模式可以充分利用多個(gè)數(shù)據(jù)集,有助于提升模型的泛化能力并減少數(shù)據(jù)和計(jì)算資源的消耗。
混合模型是指對(duì)于同一任務(wù)使用多種模型共同參與,旨在充分利用不同模型對(duì)同一任務(wù)的不同優(yōu)勢(shì),從而構(gòu)建性能更強(qiáng)的模型。如在基于醫(yī)學(xué)圖像的臨床診斷中,可以將深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)模型相結(jié)合。首先基于CNN分析醫(yī)學(xué)圖像并提取特征,然后運(yùn)用傳統(tǒng)的機(jī)器學(xué)習(xí)算法(如支持向量機(jī))根據(jù)醫(yī)學(xué)圖像的特征進(jìn)行疾病分類(lèi),實(shí)現(xiàn)自動(dòng)診斷。
遷移學(xué)習(xí)是一種將一個(gè)領(lǐng)域或任務(wù)中學(xué)到的知識(shí)或模式應(yīng)用在另一個(gè)相關(guān)領(lǐng)域以解決目標(biāo)問(wèn)題的方法[2]。其核心思想在于模型學(xué)習(xí)到的特征或模式具有泛用性,可以跨任務(wù)或跨領(lǐng)域使用。遷移學(xué)習(xí)通常需要在源域數(shù)據(jù)中(如大量的生物醫(yī)學(xué)文本)對(duì)模型進(jìn)行預(yù)訓(xùn)練,然后將其轉(zhuǎn)移至目標(biāo)任務(wù)場(chǎng)景(如生物醫(yī)學(xué)關(guān)系抽取任務(wù))進(jìn)行微調(diào)。微調(diào)旨在使用小場(chǎng)景中的少量數(shù)據(jù)更新源模型的參數(shù),使其更好地適應(yīng)目標(biāo)任務(wù)。在復(fù)雜的生物醫(yī)學(xué)研究中,遷移學(xué)習(xí)的使用可以極大地節(jié)省研究人員從頭至尾訓(xùn)練新模型的時(shí)間精力。
預(yù)訓(xùn)練模型與大模型
預(yù)訓(xùn)練模型是遷移學(xué)習(xí)應(yīng)用的經(jīng)典代表,也是更為高效的解決方案。預(yù)訓(xùn)練模型是指在大規(guī)模未被標(biāo)記的數(shù)據(jù)上進(jìn)行訓(xùn)練的語(yǔ)言模型。預(yù)訓(xùn)練過(guò)程中,模型能夠自動(dòng)學(xué)習(xí)數(shù)據(jù)中的上下文信息、結(jié)構(gòu)特征以及豐富的知識(shí)表示。通過(guò)將預(yù)訓(xùn)練中捕獲的知識(shí)儲(chǔ)存在巨大的參數(shù)中,針對(duì)特定任務(wù)場(chǎng)景進(jìn)行微調(diào),這些被儲(chǔ)存的知識(shí)可以使各種下游任務(wù)受益。當(dāng)下生物醫(yī)學(xué)領(lǐng)域較為流行的預(yù)訓(xùn)練模型包括BioBERT、MedBERT、BioGPT、PubMedGPT等。生物醫(yī)學(xué)預(yù)訓(xùn)練模型能夠使計(jì)算機(jī)更好地理解生物醫(yī)學(xué)文本,在將文本映射為向量表示的同時(shí)能夠保留其生物醫(yī)學(xué)語(yǔ)義,為生物醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別、關(guān)系抽取等自然語(yǔ)言處理任務(wù)提供了有力的基礎(chǔ)。
預(yù)訓(xùn)練模型的使用極大地減少了對(duì)特定任務(wù)的訓(xùn)練數(shù)據(jù)需求。對(duì)于特定任務(wù),使用相對(duì)較少的標(biāo)注數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)即可使模型適應(yīng)具體任務(wù),一定程度上也緩解了生物醫(yī)學(xué)領(lǐng)域標(biāo)記數(shù)據(jù)缺失問(wèn)題,減少了數(shù)據(jù)構(gòu)建成本。
大模型則是“知識(shí)儲(chǔ)備”更大的預(yù)訓(xùn)練模型。與傳統(tǒng)預(yù)訓(xùn)練模型相比,大模型使用的訓(xùn)練數(shù)據(jù)更多、訓(xùn)練方法更優(yōu),模型的參數(shù)量更大,可處理的任務(wù)更加復(fù)雜。2023年,以ChatGPT為代表的人工智能大語(yǔ)言模型(large language model, LLM)在各行各業(yè)的測(cè)試中取得了全新的突破,展現(xiàn)出了大模型作為新一代人工智能載體的潛力。
大模型最先在內(nèi)容生成和對(duì)話方面表現(xiàn)出潛力。如ChatGPT這樣的大模型其訓(xùn)練數(shù)據(jù)涵蓋了多個(gè)領(lǐng)域,幾乎可以回答或解決各種常規(guī)問(wèn)題。在經(jīng)過(guò)龐大且豐富的數(shù)據(jù)預(yù)訓(xùn)練后,大模型具備了強(qiáng)大的自然語(yǔ)言理解能力和學(xué)習(xí)能力,能夠以對(duì)話的形式按照給定指令執(zhí)行任務(wù)。如輸入一段文本讓其提取生物醫(yī)學(xué)關(guān)系。由于訓(xùn)練語(yǔ)料的開(kāi)放性,大模型幾乎可以執(zhí)行各種任務(wù),但對(duì)于專業(yè)性極強(qiáng)的領(lǐng)域(如生物醫(yī)學(xué)),通用大模型可能效果不足。為了應(yīng)對(duì)生物醫(yī)學(xué)領(lǐng)域的任務(wù)(如生物醫(yī)學(xué)數(shù)據(jù)自動(dòng)標(biāo)注),一方面可以通過(guò)提示工程的手段,向大模型提示若干生物醫(yī)學(xué)數(shù)據(jù)標(biāo)注示例(如從一段生物醫(yī)學(xué)文本中識(shí)別疾病、基因等實(shí)體),讓大模型領(lǐng)會(huì)生物醫(yī)學(xué)數(shù)據(jù)標(biāo)注的“任務(wù)要領(lǐng)”,以此來(lái)適應(yīng)目標(biāo)任務(wù),完成大模型的領(lǐng)域遷移應(yīng)用;另一方面可以基于生物醫(yī)學(xué)領(lǐng)域的語(yǔ)料數(shù)據(jù)訓(xùn)練一個(gè)生物醫(yī)學(xué)大模型來(lái)適應(yīng)領(lǐng)域任務(wù),如基于生物醫(yī)學(xué)文獻(xiàn)訓(xùn)練的大模型PMC-LLaMA[3]。前者可以通過(guò)設(shè)計(jì)優(yōu)質(zhì)的提示來(lái)提升模型表現(xiàn),后者一般需要投入較大成本才能實(shí)現(xiàn),對(duì)數(shù)據(jù)質(zhì)量和硬件都有一定的要求。
大模型背后豐富的訓(xùn)練數(shù)據(jù)使其具有龐大的“知識(shí)儲(chǔ)備”。但大模型在回答問(wèn)題時(shí),答案很大程度上取決于訓(xùn)練所使用的數(shù)據(jù)。對(duì)于訓(xùn)練數(shù)據(jù)之外的問(wèn)題,模型雖然能夠根據(jù)“已經(jīng)掌握的知識(shí)”給出答案,但答案可能并不可靠。因此,在面對(duì)快速更新的生物醫(yī)學(xué)問(wèn)題時(shí),大模型需要被“投喂”新生物醫(yī)學(xué)知識(shí)。微調(diào)便是一種向模型補(bǔ)充新知識(shí)的方法,但大模型參數(shù)量巨大,微調(diào)成本一般較高。
大模型的又一優(yōu)勢(shì)在于能根據(jù)給定的上下文信息進(jìn)行學(xué)習(xí),并結(jié)合問(wèn)題生成相應(yīng)的解釋,因此可以通過(guò)引入外部知識(shí)作為新知識(shí)補(bǔ)充??蓪?shí)時(shí)更新的外部知識(shí)庫(kù)(如生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)等)可以用作上下文相關(guān)信息來(lái)優(yōu)化模型表現(xiàn)。這種方式下,大模型首先會(huì)根據(jù)問(wèn)題特點(diǎn)在知識(shí)庫(kù)中進(jìn)行相關(guān)知識(shí)檢索,通過(guò)對(duì)相關(guān)知識(shí)和目標(biāo)問(wèn)題進(jìn)行分析,從而生成更好的回答[4]。故此,大模型結(jié)合外部知識(shí)庫(kù)的模式在應(yīng)對(duì)知識(shí)更新較快的生物醫(yī)學(xué)場(chǎng)景時(shí)具有極大的潛能。
不斷迭代發(fā)展的AI展現(xiàn)出了強(qiáng)大的自動(dòng)學(xué)習(xí)和推理能力。對(duì)于學(xué)科復(fù)雜的生物醫(yī)學(xué)領(lǐng)域,AI的應(yīng)用極大地減輕了科學(xué)家處理海量生物醫(yī)學(xué)數(shù)據(jù)的負(fù)擔(dān),越來(lái)越多的研究團(tuán)隊(duì)基于AI技術(shù)對(duì)數(shù)據(jù)進(jìn)行分析利用,如較為成熟的組學(xué)數(shù)據(jù)分析、醫(yī)學(xué)圖像分析、文獻(xiàn)挖掘等。
AI應(yīng)用于組學(xué)數(shù)據(jù)分析
隨著高通量基因測(cè)序技術(shù)的不斷進(jìn)步,基因測(cè)序產(chǎn)生的大量組學(xué)數(shù)據(jù)需要分析。組學(xué)數(shù)據(jù)分析對(duì)疾病分類(lèi)、藥物作用預(yù)測(cè)、基因表達(dá)過(guò)程預(yù)測(cè)等研究突破至關(guān)重要。AI技術(shù)的應(yīng)用為高效的組學(xué)數(shù)據(jù)分析提供了有力支撐。
在AI技術(shù)的幫助下,科學(xué)家可以根據(jù)基因轉(zhuǎn)錄組學(xué)數(shù)據(jù)推斷藥物-靶標(biāo)之間的相互作用。研究者整理了藥物相關(guān)的基因表達(dá)數(shù)據(jù)庫(kù),基于含有2000個(gè)組成單元的DNN模型進(jìn)行訓(xùn)練,并對(duì)數(shù)據(jù)進(jìn)行了約200倍的降維。經(jīng)過(guò)訓(xùn)練后的DNN模型能夠識(shí)別出患者樣本間的差異,進(jìn)而預(yù)測(cè)藥物-靶標(biāo)的作用差異,展現(xiàn)了AI在基于基因組數(shù)據(jù)預(yù)測(cè)藥物靶標(biāo)作用中的潛力[5]。
除了基因組數(shù)據(jù),蛋白質(zhì)功能和結(jié)構(gòu)也是科學(xué)家關(guān)注的方向之一,基于蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)功能和結(jié)構(gòu)對(duì)推動(dòng)生物學(xué)發(fā)展具有關(guān)鍵意義。在此背景下,DeepMind基于大規(guī)模蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)訓(xùn)練了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型AlphaFold2。在無(wú)參照結(jié)構(gòu)的情況下,AlphaFold2模型能夠準(zhǔn)確預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),并在第14次蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估(CASP14)中取得了優(yōu)異的成績(jī)。
AI應(yīng)用于生物醫(yī)學(xué)文獻(xiàn)挖掘
生物醫(yī)學(xué)文獻(xiàn)挖掘旨在基于海量文獻(xiàn)獲取有用信息指導(dǎo)科學(xué)研究。現(xiàn)今可以通過(guò)AI技術(shù)從海量生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)識(shí)別、提取潛在的科研線索來(lái)輔助科研實(shí)踐,如經(jīng)典的潛在藥物發(fā)現(xiàn)研究等。
藥物發(fā)現(xiàn)旨在識(shí)別潛在的治療疾病的新藥物。SemaTyP是一項(xiàng)基于知識(shí)圖譜和機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)候選藥物的工作[6]。該工作首先使用關(guān)系抽取工具從生物醫(yī)學(xué)文獻(xiàn)中提取生物醫(yī)學(xué)關(guān)系三元組構(gòu)建知識(shí)圖譜(SemKG),通過(guò)對(duì)知識(shí)圖譜中“藥物—靶點(diǎn)—疾病”的路徑信息進(jìn)行建模,訓(xùn)練AI模型預(yù)測(cè)藥物、靶點(diǎn)、疾病之間的關(guān)系。結(jié)果表明,SemaTyP成功預(yù)測(cè)出了疾病對(duì)應(yīng)的潛在藥物和相應(yīng)靶點(diǎn)。已知睪酮和ap22408可用于治療骨質(zhì)疏松癥,而在SemaTyP的預(yù)測(cè)結(jié)果中,這兩種藥物分別位列第一和第三。此外,SemaTyP還預(yù)測(cè)出了尚未發(fā)現(xiàn)的藥物靶點(diǎn),例如阿司匹林可能通過(guò)作用于淋巴細(xì)胞來(lái)治療心血管疾??;特立蘭卡可能通過(guò)作用于肌動(dòng)蛋白來(lái)治療心律失常等,預(yù)測(cè)結(jié)論均對(duì)后續(xù)藥物靶點(diǎn)研究具有啟發(fā)意義。
AI應(yīng)用于醫(yī)學(xué)圖像分析
組學(xué)數(shù)據(jù)分析和文獻(xiàn)挖掘分析對(duì)生物醫(yī)學(xué)科學(xué)研究具有指導(dǎo)意義。而在臨床醫(yī)學(xué)中,醫(yī)學(xué)圖像則是臨床診斷和疾病治療的重要依據(jù),同時(shí)醫(yī)學(xué)圖像分析也是AI在生物醫(yī)學(xué)領(lǐng)域的重要應(yīng)用之一。常見(jiàn)的醫(yī)學(xué)圖像包括X射線、磁共振成像、超聲成像等,這些圖像直觀地反映了人體內(nèi)部結(jié)構(gòu)、組織和病理變化狀態(tài)等。AI技術(shù)的應(yīng)用促進(jìn)了對(duì)醫(yī)學(xué)圖像的自動(dòng)分析,極大地提高了診斷效率。
以黃斑為中心的視網(wǎng)膜眼底圖像可用于篩查潛在的威脅視力的疾病,包括糖尿病視網(wǎng)膜病變和青光眼等。為了輔助臨床自動(dòng)篩選異常的眼底視網(wǎng)膜圖像,研究者基于深度學(xué)習(xí)技術(shù)開(kāi)發(fā)了AI模型。通過(guò)對(duì)10萬(wàn)多張圖像超30萬(wàn)個(gè)讀數(shù)和外部數(shù)據(jù)集的出血、硬性滲出物、黃斑裂孔等12個(gè)指標(biāo)進(jìn)行測(cè)試,并與眼科專業(yè)的檢查結(jié)果進(jìn)行對(duì)比,AI模型成功實(shí)現(xiàn)了對(duì)黃斑中心視網(wǎng)膜眼底圖像的準(zhǔn)確分類(lèi),推動(dòng)了臨床視網(wǎng)膜眼底圖像的自動(dòng)篩查應(yīng)用[7]。
除了自動(dòng)分析醫(yī)學(xué)圖像輔助診斷,為了應(yīng)對(duì)精準(zhǔn)醫(yī)療的需求,AI還可基于影像信息預(yù)測(cè)疾病可能病程、指導(dǎo)診療過(guò)程。研究人員基于14 036張手部X光影像,使用深度學(xué)習(xí)技術(shù)開(kāi)發(fā)了一個(gè)手部X光片骨齡預(yù)測(cè)模型[8]。在200例測(cè)試集樣本中,該AI模型的預(yù)測(cè)結(jié)果與放射科專家預(yù)測(cè)結(jié)果平均差值為0歲,平均絕對(duì)誤差為0.50歲,均方根差為0.63歲,表現(xiàn)出了在預(yù)測(cè)骨齡應(yīng)用中與專家水平相當(dāng)?shù)男阅堋?h3>展 望
當(dāng)前,新一代人工智能技術(shù),特別是以大模型為核心的新方法,正在以更加智能的方式推進(jìn)生物醫(yī)學(xué)研究。這些技術(shù)在自動(dòng)診斷、醫(yī)學(xué)問(wèn)答、藥物研發(fā)等領(lǐng)域展現(xiàn)出巨大潛力。然而,AI技術(shù)的應(yīng)用不僅為生物醫(yī)學(xué)研究帶來(lái)機(jī)遇,同時(shí)也引入了新的挑戰(zhàn)。
從數(shù)據(jù)角度看,AI技術(shù)在處理和分析海量數(shù)據(jù)方面具有優(yōu)勢(shì),而AI的成功應(yīng)用往往依賴于高質(zhì)量數(shù)據(jù)。在生物醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)具有專業(yè)性強(qiáng)、多樣且復(fù)雜的特點(diǎn)。因此,高質(zhì)量數(shù)據(jù)的獲取需要多方努力。在數(shù)據(jù)收集方面,應(yīng)研發(fā)或升級(jí)數(shù)據(jù)采集工具以提高數(shù)據(jù)的可靠性;在數(shù)據(jù)標(biāo)注方面,需加強(qiáng)標(biāo)注人員的專業(yè)知識(shí)培訓(xùn)和標(biāo)注工具的精準(zhǔn)度;對(duì)于多源數(shù)據(jù)整合,需要持續(xù)開(kāi)發(fā)有效的整合和標(biāo)準(zhǔn)化策略,以提升AI性能。
AI模型的可解釋性對(duì)生物醫(yī)學(xué)決策至關(guān)重要。雖然先進(jìn)的AI算法在處理生物醫(yī)學(xué)問(wèn)題中展現(xiàn)出高準(zhǔn)確性和強(qiáng)預(yù)測(cè)能力,但其黑盒運(yùn)作機(jī)制使AI模型在解釋方面存在不足。未來(lái),通過(guò)增強(qiáng)AI模型決策過(guò)程的可視化,可以幫助科研人員理解和信任AI;AI研究人員和生物醫(yī)學(xué)科學(xué)家還可通過(guò)雙向深入?yún)⑴c,以確保AI技術(shù)與科學(xué)應(yīng)用的緊密耦合。此外,研發(fā)更加透明和可解釋的AI模型,以進(jìn)一步增強(qiáng)AI的可信度也尤為必要。目前,可解釋AI的相關(guān)研究正逐漸開(kāi)展,隨著研究的不斷深入,生物醫(yī)學(xué)領(lǐng)域的AI可解釋時(shí)代終會(huì)到來(lái)。
[1]羅錦釗, 孫玉龍, 錢(qián)增志, 等. 人工智能大模型綜述及展望. 無(wú)線電工程, 2023, 53(11): 2461-2472.
[2]Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.
[3]Wu C, Zhang X, Zhang Y, et al. Pmc-llama: further finetuning llama on medical papers. arXiv preprint arXiv: 2304. 2023, 14454.
[4]Gao Y, Xiong Y, Gao X, et al. Retrieval-augmented generation for large language models: A Survey. arXiv preprint arXiv: 2312. 2023, 10997.
[5]Xie L, He S, Song X, et al. Deep learning-based transcriptome data classification for drug-target interaction prediction. BMC Genomics. 2018, 19: 93-102.
[6]Sang S, Yang Z, Wang L, et al. SemaTyP: a knowledge graph based literature mining method for drug discovery. BMC Bioinformatics, 2018, 19: 1-11.
[7]Son J, Shin J Y, Kim H D, et al. Development and validation of deep learning models for screening multiple abnormal findings in retinal fundus images. Ophthalmology, 2020, 127(1): 85-94.
[8]Larson D B, Chen M C, Lungren M P, et al. Performance of a deeplearning neural network model in assessing skeletal maturity on pediatric hand radiographs. Radiology, 2018, 287(1): 313-322.
關(guān)鍵詞:人工智能 生物醫(yī)學(xué)大數(shù)據(jù) 自動(dòng)分析 預(yù)測(cè) ■