溫硯中 韓樾夏 孫劍飛
生物醫(yī)學是綜合生命科學、生物學和醫(yī)學等多個領域的前沿交叉科學,致力于運用工程技術手段探索和解決生命科學與醫(yī)學相關問題,繼而推動人類生命健康的發(fā)展。在生物醫(yī)學研究中,科研工作者往往需要對復雜且多樣的生物醫(yī)學數(shù)據(jù)進行解讀和分析,從中提取有價值的信息以理解復雜的生物醫(yī)學問題,進而促進科學發(fā)現(xiàn)或推動臨床診療的進步。作為生物醫(yī)學領域的知識載體,這些數(shù)據(jù)或包含了大量疾病、藥物、蛋白質、基因等多層次的生物醫(yī)學關聯(lián)規(guī)律,或蘊含著助力科學探索的潛能,掌握這些信息對生物醫(yī)學相關研究向前發(fā)展至關重要。然而,隨著生物科學技術以及計算機技術的發(fā)展,大量的生物醫(yī)學數(shù)據(jù)快速產生并積累,如PB到EB級別的基因組學、蛋白質組學等生命科學組學數(shù)據(jù),磁共振成像、CT成像等醫(yī)學影像數(shù)據(jù),收錄超3600萬篇文獻的MEDLINE生物醫(yī)學文獻數(shù)據(jù)庫等,生物醫(yī)學進入了大數(shù)據(jù)時代。隨著生物醫(yī)學大數(shù)據(jù)的日益擴張,如何高效利用和挖掘這些多樣化數(shù)據(jù)以驅動臨床診療和科學實踐成為生物醫(yī)學研究的方向之一。
生物醫(yī)學研究致力于洞察生命科學規(guī)律,促進精準醫(yī)學發(fā)展。在推動臨床診療和科學發(fā)現(xiàn)的發(fā)展中,預測和分析通常扮演著重要的角色??茖W家一方面需要通過知悉領域數(shù)據(jù)來預測前沿趨勢或錨定突破方向;另一方面需要采用高效的技術方法分析數(shù)據(jù)以支撐科學結論或決策。隨著生物醫(yī)學進入大數(shù)據(jù)時代,科學家對數(shù)據(jù)的高效利用愈發(fā)關鍵,故此可以將生物醫(yī)學研究發(fā)展面臨的問題歸為基于生物醫(yī)學大數(shù)據(jù)的高效預測和高效分析。
高效預測
預測可以理解為通過對已有的生物醫(yī)學大數(shù)據(jù)進行充分“查閱”并“歸納”,總結出當前尚未被發(fā)現(xiàn)或被關注的信息,如潛在的藥物靶點、潛在生物學信號通路、新型化合物結構等。預測重在基于現(xiàn)有的數(shù)據(jù)挖掘出新的有價值的科研線索。早在1986年,芝加哥大學教授斯旺森(Swanson)就曾基于生物醫(yī)學文獻數(shù)據(jù)預測出鎂元素缺乏和偏頭痛之間存在潛在關聯(lián),進而提出假說并由實驗驗證。傳統(tǒng)的預測方法大多依賴于人工投入,科研人員需要先廣泛搜集目標數(shù)據(jù),然后手動分析和總結數(shù)據(jù)中有價值的信息,最后歸納得出預測性結論。但當下是生物醫(yī)學大數(shù)據(jù)時代,傳統(tǒng)方法不僅會消耗科研人員大量的時間精力,而且難以適應迅速增長的數(shù)據(jù)量以及不斷涌現(xiàn)的復雜數(shù)據(jù)。因此需要更加高效的新方法來幫助預測任務的實現(xiàn)。
高效分析
分析通常指對生理信號、醫(yī)學圖像等具有表征意義的生物醫(yī)學數(shù)據(jù)進行特征識別,從而揭示數(shù)據(jù)所反映的一系列生物醫(yī)學現(xiàn)象。如臨床醫(yī)學中通過對肺部CT成像進行仔細觀察和分析來確定患者肺部健康與否,從而給出診斷結論。傳統(tǒng)的類似醫(yī)學圖像分析任務主要基于長期醫(yī)學或科研實踐中積累的專業(yè)經驗和經典案例,在實際分析中已經是成熟且可靠的方法。但隨著數(shù)據(jù)采集技術的不斷升級,傳統(tǒng)的人工分析方法在面臨大量的數(shù)據(jù)處理任務時可能遇到效率低下的困境。因此,自動化且高質量的分析方法顯得尤為必要,以期節(jié)省科研人員的時間精力,加速生物醫(yī)學研究進程。
近十多年以來,人工智能技術(a r t i f icial intelligence, AI)得到迅猛發(fā)展。在AI技術的加持下,計算機能夠高效處理和分析大量的生物醫(yī)學數(shù)據(jù)。通過機器學習、深度學習等人工智能技術,計算機可以自動學習和總結數(shù)據(jù)中蘊含的規(guī)律和知識,訓練出AI模型用于高效預測和分析工作,進而代替人工完成復雜任務或前瞻性預測,輔助臨床診療和科學實驗的推進。經過多年的沉淀,AI已經深入影響到生物醫(yī)學領域。從模型的角度看,AI模型經歷了機器學習(machine learning, ML),深度學習(deep learning, DL),預訓練模型(pretrained language model, PLM)和大模型(large language model, LLM)4個階段[1]。
機器學習
機器學習是實現(xiàn)人工智能的一種方法,主要基于統(tǒng)計學和計算機科學,可以通過構建數(shù)學模型和算法使計算機對大量生物醫(yī)學數(shù)據(jù)進行自動學習,不斷迭代訓練來優(yōu)化其用于預測或決策的性能。由于傳統(tǒng)機器學習方法大多依賴于標注數(shù)據(jù),因此根據(jù)數(shù)據(jù)是否被標注,機器學習可以分為有監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習。
有監(jiān)督學習是指使用有明確標簽的數(shù)據(jù)來訓練模型學習數(shù)據(jù)中的規(guī)律和模式。例如可以根據(jù)過往病人的飲食習慣、血糖、血脂等記錄以及是否患有糖尿病的標簽,訓練AI學會“根據(jù)病人記錄判斷其是否會發(fā)作糖尿病”。有監(jiān)督學習的目標是讓計算機基于帶有標簽的輸入輸出對,學習一個從輸入到輸出的映射關系,使其能夠在未知數(shù)據(jù)中更好地進行預測或分類。常見的有監(jiān)督學習算法包括決策樹、樸素貝葉斯、支持向量機等。
無監(jiān)督學習主要針對未標注數(shù)據(jù)學習其潛在規(guī)律和模式。不同于有監(jiān)督學習,無監(jiān)督學習不需要依賴已知的數(shù)據(jù)標簽,而是通過算法來自行發(fā)現(xiàn)數(shù)據(jù)的內在結構和特征。例如在面對大量的基因數(shù)據(jù)時,可以使用無監(jiān)督學習讓計算機自動將功能相似的基因聚集在一起,幫助科學家理解基因的生物學功能而無須對基因功能預先標注。因此,無監(jiān)督學習的目標是學習數(shù)據(jù)內在的結構和模式,以適應對未知數(shù)據(jù)的判斷。常見的無監(jiān)督學習算法包括聚類、主成分分析等。
半監(jiān)督學習是有監(jiān)督學習和無監(jiān)督學習相結合的方法,旨在使用少量的標注數(shù)據(jù)和大量的未標注數(shù)據(jù)進行學習。其核心思想在于,首先使用小部分的標注數(shù)據(jù)基于有監(jiān)督學習訓練模型學習輸入到輸出的映射關系,然后使用大量的未標注數(shù)據(jù)去調優(yōu)模型,提高模型的泛化能力。半監(jiān)督學習一定程度上避免了數(shù)據(jù)和資源的浪費,同時也解決了有監(jiān)督學習下的模型泛化能力不強和無監(jiān)督學習下的模型不精確等問題。常見的半監(jiān)督學習算法包括轉導支持向量機、生成模型算法、自訓練算法等。
深度學習
深度學習是機器學習的一種技術,主要用到了人工神經網(wǎng)絡(artificial neural network, ANN)的新手段。傳統(tǒng)機器學習方法一般需要人工構造特征,而通過多層次的神經網(wǎng)絡模型,深度學習可以自動地從大量的數(shù)據(jù)中提取特征并學習隱藏在數(shù)據(jù)中的復雜模式,尤其可以節(jié)省人工構造生物醫(yī)學數(shù)據(jù)特征的過程。根據(jù)不同的方法和策略,深度學習包括單神經網(wǎng)絡、多任務學習、混合模型、遷移學習等多種模式。
單神經網(wǎng)絡模式是指在數(shù)據(jù)建模時僅使用一種神經網(wǎng)絡模型。常見的神經網(wǎng)絡包括卷積神經網(wǎng)絡(convolutional neural network, CNN)和循環(huán)神經網(wǎng)絡(recurrent neural network, RNN)。CNN主要由輸入層、嵌入層、卷積層、池化層、全連接層和輸出層等構件組成,其核心思想在于利用多層次卷積操作來處理數(shù)據(jù)。類似人腦在面對視覺信息時對不同特征的識別,卷積操作是層層遞進,由低向高的過程,最后實現(xiàn)對數(shù)據(jù)特征的提取,如識別圖像。CNN在生物醫(yī)學中常被用于醫(yī)學圖像分析處理,如圖像分類、目標檢測等。RNN更擅長處理序列型數(shù)據(jù)。在對序列數(shù)據(jù)建模時,RNN引入了隱藏狀態(tài)設置來建立前后數(shù)據(jù)之間的依賴關系,因而可以有效利用長距離之前的信息,達到“記憶”的效果。這使得RNN能夠隨著時間推移捕捉數(shù)據(jù)中的長期依賴關系,可用于處理生物醫(yī)學中的時序數(shù)據(jù),如心電圖、腦電圖等,輔助疾病狀態(tài)的識別和預測。
多任務學習采用了歸納學習的思想。在面對某一任務可以分解為多項子任務的場景時,可以訓練模型同時適應多個子任務,模型在子任務之間通過“共享經驗”來整合學習成果,例如訓練AI自動從生物醫(yī)學文本中識別基因、蛋白質、疾病。首先在3個對應不同概念的數(shù)據(jù)集上訓練AI分別識別基因、蛋白質、疾病,通過在3個任務間共享特征來使模型達到“經驗共享”的效果,從而實現(xiàn)模型對3種概念的同時識別。通過共享特征的學習,多任務學習模式可以充分利用多個數(shù)據(jù)集,有助于提升模型的泛化能力并減少數(shù)據(jù)和計算資源的消耗。
混合模型是指對于同一任務使用多種模型共同參與,旨在充分利用不同模型對同一任務的不同優(yōu)勢,從而構建性能更強的模型。如在基于醫(yī)學圖像的臨床診斷中,可以將深度學習和傳統(tǒng)機器學習模型相結合。首先基于CNN分析醫(yī)學圖像并提取特征,然后運用傳統(tǒng)的機器學習算法(如支持向量機)根據(jù)醫(yī)學圖像的特征進行疾病分類,實現(xiàn)自動診斷。
遷移學習是一種將一個領域或任務中學到的知識或模式應用在另一個相關領域以解決目標問題的方法[2]。其核心思想在于模型學習到的特征或模式具有泛用性,可以跨任務或跨領域使用。遷移學習通常需要在源域數(shù)據(jù)中(如大量的生物醫(yī)學文本)對模型進行預訓練,然后將其轉移至目標任務場景(如生物醫(yī)學關系抽取任務)進行微調。微調旨在使用小場景中的少量數(shù)據(jù)更新源模型的參數(shù),使其更好地適應目標任務。在復雜的生物醫(yī)學研究中,遷移學習的使用可以極大地節(jié)省研究人員從頭至尾訓練新模型的時間精力。
預訓練模型與大模型
預訓練模型是遷移學習應用的經典代表,也是更為高效的解決方案。預訓練模型是指在大規(guī)模未被標記的數(shù)據(jù)上進行訓練的語言模型。預訓練過程中,模型能夠自動學習數(shù)據(jù)中的上下文信息、結構特征以及豐富的知識表示。通過將預訓練中捕獲的知識儲存在巨大的參數(shù)中,針對特定任務場景進行微調,這些被儲存的知識可以使各種下游任務受益。當下生物醫(yī)學領域較為流行的預訓練模型包括BioBERT、MedBERT、BioGPT、PubMedGPT等。生物醫(yī)學預訓練模型能夠使計算機更好地理解生物醫(yī)學文本,在將文本映射為向量表示的同時能夠保留其生物醫(yī)學語義,為生物醫(yī)學領域的命名實體識別、關系抽取等自然語言處理任務提供了有力的基礎。
預訓練模型的使用極大地減少了對特定任務的訓練數(shù)據(jù)需求。對于特定任務,使用相對較少的標注數(shù)據(jù)對預訓練模型進行微調即可使模型適應具體任務,一定程度上也緩解了生物醫(yī)學領域標記數(shù)據(jù)缺失問題,減少了數(shù)據(jù)構建成本。
大模型則是“知識儲備”更大的預訓練模型。與傳統(tǒng)預訓練模型相比,大模型使用的訓練數(shù)據(jù)更多、訓練方法更優(yōu),模型的參數(shù)量更大,可處理的任務更加復雜。2023年,以ChatGPT為代表的人工智能大語言模型(large language model, LLM)在各行各業(yè)的測試中取得了全新的突破,展現(xiàn)出了大模型作為新一代人工智能載體的潛力。
大模型最先在內容生成和對話方面表現(xiàn)出潛力。如ChatGPT這樣的大模型其訓練數(shù)據(jù)涵蓋了多個領域,幾乎可以回答或解決各種常規(guī)問題。在經過龐大且豐富的數(shù)據(jù)預訓練后,大模型具備了強大的自然語言理解能力和學習能力,能夠以對話的形式按照給定指令執(zhí)行任務。如輸入一段文本讓其提取生物醫(yī)學關系。由于訓練語料的開放性,大模型幾乎可以執(zhí)行各種任務,但對于專業(yè)性極強的領域(如生物醫(yī)學),通用大模型可能效果不足。為了應對生物醫(yī)學領域的任務(如生物醫(yī)學數(shù)據(jù)自動標注),一方面可以通過提示工程的手段,向大模型提示若干生物醫(yī)學數(shù)據(jù)標注示例(如從一段生物醫(yī)學文本中識別疾病、基因等實體),讓大模型領會生物醫(yī)學數(shù)據(jù)標注的“任務要領”,以此來適應目標任務,完成大模型的領域遷移應用;另一方面可以基于生物醫(yī)學領域的語料數(shù)據(jù)訓練一個生物醫(yī)學大模型來適應領域任務,如基于生物醫(yī)學文獻訓練的大模型PMC-LLaMA[3]。前者可以通過設計優(yōu)質的提示來提升模型表現(xiàn),后者一般需要投入較大成本才能實現(xiàn),對數(shù)據(jù)質量和硬件都有一定的要求。
大模型背后豐富的訓練數(shù)據(jù)使其具有龐大的“知識儲備”。但大模型在回答問題時,答案很大程度上取決于訓練所使用的數(shù)據(jù)。對于訓練數(shù)據(jù)之外的問題,模型雖然能夠根據(jù)“已經掌握的知識”給出答案,但答案可能并不可靠。因此,在面對快速更新的生物醫(yī)學問題時,大模型需要被“投喂”新生物醫(yī)學知識。微調便是一種向模型補充新知識的方法,但大模型參數(shù)量巨大,微調成本一般較高。
大模型的又一優(yōu)勢在于能根據(jù)給定的上下文信息進行學習,并結合問題生成相應的解釋,因此可以通過引入外部知識作為新知識補充。可實時更新的外部知識庫(如生物醫(yī)學文獻數(shù)據(jù)庫等)可以用作上下文相關信息來優(yōu)化模型表現(xiàn)。這種方式下,大模型首先會根據(jù)問題特點在知識庫中進行相關知識檢索,通過對相關知識和目標問題進行分析,從而生成更好的回答[4]。故此,大模型結合外部知識庫的模式在應對知識更新較快的生物醫(yī)學場景時具有極大的潛能。
不斷迭代發(fā)展的AI展現(xiàn)出了強大的自動學習和推理能力。對于學科復雜的生物醫(yī)學領域,AI的應用極大地減輕了科學家處理海量生物醫(yī)學數(shù)據(jù)的負擔,越來越多的研究團隊基于AI技術對數(shù)據(jù)進行分析利用,如較為成熟的組學數(shù)據(jù)分析、醫(yī)學圖像分析、文獻挖掘等。
AI應用于組學數(shù)據(jù)分析
隨著高通量基因測序技術的不斷進步,基因測序產生的大量組學數(shù)據(jù)需要分析。組學數(shù)據(jù)分析對疾病分類、藥物作用預測、基因表達過程預測等研究突破至關重要。AI技術的應用為高效的組學數(shù)據(jù)分析提供了有力支撐。
在AI技術的幫助下,科學家可以根據(jù)基因轉錄組學數(shù)據(jù)推斷藥物-靶標之間的相互作用。研究者整理了藥物相關的基因表達數(shù)據(jù)庫,基于含有2000個組成單元的DNN模型進行訓練,并對數(shù)據(jù)進行了約200倍的降維。經過訓練后的DNN模型能夠識別出患者樣本間的差異,進而預測藥物-靶標的作用差異,展現(xiàn)了AI在基于基因組數(shù)據(jù)預測藥物靶標作用中的潛力[5]。
除了基因組數(shù)據(jù),蛋白質功能和結構也是科學家關注的方向之一,基于蛋白質序列預測蛋白質功能和結構對推動生物學發(fā)展具有關鍵意義。在此背景下,DeepMind基于大規(guī)模蛋白質序列和結構數(shù)據(jù)訓練了蛋白質結構預測模型AlphaFold2。在無參照結構的情況下,AlphaFold2模型能夠準確預測蛋白質結構,并在第14次蛋白質結構預測關鍵評估(CASP14)中取得了優(yōu)異的成績。
AI應用于生物醫(yī)學文獻挖掘
生物醫(yī)學文獻挖掘旨在基于海量文獻獲取有用信息指導科學研究?,F(xiàn)今可以通過AI技術從海量生物醫(yī)學文獻中自動識別、提取潛在的科研線索來輔助科研實踐,如經典的潛在藥物發(fā)現(xiàn)研究等。
藥物發(fā)現(xiàn)旨在識別潛在的治療疾病的新藥物。SemaTyP是一項基于知識圖譜和機器學習方法發(fā)現(xiàn)候選藥物的工作[6]。該工作首先使用關系抽取工具從生物醫(yī)學文獻中提取生物醫(yī)學關系三元組構建知識圖譜(SemKG),通過對知識圖譜中“藥物—靶點—疾病”的路徑信息進行建模,訓練AI模型預測藥物、靶點、疾病之間的關系。結果表明,SemaTyP成功預測出了疾病對應的潛在藥物和相應靶點。已知睪酮和ap22408可用于治療骨質疏松癥,而在SemaTyP的預測結果中,這兩種藥物分別位列第一和第三。此外,SemaTyP還預測出了尚未發(fā)現(xiàn)的藥物靶點,例如阿司匹林可能通過作用于淋巴細胞來治療心血管疾病;特立蘭卡可能通過作用于肌動蛋白來治療心律失常等,預測結論均對后續(xù)藥物靶點研究具有啟發(fā)意義。
AI應用于醫(yī)學圖像分析
組學數(shù)據(jù)分析和文獻挖掘分析對生物醫(yī)學科學研究具有指導意義。而在臨床醫(yī)學中,醫(yī)學圖像則是臨床診斷和疾病治療的重要依據(jù),同時醫(yī)學圖像分析也是AI在生物醫(yī)學領域的重要應用之一。常見的醫(yī)學圖像包括X射線、磁共振成像、超聲成像等,這些圖像直觀地反映了人體內部結構、組織和病理變化狀態(tài)等。AI技術的應用促進了對醫(yī)學圖像的自動分析,極大地提高了診斷效率。
以黃斑為中心的視網(wǎng)膜眼底圖像可用于篩查潛在的威脅視力的疾病,包括糖尿病視網(wǎng)膜病變和青光眼等。為了輔助臨床自動篩選異常的眼底視網(wǎng)膜圖像,研究者基于深度學習技術開發(fā)了AI模型。通過對10萬多張圖像超30萬個讀數(shù)和外部數(shù)據(jù)集的出血、硬性滲出物、黃斑裂孔等12個指標進行測試,并與眼科專業(yè)的檢查結果進行對比,AI模型成功實現(xiàn)了對黃斑中心視網(wǎng)膜眼底圖像的準確分類,推動了臨床視網(wǎng)膜眼底圖像的自動篩查應用[7]。
除了自動分析醫(yī)學圖像輔助診斷,為了應對精準醫(yī)療的需求,AI還可基于影像信息預測疾病可能病程、指導診療過程。研究人員基于14 036張手部X光影像,使用深度學習技術開發(fā)了一個手部X光片骨齡預測模型[8]。在200例測試集樣本中,該AI模型的預測結果與放射科專家預測結果平均差值為0歲,平均絕對誤差為0.50歲,均方根差為0.63歲,表現(xiàn)出了在預測骨齡應用中與專家水平相當?shù)男阅堋?h3>展 望
當前,新一代人工智能技術,特別是以大模型為核心的新方法,正在以更加智能的方式推進生物醫(yī)學研究。這些技術在自動診斷、醫(yī)學問答、藥物研發(fā)等領域展現(xiàn)出巨大潛力。然而,AI技術的應用不僅為生物醫(yī)學研究帶來機遇,同時也引入了新的挑戰(zhàn)。
從數(shù)據(jù)角度看,AI技術在處理和分析海量數(shù)據(jù)方面具有優(yōu)勢,而AI的成功應用往往依賴于高質量數(shù)據(jù)。在生物醫(yī)學領域,數(shù)據(jù)具有專業(yè)性強、多樣且復雜的特點。因此,高質量數(shù)據(jù)的獲取需要多方努力。在數(shù)據(jù)收集方面,應研發(fā)或升級數(shù)據(jù)采集工具以提高數(shù)據(jù)的可靠性;在數(shù)據(jù)標注方面,需加強標注人員的專業(yè)知識培訓和標注工具的精準度;對于多源數(shù)據(jù)整合,需要持續(xù)開發(fā)有效的整合和標準化策略,以提升AI性能。
AI模型的可解釋性對生物醫(yī)學決策至關重要。雖然先進的AI算法在處理生物醫(yī)學問題中展現(xiàn)出高準確性和強預測能力,但其黑盒運作機制使AI模型在解釋方面存在不足。未來,通過增強AI模型決策過程的可視化,可以幫助科研人員理解和信任AI;AI研究人員和生物醫(yī)學科學家還可通過雙向深入?yún)⑴c,以確保AI技術與科學應用的緊密耦合。此外,研發(fā)更加透明和可解釋的AI模型,以進一步增強AI的可信度也尤為必要。目前,可解釋AI的相關研究正逐漸開展,隨著研究的不斷深入,生物醫(yī)學領域的AI可解釋時代終會到來。
[1]羅錦釗, 孫玉龍, 錢增志, 等. 人工智能大模型綜述及展望. 無線電工程, 2023, 53(11): 2461-2472.
[2]Pan S J, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering, 2009, 22(10): 1345-1359.
[3]Wu C, Zhang X, Zhang Y, et al. Pmc-llama: further finetuning llama on medical papers. arXiv preprint arXiv: 2304. 2023, 14454.
[4]Gao Y, Xiong Y, Gao X, et al. Retrieval-augmented generation for large language models: A Survey. arXiv preprint arXiv: 2312. 2023, 10997.
[5]Xie L, He S, Song X, et al. Deep learning-based transcriptome data classification for drug-target interaction prediction. BMC Genomics. 2018, 19: 93-102.
[6]Sang S, Yang Z, Wang L, et al. SemaTyP: a knowledge graph based literature mining method for drug discovery. BMC Bioinformatics, 2018, 19: 1-11.
[7]Son J, Shin J Y, Kim H D, et al. Development and validation of deep learning models for screening multiple abnormal findings in retinal fundus images. Ophthalmology, 2020, 127(1): 85-94.
[8]Larson D B, Chen M C, Lungren M P, et al. Performance of a deeplearning neural network model in assessing skeletal maturity on pediatric hand radiographs. Radiology, 2018, 287(1): 313-322.
關鍵詞:人工智能 生物醫(yī)學大數(shù)據(jù) 自動分析 預測 ■