編譯 陸默
機器學(xué)習(xí)可以對癌癥照片、腫瘤病理切片和基因組進(jìn)行分析。如今,科學(xué)家正準(zhǔn)備將這些信息整合到癌癥超級模型中。
每個癌癥患者都在思考的一個問題是:我還能活多久?基因組學(xué)家邁克爾·斯奈德(Michael Snyder)希望他能找到答案。
目前,所有醫(yī)生能做的就是將患有類似癌癥的患者分組,然后對他們和其他組患者的相同藥物反應(yīng)或預(yù)后進(jìn)行評估,但目前的分組方法粗略而不完善,而且往往都只是基于人工收集的數(shù)據(jù)。
斯坦福大學(xué)基因組學(xué)和個體化醫(yī)學(xué)中心主任斯奈德指出:“病理學(xué)家根據(jù)解讀圖像的結(jié)果來診斷病情的準(zhǔn)確率通常只有60%。”2013年,他和當(dāng)時的研究生余坤興(Kun-Hsing Yu,音譯)開始琢磨,人工智能是否能夠為醫(yī)生提供更準(zhǔn)確的預(yù)測。
余將組織學(xué)圖像連同病理學(xué)家確定的診斷一起輸入機器學(xué)習(xí)算法,訓(xùn)練它區(qū)分肺癌和正常組織,以及兩種不同類型肺癌之間的區(qū)別。然后輸入相關(guān)患者的生存數(shù)據(jù),讓系統(tǒng)了解這些信息與圖像之間的關(guān)系。最后,他在模型中補充了一些新的病理切片資料,并向AI提出了一個至關(guān)重要的問題:患者的存活時間。
計算機可以預(yù)測患者的生存期高于或低于某些特定癌癥的平均存活時間,這是病理學(xué)家很難做到的。計算機預(yù)測“效果出奇的好?!比缃袢喂疳t(yī)學(xué)院講師的余說道。
但是斯奈德和余認(rèn)為他們還可以做更多的事。斯奈德的實驗室也在研究生物組學(xué),所以他們決定向計算機提供的學(xué)習(xí)資料不僅只有組織病理切片資料,還提供了腫瘤轉(zhuǎn)錄組資料。結(jié)合這些數(shù)據(jù),該計算機模型對患者生存做出的預(yù)測甚至比單獨使用圖像或轉(zhuǎn)錄組資料更好,準(zhǔn)確率超過了80%。如今的病理學(xué)家通常根據(jù)組織顯微照片的視覺評估來進(jìn)行生存情況預(yù)測,通過顯微照片對腫瘤進(jìn)行評估分級,包括腫瘤的大小和嚴(yán)重程度,以及腫瘤進(jìn)一步生長和擴散的可能性。但這種腫瘤分級方法并不總能準(zhǔn)確預(yù)測生存情況。
斯奈德和余并不是唯一認(rèn)識到人工智能在分析癌癥相關(guān)數(shù)據(jù)集(包括圖像、生物組學(xué)以及兩者結(jié)合的數(shù)據(jù)集)方面威力的研究人員。盡管這些方法進(jìn)入臨床前還有很長的路要走,但快速做出準(zhǔn)確診斷,預(yù)測哪些治療方法對哪些患者最有效,甚至更準(zhǔn)確地預(yù)測生存情況,人工智能顯然在這些方面做得更好。
倫敦癌癥研究所的計算生物學(xué)家安德里亞·索托里瓦(Andrea Sottoriva)表示,目前其中一些應(yīng)用仍然還處于“科幻小說”的階段,索托里瓦正在用人工智能預(yù)測癌癥的演變以及選擇合適藥物治療特定腫瘤方面的研究。
在癌癥發(fā)展到一定程度之前,發(fā)現(xiàn)和治療癌癥是提高患者生存的關(guān)鍵。例如,早期發(fā)現(xiàn)宮頸癌可使患者生存5年的情況超過90%,醫(yī)生可以采取冷凍或切除位子宮頸轉(zhuǎn)化區(qū)頂端4毫米處癌前細(xì)胞等治療手段。然而一旦癌癥轉(zhuǎn)移,5年存活率就會下降到56%甚至更低。
癌癥早期治療在發(fā)達(dá)國家是很常見的做法,那里的婦女定期接受巴氏涂片檢查宮頸細(xì)胞異常,并檢測導(dǎo)致癌癥的人類乳頭瘤病毒。但發(fā)展中國家卻很少見這樣的癌癥篩選法。美國國家癌癥研究所流行病學(xué)家馬克·希夫曼(Mark Schiffman)指出一種更便宜的測試方法,即醫(yī)護(hù)人員在女性子宮頸上涂上醋酸,以尋找可能表明癌癥的白色區(qū)域,但“這種方法非常不準(zhǔn)確”,結(jié)果導(dǎo)致一些健康女性被誤診為癌癥而接受治療,而另一些人的癌前細(xì)胞卻可能漏檢,導(dǎo)致癌癥發(fā)展后需要采取更激進(jìn)的治療方法,如化療、放療或子宮切除術(shù)。
希夫曼和其他研究小組一直在嘗試尋找某種途徑,以讓醋酸篩選的結(jié)果更加準(zhǔn)確,例如,利用白光以外的其他光譜成像,希夫曼的團(tuán)隊從美國和哥斯達(dá)黎加的不同來源收集了數(shù)千張宮頸照片,其中包括醫(yī)療專業(yè)人員用陰道鏡或手機拍攝的照片。但是他已經(jīng)準(zhǔn)備放棄這種嘗試了。“我們無法讓它像其他測試方法那樣靈敏、準(zhǔn)確或重現(xiàn)真實情況?!?/p>
2017年底,比爾和梅林達(dá)·蓋茨基金會旗下的非營利組織全球友好(Global Good)組織也開始用希夫曼收集的圖像嘗試機器學(xué)習(xí),他們想知道,在醫(yī)生無法提供確切診斷的情況下,計算機是否能夠進(jìn)行準(zhǔn)確預(yù)測。
希夫曼與Global Good和其他合作者一起,利用一種叫作卷積神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法來分析宮頸圖像。算法目標(biāo)是識別圖像中的一些特征,例如,并排像素的相似度或差異度,以得出準(zhǔn)確診斷。一開始,機器的準(zhǔn)確性并不比巧合好多少。在分析了越來越多的圖像后,機器會對這些圖像的相似或差異特征進(jìn)行權(quán)衡,以幫助尋找最佳答案?!斑@是一個反復(fù)權(quán)衡的過程,直到它盡可能地接近答案?!毕7蚵忉屨f道。
研究小組從哥斯達(dá)黎加9 000多名婦女的宮頸圖像開始的這項研究歷時7年多時間。希夫曼還從這些婦女更準(zhǔn)確的篩查測試結(jié)果中,以及18年來有關(guān)癌癥前期或癌癥診斷的跟蹤隨訪的信息中收集了大量數(shù)據(jù)。研究人員使用了其中70%的完整數(shù)據(jù)集來訓(xùn)練模型,然后用剩下30%的圖像數(shù)據(jù)測試機器性能。機器學(xué)習(xí)預(yù)測在區(qū)分健康組織、癌癥前期和癌癥之間區(qū)別的出色表現(xiàn)令希夫曼難以置信,機器學(xué)習(xí)預(yù)測的準(zhǔn)確率達(dá)到了91%,相比之下,人類視覺檢查的準(zhǔn)確率僅為69%。希夫曼說:“我所知道的任何方法都做不到這樣的精確度?!敝八J(rèn)為機器也難免會出差錯。
有了擅長識別癌癥前期和癌癥的人工智能新工具,希夫曼希望開發(fā)低成本的宮頸癌篩查測試技術(shù),將手機式相機與基于機器的圖像分析結(jié)合起來。首先,他要利用世界各地數(shù)以萬計的手機子宮頸圖像來訓(xùn)練其算法。
希夫曼并不是唯一關(guān)注智能手機進(jìn)行癌癥診斷的人。皮膚損傷可能會癌變,也可能是良性的,因為它就在表面,任何人都可以給它拍照。斯坦福大學(xué)的研究人員建立了一個包含近13萬張皮膚病變照片的數(shù)據(jù)庫,并利用它來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),區(qū)分良性腫塊和三種不同惡性病變之間的區(qū)別。機器學(xué)習(xí)的診斷準(zhǔn)確率通常至少可達(dá)到91%,機器算法的表現(xiàn)明顯優(yōu)于對同批照片進(jìn)行評估的21名皮膚科醫(yī)生的診斷結(jié)果。
建立癌癥預(yù)測模型的主要挑戰(zhàn)是要獲取足夠多高質(zhì)量的數(shù)據(jù)。斯坦福大學(xué)的研究小組在整理從斯坦福醫(yī)學(xué)院獲得和從網(wǎng)上收集到的皮膚癌圖片時發(fā)現(xiàn),這些圖片的拍攝角度、縮放比例和光線明暗參差不齊,研究人員還必須將圖片標(biāo)簽翻譯成各種語言,然后與皮膚科醫(yī)生合作,將這些皮膚病變分為2 000多個不同種類。
當(dāng)然,大多數(shù)癌癥診斷需要的不僅僅是智能手機攝像頭,觀察腫瘤中單個細(xì)胞還需要用到顯微鏡。余說,科學(xué)家希望盡可能多地收集到有關(guān)某個患者的臨床治療和治療效果的相關(guān)信息,以及基因組等分子數(shù)據(jù),但這很難獲得。“我們很少能找到這樣的一個病人,他擁有我們所想要的所有數(shù)據(jù)。”
正如斯奈德和余所發(fā)現(xiàn)的那樣,結(jié)合組學(xué)數(shù)據(jù)可提供關(guān)于某種特定癌癥所涉及的分子通路的信息,有助于識別癌癥類型、生存率或治療效果的可能反應(yīng)。在最初基于圖像的研究中,研究人員手中有2 186張肺組織切片圖片,來自人類病理學(xué)家對疾病的分類,以及患者存活時間數(shù)據(jù)。研究人員使用計算機算法從這些圖像中提取了近10 000個特征,比如細(xì)胞形狀或大小,他們用這些特征訓(xùn)練了幾種機器學(xué)習(xí)算法。
一種很有效的方法叫做“隨機森林”,它可以生成數(shù)百種決策樹,然后這些“決策樹”對答案進(jìn)行投票,根據(jù)票數(shù)多少做出決策,多者勝出。該算法在區(qū)分健康組織和兩種癌癥類型方面的準(zhǔn)確率超過75%,而且在預(yù)測存活率方面比單純基于癌癥分期的模型更準(zhǔn)確?!斑@已經(jīng)超出了目前病理學(xué)診斷的水平,”余說。
在后續(xù)研究中,研究人員運行經(jīng)過訓(xùn)練的圖像分析算法系統(tǒng),對538名肺癌患者的組織病理學(xué)切片資料進(jìn)行分析,然后又輸入了這些患者的轉(zhuǎn)錄組和蛋白質(zhì)組數(shù)據(jù),要求“隨機森林”對患者進(jìn)行癌癥分級。15個基因的表達(dá)水平預(yù)測癌癥分級的準(zhǔn)確率為80%,這些基因參與了DNA復(fù)制、細(xì)胞周期性調(diào)控和p53信號傳遞等過程,眾所周知,這些過程在癌癥生物學(xué)中扮演了重要角色。研究小組還確定了15種與細(xì)胞發(fā)育和癌癥信號有關(guān)的蛋白質(zhì)(并非由15個基因編碼的蛋白質(zhì)),其預(yù)測癌癥分級的準(zhǔn)確率為81%。雖然研究人員沒有將這一結(jié)果與人類醫(yī)生的診斷進(jìn)行比較,但一項病理學(xué)研究發(fā)現(xiàn),79%的肺腺癌診斷結(jié)果與人類醫(yī)生的診斷結(jié)果是一致的,表明機器和人類的診斷結(jié)果一樣準(zhǔn)確,但機器更強大,它們將目標(biāo)瞄準(zhǔn)了促進(jìn)癌癥發(fā)展的特定基因表達(dá)因子。
最后,研究人員要求計算機根據(jù)基因表達(dá)、癌癥分級和患者年齡來預(yù)測生存率。有了所有這些數(shù)據(jù),該模型的
鏈 接
人工智能診斷癌癥
科學(xué)家一直在使用圖像(圖像包括照片或病理切片)和生物組學(xué)這兩種主要形式的臨床數(shù)據(jù)來預(yù)測癌癥的結(jié)果。將越來越復(fù)雜的機器學(xué)習(xí)方法應(yīng)用于這些數(shù)據(jù)集,可以得到準(zhǔn)確的診斷和預(yù)后,甚至可以推斷腫瘤的進(jìn)化,如今科學(xué)家發(fā)現(xiàn)可以通過圖像預(yù)測組學(xué)數(shù)據(jù)。通過這兩個數(shù)據(jù)源的結(jié)合,研究人員可以更好地預(yù)測癌癥患者的生存期?;A(chǔ)生物學(xué)實驗室里目前正在開發(fā)的算法,最終能夠幫助醫(yī)生更好地選擇治療方案和預(yù)測患者生存期。準(zhǔn)確率達(dá)80%以上,能夠?qū)⒒颊哒_分為長期生存者和短期生存者,勝過人類病理學(xué)家、單獨使用轉(zhuǎn)錄物組或圖像技術(shù)。
受斯奈德和余的研究成果啟發(fā),紐約大學(xué)醫(yī)學(xué)院的亞里士多德·齊里戈斯(Aristotelis Tsirigos)和他的同事將1 634張健康或癌變肺組織的病理切片圖像資料與遺傳學(xué)聯(lián)系起來。僅憑這些圖像資料,他們設(shè)計開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)就能將腺癌與鱗狀細(xì)胞癌區(qū)分,準(zhǔn)確率約為97%。然后,研究小組將10個最常見肺腺癌突變基因的算法數(shù)據(jù)輸入計算機,計算機學(xué)會了從病理切片中預(yù)測其中6個突變的存在,準(zhǔn)確率從73%到86%不等。“測試效果非常好,作為最初成果,這還是非常令人興奮的?!彼魍欣锿哒f道,雖然他沒有參加這項研究。
當(dāng)然,醫(yī)生和科學(xué)家不需要通過成像來識別突變,其他一些測試方法更直接、更準(zhǔn)確,基因測序可提供近乎完美的癌癥基因組讀數(shù)。齊里戈斯解釋說,這項研究旨在證明基因和圖像特征之間的關(guān)系是可以預(yù)測的?,F(xiàn)在,他正在努力結(jié)合組織病理學(xué)和分子信息來預(yù)測患者的預(yù)后,正如余和斯奈德的團(tuán)隊所做的那樣。齊里戈斯說,只要輸入正確的數(shù)據(jù),這些方法應(yīng)該適用于任何癌癥類型。
即使沒有圖像資料,組學(xué)數(shù)據(jù)本身也很有用。例如,索托里瓦和他的同事正在利用基因組學(xué)來了解腫瘤的進(jìn)化。一個腫瘤通常由多個細(xì)胞系組成,這些細(xì)胞系都來自于同一個原始癌細(xì)胞。為有效治療癌癥,理解這種異質(zhì)性和腫瘤進(jìn)化的方式是很重要的。如果只對腫瘤的一部分進(jìn)行局部治療,癌癥還會復(fù)發(fā)?!斑@是一個生死攸關(guān)的問題?!睈鄱”ご髮W(xué)計算機科學(xué)家、腫瘤進(jìn)化研究合作者吉多·桑吉內(nèi)蒂(Guido Sanguinetti)說道。
通過對單個腫瘤的多個部分進(jìn)行采樣,研究人員可以推斷出癌癥的進(jìn)化路徑,這類似于對現(xiàn)代人類基因組進(jìn)行采樣以追溯種群起源的做法。來自不同患者的腫瘤,即使是同一種癌癥,其進(jìn)化樹也往往大相徑庭。桑吉內(nèi)蒂、索托里瓦和他的同事認(rèn)為,如果能夠找到癌癥傾向于遵循的共同途徑,腫瘤學(xué)家就可以利用這些信息對可能有類似疾病發(fā)展過程或?qū)λ幬镉蓄愃品磻?yīng)的患者進(jìn)行分類。
為找到共同的進(jìn)化樹,研究人員使用了一種叫作轉(zhuǎn)移學(xué)習(xí)的機器學(xué)習(xí)形式。桑吉內(nèi)蒂解釋說,該算法同時觀察患者基因組中的所有進(jìn)化樹,尋找它們之間的共享信息,以找到適合整個患者群體的解決方案。他們將這一機器學(xué)習(xí)工具稱為REVOLVER,意思是“癌癥的反復(fù)進(jìn)化”。在最初測試中,他們發(fā)明虛構(gòu)腫瘤進(jìn)化樹,將基于虛構(gòu)腫瘤進(jìn)化樹的REVOLVER基因組數(shù)據(jù)輸入到機器,然后它真的“吐出”了與虛構(gòu)腫瘤進(jìn)化相匹配的種系進(jìn)化樹。
為了驗證該工具對常見癌癥進(jìn)化的預(yù)測,研究人員將目標(biāo)轉(zhuǎn)向結(jié)直腸癌的惡性轉(zhuǎn)化,當(dāng)已知驅(qū)動基因的良性腺瘤積累突變時就會發(fā)生這種惡性轉(zhuǎn)化。研究人員輸入了9個良性腺瘤和10個惡性腫瘤的基因組REVOLVER,結(jié)果是:該模型繪制了匹配良性腺瘤向惡性腫瘤轉(zhuǎn)化的進(jìn)化樹。
然后,研究小組對腫瘤樣本進(jìn)行了分析,這些樣本的進(jìn)化過程尚不明確。在99名非小細(xì)胞肺癌患者的基因組中,REVOLVER根據(jù)腫瘤累積的突變序列確定了10名患者的潛在癌細(xì)胞集群。其中一些癌細(xì)胞集群的生存時間不足150天,而另一些則生存了更長時間。同樣,REVOLVER在50個乳腺癌腫瘤中發(fā)現(xiàn)了6個癌細(xì)胞集群,每個集群之間的生存時間有長有短,索托里瓦說:“之前我們都沒想到能發(fā)現(xiàn)這樣的癌細(xì)胞集群,這些結(jié)果告訴我們,癌癥的進(jìn)化是可以預(yù)測的。”
索托里瓦說,藥物治療可建立在這些可預(yù)測模式上。人工智能是強大的工具,可以幫助識別與臨床有關(guān)的模式。此外,通過從模型的輸入中選擇剔除特定數(shù)據(jù)片段,并觀察其準(zhǔn)確性是否會有所下降,生物信息學(xué)家可以弄清楚計算機是根據(jù)哪些特征來區(qū)分癌癥類型的,索托里瓦說道。
就目前來說,人工智能在癌癥研究中的應(yīng)用僅僅是開始。未來的算法可能不僅包括組學(xué)和圖像,還包括治療結(jié)果、治療進(jìn)展以及科學(xué)家可以得到的任何其他數(shù)據(jù)。
“歸根結(jié)底,處理像癌癥這樣的復(fù)雜疾病時,我們需要完整的信息?!彼鼓蔚抡f。