常月月,伍娟妮,王 童,吳海龍,俞汝勤
(湖南大學(xué) 化學(xué)生物傳感與計量學(xué)國家重點實驗室,湖南 長沙 410082)
Thomas S.Kuhn提出的科學(xué)研究“范式”(Paradigm)這一概念指的是常規(guī)科學(xué)研究所賴以運作的理論基礎(chǔ)和實踐規(guī)范[1]。圖靈獎得主Jim Gray拓展了Kuhn科學(xué)研究“范式”概念并提出科學(xué)研究的四種范式,分別是基于實驗歸納的實驗科學(xué)(Experimental science),基于數(shù)學(xué)理論模型推演的理論科學(xué)(Theoretical science),基于計算機(jī)仿真模擬的計算科學(xué)(Computational science)和以大數(shù)據(jù)知識發(fā)現(xiàn)為特征的數(shù)據(jù)密集型科學(xué)(Data-intensive science)[2],其演進(jìn)歷程如圖1所示。
圖1 科學(xué)研究范式的演進(jìn)歷程Fig.1 The evolution of scientific research paradigms
化學(xué)計量學(xué)和化學(xué)信息學(xué)的興起與上世紀(jì)中葉計算機(jī)開始普及時出現(xiàn)的“計算機(jī)化學(xué)”熱有關(guān)。化學(xué)計量學(xué)興起于分析化學(xué)家關(guān)注多變量數(shù)據(jù)的計算和分析問題,而化學(xué)信息學(xué)則開始于為了應(yīng)對分子模擬、系統(tǒng)合成規(guī)劃與化合物庫的設(shè)計和管理問題。故分析化學(xué)界較多學(xué)者接受“化學(xué)計量學(xué)”名稱,從事藥物設(shè)計等方面研究的學(xué)者則一直沿用“化學(xué)信息學(xué)”名稱。2004年舉行的第224屆美國化學(xué)會(ACS)全國會議上召開了題為“Chemometrics and Chemoinformatics”的研討會。美國有關(guān)大學(xué)(如Indiana University of Pennsylvania)的課程表中采用Chemometrics&Chemoinformatics這種混合名稱。中國化學(xué)會從第26屆(2008年)學(xué)術(shù)年會開始也將兩者同時并列使用。國家自然科學(xué)基金委化學(xué)部也曾在西安專門召開以兩者同時并列為主題的學(xué)科建設(shè)及研究隊伍發(fā)展的專題研討會。本文擬討論化學(xué)計量學(xué)與化學(xué)信息學(xué)在助推化學(xué)與分析測試科學(xué)研究范式轉(zhuǎn)換方面的作用,同時對第四范式的未來研究動向(主要以分子設(shè)計為例)進(jìn)行概述和展望。
人類最早的科學(xué)研究主要以記錄和描述自然現(xiàn)象為特征,是基于經(jīng)驗和實驗的科學(xué),稱為“實驗科學(xué)”(第一范式)。后來以伽利略為代表的文藝復(fù)興時期開啟了現(xiàn)代科學(xué)之門,是基于數(shù)學(xué)模型或歸納法的科學(xué),稱為“理論科學(xué)”(第二范式)。第一范式向第二范式的過渡標(biāo)志著現(xiàn)代科學(xué)的形成。實驗和數(shù)學(xué)化是現(xiàn)代科學(xué)形成的兩個最重要的條件??档略谧匀豢茖W(xué)形而上學(xué)序論中提出,只有能用數(shù)學(xué)表述的領(lǐng)域,才是真正的科學(xué)[3]??档略诖藭刑岬剑瘜W(xué)(指他所知的化學(xué))還無法實現(xiàn)數(shù)學(xué)化,不是“真正科學(xué)”,他將其歸為系統(tǒng)技藝或經(jīng)驗的、應(yīng)用的領(lǐng)域,而非數(shù)學(xué)化的邏輯科學(xué)。長久以來,康德關(guān)于化學(xué)的評價對化學(xué)的學(xué)科地位有深遠(yuǎn)影響,直到化學(xué)家用量子力學(xué)從頭計算的方法研究分子的結(jié)構(gòu)與性質(zhì),這種影響才逐漸消除。Dirac在1929年寫道:“對大部分物理和整個化學(xué)的數(shù)學(xué)理論所需的相關(guān)規(guī)律今天都已建立,困難是這些理論解決實際問題得出的公式太復(fù)雜難以求解”。而能協(xié)助求解的工具便是計算機(jī),正是基于計算機(jī)仿真模擬的計算科學(xué)即第三范式的發(fā)展,才協(xié)助化學(xué)和物理學(xué)一樣取得了現(xiàn)代科學(xué)的地位。但這只是化學(xué)中的少數(shù)分支的事情,多數(shù)分支如分析化學(xué)的數(shù)學(xué)化程度仍然不高。約一個世紀(jì)前,諾貝爾獎得主Ostwald指出,如果分析化學(xué)家將分析化學(xué)教學(xué)與實踐純粹當(dāng)作要求技巧與經(jīng)驗技藝,而不運用物理化學(xué)的實驗與理論,分析化學(xué)將注定只能占據(jù)一種從屬的學(xué)科地位[4]。在2015 Euroanalysis XVIII上,Valcarcel作《分析化學(xué)往何處去?》的大會報告時問道:“分析化學(xué)是不是一個次等學(xué)科?”答案是否定的。但實際上,分析化學(xué)的學(xué)科地位不高。從科學(xué)編史學(xué)的視角來考察,分析化學(xué)遇到的問題與化學(xué)學(xué)科整體在歷史上遇到康德的批評是同一個問題。Ostwald的論述促進(jìn)了分析化學(xué)家以四大平衡等為基石構(gòu)建以化學(xué)分析法為主體的經(jīng)典分析化學(xué)基本理論框架,這是一個以數(shù)學(xué)語言表述的基本理論。在20世紀(jì),分析化學(xué)逐步實現(xiàn)從經(jīng)典分析化學(xué)向儀器化與信息化的現(xiàn)代分析化學(xué)過渡,此進(jìn)程中經(jīng)典分析化學(xué)的基本理論框架經(jīng)歷重大調(diào)整。這又引發(fā)對分析化學(xué)有無系統(tǒng)嚴(yán)謹(jǐn)?shù)幕A(chǔ)理論的質(zhì)疑,有人進(jìn)而質(zhì)疑分析化學(xué)是否應(yīng)認(rèn)作一門獨立的化學(xué)二級學(xué)科。正是因痛感分析化學(xué)地位不高,高鴻先生急切期待分析化學(xué)與統(tǒng)計學(xué)、數(shù)學(xué)結(jié)合的年代早日到來。化學(xué)計量學(xué)的興起在這方面起了一定的積極作用。隨著化學(xué)和分析化學(xué)向著計算和基于數(shù)據(jù)的方向即第三/第四范式發(fā)展,最大的技術(shù)挑戰(zhàn)是如何更快速地捕獲、分析、建模及可視化信息,幫助化學(xué)工作者獲取有效信息并將信息轉(zhuǎn)化為知識。應(yīng)運而生的化學(xué)計量學(xué)和化學(xué)信息學(xué)大大推動了化學(xué)/分析化學(xué)的數(shù)學(xué)化及研究范式轉(zhuǎn)換。上世紀(jì)90年代,國家教委曾委托湖南大學(xué)舉辦化學(xué)計量學(xué)青年教師講習(xí)班,還應(yīng)新加坡國立大學(xué)及新加坡政府機(jī)構(gòu)的邀請舉辦類似化學(xué)計量學(xué)講習(xí)班,化學(xué)計量學(xué)在進(jìn)入分析化學(xué)教學(xué)方面取得了一定成效。在相關(guān)香山會議上,我們闡述了有關(guān)分析化學(xué)基礎(chǔ)理論的界定。在第12屆全國分析化學(xué)年會(2015,武漢)上,我們論述了現(xiàn)代分析化學(xué)基礎(chǔ)理論問題,包括三個層次的基礎(chǔ)理論,分析化學(xué)作為化學(xué)表征與量測的科學(xué),化學(xué)計量學(xué)作為化學(xué)量測的基礎(chǔ)理論與方法學(xué),包含分析信息理論、采樣理論、多元與高階校正理論、過程及在線監(jiān)測理論、分辨與識別理論、分析實驗設(shè)計與優(yōu)化等理論框架[5-6]。
運用第一范式和第二范式去驗證理論的難度和成本越來越高,有些復(fù)雜現(xiàn)象甚至無法驗證,科學(xué)研究開始顯得力不從心。隨著計算機(jī)廣泛用于各學(xué)科,推動科學(xué)研究進(jìn)入第三范式(即計算科學(xué)階段),人們可以通過模擬仿真,推演出越來越多復(fù)雜的現(xiàn)象。模擬仿真和實驗獲得的數(shù)據(jù)都在增加,如何從中提取最有效的信息是亟需解決的難題。在此信息時代的背景下,化學(xué)計量學(xué)/化學(xué)信息學(xué)借助計算機(jī)不斷推進(jìn)化學(xué)和分析化學(xué)完善數(shù)學(xué)化,較好解決以上難題,也促進(jìn)化學(xué)和分析測試科學(xué)由第一范式向第二范式與第三范式同步轉(zhuǎn)換。數(shù)學(xué)化的另一個重要收獲是實現(xiàn)真正較徹底的綠色化目標(biāo)。在可持續(xù)發(fā)展大趨勢下,化學(xué)面臨嚴(yán)峻的綠色化挑戰(zhàn)。分析化學(xué)借助第三范式有條件實現(xiàn)真正較徹底的綠色化目標(biāo)?;瘜W(xué)計量學(xué)、自動化與微型化被列為分析化學(xué)綠色化的三大策略與手段[7]。化學(xué)計量學(xué)家和化學(xué)信息學(xué)家廣泛研究的內(nèi)容都是讓機(jī)器進(jìn)行數(shù)字計算操作,信息化的關(guān)鍵手段是機(jī)器即計算機(jī),是強(qiáng)有力的綠色化途徑?;瘜W(xué)計量學(xué)在中國的發(fā)展與不同化學(xué)領(lǐng)域的研究工作密切相關(guān),早期的學(xué)者包括張懋森教授(分析化學(xué)領(lǐng)域)、許志宏教授(化學(xué)工程領(lǐng)域)和陳念貽教授(物理化學(xué)領(lǐng)域)等都做了有關(guān)化學(xué)計量學(xué)研究[8-10]。2018年,Journal of Chemometrics雜志曾出版《Chemometrics in China》特刊,從某種意義來說,這是對化學(xué)計量學(xué)在中國發(fā)展的肯定。該??埩嗽S青松教授(數(shù)學(xué)和統(tǒng)計學(xué)領(lǐng)域)、方開泰教授(數(shù)學(xué)領(lǐng)域,均勻設(shè)計表開創(chuàng)者)、陸文聰教授(材料科學(xué)領(lǐng)域)、許祿教授、邵學(xué)廣教授、李華教授和陳增萍教授(分析化學(xué)領(lǐng)域)等學(xué)者從不同的角度論述了有關(guān)化學(xué)計量學(xué)研究內(nèi)容及其發(fā)展[11-16]?;瘜W(xué)領(lǐng)域涉及的模式識別、化學(xué)成像分析技術(shù)、傳感器陣列分析、數(shù)學(xué)分離、張量分析和定量構(gòu)效關(guān)系等均借助計算機(jī)實現(xiàn)[17-18],國內(nèi)外的相關(guān)書籍及綜述證明了以上內(nèi)容仍是第三范式的研究熱點[18-24]?,F(xiàn)以我們在以上領(lǐng)域所做的部分工作為例進(jìn)行簡要的討論。
主成分分析(PCA)是一種降維方法,使少數(shù)幾個新變量盡可能多的表達(dá)原變量的數(shù)據(jù)特征而不丟失信息。偏最小二乘法(PLS)主要通過投影將預(yù)測變量和觀測變量投影到一個新的空間,尋找線性回歸模型。PCA和PLS具有很大優(yōu)勢,但不能很好地處理非線性等問題。本課題組針對以上算法進(jìn)行研究并提出了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的非線性主成分分析[25]、移動窗口偏最小二乘分析等改進(jìn)算法[26-30]。
多維校正理論在分析測試科學(xué)中發(fā)揮重要作用,也是目前化學(xué)計量學(xué)和化學(xué)信息學(xué)的研究熱點[17],其處理實驗獲得的小樣本數(shù)據(jù)很有優(yōu)勢。針對經(jīng)典雙線性分解旋轉(zhuǎn)不確定性和存在未知干擾的復(fù)雜體系難以直接定量的問題,只能借助高階算法才能獲得有化學(xué)意義的正確解。本小組用三線性分解代替雙線性分解,可直接在未知干擾共存的情況下提供具有化學(xué)意義的唯一解,稱為“二階優(yōu)勢”[31]。目前存在的二階校正算法可歸納為迭代類算法、非迭代類算法以及基于殘差雙線性求解算法三大類別。非迭代類算法和基于殘差的多線性算法的理論及優(yōu)缺點可參看本小組已發(fā)表的綜述[32-38]。迭代類算法是基于最小二乘(模)原理對模型解析,可得到具有清晰物理或化學(xué)意義的相對唯一解,代表性算法有平行因子分析(PARAFAC)等,但PARAFAC存在收斂速度慢,對化學(xué)秩敏感,二因子退化等問題。為解決以上問題,本小組分別提出交替三線性分解算法(ATLD)[39]、交替同時對角化算法(ASD)[40]、偽交替最小二乘算法(PALS)[41]。Malinowski教授曾在專著“Factor Analysis in Chemistry”中對這三種算法給予了高度評價[42]。針對數(shù)據(jù)類型及解析中遇到的問題,又提出了一系列二階校正算法集[43-58]。隨著分析儀器的多樣化及體系的復(fù)雜化,我們向更高維探索,并提出相應(yīng)的更高階校正算法[57,59-67]。二階及更高階校正算法列于表1。這些算法各有優(yōu)缺點,應(yīng)用時需根據(jù)實際情況選擇合適的算法。我們曾從微分特性的角度對某些三線性分解算法深入分析,找到算法所具特點的數(shù)學(xué)依據(jù),為選擇和設(shè)計算法提供理論支持[68]。另外,我們也從實際應(yīng)用及數(shù)值模擬的角度對部分算法進(jìn)行比較[69-71]。理論上維數(shù)越高,所含潛在信息越豐富,預(yù)測結(jié)果更加準(zhǔn)確。相關(guān)文獻(xiàn)也證明了使用三階及更高階校正算法分析時,除具有“二階優(yōu)勢”外,還有一些額外的優(yōu)勢,如更優(yōu)異的分析品質(zhì)因子參數(shù)、更準(zhǔn)確的定性定量結(jié)果和更強(qiáng)的抗共線性能力等[32,72-73]。
表1 本課題組多維校正理論研究的代表性算法Table 1 Representative algorithms for multi-way calibration theory research in our research group
支持向量機(jī)(SVM)主要思想是基于結(jié)構(gòu)風(fēng)險最小化原理構(gòu)建最優(yōu)分割超平面將兩類模式盡可能分開。非線性和高維數(shù)據(jù)分析在小樣本方面具有優(yōu)勢,但對大樣本和多分類問題存在困難,因此我們提出了概率密度函數(shù)結(jié)合局部核變換支持向量機(jī)[74]、分割區(qū)間純度的分塊核變換支持向量機(jī)等[75-79]解決上述問題。人工神經(jīng)網(wǎng)絡(luò)是將構(gòu)成大腦的神經(jīng)元及其集合抽象為數(shù)學(xué)模型形成網(wǎng)絡(luò),具有自適應(yīng)和自學(xué)習(xí)等能力。但存在過擬合、局部最優(yōu)和收斂慢等問題,從而影響其泛化能力。本小組通過引入混沌概念,利用Logistic映射的特性使遺傳算法在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的進(jìn)程中盡可能保持搜索空間的群體多樣性,避免過擬合等問題出現(xiàn)[80-82],此研究使我們深切體會開創(chuàng)第四范式的由傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)演進(jìn)為深度學(xué)習(xí)(見下節(jié))來之何等不易。緊接著,我們又提出基于支持向量機(jī)學(xué)習(xí)的多層前向網(wǎng)絡(luò)等改進(jìn)算法[83-86]。另外,我們還對樹搜索、集成算法進(jìn)行研究,分別提出單核變換分割區(qū)間純度分類回歸樹[87-89]等算法。智能優(yōu)化算法包括受物理學(xué)啟發(fā)的算法如模擬退火算法,也包括受生物學(xué)啟發(fā)的方法,如遺傳算法、進(jìn)化策略及粒子群優(yōu)化算法等。我們將上述優(yōu)化算法用于多元回歸和偏最小二乘等算法中作為變量選擇或前處理手段,分別提出了模擬退火結(jié)合K-means聚類[90]、改進(jìn)的整數(shù)遺傳算法[76,85,88,91-99]等。
多維校正方面的基礎(chǔ)研究已在前面論述,在實際應(yīng)用層面,本小組曾與創(chuàng)建均勻設(shè)計的課題組開展合作研究[100]。在數(shù)據(jù)預(yù)處理、非線性因素消除方面,針對不同的數(shù)據(jù),我們提出了雙向切除PARAFAC扣除散射干擾[101],正交光譜信號投影消除背景漂移[102],抽象子空間差異度策略進(jìn)行時間漂移校正[103]等策略。對三線性成分模型的研究發(fā)現(xiàn)其存在內(nèi)在循環(huán)對稱性,這是多線性算法向更高維算法擴(kuò)展的重要基石[72]。本小組還分別從兩個角度進(jìn)行化學(xué)秩估計的研究[38]。高階分析儀器結(jié)合多維校正方法以“數(shù)學(xué)分離”代替“物理/化學(xué)”分離,具有省時、通用性強(qiáng)的優(yōu)勢,越來越受到人們的青睞。此方法已在食品、環(huán)境、醫(yī)藥、化妝品、生物和農(nóng)藥等領(lǐng)域獲得大量應(yīng)用,具體可見已發(fā)表的綜述[32-38]。
模式識別是化學(xué)計量學(xué)和化學(xué)信息學(xué)一個非常重要的研究領(lǐng)域[17],根據(jù)樣本有無先驗知識(類別標(biāo)簽),其主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。我們對其進(jìn)行了較深入的理論和應(yīng)用研究,所提部分算法列于表2,應(yīng)用涵蓋了中藥材產(chǎn)地溯源和質(zhì)量判別、食品、煙草和生物化學(xué)等領(lǐng)域[25-28,74-76,87,90-91,104-108],具有一定的實用價值。以所提算法用于高維微陣列數(shù)據(jù)集為例作簡要敘述。基因表達(dá)譜對從基因角度分析微陣列數(shù)據(jù)至關(guān)重要。分類決策樹(CART)對微陣列基因表達(dá)數(shù)據(jù)(通常維數(shù)高、樣本少)建模時易陷入過擬合。簡單的解決辦法是識別重要基因,剔除無關(guān)的基因。針對現(xiàn)有方法難以識別組內(nèi)樣本中多模態(tài)表達(dá)的顯著基因系統(tǒng)性差異的問題,我們通過基于分割區(qū)間純度的變量選擇方法識別出不同表達(dá)模式的顯著基因,然后進(jìn)行單峰變換,通過特征提取增強(qiáng)組內(nèi)同質(zhì)性和組間異質(zhì)性,為CART建模提供單峰特征變量。這種策略可提高CART對抗過擬合或欠擬合的性能。使用兩個高維微陣列數(shù)據(jù)集(癌癥數(shù)據(jù))檢驗所提算法的性能。結(jié)果表明,所提算法有更好的性能,該策略在微陣列數(shù)據(jù)分析中具有廣闊的前景。
表2 本課題組模式識別研究的代表性算法及應(yīng)用Table 2 Representative algorithms and applications of pattern recognition research in our research group
近年來,化學(xué)成像(CI)在分析化學(xué)領(lǐng)域獲得了越來越多的關(guān)注。光譜成像技術(shù)與化學(xué)計量學(xué)結(jié)合可提高數(shù)據(jù)分析的結(jié)果,實現(xiàn)圖像數(shù)據(jù)化[109]。基于CI的優(yōu)勢,早期我們構(gòu)建了空間導(dǎo)向凝聚法解析棕櫚氯霉素I、II晶型混合物的拉曼成像數(shù)據(jù)[110]。并運用此方法研究了不同組成比例的可互容和不可互容共混聚合物的拉曼成像數(shù)據(jù),分析了兩組分空間非均相分布[111]。
化學(xué)傳感器可利用識別元件和傳感器檢測和量化分子。為了克服單一傳感器選擇性不足的缺點并提高傳感器的測量精度,化學(xué)傳感器陣列被提出。化學(xué)計量學(xué)/化學(xué)信息學(xué)方法被用于解析傳感器陣列產(chǎn)生的數(shù)據(jù)并對氣體進(jìn)行分類,獲取定性定量信息。本課題組構(gòu)建了壓電晶體傳感器陣列結(jié)合化學(xué)計量學(xué)算法(如主成分分析、混沌遺傳神經(jīng)網(wǎng)絡(luò)等)分別對有機(jī)物官能團(tuán)、小分子脂肪醇同系物及其同分異構(gòu)體等進(jìn)行識別,該策略被應(yīng)用于酒類、軟飲料類、香水類和香煙類等樣品的分類識別[112-113]。此方法還可對乙醇蒸氣進(jìn)行定性定量分析[112]。
定量構(gòu)效關(guān)系(QSAR/QSPR)是化學(xué)計量學(xué)/化學(xué)信息學(xué)涉及化學(xué)的一個基礎(chǔ)性問題,主要是運用數(shù)理統(tǒng)計方法探究化合物的性質(zhì)與結(jié)構(gòu)之間的關(guān)系且選擇合適的數(shù)學(xué)模型概括這種關(guān)系,最終預(yù)測感興趣未知物的活性及指導(dǎo)某種新化合物的合成[17,97]。在QSAR研究中,模型的構(gòu)建是研究的關(guān)鍵,我們所發(fā)展的一系列算法列于表3。其中,混沌優(yōu)化訓(xùn)練神經(jīng)網(wǎng)絡(luò)方法被用于預(yù)測四面體及八面體鹵化物的振動頻率,還用于預(yù)測氫氯氟碳和氫氟碳化合物的大氣壽命,均獲得了預(yù)期結(jié)果[80-82]。QSAR應(yīng)用涵蓋了環(huán)境化學(xué)、生物化學(xué)、藥物化學(xué)等領(lǐng)域。以核酸適配體篩選研究為例,常用指數(shù)富集的配基系統(tǒng)進(jìn)化(SELEX)篩選核酸適配體,但存在篩選周期長、費用高,適配體與靶分子結(jié)合的分子基礎(chǔ)未被認(rèn)識,分子識別規(guī)律未被掌握等問題,制約了核酸適配體在臨床診治的應(yīng)用。針對以上問題,本小組利用Cell-SELEX技術(shù)篩選出以人肝癌細(xì)胞株為靶細(xì)胞株的候選核酸適配體序列,采用分子力場方法優(yōu)化分子結(jié)構(gòu),計算分子結(jié)構(gòu)參數(shù),二元Logical回歸分析結(jié)合主成分降維得到參數(shù)集,然后用粒子群優(yōu)化算法搜尋最佳SVM參數(shù)值(C,γ),最后進(jìn)行模型檢驗及親和性檢測。結(jié)果表明,新設(shè)計的8條“獲勝”序列與靶細(xì)胞親和性能優(yōu)異,解離常數(shù)值均在納摩級,說明所設(shè)計的篩選模型是成功的[114]。我們還用上述類似步驟建立人-反應(yīng)蛋白(CPR)結(jié)合的候選適配體富集水平和分類的模式識別方法,不同的是該工作利用改進(jìn)氧化石墨烯輔助免固定靶標(biāo)的SELEX技術(shù)得到CPR的候選適配體序列,使用SVM對其富集水平進(jìn)行預(yù)測,并采用系統(tǒng)聚類分析方法進(jìn)行分類,最后成功篩選出10條富集水平高且親和力強(qiáng)的序列[115]。
表3 本課題組定量構(gòu)效關(guān)系研究的代表性算法及應(yīng)用Table 3 Representative algorithms and applications of QSAR research in our research group
隨著數(shù)據(jù)的爆炸性增長,計算機(jī)不僅能做模擬仿真,更能分析數(shù)據(jù),學(xué)習(xí)潛在知識,得出理論。數(shù)據(jù)密集范式成為一個獨特的科學(xué)研究范式,被稱為第四范式。與假設(shè)驅(qū)動的范式相比,其根本區(qū)別表現(xiàn)為:傳統(tǒng)的科學(xué)研究先提出可能的理論,再搜集數(shù)據(jù),然后通過模型計算驗證假設(shè)。而數(shù)據(jù)密集型范式,則是先有大量的已知數(shù)據(jù),再通過計算得出之前未知的理論。數(shù)據(jù)是這個范式的核心,它與實驗、理論、模擬共同成為現(xiàn)代科學(xué)方法的統(tǒng)一體。
人工智能(Artificial intelligence,AI)、機(jī)器學(xué)習(xí)(Machine learning,ML)和深度學(xué)習(xí)(Deep learning,DL)是這個范式的三個重點關(guān)鍵詞,深度學(xué)習(xí)是關(guān)鍵核心。AI最開始的動機(jī)是讓機(jī)器獲得像人類一樣具有思考和推理機(jī)制的智能技術(shù),本文則泛指可以讓計算機(jī)通過圖靈測試的機(jī)器智能。機(jī)器學(xué)習(xí)作為AI的核心工具從數(shù)據(jù)中學(xué)習(xí)一般性的規(guī)律,并利用這些規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測,其對AI最重要的貢獻(xiàn)是把研究重心從人工賦予機(jī)器智能轉(zhuǎn)移到機(jī)器自行習(xí)得智能。AI從一開始就已作為化學(xué)計量學(xué)大綱中的組成部分,前文討論的第三范式中的諸多方法也都是機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)則是具有多個(通常大于2)隱藏層的神經(jīng)網(wǎng)絡(luò)。根據(jù)疊加層的不同有多層感知機(jī)(MLP)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、圖神經(jīng)網(wǎng)絡(luò)(GNN)、Transformer等[116]。當(dāng)然,任何強(qiáng)有力的AI工具均是源于人的創(chuàng)造。人的視覺系統(tǒng)每秒可接收108比特信息,遠(yuǎn)超過大腦將其完整處理所需算力。所幸我們的祖先在進(jìn)化過程中習(xí)得了將注意力集中于少部分急需處理的相關(guān)信息上的能力。上述Transformer正是以這種“注意力機(jī)制”為基礎(chǔ)構(gòu)建的深度學(xué)習(xí)工具。
前文所述監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)在實際應(yīng)用中曾取得了巨大成功,二者與強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)[117]并稱為機(jī)器學(xué)習(xí)的關(guān)鍵子集。由于監(jiān)督學(xué)習(xí)對手動標(biāo)簽的依賴和易受攻擊的缺點,自監(jiān)督學(xué)習(xí)(Self-supervised learning,SSL)應(yīng)運而生,根據(jù)LeCun的定義,自監(jiān)督學(xué)習(xí)是在獲取一個輸入后,隱藏該輸入的一部分作為標(biāo)簽,以此訓(xùn)練機(jī)器從可見部分預(yù)測被隱藏部分的算法[118]。
在眾多機(jī)器學(xué)習(xí)模型中,深度生成模型(Deep generative model,DGM)[119]學(xué)習(xí)數(shù)據(jù)的概率分布,提取特征后產(chǎn)生低維連續(xù)表示,并從學(xué)習(xí)的數(shù)據(jù)分布中采樣生成新數(shù)據(jù)。生成模型在圖像、文本、語音的生成中均表現(xiàn)出非凡效果,也為解決分子設(shè)計難題帶來了新思路,被認(rèn)為是最有前途的藥物設(shè)計方法之一。
使用深度學(xué)習(xí)算法解決分子計算及其相關(guān)領(lǐng)域的設(shè)計是一個積極發(fā)展的領(lǐng)域。我們預(yù)期以深度學(xué)習(xí)算法為代表的第四范式有可能給化學(xué)與分析測試學(xué)科的研究面貌帶來較大的變化。下面我們以逆向分子設(shè)計為例概要討論深度學(xué)習(xí)技術(shù)在三個主題中的應(yīng)用:數(shù)據(jù)驅(qū)動的分子表示、基于深度學(xué)習(xí)的QSAR和基于深度生成模型的分子逆設(shè)計。按傳統(tǒng)觀念可能認(rèn)為這些問題似乎超出了分析測試的范疇。我們在本文采用化學(xué)計量學(xué)與化學(xué)信息學(xué)統(tǒng)一的模式。分析化學(xué)家重視的數(shù)據(jù)分析與合成化學(xué)家重視的化合物結(jié)構(gòu)-性能建模其實對分析測試同等重要。例如,研究探尋用作新的分析試劑、新的傳感材料、新的熒光及發(fā)光材料的化合物的設(shè)計與合成,當(dāng)屬分析測試領(lǐng)域具有較高原創(chuàng)性的研究工作。
深度學(xué)習(xí)是第四范式的核心技術(shù),希望更深入了解的讀者可參考Murphy[120]或Ian[121]等著作。
分子建模首先面對的就是如何有效表示分子的問題。通常,可以把分子表示為:指紋、一維線性描述符、二維矩陣、三維圖形和點云等[122]。在生成與合成模型中,分子常被表示為以原子為節(jié)點,鍵為邊的無向圖。對分子圖進(jìn)行深度優(yōu)先遍歷(Depth-first search,DFS),即可得到另一個最流行的分子線性描述符—簡化的分子線性輸入系統(tǒng)(SMILES)。
SMILES類似于人類的自然語言,隨著深度學(xué)習(xí)在自然語言處理(NLP)領(lǐng)域的突破性發(fā)展,類比到分子領(lǐng)域,基于SMILES的生成與合成模型均取得了令人印象深刻的成功。特別是,同一個分子的SMILES,根據(jù)遍歷起點原子的不同而具有不同的序列,這種編碼的非唯一性使得基于SMILES的模型在需要數(shù)據(jù)增強(qiáng)時變得非常容易。另外,SMILES因簡潔、易讀、存儲量少而著名。但是,基于SMILES的生成與合成規(guī)劃模型,普遍存在自然語法有效,但不符合化學(xué)語法的錯誤字符串。同時,人們對SMILES模型在多大程度上能夠?qū)W習(xí)到有效的化學(xué)結(jié)構(gòu)仍在持續(xù)研究。
圖作為分子更自然的表述,大量的研究如GNN、GCN、GAT等方法探索了圖在分子學(xué)習(xí)任務(wù)中的杰出性能。特別是圖神經(jīng)網(wǎng)絡(luò)在生成分子時,可以明確的附加價鍵關(guān)系約束和其它化學(xué)規(guī)則,從而避免無效分子的問題。可是,目前比較常用的圖神經(jīng)網(wǎng)絡(luò)存在過度平滑、各向同性的消息傳遞以及數(shù)據(jù)同質(zhì)性假設(shè)等問題,在環(huán)結(jié)構(gòu)占很大比重的分子圖中,有時不能得到令人滿意的結(jié)果[123]。
經(jīng)典的分子描述符和分子指紋大多來源于人類專家,而自動特征提取是一個無需領(lǐng)域知識的過程,也是深度學(xué)習(xí)最顯著的優(yōu)勢之一。采用自監(jiān)督學(xué)習(xí)的方式自動學(xué)習(xí)特征,直接從觀察到的數(shù)據(jù)中提取緊湊且富有表現(xiàn)力的分子表示方法,是開展此方面探索的重要路徑。
前文討論了第三范式下的構(gòu)效關(guān)系研究。隨著深度學(xué)習(xí)特別是圖神經(jīng)網(wǎng)絡(luò)的快速進(jìn)展,構(gòu)效關(guān)系研究受到了新的關(guān)注,一方面可以解決經(jīng)典的QSAR問題,另一方面,也可以為目標(biāo)導(dǎo)向的分子生成模型提供可靠的反饋。
基于深度學(xué)習(xí)的QSAR模型的目的是自動識別輸入和輸出之間的復(fù)雜關(guān)系,使其比傳統(tǒng)機(jī)器學(xué)習(xí)算法更高效。例如,基于圖神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)框架MPNN[124],有可能實現(xiàn)直接從分子圖中學(xué)習(xí)分子特征,代替昂貴的DFT計算來預(yù)測分子的量子特性的目的。原子結(jié)構(gòu)的計算預(yù)測是物理學(xué)、化學(xué)、材料和生物學(xué)中長期存在的問題,力場或從頭算方法通過能量最小化確定結(jié)構(gòu),這要么是近似的,要么是計算要求高的。相比于基于規(guī)則和手工設(shè)計的啟發(fā)式方法,機(jī)器學(xué)習(xí)模型Graph-To-Structure(G2S)從預(yù)測的原子間距離重建3D原子坐標(biāo),從而繞過傳統(tǒng)的能量優(yōu)化方法,獲得了與傳統(tǒng)的結(jié)構(gòu)生成器性能相當(dāng)或更好的結(jié)果[125]。另有大量將不同深度學(xué)習(xí)技術(shù)應(yīng)用于經(jīng)典QSAR問題的模型出現(xiàn),如晶體結(jié)構(gòu)、分子動力學(xué)、ADMET,以及分子相互作用等的量子性質(zhì)、物化性質(zhì)、生物性質(zhì)的預(yù)測任務(wù)。
深度學(xué)習(xí)的發(fā)展給結(jié)構(gòu)性質(zhì)預(yù)測這個經(jīng)典問題帶來了新的研究方向,但是目前仍處于探索階段。最近,大規(guī)模量子化學(xué)計算、分子動力學(xué)模擬以及高通量實驗以前所未有的速度生成數(shù)據(jù)。相信有朝一日,足夠成功的模型可幫助解決自動化藥物發(fā)現(xiàn)或材料科學(xué)中具有挑戰(zhàn)性的化學(xué)搜索問題。
生成分子最簡單的方法是枚舉圖形、原子、鍵或片段的所有可能組合,然后根據(jù)QSAR模型進(jìn)行篩選,得到給定應(yīng)用條件的分子。與這種傳統(tǒng)的分子設(shè)計方法不同,常見的基于深度生成模型的分子設(shè)計一般從分子庫出發(fā)構(gòu)建深度神經(jīng)網(wǎng)絡(luò),以自監(jiān)督學(xué)習(xí)的模式得到預(yù)訓(xùn)練模型,再以遷移學(xué)習(xí)或強(qiáng)化學(xué)習(xí)的形式逼近目標(biāo)屬性。在預(yù)訓(xùn)練模型+強(qiáng)化學(xué)習(xí)的框架中,根據(jù)分子預(yù)測屬性給出反饋則是重要的一步,決定了模型最終是否能夠趨向目標(biāo)屬性。
另一種比較常用的架構(gòu)則是條件生成模型,其核心思想是給預(yù)訓(xùn)練模型添加約束條件。常見的條件模型有條件自動編碼器(CVAE)[126]和條件生成對抗網(wǎng)絡(luò)(CGAN)[127]。CVAE在編碼器得到的潛變量送入解碼器之前,添加約束條件,形成新的潛變量,送入解碼器。當(dāng)生成分子時,則先從正態(tài)分布采樣得到初值,然后添加約束條件,形成新向量進(jìn)入解碼器,則可得到受目標(biāo)條件約束的分子。CGAN的模型稍顯復(fù)雜,但添加約束條件的思想基本相同,不再贅述。
2016年出現(xiàn)了首個使用變分自動編碼器(VAE)生成化學(xué)結(jié)構(gòu)的模型[128],之后又有眾多的基于VAE的生成模型被陸續(xù)提出,該類模型可從連續(xù)的中間潛向量生成新分子,非常容易地擴(kuò)大了模型的探索空間。隨著GAN在圖像生成領(lǐng)域的成功,最近,GAN與強(qiáng)化學(xué)習(xí)相結(jié)合,生成具有特定期望性質(zhì)新分子的方案獲得了更多關(guān)注。如ORGAN[129]在GAN框架下增加了強(qiáng)化學(xué)習(xí)的獎勵機(jī)制,可以有效地調(diào)整生成分子的質(zhì)量和屬性。自編碼器和生成對抗網(wǎng)絡(luò)相結(jié)合的LatentGAN[130],生成器和判別器使用來自編碼器中間層的連續(xù)潛向量,有效避免了SMILES的離散問題。圖卷積策略網(wǎng)絡(luò)(GCPN)可生成100%有效的分子[131]。
基于SMILES的字符級循環(huán)神經(jīng)網(wǎng)絡(luò)CharRNN[132],僅用每層只有768個神經(jīng)元的3層LSTM,在150萬個分子的Zinc數(shù)據(jù)集上訓(xùn)練之后,在生成未包含在訓(xùn)練集中的新的有效字符串方面取得了出乎意料的領(lǐng)先優(yōu)勢。基于圖神經(jīng)網(wǎng)絡(luò)的MolecularRNN[133]可以產(chǎn)生100%結(jié)構(gòu)有效的分子。當(dāng)Transformer模型在自然語言處理和圖像識別領(lǐng)域取得驚人成績之后,已被應(yīng)用于分子生成模型中,是AI對化學(xué)建模產(chǎn)生較大影響的例證之一。由于Transformer的注意力機(jī)制,使得該類模型具有一定的可解釋性。
一些深度生成模型設(shè)計的分子也經(jīng)過了實驗驗證,最有名的當(dāng)屬Insilicon公司開發(fā)的分子生成模型GENTRL[134],僅用46 d即成功發(fā)現(xiàn)了高活性、高選擇性DDR1抑制劑。
深度生成模型毫無疑問會在今后目標(biāo)導(dǎo)向的分子設(shè)計中扮演越來越重要的角色,起到縮短周期降低成本的效果。與此同時,智能優(yōu)化算法如遺傳算法等依然活躍在分子生成領(lǐng)域,如模型Graph GA[135]和SMILES GA[136]仍能取得較好的成績。雖然最近在科研和企業(yè)界掀起了一股深度學(xué)習(xí)分子設(shè)計的熱潮,但是仍有許多懸而未決的問題有待于進(jìn)一步深入研究。
科學(xué)總是被數(shù)據(jù)和理論的相互作用所驅(qū)動,機(jī)器學(xué)習(xí)從20世紀(jì)80年代中期開始引領(lǐng)人工智能的發(fā)展,在某些特定領(lǐng)域取得了令人矚目的成果,但深度學(xué)習(xí)依然有其前提約束條件?;瘜W(xué)與自然科學(xué)的確定性曾經(jīng)在以符號、邏輯和規(guī)則為基礎(chǔ)的傳統(tǒng)人工智能時代推動了科學(xué)的發(fā)展,在深度學(xué)習(xí)年代,對技術(shù)能力的期望值和技術(shù)有限性之間的矛盾以及有關(guān)確定性與不確定性之間的矛盾將持續(xù)存在。今天人工智能系統(tǒng)的成功可以歸結(jié)為:大數(shù)據(jù)+大算力+強(qiáng)算法,其中數(shù)據(jù)本身可以提供對潛藏信息和知識的洞察力,但是并沒有完全掩蓋傳統(tǒng)人工智能的光芒:樹搜索、邏輯推理等仍具有非凡的效率。目前的化學(xué)計量學(xué)和化學(xué)信息學(xué)主要由第三范式主導(dǎo),但人工智能方法近年來取得了重大進(jìn)展,第四范式正在發(fā)揮越來越大的作用??偟膩碚f,四種范式并非孤立存在,也不是對前一范式的取代,而是相輔而行,彼此存在密切的聯(lián)系。隨著科研模式的發(fā)展,化學(xué)計量學(xué)/化學(xué)信息學(xué)也在不斷向前推進(jìn)。