亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        科研智能化新趨勢下知識服務的挑戰(zhàn)與機遇*

        2022-06-23 14:01:50孫蒙鴿黃雨馨張婧睿
        情報雜志 2022年6期
        關鍵詞:科學實驗模型

        孫蒙鴿 黃雨馨 韓 濤 張婧睿

        (1.中國科學院文獻情報中心 北京 100190;2.中國科學院大學經(jīng)濟與管理學院圖書情報與檔案管理系 北京 100190;3.南京農(nóng)業(yè)大學信息管理學院 南京 210095)

        0 引 言

        2013年,美國麥肯錫研究院發(fā)布《2025年前可能改變生活、企業(yè)與全球經(jīng)濟的12項顛覆技術(shù)》,該報告提出知識自動化將是繼工業(yè)自動化后提出的另一創(chuàng)新理論體系;2015年,物理學諾貝爾獎獲得者弗蘭克·威爾澤克發(fā)表的斷言----“在100年內(nèi),最好的物理學家將是一臺機器”;2016年,日本科學家北野宏明發(fā)表文章ArtificialIntelligencetoWintheNobelPrizeandBeyond:CreatingtheEngineforScientificDiscovery[1],為AI提出一個新的重大挑戰(zhàn):開發(fā)一個能夠取得重大科學成果的AI系統(tǒng),通過圖靈測試,進而能夠獲得諾貝爾獎。如今,這些預言正逐漸成為現(xiàn)實,引發(fā)一場新型的科研范式變革—科研智能化。

        近來,成熟、通用、強大的AI技術(shù)不斷應用到具有挑戰(zhàn)性的基礎科學研究中,極大提升了科研效率,為各學科解決了科學難題??蒲兄悄芑膹妱輥硪u,迫使知識服務機構(gòu)思考:究竟如何做,才能在研究范式變革的前期融入新的科研浪潮。本文通過描述科研智能化趨勢的最新進展,解析其中的實現(xiàn)過程,對應我們知識服務的能力,思考未來的變革方向,以搭上科研智能化的“快車”,推動學科研究的持續(xù)創(chuàng)新。

        1 科研智能化趨勢新進展

        上千年的科學歷程見證了“實驗范式”“理論范式”“仿真范式”和“數(shù)據(jù)密集型范式”的誕生。AI模型、系統(tǒng)的出現(xiàn),使得科學研究的面貌正在發(fā)生改變。通過借助AI模型計算所有可能的科學假設,結(jié)合高度自動化的機器人實驗裝置,科學發(fā)現(xiàn)過程正被轉(zhuǎn)化為高效的實踐工作,以前所未有的速度加速科學發(fā)現(xiàn)。我們將這樣的研究范式稱為“科研智能化”[2]或“智能科學家”[3],本文暫稱為前者。

        這類新的研究范式雖尚無定論,大體上看其典型特征為“人機有效融合”:AI算法、機器人技術(shù)與科學研究的有效融合,以實現(xiàn)科研假說的自主提出、實驗方案的自主設計、假說合理性的自主驗證等,甚至自主完成科研全流程;其對應的兩大優(yōu)勢為:對已知知識空間探索時,凸顯其效率優(yōu)勢;對未知知識空間中發(fā)現(xiàn)時,凸顯其“突破人類認知局限”的優(yōu)勢。

        通過闡述、分析此范式在四大基礎學科中的應用案例,結(jié)合調(diào)研支撐以上科研工作的國家戰(zhàn)略政策,綜合論述“科研智能化”趨勢很有可能成為下一個科研范式的觀點。

        1.1 科學研究的新態(tài)勢

        近來,“AI技術(shù)加速科學發(fā)現(xiàn)”的實現(xiàn)主要體現(xiàn)在以下四大學科:

        a.生物學科。從AI快速篩選抗生素到RoseTTAFold快速生成蛋白質(zhì)結(jié)構(gòu),AI模型的推理能力在不斷變強。① AI模型通過對分子結(jié)構(gòu)的向量化表示使得AI系統(tǒng)在3天時間內(nèi)篩選1億化合物,發(fā)現(xiàn)超級抗生素Halicin[4]。其關鍵創(chuàng)新性在于針對特定功能訓練分子向量表示的方法更有利于尋找具有期望特性的分子,由此開啟“借助分子結(jié)構(gòu)的向量化進行AI藥物發(fā)現(xiàn)”的新時代。②AI系統(tǒng)僅需46天從零設計研發(fā)新藥[5],而傳統(tǒng)方法則需十年,其效率提升的關鍵在于分子結(jié)構(gòu)的向量化表示結(jié)合生成對抗網(wǎng)絡技術(shù),使得以分子功能為目標、定制AI藥物發(fā)現(xiàn)模型成為可能。③Alpha Fold模型[6]憑借分子結(jié)構(gòu)三維表示方式和Evoformer的方法破解了“基于基因序列即可預測蛋白質(zhì)3D結(jié)構(gòu)”的科學難題。這是AI系統(tǒng)首次把一個公認的具有重大意義的科學難題突進到幾乎破解的地步,被業(yè)界認為是首個有望獲得諾貝爾獎的AI成果。④RoseTTAFold模型[7]在保證與AlphaFold2模型相差無幾準確率的基礎上,提升了預測速度,降低了所需要的計算機處理能力,使得智能科研的桌面應用成為可能,開啟機器破解蛋白質(zhì)結(jié)構(gòu)的新戰(zhàn)場。

        b.化學學科。相比于生物學科,化學學科不僅在AI模型的推理能力上逐層深化,更是在自動化實驗裝置上進行了顛覆性變革。①Alpha Go模型針對任一化合物,可像GPS導航一樣在5.4秒內(nèi)以前所未有的速度給出反應路徑[8]。關鍵性在于基于1 240萬個化學反應訓練得到的神經(jīng)網(wǎng)絡與蒙特卡洛搜索樹算法。即大量格式化的化學反應數(shù)據(jù)是AI模型提升智能化的基石。②“自我驅(qū)動型”AI化學機器人無需提取化學信息[9],僅通過排列組合化學官能團,借助自身實驗裝置自動進行反應、自動識別反應結(jié)果,而后學習以上反應過程數(shù)據(jù),即可判斷任意一對化合物是否具有反應活性,進而發(fā)現(xiàn)當前未知的新反應。即該AI系統(tǒng)不需局限于已知的數(shù)據(jù)庫和常規(guī)的有機合成規(guī)則中,即可“自我驅(qū)動”進行科學發(fā)現(xiàn)。③可移動機器人化學家8天時間內(nèi)自主完成668個實驗[10],以人類科學家62.5倍的效率研發(fā)出一種全新的催化劑。優(yōu)越性在于更為高階的機器學習算法和更靈活的實驗設備:算法方面借助貝葉斯優(yōu)化算法不斷學習已經(jīng)完成的實驗確定下一步要進行的最佳實驗;實驗設備方面可移動地獨立執(zhí)行化學實驗中的所有任務,如固體稱重、液體分配等;實驗效率被大大提升。④集文獻閱讀與有機合成一體的機器人化學家[11],將科技文獻轉(zhuǎn)化為化學描述語言下的反應序列,進而轉(zhuǎn)化為可執(zhí)行的機械手指令,進而自動合成化學反應,實現(xiàn)了化學機器人自主看文獻并自主進行實驗操作的功能。

        c.材料學科。研究模式變革更類似于化學學科,AI模型占據(jù)科學發(fā)現(xiàn)中的推理主力,實驗裝置也在向全自動化邁進。①一種無監(jiān)督AI方法,在沒有增加任何額外知識庫的情況下從材料科學文獻中提取潛在知識,捕獲復雜的科學概念,預測出一種未知的新型材料[12];②材料加速操作系統(tǒng)(MAOS)通過智能機器人實現(xiàn)了“按需”合成和發(fā)現(xiàn)材料的功能[13],以電商的形式向用戶開放;③基于AI規(guī)劃的有機化合物合成機器人平臺[14],結(jié)合AI設計合成路線和機器人執(zhí)行的自動化合成平臺,整合計算機輔助合成路線設計、反應條件優(yōu)化與評估以及機器人執(zhí)行等流程,有效導航材料合成空間。

        d.物理學科。相比于實驗學科,理論學科更需要的是AI從數(shù)據(jù)中汲取理論知識,提煉易于解釋規(guī)則定理的能力。①“AI哥白尼”的神經(jīng)網(wǎng)絡系統(tǒng)通過學習行星運動的數(shù)據(jù)[15],準確預測出“日心說”的理論;②“AI Physicist”模型通過學習小球運動數(shù)據(jù)[16],能夠?qū)?shù)據(jù)所描述的物理環(huán)境給出該環(huán)境下的物理法則。

        種種研究工作的出現(xiàn),或許僅僅是AI技術(shù)加速科學發(fā)現(xiàn)的苗頭;在多種因素下,可以料想的是,未來會越來越多地爆發(fā)出AI技術(shù)自主進行科學發(fā)現(xiàn)的事件。

        1.2 國家布局的科研戰(zhàn)略

        科學發(fā)展的進步離不開背后國家政策、基金的支持,分析每一個重大突破背后的戰(zhàn)略布局,可以發(fā)現(xiàn)總體布局的發(fā)展歷程為:從AI技術(shù)在科學研究的初嘗試,到機器科研全流程的自動化,再到機器高階認知能力的重點提升。按時間順序,各國布局的科研戰(zhàn)略有:

        a.2004年,英國科技部Robot Scientist計劃[17],希冀研發(fā)一個能夠獨立發(fā)現(xiàn)新科學知識的機器,將自動化和人工智能結(jié)合,致力于2050年打造出有實力贏得諾貝爾獎的機器人。該項目已研發(fā)出“Adam”“Eve”[18]兩款機器科學發(fā)現(xiàn)系統(tǒng),用于熱帶病藥物設計。

        b.2011年,美國材料基因組計劃,希冀通過增強AI技術(shù)和材料數(shù)據(jù)加快新材料開發(fā);截至2016年已投入超5億美元。該計劃主要基于三個支柱:一是可以準確預測材料性質(zhì)的計算方法;二是擴大材料庫的高生產(chǎn)能力實驗;三是挖掘科學文獻中已有材料,促進材料數(shù)據(jù)共享的項目。目前基于該計劃催生出的材料數(shù)據(jù)庫有:Materials Project(體量13萬)、OQMD(體量63萬)、AFLOWlib(體量320萬),包含實際驗證過的材料和模擬計算待驗證的材料[19];同時整合實驗、計算和理論,研發(fā)出若干機器學習材料模擬工具包(MAST-ML),加速新材料研發(fā)。

        c.2018年9月,美國DARPA,“下一代人工智能”(AI Next)計劃共包含41個子項目,預期投入超20億美元,旨在推進AI常識推理能力。其中“AI+Science”領域的項目共12個,約占AI全領域總項目數(shù)的1/3。短期計劃“AI Exploration”中包含如“科學知識自動萃取(ASKE)” “AI研究助理” “AI物理學”三項項目;中長期探索計劃“Ongoing AI Programs”中包含“加速分子發(fā)現(xiàn)(AMD)”“大機制項目”“知識導向型的AI推理模型(KAIROS)”“不同來源的主動解釋(AIDA)”“因果探尋”“數(shù)據(jù)驅(qū)動的模型發(fā)現(xiàn)”等9項項目。此12項項目,根據(jù)項目內(nèi)容,筆者將其分為四類:

        ①以ASKE為代表的“NLP的知識抽取”類,旨在抽取表示科學概念的知識元素(如模型參數(shù)、函數(shù)、因果關系等),用于構(gòu)建具有豐富語義表示的科學推理模型。代表性成果有M2E2多媒體事件抽取系統(tǒng)[20]和事件推理系統(tǒng)[21]。

        ②以AIDA為代表的“科學知識自動推理”類,希冀研發(fā)一種能生成、驗證和完善其自身假設的AI系統(tǒng)。代表性成果有:多媒體多語言的知識提取和假設生成系統(tǒng)GAIA[22]和支持有關COVID-19文獻知識的自然語言回答和報告生成的EvidenceMiner系統(tǒng)[23]等。

        ③以“大機理”為代表的“因果推理”類,希冀開發(fā)協(xié)助計算機閱讀科學文章的技術(shù),從海量文獻中自動抽取因果片段,將它們組裝成完整因果模型,從而綜合推理出全局的因果關系。目前在構(gòu)建癌癥系統(tǒng)生物學路徑上取得一定進展[24]。

        ④以AMD為代表的“科學研究全流程自動化”類,為DARPA2015年“Make It”計劃的延伸版,旨在開發(fā)基于AI的智能方法和更智能的機器軟件平臺,通過自動化合成裝備使材料按照分子特性按需合成,告訴機器人要制造什么分子以及如何制造,加快具有特定性能分子的設計、驗證和優(yōu)化速度;代表性成果有溶解度自動篩選平臺[25]和材料加速平臺[26]。

        d.2021年,美國DARPA (D17AC00004)計劃,旨在挖掘機器學習在認知和行為科學上的潛力。

        同時,調(diào)研國內(nèi)近年來關于“AI技術(shù)加速科研發(fā)現(xiàn)”的相關政策:2015年,科技部啟動了“材料基因工程關鍵技術(shù)與支撐平臺”重點專項,希冀借鑒人類基因組計劃的理念,構(gòu)建材料高通量計算平臺、高通量實驗平臺和數(shù)據(jù)庫平臺,以材料需求為導向設計材料結(jié)構(gòu)??傮w來講,對此方面關注度相對較小,發(fā)展狀態(tài)稍顯劣勢。

        2 科研智能化的總體框架

        分析、總結(jié)以上“AI加速科學發(fā)現(xiàn)”的相關研究,解析科研智能化的實現(xiàn)過程,給出通用的實現(xiàn)框架,設想實現(xiàn)場景;而后針對每一步驟,綜述相對應的發(fā)展態(tài)勢。

        2.1 科研場景設想——平行概念下的人機共生

        圖1為本文對未來人機共生科研場景的設想,其中包括智能科學家執(zhí)行科學研究的過程以及與人類科學家的相互交互過程。

        圖1 科研場景設想概念圖

        上千年的科學研究發(fā)現(xiàn)都是在假設生成與驗證的循環(huán)過程中產(chǎn)生的;對應上述案例,借鑒培根科學歸納法,將智能科學家的科學發(fā)現(xiàn)引擎描述為一個包含假設生成和驗證、知識更新與融合的閉環(huán)系統(tǒng)。該系統(tǒng)打通了科研全過程,主要的實現(xiàn)過程分為五大步驟:一是理解科研信息(包含科技論文、科技數(shù)據(jù)、開源數(shù)據(jù)等)的知識,檢驗標準或者反饋行為能否為科學家自動生成科技動態(tài)快報或領域文獻綜述,同時也可大大提升人類科學家的科技信息獲取速度;二是根據(jù)理解的知識,自動推理其中可能存在的科學問題,得到科學假設;三是根據(jù)科學假設設計相應的實驗方案,以實驗結(jié)果表現(xiàn)推斷上述假設的合理性;四是將上述步驟按一定模式生成科技論文,進而由同行評議審判其科學性;五是將此過程中的實驗數(shù)據(jù)、科技論文、專家評議結(jié)果自動存儲入庫,用于自我學習、優(yōu)化下一輪科學假設。

        在機器科學家自我驅(qū)動進行科學發(fā)現(xiàn)時,人類科學家與其同步假設、探索,以一種平行系統(tǒng)的方式與機器科學家交流、反饋。這種合作可以被認為是一種在智力活動上的人機共生關系,觸發(fā)一種“互為她者”的鏡像關系。其中,機器系統(tǒng)的計算實驗過程實際上是為人類科學家系統(tǒng)運行的可能情況提供借鑒、預估和引導,盡可能避免失敗的假設,大大節(jié)省資源、提升效率。

        具體來講,智能科學家整個科學發(fā)現(xiàn)的過程需要用到很多的技術(shù),總結(jié)歸納為三大要素:計算、執(zhí)行與學習,其對應的具體算法(四邊形所示)與用途(五邊形所示)如圖2所示。

        圖2 科研自動化實現(xiàn)過程的關鍵要素與對應技術(shù)元素

        2.2 科學知識的理解與掌握

        智能科學家進行科學發(fā)現(xiàn)時,首要步驟為借助科技文獻、科研數(shù)據(jù)等非結(jié)構(gòu)化復雜數(shù)據(jù)理解、掌握現(xiàn)有的科學知識,輸入端到輸出端的實現(xiàn)框架如圖3所示。從具體解析來看,輸入端通常為專業(yè)領域的文獻、專利、報告、實驗數(shù)據(jù)等,或通用領域的開源文本,如Wikipedia;經(jīng)過數(shù)據(jù)處理、知識表示和不一致推理三大步驟處理后,輸出端為嵌入推理模型的結(jié)構(gòu)化數(shù)據(jù)及科技動態(tài)快報、文獻綜述等知識產(chǎn)品。

        首先,對輸入數(shù)據(jù)做處理,最為關鍵的是數(shù)據(jù)抽取及關聯(lián)。由基礎到高級,由實體關系抽取到科學知識概念抽取;而后語義關聯(lián)多源數(shù)據(jù),用于最為廣泛、精準的知識發(fā)現(xiàn)。Science DB是已知的以數(shù)據(jù)為導向的科技數(shù)據(jù)庫,關聯(lián)了與科學論文密切相關的表格、圖片、軟件代碼、材料結(jié)構(gòu)、實驗流程等科學數(shù)據(jù),使數(shù)據(jù)具備可發(fā)現(xiàn)性、可重用性和可操作性。

        圖3 “機器獲取科學知識”的實現(xiàn)框架

        二是將上述數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的機器可讀、可操作形式,做到對知識的精準表達、加工。作為智能科學家的先決輸入,知識表示的精準性和豐富度對于后續(xù)的知識發(fā)現(xiàn)至關重要。其中,“萬物皆可表征”方法(比如Node2vec,GNN,Bert)的出現(xiàn),向量化表征數(shù)據(jù)成為挖掘隱式語義的趨勢;同時還出現(xiàn)了配套的向量化數(shù)據(jù)庫Milvus[27],用于管理和分析Embedding數(shù)據(jù),作為基座支撐各種類型的AI模型。此外,新型機器可讀數(shù)據(jù)框架也逐漸成為機器獲取知識的關鍵,如“可執(zhí)行的化學文獻”系統(tǒng)[11],借助化學程序語言XDL自動抽取科技文獻中包含軟硬件的實驗過程信息,而后將其轉(zhuǎn)化為可執(zhí)行文件,輸入到實驗平臺自動執(zhí)行、得到化學實驗結(jié)果,從而彌補了從科技文獻到實驗裝備間自動傳輸信息的鴻溝,實現(xiàn)了自動執(zhí)行科技文獻中實驗過程的任務。

        三是對以上數(shù)據(jù)模糊地帶的推理。坦白來講,假設生成和初始驗證過程的限制,來源于從出版物、數(shù)據(jù)庫等數(shù)據(jù)中提取得到的知識體。然而并不是所有從科技文獻或科學數(shù)據(jù)中提取得到的數(shù)據(jù)都是正確的、可信賴的,還會包含重大的錯誤或遺漏的信息等,這樣的模糊地帶將需要AI系統(tǒng)識別、推理出來。當智能科學家發(fā)現(xiàn)某一部分報告與絕大多數(shù)報告不一致時,將這些報告判斷為錯誤,還是判斷為有可能的重大發(fā)現(xiàn),是一個較為關鍵的問題。

        2.3 數(shù)據(jù)驅(qū)動的科學假設生成與評估

        “智能科學家”進行科學發(fā)現(xiàn)的關鍵步驟為基于以上數(shù)字化可計算化內(nèi)容,結(jié)合眾多先進的AI算法,生成、評估科學假設,即稱為“數(shù)據(jù)驅(qū)動的科學假設生成與評估”。該步驟可以認為是數(shù)據(jù)密集型科研范式的發(fā)展后期,其本質(zhì)特質(zhì)之一是科學問題的出現(xiàn)來源于數(shù)據(jù)計算,而非人類科學家的直覺、經(jīng)驗,數(shù)據(jù)計算發(fā)揮引擎作用。具體的,“數(shù)據(jù)驅(qū)動的科學假設生成與評估”為基于以上數(shù)字化可計算化內(nèi)容,結(jié)合眾多先進的AI算法,高效探索知識空間,形成行之有效的科學假設,主要包含三點:

        一是“AI+算力”的知識計算,通過探索、消化機器可讀、可操作數(shù)據(jù)中的內(nèi)在原理、規(guī)律,形成科研假設空間;包含已有知識空間的高效發(fā)現(xiàn)及未知知識空間的探索,前者突破人類科學家的空間計算能力,后者突破人類科學家的認知局限。圖4表示AI模型的三大要素及善于解決的科學問題,三大要素分別為(a)組合空間搜索能力、(b)明確的目標函數(shù)、(c)大量數(shù)據(jù)或明確有效的數(shù)據(jù)模擬方法;對應善于解決的科學問題圖4中右側(cè)列舉。如實驗科學中的分子合成路線問題,需要借助大量化學反應數(shù)據(jù)(c)訓練后的AI模型,在小分子排列組合的巨大空間(a)中不斷尋找最符合目標要求(b)的分子路線。而后,科學問題的解決又可用于擴充模型訓練所需的數(shù)據(jù),反過來提升AI算法的表現(xiàn),迭代式精進科學發(fā)現(xiàn)模型。

        圖4 AI模型的三大要素及善于解決的科學問題

        二是“AI+多目標優(yōu)化算法”的假設評估,有時還需要結(jié)合實驗結(jié)果迭代反饋、進行優(yōu)化。在得到假設集合后,優(yōu)化算法會指導智能科學家根據(jù)最有效路線的實驗方案自主選擇參與實驗的成分、條件,縮短實驗的設計-制造-測試-分析周期[28]、減少材料成本,有效促進科技資源的利用。比如,2020年可移動機器人化學家在貝葉斯優(yōu)化算法的指導下,在9 600萬假設空間中,根據(jù)上一次實驗結(jié)果自主選擇下一次實驗方案,最終僅執(zhí)行668次實驗即得到最優(yōu)的實驗效果。

        三是“AI+主動學習”的迭代評估。對于機器而言,沒有反饋就沒有學習。最終的科學假設和實驗方案往往是根據(jù)實驗結(jié)果改進的上一步假設。這意味著實驗結(jié)果的每一個細節(jié),不管是不完整的或者失敗的數(shù)據(jù)都要存儲起來變得可獲得。比如,材料探索與優(yōu)化閉環(huán)自主系統(tǒng)CAMEO[29],借助主動學習來確定下一步要進行的最佳實驗,迭代反饋后僅需很少次實驗即可找到最優(yōu)材料。

        2.4 實驗方案的自動執(zhí)行

        在得到科學假設后,“智能科學家”借助自身的機器人實驗裝置,自動執(zhí)行實驗方案,以快速驗證假設的合理性。這樣的實驗裝置系統(tǒng)有很大的擴展?jié)摿?,未來很有可能成為科學研究的驅(qū)動力之一。實驗裝置與AI系統(tǒng)的連接,更是帶來對知識空間深度探索的效率飛躍。目前,具有代表性的自動化實驗平臺如圖5所示,自上而下,自動化程度逐級升高。

        圖5 代表性的自動化實驗平臺

        如果說科學知識的理解與掌握、科學假設的自動生成與評估是智能科學家的腦力活動,那么實驗方案的自動執(zhí)行及假設驗證則為體力活動,極大解放了勞動密集型實驗中的勞動力,減少重復工作,使得人類科學家得以騰出時間進行更多創(chuàng)造性活動。

        圖6 生成式模型的相關進展

        2.5 科研數(shù)據(jù)的自動獲取、規(guī)范與存儲

        在完成實驗操作后,“智能科學家”往往含有自動收集、存儲科研過程數(shù)據(jù)的配置,主要包括文獻數(shù)據(jù)、實驗數(shù)據(jù)、開源代碼等,為接下來自動設計科學實驗、自主優(yōu)化實驗結(jié)果、自動驗證科學假設打下基石。由于文獻數(shù)據(jù)方面已有成熟完備的體系,這里重點闡述實驗數(shù)據(jù)的進展。

        實驗數(shù)據(jù)的自動記錄、分析,促使科研過程全記錄、可追溯的同時,也在加速科學發(fā)現(xiàn)。比如,Materials Project中,研究人員利用SVM算法學習了4 000次不同反應條件下制備晶體的失敗和成功實驗數(shù)據(jù),通過學習到的規(guī)律預測任意一次化學實驗成功的可能性,由此大大提高了化合物的合成率。

        實驗數(shù)據(jù)自動獲取及存儲方面,智能化的硬件設備是效率提升的關鍵。根據(jù)不同的數(shù)據(jù)類型,對應的存儲平臺有:a.基本屬性數(shù)據(jù)方面:溶解度自動篩選平臺[30]可憑借計算機視覺系統(tǒng)和反饋算法來自動獲取反應物的溶解度、密度等;b.實驗反應數(shù)據(jù)方面:智能實驗室玻璃器皿[31]可以記錄反應過程中的反應時間、反應產(chǎn)率和產(chǎn)品特性;更智能化的是有機合成機器人[9],它配備了實時傳感器以記錄反應混合物的光譜。

        實驗數(shù)據(jù)自動采集和存儲相輔相成。目前Experiment databases[32]提出了一個協(xié)作框架,旨在讓研究者在社區(qū)中共享機器學習實驗,并自動將其組織到公共數(shù)據(jù)庫中,以利于重復利用。綜合分析,各項研究工作都表明了包含實驗數(shù)據(jù)在內(nèi)的科研數(shù)據(jù)自動獲取、復用的重要性。

        2.6 科技文本的自動形成

        科技文本的自動形成涉及機器根據(jù)不同的用戶需求產(chǎn)生、提供各種形式的文本,比如科技論文的動態(tài)快報、科技領域的文獻綜述等,使用的方法主要有3種:模版式、抽取式和生成式。

        a.模板式方法主要基于輸入的知識點與模板庫進行候選模板檢索,利用優(yōu)化算法進行智能模板篩選,確定最終使用的模板生成文本;b.抽取式是從海量的已有文本素材中抽取重要信息后生成摘要等,提高用戶從大量數(shù)據(jù)中獲取有價值的可直接閱讀的總結(jié)性報告;c.生成式自然語言生成,主要指通過序列的深度學習和增強學習技術(shù)根據(jù)現(xiàn)有文本生成模型用自然語言的形式寫成文本,難度最大,但應用價值也巨大。這里,本文主要描述生成式模型的相關進展,如圖6所示。

        2021年,Springer Nature首次以人機交互形式創(chuàng)建一種側(cè)重于文獻綜述的新圖書——《氣候、行星和進化科學:計算機生成的文獻綜述》[33]。計算機通過AI聚類查詢、整理和組織相關文章,同時使用生成模型放置在特定上下文中的章節(jié)摘要;作者則為每個章節(jié)提供科學觀點;最后融合這兩者生成該書。其中,AI模型的優(yōu)越性在于能夠發(fā)現(xiàn)文章與文章間的隱形聯(lián)系,凸顯未知的知識。

        3 科研智能化驅(qū)動的知識服務新機遇

        可以肯定的是,智能科學家的出現(xiàn)將以一種完全沒有先例的方式大大增強人類科學家的智力,并且有可能從根本上改變科學的進行方式。就像是現(xiàn)在研究員們會配備高通量實驗系統(tǒng),相信未來智能科學家也將會變成高階研究機構(gòu)中基礎設施的一部分。

        如何有效融入這場科學變革、為一線科學家提供更加強有力的支撐作用,是我們知識服務方向研究人員需要考慮的問題。在當今如此重視科技創(chuàng)新的國度里,我們知識服務機構(gòu)更需要抓住時機勇于變革。

        3.1 知識服務新機遇

        對應以上梳理的實現(xiàn)過程,未來知識服務的發(fā)展契機主要分為兩大部分:一是科研數(shù)據(jù)基礎設施的建設;二是科研數(shù)據(jù)推理平臺的建設。需要明確的是,這兩者的服務對象為人和機器,因此還需要統(tǒng)一的資源表述框架來進行存儲和交流,總體框架如圖7所示。

        圖7 知識服務發(fā)展機遇的總體框架

        3.1.1科研數(shù)據(jù)基礎設施的建設

        數(shù)據(jù)象征著對客觀世界的刻畫,AI算法通過學習分析數(shù)據(jù)達到對現(xiàn)實世界的精準建模;從某種意義上來說,有限的數(shù)據(jù)空間內(nèi),AI算法對現(xiàn)實世界建模的越精準,它離科學真理就越近。表1描述的是“科研智能化”范式下重大科學發(fā)現(xiàn)所用的科研數(shù)據(jù)情況。

        表1 “科研智能化”研究中所使用的科研數(shù)據(jù)舉例

        由表1可知,智能科學家實現(xiàn)科學發(fā)現(xiàn)的基礎是大規(guī)??蒲袛?shù)據(jù)的智能發(fā)現(xiàn)問題,本質(zhì)又是大規(guī)??蒲袛?shù)據(jù)基礎設施的建設問題??蒲袛?shù)據(jù)本身蘊涵著規(guī)律,是新型智能的載體和產(chǎn)物。然而由于科學數(shù)據(jù)的多元異構(gòu)、跨域復雜關聯(lián)、信息總量巨大和價值密度較低等因素,使科學大數(shù)據(jù)的深度挖掘與價值利用面臨著種種挑戰(zhàn)。由此,支撐科研數(shù)據(jù)基礎設施建設的解決方法主要有以下兩方面:

        a.科研數(shù)據(jù)細粒度語義抽取。利用AI技術(shù)從大規(guī)模數(shù)據(jù)集中抽取相關知識內(nèi)容,具象內(nèi)容如領域術(shù)語、術(shù)語間的關聯(lián)關系、技術(shù)參數(shù)、化學反應式、材料物質(zhì)、蛋白質(zhì)結(jié)構(gòu)、模型算法等領域知識庫,抽象內(nèi)容如知識概念、科學事件等的描述,以細粒度揭示知識內(nèi)容間的關聯(lián)、組織,使得知識內(nèi)容的自動更新和質(zhì)量保證成為可能,為后續(xù)知識挖掘提供保障。

        b.多源多尺度科學數(shù)據(jù)的全景化融合。不同數(shù)據(jù)源的高精度融合和實體畫像構(gòu)建,助力科學家從整體做出準確判斷。依據(jù)關聯(lián)聚合原理,只有關聯(lián)數(shù)據(jù)才能看到全貌、產(chǎn)生價值;即針對科學數(shù)據(jù)的多元異構(gòu)性,需要實現(xiàn)多模態(tài)數(shù)據(jù)之間的表示轉(zhuǎn)換,以便將不同的特征映射到統(tǒng)一的知識表示空間中。比如,實體/概念融合方法將來自于不同格式(文本、本體、向量)、不同描述(專業(yè)、通用)存儲的觀測目標信息轉(zhuǎn)化為統(tǒng)一的資源描述框架,并進行語義關系上的對齊和消岐,通過參數(shù)共享、正則化添加等方式完成觀測實體的融合。

        3.1.2科研數(shù)據(jù)推理平臺建設

        在建設好科研數(shù)據(jù)基礎設施后,根據(jù)分析致用原理[36]—“不僅要感知、存儲數(shù)據(jù),還要挖掘數(shù)據(jù)的價值”,以及效用倍增原理—“數(shù)據(jù)經(jīng)過一層一層逐步深入挖掘,形成無限迭加的價值;由底向上提煉知識,形成更深層次的倍增價值”,科研數(shù)據(jù)的挖掘、推理成為關鍵。同時,已知“AI技術(shù)已成為一種賦能技術(shù),成為科研生活中無處不在發(fā)動機”的情況下,知識服務人員更應該借助AI技術(shù),通過知識計算,為研究人員提供科研假說,跨越數(shù)據(jù)與知識的差距,幫助他們探索可能的科學發(fā)現(xiàn);最后,工程化為平臺工具升值我們的科研知識服務。

        圖8 科學數(shù)據(jù)推理平臺建設的概念圖

        科學數(shù)據(jù)推理平臺的實質(zhì)內(nèi)容為科學計算元件庫,以重復利用各種復雜的科學分析算法。計算推理模型分為基礎的、通用領域推理模型和深層的、特定于專業(yè)領域的推理模型。前者主要包括數(shù)理統(tǒng)計模型、實體間可能存在的關系模型、預訓練語言模型等,如置信度模型、鏈接預測模型、Bert模型等,為基礎的科學發(fā)現(xiàn)提供便利;后者主要為專業(yè)的、需要一定算力支持的領域推理模型,比如生物學領域的蛋白質(zhì)結(jié)構(gòu)預測模型Alpha Fold2,化學領域的反應路徑預測模型Alpha Go等;最后集成到平臺向用戶直接提供工具接口。

        同時,支撐推理平臺的算力、類似于虛擬實驗室這樣的數(shù)字孿生設備,不可避免地也需要知識服務機構(gòu)承擔。反觀行業(yè)內(nèi),智能化數(shù)字基礎設施建設已成為新基建的主導方向,這為推理平臺的建設提供可行性。

        3.1.3科研數(shù)據(jù)統(tǒng)一描述框架的規(guī)范

        無論是科研數(shù)據(jù)的存儲步驟,還是推理步驟中,標準化“語言”是機器成為重要助手的關鍵。開發(fā)機器可讀、可操作的數(shù)據(jù)標準集合是一件刻不容緩、勢在必行的事情,將進一步提高文獻數(shù)據(jù)的應用價值,充分挖掘和揭示知識內(nèi)容,將文獻數(shù)據(jù)庫轉(zhuǎn)化為知識發(fā)現(xiàn)工具。比如,目前在表征向量化數(shù)據(jù)庫中,不同AI模型訓練得到的實體表示均是一些相互獨立的Embedding空間,是一系列信息孤島,就好像Wikipedia的每個詞條都是用不同的語言書寫。因而需要一種規(guī)則或者技術(shù)打通Embedding空間,將不同事物進行關聯(lián),這樣的技術(shù)也許是一些中間層的Embedding空間,也許是一些中間層的神經(jīng)網(wǎng)絡模型,有待研究人員進一步探究。

        3.2 討論與思考

        如果以上構(gòu)建的科研場景在現(xiàn)實中變成了普遍現(xiàn)象,那么,深層次的變化是什么呢?

        3.2.1重新定義知識發(fā)現(xiàn)

        重新定義知識發(fā)現(xiàn)的必要性源于機器智慧與人類智慧的不一致性,并且不被人類理解的神秘、復雜性。比如Alpha fold模型的存在,專注于從頭開始建模目標形狀,并不使用先前解析的蛋白質(zhì)作為模板;這也就表示疑難問題的解決越來越不依賴于人類的先驗知識,甚至不被人類理解。在機器智慧與人類智慧對世界的認識存在差異的情況下,對比下這兩者的表現(xiàn):人類對蛋白質(zhì)結(jié)構(gòu)的理解是基于長期研究的結(jié)果,但是機器智慧從另一條蹊徑出發(fā),卻走在了人類前面。這不得不讓人反思,未來會不會出現(xiàn)人類通過機器智慧學習和發(fā)現(xiàn)更多未知知識的現(xiàn)象?而這也將使得人類獲取知識的邏輯發(fā)生根本變革。

        此外,在MachineBehavior[37]文章中,作者認為理解機器行為對于控制他們的行為、最大化他們的效率優(yōu)勢以及減小對人類的傷害是十分有必要的,甚至可以將其設立為一門新的學科進行研究。研究方式上,機器行為與人類/動物行為具有很大的不同,所以研究時需要避免將其過度擬人化;研究態(tài)度上,則需要與研究living systems一樣研究AI系統(tǒng)。

        3.2.2新型的人機共生科研生態(tài)

        雖然,未來AI將成為我們科研生活里無處不在的“發(fā)動機”;但是AI并不是魔法,其仍需要人們掌握原理,如更明確的生物信號調(diào)控、更有效的藥物靶點,未來才能給研發(fā)效率帶來革命性的提升[38]。其中,科學家承擔更為復雜的研發(fā)及創(chuàng)造性工作,機器承擔更為一般性、重復性的工作,兩者相互迭代、相互塑造。比如,在研發(fā)清潔能源材料的智能自動化平臺中,研究人員需要與自主研發(fā)的機器人進行合作,設計實驗,分析結(jié)果,更新研究人員的知識到數(shù)據(jù)庫,使用AI方法進一步設計新實驗,優(yōu)化研究目標,完成整個自動化研發(fā)流程的閉環(huán),在協(xié)同合作中相互塑造。

        更進一步地,人機共生的科研生態(tài)或?qū)硇滦偷目蒲蟹妒絒39]。新的研究范式一樣會以數(shù)據(jù)為對象,不同的是更側(cè)重于人、機器與數(shù)據(jù)之間的交互,強調(diào)人的決策機制與數(shù)據(jù)分析的融合,體現(xiàn)了數(shù)據(jù)和智能的有機結(jié)合。對比來看,第三和第四范式都用到計算:第三范式是“人腦+計算機”,重點在人腦;第四范式是“計算機+人腦”,重點在計算機。未來新的科研范式則更強調(diào)人腦與計算機的“有機融合”。由此可以肯定的說,未來或者即將到來的科學研究范式不僅僅是傳統(tǒng)的科學發(fā)現(xiàn),更是對智能科學家系統(tǒng)的探索和實現(xiàn)。

        4 結(jié)束語

        通過展示、解析科研智能化的最新進展,分析其中的特點及優(yōu)越性,研判得出正如托馬斯的蒸汽機成為工業(yè)革命的驅(qū)動力,“智能科學家”科學發(fā)現(xiàn)系統(tǒng)可能也正推動一場新的科研革命,帶來以“人機有效融合”為典型特征的范式變革。然而,這場變革最終會通過促進一系列重大科學發(fā)現(xiàn)使我們的人類文明更加強大,還是會由于人類對人工智能系統(tǒng)的廣泛、過度依賴而變得更加脆弱,還有待觀察。

        可以肯定的是,知識服務機構(gòu)為順應科研智能化的時代機遇,需要把自己從數(shù)據(jù)庫商、出版商提升為知識內(nèi)容分析服務的提供者,將自己定位為信息方案的提供者、內(nèi)容方案的提供者、信息與數(shù)據(jù)分析的領導者??尚械淖兏锓桨笧椋阂钥蒲袛?shù)據(jù)為根基,積極構(gòu)建科研數(shù)據(jù)基礎設施及科研數(shù)據(jù)推理平臺,為各類知識內(nèi)容分析提供解決方案,服務于科研需要。

        最后,筆者所在的科研智能化研究小組仍在持續(xù)跟蹤科研智能化的最新動態(tài),解析其中的數(shù)據(jù)和算法,并展示在http://las-science-intelligence.com網(wǎng)站平臺上;同時,還在陸續(xù)集成開源工具、共享科研數(shù)據(jù),供科研人員調(diào)用。未來,期待做出支撐科研活動全生命周期的產(chǎn)品/工具。

        猜你喜歡
        科學實驗模型
        一半模型
        記一次有趣的實驗
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        做個怪怪長實驗
        科學大爆炸
        3D打印中的模型分割與打包
        科學
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        国产成人高清亚洲一区二区| 激情一区二区三区视频| 日本一区不卡高清在线观看| 久久久国产精品三级av| 男女搞事在线观看视频| 国产亚洲一区二区三区三州| 中文字幕亚洲乱码熟女1区2区| 五月婷婷开心五月播五月| 免费在线观看播放黄片视频| 少妇被爽到高潮喷水久久欧美精品| 野花社区视频在线观看| 国产99久久亚洲综合精品| 国产在线美女| 狠狠亚洲超碰狼人久久老人| 精品国产麻豆免费人成网站| 精品国产中文字幕久久久| 久久99国产精品久久99| 男女裸交无遮挡啪啪激情试看 | 丁香五香天堂网| 国产精品搭讪系列在线观看| 久久久久久免费播放一级毛片| 久久综合老鸭窝色综合久久| 精品三级国产一区二区三| 欧美激情一区二区三区成人| 护士人妻hd中文字幕| 亚洲最大中文字幕无码网站 | 国产乱子乱人伦电影在线观看| 一本久道久久综合久久| 久久青青草视频免费观看| 福利利视频在线观看免费| 少妇厨房愉情理伦bd在线观看| 亚洲免费人成在线视频观看| 国产精品久久久久孕妇| 亚洲高清av一区二区| 久久久麻豆精亚洲av麻花| 国产午夜福利不卡在线观看| 7777精品久久久大香线蕉| 不卡a v无码在线| 亚洲大胆美女人体一二三区| 亚洲日韩小电影在线观看| 无码中文字幕日韩专区视频|