王 卓 朱 虹 許 斌 顏達鵬 杜 華 羅 亮 崔予文,4
(1.中南大學輕合金研究院,湖南 長沙 410083;2.成都材智科技有限公司,四川 成都 610041;3.中國核動力研究設(shè)計院核反應(yīng)堆系統(tǒng)設(shè)計技術(shù)重點實驗室,四川 成都 610213;4.南京工業(yè)大學,江蘇 南京 210009)
自1954年第一座核電站在蘇聯(lián)建成至今已過去60多年,核能作為高效、清潔、安全的能源備受國際社會的關(guān)注,核電技術(shù)也隨之不斷發(fā)展、完善,更新到了第四代,展現(xiàn)出廣闊的應(yīng)用前景。隨著我國經(jīng)濟水平和綜合國力的不斷提升,對能源的需求也呈現(xiàn)遞增態(tài)勢,導致能源短缺問題日漸突出[1-3]。因此,核能作為目前唯一能達到大規(guī)模商用的替代能源,其發(fā)展可有效提高國家能源安全保障能力。我國核電工業(yè)發(fā)展大致經(jīng)歷了起步、適度發(fā)展和快速發(fā)展等3個階段,逐步形成了完整的研發(fā)設(shè)計、工程建造、運行維護、燃料保障、設(shè)備配置、生產(chǎn)制造等全產(chǎn)業(yè)鏈體系,同時安全高效地發(fā)展核能成為我國能源電力發(fā)展戰(zhàn)略的重要組成部分[4-7]。
核電結(jié)構(gòu)材料的設(shè)計研發(fā)作為核電技術(shù)發(fā)展的關(guān)鍵,同樣也是核電站使用壽命和安全運行的重要影響因素。福島核事故之后,國際對核電技術(shù)發(fā)展的安全性提出了更高要求,亟待尋找各項性能更具競爭力的新核電結(jié)構(gòu)材料來進一步優(yōu)化核電效能,提高其壽命周期[8-10]。目前,我國在建和使用的核電結(jié)構(gòu)材料主要包括鎳基合金、奧氏體不銹鋼、低合金鋼和碳鋼等,其測試及服役常在高溫、高壓、強輻射等苛刻條件下進行,性能數(shù)據(jù)獲取十分不易。然而,傳統(tǒng)材料開發(fā)方式步驟繁瑣,研發(fā)到應(yīng)用周期冗長且達不到預(yù)期性能效果,僅靠人力更無法挖掘材料特征與性能之間的深層聯(lián)系[11-12]。因此,在材料理論研究的發(fā)展過程中,人們將試驗與計算模擬產(chǎn)生的數(shù)據(jù)整合形成一定規(guī)模的數(shù)據(jù)庫,在材料數(shù)據(jù)庫的基礎(chǔ)上,進一步采用機器學習方法針對核電結(jié)構(gòu)材料的各項屬性建立代理模型(surrogate model),從而實現(xiàn)對材料性能的快速預(yù)測,例如Wicker等[13]采用支持向量機器學習算法預(yù)測了分子材料的結(jié)晶度;Stanev等[14]通過機器學習模型得到了模擬超導體的臨界溫度;Voyles等[15]通過機器學習算法提高了材料顯微鏡數(shù)據(jù)的質(zhì)量,以進一步深挖材料信息。以上示例說明機器學習已在多行業(yè)多領(lǐng)域有了重要應(yīng)用,因此通過機器學習構(gòu)建核電結(jié)構(gòu)材料數(shù)據(jù)庫,不僅可以加快材料的設(shè)計進程,縮短研發(fā)周期,還可為實現(xiàn)對材料目標屬性或性能定制打開新的藍圖[16-17]。
本文對機器學習方法的主要思想和基本步驟進行了概述,介紹了機器學習應(yīng)用平臺及其系統(tǒng)功能模塊和流程結(jié)構(gòu),展示了機器學習系統(tǒng)通過模型構(gòu)建和應(yīng)用包裝兩種途徑對核電結(jié)構(gòu)材料性能進行預(yù)測的步驟,對進一步研究機器學習方法在核電結(jié)構(gòu)材料性能預(yù)測乃至新材料的發(fā)現(xiàn)方面具有參考意義。
機器學習(machine learning)是由模式識別、人工智能計算學習理論為基礎(chǔ)所轉(zhuǎn)變的一類計算機科學分支,其目的是根據(jù)大數(shù)據(jù)和歷史情況來訓練模型[18-19]。一方面機器學習能夠在不明確潛在物理機制或沒有物理模型的情況下,從可用數(shù)據(jù)中獲取性能和預(yù)測發(fā)展趨勢;另一方面,已經(jīng)建立的機器學習模型可反過來用于材料的發(fā)現(xiàn)和性能設(shè)計。因此,作為人工智能核心之一的機器學習方法,現(xiàn)已在材料科學領(lǐng)域取得了一系列應(yīng)用成果,其中包括預(yù)測鋼疲勞強度、金屬催化活性、合金的物理機械性質(zhì)和光伏材料的鑒定等,成為材料發(fā)展的一種創(chuàng)新模式[20-23]。目前,可選擇不同的機器學習算法對大量材料數(shù)據(jù)集進行性能參數(shù)的預(yù)測,不同算法對不同材料數(shù)據(jù)集中數(shù)據(jù)的敏感度也不同,需要對樣本數(shù)據(jù)進行有針對性的選擇,然后再通過相對應(yīng)的性能評估手段進行比較和評估。機器學習的性能預(yù)測模型工作流程如圖1所示。在建立模型之前,將原始材料數(shù)據(jù)集按比例劃分為訓練集和測試集(如80%為訓練集,20%為測試集),通過訓練集中的數(shù)據(jù)對算法模型進行訓練,再利用訓練后的模型對測試集中的數(shù)據(jù)進行預(yù)測,最終得到模擬結(jié)果。
圖1 機器學習性能預(yù)測模型工作流程圖Fig.1 Workflow chart of machine learning prediction model
目前,在建立模型時可用到的算法主要有隨機森林、支持向量回歸和神經(jīng)網(wǎng)絡(luò)等。
隨機森林(random forest)回歸算法是由Breiman于2001年提出的,其基本思想源于統(tǒng)計學理論[24]。隨機森林是由決策樹組合成的算法,用隨機方式建立很多決策樹而組成森林,決策樹間并沒有關(guān)聯(lián),利用bootstrap[25](又稱為自助法,用于估計或修正統(tǒng)計估計值的偏差或方差信息)在訓練集中隨機抽取N個樣本,假設(shè)每個樣本構(gòu)造決策樹,通過所有決策樹預(yù)測值的平均值計算得出最終預(yù)測值。
支持向量機(support vector machine)是運用支持向量機來解決回歸問題的方法,其基本思想是建立在統(tǒng)計學習理論基礎(chǔ)上,通過一個非線性映射φ,將數(shù)據(jù)x映射到高維特征空間F,在這個空間進行線性回歸,其優(yōu)勢是可以解決小樣本數(shù)據(jù)集、非線性及高維模式識別,可以推廣至函數(shù)擬合等其他機器學習問題中[26]。
神經(jīng)網(wǎng)絡(luò)(neural network)算法是一種模仿生物神經(jīng)網(wǎng)絡(luò)(動物的中樞神經(jīng)系統(tǒng),特別是大腦)的結(jié)構(gòu)和功能的數(shù)學模型或計算模型,用于對函數(shù)進行估計或近似。神經(jīng)網(wǎng)絡(luò)由大量的人工神經(jīng)元聯(lián)結(jié)進行計算,由輸入層、隱藏層(即中間層)和輸出層3層結(jié)構(gòu)組成[18],其中輸入、輸出層的神經(jīng)元個數(shù)是根據(jù)具體問題來確定的,而中間層則通常由經(jīng)驗確定,確定好結(jié)構(gòu)后可對其通過輸入輸出樣本集及逆行訓練,網(wǎng)絡(luò)經(jīng)過訓練后,輸入輸出的映射關(guān)系得以實現(xiàn),設(shè)輸入1個訓練樣本Xn,輸出層的神經(jīng)元為:
式中:I為隱藏層神經(jīng)元個數(shù);N為訓練樣本組數(shù);J為輸出層神經(jīng)元個數(shù);w為輸入層與輸出層間權(quán)值。基函數(shù)為高斯函數(shù)時,可表示為:
式中:σi為高斯函數(shù)方差;tim為基函數(shù)的中心;M為輸入層神經(jīng)元個數(shù)。
通常采用均方誤差MSE(mean squared error)、均方根誤差RMSE (root mean squared error)、平均絕對誤差MAE(mean absolute error)作為學習器的泛化性能評價指標,校正決定系數(shù)R2(adjusted R-square)則用以衡量預(yù)測值與實際值的吻合程度,計算公式為:
式中:m為樣本數(shù)量;yi為真實值;為預(yù)測值。前3個指標根據(jù)不同的業(yè)務(wù)有不同的值,不具有可讀性,最后可根據(jù)R2的取值來判斷模型的優(yōu)劣,其取值范圍是[0,1],如果是0,說明擬合效果很差,如果是1,說明模型準確預(yù)測。
核電結(jié)構(gòu)材料在核電站的建設(shè)應(yīng)用中扮演著重要角色,其中合金占絕大部分,而且合金材料具有化學元素的多樣性。理論上這類材料的數(shù)據(jù)達上萬種,因此可作為機器學習預(yù)測材料性能甚至到設(shè)計新材料的理想應(yīng)用體系。本文選擇通過構(gòu)建機器學習平臺實現(xiàn)模型訓練和模型應(yīng)用的雙功能,模型方面主要針對專業(yè)用戶,以工作流的方式實現(xiàn)用戶自定義算法、評價方法及數(shù)據(jù)預(yù)處理過程,完成機器學習模型的構(gòu)建,可重復(fù)進行模型訓練;應(yīng)用部分則可支持將模型配置成操作簡單的應(yīng)用供普通用戶直接使用,方便其完成機器學習預(yù)測,并得到性能預(yù)測結(jié)果和可視化分析。圖2是材料數(shù)據(jù)機器學習系統(tǒng)的基礎(chǔ)建設(shè)框架層級圖,以B/S架構(gòu)來構(gòu)建整個系統(tǒng),從底層數(shù)據(jù)資源到應(yīng)用層面總共劃分為4個層級,應(yīng)用層面可滿足不同業(yè)務(wù)場景需求。
圖2 機器學習系統(tǒng)整體架構(gòu)圖Fig.2 Overall architecture diagram of machine learning system
材料數(shù)據(jù)機器學習系統(tǒng)的功能概覽如圖3所示,系統(tǒng)由首頁、數(shù)據(jù)源、模型及配置和應(yīng)用部分構(gòu)成。首頁可以直觀地顯示收藏的應(yīng)用和新發(fā)布的應(yīng)用,可支持搜索應(yīng)用;數(shù)據(jù)源部分主要包含用于材料數(shù)據(jù)機器學習的數(shù)據(jù)來源,支持連接外部數(shù)據(jù)源作為訓練數(shù)據(jù),可預(yù)覽其中每張表的數(shù)據(jù),同時也支持結(jié)合前處理方法及算法訓練數(shù)據(jù)模型;在模型及配置部分通過模型構(gòu)建器進行模型構(gòu)建,在系統(tǒng)中能夠?qū)δP瓦M行管理,控制模型發(fā)布和權(quán)限處理;最后到應(yīng)用部分,將配置好的模型包裝成界面美觀、操作簡單的應(yīng)用,可方便用戶閱覽并使用模型,對其產(chǎn)生的結(jié)果還可以進行可視化分析?;诤辖鸩牧蠑?shù)據(jù)集,可通過機器學習平臺對其性能進行預(yù)測,系統(tǒng)流程及演示將在下文進行詳細描述。
圖3 材料數(shù)據(jù)機器學習系統(tǒng)功能概覽Fig.3 Overview of the material data machine learning system functions
系統(tǒng)支持連接包括Excel、MySQL、iDataCenter在內(nèi)的多種數(shù)據(jù)庫,用戶登錄系統(tǒng)后點擊數(shù)據(jù)源Tab頁可管理當前賬號下所有的材料合金數(shù)據(jù)庫及數(shù)據(jù)表,點擊數(shù)據(jù)庫右側(cè)即可出現(xiàn)數(shù)據(jù)庫詳情,可查看該數(shù)據(jù)庫類型、賬號密碼、配置信息及當前更新時間等。用戶可以點擊新建數(shù)據(jù)連接,填寫參數(shù)后進行測試,最后完成數(shù)據(jù)連接新建,系統(tǒng)操作界面及演示示例如圖4所示。
圖4 合金材料數(shù)據(jù)機器學習平臺數(shù)據(jù)連接演示示例Fig.4 Demonstration example of alloy material data connection on material data machine learning platform
模型功能是針對專業(yè)用戶配置的功能模塊,用于訓練模型,可查看當前賬號下已有模型或直接進行模型編輯。如圖5所示,專業(yè)用戶登錄系統(tǒng)后,可點擊模型Tab頁進入我的模型列表,也可切換至模型倉庫,頂部按鈕為新建模型,可進行模型新建;右側(cè)可進行篩選;最右側(cè)可進行模型搜索;下面每一條對應(yīng)一個模型,從左到右依次是創(chuàng)建人、創(chuàng)建時間、訓練進度條和操作按鈕(包括發(fā)布、追加數(shù)據(jù)、參數(shù)修改和刪除)。模型建好后可直接點擊發(fā)布到模型倉庫,也可追加數(shù)據(jù)對模型進行迭代,追加數(shù)據(jù)時可選擇數(shù)據(jù)源的某一張表,系統(tǒng)會自動根據(jù)名字匹配特征列與字段,用戶還可以進行手動調(diào)整,等待該模型狀態(tài)變?yōu)榇\行,即可重新使用。用戶點擊新建模型后,系統(tǒng)進入新建模型,操作界面將顯示出一個類似于工作流的界面,前3個步驟可進行基本信息、數(shù)據(jù)源和特征目標的選擇,之后可進行數(shù)據(jù)預(yù)處理或算法選擇。特征列、目標列選擇后右側(cè)自動出現(xiàn)相關(guān)性分析圖表,分析方法默認為最大信息系數(shù)(maximal information coefficient,MIC),其后有選取相關(guān)性靠前字段選項,分為前5、前10、前15、前x,點擊某個按鈕左側(cè)特征會自動取消選擇相關(guān)性不在該范圍內(nèi)的字段。數(shù)據(jù)預(yù)處理后進行算法選擇,系統(tǒng)有線性回歸、BP(back propagation)神經(jīng)網(wǎng)絡(luò)、隨機森林回歸、支持向量機回歸等算法可供選擇。
圖5 合金材料數(shù)據(jù)機器學習系統(tǒng)模型演示示例Fig.5 Demonstration example of alloy material data machine learning system model
如圖6所示,模型建立后進入模型詳情頁,進行模型訓練,模型訓練流程每一個節(jié)點右側(cè)均有標識提示該步驟是否成功,失敗會顯示原因,后續(xù)步驟選項變灰。訓練完成后可顯示模型概覽,包括模型基本信息、當前狀態(tài)、MAE與R2評價結(jié)果以及評價數(shù)據(jù)量,最下方為實際值與測試值的偏差圖。
圖6 合金材料數(shù)據(jù)機器學習系統(tǒng)模型訓練演示示例Fig.6 Demonstration example of alloy material data machine learning system model training
系統(tǒng)支持將模型配置為方便直接使用的模型應(yīng)用,同時支持在系統(tǒng)中測試應(yīng)用,發(fā)布后的應(yīng)用即可在模型應(yīng)用服務(wù)系統(tǒng)中供用戶使用。如圖7所示,普通用戶登陸系統(tǒng)后,點擊應(yīng)用Tab頁進入應(yīng)用倉庫,此處可顯示該賬戶下所有應(yīng)用及基本信息,單擊標題進入應(yīng)用使用界面,可收藏應(yīng)用方便篩選使用。專業(yè)用戶進入應(yīng)用列表頁可顯示創(chuàng)建的應(yīng)用包含已發(fā)布和未發(fā)布的應(yīng)用,還可以進行應(yīng)用新建。進入應(yīng)用新建界面后有3個步驟,分別是填入基本配置信息、選擇模型和輸入規(guī)范,完成后生成1個未發(fā)布的應(yīng)用,點擊發(fā)布按鈕后完成用戶使用權(quán)限的選擇,確定后發(fā)布應(yīng)用成功,也可取消發(fā)布。在應(yīng)用使用界面,可選擇數(shù)據(jù)輸入方式,支持單條輸入和多條輸入,無論什么輸入方式均在右側(cè)對特征值進行實時校驗,提醒輸入數(shù)據(jù)是否符合要求,沒有錯誤后可進行實時計算,計算完成后跳轉(zhuǎn)回結(jié)果頁。結(jié)果頁可顯示預(yù)測結(jié)果,有簡略與詳細兩種模式,可手動切換。
圖7 合金材料數(shù)據(jù)機器學習系統(tǒng)模型應(yīng)用演示示例Fig.7 Demonstration example of alloy material data machine learning system model application
核電站堆型種類多樣,其中采用普通水作為冷卻劑和慢化劑的壓水堆應(yīng)用最為廣泛,該類型核電站的大部分部件采用鋼鐵材料,由于高溫和強輻射服役環(huán)境的限制對核電用鋼的性能要求非常嚴苛,鋼材制備研發(fā)也需模擬實際環(huán)境進行,試驗難度大、危險系數(shù)高,試驗數(shù)據(jù)來之不易。因此,可借助機器學習算法構(gòu)建模型并對其進行訓練,訓練后包裝成應(yīng)用供用戶直接使用,可達到基于材料數(shù)據(jù)預(yù)測核電用鋼某種性能的效果。如圖8所示,通過機器學習系統(tǒng)建模訓練后,得到核電用鋼疲勞強度預(yù)測值與實際值的對比圖,可見每組樣品的預(yù)測準確度相對較高,說明簡單高效的模型構(gòu)建和訓練可以針對不同材料的不同性能進行預(yù)測,從而有效降低試驗成本,便于科學家們選材用材。
圖8 核電用鋼疲勞強度性能預(yù)測值與實際值的對比Fig.8 Comparison of predicted and actual values of fatigue strength properties of nuclear power steels
數(shù)據(jù)驅(qū)動與人工智能的結(jié)合成為科學的第四范式,作為核心技術(shù)之一的機器學習的應(yīng)用與發(fā)展已經(jīng)完全改變了材料研究的理念,并在該領(lǐng)域取得了一定的進展,朝著快速準確地預(yù)測材料的各種性質(zhì)目標邁出了重要一步,利用數(shù)據(jù)幫助人們發(fā)現(xiàn)、設(shè)計和優(yōu)化新材料,成為重要的材料數(shù)據(jù)分析工具[28]。本文基于機器學習算法對核電結(jié)構(gòu)材料性能預(yù)測進行深入研究,該過程摒棄傳統(tǒng)材料研發(fā)設(shè)計周期長且成本高昂的缺點,在材料科學與工程領(lǐng)域展現(xiàn)出了與傳統(tǒng)研究方式不一樣的視角。
本文通過多源異構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理技術(shù),針對跨尺度的核電合金結(jié)構(gòu)材料數(shù)據(jù)庫,主要介紹了機器學習平臺的建設(shè)思路和主要功能模塊構(gòu)成,總結(jié)了該機器學習系統(tǒng)對核電合金性能預(yù)測的基本步驟流程和具體演示示例。結(jié)果表明:通過對核電合金材料數(shù)據(jù)進行整理和有效利用,挖掘數(shù)據(jù)中的潛在信息對材料的某一目標性能進行預(yù)測,可以不經(jīng)過傳統(tǒng)試驗和第一性原理計算獲得相對可靠的性能,充分發(fā)揮機器學習系統(tǒng)對研發(fā)人員的助力作用;文中配置的機器學習平臺操作頁面簡潔美觀,易于用戶理解使用,面對不同類型的用戶可提供不同的模式包括模型訓練和應(yīng)用創(chuàng)建,可有效減少研發(fā)人員的工作量;以上均對材料性能預(yù)測乃至新材料的研發(fā)具有一定實用價值。
雖然材料數(shù)據(jù)機器學習系統(tǒng)的構(gòu)建可以讓科研人員不再依賴反復(fù)試驗或數(shù)據(jù)計算,有效預(yù)測材料的特征性質(zhì)并開發(fā)尋找新的高性能材料。但總的來說,機器學習是一種數(shù)據(jù)驅(qū)動的方法,其應(yīng)用對數(shù)據(jù)依賴性很強,對核電材料的性能預(yù)測需要從相關(guān)文獻和數(shù)據(jù)庫中獲取特征性能參數(shù),這種方式在數(shù)據(jù)量有限的情況下和具有上百萬數(shù)據(jù)量的圖像識別等領(lǐng)域相比,會導致機器學習模型的過擬合,從而降低機器學習方法的泛化能力。因此為了提高數(shù)據(jù)量,一方面需要進一步通過高通量的計算來增加材料理論數(shù)據(jù),另一方面針對文獻中試驗數(shù)據(jù)可以開發(fā)智能讀取系統(tǒng),從先進文獻及出版物中讀取訪問可靠的試驗數(shù)據(jù)。此外,機器學習向其他重要領(lǐng)域的發(fā)展仍然處于起步階段,還需要不斷地進行完善和改進,通過發(fā)掘可解釋性的描述符將機器學習的黑盒子模型變得可解釋也是具有發(fā)展前景的方向之一??傊?,在可預(yù)見的未來,隨著高新技術(shù)的發(fā)展,機器學習方法不僅可以助力于研發(fā)人員設(shè)計制備高性能的新型材料,還可能為其提供理論依據(jù),一定也會在其他材料科學領(lǐng)域大放異彩。