亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的材料彈性性能預(yù)測及可視化分析

        2024-05-03 11:57:14林軒杰江漢同周玉玲臧懷娟任永生馬文會
        工程科學(xué)學(xué)報 2024年6期
        關(guān)鍵詞:數(shù)據(jù)庫特征模型

        林軒杰,江漢同,李 倩,周玉玲,臧懷娟,任永生,詹 曙,馬文會

        1) 合肥綜合性國家科學(xué)中心人工智能研究院,合肥 230601 2) 合肥工業(yè)大學(xué)計算機與信息學(xué)院,合肥 230601 3) 真空冶金國家工程實驗室,昆明 650093 4) 昆明理工大學(xué)冶金與能源工程學(xué)院,昆明 650093

        隨著科技的快速發(fā)展,航空航天、人工智能、人造太陽等這些曾經(jīng)不為人知的新興詞匯如今已從概念逐漸變?yōu)楝F(xiàn)實,影響著人類的生活與生產(chǎn)方式.新興領(lǐng)域取得的突破伴隨著新產(chǎn)物的出現(xiàn),都和新材料的研究與發(fā)展有著密不可分的聯(lián)系[1].新材料是新興產(chǎn)業(yè)發(fā)展的基礎(chǔ),幾乎所有的重大科技革新都與新材料的出現(xiàn)有關(guān)[2].2011年美國提出“材料基因組計劃(MGI)[3],材料基因組融合了材料的高通量計算、高通量制備、高通量檢測及數(shù)據(jù)庫系統(tǒng)[4],形成新材料創(chuàng)新發(fā)展的基礎(chǔ)條件和能力.材料基因工程是材料領(lǐng)域的顛覆性前沿技術(shù),將對材料研發(fā)模式產(chǎn)生革命性的變革,全面加速材料從設(shè)計到工程化應(yīng)用的進程,大幅度提升新材料的研發(fā)效率[5].材料基因工程是材料領(lǐng)域的顛覆性前沿技術(shù),將對材料研發(fā)模式產(chǎn)生革命性的變革,全面加速材料從設(shè)計到工程化應(yīng)用的進程,大幅度提升新材料的研發(fā)效率,縮短研發(fā)周期,降低研發(fā)成本,促進工程化應(yīng)用.高通量計算是以量子力學(xué)中的薛定諤方程作為理論基礎(chǔ),以材料內(nèi)部粒子空間分布(晶體學(xué)信息文件CIF)作為輸入,設(shè)置所需參數(shù),預(yù)測材料的相關(guān)屬性(包括動力學(xué)、熱力學(xué)和結(jié)構(gòu)性質(zhì)等)并導(dǎo)入材料數(shù)據(jù)庫.然而高通量計算需要消耗大量的計算資源與時間[6],不同元素構(gòu)成的材料,如果元素種類、配比、空間結(jié)構(gòu)等存在差異,生成材料的性能也大不相同,僅僅采用高通量計算進行盲目的檢索,并不是一種明智的舉措.近些年來,隨著基于第一性原理(DFT)[7-8]模擬仿真方法[9-10]的成熟運用,產(chǎn)生了大量的基于高通量計算的材料屬性數(shù)據(jù),材料數(shù)據(jù)庫也不斷擴展.同時,機器學(xué)習(xí)、大數(shù)據(jù)挖掘的快速興起,使得基于大數(shù)據(jù)和機器學(xué)習(xí)的材料性能預(yù)測方法逐漸成為了可能[11-12].從已有的材料數(shù)據(jù)庫中進行數(shù)據(jù)挖掘,提取有用的特征,將這些信息應(yīng)用于未知材料領(lǐng)域的性能預(yù)測,與DFT相比可以使計算量下降多個數(shù)量級.

        目前,將機器學(xué)習(xí)方法應(yīng)用于材料性能預(yù)測領(lǐng)域的研究取得了一定的進展.Ramprasad等[13]概括了一些數(shù)據(jù)驅(qū)動的材料信息學(xué)的成功應(yīng)用,特別指出特征描述符的重要性,認(rèn)為選擇合適的特征描述符在確定控制復(fù)雜現(xiàn)象的關(guān)鍵物理因素方面非常有效,F(xiàn)ujimura等[14]基于第一性原理(DFT),將理論和實驗數(shù)據(jù)集相結(jié)合,利用機器學(xué)習(xí)方法以預(yù)測材料在373 K的導(dǎo)電性,可以加速鋰超離子導(dǎo)體材料設(shè)計.Meredig等[15]利用DFT理論計算得到數(shù)據(jù)庫并構(gòu)建機器學(xué)習(xí)模型,由此產(chǎn)生的模型可以預(yù)測材料的熱力學(xué)穩(wěn)定性,與DFT計算結(jié)果進行對比,發(fā)現(xiàn)擬合精度較好的同時,計算量降低6個數(shù)量級,計算速度得到了較大的提升,說明機器學(xué)習(xí)方法適用于高通量計算材料篩選.Xu等[16]利用組分替換策略,在已有的高通量計算材料數(shù)據(jù)的基礎(chǔ)上產(chǎn)生大批量相似新型材料體系,通過皮爾遜線性相關(guān)性系數(shù)圖譜進行特征選擇,使用基本的機器學(xué)習(xí)回歸算法,有效且準(zhǔn)確地預(yù)測了類金剛石組分替換產(chǎn)物的帶隙值.Wang等[11]總結(jié)了基于機器學(xué)習(xí)的熱點材料的研究進展,指出了有限的數(shù)據(jù)量是機器學(xué)習(xí)方法實現(xiàn)應(yīng)用的主要障礙.材料研究進展到目前為止,通過結(jié)合機器學(xué)習(xí)技術(shù)與高通量計算手段來研究材料體系大都是進行性能預(yù)測,對于特征描述符對材料性能影響的可視化分析的研究較少.在材料性能預(yù)測中,特征描述符是預(yù)測材料性能的決定性因素[17],找到特征和目標(biāo)屬性之間隱藏的映射關(guān)系是機器學(xué)習(xí)的主要目標(biāo).通過可視化可以更加直觀了解和分析特征描述符在材料屬性中的影響程度和相關(guān)性,對于選擇合適的特征描述符提升材料屬性預(yù)測的準(zhǔn)確性和理解材料內(nèi)在機理具有重要意義.

        本文通過實驗,將不同的特征選擇方法和機器學(xué)習(xí)模型進行組合和比較,尋找最優(yōu)的組合方案來預(yù)測材料的彈性模量[18],并設(shè)計交互式可視分析系統(tǒng),將各個特征描述符對材料彈性預(yù)測的性能影響進行直觀表示,探究單個特征描述符對彈性模量進行范圍預(yù)測和彈性模量反推特征可行域的可能性,為加快材料粗篩速度和深入了解彈性性能的影響因素提供參考.

        1 研究方法

        本文通過開源的無機化合物材料數(shù)據(jù)庫Materials Project[19]獲取材料數(shù)據(jù)集.數(shù)據(jù)庫內(nèi)含基于第一性原理高通量計算得到的材料屬性,選擇彈性模量中剪切模量Voigt及Reuss的平均值Gv和Gr,體積模量Voigt及Reuss的平均值Kv和Kr四個參數(shù)作為目標(biāo)屬性,選擇數(shù)據(jù)庫中含有的材料信息作為輸入,首先進行不同方式的特征選擇操作,構(gòu)建對于彈性模量具有有效預(yù)測能力的特征子空間,然后在訓(xùn)練集上學(xué)習(xí)獲得不同類型的機器學(xué)習(xí)模型來預(yù)測目標(biāo)屬性,計算并比較預(yù)測精度,得到最優(yōu)的性能預(yù)測組合.然后通過可視化的手段分析各特征描述符對彈性模量預(yù)測的影響程度,找出對于彈性模量預(yù)測最重要的特征描述符,探究重要的特征描述符獨立預(yù)測彈性模量范圍和彈性模量反推特征可行域的可能.實驗流程如圖1所示,特征選擇方法、機器學(xué)習(xí)模型和實驗的具體流程將在下文進行介紹.

        1.1 數(shù)據(jù)集

        文中采用的硅材料數(shù)據(jù)集來源于MP(Materials Project)數(shù)據(jù)庫.MP數(shù)據(jù)庫是由加州伯克利大學(xué)勞倫斯實驗室(Lawrence Berkeley National Laboratory)及麻省理工學(xué)院(MIT)在2011年發(fā)起的項目,旨在通過計算所有已知材料的屬性,挖掘材料特性,加速材料研究的創(chuàng)新.本實驗中選取的是V2021.03.22版本,數(shù)據(jù)庫中共收錄無機化合物131613種,可為深度學(xué)習(xí)提供大量可靠的材料數(shù)據(jù).MP數(shù)據(jù)庫還可通過材料應(yīng)用編程接口(MAPI)和開源Python材料基因組學(xué)(Pymatgen)[20]材料分析包提供材料的相關(guān)數(shù)據(jù)和分析.因此,數(shù)據(jù)獲取步驟是利用MAPI從MP數(shù)據(jù)庫中檢索硅材料的相關(guān)信息作為機器學(xué)習(xí)的目標(biāo)輸出.本文選擇了20種常見的金屬非金屬元素構(gòu)成的材料.然后,對候選材料進行篩選,因為MP數(shù)據(jù)庫中并不是所有材料都計算了彈性模量,因此彈性模量屬性為空的材料需要去除.除此之外,因為數(shù)據(jù)庫中材料的彈性模量是通過高通量計算得到的理論值,并沒有考慮晶體系統(tǒng)的Born-Huang彈性穩(wěn)定性標(biāo)準(zhǔn)[21],如果高通量計算的彈性張量特征值是負(fù)的,說明違反了穩(wěn)定性標(biāo)準(zhǔn),表明該化合物在零溫度下機械不穩(wěn)定或者計算錯誤,考慮到機械不穩(wěn)定或者彈性張量計算錯誤的材料會對預(yù)測結(jié)果造成干擾,本文還將彈性模量有警告提示的材料去除.最后,再篩選去除重復(fù)檢索的化合物(例如CuFeS2可由Cu元素檢索得到,但會被Fe元素重復(fù)檢索)得到1143種無機化合物作為數(shù)據(jù)集.

        1.2 特征描述符

        利用MP數(shù)據(jù)庫和Pymatgen獲取數(shù)據(jù)集材料的40個特征描述符,這些特征描述符可分為3個方面: 14個化合物基本屬性(能量,每原子能量,原子形成能,體積,原子數(shù),Ehull,空間群編號,密度,總磁化強度,最大電負(fù)性,元素數(shù),最低未占分子軌道,金屬特性,平均電負(fù)性),20個元素屬性(原子序數(shù),熔點;分別填充到10個維度),6個晶體空間結(jié)構(gòu)屬性(鍵長,角度).其中,因為構(gòu)成化合物的元素種類并不都是相等的(例如SiO2由兩種元素構(gòu)成,而CuSO4則有三種),為滿足數(shù)據(jù)等長,設(shè)置構(gòu)成材料的元素數(shù)量為10個單位長度,若構(gòu)成化合物的元素種類少于10種,用“0”對“原子序數(shù)”和“熔點”進行填充;“鍵長”和“角度”分別有3個子屬性:a,b,c和α,β,γ.這40個特征描述符作為實驗的輸入特征集,然后從MP數(shù)據(jù)庫中獲取化合物的Gr,Gv,Kr,Kv數(shù)據(jù),分別選取其中的一種作為預(yù)測目標(biāo),構(gòu)成實驗的輸出目標(biāo)集.

        1.3 特征選擇

        特征輸入是機器學(xué)習(xí)的關(guān)鍵環(huán)節(jié),不同的特征描述符對于預(yù)測目標(biāo)的影響是不同的.例如在預(yù)測材料穩(wěn)定性時,分子內(nèi)部相鄰兩個原子(或離子)間的相互作用力強弱起到了決定性作用.特征描述符之間也可能會有一定的相關(guān)性,例如粒子平均能量由分子總能量和粒子數(shù)量決定.特征描述符的細(xì)粒度也有差異性,這里的細(xì)粒度可以理解為影響因素的復(fù)雜程度,例如帶隙相較于體積,是更加精細(xì)的特征描述符.如果需要提高預(yù)測目標(biāo)的準(zhǔn)確性,特征描述符必須足夠精細(xì)且與預(yù)測目標(biāo)強相關(guān),以便模型能夠?qū)?xì)節(jié)進行學(xué)習(xí).一般來說,特征描述符越精細(xì).獨立特征數(shù)量越多,預(yù)測準(zhǔn)確度也越高,但擬合難度也更高,更加費力.相反,較為粗糙的特征集合,可以對預(yù)測目標(biāo)進行范圍估計,用于材料的快速初始篩選.因此,材料性能預(yù)測任務(wù)的實質(zhì)就是預(yù)測模型學(xué)習(xí)特征描述符與目標(biāo)性能之間的映射關(guān)系,其中每個特征都作為一個因素影響到預(yù)測結(jié)果.特征選擇的目標(biāo)就是找到一個特征子空間,使特征之間盡量相互獨立且能較好的表征預(yù)測結(jié)果,從中除去無關(guān)變量和冗余變量,改善預(yù)測性能的同時減小計算量.特征選擇的方式主要有三種: 過濾式選擇、包裹式選擇和嵌入式選擇.

        1.3.1 過濾式特征選擇

        過濾式特征選擇按照發(fā)散性或者相關(guān)性對各個特征進行評分,設(shè)定閾值或者待選擇閾值的個數(shù)來選擇特征.本文中的特征屬性既有離散型也有連續(xù)型,而且除了補零部分外,特征取值基本不同,所以采用單變量特征選擇,主要原理是分別單獨計算每個變量的某個統(tǒng)計指標(biāo),根據(jù)該指標(biāo)來判斷哪些指標(biāo)重要,剔除那些不重要的指標(biāo).本文采用了皮爾森相關(guān)系數(shù)來分析并識別出具有高度相關(guān)的特征,這種方法較簡單且易于運行,通常對于理解數(shù)據(jù)有較好的效果.皮爾森相關(guān)系數(shù)的計算公式如下:

        式中,假設(shè)有兩個變量X和Y,mean()代表變量的均值,std()代表變量的標(biāo)準(zhǔn)差.這里計算出的相關(guān)系數(shù)嚴(yán)格來說是樣本相關(guān)系數(shù),還需要從樣本推論到總體,做假設(shè)檢驗.假設(shè)輸入(X)和輸出(Y)都滿足正態(tài)分布,利用樣本提供的信息對提出的假設(shè)進行檢驗.下面令:

        式中,n表示每個組別的樣本大小,ρ代表皮爾森相關(guān)系數(shù).如果X和Y都服從正態(tài)分布,則f服從F(1,n-2),這個統(tǒng)計量用來檢驗正態(tài)假定下總體中兩個變量之間的相關(guān)性.f值越大,說明特征和目標(biāo)參數(shù)之間的相關(guān)性就越大.因此,根據(jù)f值的大小進行特征選擇.

        1.3.2 包裹式特征選擇

        本文采用了遞歸特征消除(Recursive feature elimination, RFE),使用一個基模型來進行多輪訓(xùn)練,每輪訓(xùn)練后移除若干權(quán)值系數(shù)的特征,再基于新的特征集進行下一輪訓(xùn)練.主要操作為對特征含有權(quán)重的預(yù)測模型,RFE通過遞歸減少考察的特征集規(guī)模來選擇特征.首先,預(yù)測模型在原始特征上訓(xùn)練,每個特征指定一個權(quán)重.然后,那些具有最小絕對值權(quán)重的特征從特征集中去除.如此往復(fù)遞歸,直至剩余的特征數(shù)量達到所需的特征數(shù)量.

        1.3.3 嵌入式選擇

        基于機器學(xué)習(xí)模型的特征選擇方法也是一種主流的方法.有些機器學(xué)習(xí)方法本身就有對特征進行打分的機制,很容易將其運用到特征選擇任務(wù)中.通過學(xué)習(xí)模型在訓(xùn)練過程中自動進行了特征選擇,當(dāng)維數(shù)較大樣本較少時,容易陷入過擬合.故加入正則項,使用L1范數(shù)作為懲罰項使得大部分特征對應(yīng)的系數(shù)為0,更容易得到稀疏的解,從而減少特征的維度以簡化任務(wù).常用的稀疏預(yù)測模型有LASSO和LinearSVC.其中LASSO運用于回歸任務(wù),LinearSVC應(yīng)用于分類任務(wù),本文采用LASSO進行特征選擇.

        1.4 可視化分析

        對特征描述符的重要性進行評價,有助于分析影響材料彈性模量預(yù)測的關(guān)鍵特征屬性,還能夠了解材料空間結(jié)構(gòu)、電子結(jié)構(gòu)、能量等屬性與彈性性能之間的內(nèi)在規(guī)律.本文設(shè)計了材料彈性預(yù)測可視化系統(tǒng),通過圖表直觀顯示特征描述符對彈性模量的影響程度,進而判斷特征對目標(biāo)變量的重要性.除此之外還對訓(xùn)練集和測試集的數(shù)據(jù)可視化,表征彈性模量的變化范圍,顯示機器學(xué)習(xí)方法的擬合性能.還通過可視化分析,探究重要的特征描述符獨立應(yīng)用于彈性模量范圍預(yù)測的可能,為指定性能要求的新材料初步快速篩選提供了新的解決思路.

        1.5 回歸模型

        根據(jù)數(shù)據(jù)庫提供的豐富材料特征數(shù)據(jù),通過機器學(xué)習(xí)的模型學(xué)習(xí)關(guān)于特征描述符-目標(biāo)屬性的映射關(guān)系,預(yù)測未知目標(biāo)屬性的值.由于材料的彈性模量均為連續(xù)值,因此對彈性模量進行預(yù)測屬于機器學(xué)習(xí)中典型的回歸問題.文中使用回歸任務(wù)中較為常用的4種機器學(xué)習(xí)回歸預(yù)測模型:LASSO[22-23]、SVR[24]、GBDT[25]、MLP[26].這四種算法具有不同的模型特性和優(yōu)勢,LASSO回歸的特點是在擬合廣義線性模型的同時進行變量篩選和復(fù)雜度調(diào)整,具有良好的線性表達能力;SVR可以用來處理非線性數(shù)據(jù),通過選擇不同核函數(shù)的非線性映射將數(shù)據(jù)投影至特征空間,然后在特征空間使用線性回歸,具有低維的計算成本而實際的回歸效果表現(xiàn)在高維上;GBDT在傳統(tǒng)機器學(xué)習(xí)算法里是對真實分布擬合的最好的幾種算法之一,預(yù)測性能較好; MLP是當(dāng)前機器學(xué)習(xí)領(lǐng)域普遍應(yīng)用的算法,具有很強的自適應(yīng)學(xué)習(xí)能力,能處理復(fù)雜的非線性系統(tǒng).探索這些算法在彈性預(yù)測任務(wù)中的表現(xiàn),與特征提取方法組合,獲得最優(yōu)的預(yù)測模型.

        1.5.1 LASSO回歸

        LASSO是以縮小特征集為思想的壓縮估計方法.它在損失函數(shù)中引入了正則化L1范數(shù)懲罰項,減少輸入變量數(shù)量進而控制模型的復(fù)雜度,可以解決線性回歸出現(xiàn)的過擬合問題.LASSO回歸的損失函數(shù)為:

        式中,m表示樣本大小,hθ()是回歸模型,w是回歸系數(shù).λ是正則化參數(shù),作用是控制平衡擬合訓(xùn)練的目標(biāo)和保持參數(shù)值較小.

        1.5.2 SVR

        SVR是支持向量機(Support vector machine, SVM)對回歸問題的一種運用.SVR回歸是要找到一個回歸平面,讓一個集合的所有數(shù)據(jù)到該平面的距離最近;SVR認(rèn)為只要f(x)與y(預(yù)測值和真實值)的偏離程度不要太大,既可以認(rèn)為預(yù)測正確,不用計算損失.具體的說就是設(shè)置閾值τ,只計算|f(x)-y|>τ的數(shù)據(jù)點的loss.SVR的目標(biāo)函數(shù)為:

        式中,C為正則化常數(shù),ω為劃分超平面的法向量,lτ為損失函數(shù):

        由于特征空間維數(shù)可能很高,高維計算通常是困難的,所以需要設(shè)計核函數(shù),使得非線性回歸問題在經(jīng)過核函數(shù)的轉(zhuǎn)換后可以變成一個近似線性回歸的問題.SVR引入核函數(shù)之后,可重寫為:

        式中,k(x,xi)為核函數(shù),ai為拉格朗日系數(shù),ai≥0,b為偏置系數(shù).常用的核函數(shù)有線性核、多項式核、高斯核,根據(jù)具體問題選擇性能最優(yōu)的核函數(shù).

        1.5.3 GBDT

        GBDT全稱梯度下降樹,是通過采用加法模型以及不斷減小訓(xùn)練過程產(chǎn)生的殘差來達到將數(shù)據(jù)分類或者回歸的算法.經(jīng)過多輪迭代,每輪迭代產(chǎn)生一個弱分類器,每個分類器在上一輪分類器的殘差基礎(chǔ)上進行訓(xùn)練.訓(xùn)練的實質(zhì)是通過降低偏差來不斷提高最終分類器的精度.GBDT算法可以看成是M棵決策樹組成的加法模型,其計算公式如下:

        式中,x為輸入樣本,p為模型參數(shù),Tree為分類回歸樹,K為每棵樹的權(quán)重.

        1.5.4 MLP

        MLP是一種前饋人工神經(jīng)網(wǎng)絡(luò)模型,其將輸入的多個數(shù)據(jù)集映射到單一的輸出的數(shù)據(jù)集上.MLP的一個重要特點就是多層,第一層稱之為輸入層,最后一層稱之有輸出層,中間的層稱之為隱藏層.MLP并沒有規(guī)定隱藏層的數(shù)量,因此可以根據(jù)各自的需求選擇合適的隱藏層層數(shù).因為在上述預(yù)測彈性模量的任務(wù)中,數(shù)據(jù)集并不大且維度較低,因此為了避免過于復(fù)雜的神經(jīng)網(wǎng)絡(luò)造成過擬合現(xiàn)象,本文只涉及了一個隱藏層,選擇MSE損失作為回歸損失函數(shù).

        1.6 評價指標(biāo)

        文中主要采用均方根誤差Rmse和擬合優(yōu)度R2作為預(yù)測模型性能評價指標(biāo).Rmse衡量的是真實值和預(yù)測值之間的誤差,R2的最大取值為1,取值越接近1表明擬合程度越好,其計算方法如下:

        式中,y代表真實值,代表模型預(yù)測值,yˉ代表樣本均值,m代表樣本個數(shù).

        2 實驗結(jié)果與分析

        采用上文提到的3種特征選擇方法和4種機器學(xué)習(xí)模型進行組合,總共得到9種組合方式來對材料的彈性模量進行預(yù)測.選用MP數(shù)據(jù)集中常用元素構(gòu)成的1143種無機化合物作為數(shù)據(jù)集,通過十折交叉驗證將數(shù)據(jù)集隨機分成10組,以Rmse和R2作為評價指標(biāo),顯示模型的預(yù)測性能.

        2.1 預(yù)測結(jié)果與分析

        基于材料訓(xùn)練集,對9種不同的回歸組合算法進行網(wǎng)格搜索調(diào)參,產(chǎn)生各自的最優(yōu)回歸模型,將其在測試集上的彈性模量預(yù)測結(jié)果與MP數(shù)據(jù)庫中直接高通量計算的彈性模量進行比較,Rmse和R2指標(biāo)如表1、表2所示.圖2為材料的4種彈性模量在Pearson-GBDT模型下的真實值-預(yù)測值圖,較為直觀地展示了預(yù)測結(jié)果.

        表1 組合模型對4種彈性模量的預(yù)測結(jié)果(Rmse值)Table 1 Prediction results of the four elastic moduli of the combined model (Rmse)

        表2 組合模型對4種彈性模量的預(yù)測結(jié)果(R2值)Table 2 Prediction results of four elastic moduli of the combined model (R2 value)

        圖2 4種彈性模量的最佳預(yù)測模型真實值-預(yù)測值圖Fig.2 Plot of true and predicted values of the best prediction model for four elastic moduli

        結(jié)合表1、表2中可以看出,Pearson、RFE和LASSO這三種特征提取方法的效果基本相同,Pearson和RFE稍好于LASSO.在回歸模型選擇上,GBDT對于彈性模量的預(yù)測效果最好,SVR與MLP的效果較好,而LASSO的預(yù)測效果最差.最佳的模型組合是Pearson或RFE與GBDT的預(yù)測模型,對Kr和Kv的預(yù)測擬合優(yōu)度分別達到了0.90和0.91,Gr和Gv的預(yù)測性能相比于體積模量K稍差,但也達到了0.77和0.80.GBDT通過采用加法模型以及不斷減小訓(xùn)練過程產(chǎn)生的殘差來達到將數(shù)據(jù)回歸,其優(yōu)點是可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值,在相對較少的調(diào)參時間情況下,預(yù)測的準(zhǔn)確率也比較高,在使用一些健壯的損失函數(shù),對異常值得魯棒性非常強.而在實驗中,數(shù)據(jù)集材料包含40個特征,這些特征描述符可分為3個方面,GBDT能靈活處理這些特征描述符,從而得到最優(yōu)的預(yù)測.總的來說,組合模型對于彈性模量的預(yù)測表現(xiàn)較好,其中特征提取方法對于性能的預(yù)測影響不大,預(yù)測性能的主要影響在于回歸模型的選擇上,體積模量K的預(yù)測性能好于剪切模量G,我們認(rèn)為這是因為材料的體積模量與單位體積化學(xué)鍵的鍵能和密度關(guān)系很大,而輸入的特征描述符包括了體積、鍵能和密度的相關(guān)信息,因此模型較容易從中學(xué)習(xí)特征-性能的映射關(guān)系,而影響剪切模量的因素相對比較復(fù)雜,輸入端缺失部分重要的特征描述符,是導(dǎo)致剪切模量預(yù)測性能差于體積模量的主要原因.

        2.2 可視化分析

        下面通過可視化的方式,分析影響無機化合物彈性模量預(yù)測的關(guān)鍵材料屬性,通過皮爾森特征提取獲得各特征屬性的f值,f值大小與特征重要性成正比,可作為特征得分,從而繪制對應(yīng)的特征重要性評價圖.如圖3所示,直觀顯示了影響彈性性能預(yù)測的重要材料屬性.

        圖3 特征重要性評價圖Fig.3 Evaluation of feature importance

        其中最重要的4個特征描述符的相對影響率在表3中進行了總結(jié).為探究單個特征描述符與彈性性能預(yù)測的關(guān)系,本文還繪制單個特征值-彈性模量預(yù)測值散點圖.如圖3所示,我們發(fā)現(xiàn)一個重要的特征描述符可以從特征-目標(biāo)的映射關(guān)系中推導(dǎo)出目標(biāo)屬性的范圍.反過來,一個大致的屬性范圍也可以用來粗略估計關(guān)鍵特征的相應(yīng)數(shù)值.例如每原子能量-Kv的預(yù)測關(guān)系圖4(c)中,選擇每原子能量2 eV,則Kv的范圍大致在0~100 GPa;同樣若已知Kv為300 GPa,則材料的每原子能量大概在8~10 eV之間.這個規(guī)律可以用于材料彈性預(yù)測的粗篩(不需要較為精確的目標(biāo)值),降低對輸入特征數(shù)的要求.還可以根據(jù)所需的彈性目標(biāo)值,反推材料的關(guān)鍵特征,從而應(yīng)用于新材料的發(fā)現(xiàn)與合成.

        表3 最重要的4個特征描述符的相對影響率和排序Table 3 Relative impact rates and rankings of the four most important feature descriptors

        圖4 單特征-彈性模量預(yù)測圖.(a)每原子能量-Gv預(yù)測關(guān)系;(b)總能量-Gv預(yù)測關(guān)系;(c)每原子能量-Kv預(yù)測關(guān)系;(d)密度-Kv預(yù)測關(guān)系Fig.4 Single feature-modulus of the elasticity prediction plot: (a) prediction of the energy-Gv relationship per atom; (b) prediction of the total energy-Gv relationship; (c) prediction of the energy-Kv relationship per atom; (d) prediction of the density-Kv relationship

        2.3 交互界面

        為方便用戶對材料性能進行分析研究,本文提供了一個用于材料彈性預(yù)測和分析的可視分析界面,幫助用戶從中獲取材料的相關(guān)信息與預(yù)測分析.系統(tǒng)交互界面如圖5所示,其分為4個區(qū)域.區(qū)域A是數(shù)據(jù)導(dǎo)入和參數(shù)設(shè)置的主要區(qū)域,該模塊內(nèi)含常用材料數(shù)據(jù)集的下載地址,用戶可以導(dǎo)入相關(guān)數(shù)據(jù)集,也可以根據(jù)自己的需求自定義數(shù)據(jù)集.用戶可根據(jù)自身需求選擇對應(yīng)的特征和彈性性能并輸入相關(guān)數(shù)值,作為單特征-彈性模量范圍預(yù)測的輸入?yún)?shù).區(qū)域B是預(yù)測模塊,會根據(jù)區(qū)域A的參數(shù)設(shè)置預(yù)測材料彈性性能,還可以計算特征值和彈性預(yù)測范圍,應(yīng)用于材料的篩選任務(wù).區(qū)域C是圖片選擇模塊,顯示了數(shù)據(jù)分析的不同類別,用戶在此區(qū)域進行選擇,結(jié)果將展示在可視化分析模塊中.區(qū)域D是可視化分析模塊,用戶可獲取彈性模量的真實值-預(yù)測值圖、特征重要性評價圖、單特征描述符-彈性模量預(yù)測圖和特征相對影響圖,這些統(tǒng)計圖是模型預(yù)測性能和特征-彈性模量相關(guān)性的直觀顯示,方便用戶了解彈性預(yù)測的深層次.

        圖5 彈性預(yù)測可視化系統(tǒng)交互界面Fig.5 Elastic prediction visualization system interface

        3 結(jié)語

        文中使用了3種特征選擇方法和4種機器學(xué)習(xí)模型組成9種組合模型,對MP數(shù)據(jù)庫中常用元素構(gòu)成的1143種無機化合物的彈性模量進行了預(yù)測,并進行模型性能比較.

        (1)實驗發(fā)現(xiàn)3種特征選擇方法對于預(yù)測的性能影響差異很小,而不同的機器學(xué)習(xí)模型存在較大差異,其中GBDT的預(yù)測性能在4種方法中是最優(yōu)的,Pearson/RFE-GBDT組合模型的預(yù)測結(jié)果最好,對Kr和Kv預(yù)測的擬合優(yōu)度分別達到了0.90和0.91,GBDT能靈活處理數(shù)據(jù)集中不同類型的特征描述符,從而得到最優(yōu)的預(yù)測.

        (2)對特征描述符的預(yù)測重要性進行量化分析,發(fā)現(xiàn)每原子能量、元素熔點、總能量、密度等特征描述符,在彈性性能預(yù)測的過程中具有較大影響,重要的特征符可以單獨作用于彈性預(yù)測,得到材料的彈性預(yù)測范圍,彈性模量也可反推材料關(guān)鍵特征屬性的可行區(qū)間,此發(fā)現(xiàn)有助于加快材料的粗篩和新材料的發(fā)現(xiàn).

        (3)設(shè)計了針對材料彈性預(yù)測的可視分析系統(tǒng),該系統(tǒng)集數(shù)據(jù)收集與可視分析于一體,將實驗用到的材料數(shù)據(jù)庫、機器學(xué)習(xí)模型、數(shù)據(jù)分析算法嵌入其中,方便用戶根據(jù)自身需求獲取相關(guān)數(shù)據(jù),增強材料彈性性能研究的分析能力,對新型功能材料的研發(fā)具有重要意義.

        猜你喜歡
        數(shù)據(jù)庫特征模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        3D打印中的模型分割與打包
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        中文天堂在线www| 精品久久中文字幕系列| 久久不见久久见免费视频6 | 国产精品jizz视频| 国产成人免费一区二区三区| 国产一区二区精品久久呦| av在线免费观看网站免费| 午夜福利av无码一区二区| 波多野结衣有码| 精品中文字幕手机在线| av色一区二区三区精品| 中字幕人妻一区二区三区| 国产精品11p| 中文字幕二区三区在线| 精品人妖一区二区三区四区| 午夜成人鲁丝片午夜精品| 免费看国产成年无码av| 蜜桃成人精品一区二区三区| 影音先锋久久久久av综合网成人| 一区二区三区在线 | 欧| 538任你爽精品视频国产| 91羞射短视频在线观看| 国内精品久久久久影院优| 九九视频在线观看视频6| 无码视频一区=区| 精品国产一区二区三区av麻| 国产乱码精品一区二区三区四川人| 91高清国产经典在线观看 | 日韩精品极视频在线观看免费| 99久久99久久精品免费看蜜桃| 国产精品丝袜黑色高跟鞋| 国产高跟丝袜在线诱惑| 蜜桃传媒一区二区亚洲av婷婷| 国产成人精品电影在线观看| 无码一区二区三区在线在看| 99久久婷婷国产精品综合网站| 亚洲成av人在线播放无码| 免费网站国产| 日韩激情av不卡在线| 欧美牲交a欧美牲交aⅴ| 久久韩国漫画无删减漫画歪歪漫画|