陽王東 楊昊 冷燦 潘佳銘 唐卓 田澤安 李肯立
摘要:隨著信息學(xué)和數(shù)據(jù)科學(xué)工具的發(fā)展,各種計算機科學(xué)軟件在材料模擬計算領(lǐng)域的應(yīng)用不斷增加.為了加速催化劑的篩選,開展了基于信息工具如何改善和增強材料篩選的研究,介紹一種基于第一性原理的高通量材料集成計算框架GASpy(Generalized Adsorption Simu?lator for Python).該框架支持計算任務(wù)的自動化流程管理,可以借助Fireworks調(diào)用DFT(Den?sity Functional Theory)計算,并可以將運算結(jié)果以及中間步驟保存至MongoDB數(shù)據(jù)庫.平臺支持與不同高性能計算集群的動態(tài)綁定,支持大批量計算作業(yè)的生成、提交.平臺同時支持?jǐn)?shù)據(jù)的提取、自動存儲.利用GASpy在天河一號上對材料網(wǎng)站上獲取的晶體結(jié)構(gòu)進(jìn)行了實驗測試,進(jìn)行晶體結(jié)構(gòu)優(yōu)化并計算吸附能,結(jié)果表明結(jié)合各種信息學(xué)工具可以更加靈活高效地實現(xiàn)大規(guī)模自動化的DFT材料模擬計算,在模擬電催化領(lǐng)域有較好的應(yīng)用前景.
關(guān)鍵詞:GASpy;第一性原理;高通量框架;DFT;材料模擬計算
中圖分類號:TP315
文獻(xiàn)標(biāo)志碼:A
半個世紀(jì)之前,材料科學(xué)的迅速發(fā)展帶動了科學(xué)技術(shù)的進(jìn)步與經(jīng)濟的發(fā)展.在這個過程中,從新物質(zhì)的發(fā)現(xiàn)到實際應(yīng)用的周期時間較長,有的甚至長達(dá)十幾年,新材料的開發(fā)和生產(chǎn)成為制約一個國家工業(yè)化發(fā)展的因素之一.傳統(tǒng)的材料研發(fā)局限于以專家試驗為主的“試錯法”,這種方法模式單一,需要多年的經(jīng)驗以及相關(guān)知識的積累,開發(fā)周期較長,開發(fā)成本較高,而且回報率比較低[1].
同時傳統(tǒng)方法面臨著日益嚴(yán)峻的化石能源危機與環(huán)境污染等問題.為了解決這個問題,人們提出了各種替代方案.這些方案包括使用光電、電池、太陽能燃料和化學(xué)品、燃料電池以及其他新興技術(shù).發(fā)展可再生綠色能源的轉(zhuǎn)換技術(shù)對優(yōu)化能源結(jié)構(gòu)具有重大意義.這些技術(shù)的一個共同問題是,研究人員仍然需要進(jìn)行額外的材料開發(fā),以提高經(jīng)濟可行性.一些研究人員已經(jīng)轉(zhuǎn)向計算模擬來幫助材料篩選和開發(fā).
現(xiàn)今計算機技術(shù)和各種信息學(xué)工具的發(fā)展為加快新材料模擬和性能預(yù)測提供了新的機會.面臨著智能制造行業(yè)和經(jīng)濟的飛速發(fā)展,越來越多研究人員將以更短的時間、更低的成本縮短新型材料從發(fā)現(xiàn)到生產(chǎn)應(yīng)用的研究使用周期.
人類基因組計劃是結(jié)合已知的基因數(shù)據(jù),用可拓展的理論去模擬未知的基因組合.新材料的發(fā)現(xiàn)過程與這種情況相似,通過高性能的計算方式,去發(fā)現(xiàn)更多的我們還未發(fā)現(xiàn)的材料,同時利用高通量的數(shù)據(jù)處理方式,為新材料的發(fā)現(xiàn)以及生產(chǎn)設(shè)計提供更廣闊的數(shù)據(jù)基礎(chǔ),擴大了模型的篩選模式,減少了研發(fā)周期和性能測試時間和糾錯時間,為新材料的研究趨勢貢獻(xiàn)新的力量.
在材料學(xué)、計算科學(xué)等領(lǐng)域,會經(jīng)常運用第一性原理,與“試錯法”相比,第一性原理計算方法的優(yōu)勢十分明顯,它能夠確定表面弛豫、吸附等.對比實驗研究,第一性原理計算能加快人們提出合理實驗方案的速度.隨著電子信息技術(shù)的高速發(fā)展,第一性原理計算,在材料模擬計算方面有了很大的進(jìn)步,第一性原理計算已經(jīng)成為計算材料科學(xué)的重要基礎(chǔ)和核心內(nèi)容[2].
研究人員采用密度泛函理論(DFT)來預(yù)測析氫反應(yīng)的電催化性能[3].DFT還用于預(yù)測電池電解液穩(wěn)定[4],DFT和分子動力學(xué)(MD)用于預(yù)測材料的光學(xué)帶隙[5-6].當(dāng)遇到搜索空間逐步增大的情況,這些模擬的設(shè)置在計算上可能是昂貴的和耗時的.所以許多研究人員已經(jīng)開始構(gòu)建或使用信息科學(xué)工具,如工作流管理器、數(shù)據(jù)庫或代理模型來加速他們的材料開發(fā).這些類型的信息工具在軟件工程領(lǐng)域很豐富,但在材料模擬計算領(lǐng)域卻不常見.
晶體材料的大范圍篩選并非一件容易的事情.有些方法通過關(guān)注有限的搜索空間來解決這個問題,比如雙金屬A、B晶體[7]或簡單的立方晶格金屬間化合物[8].其他的方法還包括建立電子結(jié)構(gòu)計算的數(shù)據(jù)庫[9-10].大量的數(shù)據(jù)集對于進(jìn)行穩(wěn)健的篩選研究是必要的,但創(chuàng)建這些數(shù)據(jù)庫需要數(shù)十位DFT專家的合作.這種方法的結(jié)果是,研究人員花費了大量的時間配置、管理和等待DFT計算,這本身就是一種耗時的工作.配置和管理DFT計算的人員成本已經(jīng)通過創(chuàng)建基于計算機科學(xué)的解決方案得到了有效解決.
信息學(xué)和數(shù)據(jù)科學(xué)工具在材料模擬計算研究中的應(yīng)用不斷增加,徹底改變了材料發(fā)現(xiàn)的方法.
在本文中我們首先討論了計算機軟件工具如何增強和改善材料篩選和發(fā)展,并實現(xiàn)了工作流、數(shù)據(jù)庫和Docker容器的組合.然后我們描述了一種框架GASpy,GASpy框架可以跨多個計算集群進(jìn)行密集型計算.這些解決方案對于進(jìn)行高通量材料篩選是至關(guān)重要的,它使用動態(tài)依賴圖來共享、組織和調(diào)度計算,以實現(xiàn)表面科學(xué)中新的、靈活的研究工作流,該框架可以用于金屬間化合物表面的大規(guī)模材料計算以發(fā)現(xiàn)電化學(xué)催化劑.最后,我們在天河一號上利用此高通量模擬計算框架對從材料數(shù)據(jù)庫中獲取的晶體結(jié)構(gòu)數(shù)據(jù)進(jìn)行了模擬實驗.驗證了該框架在解決實際問題中的可行性.
1信息學(xué)工具
1.1數(shù)據(jù)庫計算機科研工作者經(jīng)常共享數(shù)據(jù),以避免執(zhí)行
冗余計算,在過去,我們只是簡單地將結(jié)果存儲在共享計算機資源的文件系統(tǒng)中,然后報告文件的位置,以便協(xié)作者手動搜索和解析數(shù)據(jù).該方法簡單靈活,但隨著數(shù)據(jù)量大,耗時長,它會變得難以處理.這種方法還要求我們的合作者擁有與我們相同的計算資源,這對其他研究團隊,特別是實驗人員來說是一個障礙.計算機和材料計算領(lǐng)域的科學(xué)家通過創(chuàng)建包含底層數(shù)據(jù)的新格式或創(chuàng)建數(shù)據(jù)集來解決這個問題,這些數(shù)據(jù)庫允許我們系統(tǒng)地存儲和共享數(shù)據(jù).使用數(shù)據(jù)庫還可以減少材料計算領(lǐng)域的科研工作者冗余的計算.
在材料模擬中使用數(shù)據(jù)集的例子有很多.一個廣泛使用的數(shù)據(jù)庫工具是原子仿真環(huán)境(ASE)中的數(shù)據(jù)庫模塊,此模塊是開源的.它將仿真結(jié)果作為ASE原子對象存儲在自定義SQL模式中[11].許多計算材料庫中收集了用于小型計算的此類數(shù)據(jù)庫示例[12].ASE原子對象也可以存儲在靈活的Mongo模式中,使用開源的Vasp模塊[13]或更專門的開源pymatgen-db模塊[14].其他大型數(shù)據(jù)庫的例子包括但不限于OQMD[15]、TheMaterials Project[16]、Aflow?lib[17]、和NOMAD.隨著數(shù)據(jù)量的增大,數(shù)據(jù)如何存儲和檢索將成為難題,由于大量的材料數(shù)據(jù)產(chǎn)生,機器學(xué)習(xí)已經(jīng)成為一個主要的數(shù)據(jù)挖掘的工具.OQMD、AFLOW和NOMAD等數(shù)據(jù)庫中均引入了機器學(xué)習(xí)算法,加速材料知識的挖掘.
在材料模擬計算領(lǐng)域中數(shù)據(jù)庫的大量使用,以及減少合作數(shù)據(jù)共享的障礙,極大地加速了材料的發(fā)現(xiàn).數(shù)據(jù)庫是復(fù)雜的系統(tǒng),最終用戶需要經(jīng)過培訓(xùn)才能正確地填充、查詢和管理數(shù)據(jù)庫.在大多數(shù)情況下,不存在一致的API或方案來跨數(shù)據(jù)庫訪問信息或計算,這在很大程度上是由計算類型、理論級別和材料類型所導(dǎo)致的,Citrination[18]等商業(yè)機構(gòu)試圖解決在API領(lǐng)域的挑戰(zhàn).
1.2工作流管理
材料計算通常使用成熟或衍生的方法進(jìn)行迭代研究,例如計算數(shù)千種材料晶體的形成能或利用Vasp計算勢能面.每個計算都需要研究人員配置和管理,而重復(fù)配置數(shù)十次、數(shù)百次或數(shù)千次所需的時間有時會成為這些研究的限制因素.工作流管理器(WFMs)協(xié)調(diào)并自動化處理這些常見的任務(wù),使研究人員可以花更多的時間在研究上,用更少的時間執(zhí)行重復(fù)的任務(wù).
其中最成熟的一套WFMs是由管理材料項目的一個團隊開發(fā)的.他們的WFMs包括Python Materi?als Genomics(Pymatgen)、FireWorks、[19]Custodian和Atomate.[20]Pymatgen是用于材料分析的開源Python庫;它有可用的分析工具,如相圖生成器或吸附位置圖.FireWorks是一種跨多個計算集群管理計算的軟件,在計算機科學(xué)界被稱為pilot abstraction.它為數(shù)據(jù)驅(qū)動的科學(xué)計算提供了廣泛的支持,例如故障檢測和重復(fù)消除、長時間運行的項目報告和動態(tài)工作流.Fireworks的工作流主要由三個部件組成:
1.Firetask是一個原子計算工作,可以調(diào)單個shell腳本或定義單個Python函數(shù).
2.一個FireWork是用json格式的文件定義的,包含引導(dǎo)作業(yè)所需的所有信息,例如有Firetask順序執(zhí)行的數(shù)組,由于json文件的靈活性,用戶可以輕松地設(shè)計各種功能參數(shù).
3.一個工作流Workflow是一組FireWorks,彼此之間存在著依賴關(guān)系,運行兩個子FireWorks,需要一個父FireWork完成并產(chǎn)生輸出.
FireWorks工作流還支持工作優(yōu)先級的分配,例如我們有兩個工作流,每個任務(wù)有兩個步驟,我們希望在工作流B之前將A運行完成,我們可以遵循曲線所示的深度優(yōu)先方向來運行,也可以選用廣度優(yōu)先方向運行.這些都可以通過調(diào)用lpad工作板執(zhí)行相應(yīng)的命令做到.以上實例如圖1-2所示.
Atomate構(gòu)建在Pymatgen、FireWorks和Custodian之上,它為材料科學(xué)應(yīng)用程序提供了許多預(yù)構(gòu)建和可定制的工作流.一旦安裝和學(xué)習(xí)了這些工具,執(zhí)行大量的計算就變得容易得多,一致地執(zhí)行它們也變得更加自然.除了材料項目團隊開發(fā)的WFMs之外,還存在其他WFMs,并且對于補充許多其他大型數(shù)據(jù)庫系統(tǒng)是必要的.這些WFM工具的主要缺點是它們需要時間來創(chuàng)建和實現(xiàn),這可能會導(dǎo)致研究人員無法等待工作流管理器為其構(gòu)建用例.
1.3計算機軟件工具的結(jié)合
WFMs可以與DB結(jié)合.例如:材料項目利用其超級計算資源和工作流工具,如Custodian和Fire?Works,對大量材料的數(shù)百萬相關(guān)計算執(zhí)行數(shù)據(jù)處理和分析.AiiDA是另一個同時管理數(shù)據(jù)和計算的基礎(chǔ)設(shè)施[21].這種數(shù)據(jù)庫和工作流管理的結(jié)合幫助研究人員創(chuàng)建和共享大量數(shù)據(jù),同時避免重復(fù)計算.然而,這樣的框架需要相對大量的代碼和數(shù)據(jù)維護.
圖3將各種計算機軟件工具有機的組合起來,為我們構(gòu)建GASpy框架搭建了軟件基礎(chǔ).
Task Entity是FireWorks中已經(jīng)準(zhǔn)備好等待計算的任務(wù)(我們稱為make fireworks)
JobEntity是FireWorks中已經(jīng)開始執(zhí)行計算的任務(wù)(我們稱為rlaunch)
2GASpy框架
前面提到的數(shù)據(jù)庫/工作流管理框架主要是為了實現(xiàn)工作流的自動化,然后將其應(yīng)用到許多系統(tǒng)中.這在功能上不同于標(biāo)準(zhǔn)的、手動的、專家驅(qū)動的方法.如果一個專家想要計算一個新系統(tǒng)的屬性,他們通常首先向團隊成員或合作者詢問前提數(shù)據(jù),然后檢查系統(tǒng)文件夾以獲取數(shù)據(jù).然后他們提交最小的一組計算來填補知識的空白.這種專家驅(qū)動的方法更加靈活,因為只要前提數(shù)據(jù)存在,無需考慮數(shù)據(jù)來源或方法,就可以使用數(shù)據(jù).當(dāng)然,這種方法需要專家驗證計算上下文的準(zhǔn)確性.
對于實際的科學(xué)探索,我們需要一個與專家驅(qū)動的方法更緊密結(jié)合的框架,因此我們搭建了一個GASpy(Generalized Adsorption Simulator for Py?thon)[22].GASpy是一個開源框架,它將各種工作流管理包與數(shù)據(jù)庫軟件結(jié)合起來,并可以創(chuàng)建一個DFT模擬和結(jié)果的“智能數(shù)據(jù)庫”.用戶可以查詢這個數(shù)據(jù)庫,它將返回已經(jīng)存儲的相關(guān)結(jié)果.智能數(shù)據(jù)庫的框架是圍繞任務(wù)構(gòu)建的,這些任務(wù)可以動態(tài)組合到各種管道中執(zhí)行不同計算的操作.
GASpy通過建立一組任務(wù)來計算被吸附物和催化劑表面之間的吸附能.我們將這些任務(wù)與各種工作流管理器和數(shù)據(jù)庫軟件相結(jié)合.有些任務(wù)依賴于其他任務(wù),在表面上的任何吸附位點可以被識別之前,需要從一個晶體中枚舉一個表面.這種任務(wù)相互依賴由Luigi[23]軟件包管理,該軟件包通過為用戶管理任務(wù)先決條件和相互依賴關(guān)系來簡化任務(wù)執(zhí)行.所有需要DFT弛豫的Luigi任務(wù)都是通過FireWorks執(zhí)行的.
我們使用MongoDB數(shù)據(jù)庫存儲我們所有DFT的結(jié)果,即用戶信息、計算任務(wù)的工作流、用戶的數(shù)據(jù)權(quán)限以及計算結(jié)果.Mongo數(shù)據(jù)庫可以實現(xiàn)用戶和數(shù)據(jù)庫的交互式使用,方便用戶查詢,處理數(shù)據(jù)庫中的數(shù)據(jù).在材料科學(xué)中,不同種類的材料所關(guān)注的屬性差別較大,如果采用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫則需要為每種類別材料建立一張數(shù)據(jù)庫表,這樣不但會增加開發(fā)維護成本,而且不利于對用戶提供統(tǒng)一的數(shù)據(jù)查詢?nèi)肟?,增加了系統(tǒng)使用的復(fù)雜性.因此GASpy框架的數(shù)據(jù)庫系統(tǒng)建立在MongoDB基礎(chǔ)上,充分利用“無模式”的特點,將所有材料類別統(tǒng)一存儲管理,并為用戶提供統(tǒng)一的查詢?nèi)肟?
圖4展示了MongoDB數(shù)據(jù)庫對于材料模擬計算方便的功能.
我們可以很容易地創(chuàng)建新的任務(wù),使用從材料模擬計算得到的中間DFT結(jié)果來填充表面能數(shù)據(jù)庫,而無需解析吸附能結(jié)果.這種從中間數(shù)據(jù)中分離結(jié)果的做法允許我們將舊數(shù)據(jù)用于新的目的,同時最大限度地減少數(shù)據(jù)處理和分析時間.
GASpy的工作流管理和數(shù)據(jù)庫框架為材料模擬計算提供了各種好處.GASpy繼承了工作流管理框架的主要優(yōu)點:減少了執(zhí)行計算的開銷.傳統(tǒng)的工作流程包括對研究人員進(jìn)行幾周或幾個月的培訓(xùn),然后要求他們花幾個小時或幾天的時間管理成百上千的DFT弛豫.GASpy只花幾分鐘來查詢和排隊進(jìn)行任意數(shù)量的DFT弛豫.GASpy還繼承了數(shù)據(jù)庫的主要優(yōu)點:計算集中在一起,從不重復(fù).這意味著一個用戶排隊的單個裸露表面弛豫將被所有其他用戶在計算該表面上的吸附能量時使用.
GASpy框架可以Docker在集群上部署,Docker包含了代碼運行的基礎(chǔ)環(huán)境,可以在容器內(nèi)模擬材料計算,避免了因為大規(guī)模的計算而導(dǎo)致的服務(wù)器崩潰的問題.
GASpy工作流的有向無環(huán)圖形式如圖5所示.
每個盒子都是一個任務(wù),所有任務(wù)都由Luigi管理.任務(wù)的形狀表明Luigi使用哪個工具來執(zhí)行任務(wù).觸發(fā)任何單個任務(wù)都會導(dǎo)致Luigi觸發(fā)所有必要的上游任務(wù).因此,在數(shù)據(jù)庫中查詢特定位點的吸附能將自動觸發(fā)之前未完成的任務(wù).我們采用圓角矩形表示Pthton工具,剪去單角的矩形表示FireWorks工具,矩形表示Mongo工具,剪去對角矩形表示Pymat?gen工具.
GASpy的框架存在一些缺陷.對于少量的計算,構(gòu)造基礎(chǔ)設(shè)施然后使用它所需的時間比簡單地手動執(zhí)行和分析結(jié)果所需的時間要長.因此,當(dāng)基于已建立的計算工作流時,創(chuàng)建和使用類似GASpy的框架是有效的,但當(dāng)基于未建立的計算工作流時并非有效.這個缺點是框架固有的,是不可避免的.GASpy還有其他一些缺點,例如:GASpy沒有自動處理錯誤的方法.如果DFT弛豫因為服務(wù)器崩潰而失敗,那么用戶必須重新在GASpy上請求弛豫,或者如果DFT弛豫因為無法收斂而失敗,那么用戶必須提交另一個查詢來指定不同的DFT設(shè)置并重新請求弛豫.
3GASpy示范案例
本文在國家超級計算長沙中心的天河一號上基于GASpy框架進(jìn)行了材料模擬,我們模擬了mp-1006883的晶體CONi,計算了彌勒指數(shù)為1的晶面吸附氫氧根的吸附能.
3.1實驗設(shè)置
為了驗證系統(tǒng)的可用性,本次實驗在GASpy框架上進(jìn)行了CONi晶體的結(jié)構(gòu)推演仿真模擬.為了簡單起見,本次任務(wù)用Luigi工作流方式批量產(chǎn)生CONi彌勒指數(shù)為1的晶面所有吸附點,總共有25個不同吸附位置,這些數(shù)據(jù)都存放在Mongo數(shù)據(jù)庫里面.再利用FireWorks批量對這些吸附模型產(chǎn)生待提交的任務(wù),并根據(jù)當(dāng)前的可用節(jié)點情況執(zhí)行任務(wù).我們從材料網(wǎng)站上獲得了745個計算模型,圖6展示了Fire?Works工作流的作業(yè)狀態(tài).
然后對這些模型進(jìn)行了優(yōu)化,優(yōu)化后可以得到吸附能結(jié)果.這些結(jié)果都存儲在Mongo數(shù)據(jù)庫中.圖7展示了Mongo數(shù)據(jù)庫中的數(shù)據(jù)格式.
我們的天河集群配置如表1所示.
我們在天河一號集群上進(jìn)行測試的并行節(jié)點有27個,圖8展示了我們在天河一號上的節(jié)點設(shè)置情況.
整套過程中我們都是利用FireWorks工作流產(chǎn)生任務(wù)并執(zhí)行計算.我們可以利用FireWorks的lpad工作板在添加FW工作流后利用命令行設(shè)置工作優(yōu)先級,取消、刪除已經(jīng)執(zhí)行的工作流,重新啟動工作流,重置失敗的工作流.
3.2實驗結(jié)果
CONi吸附能結(jié)果如表2所示.
該案例利用計算機科學(xué)軟件工具,針對不同吸附點產(chǎn)生了批量任務(wù),并利用超級計算機對任務(wù)進(jìn)行了模擬計算,這些科學(xué)工具能夠管理不同任務(wù)之間的關(guān)系,因此是用來測試基于信息工具就可以改善和增強材料篩選的問題的一個很好案例.
4結(jié)論
隨著各種計算機軟件工具的發(fā)展,使得大規(guī)模材料模擬計算變得更為方便,并且廣泛應(yīng)用于電催化領(lǐng)域,高效地加速了催化劑的發(fā)現(xiàn),有效的解決了能源問題.這些工具有不同的優(yōu)點和缺點,充分利用這些工具可以大大補充和加速現(xiàn)有的研究工作流程,提高科研人員的工作效率.本文結(jié)論如下:
1)本文分析總結(jié)了各種信息學(xué)軟件工具在材料篩選和電催化領(lǐng)域的發(fā)展,并將數(shù)據(jù)庫與工作流軟件進(jìn)行結(jié)合,為構(gòu)建模擬計算環(huán)境搭建了基礎(chǔ).
2)我們在天河一號集群上搭建了GASpy框架,它可以連續(xù)地生成和存儲DFT數(shù)據(jù),不需要用戶干預(yù),實現(xiàn)了計算機軟件成功應(yīng)用于材料和催化領(lǐng)域.
3)我們率先采用最新的GASpy框架在天河一號上面計算晶體CONi彌勒指數(shù)為1的晶面吸附氫氧根的吸附能,結(jié)果表明了結(jié)合工作流和數(shù)據(jù)庫等計算機軟件可以更加靈活高效地實現(xiàn)大規(guī)模自動化的DFT材料模擬計算.
參考文獻(xiàn)
[1]郭佳龍,王宗國,王彥棡,等.基于計算機技術(shù)的材料研發(fā)方法概述[J].數(shù)據(jù)與計算發(fā)展前沿,2021,3(2):120-132.
[2]陳剛,楊現(xiàn),范滄,等.Zr55Cu35Al10金屬玻璃中緊鍵結(jié)合團簇的定量表征[J].湖南大學(xué)學(xué)報(自然科學(xué)版),2015,42(6):73-77.
[3] SEH Z W,KIBSGAARD J,DICKENS C F,et al. Combining theory and experiment in electrocatalysis:Insights into materials design[J].Science,2017,355:6321.
[4] BORODIN O,OLGUIN M,SPEAR C E,et al. Towards high throughput screening of electrochemical stability of battery electro?l y t e s[ J ]. N a n o t e c h n o l o g y ,2 0 1 5 ,2 6( 3 5 ):3 5 4 0 0 3 .
[5] KANAL I Y,OWENS S G,BECHTEL J S,et al.Efficient compu?tational screening of organic polymer photovoltaics[J].The Jour?nal of Physical Chemistry Letters,2013,4(10):1613-1623.
[6] NAKAJIMA T,SAWADA K.Discovery of Pb-free perovskite so?lar cells via high-throughput simulation on the K computer[J]. The Journal of Physical Chemistry Letters,2017,8(19):4826- 4831.
[7] HANSEN H A,SHI C,LAUSCHE A C,et al.Bifunctional alloys for the electroreduction of CO2 and CO[J].Physical Chemistry Chemical Physics,2016,18(13):9194-9201.
[8] LI Z,WANG S W,CHIN W S,et al.High-throughput screening of bimetallic catalysts enabled by machine learning[J].Journal of Materials Chemistry A,2017,5(46):24131-24138.
[9] HUMMELSH?J J S,ABILD-PEDERSEN F,STUDT F,et al. CatApp:a web application for surface chemistry and heteroge?neous catalysis[J].Angewandte Chemie International Edition, 2 0 1 2 ,5 1( 1 ):2 7 2 - 2 7 4 .
[10] SCHEFFER M,DRAXL C,NOMAD Centre of Excellence.[EB/ OL].(2018-12-12)[2022-2-15]. https://www.nomad-coe.eu
[11] HJORTH LARSEN A,J?RGEN MORTENSEN J,BLOMQVIST J, et al. The atomic simulation environment-a Python library for working with atoms[J]. Journal of Physics. condensed matter, 2 0 1 7 ,2 9( 2 7 ):2 7 3 0 0 2 .
[12] LANDIS D D,HUMMELSH?J J S,NESTOROV S,et al. The computational materials repository[J].Computing in Science & E n g i n e e r i n g ,2 0 1 2 ,1 4( 6 ):5 1 - 5 7 .
[13] KITCHIN J R. Examples of effective data sharing in scientific publishing[J].ACS Catalysis,2015,5(6):3894-3899.
[14] ONG S P,RICHARDS W D,JAIN A,et al.Python Materials Ge?nomics(pymatgen):a robust,open-source python library for mate?rials analysis[J]. Computational Materials Science,2013,68: 314-319.
[15] KIRKLIN S,SAAL J E,MEREDIG B,et al.The Open Quantum Materials Database(OQMD):assessing the accuracy of DFT for?mation energies[J]. Npj Computational Materials,2015,1: 15010.
[16] JAIN A,ONG S P,HAUTIER G,et al.Commentary:The Materi?als Project:a materials genome approach to accelerating materials innovation[J].APL Materials,2013,1(1):011002.
[17] CURTAROLO S, SETYAWAN W, WANG S D, et al. AFLOWLIB.ORG:a distributed materials properties repository from high-throughput ab initio calculations[J]. Computational Materials Science,2012,58:227-235.
[18] HILL J,MANNODI-KANAKKITHODI A,RAMPRASAD R,et al. Materials data infrastructure and materials informatics[M]//Com?putational Materials System Design.Cham:Springer International P u b l i s h i n g ,2 0 1 7 :1 9 3 - 2 2 5 .
[19] JAIN A,ONG S P,CHEN W,et al.FireWorks:a dynamic work?flow system designed for high-throughput applications[J].Con?currency and Computation:Practice and Experience,2015,27 ( 1 7 ):5 0 3 7 - 5 0 5 9 .
[20] MATHEW K,MONTOYA J H,F(xiàn)AGHANINIA A,et al.Atomate: a high-level interface to generate,execute,and analyze computa?tional materials science workflows[J].Computational Materials S c i e n c e ,2 0 1 7 ,1 3 9 :1 4 0 - 1 5 2 .
[21] PIZZI G,CEPELLOTTI A,SABATINI R,et al.AiiDA:automated interactive infrastructure and database for computational science [J].Computational Materials Science,2016,111:218-230.
[22] TRAN K,ULISSI Z W. Active learning across intermetallics to guidediscovery of electrocatalysts for CO2 reduction and H2 evolu?tion[J].Nature Catalysis,2018,1(9):696-703.
[23] BERNHARDSSON E,F(xiàn)REIDER E,ROUHANI. A luigi,a python package that builds complex pipelines of batch jobs[EB/OL]. (2012-1-21)[2022-2-15]. https://github.com/spotify/luigi.