吳思遠 王宇琦 肖睿娟? 陳立泉
1) (中國科學院物理研究所, 清潔能源實驗室, 北京 100190)
2) (中國科學院大學, 北京 100049)
基于自動化技術(shù)和計算機技術(shù)的高通量方法可快速提供數(shù)以萬計的科研數(shù)據(jù), 對如何科學、高效的管理科研數(shù)據(jù)提出了新的挑戰(zhàn). 可充放的二次電池作為一種清潔高效的能源存儲器件, 是電動汽車發(fā)展的關(guān)鍵,也是風/光電儲能的首選. 電池器件性能的提升與電池新材料的研發(fā)密切相關(guān), 電池材料數(shù)據(jù)庫的發(fā)展可在電池材料研發(fā)中引入基于大數(shù)據(jù)的新興方法, 加速電池材料的開發(fā). 本文從電池材料數(shù)據(jù)的獲取、通用型及特定性質(zhì)的電池材料數(shù)據(jù)庫構(gòu)建、大數(shù)據(jù)方法對電池材料研發(fā)的促進和發(fā)展電池材料數(shù)據(jù)庫所面臨的挑戰(zhàn)等方面對電池材料數(shù)據(jù)庫的發(fā)展和應用進行了介紹.
在材料研發(fā)的諸多領域中, 鋰二次電池材料的開發(fā)對于能源的清潔高效利用及環(huán)境的可持續(xù)發(fā)展十分重要[1]. 當前鋰電池產(chǎn)業(yè)面臨的關(guān)鍵問題是開發(fā)出全新的鋰電池材料以提升下一代鋰二次電池的能量密度、功率密度和安全性能[2]. 近年來“材料基因組”作為一種新的研究方法, 有效地加速了材料從研究到應用的進程, 降低了材料研發(fā)的成本[3,4]. 基于材料基因組思想的高通量技術(shù)為科學研究提供了大量的數(shù)據(jù), 也對如何高效、完備的管理和使用科研數(shù)據(jù)提出了挑戰(zhàn), 建立高通量材料研究的相關(guān)數(shù)據(jù)庫將有效加速新材料的探索和研發(fā),并將為材料研究領域中引入機器學習、數(shù)據(jù)挖掘等人工智能技術(shù)奠定基礎. 目前材料數(shù)據(jù)庫的研究主要涉及材料數(shù)據(jù)的產(chǎn)生、歸類和應用三個方面, 如圖1 所示. 數(shù)據(jù)的來源包括實驗數(shù)據(jù)和計算數(shù)據(jù),除了文獻和已有資料中可收集的大量數(shù)據(jù)外, 高通量實驗和高通量計算也提供了越來越可觀的數(shù)據(jù);對于收集的數(shù)據(jù)通常需要根據(jù)其獲得方式、精確程度和所關(guān)聯(lián)的物性等進行歸類, 為數(shù)據(jù)匹配相應的標簽, 以實現(xiàn)數(shù)據(jù)庫的建立; 從構(gòu)建數(shù)據(jù)庫的數(shù)據(jù)中, 可以根據(jù)應用需求直接篩選符合條件的材料,也可以通過大量的材料學數(shù)據(jù)借助機器學習算法來挖掘材料宏觀性質(zhì)與微觀結(jié)構(gòu)之間的關(guān)聯(lián). 隨著大量材料數(shù)據(jù)的出現(xiàn)和人工智能算法的優(yōu)化, 材料數(shù)據(jù)庫在未來協(xié)助研究人員優(yōu)化和設計電池新材料方面將發(fā)揮越來越顯著的作用[5-7].
圖1 材料數(shù)據(jù)的產(chǎn)生、歸類和應用流程Fig. 1. Flowchart of creation, classification and application of materials data.
圖2 各類材料數(shù)據(jù)庫的出現(xiàn)時間Fig. 2. Appearance time of various materials databases.
圖2 顯示了幾種具有代表性的材料數(shù)據(jù)庫的出現(xiàn)時間. 這其中以按照材料類型建立的數(shù)據(jù)庫為主, 例如為具有某種共同用途或具有某種共同結(jié)構(gòu)特征的材料建立的數(shù)據(jù)庫, 包含每種材料的多種物理、化學等性質(zhì)[8-10]; 也有以某種特定材料性質(zhì)建立的數(shù)據(jù)庫, 例如針對離子在固體中傳輸性質(zhì)的數(shù)據(jù)庫[11,12]. 早期的材料數(shù)據(jù)庫常常是針對一類材料的一個具體性質(zhì), 例如鈣鈦礦結(jié)構(gòu)鐵電材料的聲子性質(zhì)數(shù)據(jù)[13], 非線性光學材料的陰離子基團性質(zhì)等[14]; 在2000 后, 逐步出現(xiàn)了熱電材料、半Heusler半導體、沸石材料和拓撲材料等各類材料數(shù)據(jù)庫[15-18]; 近十年來, 隨著自動化高通量計算的發(fā)展, 目前已實現(xiàn)了對無機晶體數(shù)據(jù)庫中大量已知結(jié)構(gòu)化合物的計算, 因此出現(xiàn)了Materials Project,AFLOW, OQMD, Atomly 等多個包含各種可計算物性的通用型材料計算數(shù)據(jù)庫[19-22].
可充放的二次電池作為下一代儲能器件的首選, 受到了人們的廣泛關(guān)注. 建立數(shù)據(jù)信息豐富的電池材料數(shù)據(jù)庫將有助于研究人員從數(shù)據(jù)獲取、數(shù)據(jù)挖掘和數(shù)據(jù)預測各個階段實現(xiàn)電池新材料的探索. 正確認識材料結(jié)構(gòu)與性能之間的關(guān)系, 可以合理的篩選、優(yōu)化和設計新材料, 進而加速材料從研發(fā)到應用的過程, 降低材料的開發(fā)成本. 本文將在第二部分介紹電池材料數(shù)據(jù)的來源及通用型和特定性質(zhì)型的電池材料數(shù)據(jù)庫; 第三部分介紹目前使用電池數(shù)據(jù)進行材料篩選和機器學習的進展; 第四部分介紹發(fā)展電池材料數(shù)據(jù)庫所面臨的挑戰(zhàn).
與圖1 所展示的各種材料數(shù)據(jù)的獲取方式相似, 電池材料的數(shù)據(jù)也主要來源于實驗和計算兩個方面. 實驗數(shù)據(jù)的收集和整理主要來源于已發(fā)表的各類文獻, Ghadbeigi 等[23]從科技文獻中手工收集了大量電池材料數(shù)據(jù)并構(gòu)建了數(shù)據(jù)庫. 計算機技術(shù)的發(fā)展, 特別是基于自然語言的文本挖掘功能的實現(xiàn), 顯著加快了從已發(fā)表文獻中獲取實驗數(shù)據(jù)的自動化進程. Huang 和Cole[24]采用自行編寫的Chem-DataExtractor 建立了從文獻中自動收集電池數(shù)據(jù)的方案, 構(gòu)建了總條目29 萬余條, 包含容量、電導率、庫倫效率、能量密度和電壓共五種性質(zhì)的數(shù)據(jù)庫.
理論模擬也為電池材料提供了豐富的數(shù)據(jù)集.電池的模擬包括在原子分子尺度、微觀尺度和器件在宏觀尺度上電池各類性質(zhì)進行模擬. 如分別采用原子尺度的DFT 和DFTB 計算從電荷轉(zhuǎn)移角度以及采用有限元的微觀尺度從Li 濃度梯度引發(fā)的應力應變等來闡述界面問題[25,26]. 近年來快速發(fā)展的高通量計算主要是基于密度泛函理論的高通量計算, 通過設計一系列運算流程, 實現(xiàn)對材料原子尺度本征性質(zhì)的大批量自動化計算. 材料中各種不同的物性會涉及到不同的計算方法, 表1 列出了目前已實現(xiàn)高通量化計算的各種材料性質(zhì). 針對電池材料的反應機制, 還可通過熱力學數(shù)據(jù)獲得各種材料的理論能量密度, 為實際分析和篩選電極材料提供參考. Peng 等[27]與Zu 和Li[28]分析了過去60 年電池能量密度的增長趨勢并計算了不同體系Li,Na, Mg, Al 和Zn 電池的理論能量密度; Wu 等[29]使用電池材料的基本數(shù)據(jù)計算了不同18650 電芯的實際能量密度; Wang 等[30]計算了不含鋰的正極材料的嵌鋰性能, 得到其理論能量密度; Cao 等[31]收集了理論能量密度高的材料的熱力學數(shù)據(jù), 用于尋找高能量密度電極.
表1 高通量計算所能獲得的材料性質(zhì)Table 1. Properties achieved by high-throughput calculations.
在數(shù)據(jù)的獲取過程中, 需要關(guān)注數(shù)據(jù)產(chǎn)生的條件和數(shù)據(jù)的誤差[32,33]. 對于實驗數(shù)據(jù), 測量環(huán)境(如溫度、壓力等)和測量方法常常會影響數(shù)值的大小, 那么后續(xù)的數(shù)據(jù)挖掘則需要對數(shù)據(jù)進行歸類,在相同條件下測量的數(shù)據(jù)間可以進行更為科學的比較. 對于理論模擬的數(shù)據(jù), 設定相同模擬參數(shù)則較為容易, 例如在基于密度泛函的高通量計算中,通過設定相同的關(guān)聯(lián)函數(shù)、積分密度和收斂條件等參數(shù), 可以將數(shù)據(jù)的準確度控制在相同的范圍. 實驗數(shù)據(jù)與計算數(shù)據(jù)相結(jié)合的數(shù)據(jù)庫構(gòu)建思想目前獲得了廣泛的認同[34,35]. 數(shù)據(jù)類型的全面和準確是進一步對電池材料數(shù)據(jù)進行大規(guī)模分析和挖掘的基礎.
電池材料的諸多性質(zhì)中, 脫/嵌鋰電位、熱力學穩(wěn)定性和化學穩(wěn)定性等均可從密度泛函計算得到的能量、電子結(jié)構(gòu)等信息中獲得[36], 因此包含高通量密度泛函計算結(jié)果的通用型材料數(shù)據(jù)庫都可用于電池材料本征性質(zhì)的研究. 國際上已有多個研究團隊推出了包含體系能量、能帶結(jié)構(gòu)、力學模量和熱力學相圖等信息的材料數(shù)據(jù)庫, 其材料結(jié)構(gòu)的來源既包括無機晶體數(shù)據(jù)庫中已有物質(zhì), 也包括大量由已有物質(zhì)衍生出的虛擬結(jié)構(gòu), 為發(fā)現(xiàn)新材料提供了條件. 表2 列出了幾種公開的通用型材料數(shù)據(jù)庫及用于構(gòu)建該數(shù)據(jù)庫的高通量計算軟件. 其中Materials Project 數(shù)據(jù)庫除了收錄密度泛函的計算數(shù)據(jù)外, 還開發(fā)了將基本計算數(shù)據(jù)轉(zhuǎn)化為電池性質(zhì)數(shù)據(jù)的模塊, 可獲得電壓曲線、理論容量、不同鋰化學勢下的穩(wěn)定性等用于電池材料研發(fā)的數(shù)據(jù),可通過Battery Explorer 模塊進行查找. Atomly數(shù)據(jù)庫是中國原創(chuàng)的材料數(shù)據(jù)庫, 包含14 萬余種材料的電子結(jié)構(gòu)信息和4 萬余組熱力學相圖信息,且含有通過機器學習獲得的勢函數(shù), 可有效加速分子動力學的模擬進程, 有望為電池材料提供大量動力學方面的研究數(shù)據(jù)[22].
表2 國內(nèi)外典型的通用型計算材料數(shù)據(jù)庫及公開發(fā)布的高通量計算軟件[19-22]Table 2. Typical database forcomputational materials[19-22].
除了從通用型的材料數(shù)據(jù)庫中獲取電池材料信息外, 還有為電池材料某一特定性質(zhì)構(gòu)建的數(shù)據(jù)庫, 其中以幾何和半經(jīng)驗方法計算得到的鋰離子輸運動力學數(shù)據(jù)庫為主, 包括我們在2018 年推出的電池材料離子輸運數(shù)據(jù)庫[11]和上海大學2020 年上線的離子傳輸特征數(shù)據(jù)庫[12,37]. 電池材料的離子輸運性質(zhì)與電池器件的充放電速率密切相關(guān), 也是開發(fā)新型固體電解質(zhì)的主要指標之一. 實驗中常通過電化學阻抗譜或核磁共振光譜來獲取材料的離子傳輸信息, 理論方法對離子輸運現(xiàn)象的模擬則經(jīng)歷了由晶體中幾何空間進行預估[37-39]、通過半經(jīng)驗勢函數(shù)進行估算[40]和采用基于密度泛函的過渡態(tài)方法精確計算[41]的幾個階段. 精確計算所需的計算量較大, 為了在初始階段實現(xiàn)大規(guī)模的材料篩選, 基于半經(jīng)驗勢函數(shù)的鍵價方法由于能給出離子輸運勢壘的變化趨勢, 因此被用來作為快離子導體初篩的方法之一. 我們用高通量鍵價計算的結(jié)果構(gòu)建了電池材料離子輸運性質(zhì)數(shù)據(jù)庫[11]. 如圖3(a)所示, 該數(shù)據(jù)庫包含了采用鍵價方法計算得到的21204 種無機晶體化合物中的離子輸運勢壘, 其中包括含Li 的化合物4535 種, 含Na 的化合物4344 種, 含K 的化合物2808 種, 含Mg 的化合物2145 種, 含Zn 的化合物2180 種、含Al 的化合物5192 種. 目前該數(shù)據(jù)庫具備三種便捷的查詢方式,包括根據(jù)化合物的元素組成進行查詢、根據(jù)化學式進行查詢、根據(jù)離子輸運類型及離子遷移勢壘的數(shù)值范圍進行查詢. 利用該數(shù)據(jù)庫可快速排除已知結(jié)構(gòu)化合物中離子遷移勢壘較高的物質(zhì), 為進一步探尋快離子導體有效地縮小了范圍. 同時, 如圖3(b)所示, 數(shù)據(jù)庫所包含的大量化合物中, 不僅有遷移勢壘小的結(jié)構(gòu), 也有遷移勢壘大的結(jié)構(gòu), 這為后續(xù)的數(shù)據(jù)挖掘和機器學習提供了完備的樣本集. 上海大學施思齊研究組[37]則采用幾何分析的方法, 利用Voroni多邊形鑲嵌模型尋找擴散路徑并編寫了CAVD 程序, 為進一步使用第一性原理NEB 計算勢壘構(gòu)建了初始輸入文件[39].
圖3 (a) 電池材料離子輸運數(shù)據(jù)庫網(wǎng)站頁面; (b) 數(shù)據(jù)種類Fig. 3. (a) The database of ion transport properties for battery materials; (b) data distributions for various types of materials.
材料數(shù)據(jù)庫的建立可以幫助我們加深對已有材料的理解, 發(fā)現(xiàn)具有目標物性的新材料. 當人們對某一性質(zhì)所對應的原子結(jié)構(gòu)或電子結(jié)構(gòu)特征已有清晰認識時, 可以從數(shù)據(jù)庫中直接尋找具有這一特征的化合物. 例如: 在確認非線性光學材料的性質(zhì)與陰離子基團結(jié)構(gòu)的關(guān)聯(lián)后, Avdeev 等[14]通過尋找具有特定陰離子點群特征的結(jié)構(gòu)來尋找新的非線性光學材料; 在發(fā)現(xiàn)了電子結(jié)構(gòu)特征與材料拓撲性質(zhì)的關(guān)聯(lián)后, Zhang 等[18]發(fā)現(xiàn)了數(shù)千種新的拓撲材料. 另一種篩選方式是直接計算出目標物性, 選出達到應用要求的材料, 電池材料的篩選大多使用這種直接篩選的方式. 例如Kirklin 等[42]從515 種硅化物、錫化物和磷化物中以電化學勢、體積變化和容量為標準篩選出CoSi2, TiP, NiSi2等幾種性能優(yōu)于石墨的負極材料; Zhu 等[43]以鋰電勢和熱力學穩(wěn)定性為標準篩選出對金屬鋰負極穩(wěn)定的化合物; Wang 等[44]以離子輸運勢壘為標準篩選出可以提高Li3PS4離子電導率的氧摻雜和鋅氧共摻雜方案.
隨著高通量計算和高通量實驗帶來的材料大數(shù)據(jù)的出現(xiàn), 機器學習成為探索材料的微觀結(jié)構(gòu)與宏觀性質(zhì)之間關(guān)聯(lián)的新方法. 使用機器學習方法探究材料中的構(gòu)效關(guān)系, 是借助數(shù)據(jù)挖掘算法在所關(guān)注的目標物性與材料的組分、結(jié)構(gòu)等變量間建立映射關(guān)系. 如圖4 所示, 對于電池材料而言, 目標物性可以是嵌鋰電位、電子電導、脫嵌鋰體積變化、離子遷移勢壘等各種為滿足應用需求所要達到的物性; 用于描述材料的組分、結(jié)構(gòu)的變量稱為描述因子, 研究人員可以根據(jù)對于材料的認識來進行構(gòu)建, 例如用晶格參數(shù)、對稱性等描述其晶體構(gòu)造,用配位數(shù)、鍵長、鍵角等描述局域化學環(huán)境等.Sendek 等[45]通過選擇鋰離子周圍配位數(shù)、配位距離等描述符并利用機器學習中的多元線性回歸算法判斷各種晶體結(jié)構(gòu)作為鋰電池固態(tài)電解質(zhì)材料的可能性; Liu 等[46]利用支持向量機算法, 探究了摻雜元素化合價、摻雜離子半徑、摻雜元素泡利電負性等描述因子與鋰電極/固態(tài)電解質(zhì)界面穩(wěn)定性之間的關(guān)系. 表3 中列舉了采用機器學習方法研究二次電池中各類構(gòu)效關(guān)系的實例, 可以看出, 這種基于大數(shù)據(jù)的分析方法可廣泛應用于固態(tài)電解質(zhì)、聚合物電解質(zhì)、電極/電解質(zhì)界面和電池制造等各方面的研究.
圖4 數(shù)據(jù)挖掘方法在探究材料構(gòu)效關(guān)系中的應用Fig. 4. Data mining method applied in exploring the relationship between structure and properties.
表3 機器學習模型應用于二次電池的構(gòu)效關(guān)系Table 3. Application of machine learning method in the research of secondary batteries.
圖5 新能源材料數(shù)據(jù)庫的主要技術(shù)挑戰(zhàn)Fig. 5. The main technologic challenges in the development of energy materials database.
電池材料數(shù)據(jù)庫需面向各類科研及工業(yè)開發(fā),因此在數(shù)據(jù)獲取、數(shù)據(jù)管理和數(shù)據(jù)使用方面要兼顧多種應用場景. 圖5 列舉了電池材料數(shù)據(jù)庫在構(gòu)建過程中需要優(yōu)化的各個方面. 數(shù)據(jù)的獲取無論是計算數(shù)據(jù)還是實驗數(shù)據(jù), 都需要關(guān)注數(shù)據(jù)的誤差范圍和獲取條件. 對于數(shù)據(jù)管理, 需考慮不同方法所獲得的數(shù)據(jù)之間如何對應、不同空間或時間尺度的數(shù)據(jù)之間如何關(guān)聯(lián)、在數(shù)據(jù)更新過程中如何檢驗數(shù)據(jù)的準確度等問題. 對于數(shù)據(jù)使用, 一方面需要提供快捷高效的搜尋方式供各種需求的使用者便利地獲取所需數(shù)據(jù); 另一方面需要開發(fā)對數(shù)據(jù)之間有效信息進行挖掘的研究工具, 拓展數(shù)據(jù)庫中數(shù)據(jù)的應用價值.
電池器件的性能不僅與電池材料的本征性質(zhì)相關(guān), 也與電池材料的微觀形貌、多種材料之間的相互作用[47]、外界環(huán)境場及器件的宏觀構(gòu)造等多種不同空間和時間尺度上的性質(zhì)緊密關(guān)聯(lián), 因此要獲得從材料性質(zhì)到器件性能之間的認識, 需要建立多層級的電池材料數(shù)據(jù)庫[48,49]. 表4 列出了在原子尺度、微觀尺度、外場效應、多相作用和宏觀尺度上所涉及的電池材料數(shù)據(jù)及可能的用途和使用方法.
在材料基因組思想所推動的高通量技術(shù)發(fā)展下, 電池材料數(shù)據(jù)庫獲得了快速的發(fā)展, 在計算方法多樣性、數(shù)據(jù)完備性和各類關(guān)鍵性質(zhì)數(shù)據(jù)的獲取方面都有進展. 未來, 電池材料數(shù)據(jù)庫在提供材料數(shù)據(jù)的基礎上, 將進一步面向應用需求, 構(gòu)建不同層級的電池數(shù)據(jù), 并整合嵌入通用的機器學習算法, 實現(xiàn)研究人員從數(shù)據(jù)獲取、數(shù)據(jù)挖掘到數(shù)據(jù)預測的新材料探索過程. 電池材料數(shù)據(jù)庫的建立將有效地提升基于材料基因組的科研數(shù)據(jù)的有效管理及公共服務能力, 對于與能源材料探索以及與電子、離子輸運相關(guān)的物理性質(zhì)的理解都會起到積極的作用, 同時也將為在材料研究領域引入人工智能方法提供必不可少的數(shù)據(jù)基礎.