黃 鑫,張朝陽
(中國工程物理研究院化工材料研究所,四川 綿陽 621999)
為滿足現(xiàn)代武器對含能化合物綜合性能的高需求,科研人員以實驗探索與理論計算的方式研究高性能含能化合物,產(chǎn)生了大量極具價值的包括含能化合物設(shè)計、合成、表征在內(nèi)的數(shù)據(jù)[1-4]。例如,含能化合物的分子模擬研究能夠獲得包括幾何結(jié)構(gòu)、電荷分布、熱力學(xué)性質(zhì)、爆炸/分解反應(yīng)路徑以及基于定量構(gòu)效關(guān)系(QSPR)的性能預(yù)測模型等[5-6];含能化合物的合成與表征研究能夠獲得包括化學(xué)反應(yīng)路徑與機理、分子/晶體結(jié)構(gòu)、能量安全特性、力熱性質(zhì)等數(shù)據(jù)[7-9];含能化合物在武器裝藥中涉及到配方設(shè)計和評估等研究,涵蓋了包括黏合劑、增塑劑、鍵合劑、安定劑、鈍感劑和工藝助劑等物質(zhì)的相關(guān)性能數(shù)據(jù)[10]。
這些含能化合物及其相關(guān)物的實驗與計算數(shù)據(jù)分散在各種報告、期刊、專利、書籍、特殊文獻中,數(shù)據(jù)收集與數(shù)據(jù)質(zhì)量甄別困難較大;且出于數(shù)據(jù)敏感性與涉密性的原因,現(xiàn)有的含能化合物實驗數(shù)據(jù)庫通常只向特定的組織和人員開放訪問權(quán)限,如北約彈藥安全信息分析中心的Energetic Materials Compendium(EMC)數(shù)據(jù)庫[11]以及德國ICT 熱化學(xué)數(shù)據(jù)庫等。盡管在醫(yī)藥[12]、化學(xué)化工[13]、能源與金屬材料[14]等開放研究的熱點領(lǐng)域已經(jīng)建立了規(guī)模較大的量子化學(xué)計算數(shù)據(jù)庫并實現(xiàn)了較高程度的數(shù)據(jù)開放共享,目前國內(nèi)外尚缺少專門的數(shù)據(jù)庫用于收集含能化合物量子化學(xué)計算產(chǎn)生的數(shù)據(jù),以供研究人員獲取與使用。隨著數(shù)據(jù)驅(qū)動下的材料智能設(shè)計時代的到來,含能化合物的量子化學(xué)理論計算、高通量虛擬篩選技術(shù)等愈發(fā)成熟,能夠?qū)崿F(xiàn)對含能化合物的結(jié)構(gòu)與性質(zhì)進行高精度的分析和預(yù)測。在此基礎(chǔ)上建立含能化合物量子化學(xué)數(shù)據(jù)庫,收集含能化合物在高精度計算水平下的量子化學(xué)數(shù)據(jù),既能夠避免大量重復(fù)性的計算研究與資源消耗,也保證了數(shù)據(jù)質(zhì)量以便于進行深入分析及知識挖掘。
量子化學(xué)計算研究含能化合物能夠獲得的數(shù)據(jù)涵蓋面廣并且針對特定的能量安全性質(zhì),很難進行詳盡的列舉,感興趣的研究人員可以參考Peter Politzer等[15]以及肖鶴鳴教授課題組[16-17]出版的含能化合物理論計算與設(shè)計專著。量子化學(xué)計算是一種包含必要物理過程的嚴(yán)格方法,能夠提供含能化合物分子設(shè)計的微觀尺度信息,因此選擇高精度的含能化合物量子化學(xué)計算數(shù)據(jù)、建立含能化合物量子化學(xué)計算數(shù)據(jù)庫,對于含能化合物的智能分子設(shè)計具有重要意義。
本文主要總結(jié)并梳理近年來量子化學(xué)計算所獲得的含能化合物關(guān)鍵性結(jié)構(gòu)和性質(zhì)數(shù)據(jù)種類、數(shù)據(jù)庫與高通量虛擬篩選相結(jié)合的含能化合物分子設(shè)計,以期為含能化合物量子化學(xué)計算數(shù)據(jù)的產(chǎn)生與標(biāo)準(zhǔn)化制定、數(shù)據(jù)庫的概念設(shè)計及潛在的實際應(yīng)用提供有益的參考。此外,以本課題組開發(fā)的含能化合物量子化學(xué)高通量計算平臺(EM Studio)與含能化合物量子化學(xué)數(shù)據(jù)的數(shù)據(jù)庫(EM Database)為例,提供含能化合物量子化學(xué)數(shù)據(jù)從產(chǎn)生、收集與開放共享的具體案例。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)庫建設(shè)的重點工作,包括數(shù)據(jù)的準(zhǔn)確性、合規(guī)性、完整性、及時性、一致性等維度。量子化學(xué)計算基于量子力學(xué)的基本原理和方法研究化學(xué)問題,通過對物理過程的精確計算和預(yù)測得到材料的性質(zhì)。含能化合物結(jié)構(gòu)和性能的研究不僅涉及到從常規(guī)狀態(tài)到高溫高壓的極端條件,也涉及到從基態(tài)到快速反應(yīng)的燃燒和爆轟過程。量子化學(xué)計算作為理解、預(yù)測以及設(shè)計含能化合物的基礎(chǔ)方法,其準(zhǔn)確性對于所生成數(shù)據(jù)的有效性極為重要。從頭算和半經(jīng)驗方法、密度泛函方法等均在含能化合物的研究中獲得應(yīng)用,其中基態(tài)下分子與晶體的結(jié)構(gòu)與性質(zhì)研究最為基礎(chǔ)。研究人員也提出了基于量子化學(xué)計算結(jié)果的定量構(gòu)效關(guān)系模型,例如基于表面靜電勢的密度校正模型[18]、基于等鍵反應(yīng)的生成焓計算模型[19]、基于引發(fā)鍵解離能的感度預(yù)測模型[20]等。適用于含能化合物(包括共價、離子化合物等)的量子化學(xué)計算理論方法與性質(zhì)預(yù)測模型不同,其中對含有CHNO 元素的中性分子的方法發(fā)展較為成熟。下面以含有CHNO 元素的中性含能分子為例,梳理量子化學(xué)計算所能夠得到的基礎(chǔ)量子化學(xué)計算數(shù)據(jù)。
目前,研究人員廣泛使用包括GAUSSIAN、ORCA、VMD、Multiwfn 等程序軟件完成含能分子的量子化學(xué)計算與結(jié)果處理。借助統(tǒng)計熱力學(xué)理論,可以獲得含能分子在不同溫度下的性質(zhì)參數(shù),如焓、熵、自由能、生成熱、比熱等性質(zhì)。由于密度泛函方法的結(jié)果可靠、計算耗時較低,因此在含能化合物的結(jié)構(gòu)優(yōu)化、振動分析以及熱力學(xué)性質(zhì)計算方面獲得了廣泛使用。密度泛函方法的泛函與基組選擇對于計算耗時以及結(jié)果的準(zhǔn)確性有重要影響,研究人員對計算方法的選擇并沒有統(tǒng)一標(biāo)準(zhǔn)。例如,廣泛使用的泛函包括交換相關(guān)泛函PBE、雜化泛函B3LYP、PBE0、M06 系列,經(jīng)驗彌散泛函wB97XD 等;對基組的選擇則有Pople系列基組以及Dunning 相關(guān)一致性基組等。而對于某些熱力學(xué)參數(shù)進行高精度的計算,則需要使用組合方法,例如CCSD(T)外推至CBS 完備基組方法以及Gaussian-4(G4)組合方法等。
分子的幾何結(jié)構(gòu)數(shù)據(jù)主要記錄了分子中每個原子的元素種類和三維空間區(qū)域中的坐標(biāo)值,可以進一步得到鍵長、鍵角、二面角、分子密度、體積、表面積等信息。其記錄格式有多種,能夠被計算化學(xué)軟件讀取的通用文件格式包括xyz 文件格式、pdb 文件格式、mol文件格式等。
密度泛函計算方法將電子密度作為最基本的參量,用于描述和確定分子體系的性質(zhì)。通過電子密度能夠與勢能及能量有關(guān)的性質(zhì)建立關(guān)聯(lián),包括前線軌道能級(最高占據(jù)軌道能量EHOMO、最低未占據(jù)軌道能量ELUMO、能級差)、化學(xué)鍵級、原子電荷、分子極矩、電離能等。
含能分子的反應(yīng)性包括熱穩(wěn)定性、機械感度等。對于熱穩(wěn)定性而言,鍵解離能的數(shù)值代表了化學(xué)鍵的強弱,與熱分解性質(zhì)具有關(guān)聯(lián)性。對于機械感度而言,分子的靜電勢反映了分子的電荷分布、極值點以及正負(fù)電荷分離的情況,而不均衡的靜電勢分布往往導(dǎo)致亞穩(wěn)定性與機械感度高。
熱力學(xué)性質(zhì)主要分為兩類,其數(shù)值與計算所規(guī)定的熱力學(xué)系綜條件(溫度和壓力)有關(guān),分別為在絕對零度條件下計算得到的分子生成焓、零點振動能、焓值、吉布斯自由能,以及經(jīng)過溫度和壓力校正后的特定溫度與壓力條件下的上述數(shù)據(jù)。
密度泛函計算方法能夠得到包括基態(tài)和激發(fā)態(tài)的譜學(xué)性質(zhì)。例如,使用微擾理論方法能夠得到包括紅外、Raman 在內(nèi)的振動光譜數(shù)據(jù)以及包括NMR 在內(nèi)的磁譜數(shù)據(jù);而使用電子/中子激發(fā)計算則能夠獲得非平衡態(tài)的譜學(xué)性質(zhì)數(shù)據(jù)。
由此可見,量子化學(xué)以及結(jié)果的進一步處理計算能夠獲得種類豐富的數(shù)據(jù)信息。這也對數(shù)據(jù)的產(chǎn)生與收集提出了具體的要求:首先,計算方法可靠性的驗證是保證數(shù)據(jù)質(zhì)量的前提,需要在計算研究中選擇具有魯棒性的方法以獲得有意義的數(shù)據(jù);其次,數(shù)據(jù)的收集需要設(shè)計專用的表結(jié)構(gòu)與編碼規(guī)則,實現(xiàn)標(biāo)準(zhǔn)化與規(guī)范化。
數(shù)據(jù)庫是為滿足具體的信息要求而設(shè)計的一個邏輯相關(guān)數(shù)據(jù)及其描述的共享集。數(shù)據(jù)庫含有大量數(shù)據(jù)集、能滿足多用戶同時使用。除大量的紙質(zhì)印刷版數(shù)據(jù)集手冊外,現(xiàn)階段分子與材料的數(shù)據(jù)庫主要為可開放獲取的網(wǎng)絡(luò)資源,表1 匯總了其中的部分?jǐn)?shù)據(jù)庫網(wǎng)絡(luò)資源,其主要分為計算和實驗兩大類型。而從所收錄的數(shù)據(jù)信息做區(qū)分,大致分為如下4 類:(1)計算模擬 數(shù) 據(jù) 庫,包 括Materials Project、AFLOWlib、Pub-ChemQC、Open Quantum Materials Database(OQMD)等;(2)分子信息學(xué)庫,包括GDB、ChEMBL、ChemSpider、PubChem 等;(3)晶體結(jié)構(gòu)信息庫,包括CSD、ICSD 等;(4)化學(xué)反應(yīng)信息庫,包括Reaxys、Sci-Finder、USPTO/Lowe 等[21]。與之相比,現(xiàn)有的含能化合物數(shù)據(jù)庫數(shù)量有限且獲取難度較高,目前能夠公開獲取的含能化合物性能數(shù)據(jù)主要集中在紙質(zhì)印刷版數(shù)據(jù)手冊中。表2 總結(jié)了部分含能化合物及其相關(guān)物綜合性能的數(shù)據(jù)手冊信息,其中收錄的數(shù)據(jù)以分子或者晶體的實驗性質(zhì)結(jié)果為主,且不同手冊的數(shù)據(jù)所采用測試標(biāo)準(zhǔn)不同、數(shù)值間差異化比較顯著,數(shù)據(jù)質(zhì)量的甄別困難較高。而基于分子模擬,尤其是量子化學(xué)計算的含能化合物數(shù)據(jù)集尚未見報道。
表1 可開放獲取的分子與材料的數(shù)據(jù)庫Table 1 Open access databases of molecules and materials
表2 部分含能化合物及其相關(guān)物綜合性能的數(shù)據(jù)手冊Table 2 Handbooks of properties of some energetic compounds and related materials
材料傳統(tǒng)的高通量篩選研究方式以實驗為主,遵循與“設(shè)計-制造-測試-分析”的DMTA 循環(huán)模式類似的研發(fā)步驟,處理樣品數(shù)量大,危險系數(shù)高、研究周期長、測試數(shù)據(jù)波動廣且需要大量的資源投入;與之相比,高通量虛擬篩選能夠以高效的方式對化合物的結(jié)構(gòu)設(shè)計空間(~1026數(shù)量級)進行探索。結(jié)合特定的篩選標(biāo)準(zhǔn)與自動化技術(shù),能夠更進一步提升研發(fā)效率、縮短DMTA 循環(huán)周期,將化合物的設(shè)計效率推向新的高度。
高通量虛擬篩選流程通常由3 個步驟組成[30]:首先,基于電子結(jié)構(gòu)以及熱力學(xué)參數(shù)的計算獲得包含材料性質(zhì)的虛擬數(shù)據(jù)集;然后,通過合理的存儲形式將這些性質(zhì)信息在數(shù)據(jù)庫系統(tǒng)中進行收集;最后基于所關(guān)注的特定性能對虛擬數(shù)據(jù)集進行統(tǒng)計分析或篩選、從中得到性質(zhì)新穎的材料或者獲得具有符合統(tǒng)計規(guī)律以及物理意義的新認(rèn)識。必須指出的是,整個高通量虛擬篩選流程需要得到實驗驗證,以證明所構(gòu)建的流程具有準(zhǔn)確合理性。這樣的反饋機制有利于構(gòu)建更高質(zhì)量的數(shù)據(jù)集以及提升篩選流程的預(yù)測能力與泛化性質(zhì)。
含能化合物的高通量虛擬篩選研究,以含有CHNOF 元素的中性分子與晶體為主。由于有實驗報道的含能化合物數(shù)量有限(不超過104),目前含能化合物虛擬數(shù)據(jù)集的構(gòu)建方式主要有2 種:基于啟發(fā)式的母體-取代基分子生成算法獲得數(shù)據(jù)集、以及合并含能與非含能化合物的擴展數(shù)據(jù)集?;趩l(fā)式的母體-取代基分子生成工作方面,張朝陽課題組[31]從劍橋晶體數(shù)據(jù)庫中收集并篩選了超過6 萬種包含苯環(huán)結(jié)構(gòu)的CHNO 分子的晶體結(jié)構(gòu),在結(jié)構(gòu)拆分獲得母體/取代基的基礎(chǔ)上進行了分子生成,獲得108數(shù)量級的潛在分子;在此基礎(chǔ)上建立了基于生成焓、密度、鍵解離能以及分子平面度的篩選模型用于評估分子的性能(如圖1a 所示)。結(jié)果表明,目標(biāo)分子集合(A2)中六硝基苯是含苯環(huán)結(jié)構(gòu)含能化合物中能量水平最高的而三氨基三硝基苯(TATB)具有最優(yōu)的能量與安全綜合性能。劉英哲等[32]以母體-取代基分子生成了約105數(shù)量級的含有CHNOF 元素的分子數(shù)據(jù)集,建立虛擬篩選模型最終獲得綜合性能的10 個潛在的含能化合物結(jié)構(gòu)(如圖1b 所示)。相似的母體-取代基研究思路也被用于設(shè)計零氧平衡的籠型骨架含能分子[33]。宋思維等[34]使用母體-取代基分子生成的模式獲得約103數(shù)量級的含有氮雜環(huán)的分子數(shù)據(jù)集,建立虛擬篩選模型獲得潛在的高能低感熔鑄含能化合物。
圖1 基于啟發(fā)式的母體-取代基分子生成(a)[31]以及含能材料高通量篩選(b)[32]Fig.1 Molecule generation works from heuristic base-substituent enumeration method(a)[31],and high-throughput screening of energetic materials (b)[32]
擴展數(shù)據(jù)集方面,麥吉爾大學(xué)的郭鴻課題組[35]收集了PubChem 數(shù)據(jù)庫中的超過108個分子結(jié)構(gòu),使用高通量虛擬篩選獲得了262 種超過1.5 倍TNT 當(dāng)量的潛在含能化合物(圖2a)。四川大學(xué)蒲雪梅課題組[36]從劍橋晶體數(shù)據(jù)庫中獲得了7871 種共晶的晶體結(jié)構(gòu)數(shù)據(jù)(包括55 種含能共晶),使用圖神經(jīng)網(wǎng)絡(luò)建立了虛擬篩選模型,并針對含能共晶進行了模型參數(shù)微調(diào)以達到更好的預(yù)測效果(圖2b)。南洋理工大學(xué)的Li Shuzhou 課 題 組[37]也 開 發(fā) 了2 種 空 間 矩 陣 方 法,對PubChem 數(shù)據(jù)集中的CHNO 分子進行了晶體密度以及固相生成焓的篩選,并獲得了56 種潛在的含能分子。
圖2 基于擴展數(shù)據(jù)集的含能材料高通量篩選工作,包括PubChem 數(shù)據(jù)庫(a)[35]以及劍橋晶體數(shù)據(jù)庫(b)[36]Fig.2 High-throughput screening of energetic materials based on extended datasets,including PubChem database (a)[35]and Cambridge Crystallographic Data Centre (b)[36]
上述研究為含能化合物的設(shè)計提供了有益的研究思路,但也存在一定的局限性。首先,現(xiàn)階段含能化合物的性能預(yù)估廣泛使用經(jīng)驗?zāi)P瞳@得預(yù)測參數(shù),如密度、生成焓、爆速等;在虛擬篩選流程中可能存在經(jīng)驗?zāi)P偷姆夯阅懿蛔?,?dǎo)致新型含能化合物性能預(yù)測結(jié)果有較大誤差。其次,研究人員使用母體-取代基模式構(gòu)建含能化合物數(shù)據(jù)集,所選用的取代基大多數(shù)為致爆基團,導(dǎo)致生成的化合物局限于種類有限的取代基,缺少結(jié)構(gòu)的豐富性。此外,現(xiàn)階段尚缺乏開放共享的含能分子結(jié)構(gòu)數(shù)據(jù)集,也在一定程度上限制了含能化合物的分子生成、結(jié)構(gòu)設(shè)計。
量子化學(xué)計算能夠獲得電子結(jié)構(gòu)、能量特性以及熱力學(xué)性質(zhì)的基礎(chǔ)數(shù)據(jù)[38]。與實驗數(shù)據(jù)相比,量子化學(xué)計算結(jié)果的可重復(fù)性好、易于批量化生成與數(shù)據(jù)開放共享。因此基于量子化學(xué)計算的高通量虛擬篩選已經(jīng)在能源材料、醫(yī)藥等領(lǐng)域得到了應(yīng)用。例如,Nicolas Mounet 等[39]從無機化學(xué)晶體結(jié)構(gòu)數(shù)據(jù)庫(ICSD)以及晶體開放數(shù)據(jù)庫(COD)中收集了超過10 萬個晶體結(jié)構(gòu),然后基于高通量的密度泛函計算篩選,從中獲得了5619 種能夠剝離出二維層狀結(jié)構(gòu)的母體材料。日 本 理 化 學(xué) 研 究 所RIKEN 的Maho Nakata 等[40-41]利用PM6 以及B3LYP/6-31G*方法計算了PubChem 數(shù)據(jù)庫中收錄的9100 萬分子的幾何結(jié)構(gòu)以及HOMO-LUMO 能隙,并利用分子指紋譜以及機器學(xué)習(xí)算法得到了HOMO-LUMO 能隙的預(yù)測模型。上述領(lǐng)域的應(yīng)用為含能化合物的量子化學(xué)虛擬篩選提供了有益的研究思路。
由此可見,構(gòu)建含能材料專用的數(shù)據(jù)庫是高通量篩選與智能設(shè)計的前提條件。從通用的化學(xué)與材料數(shù)據(jù)庫中提取子結(jié)構(gòu)、使用母體-取代基的分子生成構(gòu)建虛擬的含能化合物的設(shè)計空間,是現(xiàn)階段主要采用的2 種技術(shù)途徑。然而上述方法存在較大的局限性:首先,含能化合物的能量與安全性能很少在通用數(shù)據(jù)庫中收錄,可開放獲取的數(shù)據(jù)條目有限;其次,界定有機化合物為含能化合物的標(biāo)準(zhǔn)主要是含有致爆基的子結(jié)構(gòu)或者基于分子結(jié)構(gòu)的爆轟性質(zhì)預(yù)測模型外推,這些篩選標(biāo)準(zhǔn)的可靠性需要進一步驗證;此外,含能材料的量子化學(xué)計算是一種構(gòu)建數(shù)據(jù)庫的優(yōu)勢途徑,數(shù)據(jù)包括分子以及晶體2 種體系,現(xiàn)階段含能晶體結(jié)構(gòu)的理論計算尚有待系統(tǒng)的方法驗證并制定基準(zhǔn)方法。
對于含能材料性能的實驗測試,國內(nèi)外均建立了較為系統(tǒng)的國家軍用標(biāo)準(zhǔn),對樣品狀態(tài)、測試方法以及數(shù)據(jù)收集的規(guī)范化提出了規(guī)定。對于含能化合物的量子化學(xué)計算,研究體系包括分子和晶體,研究人員使用的理論方法多樣,且計算結(jié)果在文獻中呈現(xiàn)方式以及必要數(shù)據(jù)條目的完備性差異大。量子化學(xué)計算數(shù)據(jù)庫的建立,首先需要確定研究體系以及適用于該體系的理論方法與預(yù)測模型,進而選擇精度高且成本低的計算方法,針對性地建立數(shù)據(jù)生成與格式化存儲的標(biāo)準(zhǔn)與規(guī)范;其次,與化學(xué)與材料的通用數(shù)據(jù)庫不同,含能材料數(shù)據(jù)庫主要收錄含能化合物的結(jié)構(gòu)與性質(zhì)數(shù)據(jù),因此開發(fā)時需要對含能化合物進行界定,選擇的標(biāo)準(zhǔn)包括分子的性質(zhì)(包括元素組成、密度、爆速等),以及能量安全性質(zhì)數(shù)值等。例如,對于元素類型僅限CHNO 的中性分子,使用B3LYP/6-31G(d,p)方法進行分子幾何結(jié)構(gòu)的優(yōu)化,以及使用CBS-4M 方法進行分子能量的分析是目前比較可靠的量子化學(xué)計算方法;而使用K-J 方程也能夠較為準(zhǔn)確地獲得爆轟性質(zhì)數(shù)據(jù)[42]。
量子化學(xué)計算含能化合物能夠獲得種類豐富的性質(zhì)數(shù)據(jù)(詳見第1 部分),構(gòu)建數(shù)據(jù)庫需要對選擇數(shù)據(jù)模型以結(jié)構(gòu)化地組織與收錄數(shù)據(jù)。關(guān)系數(shù)據(jù)模型以關(guān)系表的形式組織數(shù)據(jù),具有很高的數(shù)據(jù)獨立性,是目前數(shù)據(jù)庫主流的數(shù)據(jù)模型。使用關(guān)系數(shù)據(jù)模型建立的數(shù)據(jù)庫需要滿足特定的規(guī)范,常見的關(guān)系數(shù)據(jù)庫需要滿足至第三范式的條件即可(即數(shù)據(jù)表不存在重復(fù)組(滿足第一范式)、不存在部分依賴(滿足第二范式)以及不存在傳遞依賴(滿足第三范式))。
數(shù)據(jù)庫設(shè)計包括概念結(jié)構(gòu)設(shè)計與邏輯結(jié)構(gòu)設(shè)計。關(guān)系數(shù)據(jù)庫的設(shè)計通常使用實體(Entity)-聯(lián)系(Relationship)的E-R 圖對數(shù)據(jù)庫進行概念結(jié)構(gòu)設(shè)計。含能化合物與量子化學(xué)計算數(shù)據(jù)之間的聯(lián)系包括一對一、一對多的情況。以CL-20 為例,由于─NO2的旋轉(zhuǎn)存在多種穩(wěn)定的分子構(gòu)象,因此化合物名稱和構(gòu)象存在一對多的關(guān)系;而每一種構(gòu)象與對應(yīng)的幾何結(jié)構(gòu)數(shù)據(jù)等則存在一對一的關(guān)系。因此需要進行E-R 圖對數(shù)據(jù)庫進行邏輯結(jié)構(gòu)設(shè)計,并在數(shù)據(jù)庫中創(chuàng)建數(shù)據(jù)表、關(guān)系表及其他數(shù)據(jù)庫對象。
含能化合物量子化學(xué)計算數(shù)據(jù)庫的設(shè)計也要滿足應(yīng)用于數(shù)據(jù)的管理和檢索,進而實現(xiàn)結(jié)構(gòu)和性質(zhì)的關(guān)系模型等數(shù)據(jù)應(yīng)用的實際需求。數(shù)據(jù)的查詢與獲取功能包括分子結(jié)構(gòu)的精確匹配查詢、子結(jié)構(gòu)查詢、數(shù)值參數(shù)的查詢、嵌套查詢,查詢結(jié)果的分組、排序、合并等。
為滿足數(shù)據(jù)的管理和檢索,常用的數(shù)據(jù)庫管理系統(tǒng)以關(guān)系型數(shù)據(jù)庫管理系統(tǒng)為主。數(shù)據(jù)庫管理系統(tǒng)提供數(shù)據(jù)定義、數(shù)據(jù)操縱、數(shù)據(jù)完整性檢查、數(shù)據(jù)安全保護、數(shù)據(jù)庫存取與訪問,并提供應(yīng)用開發(fā)程序與數(shù)據(jù)庫的接口。結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)是用于關(guān)系數(shù)據(jù)庫查詢的結(jié)構(gòu)化語言,其功能包括數(shù)據(jù)查詢、數(shù)據(jù)操縱、數(shù)據(jù)定義和數(shù)據(jù)控制4 個部分。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)分為2 類:一類是桌面數(shù)據(jù)庫,用于小型的單機應(yīng)用程序,例如Access、FoxPro 和Excel 等;另一類是服務(wù)器數(shù)據(jù)庫,主要適用于大型的多用戶數(shù)據(jù)管理,包括Oracle、SQL Server、DB2、Sybase 等大型關(guān)系數(shù)據(jù)庫管理系統(tǒng),以及包括MySQL、PostgreSQL、SQLite 等小型關(guān)系數(shù)據(jù)庫管理系統(tǒng)。這些常見的數(shù)據(jù)庫管理系統(tǒng)能夠?qū)崿F(xiàn)格式化數(shù)據(jù)的增刪改查操作與日常維護管理。
3.4.1 數(shù)據(jù)集擴展
含能化合物的能量與安全性質(zhì)最受關(guān)注,因此這些性能數(shù)據(jù)有必要在作為量子化學(xué)計算結(jié)果的擴展,在數(shù)據(jù)庫中收錄。使用量子化學(xué)計算無法直接得到上述能量與安全性質(zhì)的數(shù)據(jù),包括爆速、爆壓、機械感度等。因此需要采用后量化構(gòu)效關(guān)系模型用于含能化合物多種性質(zhì)的預(yù)測。構(gòu)效關(guān)系模型所需的參數(shù)主要由量子化學(xué)計算產(chǎn)生的電子結(jié)構(gòu)、波函數(shù)文件分析得到。
3.4.2 前端應(yīng)用程序設(shè)計于開發(fā)
基于Java、PHP、VB/ASP.NET、Visual C#、Python等程序語言設(shè)計數(shù)據(jù)庫前端應(yīng)用程序,實現(xiàn)可視化界面設(shè)計、項目部署以及定制化的功能實現(xiàn)。
3.4.3 數(shù)據(jù)開放共享
量子化學(xué)計算產(chǎn)生的數(shù)據(jù)屬于基礎(chǔ)研究結(jié)果,且數(shù)據(jù)質(zhì)量高、可重復(fù)性好,便于在公開平臺實現(xiàn)較高程度的數(shù)據(jù)開放共享。筆者也希望以此種方式推動含能化合物研發(fā)的范式變革、加速研發(fā)效率、降低資源投入。
3.4.4 應(yīng)用開發(fā)實例
針對含能化合物量子化學(xué)計算數(shù)據(jù)的產(chǎn)生、數(shù)據(jù)收集標(biāo)準(zhǔn)等問題,本課題組近年來分別開發(fā)并建立了能夠在高性能計算集群上穩(wěn)定運行的含能材料高通量計算交互式應(yīng)用系統(tǒng)(Energetic Materials Studio,EM Studio)[43]用于實現(xiàn)含能化合物的高通量量子化學(xué)計算以及爆轟性質(zhì)預(yù)測;此外,開發(fā)并建立了含能化合物量子化學(xué)計算數(shù)據(jù)采集與數(shù)據(jù)庫管理系統(tǒng)(EM Database),用于結(jié)構(gòu)化收集存儲含有CHNO 元素的中性含能分子的量子化學(xué)計算數(shù)據(jù)以及爆轟參數(shù)(圖3)。潛在含能分子結(jié)構(gòu)主要是通過文獻整理以及母體-取代基的方式完成,而對于分子含能與否的界定,則按照密度與爆速不亞于TNT 作為標(biāo)準(zhǔn)(即密度值1.648 g·cm-3,爆速值6950 m·s-1)。數(shù)據(jù)庫中的數(shù)據(jù)也會隨著計算方法的進步、更準(zhǔn)確有效方法的確認(rèn)而不斷更新。
圖3 EM Studio 以及EM Database 的應(yīng)用程序界面[42]Fig.3 User interfaces of EM Studio program and EM Database program[42]
綜上所述,數(shù)據(jù)庫技術(shù)與含能材料量子化學(xué)計算的結(jié)合需要解決量子化學(xué)計算標(biāo)準(zhǔn)與數(shù)據(jù)模型、數(shù)據(jù)庫設(shè)計、數(shù)據(jù)庫管理系統(tǒng)選擇、數(shù)據(jù)集擴展與應(yīng)用技術(shù)開發(fā)等技術(shù)挑戰(zhàn)?,F(xiàn)階段對于含有CHNO 元素的中性含能分子的量子化學(xué)計算以及爆轟性質(zhì)預(yù)測方法可靠性高,易于通過高通量計算的方式進行分子設(shè)計與性質(zhì)預(yù)測。此外,使用關(guān)系型數(shù)據(jù)庫收錄含能分子的結(jié)構(gòu)與性質(zhì)參數(shù)數(shù)據(jù),以可視化用戶界面的方式實現(xiàn)對數(shù)據(jù)庫收錄條目的開放獲取也得到了實現(xiàn)。EM Studio 與EM Database 的實現(xiàn)證明了該技術(shù)方案的可行性。
未來含能化合物的數(shù)據(jù)庫設(shè)計與應(yīng)用需面向高性能含能化合物的實際需求,以高能、穩(wěn)定、綠色為導(dǎo)向。在此對其設(shè)計與開發(fā)做以下兩方面的展望:首先,含能化合物的性能與穩(wěn)定性數(shù)據(jù)極為重要,但是現(xiàn)有預(yù)測模型的普適性仍需使用大量含能分子進行廣泛驗證,進而保證所產(chǎn)生數(shù)據(jù)的認(rèn)可度。其次,數(shù)據(jù)庫所收錄的數(shù)據(jù)規(guī)模應(yīng)盡可能大、性質(zhì)條目盡可能全面,進而有利于含能化合物綜合性能的設(shè)計。
本文總結(jié)了含能化合物的量子化學(xué)理論計算、高通量虛擬篩選技術(shù)、以及數(shù)據(jù)庫技術(shù)。含能化合物的量子化學(xué)理論計算能夠?qū)崿F(xiàn)對含能化合物的結(jié)構(gòu)與性質(zhì)進行高精度的分析和預(yù)測。在此基礎(chǔ)上建立含能化合物量子化學(xué)數(shù)據(jù)庫,收集含能化合物在高精度計算水平下的量子化學(xué)數(shù)據(jù),具有重要意義與實際價值。
含能化合物量子化學(xué)數(shù)據(jù)庫的設(shè)計及應(yīng)用應(yīng)考慮分子與材料的通用性數(shù)據(jù)信息、以及含能材料領(lǐng)域重點關(guān)注的能量與穩(wěn)定性的專用性數(shù)據(jù)信息,具有鮮明的特色性。對其做如下展望:(1)含能化合物的量子化學(xué)理論計算在方法選擇、數(shù)據(jù)呈現(xiàn)方式上沒有統(tǒng)一的標(biāo)準(zhǔn)。因此數(shù)據(jù)庫的設(shè)計需要在計算基準(zhǔn)方法與數(shù)據(jù)模型角度進行規(guī)定,并且隨著計算方法的進步、更準(zhǔn)確更有效方法的確認(rèn)而不斷更新;(2)數(shù)據(jù)庫與高通量虛擬篩選相結(jié)合的含能化合物分子設(shè)計已有較多的研究報道,應(yīng)用前景廣闊;(3)相對于含能材料及其相關(guān)物性質(zhì)的數(shù)據(jù)敏感性,含能化合物量子化學(xué)計算數(shù)據(jù)易于實現(xiàn)開放共享,是探索含能材料組成、結(jié)構(gòu)與性能關(guān)系和設(shè)計新型含能材料的重要研究基礎(chǔ);(4)含能材料的量子化學(xué)計算包括分子以及晶體,相比于分子結(jié)構(gòu)的量子化學(xué)計算,晶體結(jié)構(gòu)的理論計算方法,有待系統(tǒng)的方法驗證并制定基準(zhǔn)方法。