楊新玉,彭師平,趙 儀
(廈門大學(xué)化學(xué)化工學(xué)院,固體表面物理化學(xué)國家重點(diǎn)實(shí)驗(yàn)室,福建省理論與計(jì)算化學(xué)重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005)
有機(jī)太陽能電池(organic solar cells,OSCs)是一種將太陽光能轉(zhuǎn)化為電能的器件,與無機(jī)太陽能電池相比,OSCs具有材料來源廣泛、工藝簡單、輕便、生產(chǎn)容易的優(yōu)點(diǎn),在便攜式電源[1]、可穿戴設(shè)備[2-3]、室內(nèi)小型離網(wǎng)電子設(shè)備[4]等領(lǐng)域展示出光明的產(chǎn)業(yè)前景,在過去的20多年間迅速發(fā)展,近年來更是受到廣泛的關(guān)注.
OSCs主要由電子給體和受體材料組成,其中給體常采用低能隙的聚合物或小分子,而受體多使用電子親和性較大的富勒烯分子[5-7].近年來,人們發(fā)現(xiàn)非富勒烯受體(non-fullerene acceptors,NFAs)的化學(xué)結(jié)構(gòu)和電子親和性可在大范圍內(nèi)進(jìn)行調(diào)整,同時(shí)它還具有較大的近紅外吸收范圍、較好的能級匹配、較小的電壓損失等特性[8].NFAs新型材料的不斷發(fā)展推動了OSCs性能的迅速提高,目前其能量轉(zhuǎn)換效率(power conversion efficiency,PCE)已達(dá)到18.69%[9],激發(fā)了越來越多研究人員對高性能材料探索發(fā)現(xiàn)的熱情.
近幾年來,NFAs的研究得到蓬勃發(fā)展,電池的PCE也得到顯著提升.Lin等[10]于2015年提出稠環(huán)電子受體概念和具有A-D-A(A為吸電子單元,D為給電子單元)結(jié)構(gòu)的ITIC有機(jī)小分子,這類分子包含一個(gè)稠環(huán)給電子中心骨架和兩個(gè)強(qiáng)吸電子端基,給電子單元和吸電子單元之間發(fā)生強(qiáng)的分子內(nèi)電荷轉(zhuǎn)移,使得受體具有較窄的帶隙和很強(qiáng)的可見光與近紅外光吸收,同時(shí)端基單元的緊密堆積有利于電子傳輸,整個(gè)受體具有較高的遷移率,ITIC與聚合物給體PTB7-Th共混的器件PCE達(dá)到6.8%.ITIC打破了基于富勒烯受體的OSCs效率進(jìn)一步提高的瓶頸,之后越來越多的研究由此展開,通過對中心給電子單元、側(cè)鏈及末端吸電子單元的擴(kuò)大、取代、異構(gòu)化等手段,OSCs器件的PCE不斷提升[11-13].Yuan等[14]于2019年發(fā)現(xiàn)了一種通過在中心部分引入苯并噻二唑吸電子單元的窄帶隙A-D-A’-D-A型受體Y6,以PM6作為給體與Y6共混得到的器件PCE高達(dá)15.7%.2020年,Liu等[15]合成了給體D18,D18的空穴遷移率高達(dá)1.59×10-3cm2/(V·s),之后該課題組又設(shè)計(jì)了新的聚合物給體D18-Cl,其中D18:Y6、D18-Cl:N3和D18:N3(N3為Y6側(cè)鏈進(jìn)行優(yōu)化后得到的受體)的器件PCE分別達(dá)到18.22%[15]、18.13%[16]和18.56%[17],D18-Cl∶N3∶PC61BM (D∶A1∶A2)型的器件PCE更是達(dá)到18.69%[9].至今為止,A-D-A 或 A-D-A’-D-A型的模式是OSCs的主流構(gòu)筑方式,新型分子的出現(xiàn)將加快更高效率的實(shí)現(xiàn).
上述受體材料表現(xiàn)出高性能的原因之一是給體和受體能級匹配,這可為電荷分離和轉(zhuǎn)移提供有效驅(qū)動力,因此其直接影響著電池效率的提升.然而,大多數(shù)近紅外吸收的有機(jī)分子的最低未占據(jù)分子軌道(the lowest unoccupied molecular orbital,LUMO)和最高占據(jù)分子軌道(the highest occupied molecular orbital,HOMO)能級很難與寬禁帶給體的能級相匹配,對于正確選擇給體和NFAs被認(rèn)為是一項(xiàng)費(fèi)時(shí)且復(fù)雜的任務(wù).隨著數(shù)據(jù)科學(xué)的發(fā)展,機(jī)器學(xué)習(xí)的應(yīng)用推動多領(lǐng)域的變革,也影響著材料化學(xué)的研究,目前利用機(jī)器學(xué)習(xí)模型針對OSCs材料分子的前線分子軌道(frontier molecular orbital,FMO)能量的研究已取得巨大進(jìn)展.首先,機(jī)器學(xué)習(xí)可以實(shí)現(xiàn)對FMO能量的預(yù)測,例如Pereira等[18]在由111 000個(gè)分子組成的數(shù)據(jù)集上訓(xùn)練隨機(jī)森林等模型,在沒有任何密度泛函理論(density functional theory,DFT)計(jì)算的情況下模型預(yù)測的HOMO和LUMO能量誤差均小于0.16 eV.通常,訓(xùn)練預(yù)測模型的數(shù)據(jù)來源于計(jì)算或?qū)嶒?yàn),需通過校準(zhǔn)來減少計(jì)算值與實(shí)驗(yàn)值的偏差,如Lopez等[19]在建立了51 000多個(gè)由碎片拼接而成的NFAs分子及其HOMO、LUMO能量的數(shù)據(jù)庫后,利用94組實(shí)驗(yàn)值通過高斯過程回歸模型校準(zhǔn)計(jì)算值,將HOMO能量的均方根誤差(root mean square error,RMSE)由校準(zhǔn)之前的0.28 eV降至校準(zhǔn)之后的0.17 eV,LUMO能量的RMSE也從0.45 eV降至0.26 eV.此外,F(xiàn)MO能量等可作為描述符來預(yù)測器件PCE,在獲得更高預(yù)測精度的同時(shí)證明了其對PCE的重要影響[20-21].這些研究在加快NFAs分子的篩選效率上起到了重要作用.目前利用機(jī)器學(xué)習(xí)對NFAs及其FMO的研究主要集中于提高預(yù)測精度和效率上,而利用機(jī)器學(xué)習(xí)對分子的結(jié)構(gòu)與性質(zhì)之間關(guān)系的研究卻相對較少.
本研究將利用本課題組已提出的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)構(gòu)建的分子生成模型與性質(zhì)預(yù)測模型[22],使用生成模型快速得到多個(gè)具有特定HOMO和LUMO能量范圍且結(jié)構(gòu)差異性較高的NFAs分子,利用基于注意力機(jī)制的預(yù)測模型驗(yàn)證分子的FMO性質(zhì)并得到分子碎片對性質(zhì)的貢獻(xiàn).本研究能夠在對非富勒烯有機(jī)小分子受體篩選的同時(shí)進(jìn)行其結(jié)構(gòu)與性質(zhì)關(guān)系的研究,希望能夠?qū)π虏牧系陌l(fā)現(xiàn)帶來一些啟發(fā).
用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)源于Aspuru-Guzik等于2017年提出的含51 281種潛在NFAs材料的數(shù)據(jù)庫,該數(shù)據(jù)庫中提供了每個(gè)分子的簡化分子線性輸入規(guī)范(simplified molecular input line entry specification,SMILES)[23]表示和HOMO、LUMO能量等值[19].其中的分子是由包括萘二酰亞胺、苯并噻二唑和聚氟蒽二亞胺等107種常見基團(tuán)拼接而成,每種分子碎片與其取代方式均通過文獻(xiàn)或商用例子獲得,其中,碎片共分為13種中心碎片(cores,C)、49種側(cè)位碎片(spacers,S)和45種端位碎片(terminals,T),分子的拼接方式有T-S-C-S-T、T’-S-C-S-T、T-C-T和T-S-T.數(shù)據(jù)庫中每個(gè)分子的HOMO和LUMO能量的計(jì)算大致分為4步:1) 使用RDKit[24]提供的構(gòu)象生成器由SMILES編碼生成1 500個(gè)三維分子構(gòu)象;2) 對所有構(gòu)象進(jìn)行分子力場[25]優(yōu)化,使用OpenBabel[26]軟件去除重復(fù)構(gòu)象;3) 按照最低能量原理對于每個(gè)分子挑選出20個(gè)構(gòu)象,同時(shí)所選分子構(gòu)象的能量與最低能量分子構(gòu)象的能量差應(yīng)不超過20.93 kJ/mol,若超過20.93 kJ/mol則剔除該構(gòu)象(這種情況下,構(gòu)象數(shù)少于20個(gè)),這些構(gòu)象所組成的簇被認(rèn)為是候選分子在固態(tài)中最具能量可行性的構(gòu)象;4) 用BP86/def2-SVP泛函基組對上述構(gòu)象進(jìn)行優(yōu)化,之后用B3LYP/def2-SVP泛函基組做單點(diǎn)能、HOMO和LUMO能量計(jì)算,提取具有最低能量的構(gòu)象,將該構(gòu)象的HOMO與LUMO能量視為該分子的FMO能量.本研究對數(shù)據(jù)進(jìn)行簡單的預(yù)處理,刪除能隙值為負(fù)的不合理分子后,實(shí)際用于模型訓(xùn)練的數(shù)據(jù)量為50 656個(gè).
分子圖(graph)[27]和SMILES是分子生成模型常用的分子表示.用分子圖作為輸入時(shí),分子中的原子和化學(xué)鍵分別被表示成圖的節(jié)點(diǎn)和邊.分子圖在對抗生成網(wǎng)絡(luò)中的分子生成表現(xiàn)優(yōu)異,然而基于分子圖的模型現(xiàn)今只能生成小分子.SMILES通過使用一系列字符來表示分子結(jié)構(gòu),這些字符表示分子中包含的原子和分子的拓?fù)湫畔?若沒有固定順序地讀取原子和鍵來生成SMILES,則特定分子可生成多個(gè)有效的SMILES字符串.為此,常使用規(guī)范化的SMILES保證分子的唯一性表示來克服同一分子生成字符串的多樣性.生成和預(yù)測模型均基于CNN并使用SMILES作為分子表示:一方面,CNN具有權(quán)值共享和可處理多個(gè)時(shí)間步長的特點(diǎn),效率較高;另一方面,SMILES表示已經(jīng)在多種神經(jīng)網(wǎng)絡(luò)模型中被廣泛使用[28-29],一維CNN也可處理不同長度的SMILES表示.
分子生成與性質(zhì)預(yù)測模型均為本課題組之前基于一維CNN所建立的模型,更多模型信息可由https:∥github.com/PSPhi/CNN-for-NFA[22]獲得.CNN利用卷積核(參與運(yùn)算的矩陣)與節(jié)點(diǎn)的矩陣運(yùn)算,可實(shí)現(xiàn)特征提取,主要用于處理圖像、視頻、語音、音頻等.由于CNN具有共享權(quán)重和平移不變性的特點(diǎn),可同時(shí)處理多個(gè)時(shí)間步長,能夠顯著提高深度學(xué)習(xí)效率.本研究運(yùn)用的一維CNN可處理不同長度的SMILES輸入問題.對于生成模型,在訓(xùn)練過程中給每個(gè)輸入的SMILES字符串加上起始字符“&”,給每個(gè)目標(biāo)輸出加上“ ”,該模型通過給定的起始字符,逐個(gè)生成后續(xù)字符直到終止字符“ ”被生成,從而完成一個(gè)SMILES字符串即分子的生成.預(yù)測模型在卷積網(wǎng)絡(luò)之后的輸出層加入了融合信息的注意力機(jī)制,通過注意力機(jī)制能夠獲得每個(gè)字符對于對應(yīng)性質(zhì)的重要性.
從數(shù)據(jù)庫中挑選出PCE大于0.5%并且信息完整的共24 000個(gè)分子,將這些分子隨機(jī)劃分為分別含有20 000,2 000,2 000個(gè)分子的訓(xùn)練集、驗(yàn)證集和測試集,分割后的數(shù)據(jù)集將用于生成模型和預(yù)測模型的訓(xùn)練.對于生成模型,訓(xùn)練好的模型所生成的分子中合理分子的比例高達(dá)90%.預(yù)測模型對于測試集中分子HOMO和LUMO能量預(yù)測的平均絕對誤差分別為0.053和0.055 eV.
基于提出的分子生成模型和HOMO、LUMO能量的預(yù)測模型,下文將探索利用生成模型生成兩組指定HOMO和LUMO能量的分子,并用預(yù)測模型對分子軌道能量做進(jìn)一步預(yù)測來篩選分子,最后用DFT計(jì)算進(jìn)行驗(yàn)證.這一工作可進(jìn)一步拓展數(shù)據(jù)庫的化學(xué)空間,為實(shí)驗(yàn)工作提供分子選取的思路.
實(shí)驗(yàn)上,D18:Y16和D18:N3的器件PCE分別達(dá)到18.22%[15]和18.56%[17],Y6也將電池效率推上了一個(gè)新臺階,因此選取Y6的FMO能量作為參考值,Y6的HOMO和LUMO能量的實(shí)驗(yàn)值分別為-5.65 和-4.10 eV[30].由于本研究所采用的模型均由數(shù)據(jù)庫提供的計(jì)算值訓(xùn)練所得,并且計(jì)算值與實(shí)驗(yàn)值之間存在計(jì)算方法的系統(tǒng)誤差,所以本研究使用與數(shù)據(jù)庫一致的構(gòu)象選取方式和泛函基組,即采用BP86/def2-SVP泛函基組對構(gòu)象進(jìn)行優(yōu)化,并采用B3LYP/def2-SVP泛函基組做單點(diǎn)能、HOMO和LUMO能量計(jì)算,得到Y(jié)6的HOMO和LUMO能量的計(jì)算值分別為-5.73和-3.69 eV.結(jié)合數(shù)據(jù)庫中的數(shù)據(jù)分布,選取HOMO和LUMO能量分別為-5.60和-3.60 eV這一組值作為在同等計(jì)算方式下分子生成和篩選的目標(biāo)計(jì)算值.
分子的生成和篩選過程如圖1所示,其中綠色部分表示的是使用原數(shù)據(jù)庫訓(xùn)練生成模型和預(yù)測模型的過程,藍(lán)色部分為給定的FMO能量目標(biāo)值,橙色部分為本研究主要強(qiáng)調(diào)的針對目標(biāo)值的分子生成和篩選過程.其中橙色部分的流程主要有4步:1) 從原數(shù)據(jù)庫中得到HOMO和LUMO能量在所選定值誤差范圍內(nèi)的小分子集,記為D1;2) 用D1分子集重新訓(xùn)練已由原數(shù)據(jù)庫訓(xùn)練好的生成模型,實(shí)現(xiàn)對模型參數(shù)的微調(diào),這樣可使得模型傾向于生成目標(biāo)能量值附近的分子,微調(diào)后的模型生成新分子集D2;3) 對D2分子集中的分子進(jìn)行處理,剔除重復(fù)、不合理以及原數(shù)據(jù)庫中已有的分子,并通過預(yù)測模型從中篩選出HOMO和LUMO能量預(yù)測值與目標(biāo)值的絕對誤差均在0.2 eV以內(nèi)的分子,即可得到候選的新分子集D3;4) 將由原數(shù)據(jù)庫得到的D1分子集和新生成的D3分子集進(jìn)行合并,使用RDKit軟件包提供的最大最小聚類算法[31],該算法通過從分子的SMILES表示中計(jì)算出分子指紋,再根據(jù)分子指紋距離的計(jì)算將分子劃分到相應(yīng)的類.聚類算法可從整個(gè)分子庫中挑出一個(gè)多樣性最高的子集,以最大程度地代表原始分子庫的化學(xué)空間[32].通過聚類可得到多樣性最大的10個(gè)分子組成的集合D4,D4中的分子即為最終挑選出的分子.根據(jù)目標(biāo)值挑選出的分子結(jié)構(gòu)如圖2中a1~a10所示,其中,a1~a7為新生成的分子,a8~a10為數(shù)據(jù)庫中原有的分子,根據(jù)數(shù)據(jù)庫的碎片種類可將分子劃分成不同顏色碎片的組合.
為了驗(yàn)證新生成分子的FMO能量是否在目標(biāo)值誤差范圍內(nèi),進(jìn)行了同等水平的計(jì)算,第一組目標(biāo)值得到的10個(gè)分子的HOMO和LUMO能量的計(jì)算值和通過預(yù)測模型得到的預(yù)測值如表1所示.
從表1可以看出:除了a3、a4、a9分子LUMO的預(yù)測值和計(jì)算值的絕對誤差超過0.1 eV以外,其他性質(zhì)預(yù)測的絕對誤差均小于0.1 eV,說明預(yù)測模型具有較高的準(zhǔn)確度;同時(shí),篩選出的分子HOMO和LUMO能量的計(jì)算值與目標(biāo)值的絕對誤差均小于0.2 eV,有些分子如a2、a5、a6、a7的計(jì)算值甚至很接近目標(biāo)值,經(jīng)過后續(xù)的分子修飾,HOMO和LUMO能量的實(shí)驗(yàn)值可進(jìn)一步調(diào)整以實(shí)現(xiàn)與給體分子的能級匹配.
為了比較所選分子的差異性,一方面,由分子的SMILES出發(fā)得到分子指紋,再根據(jù)分子指紋得到不同分子之間的相似度[33],結(jié)果如圖3所示.另一方面,結(jié)合預(yù)測模型可以獲得每個(gè)分子的SMILES表示中每個(gè)字符對相應(yīng)性質(zhì)的貢獻(xiàn),因?yàn)閿?shù)據(jù)庫的分子是由碎片拼接而成的;同樣地,通過碎片所含字符貢獻(xiàn)的加和,可以得到組成分子的每個(gè)碎片對各分子HOMO和LUMO性質(zhì)的貢獻(xiàn)程度.作為參考,使用Multiwfn程序[34]得到HOMO和LUMO在每個(gè)原子上的分布分?jǐn)?shù),將碎片所含原子的分布分?jǐn)?shù)進(jìn)行加和得到碎片的分布分?jǐn)?shù),這可以在一定程度上反映預(yù)測模型對碎片貢獻(xiàn)預(yù)測的準(zhǔn)確性.使用預(yù)測模型和Multiwfn程序得到的對HOMO和LUMO能量貢獻(xiàn)程度最大的碎片和相應(yīng)的分布分?jǐn)?shù)如表2所示,其中碎片的顏色與圖2一致.
表2 使用預(yù)測模型和Multiwfn程序得到的第一組分子中對HOMO和LUMO能量貢獻(xiàn)程度最大的碎片和相應(yīng)的分布分?jǐn)?shù)Tab.2 The fragments and corresponding distribution fractions of the first group of molecules that contribute the most to the HOMO and LUMO energies obtained by using the prediction model and the Multiwfn program
從圖3的相似度矩陣中可以得到分子兩兩之間的相似度,相似度的大小由顏色的深淺表示,顏色越綠表示相似度越低,分子間的差異性越大,反之,顏色越紅則表示分子間越相似.圖中,對角線表示分子與自身的相似度,即為1,可以看到只有兩組分子a1-a8和a7-a8的相似度較大,分別為0.54和0.58,其他分子間的相似度均小于0.5且大部分在0.2~0.3,可見挑選出的分子具有較大的差異性.如表2所示:對于第一組的每個(gè)分子,用預(yù)測模型和Multiwfn程序這兩種方法獲得的對FMO性質(zhì)貢獻(xiàn)最大的碎片顏色是一致的,說明預(yù)測模型能夠準(zhǔn)確預(yù)測出最重要的碎片;而兩種方法獲得的相應(yīng)碎片的貢獻(xiàn)值之間有些存在較大差異.需要說明的是,Multiwfn程序得到的碎片上FMO分布分?jǐn)?shù)僅為參考值,預(yù)測模型得到的是碎片對所預(yù)測軌道能量的重要程度,兩者表示的性質(zhì)相同但是計(jì)算方式不同,因此數(shù)值上存在差異.總的來看,具有相近HOMO和LUMO能量的分子可以具有不同的結(jié)構(gòu),且其中對二者影響最大的碎片也可不同,進(jìn)一步說明了存在多種結(jié)構(gòu)的受體可以與給體能級匹配.
為了進(jìn)一步驗(yàn)證這些受體分子的吸光性能,計(jì)算其振子強(qiáng)度,結(jié)果如表3所示.可以看出,a1、a2、a3、a6、a10分子的振子強(qiáng)度較大,具有較為優(yōu)異的可見光吸收性能,可被后續(xù)修飾為潛在的受體材料.
表3 第一組分子的第一和第二激發(fā)態(tài)能量及對應(yīng)的振子強(qiáng)度Tab.3 The first and second excited state energies and the corresponding oscillator intensities of the first group of molecules
此外,本研究采用相同方式得到HOMO和LUMO能量的計(jì)算值分別為-5.10和-3.10 eV的第二組10個(gè)分子,一方面這些分子可以作為參考,另一方面也可為新的給體提供思路.第二組分子的結(jié)構(gòu)如圖4所示,其中,b1~b8為新生成的分子,b9~b10為數(shù)據(jù)庫中原有的分子.同樣計(jì)算了新生成分子的HOMO和LUMO能量,第二組10個(gè)分子的FMO能量如表4所示.
表4的數(shù)據(jù)顯示,僅有b2分子的HOMO能量和b1、b10分子的LUMO能量的預(yù)測值與計(jì)算值的絕對誤差超過0.1 eV.然而,第二組分子的計(jì)算值與目標(biāo)值偏離較大的分子比第一組多,如b1、b4的HOMO能量和b9、b10的LUMO能量,需要通過后續(xù)實(shí)驗(yàn)修飾來進(jìn)一步調(diào)整能級,如增加或減少吸電子、給電子和共軛基團(tuán)等.同樣地,對其吸光性能進(jìn)行驗(yàn)證,結(jié)果如表5所示.可以看出,b2、b4、b5、b7、b9和b10分子具有較大的振子強(qiáng)度,有望成為光吸收能力優(yōu)異的受體材料.
表4 第二組分子的FMO能量的計(jì)算值和預(yù)測值Tab.4 The calculated and predicted values of the FMO energies for the second group of molecules
表5 第二組分子的第一和第二激發(fā)態(tài)能量及對應(yīng)的振子強(qiáng)度Tab.5 The first and second excited state energies and the corresponding oscillator intensities of the second group of molecules
利用CNN模型,本研究生成并篩選出HOMO和LUMO能量分別為-5.60和-3.60 eV、-5.10和-3.10 eV 的兩組受體分子,來匹配OSCs中不同給體分子所需的激子解離能.分析發(fā)現(xiàn),盡管每組分子具有相同的FMO能量,但通過分子指紋的距離計(jì)算顯示它們的相似度具有較大差異,表明生成的分子覆蓋了較廣的化學(xué)空間.通過進(jìn)一步的量子化學(xué)計(jì)算發(fā)現(xiàn),這些分子中約55%的分子具有較大的振子強(qiáng)度即較好的吸光能力.這些生成的具有給定FMO能量的分子可提供設(shè)計(jì)受體分子骨架的思路,有助于加快新材料的發(fā)現(xiàn)和結(jié)構(gòu)性質(zhì)關(guān)系的研究.