亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習預測有機光伏電池能量轉(zhuǎn)換效率

        2021-04-09 06:49:24于程遠吳金奎周利吉旭戴一陽黨亞固
        化工學報 2021年3期
        關鍵詞:信息模型

        于程遠,吳金奎,周利,吉旭,戴一陽,黨亞固

        (四川大學化學工程學院,四川成都610065)

        引 言

        基于光伏技術的太陽能捕集是一種能夠解決日益增長的全球能源需求的可持續(xù)手段。新型高效光伏材料的發(fā)現(xiàn)在世界范圍內(nèi)已成為學術界和工業(yè)界的熱門話題[1-6]。其中,有機光伏(OPV)因其低成本、輕量化、機械靈活性和大面積制造潛力而備受關注[7-9]。盡管OPV 有著許多的優(yōu)點,但其發(fā)展仍然具有挑戰(zhàn)性,并且很大程度上依賴于光電轉(zhuǎn)換效率(PCE)的提高[10]。目前,新型OPV 的開發(fā)主要采用實驗驅(qū)動的試錯法,在資源和時間上成本高且在探索新化學空間上有效性有限。

        實驗試錯方法存在的這些缺點促使研究者們通過建立模型來指導OPV 的開發(fā)。Scharber 模型[11]從受體的最低未占據(jù)分子軌道(LUMO)和給體的最高占據(jù)分子軌道(HOMO)的能級來估計本體異質(zhì)結(jié)太陽能電池的最大PCE,廣泛用于光伏材料的性質(zhì)預估。盡管這類模型通常過于簡單化,無法解釋有機太陽能電池的所有復雜物理化學行為,但其可對候選化合物可能達到的潛在最佳性能進行預判,為實驗設計提供有價值的參考。最近,Green等[12]在半經(jīng)驗模型的分析指導下,實驗合成的有機光伏材料PCE 實現(xiàn)了新的突破(17.35%)。大量的研究工作也證明,正確反映化合物定量結(jié)構(gòu)與性質(zhì)關系的模型(QSPR 模型)可為材料性能的改善提供有力支撐[13-16]。近年來,隨著計算能力和機器學習算法的快速發(fā)展,高通量虛擬篩選(HTVS)正成為發(fā)現(xiàn)新型高性能材料的主流方法:包括建立化合物的理論/實驗性能數(shù)據(jù)庫,開發(fā)正向性能預測模型和逆向材料設計規(guī)則和算法。

        針對有機光伏材料研發(fā),哈佛大學建立了三個權(quán)威的開源數(shù)據(jù)庫,包括哈佛清潔能源項目數(shù)據(jù)庫(CEPDB)[17]、哈佛有機光伏數(shù)據(jù)集(HOPV15)[18]和非富勒烯小分子受體數(shù)據(jù)庫(NFADB)[19]。CEPDB 包含230 萬種有機化合物的HOMO/LUMO 能量及其基于Scharber模型[11]計算出的PCE 值。NFADB 是包含50000 個非富勒烯受體材料的集合,這些材料的PCE 值 為 校 準 后 的HOMO/LUMO 能 量 計 算 值[19]。HOPV15為歸納總結(jié)已有文獻報道的光伏材料實驗數(shù)據(jù)和一定量子化學計算補充得到的小數(shù)據(jù)集[18]。盡管數(shù)據(jù)庫中的計算數(shù)據(jù)基于一定假設,但也能一定程度上反映材料微觀結(jié)構(gòu)變化對其宏觀性質(zhì)的影響規(guī)律,指導實驗設計原則的制定。Hachmann等[20]通過分析來自CEPDB 的數(shù)據(jù),確定了關鍵的分子構(gòu)建塊,并為潛在的高PCE 值有機化合物候選材料提取了設計規(guī)則。

        前向性能預測模型的開發(fā)通常由編碼和映射兩部分組成。編碼過程將分子的組成、結(jié)構(gòu)等信息轉(zhuǎn)換為一系列稱為描述符的數(shù)值,而映射過程通過確定合適的函數(shù)來映射描述符和需要預測的分子屬性。Padula 等[21]提出將電子特征和結(jié)構(gòu)特征結(jié)合起來作為有機太陽能電池性能預測的描述符,基于此,機器學習模型的預測能力達到了r=0.7 的水平。Sahu 等[22]用量子化學計算得到的13 個微觀性質(zhì)作為有機小分子PCE 預測的描述符,建立了pearson系數(shù)為0.79 的梯度提升樹模型。隨后,同一研究小組通過引入基態(tài)幾何結(jié)構(gòu)、陽離子和陰離子等新的微觀屬性作為描述符,進一步推進了研究,得到的模型pearson系數(shù)為0.78[23]。此外,Sun等[24]應用卷積技術從分子結(jié)構(gòu)圖中提取描述符,用于有機化合物PCE 性能的估計,得到精度為91.2%的卷積神經(jīng)網(wǎng)絡模型。隨著機器學習的發(fā)展,一些最新的算法如遷移學習也被用來提高材料性質(zhì)預測值與實驗值之間的一致性[25]。

        盡管有機光伏材料領域的QSPR 模型研究已取得較多成果,其未來發(fā)展仍面臨挑戰(zhàn)。首先,量子化學計算生成的描述符可以提供準確的結(jié)果,但這通常要求建模者具備深入的領域知識,并且計算成本高昂,限制了它在HTVS 中的有效性。二是化合物的微觀物理化學環(huán)境非常復雜,大多數(shù)易于獲取的描述符容易遺漏重要的化學信息,導致預測結(jié)果不太理想;且許多機器學習模型都是“黑匣子”,其結(jié)果往往可解釋性較低。本研究的開展動機正是在于此,力求在解決上述挑戰(zhàn)上有所貢獻。

        受Cadeddu 等[26]針對有機化合物和自然語言(英語)開展的相似性研究的啟發(fā),該工作在分子片段和文本片段的出現(xiàn)頻率上論證了有機化學和自然語言(英語)之間的高度相似性,本文采用本課題組提出一種類語言的分子特征提取和表征策略,在此基礎上建立預測有機化合物PCE 值的深度學習模型,力求為高性能OPV 的虛擬篩選提供支撐。首先,將有機化合物的分子圖分解為片段,并根據(jù)其相對位置和連接性對每個片段進行編號。通過將所涉及的分子片段標識為唯一的片段向量,有機化合物就可被表示為一個內(nèi)嵌分子片段序列信息的類語言描述符。其次,構(gòu)建自然語言處理算法來“理解”描述符,將分子信息與其潛在的PCE 性能相關聯(lián)。最后,使用已在自然語言處理領域成功獲得廣泛應用的神經(jīng)網(wǎng)絡解釋器——注意力機制,來識別對有機化合物PCE 性能有重要貢獻的關鍵分子片段,提高模型的可解釋性,并為具有更高光電轉(zhuǎn)換效率的OPV材料設計提供支撐。

        1 研究方法

        本小節(jié)介紹研究組提出的結(jié)合Bi-LSTM 網(wǎng)絡、注意力機制和反向傳播神經(jīng)網(wǎng)絡(BPNN)的深度神經(jīng)網(wǎng)絡(DNN)模型,用于構(gòu)建有機化合物的分子結(jié)構(gòu)與PCE 值之間的映射關系?;谒岢龇椒ńSPR模型主要包括以下四個步驟[27]。

        (1)數(shù)據(jù)采集和預處理。搜集有機化合物的SMILES 字符串和實驗測量(或量子化學計算)PCE值,并進行數(shù)據(jù)預處理。

        (2)分子預編碼。通過分子SMILES 字符串生成分子圖,基于其構(gòu)造片段的連接性和每個片段在預定義片段池中的位置,生成分子片段序列信息,如圖1所示。

        (3)編碼-預測神經(jīng)網(wǎng)絡訓練。基于分子片段描述符矩陣,將分子片段序列信息嵌入分子描述符;基于分子描述符和相應PCE 值訓練DNN。在訓練過程中,不斷優(yōu)化描述符和DNN 模型參數(shù),提高模型性能,如圖2所示。

        (4)模型評估。利用測試數(shù)據(jù)集對所建立的QSPR模型的預測性能進行評價。

        1.1 數(shù)據(jù)收集

        從CEPDB 收集29000 個OPV 供體分子的SMILES 字符串及其理論PCE 值[17]。對數(shù)據(jù)進行預處理,去掉存在異常、缺失以及不符合實際值的數(shù)據(jù)項?;谑剑?)所示的Z 評分標準化對PCE 值進行預處理,以加快模型訓練過程的收斂速度,提高模型精度。

        其中,yi是分子的PCE 值,和s(y)分別是所收集的OPV 數(shù)據(jù)集中所有PCE 值的平均值和標準差。所搜集數(shù)據(jù)項在預處理前后的數(shù)據(jù)分布如圖3所示。

        1.2 有機化合物預編碼

        通過RDKit 和Networkx 將SMILES 字符串轉(zhuǎn)換成分子圖[28-29],分子圖是分子到平面的投影,其中頂點代表原子,邊代表化學鍵。如圖1所示,為了更好地編碼分子片段的連接性信息,采用最近鄰子圖[30]和廣度優(yōu)先搜索(BFS)算法[31]將分子(圖)分解成片段(子圖),并將分子按相應的BFS 順序進行排序編碼,便得到了相應分子的構(gòu)成片段序列信息。需要指出的是,一般情況下,不同的有機化合物可以分解為不同數(shù)目的組成分子片段。為了確保分子的片段序列具有相同的維數(shù),需進行最大分子,即組成片段數(shù)最多的分子的識別,并將其組成片段的計數(shù)設為片段序列的維數(shù)。在生成其他分子的片段序列信息時,以零值填充多出部分,以確保維度的一致性。

        其中,每一分子片段基于最近鄰子圖法由最近鄰頂點和距離當前頂點一跳內(nèi)的邊切割獲得,換句話說,每個分子片段所反映的是頂點原子與其最近一個化學鍵所構(gòu)成化學環(huán)境的總和。由于OPV 分子中只有少量的原子和鍵,因此,該方法比一般的化學信息嵌入法更高效。此外,BFS 遍歷算法考慮了分子結(jié)構(gòu)片段的連通性信息,可提高后續(xù)構(gòu)建的QSPR 模型的精度。預編碼之后,每個化合物就被表示為一個唯一的序列。

        圖1 基于分子圖的嵌入[27]Fig.1 Embedding based on a given molecular graph[27]

        圖2 預測網(wǎng)絡結(jié)構(gòu)示意圖[27]Fig.2 Structure of predictor network

        圖3 預處理前后的數(shù)據(jù)分布Fig.3 Data distribution before and after data preprocessing

        1.3 類語言描述符的生成和預測模型訓練

        如圖2(a)所示,將所得到的分子片段序列信息轉(zhuǎn)化為一個one-hot矩陣(矩陣Ⅰ),再基于分子片段池中所有分子片段的嵌入向量(即分子片段描述符)構(gòu)成片段嵌入矩陣(矩陣Ⅱ),矩陣Ⅰ和矩陣Ⅱ的乘積得到相應化合物的分子描述符(矩陣Ⅲ),簡稱為g-FSI[27]。接著,將分子描述符傳遞到Bi-LSTM網(wǎng)絡。為了更有效地提取片段序列信息,描述符的每一行(片段向量)同時由一個正向LSTM 單元和一個反向LSTM 單元處理,處理后的片段信息分別表示為和。處理后的信息繼續(xù)進入后續(xù)的正向和反向LSTM 單元進行信息提取。和的信息組合繼續(xù)被輸入到深度神經(jīng)網(wǎng)絡的注意力層[32],在注意力層上,引入標準化權(quán)重αt表示每一分子片段的重要性,以提高模型的性能和可解釋性。在注意力層之后,將經(jīng)過Bi-LSTM 和注意力機制層處理后的信息(記為M)送入BPNN 網(wǎng)絡,進行PCE 值預測。在訓練過程中,以均方誤差(MSE)作為損失函數(shù)評估回歸模型性能,并將模型誤差向后傳播以更新片段嵌入矩陣以及Bi-LSTM 和注意力層中的參數(shù)。選擇隨機梯度下降算法優(yōu)化損失函數(shù),使均方誤差最小。下面兩小節(jié)內(nèi)容將對Bi-LSTM 網(wǎng)絡和注意力機制進行更詳細的闡述。

        1.3.1 Bi-LSTM 網(wǎng)絡用于分子片段尺度的特征提取和信息集成 Bi-LSTM 網(wǎng)絡是一種具有處理長序列能力的增強型遞歸神經(jīng)網(wǎng)絡(RNN),能同時考慮分子片段序列信息中嵌入的前向和后向上下文信息[33-34],被廣泛應用于序列數(shù)據(jù)處理中,如,無約束手寫體識別、機器翻譯、圖像字幕等[35-37]。對于一個給定的分子p,對應的描述符為[x1,…,xt,…,xn](這里n 表示分子片段序列信息的維度,xt為分子片段向量),如圖2(b)所示,當前分子的每個分子片段向量都將作為一個前向和一個后向LSTM 單元的輸入,處理后的片段信息——/被傳遞到下一個LSTM 單元。對于每個LSTM 單元,引入自適應機制來決定前一個單元傳遞的前一個片段信息的保存程度,并存儲當前片段信息輸入的特征[34]。

        本文采用的Bi-LSTM 網(wǎng)絡包含n 個正向LSTM單元和n個反向LSTM單元。經(jīng)信息處理后,得到一組隱藏狀態(tài),用于前向和后向信息提取。Bi-LSTM網(wǎng)絡的信息提取如式(8)和式(9)所示。

        1.3.2 注意力機制用于分子尺度上的特征提取和信息集成 從微觀化學環(huán)境角度,并非每一分子片段對有機化合物的PCE 性能都具有相同的貢獻。因此,采用注意力機制來跟蹤對PCE 性能有重要影響的分子片段。在分子片段尺度提取的特征通過與標準化的重要性權(quán)重向量相乘,合并為分子尺度的特征向量。經(jīng)信息處理后的分子片段信息ht輸入一個單層MLP(多層感知器)得到us,其中,引入了權(quán)重向量Ws和偏置參數(shù)bs,進一步通過softmax函數(shù)計算得到標準化的重要性權(quán)重αt。然后,通過計算信息向量的加權(quán)和得到處理后的分子信息M。計算公式如下[39]:

        其中,uTt是在網(wǎng)絡訓練過程中隨機初始化,在模型訓練過程中將基于分子片段信息向量不斷學習優(yōu)化。

        1.4 模型驗證

        基于測試數(shù)據(jù)集,對所建立的QSPR 模型的預測性能、競爭力進行評估,并與其他預測模型進行比較,評價所得模型外部競爭力。

        以上所有的模型訓練和評估步驟都是通過Python 語言編寫完成,并在Windows 和Linux 平臺上部署。同時,神經(jīng)網(wǎng)絡算法的實現(xiàn)基于開源的深度學習框架Pytorch[40],并基于2個GTX-1080Ti GPU 實現(xiàn)模型訓練。

        2 結(jié)果與討論

        2.1 實驗超參數(shù)設置

        將收集到的CEPDB 數(shù)據(jù)集隨機劃分為訓練集、驗證集和測試集,其中,驗證集用于模型訓練過程中模型超參數(shù)優(yōu)化的驗證,測試集用于最終的模型評估。

        圖4 真實值和QSPR模型預測值的散點圖Fig.4 Scatter plots for the predicted-experimental value with the QSPR model

        采用網(wǎng)格搜索優(yōu)化模型超參數(shù),包括損失函數(shù)優(yōu)化器的選擇、學習速率、隱層和隱層單元的個數(shù)。選擇Adam[41]作為損失函數(shù)優(yōu)化器,學習率0.001。經(jīng)過模型訓練和驗證過程,得到QSPR 模型。最終優(yōu)化模型的BP神經(jīng)網(wǎng)絡包含3層,每層32個隱藏單元。利用測試集對得到的QSPR 模型進行評價,模型預測值與計算理論值之間的比較如圖4所示。對于驗證和測試數(shù)據(jù)集,可以看到,預測結(jié)果沿對角線分布緊密。計算得到模型的決定系數(shù)(R2)為0.97,驗證集和測試集的預測均方誤差(MSE)分別為0.17 和0.16。可以得出所得QSPR 模型具有較高精度的結(jié)論。

        2.2 模型的競爭性

        進一步驗證所提出方法的合理性和可靠性,基于同一數(shù)據(jù)集,應用其他幾種分子描述符和機器學習算法建立QSPR 模型。所選擇的分子描述符包括擴展連通型指紋ECFP[42]和Mol2vec[43];選擇的機器學習算法為ANN 和RF。對于ECFP,設定位向量長度為2048,同時,將Mol2vec的嵌入維度固定為300,基于此,ECFP 和Mol2vec 將分子描述為固定長度的向量,生成的描述符可以直接用作ANN 和RF 的輸入。共得到5個QSPR模型,其性能比較列于表1。

        表1 測試集的預測精度Table 1 Prediction accuracy of the testing set

        從三個分子描述符g-FSI、ECFP 和Mol2vec 的比較可以看出,基于g-FSI 和ECFP 所得到預測結(jié)果的決定系數(shù)高于以Mol2vec 作為描述符時的結(jié)果,均大于0.9,且MSE 較低。說明g-FSI 和ECFP 能夠更好地滿足當前研究的需要。本質(zhì)上,g-FSI 和ECFP 是基于分子片段信息的相同類型的分子描述符,所以均取得了較好的表現(xiàn);相比于ECFP,g-FSI同時考慮了分子的片段信息和序列信息,這也是使得g-FSI預測效果更好的重要原因。

        同樣是受到自然語言處理技術啟發(fā)而產(chǎn)生的Mol2vec 卻在預測任務中取得了不理想的結(jié)果。Mol2vec 其本身是利用大量有機分子作為語料庫通過Word2vec 預訓練得到分子片段嵌入向量的一種無監(jiān)督方法,其特點在于學習到的嵌入向量是稠密的。但從分子片段向整個分子過渡的過程中,采用了直接加和平均的方法,該過程勢必帶來分子整體信息的損失,尤其是分子的序列信息被徹底忽略,這些因素的共同作用使Mol2vec表現(xiàn)不佳。

        2.3 基于注意力機制對重要分子片段的分析

        對于材料設計,QSPR 模型預測結(jié)果的可解釋性不亞于其預測精度[44]。與專家的經(jīng)驗直覺或經(jīng)驗類似,模型“學習”過程中獲得的信息對具有更佳性能的OPV 材料設計具有指導意義。本節(jié)通過“學習”過程,根據(jù)注意力機制賦予每個分子片段的注意權(quán)重,分析有利于有機化合物潛在PCE 性能的重要分子片段。

        對于分子片段,其對于有機化合物光電轉(zhuǎn)換性能越重要,在模型訓練中獲得的注意力權(quán)重越大。圖5(a)給出了基于訓練數(shù)據(jù)集獲得的56 個片段在具有不同PCE 值的有機化合物中的注意力權(quán)重的熱力圖。顏色越深,注意力權(quán)重越高。可以看到,在大多數(shù)有機化合物中,有兩個分子片段群“備受關注”,即分子片段11~12 和30~31。如圖5(b)給出了56個分子片段的平均注意力權(quán)重,這些分子片段的平均權(quán)重值也高于其他分子片段。

        圖5 注意力機制的可視化Fig.5 Visualization of the attention mechanism

        為便于進一步分析,從測試集中提取5 種含有片段12的化合物,如圖5(c)所示。通過比較這五種化合物的分子片段組成,可以得到十分有趣的結(jié)果。對于前三個PCE 值大于10%的分子,其性能主要受片段12的影響。除片段12外,片段4~6以及片段11 在高PCE 的分子中也有著不同程度的作用。而在PCE 值介于3%~7%范圍內(nèi),分子性能還將受到片段30~31的強烈影響;基于此,可以大膽地推斷片段12 以及片段30~31 之間的協(xié)同作用將會導致分子的PCE 值趨向于平庸化,在分子設計中需要避免同時引入片段12與片段30~31。而對于其余兩種PCE 值低于3%的化合物,不難發(fā)現(xiàn),片段12依舊占據(jù)主導作用,但是其權(quán)重系數(shù)均小于0.15,遠低于在高PCE 分子中的權(quán)重(大于0.8)。此外,片段群4~7和13~16 也具有相對活躍的表現(xiàn),但更明顯的是PCE較低的兩組在注意力權(quán)重分布上比其他三組更為平均。

        3 結(jié) 論

        光伏技術被認為是解決21 世紀能源短缺和環(huán)境危機的最有前途的途徑之一。發(fā)現(xiàn)具有高光電轉(zhuǎn)換效率的化合物已成為推動該技術發(fā)展的關鍵任務之一。受有機化學與自然語言的相似性啟發(fā),本文采用一種類語言的分子描述符描述有機化合物,建立深度學習模型,以實現(xiàn)高精度的PCE 值預測。在分子描述過程中,將由原子和鍵組成的分子片段信息嵌入到數(shù)值向量中,并根據(jù)分子片段的序列信息將相關向量聚合成矩陣。研究已表明,片段(詞)的位置信息對分子(句)的性質(zhì)預測(意義理解)具有重要意義,故采用Bi-LSTM 對分子描述符進行處理,使嵌入的分子片段序列信息能夠被完全“理解”。然后,將處理后的信息傳遞給BPNN,實現(xiàn)PCE 值的預測。在此過程中,應用注意力機制幫助識別分子片段的重要性,提高預測精度。模型評價結(jié)果表明,與其他幾種分子描述符和機器學習算法相比,該模型具有更高的預測精度和競爭性。此外,所建立的方法能在一定程度上揭示分子片段對分子PCE 性能的影響,可以為OPV 的逆向設計提供依據(jù)。

        本研究中的描述符生成和性質(zhì)映射過程都是自動完成的,避免了人為干預。換句話說,深度學習方法能夠從SMILES 中提取和學習重要的知識,因此不需要建模者提供深入的領域知識。此外,在所用方法的“學習”過程中,能夠識別出具有決定性作用的片段,表明所采用的方法能夠為OPV 的逆向設計提供有指導意義的信息。雖然本研究的重點是OPV 的PCE 值預測,但是該方法可以進一步擴展到有機材料的其他重要性質(zhì)的預測。

        猜你喜歡
        信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        一個相似模型的應用
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        亚洲精品国产suv一区88| AV中文码一区二区三区| 视频女同久久久一区二区三区| 麻豆人妻无码性色AV专区| 天堂a版一区二区av| 日本中文字幕有码在线播放| 亚洲精品av一区二区| 亚洲精品久久激情国产片| 精品丰满人妻无套内射 | 欧美日韩人妻| 亚洲专区在线观看第三页| 99蜜桃在线观看免费视频| 在线观看国产成人av天堂野外| 少妇被又大又粗又爽毛片| 久久久国产精品黄毛片| 美丽人妻被按摩中出中文字幕| 麻豆变态另类视频在线观看| 日韩偷拍视频一区二区三区| 青青草成人免费播放视频| 一本色道久久88—综合亚洲精品| 国产av天堂亚洲国产av天堂| 亚洲精品成人无码中文毛片| 久久综合狠狠综合久久| 欧美亚州乳在线观看| 精品久久杨幂国产杨幂| 久久综合这里只有精品| 久久精品国产亚洲av久按摩| 无码av天天av天天爽| 一区二区三区中文字幕| 色伦专区97中文字幕| 国产精品高潮无码毛片| 午夜一区二区三区av| 日本淫片一区二区三区| 欧美黑人巨大videos精品| 大肉大捧一进一出好爽视频| 大学生被内谢粉嫩无套| 久久国产综合精品欧美| 午夜日本理论片最新片| 麻豆人妻性色av专区0000| 精品国产第一国产综合精品| 国产超碰人人模人人爽人人喊|