惠慶丹,馬 羚,焦 龍
(西安石油大學(xué)化學(xué)化工學(xué)院,陜西 西安 710065)
生產(chǎn)具有可控,的且能釋放大量能量的高能化合物是[1]高能材料化學(xué)研究的重點(diǎn)。由于唑類化合物的密度與爆轟性能成正比,所以在分子設(shè)計(jì)的過程中,設(shè)計(jì)出密度大的物質(zhì),其對(duì)應(yīng)的爆轟性能就越大。由于合成新的唑類化合物既耗時(shí)又成本高,因此,最好省略任何一個(gè)不良的候選化合物。這可以通過在早期階段的預(yù)測(cè)方法來(lái)獲得[2]。定量構(gòu)效關(guān)系(QSAR)是一種已知且可靠的方法,可以有效地預(yù)測(cè)唑類化合物的理化性質(zhì)。
全息定量構(gòu)效關(guān)系(HQSAR)是一種利用分子全息作為描述符的巧妙的QSAR方法,分子描述符可以快速地處理大量數(shù)據(jù)。它不僅避免了二維QSAR方法中獲取結(jié)構(gòu)描述符的大量計(jì)算,也避免了3D-QSAR方法中需要優(yōu)化結(jié)構(gòu)[3]。此外,在預(yù)測(cè)能力方面,HQSAR高于2D-QSAR,與3D-QSAR相當(dāng)。
這些特點(diǎn)說(shuō)明HQSAR技術(shù)可用于篩選大型化學(xué)品數(shù)據(jù)庫(kù)。本文研究的目的就是建立可靠的HQSAR模型來(lái)預(yù)測(cè)唑類化合物的密度。
所研究的121種唑類化合物的密度來(lái)自參考文獻(xiàn)[4]。將121個(gè)多亞硝基芳烴化合物按5∶1的比例隨機(jī)分為兩個(gè)樣本集,即訓(xùn)練集(Group 1)和測(cè)試集(Group 2)。用于建立HQSAR模型的訓(xùn)練集包括96個(gè)樣本,用于評(píng)估所開發(fā)的QSAR模型預(yù)測(cè)性能的測(cè)試集包括25個(gè)樣本。
所有的計(jì)算都是在i5-7200U/4G-RAM個(gè)人計(jì)算機(jī)上進(jìn)行的,與HQSAR建模相關(guān)的計(jì)算在SYBYL-X2.0軟件(Certara,美國(guó))中進(jìn)行,其他的計(jì)算都是用我們的研究小組開發(fā)的程序進(jìn)行的。
HQSAR是Hurst等人提出的一種特殊的QSAR方法[5],是分子全息和偏最小二乘法(PLS)一種創(chuàng)造性的結(jié)合。分子全息是分子指紋的一種擴(kuò)展形式,是將化學(xué)結(jié)構(gòu)表示轉(zhuǎn)化為二進(jìn)制的基于分子片段的描述符。所有的可能的分子片段包括環(huán)狀,分支,重疊和線性等這些特征。
分子全息圖實(shí)際上是一個(gè)包含分子片段計(jì)數(shù)的陣列,分子片段用Sybyl譜線法(sybyl line notation SLN)描述[6]。這是一種通過使用短的ASCll字符串來(lái)明確描述分子片段、結(jié)構(gòu)、反應(yīng)查詢、結(jié)構(gòu)庫(kù)、配方、分子的規(guī)范。
建立最佳的HQSAR模型需要優(yōu)化兩個(gè)參數(shù)“fragmentdistinction”和“fragmentsize”。在Sybyl中,默認(rèn)“fragmentsize”為4-7,fragmentdistinction包括原子(A)、化學(xué)鍵(B)、連接性(C)、手型(Ch)、氫原子(H)、質(zhì)子的供體和受體(DA)[7]。不同類型的fragmentdistinction可以自由組合,所有的可能的片段都是由S原子生成的(S是M和N之間的整數(shù))。M的值應(yīng)該小于N, M一般大于2,N的值一般不超過12,并且不超過分子中的原子數(shù)。在設(shè)置好“fragmentdistinction”和“fragmentsize”,循環(huán)冗余校驗(yàn)(cyclic redundancy check, CRC)是通過將每個(gè)片段映射到0~231范圍內(nèi)的整數(shù)。每個(gè)整數(shù)對(duì)應(yīng)一個(gè)固定長(zhǎng)度的整數(shù)組中的一個(gè)序列,它表示分子全息圖的長(zhǎng)度。在sybyl軟件的HQSAR模型中,L通常是從53到401的12個(gè)質(zhì)數(shù)之一,L通常設(shè)置分別為97、151、199、257、307和353。分子位串指紋包含0,它通常沒有有效的信息。在后續(xù)的PLS建模步驟中,計(jì)算時(shí)間隨指紋長(zhǎng)度的增加而增加,更重要的是,這些“0”可能會(huì)阻礙PLS模型的后續(xù)計(jì)算。這種增加可以通過“哈?!钡倪^程來(lái)阻止時(shí)間的延長(zhǎng),該過程將多個(gè)碎片分布到指紋的相同位置[8]。
(1)
(2)
(3)
(4)
(5)
(6a)
(6b)
(6c)
(6d)
表1 不同“fragment distinction”建立的HQSAR模型的統(tǒng)計(jì)參數(shù)
表2 不同“fragment size”建立的HQSAR模型的統(tǒng)計(jì)參數(shù)
表3 外部測(cè)試集驗(yàn)證法和留一交叉驗(yàn)證法的統(tǒng)計(jì)參數(shù)
圖1 HQSAR模型密度實(shí)驗(yàn)值與預(yù)測(cè)值對(duì)比圖
從外部測(cè)試集驗(yàn)證和LOO-CV的結(jié)果可以推斷,HQSAR模型有良好的預(yù)測(cè)能力。
采用新開發(fā)的基于分子全息的QSAR方法來(lái)預(yù)測(cè)唑類化合物的密度值,結(jié)果表明,該HQSAR方法對(duì)唑類化合物的密度值具有較高的預(yù)測(cè)能力,唑類化合物的預(yù)測(cè)密度值與實(shí)驗(yàn)值非常接近。此外,基于分子全息的HQSAR模型可以快速、輕松地發(fā)展,具有很高的統(tǒng)計(jì)意義和預(yù)測(cè)能力,因此HQSAR技術(shù)是一種篩選和預(yù)測(cè)唑類化合物密度很有前途的工具。