付 瑾,馬 羚,焦 龍
(西安石油大學(xué)化學(xué)化工學(xué)院,陜西 西安 710065)
苯類有機(jī)物是地下水環(huán)境中常見的污染物。地下環(huán)境中的苯類有機(jī)物以非水相液體(NAPL)的形態(tài)污染土壤、含水層和地下水。殘渣可持續(xù)殘留數(shù)十年甚至數(shù)百年,長期污染地下環(huán)境,分解過程的中間產(chǎn)物也對環(huán)境造成二次污染。苯類污染物的主要來源是石油生產(chǎn)、使用、儲存和運(yùn)輸過程中造成的石油泄漏和滲透。地下水環(huán)境油污事故時有發(fā)生,特別是在快速發(fā)展的產(chǎn)油國,此類污染問題尤為嚴(yán)重。
近年來,許多氧化劑(如羥基自由基(·OH)、臭氧和硝酸鹽自由基)已被用于降解環(huán)境中的有機(jī)物,有機(jī)污染物與·OH的反應(yīng)是去除環(huán)境中有機(jī)污染物的最重要途徑[1-2]。苯類有機(jī)物與·OH的反應(yīng)速率常數(shù)(kOH)是大氣中有機(jī)化合物的重要參數(shù),是評價環(huán)境持久性和生態(tài)風(fēng)險性的重要指標(biāo)[3]。通過實驗方法獲得kOH成本高、費(fèi)時費(fèi)力,難以滿足化學(xué)物質(zhì)生態(tài)風(fēng)險評估的需要。因此,亟需建立一種能夠高效預(yù)測有機(jī)化合物的kOH的理論方法。
定量構(gòu)效關(guān)系(QSAR)是在一個已知化合物的分子結(jié)構(gòu)和生物活性之間建立一個數(shù)學(xué)模型,然后預(yù)測該系列中一個未知化合物的生物活性。該技術(shù)已成功地應(yīng)用于預(yù)測有機(jī)化合物的各種反應(yīng)(如與·OH、硝基和臭氧的反應(yīng))的動力學(xué)速率常數(shù)。目前,QSAR廣泛應(yīng)用于藥物設(shè)計[4-8]、化合物的化學(xué)物理性質(zhì)研究[9-12]、反應(yīng)機(jī)理[13-18]、環(huán)境中化學(xué)物質(zhì)暴露水平和生物活性評價[19-20]評價等領(lǐng)域。三維定量構(gòu)效關(guān)系(3D-QSAR)通過分子三維空間構(gòu)型計算各種場的作用以建立QSAR模型,操作簡單,一般模型預(yù)測準(zhǔn)確度更高,且更為穩(wěn)定。本研究采用3D-QSAR中比較分子場分析(CoMFA)方法,對苯類有機(jī)物的44種化合物建立其kOH的QSAR模型,分析了苯類有機(jī)物的分子結(jié)構(gòu)對其kOH值的影響。
44個化合物的數(shù)據(jù)列于表1。采用SYBYL-X 2.0(Tripos, U.S)分子模擬軟件構(gòu)建全部的分子模型及建立QSAR模型,通過留一交叉驗證和外部測試集驗證,評估模型的預(yù)測能力。將44種化合物隨機(jī)分為兩組:第Ⅰ組中含37種化合物,第Ⅱ組中含7種化合物(第Ⅱ組在表1中用“*”標(biāo)記)。用均方根相對誤差(RMSRE)、交叉驗證均方根誤差(RMSECV)、預(yù)測均方根誤差(RMSEP)來評價模型的預(yù)測能力,其定義分別見式(1)~(3)[21]。
表1 kOH的實驗值和預(yù)測值
(1)
(2)
(3)
表1(續(xù))
所有對CoMFA的分子建模和計算都是由SYBYL-X 2.0 (Tripos, U.S.)軟件進(jìn)行。在SYBYL軟件里構(gòu)建44個分子結(jié)構(gòu)模型,采用Gasteiger-Huckel來計算原子電荷,通過Tripos標(biāo)準(zhǔn)分子力場進(jìn)行分子結(jié)構(gòu)優(yōu)化,能量梯度收斂值RMS設(shè)為 0.0209 kJ·mol-1·A-1,最大迭代次數(shù)設(shè)為1000次,其余均采用默認(rèn)值。
CoMFA是將立體場和靜電場建立在分子周圍的三維的網(wǎng)格上,對于每個網(wǎng)格點(diǎn),計算了分子與已定義探針之間的相互作用能。CoMFA模型由sp3雜化的C+原子作為探針,并設(shè)定其臨界值在 125.58 kJ·mol-1。當(dāng)x、y和z軸的三維網(wǎng)格間距為2A時,Lennard-Jones公式和庫侖函數(shù)用于計算的空間場和靜電場的作用能。最后進(jìn)行偏最小二乘法分析,先用交叉驗證方法檢驗所得模型的預(yù)測能力,得到最佳主成分?jǐn)?shù)(N)和交叉驗證系數(shù)平方(q2),再進(jìn)行非交叉驗證得到非交叉驗證相關(guān)系數(shù)平方(R2)和Fisher統(tǒng)計量(F)、估計標(biāo)準(zhǔn)偏差(SEE),并用這些數(shù)據(jù)作為判斷回歸模型預(yù)測能力的依據(jù),以三維等勢圖顯示[21-22]。
以第I組化合物為訓(xùn)練集建立CoMFA模型,該模型的最佳主成分值為2,q2=0.885,R2為0.935,SEE為0.070,F(xiàn)值為244.967。用所建立的模型預(yù)測第II組化合物的kOH數(shù)值,預(yù)測結(jié)果見表1。第II組kOH數(shù)值的預(yù)測RMSRE為0.3911,RMSEP為0.0382,預(yù)測值與實驗值之間的回歸方程為y=0.9622x+0.3589(y表示預(yù)測值,x表示實驗值),相關(guān)系數(shù)為0.9688。如表1所示,化合物的kOH數(shù)值預(yù)測值和實驗值基本一致。用第I組完成留一交叉驗證,依次預(yù)測第I組中37個樣品的kOH數(shù)值。預(yù)測結(jié)果如表1所示,第I組化合物kOH數(shù)值的預(yù)測RMSRE為0.6860,RMSECV為0.0669,預(yù)測值與實驗值之間的回歸方程為y=0.9338x+0.6465(y表示預(yù)測值,x表示實驗值),相關(guān)系數(shù)為0.9671。實驗值與預(yù)測值數(shù)點(diǎn)圖見圖1。兩種驗證結(jié)果說明所建立的CoMFA模型合理,具有預(yù)測能力。
圖1 實驗值與預(yù)測值散點(diǎn)圖
分子之間的重疊范圍影響CoMFA模型的構(gòu)建,分別嘗試用不同化合物為模板利用Align Database板塊進(jìn)行分子疊合,結(jié)果表明,44號化合物(2-Naphthol)的疊合效果最好。因此,選取最活躍的44號分子作為模板對第I組化合物進(jìn)行分子疊合,疊合結(jié)果如圖2所示。
圖2 分子共同骨架的疊合圖
圖3為CoMFA模型中模板分子的立體場和靜電場的三維等勢圖。在立體場等勢圖中,綠色區(qū)域表示分子活性會隨著空間位阻的上升而提高,黃色區(qū)域表示空間位阻的降低有助于分子活性的提高;此外,靜電場等勢圖中,紅色區(qū)域表示引入帶負(fù)電荷的取代基有利于提高分子活性,藍(lán)色區(qū)域表示引入帶正電荷的取代基有利于提高化合物的活性。從等視圖可見,在44號分子的2號·OH取代位、6、7取代位的位置附近顯示為黃色區(qū)域,表示該基團(tuán)使kOH值減??;從靜電場等勢圖可見,分子的兩個苯環(huán)連接的附近為紅色區(qū)域,表示該區(qū)域添加負(fù)電荷能夠減小化合物的kOH值。
Steric field Electrostatic field圖3 CoMFA模型的三維等勢圖
本研究采用CoMFA方法對44個苯類化合物進(jìn)行研究,生成3D-QSAR模型。CoMFA分析結(jié)果顯示,交叉驗證系數(shù)q2值為0.885。交叉驗證系數(shù)q2接近于1,說明所有化合物都具有相似的相關(guān)性,所建立的模型的穩(wěn)定性會更好。這些統(tǒng)計參數(shù)表明,所建立的模型具有可靠、良好的內(nèi)外預(yù)測能力,該模型有望作為預(yù)測苯類有機(jī)物kOH值的計算工具。