徐聞曦,蔡曉然,鄭小嬌,劉根炎,巨修練
武漢工程大學(xué)化工與制藥學(xué)院,湖北 武漢 430205
肌鈣蛋白I相關(guān)激酶(TNNI3K)是一種心肌特異性激酶[1]。它包含三個(gè)可識別的結(jié)構(gòu)域:N-末端的十個(gè)錨蛋白重復(fù)序列,一個(gè)中心蛋白激酶結(jié)構(gòu)域和C末端富絲氨酸結(jié)構(gòu)域[2]。TNNI3K是促進(jìn)分裂原活化蛋白激酶(MAP3K)的超家族成員[2],然而目前僅有一個(gè)TNNI3K上游靶點(diǎn)被闡明,其余靶點(diǎn)尚不明確[3]。對TNNI3K在心臟生物學(xué)中的作用知之甚少。據(jù)Vagnozzi等[4]研究發(fā)現(xiàn)TNNI3K會(huì)加重缺血/再灌注損傷,氧化應(yīng)激和心肌細(xì)胞死亡。TNNI3K介導(dǎo)的損傷通過產(chǎn)生更多線粒體超氧化物及破壞線粒體功能發(fā)生,并且在很大程度上依賴于p38絲裂原活化蛋白激酶(MAPK)激活。TNNI3K被抑制能夠減少線粒體超氧化物產(chǎn)生,保留心臟功能并限制慢性不良重塑[4]。這項(xiàng)研究結(jié)果表明TNNI3K調(diào)節(jié)缺血性心臟再灌注損傷,是急性冠狀動(dòng)脈綜合癥(ACS)的治療新靶點(diǎn)。并且TNNI3K僅在心臟中表達(dá),所以靶向TNNI3K的抑制劑可能相對比較安全。
本文通過Brain等[5]研究得到的TNNI3K抑制劑構(gòu)建CoMFA及TopomerCoMFA模型對TNNI3K抑制劑進(jìn)行三維定量構(gòu)效關(guān)系研究。并通過已構(gòu)建的 TopomerCoMFA 模型結(jié)合 Topomer search[6]技術(shù)對ZINC數(shù)據(jù)庫進(jìn)行基于R基團(tuán)的虛擬篩選,最終整合得到25個(gè)分子,這些分子預(yù)測活性均高于建模分子中活性最高者。將這些分子對接到TN?NI3K蛋白上,篩選得到11個(gè)分子可以作為潛在的TNNI3K抑制劑,為TNNI3K的優(yōu)化設(shè)計(jì)提供了理論依據(jù)和進(jìn)一步研究的基礎(chǔ)。
本研究所涉及的所有計(jì)算工作都在WIN7系統(tǒng)SYBYL-X 2.1軟件上完成。除特別指出外,計(jì)算參數(shù)均為缺省值。本研究所用53個(gè)TNNI3K抑制劑均來自Brain等[5]文獻(xiàn),其中化合物的生物活性需先將文獻(xiàn)中所給IC50(nmol/L)值轉(zhuǎn)化為pIC50(mol/L)值?;衔锝Y(jié)構(gòu)與生物活性值如表1所示。
表1 化合物結(jié)構(gòu)和生物活性數(shù)據(jù)Tab.1 Structure and biological activity data of compounds
續(xù)表1
續(xù)表1
續(xù)表1
按隨機(jī)化原則,從53個(gè)TNNI3K抑制劑中選出43個(gè)分子作為訓(xùn)練集用于構(gòu)建CoMFA及TopomerCoMFA模型,其余10個(gè)分子作為測試集用于檢測模型的預(yù)測能力。通過Sketch Molecule模塊繪制出全部53個(gè)分子結(jié)構(gòu),并通過Minimize模塊利用Tripos力場進(jìn)行能量最小化計(jì)算實(shí)現(xiàn)結(jié)構(gòu)優(yōu)化。其中指定電荷類型為Gasteiger-Huckel,將能量計(jì)算終止標(biāo)準(zhǔn)值縮小為0.005,最大重復(fù)次數(shù)增大到1 000。保存優(yōu)化后分子用于后續(xù)計(jì)算。
傳統(tǒng)的CoMFA是3D-QSAR中應(yīng)用最廣泛的方法之一。本研究通過Align database模塊,選用生物活性最高的第52號化合物為模板,通過43個(gè)分子的部分公共結(jié)構(gòu)進(jìn)行疊合(圖1)。疊合完畢后程序自動(dòng)計(jì)算所有分子的靜電場及立體場參數(shù),并將其作為自變量,以對應(yīng)的pIC50值作為因變量,通過偏最小二乘法分析(Partial least squares)擬合分子場與生物活性間的關(guān)系生成模型[7]。進(jìn)而通過抽一法交叉驗(yàn)證[8]檢測模型的內(nèi)部預(yù)測能力,并得到最佳主成分?jǐn)?shù)N以及交叉驗(yàn)證相關(guān)系數(shù)q2,通過最佳主成分?jǐn)?shù)運(yùn)用非交叉驗(yàn)證法計(jì)算得到非交叉驗(yàn)證相關(guān)系數(shù)r2,顯著性檢驗(yàn)值F,以及標(biāo)準(zhǔn)誤差SEE。并通過計(jì)算測試集外部預(yù)測相關(guān)系數(shù)(r2pred)預(yù)測模型預(yù)測能力[9-10]。
圖1 分子疊合圖Fig.1 Superposition of molecules
傳統(tǒng)的CoMFA存在一些缺陷,其中最大的是其對輸入的要求,一方面需要提供每個(gè)配體的3D結(jié)構(gòu),另一方面需要通過考慮所有其他配體結(jié)構(gòu)來選取配體分子的某一構(gòu)象進(jìn)行適當(dāng)?shù)摹隘B合”[11]。而第二代CoMFA技術(shù),即TopomerCoMFA,可自動(dòng)創(chuàng)建用于預(yù)測化合物生物活性或性質(zhì)的模型[12]。TopomerCoMFA模型可以在幾分鐘內(nèi)創(chuàng)建,使用起來更方便,并且結(jié)果通常與傳統(tǒng)的CoMFA結(jié)果相當(dāng)且重復(fù)性高。本研究以生物活性最高的52號分子為模板。運(yùn)用TopomerCoMFA模塊將訓(xùn)練集中分子切割兩次得到R1和R2兩個(gè)R基團(tuán),并自動(dòng)得到其三維構(gòu)象,切割方式如圖2所示。與CoMFA相同,切割完畢后通過偏最小二乘法分析得到TopomerCoMFA模型。
圖2 52號分子的切割方式Fig.2 Cutting ways of molecule 52
Topomer search只是簡單的從一個(gè)“標(biāo)準(zhǔn)”的R基團(tuán)拓?fù)浣Y(jié)構(gòu)相似性搜索來定義命中結(jié)構(gòu),并運(yùn)用TopomerCoMFA技術(shù)來計(jì)算每一個(gè)結(jié)構(gòu)足夠相似的R基團(tuán)的PIC50值(當(dāng)然也需要計(jì)算R基團(tuán)的原子電荷和靜電場)[13]。本研究通過TopomerCoM?FA構(gòu)建的模型在ZINC(2012)中的Leads Now數(shù)據(jù)庫對R1及R2基團(tuán)進(jìn)行虛擬篩選,該數(shù)據(jù)庫中共包括3 687 621個(gè)分子,Topomer距離設(shè)置為150。
通過Docking suite模塊對新設(shè)計(jì)化合物與TNNI3K蛋白進(jìn)行對接研究。受體晶體結(jié)構(gòu)來自PDB數(shù)據(jù)庫(PDB:4YHT),將其導(dǎo)入SYBYL中并通過BIOPOLYMER模塊對其進(jìn)行修補(bǔ)側(cè)鏈、主鏈末端處理、加氫、設(shè)定殘基質(zhì)子化狀態(tài)、給配體指定AMBER7-FF99的原子類型等蛋白準(zhǔn)備工作。準(zhǔn)備篩選得到的新化合物。設(shè)置對接模式為Surflex-Dock GeomX(SFXC),輸出構(gòu)象個(gè)數(shù)為 20,并選擇進(jìn)行CScore計(jì)算。一般認(rèn)為輸出構(gòu)象的總打分函數(shù)Total Score大于6時(shí)構(gòu)象被判定為較好的輸出構(gòu)象。當(dāng)總打分函數(shù)和其他四種經(jīng)驗(yàn)打分函數(shù)均滿足要求時(shí),CScore打分為5(總分為5)。一般認(rèn)為CScore為5時(shí)構(gòu)象具有良好的選擇性。
如表2,訓(xùn)練集分子所構(gòu)建CoMFA模型的交叉驗(yàn)證相關(guān)系數(shù)為0.622,最佳組成分?jǐn)?shù)n為6,非交叉驗(yàn)證相關(guān)系數(shù)r2為0.952,標(biāo)準(zhǔn)偏差SEE為0.211,F(xiàn)值為62.931。這些數(shù)據(jù)說明模型有較好的穩(wěn)定性和內(nèi)部預(yù)測能力。外部預(yù)測相關(guān)系數(shù)為0.823,說明模型同樣具有良好的外部預(yù)測能力。如圖3,對實(shí)驗(yàn)活性和預(yù)測活性做線性相關(guān)分析發(fā)現(xiàn),測試集與訓(xùn)練集分子實(shí)測活性值與預(yù)測活性值具有較好的相關(guān)性(見圖3),這進(jìn)一步說明模型具有較好的預(yù)測能力。另外,值得關(guān)注的是,立體場貢獻(xiàn)值為93%,而靜場場貢獻(xiàn)值僅為7%,說明立體場在該模型中發(fā)揮主導(dǎo)作用。
表2 CoMFA模型的統(tǒng)計(jì)參數(shù)Tab.2 Statistical parameters of CoMFA model
圖3 采用(a)CoMFA和(b)Topomer CoMFA模型得到訓(xùn)練集和測試集分子實(shí)驗(yàn)值與預(yù)測值的線性回歸圖Fig.3 Linear regression between actual and predicted values of training and test sets by(a)CoMFA model,(b)Topomer CoMFA model
PLS分析的結(jié)果可以轉(zhuǎn)換為X個(gè)變量的回歸系數(shù),它可以用于生物活性值的計(jì)算和預(yù)測。由于有大量的回歸系數(shù),所以直接解釋相應(yīng)的方程是不可能實(shí)現(xiàn)的。所以將結(jié)果以色塊圖的方式顯示[8]。分子周圍靜電場顯示為紅藍(lán)色塊,紅色代表增加此區(qū)域電負(fù)性可以使生物活性增加,而藍(lán)色代表減少該區(qū)域電負(fù)性可以使生物活性增加。立體場顯示為黃綠色塊,綠色代表增加該區(qū)域基團(tuán)體積可以增加活性,而黃色代表減小該區(qū)域基團(tuán)體積可以增加活性。
以生物活性最高的52號化合物為模板分析CoMFA模型的三維等勢圖(見圖4)。圖4(a)為靜電場等勢圖,如圖所示苯環(huán)6號位有一藍(lán)色區(qū)域,此處連有電負(fù)性弱的基團(tuán)時(shí)分子活性更高,如氟、氯兩個(gè)原子的電負(fù)性大小為F>O>Cl,所以苯環(huán)6號位連有氟原子的9號分子生物活性(pIC50=6.6 mol/L)小于連有羥基的20號分子生物活性(pIC50=7.4 mol/L),小于連有氯原子的10號分子生物活性(pIC50=7.7 mol/L)。藍(lán)色色塊附近有一小的紅色色塊,說明此處如連有多個(gè)基團(tuán)時(shí),為了避免空間位阻的影響,兩個(gè)基團(tuán)不應(yīng)同時(shí)過大。另外,20號分子生物活性較好可能是由于與相鄰苯胺上的N形成分子內(nèi)氫鍵使得與TNNI3K結(jié)合所需的共面構(gòu)象更穩(wěn)定造成的。
圖4(b)為立體場等勢圖,從圖中可以看到在苯環(huán)6號位附近有一大的綠色色塊,說明此處取代基體積越大活性越強(qiáng),如34、35、36三個(gè)分子,隨著苯環(huán)6位四氫吡咯上連有甲基數(shù)目依次增大,化合物體積依次增大,生物活性依次增大。苯環(huán)五位氨基左側(cè)有多個(gè)黃綠色塊,說明此處立體場對活性的影響較為復(fù)雜。1,3,5-噠嗪環(huán)左側(cè)有多個(gè)黃色色塊,說明此處連有體積較小基團(tuán)時(shí)活性較好,如喹唑啉上連有氨基的42號分子(pIC50=7.5 mol/L)比連有氨甲基的41號分子(pIC50=7.3 mol/L)和連有氧甲基的43號分子(pIC50=7.1 mol/L)生物活性都要高。另外友誼綠色色塊橫跨52號分子左側(cè)末端苯環(huán),這也解釋了53號分子(pIC50=7.3 mol/L)活性高于51號分子(pIC50=7.1 mol/L)的原因。
圖4 CoMFA等勢圖:(a)靜電場,(b)立體場Fig.4 Contour map of CoMFA:(a)electrostatic,(b)steric fields
TopomerCoMFA模型的最佳組成分?jǐn)?shù)為13,交叉驗(yàn)證相關(guān)系數(shù)q2為0.768,q2的標(biāo)準(zhǔn)偏差為0.38,非交叉驗(yàn)證相關(guān)系數(shù)r2為0.981,r2的標(biāo)準(zhǔn)偏差為0.11,截距為7.8,計(jì)算TopomerCoMFA模型外部預(yù)測相關(guān)系數(shù)R2pred為0.754。作為以上參數(shù)的補(bǔ)充,圖3反映了訓(xùn)練集及測試集分子生物活性的預(yù)測值與理論值間的差異及散點(diǎn)離散程度,圖中各點(diǎn)基本分布在直線兩側(cè)。模型參數(shù)及線性回歸圖綜合分析表明模型具有良好的穩(wěn)定性及內(nèi)部和外部預(yù)測能力。
基于得到的TopomerCoMFA模型,對ZINC數(shù)據(jù)庫中Leads Now數(shù)據(jù)庫(共包含36 876 219個(gè)分子)進(jìn)行基于R基的虛擬篩選,篩選分為兩個(gè)階段進(jìn)行。第一階段,數(shù)據(jù)庫中分子被切割成為R基團(tuán)并通過Topomer相似性與TopomerCoMFA模型所基于的訓(xùn)練集R基團(tuán)進(jìn)行比較。第二階段,對滿足Topmer相似性要求的R基團(tuán)通過它們對預(yù)測值的貢獻(xiàn)來打分。再將篩選得到的R1及R2基團(tuán)通過生物活性最高的52及33號分子進(jìn)行過濾,得到貢獻(xiàn)值最高的5個(gè)R1及5個(gè)R2。根據(jù)排列組合原理,依次替換模板分子52號分子中的R1及R2基團(tuán),最終得到25個(gè)新分子。用與訓(xùn)練集及測試集中分子相同的方式對這些分子進(jìn)行結(jié)構(gòu)優(yōu)化構(gòu)建新表單,放入TopomerCoMA模型中預(yù)測活性,發(fā)現(xiàn)設(shè)計(jì)得到的新分子預(yù)測活性均大于活性最高的模板分子(PIC50值均大于9.5)。
將這25個(gè)新設(shè)計(jì)的分子對接到TNNI3K蛋白上,由于分子對接和TopomerCoMFA兩種方法評價(jià)原理差異,與TopomerCoMFA不同,分子對接會(huì)考慮疏水、極性、排斥、熵、溶劑化的綜合作用,所以對接打分與TopomerCoMFA模型預(yù)測活性之間并不存在線性關(guān)系[14]。為提高篩選的成功率,本文選擇CScore打分為5的分子作為對接評價(jià)優(yōu)秀的分子,并選擇Total Score最高的構(gòu)象為每個(gè)分子的最佳構(gòu)象。25個(gè)新化合物中共有11個(gè)化合物有CScore打分為5的構(gòu)象(見表3),從這11個(gè)化合物中選擇對接打分最高的2號化合物進(jìn)行具體的對接研究,2號化合物與TNNI3K蛋白口袋對接如圖5所示。從圖中可以看到,Lys482、Val470、Leu513、Ala480、Phe582、Trp530形成疏水口袋與配體形成疏水作用,Trp53與配體形成π-π堆積作用。另外,值得注意的是對接打分最高的化合物2與4YHT晶體中原配體與TNNI3K形成的氫鍵相同,與Cys531、Asp593、Thr528形成氫鍵作用。研究這些化合物與TNNI3K蛋白的作用發(fā)現(xiàn),11個(gè)化合物中有9個(gè)化合物與Asp593形成分子間氫鍵,并且兩個(gè)不能和此蛋白形成此氫鍵的化合物對接打分較低,小于7(11個(gè)分子中有8個(gè)分子對接打分大于8),說明這3個(gè)氨基酸特別是Asp593在蛋白與配體結(jié)合過程中作用顯著。
表3 新設(shè)計(jì)分子的結(jié)構(gòu),預(yù)測活性值以及對接打分Tab.3 Structure predicted pIC50and surflex-dock scores of new designed molecules
圖5 2號分子與TNNI3K活性位點(diǎn)對接圖Fig.5 Docking results of compound 2 with TNNI3K
本研究通過53個(gè)TNNI3K抑制劑構(gòu)建了其CoMFA及TopomerCoMFA模型,模型參數(shù)及線性回歸綜合分析可知模型具有良好的穩(wěn)定性和預(yù)測能力。將TopomerCoMFA模型作為Topomer Search提問式搜索zinc數(shù)據(jù)庫,并將搜索得到的R1、R2基團(tuán)組合共得到25個(gè)新化合物,結(jié)合分子對接最終篩選得到11個(gè)潛在的TNNI3K抑制劑,并且觀察蛋白受體與配體相互作用發(fā)現(xiàn),Cys531、Asp593、Thr528可能是配體與TNNI3K蛋白結(jié)合過程中產(chǎn)生關(guān)鍵氫鍵的氨基酸。對3D-QSAR模型的研究可以方便理解肌鈣蛋白I相關(guān)激酶抑制劑結(jié)構(gòu)與活性的關(guān)系,為設(shè)計(jì)新的具有更高活性的抑制劑分子提供信息。而TopomerCoMFA與分子對接技術(shù)的結(jié)合,可以使我們從大的小分子數(shù)據(jù)庫中篩選得到潛在的抑制劑分子,提高抑制劑分子設(shè)計(jì)的效率。