張寓 於東軍
摘 要:在生物內(nèi)部活動中,蛋白質(zhì)和配體之間的互相作用是非常常見而又重要的一種活動,腺嘌呤核苷三磷酸(ATP)是其中一種非常重要的配體。為了提高預(yù)測腺嘌呤核苷三磷酸(ATP)綁定位點的準確率,提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)的方法。首先,以蛋白質(zhì)的序列信息為基礎(chǔ),融合位置特異性得分矩陣信息、二級結(jié)構(gòu)信息和水溶性信息,使用隨機下采樣的方法消除數(shù)據(jù)不平衡的影響,再對缺失的特征進行再編碼補齊,得到訓(xùn)練特征。訓(xùn)練一個1DCNN來預(yù)測蛋白質(zhì)ATP綁定位點,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),并且進行實驗來對比所提方法和其他機器學(xué)習(xí)方法的優(yōu)劣。實驗結(jié)果展示了所提方法的有效性,并且該方法與傳統(tǒng)支持向量機(SVM)相比在AUC指標(biāo)上有部分的提升。
關(guān)鍵詞:蛋白質(zhì)ATP;卷積神經(jīng)網(wǎng)絡(luò);數(shù)據(jù)不平衡問題;分類
中圖分類號:TP391.4
文獻標(biāo)志碼:A
ProteinATP binding site prediction based on 1Dconvolutional neural network
ZHANG Yu, YU Dongjun*
School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing Jiangsu 210094, China
Abstract:
Interaction between proteins and ligands is a very common and important activity in the internal activities of organisms. Adenosine TriPhosphate (ATP) is one of the most important ligands. To improve the accuracy of proteinATP (Adenosine TriPhosphate) binding sites, an algorithm was proposed by using One Dimensional Convolutional Neural Network (1DCNN). Firstly, based on the protein sequence information, position specific score matrix information, secondary structure information and water solubility information were combined and random undersampling was used to eliminate the impact of data imbalance. Then, the missing features were completed by recoding. Finally, the training features were obtained. A 1DCNN was trained to predict proteinATP binding sites, the network structure was optimized, and experiments were carried out to compare the proposed method and other machine learning methods. Experimental results show that the proposed method is effective and can achieve better performance on AUC (Area Under Curve) compared to the traditional Support Vector Machine (SVM).
Key words:
proteinATP (Adenosine TriPhosphate); Convolutional Neural Network (CNN);data imbalance problem;classification
0?引言
腺嘌呤核苷三磷酸(Adenosine TriPhosphate, ATP)是大部分生物體力最直接的能量來源,它水解時能釋放出大量的能量,這些能量參與了很多人類的基礎(chǔ)的生命活動, 因此,ATP是人體內(nèi)極為重要的一種分子[1-2]。蛋白質(zhì)ATP綁定位點指的是在綁定有ATP的蛋白質(zhì)的殘基中和ATP配體距離小于一定距離的殘基,如果能夠正確定位蛋白質(zhì)ATP綁定位點,就能變相地確定ATP分子的位置,這對藥物設(shè)計和進一步的生物生命活動研究都有著重大的意義[3-4]。
在傳統(tǒng)的生物學(xué)實驗中,通常要通過生物濕實驗來測定蛋白質(zhì)的ATP綁定位點,但是做生物濕實驗較為耗時而且經(jīng)濟成本高昂。隨著數(shù)字化信息時代的開始,很多的生物信息以數(shù)字化的方式得以保存[5],隨后就出現(xiàn)了使用已知的生物信息來預(yù)測未知的信息的方法,最開始使用的方法一般是基于模板的匹配算法[6-7],隨著機器學(xué)習(xí)技術(shù)的發(fā)展,開始出現(xiàn)使用機器學(xué)習(xí)來預(yù)測未知的綁定位點[8-9]的方法。
在機器學(xué)習(xí)方法中,有效的特征提取是提高預(yù)測性能的關(guān)鍵。在蛋白質(zhì)的特征工程方面,開始只是使用原本的序列信息來預(yù)測,后來,蛋白質(zhì)序列中的一些隱藏的信息被挖掘了出來,例如:位置特異性得分矩陣(Position Specific Score Matrix, PSSM)[10]、二級結(jié)構(gòu)(Secondary Structure, SS)信息、溶液接觸面積(Solvent Accessibility, SA)信息、物理化學(xué)屬性[11]、三級結(jié)構(gòu)信息[12-13]等,這些信息也被用于參與預(yù)測,而且提高了預(yù)測的性能; 然而這些信息很多也是未經(jīng)過實驗測定的。針對這個問題,后續(xù)出現(xiàn)了使用預(yù)測器來預(yù)測這些隱藏信息,并且把預(yù)測結(jié)果作為特征參與預(yù)測的集成預(yù)測器[14-15]。隨著方法的不斷改進,預(yù)測的準確率也越來越高。
近幾年來,深度學(xué)習(xí)技術(shù)開始逐漸應(yīng)用于生物信息學(xué),DeepBind[16]使用了深度卷積神經(jīng)網(wǎng)絡(luò)預(yù)測了脫氧核糖核酸(DeoxyriboNucleic Acid, DNA)和核糖核酸(RiboNucleic Acid,RNA)的蛋白質(zhì)綁定位點。DeepSite[17]直接使用蛋白質(zhì)的三級結(jié)構(gòu)特征訓(xùn)練一個深度三維卷積神經(jīng)網(wǎng)絡(luò),對綁定口袋在蛋白質(zhì)三維空間中的位置進行預(yù)測。隨著這些深度學(xué)習(xí)的方法的產(chǎn)生,預(yù)測的準確率又被提高了一個層次。
本文提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(One Dimensional Convolutional Neural Network, 1DCNN)的方法來預(yù)測蛋白質(zhì)ATP綁定位點,使用蛋白質(zhì)的序列信息、PSSM矩陣、二級結(jié)構(gòu)特征、溶液接觸面積特征來訓(xùn)練模型,預(yù)測每個殘基是綁定位點的概率。最后和其他使用支持向量機(Support Vector Machine, SVM)的方法進行比較,分析本文方法的優(yōu)點和缺點。
1?數(shù)據(jù)集
本文所使用的數(shù)據(jù)集為論文ATPbind[14]中所使用的數(shù)據(jù)集,該數(shù)據(jù)集由429個和ATP綁定的蛋白質(zhì)鏈構(gòu)成。該數(shù)據(jù)集來自2016年5月之前PDB(Protein Data Bank)[18]中的數(shù)據(jù),并且使用CDhit[19]軟件將同源性超過40%的蛋白質(zhì)全部除去。在這429個蛋白質(zhì)鏈中,將其中388個作為訓(xùn)練集(PATP388),剩下41個蛋白質(zhì)鏈作為獨立測試集(PATPTEST)。PATP388包含5-657個ATP綁定位點殘基和142-086個非ATP綁定位點殘基,PATPTEST包含674個ATP綁點位點殘基和14-159個非ATP綁點位點殘基。
2?蛋白質(zhì)殘基的特征表示
蛋白質(zhì)的每個殘基都是20種氨基酸脫水縮合后中的一種,一條蛋白質(zhì)鏈可以簡單表示為一個由20種殘基組成的字符串,但是每條蛋白質(zhì)鏈中的信息遠多于一個字符串所表達的信息。蛋白質(zhì)的特征工程問題一直是生物信息學(xué)中復(fù)雜而又重要的問題。本文選取了幾個常用而又有效的特征,在對其進行一些處理后,作為最終的訓(xùn)練特征。
2.1?特征選取
本文選用了PSSM特異性得分矩陣、蛋白質(zhì)二級結(jié)構(gòu)特征、溶液接觸面積作為基本的特征組成成分。
PSSM矩陣可以反映出該蛋白的序列信息和族譜信息。通常使用PSIBLAST[20]程序?qū)⒋葘Φ鞍椎男畔⒎诺絊wissProt[21]蛋白質(zhì)數(shù)據(jù)庫中搜索并和結(jié)果進行比對,最后得到PSSM矩陣。PSSM矩陣是一個N×20的矩陣,N為蛋白質(zhì)殘基的數(shù)量,每個殘基對應(yīng)著20個元素,這20個元素代表著20種氨基酸的每一種出現(xiàn)的可信度得分。在得到PSSM矩陣后,使用歸一化函數(shù)將PSSM矩陣的每個得分進行歸一化處理。歸一化函數(shù)如下:
f(x)=x-minmax-min(1)
蛋白質(zhì)的二級結(jié)構(gòu)(SS)指的是多個殘基在局部所表現(xiàn)出的一種鏈接形狀。蛋白質(zhì)的二級結(jié)構(gòu)被分為α螺旋(H)、β折疊(E)和無規(guī)律的卷曲(C)。本文中用已有的預(yù)測器psipred[22]來預(yù)測蛋白質(zhì)的每個殘基屬于某一種二級結(jié)構(gòu)的概率,并把得到的結(jié)果作為特征。預(yù)測器得到的結(jié)果為N×3的矩陣,即每個殘基有3個元素,分別指3種不同二級結(jié)構(gòu)的概率。
蛋白質(zhì)的溶液接觸面積(SA)是指蛋白質(zhì)每個殘基可以和水接觸的面積大小,間接反映了這個殘基是否可溶于水。每個殘基對應(yīng)著三種狀態(tài):易于和水接觸、不易于和水接觸、中性。本文中使用已有的預(yù)測器Sann[23]來預(yù)測,得到N×3的矩陣,即每個殘基對應(yīng)3個元素,分別代表3種狀態(tài)的概率。
融合以上特征,每個殘基一共有20+3+3=26維的基本向量。然而,一個ATP綁定位點的確定和鄰近的殘基有相互作用的關(guān)系,所以,一般使用一個滑動窗口把指定殘基的鄰近殘基也作為特征輸入,針對ATP綁定位點預(yù)測問題的滑動窗口大小一般都取17[24],指定殘基的前8個和后8個殘基也都在滑動窗口之內(nèi)。但是一條蛋白質(zhì)鏈的前8個殘基和后8個殘基的滑動窗口區(qū)域并不存在17個殘基。針對這個問題,本文使用了補位的方法,在頭部和尾部補上缺失的殘基,對于這些補位的殘基,使用了一種類似于onehot編碼的方法。針對選取的3種基本特征,本文在這3個基本特征中每個額外加入一個維度也就變成了21(PSSM)、4(SS)、4(SA),一共29個維度。對于正常的殘基,這3個額外的維度值都為0,而針對補位的殘基,這3個維度值為1而其余的維度值為0。
最后,每個殘基的維度數(shù)量就變成了29×17=493個,這493個維度也是作為最終的輸入向量的構(gòu)成。
2.2?隨機下采樣
由于正負樣本數(shù)量極為不平衡,正負類比達到1∶24。這就造成了不平衡問題[25]。如果不對數(shù)據(jù)進行處理,直接進行訓(xùn)練,那么分類器將傾向把所有樣本都預(yù)測為負類。針對不平衡問題,通常會使用上采樣或者下采樣方法來平衡樣本。文中所使用的是最常用的隨機下采樣,即隨機選取指定數(shù)目的負類樣本,使之?dāng)?shù)目和正類樣本平衡。每次隨機拿取正類樣本數(shù)目的負類樣本,和所有正類樣本混合作為一輪神經(jīng)網(wǎng)絡(luò)訓(xùn)練的訓(xùn)練樣本。
3?卷積神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和訓(xùn)練
3.1?網(wǎng)絡(luò)模型結(jié)構(gòu)
由于蛋白質(zhì)序列信息是一維信息而且具有局部關(guān)聯(lián)性,本文使用一維卷積神經(jīng)網(wǎng)絡(luò)作為模型進行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的大致結(jié)構(gòu)如圖1所示。神經(jīng)網(wǎng)絡(luò)的輸入是一個17×29的矩陣,即長度為17,深度為29。
網(wǎng)絡(luò)的第一層和第二層都為卷積層(Conv Layer),卷積的窗口大小為2,步長為1,第一層卷積核的數(shù)量為400,第二層卷積核的數(shù)量也為400,所以經(jīng)過2層卷積之后,輸出的數(shù)據(jù)的深度就為400。
由于序列所攜帶的信息量比較少,在圖像領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)中常用的池化層在本文中并沒有使用。
第三層為平鋪層(Flatten Layer),用來連接卷積層和全連接層。
第四層和第五層都為全連接層(Dense Layer),第四層的神經(jīng)元的數(shù)量為500,第五層為200。
第六層是帶有丟棄[26](Drop out)的全連接層,隨機丟棄一些輸入來防止神經(jīng)網(wǎng)絡(luò)過擬合,本文中丟棄輸入的概率設(shè)為50%。
最后一層為輸出層(Output),神經(jīng)元的數(shù)量為2。這兩個神經(jīng)元的輸出就分別代表著正類和負類的預(yù)測置信度。
在每一層得到輸入計算出結(jié)果后,會使用激活函數(shù)對結(jié)果進行調(diào)整。除最后輸出層外,每一層都使用了ELU激活函數(shù)。第五層則使用了sigmoid函數(shù)。ELU和sigmoid函數(shù)如下:
elu(x)=x, x≥0α(exp(x)-1),x<0 (2)
sig(x)=11+e-x(3)
最后對這兩個輸出結(jié)果使用Softmax函數(shù),得出正類和負類的預(yù)測概率。Softmax函數(shù)如下:
σ(z)j=ezj∑Kk=1ezk(4)
本次實驗使用TensorFlow[27]進行神經(jīng)網(wǎng)絡(luò)的構(gòu)建和訓(xùn)練,在硬件上使用了兩塊GTX Titan XP,并且使用CUDA(Compute Unified Device Architecture)運算平臺進行加速計算。
為了優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),本文還構(gòu)建了一些不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)進行對比實驗。文中主要通過改變網(wǎng)絡(luò)模型中卷積層的層數(shù)和每層卷積層中卷積核的個數(shù)來改變結(jié)構(gòu)。層數(shù)越多,卷積核數(shù)量越多的網(wǎng)絡(luò)的學(xué)習(xí)能力也就越強,但是同時也會導(dǎo)致學(xué)習(xí)的速度慢、梯度爆炸和梯度消失的情況發(fā)生。
3.2?模型訓(xùn)練
本文將一次隨機下采樣的樣本作為一輪的訓(xùn)練樣本進行訓(xùn)練,將每次Softmax函數(shù)得到的正類和負類的預(yù)測概率和真實類別的交叉熵函數(shù)作為損失函數(shù),使用梯度下降法對網(wǎng)絡(luò)模型進行優(yōu)化。交叉熵函數(shù)如下:
H(p,q)=∑ip(i)*ln(1/q(i))(5)
其中:p為樣本的真實值; q為樣本的預(yù)測值; p(i)、q(i)表示向量p、q的第i個元素。
為了使模型收斂的速度加快,將正負樣本交替輸入進模型進行訓(xùn)練,每輸入一個殘基的特征就進行一次梯度下降操作,即batch size=1。本文以對獨立測試集預(yù)測結(jié)果的AUC(Area Under Curve)作為第一評估指標(biāo),訓(xùn)練多輪直至AUC收斂。
4?實驗結(jié)果和比較分析
4.1?評判標(biāo)準
本文涉及的是一個二分類問題,所有樣本只有正類和負類。根據(jù)獨立測試集的真實標(biāo)簽和預(yù)測標(biāo)簽,可以把每個樣本的預(yù)測結(jié)果分成4種情況:TP(True Positives)、FP(False Positives)、TN(True Negatives)和FN(False Negatives)。
根據(jù)這些基礎(chǔ)數(shù)據(jù),演化出了特異性(Specificity,Spe)、敏感性(Sensitivity,Sen)、準確性(Accuracy,Acc)、馬修斯相關(guān)系數(shù)(Matthews Correlation Coefficient,MCC)。由于本文的分類器是軟分類器,即輸出的是屬于正類的概率,必須先確定一個閾值才能確定預(yù)測的樣本是正類還是負類,如果得到的正類概率大于閾值那么這個樣本就會被預(yù)測為正類; 反之,就會被預(yù)測為負類。所以,一個已經(jīng)被預(yù)測好的結(jié)果的TP、FP、FN、TN是會隨著閾值而改變的,MCC等數(shù)據(jù)也會隨之改變。
Spe=TNTN+FP(6)
Sen=TPTP+FN(7)
Acc=TP+TNTP+TN+FP+FN(8)
MCC=
TP*TN-FP*FN(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)(9)
AUC可以更加穩(wěn)定地去描述一個預(yù)測結(jié)果的好壞,將閾值從0到100%遍歷,根據(jù)TP/TP+FN(縱坐標(biāo))和FP/FP+TN(橫坐標(biāo)),畫出ROC(Receiver Operating Characteristic)曲線,AUC為ROC曲線下與坐標(biāo)軸圍成的面積,而這個值是不需要一個確定的閾值的。
由于本文所涉及的問題是個樣本不平衡問題,如果使用Acc作為衡量標(biāo)準是無法判別預(yù)測器好壞的,因為即使把所有類都預(yù)測為多數(shù)類,Acc也能達到很高的數(shù)值, 所以,一般用AUC指標(biāo)作為分類器的評判標(biāo)準。
4.2?實驗結(jié)果
本文將隨機下采樣后得到的一組數(shù)據(jù)作為一輪訓(xùn)練的所需數(shù)據(jù)。針對每種結(jié)構(gòu)不同的神經(jīng)網(wǎng)絡(luò),會動態(tài)調(diào)正學(xué)習(xí)速率,并且讓其訓(xùn)練多輪。在每輪訓(xùn)練結(jié)束后,使用獨立測試集對當(dāng)前的網(wǎng)絡(luò)進行一次測試。前170輪次在獨立測試集上的結(jié)果如圖2所示。
可以看出,大概第50輪次訓(xùn)練開始,AUC指數(shù)就已經(jīng)收斂并且趨向于穩(wěn)定。但是,從40輪開始,MCC卻以非常慢的速度上升,而且60輪往后的MCC表現(xiàn)得非常不穩(wěn)定。隨著損失的不斷減小,AUC和MCC并沒有出現(xiàn)下降的趨勢,說明并沒有發(fā)生過擬合的現(xiàn)象。
可以得出,卷積神經(jīng)網(wǎng)絡(luò)模型在本文的問題中對AUC指標(biāo)的優(yōu)化是非常有效的,但是對MCC指標(biāo)的優(yōu)化卻有所不足,而且從50輪開始,AUC數(shù)值基本穩(wěn)定,但是MCC卻緩慢提高。MCC指標(biāo)優(yōu)化緩慢的問題有可能和本文神經(jīng)網(wǎng)絡(luò)所使用的交叉熵損失函數(shù)核梯度下降的優(yōu)化方法有關(guān)。
將這種方法在獨立測試集上,和其他方法進行比較,結(jié)果如表3所示。
從表3可以看出:雖然Acc并不是特別優(yōu)秀,不及ATPseq的99.27%,但也達到了一般預(yù)測器96%的水平;而本文所提出的方法較于其他方法在AUC上有不少提升,比最好的ATPseq也要高出0.4個百分點,達到了88.2%。這可能就是神經(jīng)網(wǎng)絡(luò)著重于AUC的優(yōu)化才導(dǎo)致了這一結(jié)果。
5?討論
5.1?一維卷積神經(jīng)網(wǎng)絡(luò)還是二維卷積神經(jīng)網(wǎng)絡(luò)
二維卷積神經(jīng)網(wǎng)絡(luò)目前被廣泛應(yīng)用于圖像領(lǐng)域,而且取得了很好的成果。然而,在本文所討論的問題中,我們認為并沒有必要使用二維卷積神經(jīng)網(wǎng)絡(luò)。
本文所使用的序列信息是一個一維的信息,雖然產(chǎn)生的PSSM、SS、SA矩陣看似是個二維的信息,但是本文中只有殘基之間是有順序關(guān)系的,也就是矩陣中的各個橫列是順序關(guān)系的。而矩陣中的縱列只是殘基在各個指標(biāo)上的得分,各個指標(biāo)之間并沒有明顯的順序關(guān)系。
本文使用了規(guī)模大體一致的一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)和二維卷積神經(jīng)網(wǎng)絡(luò)(Two Dimensional Convolutional Neural Network, 2DCNN)進行訓(xùn)練,并且對比了它們的訓(xùn)練過程中在獨立測試集上的結(jié)果,如圖3所示。
一維卷積網(wǎng)絡(luò)使用的是2層卷積層、400卷積核的結(jié)構(gòu)。二維卷積網(wǎng)絡(luò)的卷積窗口大小為2×2,因此卷積窗口的數(shù)量就變多了。為了保證網(wǎng)絡(luò)大小規(guī)模的平等性,所以削減了卷積核的數(shù)目,為2層卷積層、20個卷積核的結(jié)構(gòu)。
通過實驗可以看出,在40輪訓(xùn)練前,二維網(wǎng)絡(luò)的AUC收斂地稍微快一些。在40輪訓(xùn)練后,兩個網(wǎng)絡(luò)在AUC指標(biāo)上基本就沒有什么明顯的差距,而且一維的網(wǎng)絡(luò)比二維的網(wǎng)絡(luò)更為穩(wěn)定。因此,針對序列信息的預(yù)測方面,二維卷積網(wǎng)絡(luò)和一維卷積網(wǎng)絡(luò)并沒有明顯的差距。
5.2?深度卷積神經(jīng)網(wǎng)絡(luò)還是普通卷積神經(jīng)網(wǎng)絡(luò)
一般來說,深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和泛化能力都強于淺層的神經(jīng)網(wǎng)絡(luò),但是針對本文中的序列信息來說,淺層的神經(jīng)網(wǎng)絡(luò)已經(jīng)足夠?qū)W習(xí)到里面的規(guī)律。在DNA蛋白質(zhì)綁定位點的預(yù)測問題上,有學(xué)者使用了只有1層卷積層的卷積神經(jīng)網(wǎng)絡(luò)[30],就完成了對綁點位點較好的預(yù)測。
為此,本文使用了3折交叉驗證比較了不同規(guī)格的卷積神經(jīng)網(wǎng)絡(luò),其結(jié)果如圖4所示(1layer_400表示1層卷積層400卷積核)。
可以看出,2層400卷積核的神經(jīng)網(wǎng)絡(luò)模型已經(jīng)有很好的學(xué)習(xí)能力和學(xué)習(xí)速率,較深網(wǎng)絡(luò)可能出現(xiàn)了梯度爆炸的問題導(dǎo)致收斂困難,而且在卷積神經(jīng)網(wǎng)絡(luò)的深度和神經(jīng)元數(shù)量達到一定規(guī)模時,再增加深度或者神經(jīng)元數(shù)量并不會對最終結(jié)果產(chǎn)生很大的改變。
6?結(jié)語
本文主要研究了蛋白質(zhì)ATP綁定位點的預(yù)測問題,使用了蛋白質(zhì)的特異性得分矩陣、二級結(jié)構(gòu)、溶液接觸面積的融合特征,基于一維卷積神經(jīng)網(wǎng)絡(luò)的算法,并且采用隨機下采樣解決了不平衡問題,完成了對蛋白質(zhì)ATP綁定位點的較好的預(yù)測,并且在獨立測試集上得到了驗證。
參考文獻 (References)
[1]GAO M, SKOLNICK J. The distribution of ligandbinding pockets around proteinprotein interfaces suggests a general mechanism for pocket formation[J]. Proceedings of the National Academy of Sciences of the United States of America, 2012, 109(10): 3784-3789.
[2]TURTON D A, SENN H M, HARWOOD T, et al. Terahertz underdamped vibrational motion governs proteinligand binding in solution [EB/OL]. [2018-11-20].http://europacat.co.uk/staff/wynne/pubs/r/2014NatCommproteins.pdf.
[3]SIRIMULLA S,BAILEY J B, VEGESNA R,et al. Halogen interactions in proteinligand complexes: implications of halogen bonding for rational drug design [J]. Journal of Chemical Information and Modeling, 2013, 53(11): 2781-2791.
[4]AMARI S, AIZAWA M, ZHANG J, et al. VISCANA: visualized cluster analysis of proteinligand interaction based on the ab initio fragment molecular orbital method for virtual ligand screening[J]. Journal of Chemical Information and Modeling, 2006, 46(1): 221-230.
[5]BILOFSKY H S,BURKS C. The GenBank genetic sequence data bank[J]. Nucleic Acids Research, 1988, 16(5): 1861-1863.
[6]LEVITT D G, BANASZAK L J. POCKET: a computer graphics method for identifying and displaying protein cavities and their surrounding amino acids[J]. Journal of Molecular Graphics, 1992, 10(4): 229-234.
[7]LASKOWSKI R A. SURFNET: a program for visualizing molecular surfaces, cavities, and intermolecular interactions[J]. Journal of Molecular Graphics, 1995, 13(5): 323-330.
[8]CHEN K, MIZIANTY M J, KURGAN L. ATPsite: sequencebased prediction of ATPbinding residues[J]. Proteome Science, 2011, 9(S1): S4.
[9]石大宏. 基于序列的蛋白質(zhì)—核苷酸綁定位點預(yù)測研究[D]. 南京:南京理工大學(xué), 2015.(SHI D H. Sequential proteinGDP binding residues prediction[D]. Nanjing: Nanjing University of Science and Technology, 2015.)
[10]JONES D T, WARD J J. Prediction of disordered regions in proteins from position specific score matrices[J]. ProteinsStructure Function and Bioinformatics, 2003, 53(S6):573-578.
[11]LAURIE A T R, JACKSON R M. QSiteFinder: an energybased method for the prediction of proteinligand binding sites [J]. Bioinformatics, 2005, 21(9): 1908-1916.
[12]ZHANG Y, SKOLNICK J. TMalign: a protein structure alignment algorithm based on the TMscore[J]. Nucleic Acids Research, 2005, 33(7): 2302-2309.
[13]楊驥.基于序列與結(jié)構(gòu)特征結(jié)合的蛋白質(zhì)與DNA綁定位點預(yù)測[J]. 計算機與現(xiàn)代化, 2016(1):20-25.(YANG J. Prediction of DNAprotein binding sites based on combining sequence with structure information[J]. Computer and Modernization, 2016(1):20-25.)
[14]於東軍,胡俊,於鉉.基于查詢驅(qū)動的蛋白質(zhì)配體綁定位點預(yù)測方法: 201310573950.9[P]. 2014-03-05.(YU D J,HU J,YU X. Prediction of proteinligand binding sites based on querydriven: 201310573950.9[P]. 2014-03-05.)
[15]HU J, LI Y, ZHANG Y, et al. ATPbind: accurate proteinATP binding site prediction by combining sequenceprofiling and structurebased comparisons[J]. Journal of Chemical Information and Modeling, 2018, 58(2): 501-510.
[16]ALIPANAHI B, DELONG A, WEIRAUCH M T, et al. Predicting the sequence specificities of DNA and RNAbinding proteins by deep learning [J]. Nature Biotechnology, 2015, 33(8): 831-838.
[17]JIMENEZ J, DOERR S, MARTINEZROSELL G, et al. DeepSite: proteinbinding site predictor using 3Dconvolutional neural networks [J]. Bioinformatics, 2017, 33(19): 3036-3042.
[18]DESHPANDE N, ADDESS K J, BLUHM W F, et al. The RCSB protein data bank: a redesigned query system and relational database based on the mmCIF schema[J]. Nucleic Acids Research, 2005, 33(S1): D233-D237.
[19]LI W, GODZIK A. Cdhit: a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics, 2006, 22(13): 1658-1659.
[20]SCHAFFER A A, ARAVIND L, MADDEN T L, et al. Improving the accuracy of PSIBLAST protein database searches with compositionbased statistics and other refinements[J]. Nucleic Acids Research, 2001, 29(14): 2994-3005.
[21]BAIROCH A, APWEILER R. The SWISSPROT protein sequence database and its supplement TrEMBL in 2000[J]. Nucleic Acids Research, 2000, 28(1): 45-48.
[22]JONES D T. Protein secondary structure prediction based on positionspecific scoring matrices[J]. Journal of Molecular Biology, 1999, 292(2): 195-202.
[23]JOO K, LEE S J, LEE J. Sann: solvent accessibility prediction of proteins by nearest neighbor method[J]. Proteins, 2012, 80(7): 1791-1797.
[24]YU D J, HU J, TANG Z M, et al. Improving proteinATP binding residues prediction by boosting SVMs with random undersampling [J]. Neurocomputing, 2013, 104:180-190.
[25]COHEN G, HILARIO M, SAX H, et al. Learning from imbalanced data in surveillance of nosocomial infection [J]. Artificial Intelligence in Medicine, 2006, 37(1): 7-18.
[26]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1):1929-1958.
[27]ABADI M. TensorFlow: learning functions at scale[J]. ACM SIGPLAN Notices, 2016, 51(9): 1.
[28]CHEN K, MIZIANTY M J, KURGAN L. Prediction and analysis of nucleotidebinding residues using sequence and sequencederived structural descriptors [J]. Bioinformatics, 2012, 28(3): 331-341.
[29]YU D J, HU J, HUANG Y, et al. TargetATPsite: a templatefree method for ATPbinding sites prediction with residue evolution image sparse representation and classifier ensemble [J]. Journal of Computational Chemistry, 2013, 34(11): 974-985.
[30]ZENG H, EDWARDS M D, LIU G, et al. Convolutional neural network architectures for predicting DNAprotein binding[J]. Bioinformatics, 2016, 32(12): i121-i127.
This work is partially supported by the National Natural Science Foundation of China (61772273, 61373062).
ZHANG Yu, born in 1995, M. S. candidate. His research interests include bioinformatics computing, pattern recognition.
YU Dongjun, born in 1975, Ph. D., professor. His research interests include bioinformatics computing, machine learning, pattern recognition, intelligence system.