吳貴軍,范鵬生,陳浩辰,楊振興,吳 英
(重慶科技學(xué)院智能技術(shù)與工程學(xué)院,重慶 401331)
隨著深度學(xué)習(xí)的快速發(fā)展,數(shù)據(jù)分類預(yù)測(cè)算法已經(jīng)被廣泛應(yīng)用于社會(huì)中的各個(gè)領(lǐng)域。 通過(guò)深度學(xué)習(xí)對(duì)大數(shù)據(jù)進(jìn)行處理分析,人們可以快速、高效地獲取有用的信息。 本文通過(guò)深度學(xué)習(xí)算法對(duì)1 974 個(gè)樣本中的729 的信息特征進(jìn)行處理分析,預(yù)測(cè)出50 個(gè)樣本的ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity)數(shù)據(jù)。 這些預(yù)測(cè)數(shù)據(jù)可以作為治療ERα 類乳腺癌化合物是否適用于人體的一個(gè)標(biāo)準(zhǔn)。
利用決策樹(shù)模型算法中的CART(Classification And Regression Tree)分為兩個(gè)過(guò)程,第一個(gè)過(guò)程進(jìn)行遞歸建立二叉樹(shù),第二個(gè)過(guò)程用驗(yàn)證數(shù)據(jù)進(jìn)行剪枝[1]。假設(shè)K個(gè)類別,第k個(gè)類別的概率為pk,概率分布的基尼系數(shù)表達(dá)式:
本文中所需要的結(jié)果是一個(gè)二分類[2],在面對(duì)二分類時(shí)第一個(gè)樣本輸出概率為p,概率分布的基尼系數(shù)表達(dá)式為:
支持向量機(jī) (Support Vector Mac,SVM)是一種二分類的模型。 支持向量機(jī)通過(guò)在兩個(gè)不同類之間尋找一個(gè)超平面,使類之間的分離邊界最大化,從而建立分類預(yù)測(cè)模型。 公式如下:
其中,x表示特征,y表示類標(biāo),n為樣本的個(gè)數(shù),m為特征的個(gè)數(shù)。 假設(shè)樣本數(shù)據(jù)是線性可分的,支持向量機(jī)通過(guò)訓(xùn)練,尋找一個(gè)超平面將數(shù)據(jù)劃分為兩類,其主要思想為找到空間中的一個(gè)能夠?qū)⑺袛?shù)據(jù)樣本劃開(kāi)的超平面,并且使得樣本集中所有數(shù)據(jù)到這個(gè)超平面的距離最短,點(diǎn)到超平面的距離d就可以用如下公式進(jìn)行計(jì)算:
通過(guò)上述公式可以將所有數(shù)據(jù)變量看成一個(gè)樣本,把每個(gè)樣本點(diǎn)按照支持向量機(jī)的方法在高維數(shù)據(jù)中找出一個(gè)超平面,計(jì)算出每個(gè)點(diǎn)到這個(gè)平面的距離,通過(guò)距離對(duì)樣本點(diǎn)進(jìn)行逐個(gè)分類。
使用KNN 算法時(shí),需要對(duì)KNN 選擇最佳K值和權(quán)重,同時(shí)需要了解KNN 的基本原理,構(gòu)建訓(xùn)練樣本集和測(cè)試樣本集,計(jì)算測(cè)試樣本集里的樣本與所有訓(xùn)練樣本集里的樣本的距離。 訓(xùn)練樣本集 A ={y1,…yn},測(cè)試樣本集 B ={x1,…,xn}。 計(jì)算樣本距離公式如下:
計(jì)算出距離后,需要比較所有訓(xùn)練樣本點(diǎn)到某個(gè)測(cè)試樣本點(diǎn)的距離,選出K個(gè)距離最小的訓(xùn)練樣本點(diǎn)。
貝葉斯模型算法原理是基于貝葉斯定理的一組監(jiān)督學(xué)習(xí)算法,即假設(shè)每對(duì)特征之間相互獨(dú)立。 給定一個(gè)類別y和一個(gè)從x1到xn的相關(guān)的特征向量,貝葉斯定理[3]闡述了以下關(guān)系:
使用簡(jiǎn)單(naive)的假設(shè):每對(duì)特征之間都相互獨(dú)立:
對(duì)于所有的math:i,這個(gè)關(guān)系式可以簡(jiǎn)化為:
由于在給定的輸入中p(y/x1….xn) 是一個(gè)常量,使用下面的分類規(guī)則:
可以使用最大后驗(yàn)概率(Maximum A Posteriori,MAP)來(lái)估計(jì)p(y)和p(xi/y),樸素貝葉斯分類器的差異大部分來(lái)自于處理p(xi/y)分布時(shí)的所做的假設(shè)不同,假設(shè)不一樣最后獲得的結(jié)果也不一樣。
多層感知器也叫作人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)。 多層感知器分類器(MLPC)是基于前饋人工神經(jīng)網(wǎng)絡(luò)(ANN)的分類器。 MLPC 由多個(gè)節(jié)點(diǎn)層組成,每個(gè)層連接到網(wǎng)絡(luò)中的下一層。 輸入層中的節(jié)點(diǎn)表示輸入數(shù)。 所有其他節(jié)點(diǎn),通過(guò)輸入與節(jié)點(diǎn)的權(quán)重w和偏置b的線性組合,并應(yīng)用激活函數(shù),將輸入映射到輸出。 對(duì)于具有K+ 1 層的MLPC,這可以以矩陣形式寫(xiě)成如下:
中間層中的節(jié)點(diǎn)一般使用sigmoid(logistic)函數(shù),公式如下:
輸出層中的節(jié)點(diǎn)使用softmax 函數(shù):
本文主要對(duì)Erα(Estrogen receptors alpha)具有活性影響的化合物進(jìn)行ADMET(Absorption,Distribution,Metabolism,Excretion,Toxicity)性質(zhì)數(shù)據(jù)預(yù)測(cè)分類,構(gòu)建了5 個(gè)預(yù)測(cè)分類模型分別對(duì)文中所給的5 個(gè)性質(zhì)進(jìn)行了預(yù)測(cè)分類。 5 個(gè)預(yù)測(cè)分類模型分別是KNN 算法、CART 算法、VM 算法、貝葉斯算法、MLPC 算法。 每個(gè)模型的預(yù)測(cè)精度如表1 所示。
表1 5 種化合物預(yù)測(cè)精度
本文利用5 種分類預(yù)測(cè)模型對(duì)化合物的ADMET性質(zhì)進(jìn)行分類預(yù)測(cè),通過(guò)預(yù)測(cè)結(jié)果顯示,使用決策樹(shù)模型進(jìn)行預(yù)測(cè)時(shí)精準(zhǔn)度最高,達(dá)到了90%,即表示在CYP3A4 性質(zhì)預(yù)測(cè)數(shù)據(jù)中有90%的化合物可用于治療乳腺癌。 ADMET 性質(zhì)數(shù)據(jù)對(duì)于乳腺癌治療有著重要的作用,可以用來(lái)驗(yàn)證ERα 拮抗劑具有高活性的化合物是否適用于人體的標(biāo)準(zhǔn)。