亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的化合物分類綜述

        2018-02-12 12:24:56蔣強(qiáng)榮馬佳佳
        軟件導(dǎo)刊 2018年12期
        關(guān)鍵詞:描述符

        蔣強(qiáng)榮 馬佳佳

        摘要:藥物研發(fā)是一個(gè)難度系數(shù)大、耗費(fèi)時(shí)間長(zhǎng)的工作。根據(jù)結(jié)構(gòu)活性關(guān)系規(guī)則,具有相似結(jié)構(gòu)的化合物可能具有相似特性。因此,準(zhǔn)確地對(duì)化合物進(jìn)行分類具有十分重要的意義?;仡櫫薙VM與比較常用的化合物分類方法及各自的優(yōu)缺點(diǎn),闡述了對(duì)分類方法進(jìn)行的改進(jìn)與優(yōu)化,展望了化合物分類的發(fā)展方向。

        關(guān)鍵詞:SVM;化合物分類;描述符;圖核

        Review of Chemical Compound Classification Based on SVM

        JIANG Qiang?rong, MA Jia?jia

        (Department of Computer Science, Beijing University of Technology, Beijing 100022, China)

        Abstract:Drug development is a difficult and time?consuming task. According to the rule of structure activity, compounds with similar structures may have similar properties. Therefore, it is very important to classify compounds accurately. Firstly, this paper reviews SVM and the commonly used classification methods of compounds and their respective advantages and disadvantages. Secondly, it introduces the improvement and optimization method of classification methods. Finally, it looks forward to the development direction of compound classification.

        Key Words:compound classification;descriptor;graph kernel

        0?引言

        隨著組合化學(xué)的快速發(fā)展,大大加快了化合物的合成與篩選速度,化合物數(shù)量急劇增長(zhǎng)。藥物發(fā)現(xiàn)的目標(biāo)是從巨大的化學(xué)空間里鑒別出對(duì)某一特定疾病具有生物活性的分子,然而在數(shù)據(jù)規(guī)模龐大的化學(xué)空間上進(jìn)行詳盡的比對(duì)搜索十分困難[1]。因此,準(zhǔn)確地對(duì)化合物進(jìn)行分類是非常必要的。

        化合物分類是一個(gè)非線性問(wèn)題。SVM可將樣本從原始空間映射到一個(gè)更高維的特征空間,使樣本在該特征空間內(nèi)線性可分。核函數(shù)的優(yōu)點(diǎn)是可以簡(jiǎn)化映射空間計(jì)算?;瘜W(xué)物分類主要有兩種方式:基于描述符的分類方法與基于圖核的分類方法。

        描述符是分子相似性方法中的基本要素[2]?;诿枋龇诸惙椒ǖ乃枷胧鞘紫韧ㄟ^(guò)一個(gè)高維的特征向量描述化合物,該特征向量是由其包含的描述符(如圖片段)決定的,然后利用各種基于向量的核函數(shù)計(jì)算化合物的相似性。描述符分為1D描述符、2D描述符和3D描述符。1D描述符在利用SMILES[3]表示化合物方面應(yīng)用較多,其不僅可以表示原子,還可以表示原子間的鍵;2D描述符是由2D分子圖形或結(jié)構(gòu)片段計(jì)算得來(lái)的,目前在擴(kuò)展連接性指紋方面應(yīng)用最多;3D描述符描述的是分子形狀、分子總表面積與電壓等。

        1?SVM

        SVM[4]是建立在統(tǒng)計(jì)學(xué)習(xí)理論[5]基礎(chǔ)上的一種數(shù)據(jù)挖掘方法,可有效處理回歸問(wèn)題(時(shí)間序列分析)與模式識(shí)別(分類問(wèn)題、判別分析)問(wèn)題,并被廣泛應(yīng)用于文本識(shí)別[6]、手寫字體識(shí)別[7]、人臉圖像識(shí)別[8]與基因分類[9]等。

        SVM的機(jī)理是尋找一個(gè)滿足分類要求的最優(yōu)分類超平面,使該超平面在保證分類精度的同時(shí),能夠使其兩側(cè)空白區(qū)域最大化。理論上SVM能夠?qū)崿F(xiàn)對(duì)線性可分?jǐn)?shù)據(jù)的最優(yōu)分類。

        以兩類數(shù)據(jù)分類為例,給定訓(xùn)練樣本集?(x?i,y?i),i=1,2,...,l,x∈R?n,y∈{±1},超平??面記作(w·x)+b=0,為使分類面對(duì)所有樣本能夠正確分類并且具備分類間隔,則要求其滿足如下約束:y?i[(w·x?i)+b]≥1,i=1,2,…,l。

        可以計(jì)算出分類間隔為2/‖w‖,因此?構(gòu)造最優(yōu)超平面問(wèn)題則轉(zhuǎn)化為在約束式下求解:

        為了解決該約束最優(yōu)化問(wèn)題,引入Lagrange函數(shù):

        式(2)中,?a?i?>0為L(zhǎng)agrange乘數(shù)。約束最優(yōu)化問(wèn)題的解由Lagrange函數(shù)的鞍點(diǎn)決定,并且最優(yōu)化問(wèn)題的解在鞍點(diǎn)處滿足對(duì) w 和b 的偏導(dǎo)為0。將該二次型規(guī)劃問(wèn)題轉(zhuǎn)化為相應(yīng)的對(duì)偶問(wèn)題,即:

        因此,求得最優(yōu)解。

        計(jì)算最優(yōu)權(quán)值向量?w?*與最優(yōu)偏置b?*?,分別為:

        式(4)和式(5)中,下標(biāo)?j∈{j|a?*?j>0}。因此,得到最優(yōu)分類超平面(w?*·x)+b?*?=0,而最優(yōu)分類函數(shù)為:

        對(duì)于線性不可分情況,SVM的主要思想是將輸入向量映射到一個(gè)高維特征向量空間,并在該特征空間中構(gòu)造最優(yōu)分類面。

        將?x從輸入空間Rn到特征空間H進(jìn)行Φ變換?,得到:

        以特征向量Φ(x)代替輸入向量x,則可得到最優(yōu)分類函數(shù)為:

        在以上對(duì)偶問(wèn)題中,無(wú)論是目標(biāo)函數(shù)還是決策函數(shù),都只涉及到訓(xùn)練樣本之間的內(nèi)積運(yùn)算,從而在高維空間中避免了復(fù)雜的高維運(yùn)算。

        2?描述符研究現(xiàn)狀

        在化學(xué)中,圖可以用來(lái)直接模擬化合物結(jié)構(gòu)的主要拓?fù)渑c幾何特征。圖中頂點(diǎn)表示原子,邊表示原子間的連接關(guān)系。將化合物表示的分子圖中除去H,分子中的重原子(C,N,O)對(duì)應(yīng)圖中頂點(diǎn),原子間的鍵(單鍵、雙鍵、三鍵、芳香鍵)對(duì)應(yīng)圖中的邊,如圖1所示。

        本節(jié)將介紹當(dāng)前流行的從分子圖提取片段的描述符與描述符常用核函數(shù)。

        2.1?描述符

        2.1.1?指紋

        指紋[10]是指將化合物的結(jié)構(gòu)特征編碼成固定位的向量,指紋中具體位字符串的生成依賴于鍵的數(shù)量、設(shè)置位數(shù)量、哈希函數(shù)與位字符串長(zhǎng)度。指紋描述符的優(yōu)點(diǎn)是能將化合物包含的大量子結(jié)構(gòu)緊湊地表示出來(lái)。

        2.1.2?Maccs Keys

        Maccs Keys[11]是指基于給定化合物結(jié)構(gòu)與預(yù)先由該領(lǐng)域?qū)<叶x結(jié)構(gòu)片段的模式匹配。每一個(gè)結(jié)構(gòu)片段就是一個(gè)鍵,在描述空間中占據(jù)一個(gè)固定位置。因此,該方法依賴于預(yù)先定義的規(guī)則封裝分子描述符,而沒(méi)有從數(shù)據(jù)集中學(xué)習(xí)。

        與指紋描述符相比,Maccs Keys沒(méi)有哈希函數(shù)作用在子結(jié)構(gòu)上。其優(yōu)點(diǎn)在于子結(jié)構(gòu)的任意拓?fù)淇尚纬擅枋龇臻g的一部分,缺點(diǎn)是不能適應(yīng)特殊數(shù)據(jù)集與分類問(wèn)題。

        2.1.3?環(huán)樹(shù)表示法(CT)

        CT[12]是指將化合物表示成環(huán)和特定樹(shù)的集合,主要思想是首先識(shí)別分子圖中的互連組件(也稱為塊),一旦這些塊被識(shí)別,通過(guò)從塊中枚舉具有確定數(shù)量的簡(jiǎn)單環(huán),第一個(gè)特征集合隨之產(chǎn)生。所有環(huán)被識(shí)別之后,分子圖中的塊則被刪除,此時(shí)的圖是剩余樹(shù)組成森林的集合,每一個(gè)樹(shù)作為一個(gè)描述符。最終的描述符空間是環(huán)與剩余樹(shù)的集合。CT表示法用到樹(shù)模型的具體拓?fù)渑c大小取決于分子圖中塊的位置。

        2.1.4?頻繁子結(jié)構(gòu)(FS)

        FS是指在給定?σ的前提下,在數(shù)據(jù)集中尋找出現(xiàn)次數(shù)大于σ?的子結(jié)構(gòu)。因此,與Maccs Keys不同的是,當(dāng)?σ?改變時(shí),F(xiàn)S的描述符空間也會(huì)改變;與指紋描述符不同的是,其不考慮子圖大?。ㄦI的數(shù)量),所有子圖構(gòu)成描述符空間。FS的缺點(diǎn)是?σ值選取過(guò)大或過(guò)小都可能導(dǎo)致分類效果不理想。

        2.1.5?擴(kuò)展連接性指紋(ECFPs)

        ECFPs由摩根算法[13]的變體派生而來(lái),生成過(guò)程分為3步:①初始分配階段,為每個(gè)原子分配整數(shù)標(biāo)識(shí)符;②迭代更新階段,更新每個(gè)原子的標(biāo)識(shí)符,以對(duì)每個(gè)原子鄰居的標(biāo)識(shí)符作出反應(yīng);③重復(fù)標(biāo)識(shí)符移除階段[14],如果兩個(gè)特征是經(jīng)過(guò)不同次數(shù)迭代生成的,則經(jīng)過(guò)更大迭代次數(shù)生成的特征將被移除,如果兩個(gè)特征是經(jīng)過(guò)相同次數(shù)迭代生成的,則哈希標(biāo)識(shí)符值更大的特征將被拒絕。

        2.2?核函數(shù)

        描述符空間常用的核函數(shù)有Tanimoto coefficient核與Min?Max核,滿足Mercer條件[15],兩者實(shí)際上都是統(tǒng)計(jì)兩個(gè)被比較對(duì)象的共有特征占兩個(gè)對(duì)象所有特征之和的比例,值在[0,1]之間。

        2.2.1?Tanimoto coefficient核

        Tanimoto coefficient核適用于二進(jìn)制向量,計(jì)算的核定義如下:

        其中,M表示X、Y均由M維二進(jìn)制向量表示,X?i、Y?i分別表示X和Y的第i維向量。

        2.2.2?Min?Max核?在二進(jìn)制向量的情況下,Min?Max核退化為Tanimoto系數(shù)。Min?Max核定義如下:

        其中,P表示X和Y的所有特征集合,φ?p(·)統(tǒng)計(jì)p出現(xiàn)的次數(shù)。

        2.3?描述符領(lǐng)域創(chuàng)新

        隨著研究的深入,為了提高化合物分類的準(zhǔn)確率,研究者將重心放在提出或改進(jìn)新的描述符,以及改進(jìn)或組合描述符空間的核函數(shù)等方面。Gong?Hua Li[16]提出新的分子指紋描述方法,將每個(gè)化合物的對(duì)應(yīng)模式在活性與非活性化合物中所占比例作為權(quán)重系數(shù),并將單個(gè)核函數(shù)進(jìn)行兩兩相乘組合,最終取得85%左右的成功率;翟璨等[17]采用ECFPs描述符表示分子圖,根據(jù)不同長(zhǎng)度描述符應(yīng)具有不同權(quán)重改進(jìn)了Min?Max核,并在PTC和HIV數(shù)據(jù)集中進(jìn)行測(cè)試,使分類準(zhǔn)確率都得到了提高;王山等[18]采用計(jì)數(shù)型布隆過(guò)濾器對(duì)指紋描述符分子相似性進(jìn)行改進(jìn),并采用 DUD LIBVS 1.0 數(shù)據(jù)集對(duì)改進(jìn)方法進(jìn)行了比較驗(yàn)證,與其它原始分子相似性方法相比,其在相似性判斷的準(zhǔn)確性與骨架躍遷潛能上均有所提高。此外,還有很多學(xué)者提出多核組合方式,以更好地對(duì)化合物進(jìn)行分類。

        3?圖核研究現(xiàn)狀

        化合物分子圖采用鄰接矩陣表示,兩個(gè)頂點(diǎn)如果有邊相連,則值為1。鄰接矩陣定義如下:

        其中,?A為化合物圖G的鄰接矩陣,v?i和v?j為G的頂點(diǎn),假設(shè)圖G有n個(gè)頂點(diǎn),則0≤i<n,0≤j<n。

        圖核函數(shù)主要分為3類:①基于游走的圖核函數(shù);②基于路徑的圖核函數(shù);③基于子樹(shù)的圖核函數(shù)。

        3.1?基于游走的圖核函數(shù)

        基于游走的圖核函數(shù)主要是隨機(jī)通路核[19]。隨機(jī)通路核通過(guò)計(jì)算兩個(gè)圖的公共通路數(shù)目度量?jī)蓚€(gè)圖的相似性,兩個(gè)圖?g(V?1,E?1)和g′ (V?2,E?2)的匹配通路數(shù)可以通過(guò)計(jì)算其直積圖g×g'得到。設(shè)A?×為直積圖g×g′的鄰接矩陣,則隨機(jī)通路核函數(shù)表示如下:

        其中λ是使和收斂的衰減因子,λ<1,確保對(duì)于足夠大的n可以忽略不計(jì)。V?×為直積圖g×g′的任一頂點(diǎn),時(shí)間復(fù)雜度為Ο(n?6)。

        3.2?基于路徑的圖核函數(shù)

        基于路徑的圖核函數(shù)主要是最短路徑核[20]。最短路徑核通過(guò)比較兩個(gè)圖G?1和G?2的所有最短路徑度量?jī)蓚€(gè)圖的相似性。G?1′=(V?1′,E?1′)和G?2′=(V?2′,E?2′)分別是G?1和G?2的最短路徑圖,所有最短路徑對(duì)核的值構(gòu)成最短通路核,最短路徑可通過(guò)弗洛伊德算法求出。最短路徑核的優(yōu)點(diǎn)是可以完全避免路徑回溯問(wèn)題。最短路徑核表示如下:

        其中?SP(·)表示圖的所有最短路徑集合,k(s?1,s?2)定義為狄拉克核函數(shù),當(dāng)s?1與s?2的長(zhǎng)度一樣時(shí)值為1,否則為0。

        3.3?基于子樹(shù)的圖核函數(shù)

        基于子樹(shù)的圖核函數(shù)主要是Weisfeiler?Lehman子樹(shù)核[21]。它的思想是基于一維Weisfeiler?Lehman同構(gòu)判定算法,尋找一對(duì)圖結(jié)構(gòu)中同構(gòu)的子樹(shù)結(jié)構(gòu)?;赪eisfeiler?Lehman圖核的一般表示形式為:

        其中?h表示迭代次數(shù),G?×、G′?×分別表示圖G和G′?對(duì)應(yīng)的WL序列。假設(shè)∑?i∈∑表示W(wǎng)L算法在第?i次迭代后,在圖G和G′中出現(xiàn)至少一次的頂點(diǎn)標(biāo)簽集中所構(gòu)成的字母集合,定義一個(gè)映射C?i:{G,G′}?×∑?i→N, C?i(G,σ?ij)表示圖G中字母σ?ij出現(xiàn)的次數(shù),則Weisfeiler?Lehman子樹(shù)核的表示形式為:

        其中h表示迭代次數(shù)或?qū)訑?shù),φ?h?st(G)和φ?h?st(G)分別為G和G′對(duì)應(yīng)的映射特征,φ?h?st(G)=(c?0(G,δ?01),…,c?h(G,δ?h1),…,c?h(G,δ?h|Σ?i|)),φ?h?st(G′)=(c?0(G′,δ?01),…,c?h(G′,δ?h1),…,c?h(G′,δ?h|Σ?i|))。

        3.4?圖核領(lǐng)域創(chuàng)新

        Xu等[22]考慮到已有Weisfeiler?Lehman圖核忽視的結(jié)構(gòu)信息,提出一個(gè)Weisfeiler?Lehman圖核混合框架,并將其運(yùn)用于Weisfeiler?Lehman圖序列上,取得了很好的分類結(jié)果;Bai等[23]提出一個(gè)新的用Jensen?Shannon方法表示頂點(diǎn)的圖核,可識(shí)別兩個(gè)圖頂點(diǎn)之間的對(duì)應(yīng)關(guān)系;Kondor & Pan提出多尺度拉普拉斯圖核,可捕獲個(gè)別頂點(diǎn)及子圖之間的拓?fù)潢P(guān)系。此外,研究者們也不斷致力于提出新的圖核或改進(jìn)已有圖核,以提高化合物分類的準(zhǔn)確率。

        4?結(jié)語(yǔ)

        本文從兩方面對(duì)基于SVM的化合物分類進(jìn)行了詳細(xì)介紹,分別介紹了SVM理論、描述符與圖核的研究現(xiàn)狀及發(fā)展,并對(duì)目前常用的化合物分類方法進(jìn)行了簡(jiǎn)要敘述。目前的化合物分類方法很難達(dá)到95%以上的成功率,因此還需要作進(jìn)一步深入研究,捕捉化合物結(jié)構(gòu)間的特征,以提出更好的比較化合物相似性的方法,進(jìn)一步提高化合物分類的準(zhǔn)確率。

        參考文獻(xiàn):

        [1]?RANU S. Querying and mining chemical databases for drug discovery[M]. University of California at Santa Barbara, 2012.

        [2]?MALDONADO A G, DOUCET J P, PETITJEAN M, et al. Molecular similarity and diversity in chemoinformatics: from theory to applications[J]. Molecular diversity, 2006, 10(1):39?79.

        [3]?WEININGER D. SMILES I: introduction and encoding rules[J]. Journal of Chemical Information and Computer Sciences, 1988.

        [4]?張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1):32?42.

        [5]?VLADIMIR N VAPNIK, 張學(xué)工.統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M].北京:清華大學(xué)出版社,2000.

        [6]?陳佳希.基于支持向量機(jī)的文本分類[J].電子世界,2017(7):64.

        [7]?董婉君.基于SVM的手寫字體識(shí)別[J].工程技術(shù):全文版,2016(2):00288.

        [8]?郭慧敏,丁軍航.基于支持向量機(jī)的人臉特征分類技術(shù)[J].青島大學(xué)學(xué)報(bào):工程技術(shù)版,2016,31(4):56?61.

        [9]?王晶,周曠.基于支持向量機(jī)的腫瘤基因識(shí)別[J].計(jì)算機(jī)與數(shù)字工程,2011,39(9):3?6.

        [10]?DAYLIGHT INC. Mission Viejo CA USA[EB/OL]http://www.daylight.com.

        [11]?DURANT J L, LELAND B A, HENRY D R, et al. Reoptimization of MDL keys for use in drug discovery[J]. Journal of Chemical Information and Modeling, 2002,42(6):1273–1280.

        [12]?WROBEL S. Cyclic pattern kernels for predictive graph mining[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2004:158?167.

        [13]?MORGAN H L. The generation of a unique machine description for chemical structures?a technique developed at chemical abstracts service[J]. Journal of Chemical Documentation, 1965, 5(2):107?113.

        [14]?ROGERS D, HAHN M. Extended?connectivity fingerprints[J]. Journal of Chemical Information & Modeling, 2010, 50(5):742?54.

        [15]?SWAMIDASS S J, CHEN J, BRUAND J, et al. Kernels for small molecules and the prediction of mutagenicity, toxicity and anti?cancer activity[J]. Bioinformatics, 2005, 21(1):359–368.

        [16]?LI G H, HUANG J F. CDRUG: a web server for predicting anticancer activity of chemical compounds[J]. Bioinformatics, 2012, 28(24):3334?3335.

        [17]?JIANG Q, ZHAI C, XIONG Z. Chemical compound classification based on improved Max?Min kernel[J]. Journal of Chemical & Pharmaceutical Research, 2014.

        [18]?王山,孫莉,吳杰,等.一種基于計(jì)數(shù)型布隆過(guò)濾器的分子相似性算法研究[J].計(jì)算機(jī)科學(xué),2017,44(b11):552?556.

        [19]?GRTNER T, FLACH P, WROBEL S. On graph kernels: hardness results and efficient alternatives[J]. Lecture Notes in Computer Science, 2003, 2777:129?143.

        [20]?BORGWARDT K M, KRIEGEL H P. Shortest?path kernels on graphs[C].IEEE International Conference on Data Mining. IEEE, 2006:74?81.

        [21]?SHERVASHIDZE N, SCHWEITZER P, JAN VAN LEEUWEN E, et al. Weisfeiler?Lehman Graph Kernels[J]. The Journal of Machine Learning Research, 2011,12(3):2539?2561.

        [22]?XU L, XIE J, WANG X, et al. A mixed Weisfeiler?Lehman graph kernel[J]. Lecture Notes in Computer Science, 2015, 9069:242?251.

        [23]?BAI L, ZHANG Z, WANG C, et al. A graph kernel based on the Jensen?Shannon representation alignment[C].International Conference on Artificial Intelligence. AAAI Press, 2015:3322?3328.

        猜你喜歡
        描述符
        基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
        基于AKAZE的BOLD掩碼描述符的匹配算法的研究
        基于深度學(xué)習(xí)的局部描述符
        電子制作(2019年2期)2019-02-14 08:51:22
        Linux單線程并發(fā)服務(wù)器探索
        利用CNN的無(wú)人機(jī)遙感影像特征描述符學(xué)習(xí)
        基于PDIUSBD12的USB接口設(shè)計(jì)應(yīng)用研究
        国内少妇人妻丰满av| 亚洲av无码成h在线观看| 亚洲av永久无码精品三区在线| 大地资源中文在线观看官网第二页| 国产精品久久久久免费看| 在线视频自拍视频激情| 久久成人成狠狠爱综合网| 一本加勒比hezyo无码人妻| 久久精品一品道久久精品9| 日韩一区二区中文字幕| 999zyz玖玖资源站永久| 午夜福利92国语| 日本久久精品免费播放| 久久亚洲精品一区二区三区| 奶头又大又白喷奶水av| 精品成人乱色一区二区| 日韩国产成人无码av毛片蜜柚| 狠狠色丁香久久婷婷综合蜜芽五月 | 亚洲又黄又大又爽毛片| 国产一区二区三区在线影院| 久久精品国产99久久久| 丰满人妻在公车被猛烈进入电影| 国产成人香蕉久久久久| av在线免费观看男人天堂| 国产精品a免费一区久久电影| 国产精品久久久久久久久免费 | 久久国产热这里只有精品 | 综合国产婷婷精品久久99之一| 亚洲国产精品日韩av不卡在线| 人人爽人人爽人人爽| 亚洲成a人网站在线看| av免费观看网站大全| 亚洲国产精品成人综合色| 欧美日韩性视频| 毛片一级精油按摩无码| 日本一道高清在线一区二区| 色偷偷偷在线视频播放| 天天操夜夜操| 人妻一区二区三区免费看| 51国产偷自视频区视频| 久久精品无码免费不卡|