亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自然語言處理的蛋白質(zhì)小分子親和力值預測

        2019-06-22 08:32:36歐陽志友王愉茜陳金剛周青松
        應用科學學報 2019年3期
        關鍵詞:特征方法模型

        歐陽志友, 陳 晨, 王愉茜, 陳金剛, 殷 昭, 周青松

        1.南京郵電大學先進技術研究院,南京210023

        2.南京郵電大學計算機學院,南京210023

        3.南京郵電大學經(jīng)濟學院,南京210023

        4.中國石油大學(華東)石油工程學院,山東青島266580

        5.重慶郵電大學通信與信息工程學院,重慶400065

        蛋白質(zhì)與小分子化合物之間的相互作用是進行藥物設計與研發(fā)的基礎.在分子水平上深入研究蛋白質(zhì)與藥物分子的結合機理,有助于快速篩選出有效的藥物候選分子,大大縮短新藥開發(fā)流程,降低新藥失敗風險.因此,研究利用機器學習技術對蛋白質(zhì)分子結構的分析非常必要.通過挖掘蛋白質(zhì)分子結構與小分子親和力之間的關系,對蛋白質(zhì)與小分子的親和力值進行預測,可以實現(xiàn)快速批量篩選有效的藥物候選分子,從而加快藥物研發(fā)的進程,降低藥物研發(fā)的成本.蛋白質(zhì)與小分子的相互作用如圖1所示.

        圖1 蛋白質(zhì)與小分子相互作用Figure1 Protein interactions with small molecules

        1 相關研究工作

        1.1 傳統(tǒng)預測方法

        測定蛋白質(zhì)小分子親和力值的方法有實驗室測定法[1]和回歸預測方法兩大類.文獻[2]利用實驗室測定法測定出了炭疽芽孢DNA 適配子結構與長度對親和力的影響,該方法實驗成本高昂、難以大面積推廣,不利于快速測定出蛋白質(zhì)親和力值.回歸預測方法則是在已知蛋白質(zhì)親和力值信息的基礎上,利用統(tǒng)計方法對未知蛋白質(zhì)親和力值進行預測,文獻[3]利用回歸預測方法對芳基碳氫化合物親和力受體和甲狀腺轉(zhuǎn)運蛋白的毒性親和力進行了預測,文獻[4]利用分子描述符采用支持向量機(support vector machine,SVM)等方法進行了親和力預測.該類方法雖然快捷方便、成本低廉,但存在著預測精度低的問題.

        蛋白質(zhì)小分子親和力值的預測是一個典型的預測類問題,目前主流的方法有嶺回歸法、Logistic 回歸法、決策樹方法[5]、隨機森林法[6]、樸素貝葉斯方法[7]、提升法[8]等.其中,嶺回歸方法能夠克服數(shù)據(jù)共線性問題,而決策樹方法適用于數(shù)據(jù)量較少的情況且結果具有較強的可解釋性,但是決策樹方法的魯棒性較差,數(shù)據(jù)的微小擾動會導致預測結果變化較大[9].隨機森林法與提升法均屬于集成算法,泛化能力與魯棒性都較強,對噪聲數(shù)據(jù)不敏感,但是難以避免過擬合的問題.Logistic 回歸法可解釋性強,但是對數(shù)據(jù)規(guī)模與模型訓練時間要求較高.樸素貝葉斯方法是一種基于概率的分類方法,該方法基于條件獨立性假設,但是在實際情況中這一假設往往難以成立.

        值得注意的是,與傳統(tǒng)的預測類問題不相同,蛋白質(zhì)小分子親和力值預測過程中會涉及到非數(shù)值型數(shù)據(jù)的處理,即無論是蛋白質(zhì)一級結構序列的矢量化數(shù)據(jù)還是蛋白質(zhì)小分子的指紋數(shù)據(jù),都是非結構化的字符串類型數(shù)據(jù).在傳統(tǒng)的蛋白質(zhì)小分子預測方法中,對這類數(shù)據(jù)有的不進行處理,有的僅統(tǒng)計數(shù)據(jù)的長度特征或者頻率特征,而對數(shù)據(jù)內(nèi)部的關聯(lián)關系與相關關系未進行挖掘,從而造成信息浪費,同時也降低了預測精度.自然語言處理技術的發(fā)展給這類問題的解決提供了啟示,蛋白質(zhì)結構序列數(shù)據(jù)與分子指紋數(shù)據(jù)等非結構化的字符串類型數(shù)據(jù)可以作為類文本數(shù)據(jù),借助自然語言處理技術進行處理,從而挖掘出相關信息以提高模型預測精度.

        1.2 詞向量模型

        詞向量模型[10-11]作為一種常用的自然語言處理方法,能夠充分挖掘出類文本數(shù)據(jù)內(nèi)部的關聯(lián)關系和相關關系,實現(xiàn)對信息的有效利用.蛋白質(zhì)結構序列矢量化結果作為一種類文本數(shù)據(jù),可以采用詞向量方法對其進行處理.詞向量模型有兩種常用的算法:Skip-Gram 算法和CBOW 算法.Skip-Gram 算法本質(zhì)上是只含有一層輸入層與一層隱含層的神經(jīng)網(wǎng)絡模型,其模型結構如圖2所示,當輸入的單詞是“VDS”時,輸出的單詞是“MDN”、“NLP”、“DLS”、“PNI”.值得注意的是,詞向量模型更加關心模型訓練之后輸入層到隱藏層的權重,因為它反映了詞與詞之間的關聯(lián)性.

        圖2 Skip-Gram 模型結構示意圖Figure2 Skip-Gram model structure diagram

        1.3 TF-IDF 模型

        詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)[12]是一種反映不同字詞在語料庫的重要程度的算法.字詞的重要性與其出現(xiàn)次數(shù)成正比,與其在語料庫中出現(xiàn)的頻率成反比.TF-IDF 的計算公式為

        式中,tf(x)為詞語x在文本中出現(xiàn)的頻率,N為文本集合中所有文本的總數(shù),N(x)表示文本集合中有多少篇文本出現(xiàn)了詞語x.

        1.4 梯度提升決策樹

        梯度提升決策樹是一種由多棵決策樹構成的基于迭代的機器學習算法,其輸出結果是所有樹結果的累加值,具有很強的擬合能力和泛化能力,可廣泛用于分類和回歸問題,是目前應用最為廣泛的機器學習模型之一.常用的梯度提升決策樹模型包括scikit-learn 中的GBDT、微軟開發(fā)的LightGBM[13]、陳天奇等人開發(fā)的XGBOOST[14]等,其中由微軟研發(fā)和開源的LightGBM 具有更高的執(zhí)行效率與更快的運行速度,使用更廣泛.

        2 數(shù)據(jù)描述

        2.1 蛋白質(zhì)一級結構數(shù)據(jù)

        蛋白質(zhì)一級結構(protein primary structure)是指肽或蛋白質(zhì)中氨基酸的線性序列,是由一串氨基酸組成的,可以由蛋白質(zhì)序列測序直接獲得或者從DNA 序列中推斷得到.對蛋白質(zhì)一級結構數(shù)據(jù)進行矢量化處理之后得到的矢量化處理結果的數(shù)據(jù)格式如表1所示.

        表1 蛋白質(zhì)一級結構數(shù)據(jù)表Table1 Protein primary structure data sheet

        蛋白質(zhì)結構序列的矢量化結果以字母串的形式表達出了從氨基末端到羧基末端的氨基酸序列,單個字母代碼代表24種氨基酸中的一種.

        2.2 蛋白質(zhì)小分子親和力值數(shù)據(jù)

        蛋白質(zhì)小分子親和力值數(shù)據(jù)包括3 列數(shù)據(jù),分別是蛋白質(zhì)id(Protein_ID)、小分子id(Molecule_ID)與蛋白質(zhì)小分子親和力值(Ki),其中蛋白質(zhì)小分子親和力值就是需要預測的數(shù)據(jù),其格式如表2所示.

        表2 蛋白小分子親和力值數(shù)據(jù)表Table2 Protein small molecule affinity value data sheet

        2.3 小分子信息

        小分子信息數(shù)據(jù)主要由小分子指紋信息數(shù)據(jù)與小分子理化試驗數(shù)據(jù)組成,其中分子指紋數(shù)據(jù)為字符串類型數(shù)據(jù),小分子理化試驗數(shù)據(jù)為數(shù)值型數(shù)據(jù),其格式如表3所示.

        3 基于NLP 的蛋白質(zhì)親和力值預測

        3.1 整體框架

        本文提出的基于NLP 的蛋白質(zhì)親和力值的預測框架如圖3所示.首先,基于自然語言處理技術對蛋白質(zhì)結構數(shù)據(jù)與小分子指紋數(shù)據(jù)進行處理,構造出詞向量特征與TF-IDF 特征,并對其余理化指標數(shù)據(jù)進行處理,構造相應的統(tǒng)計特征.其次,將構建好的特征數(shù)據(jù)輸入到梯度提升決策樹算法中進行模型訓練.最后,利用訓練好的模型對蛋白質(zhì)小分子親和力值數(shù)據(jù)進行預測.

        表3 小分子信息數(shù)據(jù)表Table3 Small molecule information data sheet

        圖3 蛋白質(zhì)親和力值預測流程Figure3 Prediction process of protein affinity value

        3.2 詞向量特征構造

        詞向量特征構造是處理文本數(shù)據(jù)的基礎,為后續(xù)的文本特征提取提供支撐.以蛋白質(zhì)小分子數(shù)據(jù)為例,選取一個蛋白質(zhì)的部分片段“MDNNLPVDSDLSPNI”,其中每一個字母代表一個氨基酸,常見的氨基酸種類有24 種,如果將3 個連續(xù)的氨基酸視為1 個詞組,則總語料庫中共包含有13 000 多個詞組.這里設置滑動窗口為2,即選取輸入詞前后各2 個單詞與輸入詞進行組合,具體處理過程如圖4所示,其中藍色方框表示輸入詞,綠色方框表示組合詞.

        圖4 蛋白質(zhì)結構處理示意圖Figure4 Protein structure processing diagram

        3.3 TF-IDF 模型特征構造

        由TF-IDF 思想可知,一種氨基酸組合在特定的蛋白質(zhì)中出現(xiàn)的頻率越高,說明它在區(qū)分該蛋白質(zhì)信息屬性方面的能力越強(TF);一個種氨基酸組合在所有蛋白質(zhì)中出現(xiàn)的范圍越廣,說明它區(qū)分蛋白質(zhì)信息的屬性越低(IDF).因此,提取蛋白質(zhì)的TF-IDF 特征公式為

        式中,tf(ωi)為詞語ωi在集合中出現(xiàn)的頻率,N為蛋白質(zhì)集合中所有蛋白質(zhì)的總數(shù),N(ωi)表示蛋白質(zhì)集合中有多少個蛋白質(zhì)出現(xiàn)了詞語ωi.

        由n 元模型(n-gram)可知,假設一個蛋白質(zhì)由L個氨基酸組成,那么這個蛋白質(zhì)包含的n-gram 信息共有L(L+1)/2 個.為了充分挖掘蛋白質(zhì)信息,可利用n 元組模型提取蛋白質(zhì)的n 元組信息.以蛋白質(zhì)“MDNNLP”為例,每個字母代表的氨基酸分別為

        由此可將切分好的蛋白質(zhì)信息通過TF-IDF 算法轉(zhuǎn)換為特征.實驗分析結果表明,綜合取1~4 的所有元組組合構造的特征,其效果要高于單獨取元組1 的特征、元組1~2 的組合特征以及元組1~3 的組合特征.

        3.4 統(tǒng)計特征構造

        結構化的數(shù)值型數(shù)據(jù)包括處理后的蛋白質(zhì)結構數(shù)據(jù)、小分子指紋數(shù)據(jù)、小分子理化指標數(shù)據(jù)等,為了更好地挖掘相關信息,可提取出有效的統(tǒng)計特征作為機器學習模型的輸入數(shù)據(jù).這里提取的統(tǒng)計特征如表4所示.

        3.5 梯度提升決策樹模型

        通過上述步驟提取了蛋白質(zhì)小分子的統(tǒng)計特征和結構特性特征,可以將非結構化數(shù)據(jù)轉(zhuǎn)化為數(shù)值化的特征信息,從而只需借助梯隊提升決策樹等回歸算法,利用標注好的數(shù)據(jù)進行訓練,即可對待標注的數(shù)據(jù)進行預測.鑒于LightGBM 的性能優(yōu)勢,構建完特征工程之后,即可采用LightGBM 算法對蛋白質(zhì)小分子的親和力值進行預測.通過對標注好的蛋白子小分子的親和力進行訓練,可以獲得上述步驟中提取的特征對預測親和力值的重要度,即特征的重要度.其中排名前10 的特征如圖5所示.

        表4 統(tǒng)計特征表Table4 Statistical feature table

        圖5 特征重要度排序圖Figure5 Feature importance ranking chart

        從圖5可以看出,在最重要的10 個特征中,從蛋白質(zhì)一級結構數(shù)據(jù)中提取的特征有2 個,從小分子指紋信息中提取的特征有2 個,從統(tǒng)計特征中提取的特征有6 個.也就是說,新方案對蛋白質(zhì)一級結構數(shù)據(jù)與小分子指紋數(shù)據(jù)進行處理,引入的新信息為模型提供了4 個新的重要特征,從而提升了模型的預測精度.

        4 實驗評估

        4.1 評測方案

        為驗證基于自然語言處理的蛋白質(zhì)小分子親和力值的預測算法的性能,本文從BindingDB 數(shù)據(jù)庫與晶泰科技公司在DC 大數(shù)據(jù)競賽平臺上公布的蛋白質(zhì)小分子數(shù)據(jù)集中收集了2 萬組蛋白質(zhì)與小分子的數(shù)據(jù),并借助DC 大數(shù)據(jù)競賽平臺提供的線上評測機制對算法預測結果進行了評測.結果表明,相比于傳統(tǒng)方法,本文提出的基于自然語言處理的方法在預測精度上有了較大的提升.

        4.2 評測標準

        本文的評測標準采用均方根誤差函數(shù),它是真實值與預測值偏差的平方和與觀測次數(shù)n比值的平方根,如式(3)所示:

        式中,Xobs為真實值,Xpred為預測值.均方根誤差得分越小,表明模型預測精度越高.

        4.3 評測結果及分析

        為測試本文所提方法的有效性和性能,使用Python 語言對蛋白質(zhì)小分子的數(shù)據(jù)進行了處理,提取了相應的TF-IDF 和統(tǒng)計特征之后,分別使用了嶺回歸模型、LightGBM 模型等對處理后的特征數(shù)據(jù)進行了對比訓練和預測,并提交到DC 大數(shù)據(jù)競賽平臺提供的線上評測平臺,得到評測結果如表5所示:

        表5 評測結果表Table5 Evaluation result table

        從表5可以發(fā)現(xiàn),本文提出的利用自然語言處理技術和LightGBM模型的方法獲得的預測效果最好,均方根誤差只有1.348.使用自然語言處理技術處理后的特征,即便使用嶺回歸方法,其誤差也可以達到1.415.相比而言,不對蛋白質(zhì)結構數(shù)據(jù)進行處理的傳統(tǒng)方法,使用LightGBM 與嶺回歸方法時誤差分別達到了1.446 與1.495.對特征數(shù)據(jù)的分析可以發(fā)現(xiàn),由于對蛋白質(zhì)一級結構序列數(shù)據(jù)與小分子指紋信息進行了處理引入了新信息,因此無論使用LightGBM 還是嶺回歸算法,效果都有明顯提升.其中,使用LightGBM 算法時,本文所提出的方法較原有方法在預測準確率方面提升了7.249%;使用嶺回歸方法時,本文提出的方法較原有方法在預測準確率方面提升了5.649%;而且本文所提出的利用自然語言處理技術與LightGBM 相結合的方法,獲得了比常用的嶺回歸方法更高的預測精度.由此可見,本文提出的基于自然語言處理與梯度提升算法的蛋白質(zhì)小分子親和力值的預測方法,較原有的傳統(tǒng)預測方法有顯著的預測精度提升,具有實際的應用價值.

        5 結 語

        蛋白質(zhì)與小分子的相互作用研究是進行藥物研發(fā)與藥物設計的基礎,傳統(tǒng)的蛋白質(zhì)親和力值測定方法在預測準確率和成本方面存在一定的局限性,不利于推廣應用,于是本文提出了基于自然語言處理技術和梯度提升決策樹的蛋白質(zhì)小分子親和力值的預測方法,利用自然語言處理技術對蛋白質(zhì)一級結構的序列數(shù)據(jù)與小分子指紋信息進行處理,提取了蛋白子和小分子的非結構化數(shù)據(jù)中隱含的信息,并利用梯度提升決策樹模型進行了預測,實驗表明本文提出的方法較現(xiàn)有的傳統(tǒng)預測方法在精度方面得到了較大提升.

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        可能是方法不對
        3D打印中的模型分割與打包
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        五月婷婷激情六月开心| 夜夜未满十八勿进的爽爽影院| 日韩a毛片免费观看| 蜜桃在线播放免费一区二区三区| 亚洲国产精品一区二区| 国产在线视频一区二区天美蜜桃 | 日韩黑人欧美在线视频观看| 亚欧视频无码在线观看| 91久久精品一区二区| 国产成人a∨激情视频厨房| 少妇饥渴xxhd麻豆xxhd骆驼 | 第九色区Aⅴ天堂| 成人一区二区三区激情视频 | 亚洲熟女乱色综合亚洲图片| 亚洲日韩精品欧美一区二区三区不卡 | 亚洲国产一区二区三区在观看| av免费网站免费久久网| 国产色在线 | 日韩| 国产美女遭强高潮网站 | 综合久久一区二区三区| 国产免费又色又爽粗视频| 中文成人无码精品久久久不卡 | 欧美 亚洲 国产 日韩 综AⅤ| 国产免费一区二区三区在线观看| 欧美性猛交xxxx乱大交极品| 男男受被攻做哭娇喘声视频| 丁香婷婷色| 日本不卡不二三区在线看| 疯狂做受xxxx高潮视频免费| 日韩精品无码久久一区二区三| 女同成片av免费观看| 人妻少妇中文字幕久久| 免费少妇a级毛片人成网| 久久无码一一区| 中文乱码字幕人妻熟女人妻| 无码国产精品一区二区av| 欧美综合自拍亚洲综合图片区| 丝袜 亚洲 另类 欧美| 噜噜中文字幕一区二区| 欧美成人免费全部| 毛片av在线播放亚洲av网站|