亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學(xué)習(xí)預(yù)測化合物的雌雄激素受體活性

        2023-03-14 07:55:28胡帥孔韌謝良旭
        現(xiàn)代計算機 2023年1期
        關(guān)鍵詞:模型

        胡帥,孔韌,謝良旭

        (江蘇理工學(xué)院電氣信息工程學(xué)院生物信息與醫(yī)藥研究工程研究所,常州 213001)

        0 引言

        許多天然或者非天然的化合物被廣泛應(yīng)用于人類的日常生活,如防腐劑、紫外線過濾器、增塑劑、香料、抗菌劑、殺蟲劑和阻燃劑等個人護理和消費品,食品都有化合物的存在[1-2]。值得注意的是,許多化合物作為內(nèi)分泌干擾物(endocrine disrupting chemicals,EDC),可過干擾人類激素的合成和作用,導(dǎo)致多種疾病,如生殖能力下降,癌癥,甚至幼體死亡[3]。根據(jù)內(nèi)分泌學(xué)會的定義,內(nèi)分泌干擾化學(xué)物質(zhì)是“一種外源性的非自然的化學(xué)物質(zhì),或化學(xué)物質(zhì)的混合物,它能干擾激素作用的任何方面”[4]。目前國內(nèi)外采取了許多方法來確定一種化合物是否具有內(nèi)分泌活性。內(nèi)分泌干擾者篩查計劃和21世紀毒理學(xué)測試項目建立了各種體外或體內(nèi)檢測方法,以測量化學(xué)物質(zhì)對人類或野生動物內(nèi)分泌系統(tǒng)的潛在影響[5]。盡管細胞培養(yǎng),特別是干細胞培養(yǎng)可以替代動物個體進行實驗,從而縮短評估過程、提高實驗的靈敏度,化合物毒性的實驗評估仍然耗時費力[6]。使用數(shù)學(xué)模型來預(yù)測化合物的活性已經(jīng)成為計算機輔助藥物設(shè)計的研究熱點。數(shù)據(jù)建模工具在一定的框架下對現(xiàn)有的實驗數(shù)據(jù)進行擴展,可以減少人力物力消耗。

        定量構(gòu)效關(guān)系(quantitative structure-activity relationship,QSAR)被廣泛應(yīng)用于化合物對內(nèi)分泌受體如雌雄激素受體的活性預(yù)測,如協(xié)同雌激素受體活性預(yù)測項目和雄激素受體活性協(xié)同建模項目構(gòu)建就是通過不同QSAR方法訓(xùn)練的雌激素或雄激素受體活性預(yù)測[7]。該方法經(jīng)常結(jié)合機器學(xué)習(xí)算法一起使用[8]。在綜合國內(nèi)外利用機器學(xué)習(xí)預(yù)測化合物的雌雄激素受體活性的基礎(chǔ)上,本文采用支持向量機,隨機森林等方法,采集來自Binding Database數(shù)據(jù)庫的已知活性數(shù)據(jù)集,建立了定量結(jié)構(gòu)-活性關(guān)系模型用于雌雄激素受體的活性預(yù)測,有利于實現(xiàn)化合物的高通量篩選。

        1 材料來源

        Binding Database(BindingDB)(https://www.bindingdb.org/bind/index.jsp)是一個公開訪問的數(shù)據(jù)庫[9],目前包含8185種蛋白質(zhì)和超過920703個類藥分子的2096653個活性數(shù)據(jù)。這些數(shù)據(jù)從科學(xué)文獻中提取,數(shù)據(jù)收集的重點是作為藥物靶點或候選藥物靶點的蛋白質(zhì),其結(jié)構(gòu)數(shù)據(jù)存在于蛋白質(zhì)數(shù)據(jù)庫中,數(shù)據(jù)的類型包括Ki、IC50、Kd、EC50等[10]。由BindingDB查詢生成的數(shù)據(jù)集可以以帶注釋的mysql數(shù)據(jù)庫的形式下載,以便進行進一步分析。研究發(fā)現(xiàn),內(nèi)分泌干擾物中的雌雄激素受體類似物可以跟雌雄激素受體結(jié)合,激活或抑制這些激素受體,從而干擾內(nèi)分泌系統(tǒng),影響人體健康[11]。BindingDB全面記錄了雌雄激素受體類似物的數(shù)據(jù)情況[12]。本文所用的數(shù)據(jù)為從該數(shù)據(jù)庫下載的有實驗數(shù)據(jù)記錄影響雌雄激素類似化合物,共計13190條數(shù)據(jù),其中毒性評估準則以50%生長抑制濃度的對數(shù)log(IC50)單位nmol/L表示,經(jīng)過去除重復(fù)數(shù)據(jù)清除IC50值相差大的錯誤數(shù)據(jù)后得到了8357條數(shù)據(jù)。為了進行量化分析數(shù)據(jù),利用pandas畫出了8357條數(shù)據(jù)的IC50值的大致分布,如圖1所示。

        圖1 數(shù)據(jù)分布

        從圖1可以看出數(shù)據(jù)集里的數(shù)據(jù)基本符合正態(tài)分布,所以將數(shù)據(jù)集里的數(shù)據(jù)以中位數(shù)log2.28為分界點,分為兩部分。小于中位數(shù)為雌雄激素活性強的數(shù)據(jù),或稱活性數(shù)據(jù),在模型算法中用class1表示;大于中位數(shù)為雌雄激素活性弱的數(shù)據(jù),或稱非活性數(shù)據(jù),在模型算法中用class0表示。

        2 數(shù)據(jù)處理

        2.1 分子指紋

        在比較兩個化合物之間的相似性時遇到的最重要問題之一是任務(wù)的復(fù)雜性,這取決于分子表征的復(fù)雜性。在一定程度上的簡化或抽象可以使比較分子更加容易。分子指紋就是一種抽象化表征,它的流程一般為歸納提取分子的結(jié)構(gòu)特征,再用哈希(Hashing)生成比特向量。本文采用的基于子結(jié)構(gòu)的分子指紋為MACCS和ECFP。

        MACCS密鑰通過使用RDKit進行計算[13]。ECFP指紋由Pande開發(fā)的DeepChem開源軟件包進行轉(zhuǎn)換。然后利用交叉驗證方法[14]將數(shù)據(jù)集分為訓(xùn)練集和測試集,二者的比例為8∶2。

        2.2 方法

        2.2.1 隨機森林

        隨機森林(random forests,RF)是一種比較典型的機器學(xué)習(xí)模型。經(jīng)典的機器學(xué)習(xí)模型神經(jīng)網(wǎng)絡(luò)雖預(yù)測準確,但是計算量很大[15]。為了解決這個問題,上個世紀分類樹的算法被Breiman等科學(xué)家提出。2001年Breiman把分類樹組合成隨機森林[16],即通過對數(shù)據(jù)集的采樣生成多個不同的數(shù)據(jù)集,并在每一個數(shù)據(jù)集上訓(xùn)練出一顆分類樹,最終結(jié)合每一顆分類樹的預(yù)測結(jié)果作為隨機森林的預(yù)測結(jié)果。隨機森林,被譽為當(dāng)前最好的分類算法之一[17]。因為本文數(shù)據(jù)比較離散,所以選擇了ID3(iterative dichotomiser 3)算法。下圖為使用ID3算法構(gòu)建隨機森林的流程。

        圖2 RF模型的流程圖

        2.2.2支持向量機

        支持向量機(support vector machines,SVM)是一種構(gòu)建分類器的強大方法[18]。它的目的是在兩個類之間創(chuàng)建一個決策邊界,這個邊界叫做超平面[19]。這個超平面是從每個類的最近的數(shù)據(jù)點獲取。SVM算法最初是由Vapnik在1963年提出的線性分類器,針對非線性數(shù)據(jù),它還有一個用途就是核函數(shù)。在非線性問題中,可以使用核函數(shù)向原始數(shù)據(jù)添加額外的維數(shù),使用核函數(shù)求解的過程如下:

        第一步:將問題轉(zhuǎn)化為原始問題及變形,用到的公式為

        第二步:原始問題對偶化,首先構(gòu)建拉格朗日函數(shù):

        其中,ai≥0,μi≥0。

        然后原始問題對偶化并選擇核函數(shù):

        第三步:利用KKT條件求解,首先利用SMO算法求解a*,然后在向量a*中選一個0<aj<C,求解b*。

        最后得到分類決策算法:

        3 結(jié)果與討論

        3.1 評估標準

        在本研究中,采用準確性(Accuracy)、精準率(Precision)、召回率(Recall)、精度和召回率的調(diào)和平均(F1_score)、對每個類別的精準、召回和F1_score加和求平均,即宏平均(Macroavg),對宏平均的一種改進,考慮了每個類別樣本數(shù)量在總樣本中占比,即加權(quán)平均(Weightedavg)這六種統(tǒng)計指標來評估所提模型的性能,計算公式如下:

        對公式中出現(xiàn)的英文簡寫解釋如下:

        TP(True Positive):做出Positive的判定,而且判定是正確的,即檢測為雌雄激素活性強且雌雄激素活性強的物質(zhì);FP(False Positive):做出Positive的判定,但判定是錯誤的,即檢測為雌雄激素活性強但實際雌雄激素活性弱的物質(zhì);TN(True Negative):正確的Negative判定,而且判定是正確的,即檢測為雌雄激素活性弱且雌雄激素活性弱的物質(zhì);FN(False Negative):錯誤的Negative判定,而且判定是錯誤的,即檢測為雌雄激素活性弱但雌雄激素活性強的物質(zhì);雌雄激素活性弱的精準率用Pno來表示,雌雄激素活性強的精準率用Pyes表示;Support代表支持樣本數(shù),雌雄激素活性弱樣本數(shù)用Supportno表示,雌雄激素活性強的樣本數(shù)用Supportyes表示。

        此外還應(yīng)用了受試者工作特征曲線(receiver operating characteristic,ROC)和曲線下面積(area under curve,AUC)來評價模型的分類性能:ROC曲線的Y軸為真陽性率(true positive rate),X軸為假陽性率(false positive rate);AUC的值越大表明模型的預(yù)測結(jié)果越好[20]。

        3.2 預(yù)測結(jié)果和分析

        本文采用了二組分類模型RF和SVM,分別結(jié)合兩種分子指紋做預(yù)測,在使用Sklearn.metric.classification_report工具對模型的測試結(jié)果進行評價時,整理輸出結(jié)果,如表1~表4(圖3)所示。

        圖3 集受試者工作特征(receiver operating characteristic,ROC)曲線

        表1 隨機森林(RF)結(jié)合ECFP指紋

        表2 隨機森林(RF)結(jié)合MACCS指紋

        表4 支持向量機(SVM)結(jié)合MACCS指紋

        從表1~表4可以看出,RF,SVM算法結(jié)合ECFP指紋模型準確率和AUC值要分別高于RF,SVM結(jié)合MACCS,主要是因為ECFP可用來表示功能基團是否存在,對于分析分子活性至關(guān)重要。RF的結(jié)果要好于其他結(jié)果,從直觀現(xiàn)象來解釋,主要是因為RF的每棵決策樹都相當(dāng)于一個分類器,對于輸入的每一個樣本來說,M個分類器就有M個分類結(jié)果。RF集成了所有結(jié)果,最終把類別中的結(jié)果做為輸出成果,RF是一種最容易達到好的分類結(jié)果的算法。RF結(jié)合ECFP指紋在對化合物的雌雄激素活性的預(yù)測上可以達到0.83的準確率,AUC值可以達到0.896,且ROC曲線光滑,說明數(shù)據(jù)樣本空間分布合理,模型預(yù)測結(jié)果優(yōu)良。其次,SVM結(jié)合ECFP結(jié)果稍遜于RF,從側(cè)面證明了SVM適用于樣本空間小的數(shù)據(jù)。SVM結(jié)合ECFP,由于樣本小,ROC曲線略有凹凸。在對化合物的雌雄激素活性的預(yù)測上可以達到0.83的準確率,AUC值可以達到0.882,證明模型的預(yù)測能力良好且廣泛。

        4 結(jié)語

        本文對8357條雌雄激素受體毒性值有影響的小分子化合物進行分子指紋的轉(zhuǎn)換,選擇學(xué)習(xí)方法建模并進行了毒性的預(yù)測評估,RF模型結(jié)合ECFP指紋明顯優(yōu)于參比模型。本文構(gòu)建的雌雄激素受體預(yù)測模型,因純粹選用理論計算參數(shù)而不依賴實驗測定,故較方便、省時且節(jié)約費用,可對環(huán)境分布的化合物進行快速的激素受體干擾能力判斷,為環(huán)境內(nèi)分泌干擾分子的風(fēng)險管理提供基礎(chǔ)。

        本文所使用的數(shù)據(jù)和源碼可訪問https://gitee.com/code-mk/classification獲取。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        3D打印中的模型分割與打包
        欧美黑人性暴力猛交喷水| 少妇精品偷拍高潮少妇在线观看| 一区二区三区日韩亚洲中文视频| 男人扒开添女人下部免费视频 | 欧洲国产精品无码专区影院| 国产激情视频高清在线免费观看| 丰满人妻一区二区三区视频| 毛片内射久久久一区| 图图国产亚洲综合网站| 手机av在线观看视频| 久久精品亚洲熟女av蜜謦| 中文字幕被公侵犯的漂亮人妻| 热久久久久久久| 一区二区三区国产亚洲网站| 亚洲美女av一区二区在线| 亚洲人成无码网站在线观看| 久久免费区一区二区三波多野在| 色噜噜精品一区二区三区 | 中文字幕亚洲无线码| 欧美—iGAO视频网| 中文字幕精品一区二区的区别| 人妻无码一区二区三区免费| 国产午夜激无码av毛片| 胳膊肘上有白色的小疙瘩| 日韩av一区二区不卡| 又爽又黄又无遮挡的视频| 国产av天堂成人网| 少妇人妻偷人中文字幕| 无人区乱码一区二区三区| 日本丰满人妻xxxxxhd| 尤物AV无码色AV无码麻豆| 最新在线观看免费的a站国产| 国产精品无码v在线观看| 欧美日韩亚洲成人| 午夜亚洲精品视频网站| 久青草影院在线观看国产| 亚洲国产精品嫩草影院久久 | 午夜婷婷国产麻豆精品| 极品粉嫩嫩模大尺度无码视频 | 日日碰狠狠添天天爽超碰97久久| 无遮挡边摸边吃奶边做视频免费|