亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的ERα生物活性預測研究

        2022-08-18 03:39:36馬雙寶
        武漢紡織大學學報 2022年4期
        關鍵詞:乳腺癌生物模型

        何 毅,馬雙寶,孫 彪

        基于隨機森林的生物活性預測研究

        何 毅,馬雙寶*,孫 彪

        (武漢紡織大學 機械工程與自動化學院,湖北 武漢 430200)

        針對生物活性的檢測速度慢且需耗費大量人力物力的問題,本文提出了基于隨機森林的ERα生物活性預測模型。首先,對生物活性數據集進行數據清洗,使用3σ準則去除異常值。其次,利用隨機森林重要變量重要度篩選出前20個對生物活性影響大的變量。隨后,基于隨機森林對篩選出的變量進行ERα生物活性預測。結果表明,所建立的模型的均方誤差為0.017,具有良好的預測性能。

        抗乳腺癌藥物;生物活性;3σ準則;隨機森林

        乳腺癌是女性最常見的惡行腫瘤,其發(fā)病率與死亡率在女性癌癥中均位居第一[1]。在對基因缺失小鼠的實驗結果表明,確實在乳腺發(fā)育過程中扮演了重要的角色。目前,抗激素治療常用于表達的乳腺癌患者,其通過調節(jié)雌激素受體活性來控制體內雌激素水平。因此,被認為是治療乳腺癌的重要靶標,能夠拮抗活性的化合物可能是治療乳腺癌的候選藥物。

        如今在藥物數量劇增的情況下,最經濟合理的研究方式是利用計算機輔助的人工智能算法對藥物活性進行預測分析[2]。譚露露[7]提出一種基于注意力機制的多特性融合方案,并結合邊注意的圖卷積網絡,對不同種類的生物活性進行預測,但由于模型結構復雜,導致預測結果存在一定的過擬合問題。謝良旭[8]通過平均法、堆疊法融合淺層神經網絡的模型融合方法來對藥物分子進行預測。許美賢[9]提出一種基于PSO優(yōu)化BP神經網絡的生物活性預測模型,結果表明,所建立模型的預測準確度相較于優(yōu)化前有所提升,但預測精度較低。綜上所述,由于影響生物活性的特征因素較為繁雜,導致現有生物活性預測算法存在模型復雜、精度較低、泛化性能差等問題,針對這些問題,本文提出基于隨機森林的生物活性預測模型,首先通過隨機森林算法提取與生物活性相關性較高的特征因子,減少冗余因子,其次采用篩選后的高相關性樣本數據對模型進行訓練,進一步在保證檢測精度的同時降低模型復雜度,使得模型具有良好的泛化性能。

        1 ERα生物活性模型

        1.1 隨機森林算法

        隨機森林對噪聲和異常值不敏感,容忍度較高,能夠在不需要降維條件下處理具有高維特征的輸入樣本,同時隨機森林可以評估各個特征在分類問題上的重要性,具有良好的可擴展性和并行性。

        將對每一個特征重要性進行歸一化處理以此來保證所有的特征處于同一量綱,歸一化處理的公式如式(3)所示:

        通過算法將數據處理好的362個變量進行貢獻度排名,選出排名靠前的前20個變量作為模型的特征變量。貢獻度排名情況如圖1所示。

        根據隨機森林得出的變量貢獻度排名可知不同變量對化合物的影響程度不同。為了確保研究的準確性,應該剔除不重要的變量和保留排名靠前的變量,從而保證所選取變量與因變量之間的相關性。同時可根據所提取的特征變量之間的距離相關系數來判斷變量之間的相關程度,計算結果表明,20個變量之間相關性較低,獨立性較好,從而不存在變量之間相互干擾的情況,保證了研究的客觀性,為后續(xù)研究做好重要基礎。

        1.2 數據收集與處理

        本文采用加拿大阿爾伯塔大學藥物分子數據庫中1974種化合物對的生物活性進行研究。但獲取到的數據多而凌亂,無法開展研究,因此需要對數據進行處理,使其變成需要的樣本數據。處理過程分為下四個步驟:

        (1)如果一位點只含有少部分數據,大部分數據是殘缺的,對于這種數據,應該舍棄;

        (2)由第一步可得,在729個樣本中只有小部分數據保留,而大部分殘缺的數據將刪除;

        (3)被刪去的那些數據,將用其前后兩個小時數據的平均值代替;

        (4)根據拉依達準則(3σ準則)篩選出異常值,然后去除。

        拉依達準則又稱為3σ準則,其基本原理是先假設一組數據只有隨機誤差,在此基礎上,對它進行計算處理來得到其標準偏差,再按照一定的概率確定一個范圍,在這個范圍內的誤差屬于隨機誤差,不在此范圍之內的數據就不屬于隨機誤差,將在隨機誤差范圍內的數據留下,將不在隨機誤差范圍內的數據刪除掉。

        在正態(tài)分布里面,σ表示的標準差,μ表示均值,x=μ是圖像的對稱軸。3σ準則為:

        數值分布在(μ-σ,μ+σ)的概率是0.6826;數值分布在(μ-2σ,μ+2σ)的概率是0.9544;數值分布在(μ-3σ,μ+3σ)的概率是0.9974。Y的取值有99.94%集中在(μ-3σ,μ+3σ)范圍內,不在(μ-3σ,μ+3σ)區(qū)間內的可能性小于0.03%。

        1.3 基于ERα生物活性預測模型的建立

        整個模型的建立分為以下步驟:首先讀取20個主要指標作為輸入,1974個化合物作為輸入,再對樣本數據進行劃分,80%作為測試集,20%作為訓練集。然后采用Min-max標準化的方法對數據進行標準化,調整隨機森林回歸模型內置參數對訓練集進行訓練,得出基本模型。再用訓練得出的模型對測試集的特征進行預測,得出生物活性的預測值,再將得出的生物活性預測值與原數據表中相對應的進行相減,得出兩者差值平均值的絕對值,以及預測的準確率。最后,對訓練的模型進行評估,得出隨機森林回歸算法的默認評估值。

        Nestimators指定了弱分類器的個數,雖然設置的值越大,模型的準確度越高,但模型的訓練時間也就越長。經過多次參數的調整,最終將指定值定為120時訓練的效果最好。當random_state為0時,每次構建的模型不同;當random_state為3時,每次生成的數據集不一樣;當random_state為42時,每次拆分出的訓練集和測試集是不同的,對于本次模型的訓練,偏向于設置為42,這是反復訓練不同的測試集和訓練集得出最好的結果。

        2 結果分析及驗證

        模型預測完成后,將預測的生物活性預測值PIC50輸出到表格中,與原表中相對應的生物活性實際值進行比較,如表1所示。

        表1 部分預測值與真實值比較

        均方誤差即實際值與預測值差的平方和的平均值,即均方誤差EMS為:

        3 結論

        本文首先通過數據清洗,篩選出異常值,使得樣本更加合理。其次利用隨機森林將影響生物活性貢獻度排名前20的變量作為模型的特征變量,使得模型特征提取的效果更好,其次通過比較預測值和實際值,并對差值做散點圖,得到模型的均方誤差為0.017,說明模型具有很好的預測精度。由于本文使用的數據集偏小,預測結果不具有一定的泛化性,后面將采用更大的數據集,并優(yōu)化算法,將其擴展到其他生物活性預測任務上。

        [1] Pecero ML, Salvador-Bofill J, Molina-Pinelo S. Long non-coding RNAs as monitoring tools and the ERα peutic targets in breast cancer[J]. Cell Oncol, 2019, 42(1):1-12.

        [2] 蘇敏儀, 劉慧思, 林海霞, 等. 應用機器學習方法構建藥物分子解離速率常數的預測模型[J]. 物理化學學報, 2020, 36(1): 179-187.

        [3] Ding JJ, Xu Z, Zhang YY, et al. Exosome-mediated miR-222 transferring: an insight intoNF-κB-mediated breast cancer metastasis[J]. Exp Cell Res, 2018, 369(1): 129-138.

        [4] 湯井田, 曹揚, 肖嘉瑩, 等. 基于粒子群優(yōu)化支持向量機的瑞芬太尼血藥濃度預測模型[J]. 中國藥學雜志, 2013, 48(16): 1394-1399.

        [5] 劉雅琴, 王成, 章魯. 基于神經網絡的乳腺癌生存預測模型[J]. 中國生物醫(yī)學工報, 2009, 28(2): 221-227.

        [6] 袁仙琴. 基于基因表達數據的化合物肝毒性SVM預測模型研究[D]. 鎮(zhèn)江: 江蘇大學, 2018.

        [7] 譚露露, 張鑫鑫, 周銀座. 多特性融合圖卷積方法的分子生物活性預測[J]. 電子科技大學學報, 2021, 50(06): 921-929.

        [8] 謝良旭, 李峰, 謝建平, 等. 基于融合神經網絡模型的藥物分子性質預測[J]. 計算機科學, 2021, 48(09): 251- 256.

        [9] 許美賢, 鄭琰, 李炎舉. 基于PSO-BP神經網絡與PSO-SVM的抗乳腺癌藥物性質預測[J/OL]. 南京信息工程大學學報(自然科學版), https://kns.cnki.net/kcms /detail/ 32.1801.N.20220117.1819.002.html.

        Prediction of Bioactivity of ERα based on Random Forest

        HE Yi, MA Shuang-bao, SUN Biao

        (School of Mechanical Engineering and Automation, Wuhan Textile University, Wuhan Hubei 430200, China)

        Aiming at the problem that the detection speed of ERα bioactivity is slow and requires a lot of manpower and material resources, this paper proposed a prediction model of ERα bioactivity based on random forest. First, the ERα bioactivity dataset was cleaned and outliers were removed using the 3σ criterion. Secondly, the importance of random forest important variables was used to screen out the top 20 variables with great influence on biological activity. Then, ERα bioactivity of selected variables was predicted based on random forest. The results show that the mean-square error of the model is 0.017, and it has good prediction performance.

        anti breast cancer drugs; biological activity; 3σ criteria; random forest

        TP311

        A

        2095-414X(2022)04-0054-03

        通訊作者:馬雙寶(1979-),男,副教授,博士,研究方向:微弱信息檢測與電力控制系統設計.

        猜你喜歡
        乳腺癌生物模型
        一半模型
        生物多樣性
        天天愛科學(2022年9期)2022-09-15 01:12:54
        絕經了,是否就離乳腺癌越來越遠呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        生物多樣性
        天天愛科學(2022年4期)2022-05-23 12:41:48
        上上生物
        當代水產(2022年3期)2022-04-26 14:26:56
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        第12話 完美生物
        航空世界(2020年10期)2020-01-19 14:36:20
        乳腺癌是吃出來的嗎
        胸大更容易得乳腺癌嗎
        97碰碰碰人妻视频无码| 爆乳熟妇一区二区三区霸乳| 国产精品va无码一区二区| 亚洲AV综合久久九九| 国产精品99久久不卡二区| 成年人干逼视频水好多| 无码va在线观看| 精品2021露脸国产偷人在视频 | 亚洲aⅴ天堂av天堂无码麻豆| 狠狠躁狠狠躁东京热无码专区| 男女视频网站免费精品播放| 日本在线一区二区三区不卡| 国产精品熟女视频一区二区| 午夜tv视频免费国产区4| 中文字幕一区二区在线| 一本久久a久久免费综合| 激情偷乱人成视频在线观看| 免费看欧美日韩一区二区三区| 亚洲国产成人久久精品美女av| 亚洲国产精品久久久久久无码| 人妻影音先锋啪啪av资源| 亚洲片在线视频| 成人一区二区三区国产| 帮老师解开蕾丝奶罩吸乳网站| 国产美女精品aⅴ在线| 国内偷拍视频一区二区| 99视频在线精品免费观看6| 欧美日韩国产一区二区三区不卡| 日韩精品永久免费播放平台| 中文字幕一区二区黄色| 少妇内射兰兰久久| 久久青草免费视频| 精品人妻一区二区视频| 在线观看老湿视频福利| 黄又色又污又爽又高潮动态图| 中文熟女av一区二区| 久久天堂精品一区二区三区四区| 18分钟处破好疼哭视频在线观看| 日韩在线观看网址| 手机在线观看av资源| 一夲道无码人妻精品一区二区|