亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進RAkEL 分類算法的多功能酶分類預(yù)測

        2021-08-02 07:40:06皮賽奇
        軟件導(dǎo)刊 2021年7期
        關(guān)鍵詞:分類實驗模型

        皮賽奇,劉 干

        (貴州民族大學人文科技學院,貴州貴陽 550025)

        0 引言

        隨著生物信息技術(shù)快速發(fā)展和蛋白質(zhì)測序手段改進,高通量的蛋白質(zhì)基因序列被發(fā)現(xiàn)[1]。采用傳統(tǒng)生物技術(shù)手段對高通量的蛋白質(zhì)進行功能預(yù)測費時且費力,如何高效、快速地對高通量蛋白質(zhì)進行精準預(yù)測值得研究[2]。近年來,隨著大數(shù)據(jù)和人工智能行業(yè)的興起,利用人工智能和機器學習手段對高通量的蛋白質(zhì)進行分類預(yù)測是現(xiàn)階段比較火熱的方法[3]。研究人員利用機器學習對相應(yīng)的蛋白質(zhì)進行分類預(yù)測,例如,利用支持向量機對氧化還原酶進行亞類的分類預(yù)測、利用隨機森林算法對膜蛋白進行預(yù)測、運用深度學習相關(guān)算法對蛋白質(zhì)亞細胞定位進行研究等[4]。研究者們主要從兩個大的方向進行研究實驗。第一個方向為蛋白質(zhì)特征提取,第二個方向為分類器模型搭建[5]。研究者們提出了各種各樣的特征提取模型以及特征融合算法,同時也搭建出各種不同的機器學習模型,這些研究在相應(yīng)實驗中都取得了非常好的效果,但主要考慮單標簽分類。然而,現(xiàn)實世界中存在非常多的多功能蛋白質(zhì)(具有多個功能標簽),此時,運用上述單標簽機器學習算法模型進行分類預(yù)測效果不顯著。因此,構(gòu)建多標簽機器學習模型對多功能蛋白質(zhì)進行分類預(yù)測顯得十分重要。本文主要對傳統(tǒng)的隨機k標簽分類算法(RAkLE)進行改進,加入Apriori 算法對標簽進行關(guān)聯(lián)規(guī)則挖掘[6],將得到的關(guān)聯(lián)規(guī)則進行標簽劃分,運用集成(Label Powerset,LP)算法完成模型訓(xùn)練[7],最終得到模型并進行標簽分類預(yù)測。本文運用改進的多標簽分類學習算法對多功能酶(一種多功能蛋白質(zhì))進行分類預(yù)測,并與傳統(tǒng)的多標簽分類學習算法作效果比較,改進后的多標簽分類器在相關(guān)指標上能取得較好結(jié)果。

        1 多標簽分類器與多功能酶分類預(yù)測研究現(xiàn)狀

        1.1 多標簽分類器研究現(xiàn)狀

        多標簽機器學習分類器是機器學習領(lǐng)域十分重要的一個方向。由于現(xiàn)實世界中存在的問題大部分都是多標簽問題,因此,研究高效、精準的多標簽機器學習分類器以解決現(xiàn)實生活中的多標簽分類預(yù)測問題十分必要。

        對多標簽分類學習的研究最早源自于文本分類,主要是基于Boost 方法對文本進行分類[8]。在生物信息學這一領(lǐng)域中,多標簽分類學習主要應(yīng)用于蛋白質(zhì)亞細胞定位、蛋白質(zhì)多功能預(yù)測、膜蛋白預(yù)測、多功能酶預(yù)測、抗菌肽預(yù)測、革蘭氏陽性菌預(yù)測等方面[9-12]。

        多標簽分類學習中構(gòu)建合理的分類器十分重要。當前主要通過兩種策略構(gòu)建:第一種是問題轉(zhuǎn)化策略,其核心思想是將多標簽分類問題轉(zhuǎn)化為多分類問題,使現(xiàn)有的解決單標簽分類的分類器可以適應(yīng),其算法有CC(Classifi?er Chains)算法[13]、LP(Label Powerset)算法[14]、隨機K 標簽(RAkEL)算法[15];第二種策略是單標簽分類算法改進,核心思想是在單標簽分類器基礎(chǔ)上進行改造使其適用于多標簽分類器。如將最近鄰分類器(KNN)改造成多標簽最近鄰分類器(MLKNN)[16]、將神經(jīng)網(wǎng)絡(luò)模型BP 和RBF 改造成多標簽神經(jīng)網(wǎng)絡(luò)BP-MLL[17]和ML-RBF[18]、將支持向量機(SVM)改造為排序支持向量機(RANKSVM)[19]等。由于多標簽研究更加貼近人們現(xiàn)實生活中的事物分類,研究多標簽問題具有重要意義。

        1.2 多功能酶分類預(yù)測研究現(xiàn)狀

        多功能酶是一種生物催化劑,在維持生命的各種反應(yīng)中都能起到非常重要的作用。正確快速地注釋出多功能酶的功能對基因工程和細胞工程的發(fā)展起到關(guān)鍵性作用[20]。傳統(tǒng)的生物技術(shù)研究費時費力,利用計算機中機器學習技術(shù)進行相關(guān)研究尤為重要。Ferrari 等[20]利用多標簽K 近鄰分類器對多功能酶進行研究,注釋功能準確率達80%;Zou 等[21]在利用雙層分類模型對多功能酶進行分類研究,得到了非常好的效果;Che 等[22]對多功能酶進行分類預(yù)測,運用IBLR_ML 分類器實現(xiàn)多標簽分類預(yù)測;Amidi等[23]利用多功能酶的結(jié)構(gòu)作為特征表達,運用多標簽支持向量機分類器對多功能酶進行研究。隨著深度學習的提出,基于神經(jīng)網(wǎng)絡(luò)的多標簽學習也被相繼提出。利用多標簽神經(jīng)網(wǎng)絡(luò)對多功能酶的注釋研究將是一個重要研究方向。

        2 改進多標簽機器學習算法

        2.1 隨機k 標簽分類器算法(RAkEL)

        隨機k標簽分類器算法(RAkEL)由Tsoumakas 等[14]提出,主要思想是:①將所有數(shù)據(jù)實例中的標簽,劃分成一組組具有k個標簽的子標簽集合;②對劃分好的k標簽集合使用LP 方法,構(gòu)造m個分類器,每個分類器用來預(yù)測一組k標簽集。利用實例的特征數(shù)據(jù)進行多類別分類器訓(xùn)練;③將測試集的數(shù)據(jù)分別在訓(xùn)練好的分類器上進行測試,每一個測試用例在每個分類器上都會得到一個結(jié)果,最后通過投票方式得到該實例最終標簽。

        基于RAkEL 算法思想,通過偽代碼形式展示訓(xùn)練模型算法和測試模型算法。

        RAkEL 算法訓(xùn)練過程偽代碼:

        RAkEL 算法測試過程偽代碼:

        2.2 改進RAkEL 算法(Ap-RAkEL)

        RAkEL 分類算法是一種集成分類器算法,在處理多標簽分類問題中將標簽進行隨機劃分;然后對每個劃分的標簽用LP 算法為其創(chuàng)建一個分類器,進行模型訓(xùn)練;最后,將測試數(shù)據(jù)放到每個訓(xùn)練好的分類器中進行分類預(yù)測,在多個分類器中采用投票策略得出最終結(jié)果。由于RAkEL 算法在劃分標簽集時采取的是隨機劃分,在劃分時隨機性很強,標簽之間的關(guān)聯(lián)性并不能很好地表現(xiàn)出來。在劃分過程中很可能出現(xiàn)大量冗余或者并沒有關(guān)聯(lián)的組合,這樣增加了計算開銷,降低了計算效率。鑒于此,本文對該算法進行改進,在標簽劃分時加入關(guān)聯(lián)規(guī)則挖掘算法(Apriori 算法),對所有標簽數(shù)據(jù)集進行關(guān)聯(lián)挖掘,并給出關(guān)聯(lián)規(guī)則,將得到的關(guān)聯(lián)規(guī)則劃分為一個標簽集合。得到標簽集合后按照標簽集合的總個數(shù)確定分類器個數(shù),并用數(shù)據(jù)進行訓(xùn)練及預(yù)測。該改進算法命名為Ap-RAkEL 算法,C[k]表示長度為k 的候選集,L[k]表示長度為k 的頻繁項集。L[1]表示長度為1 的頻繁項集。

        Ap-RAkEL 算法訓(xùn)練過程偽代碼:

        3 實驗數(shù)據(jù)分析

        3.1 實驗數(shù)據(jù)集

        本實驗數(shù)據(jù)集為多功能酶數(shù)據(jù)集,多功能酶擁有多種功能,在機器學習算法中可將該類問題劃分為多標簽問題。本數(shù)據(jù)集中的功能標簽個數(shù)為6 個,分別為異構(gòu)功能、裂合功能、轉(zhuǎn)移功能、水解功能、合成功能、氧化還原酶功能。其各功數(shù)據(jù)分布如表1 所示。在蛋白質(zhì)庫中存在的多功能酶的種類共有4 666 條,實驗中將提取得到的4 076 條數(shù)據(jù)進行同源性分析,篩選出同源性低于65%的數(shù)據(jù)進行實驗。

        Table 1 Multifunctional data sets表1 多功能數(shù)據(jù)集

        3.2 實驗數(shù)據(jù)分析

        3.2.1 基分類器選擇

        由于改進的算法實質(zhì)還是集成算法,集成算法必須選擇基分類器,本次實驗分別用K 近鄰分類器(KNN)、支持向量機(SVM)、高斯貝葉斯網(wǎng)絡(luò)分類器(GaussianNB)、隨機森林分類器進行比較(RF),如圖1 所示??梢钥闯?,基分類器采用隨機森林(RF)能取得較好效果(此次實驗采用的是獨立集驗證方法)。

        Fig.1 Classification and prediction effect of various base classifiers圖1 各種基分類器分類預(yù)測效果

        3.2.2 隨機森林參數(shù)尋找

        如圖1 所示,隨機森林分類器整體分類效果優(yōu)勢明顯。因此,本實驗基分類器選用隨機森林分類器進行集成分類器構(gòu)建。隨機森林參數(shù)設(shè)置很重要,本文實驗采用網(wǎng)格搜索法進行參數(shù)尋優(yōu),如圖2 所示,尋參范圍是1~3 000。可以看出,當參數(shù)為411 時分類器達到最好效果(此次實驗采用獨立集驗證方法)。

        Fig.2 Random forest parameter selection圖2 隨機森林參數(shù)選擇

        3.2.3 與其他多標簽分類器比較

        本實驗最終各項指標與其他分類器進行比較,結(jié)果如表5 所示。實驗采用五折交叉驗證,可很好地解決實驗樣本少的問題。此次實驗主要是從微觀精度(Micro-Preci?sion)、微觀召回率(Micro-Recall)、微觀F 值(Micro-F-Mea?sure)、宏觀精度(Macro-Precision)、宏觀召回率(Macro-Re?call)、宏觀F 值(Macro-F-Measure)、平均精度(Average Pre?cision)7 個指標衡量改進后的多標簽分類器在多功能酶分類預(yù)測中的效果,并且還與其他文章中的分類器在多功能酶數(shù)據(jù)集中的分類進行了比較。從表2 數(shù)據(jù)可以看出,改進后的分類器對多功能酶的分類預(yù)測,不論從精度還是召回率上看,都能取得較好結(jié)果。其中,平均精度(AP)可達92.03%。

        Table 2 Indicators of various classifiers in multifunctional enzymes表2 各種分類器在多功能酶中的指標

        4 結(jié)語

        本文主要利用改進的隨機k標簽機器學習算法(Ap-RAkEL)對多功能酶進行分類預(yù)測。主要思路是在RAkEL算法中加入Apiroir 算法,在標簽劃分時找到標簽之間的關(guān)聯(lián)性,將相關(guān)性強的標簽劃分成一個基標簽,減少標簽空間及計算量。實驗表明,本文Ap-RAkEL 算法在多功能酶分類預(yù)測中各性能指標能取得較好分類效果。由于本文在關(guān)聯(lián)性分析中只用到了Apiroir 算法,在未來研究中可以嘗試對關(guān)聯(lián)性算法作出改進,提升多標簽分類模型預(yù)測精度。同時,還可以運用深度學習方法構(gòu)建新型的多標簽分類器。

        猜你喜歡
        分類實驗模型
        一半模型
        記一次有趣的實驗
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        做個怪怪長實驗
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        骚小妹影院| 久久婷婷综合激情亚洲狠狠| 成人性生交大全免费看| 国产又猛又黄又爽| 国产熟妇搡bbbb搡bb七区| 午夜久久精品国产亚洲av| 人妻被公上司喝醉在线中文字幕| 日本一本免费一二区| 内射无码专区久久亚洲| 一区五码在线| 蜜桃视频网址在线观看| www夜片内射视频在观看视频| 国产精品沙发午睡系列990531| 国产在线视频国产永久视频| 国产成人高清亚洲一区二区| 男人国产av天堂www麻豆| 亚洲av无码专区电影在线观看| 97SE亚洲国产综合自在线不卡| 日本91一区二区不卡| 国产精品乱码人妻一区二区三区 | 亚洲国产精品日韩av专区| 久久久久国色av免费观看性色| 亚洲中久无码永久在线观看同| 中文字幕成人精品久久不卡| 日本综合视频一区二区| 无码区a∨视频体验区30秒| 国产极品美女高潮无套在线观看| 麻豆成年视频在线观看| 久久久精品亚洲一区二区国产av | 久久久亚洲免费视频网| 日韩aⅴ人妻无码一区二区| 99er视频| 人妻少妇粉嫩av专区一| 成人无码一区二区三区| 久久婷婷香蕉热狠狠综合| 亚洲色欲色欲欲www在线| 国产精品国产自产自拍高清av| 久久久老熟女一区二区三区| XXXXBBBB欧美| av网址在线一区二区| 精品国产第一国产综合精品|