胡雪嬌,陳行健,趙 南,薛 衛(wèi)
南京農(nóng)業(yè)大學(xué) 信息科學(xué)技術(shù)學(xué)院,南京210095
詞袋模型(Bag of Words model,BOW)源自于文本處理領(lǐng)域,研究人員不斷發(fā)掘其潛能,在物體識(shí)別領(lǐng)域中[1-2]也有廣泛應(yīng)用。BOW 模型一般由特征提取、聚類分析構(gòu)建字典、直方圖構(gòu)建三部分組成,將目標(biāo)對(duì)象轉(zhuǎn)換為特征向量送入分類器完成分類,最終將目標(biāo)對(duì)象轉(zhuǎn)換為特征向量送入分類器完成分類[3]。為提高BOW模型的性能,提出了許多優(yōu)化算法。如Irfan等人[4]通過(guò)對(duì)字典降維并使用TF_IDF(Term Frequency_Inverse Document Frequency)算法賦予相應(yīng)詞權(quán)重,解決了文本錯(cuò)誤匹配問(wèn)題;Li 等人[5]使用空間金字塔匹配技術(shù)(Spatial Pyramid Matching,SPM),在圖像表示階段加入局部特征的空間位置信息,從而提高了分類性能。Xie 等人[6]通過(guò)分析鄰域像素和局部圖像,引入LQP(Local Quantized Pattern)構(gòu)建字典,取得了較好效果;Zhu等人[7]利用模糊均值(Fuzzy C-Means)代替K 均值(K-Means)優(yōu)化字典,使初始聚類中心的選擇更加合理;汪榮貴等人[8]引入顯著區(qū)域提取,結(jié)合三角剖分方法融入圖像全局信息,得到了較好的預(yù)測(cè)效果。
當(dāng)前眾多詞袋模型的算法改進(jìn)雖然取得了良好的效果,但是忽略了對(duì)詞袋模型的參數(shù)的優(yōu)化,其中參數(shù)大多根據(jù)經(jīng)驗(yàn)值選取。在使用BOW 模型完成特征提取的過(guò)程中,存在窗口大小d 和字典大小k 組成的一組參數(shù),對(duì)BOW 的性能影響非常大。本文結(jié)合群體智能化的粒子群算法(Particle Swarm Optimization,PSO)和全局尋優(yōu)能力強(qiáng)的細(xì)菌覓食算法(Bacterial Foraging Algorithm,BFA),在PSO進(jìn)行局部搜索時(shí),加入BFA的復(fù)制和遷移行為,求得混合算法PSO_BFA 的最優(yōu)解為窗口大小d 和字典大小k 的最佳組合。將優(yōu)化后的BOW 模型應(yīng)用到蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中,結(jié)合蛋白質(zhì)序列的氨基酸組成和偽氨基酸組成獲得蛋白質(zhì)序列的詞袋特征[9],最后送入支持向量機(jī)多類分類器進(jìn)行定位預(yù)測(cè),實(shí)驗(yàn)證明PSO_BFA 優(yōu)化的詞袋模型能有效提高蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的精度。
詞袋模型最初用于文本建模,是一種利用機(jī)器學(xué)習(xí)算法對(duì)文本數(shù)據(jù)進(jìn)行特征表達(dá)的方法。其基本原理是將目標(biāo)對(duì)象用若干無(wú)序單詞來(lái)表示,這些單詞組成一個(gè)集合。通過(guò)統(tǒng)計(jì)每個(gè)單詞在文檔中出現(xiàn)的次數(shù)對(duì)目標(biāo)對(duì)象進(jìn)行向量化描述。應(yīng)用詞袋模型進(jìn)行某項(xiàng)具體研究通常分為以下幾個(gè)步驟:首先對(duì)目標(biāo)對(duì)象進(jìn)行局部區(qū)域分析,并提取局部特征作為特征單詞訓(xùn)練字典。此時(shí)存在一個(gè)窗口值d,即特征單詞的長(zhǎng)度。在獲得目標(biāo)對(duì)象的局部特征后,需要對(duì)這些特征單詞進(jìn)行聚類,獲取一定數(shù)量的聚類中心作為字典,通常使用K-means 聚類[10],字典大小k 的取值決定了最終的聚類效果。利用字典將目標(biāo)對(duì)象的各個(gè)局部特征映射到與之距離最近的聚類中心,然后統(tǒng)計(jì)目標(biāo)對(duì)象屬于各個(gè)聚類中心的特征單詞個(gè)數(shù),獲得單詞直方圖,計(jì)算目標(biāo)對(duì)象中每個(gè)特征單詞出現(xiàn)的頻率,即為最終的詞袋特征。在傳統(tǒng)詞袋模型中,窗口值d 和字典大小k 值的選取對(duì)詞袋模型的性能影響較大,針對(duì)這一問(wèn)題,提出一種基于PSO_BFA優(yōu)化的改進(jìn)詞袋模型,尋找窗口大小d 和字典大小k 的最佳組合。
粒子群算法是由文獻(xiàn)[11]提出的一種新型群體智能進(jìn)化算法,具有記憶最佳位置、共享信息等特點(diǎn)。在PSO 優(yōu)化問(wèn)題中,每一個(gè)解即為一個(gè)粒子,每個(gè)粒子在N 維搜索空間中按照一定的速度運(yùn)動(dòng),通過(guò)適應(yīng)度函數(shù)來(lái)評(píng)價(jià)粒子的優(yōu)劣,粒子根據(jù)自己的運(yùn)動(dòng)經(jīng)驗(yàn)以及其他粒子的運(yùn)動(dòng)經(jīng)驗(yàn),來(lái)動(dòng)態(tài)調(diào)整運(yùn)動(dòng)速度和位置,向搜索空間中最優(yōu)的位置運(yùn)動(dòng),從而得到優(yōu)化問(wèn)題的最優(yōu)解。粒子通過(guò)跟蹤兩個(gè)“極值”來(lái)更新?tīng)顟B(tài)[12]:第一個(gè)是整個(gè)種群當(dāng)前時(shí)刻找到的最優(yōu)解,叫作全局極值Gbest ;第二個(gè)是粒子自身所找到的最優(yōu)解,叫作個(gè)體極值Pbest。在N 維搜索空間中第i 個(gè)粒子的位置和速度分別表示為Xi=(xi1,xi2,…,xiN)和Vi=(vi1,vi2,…,viN)T。通過(guò)評(píng)價(jià)各粒子的目標(biāo)函數(shù),確定t 時(shí)刻每個(gè)粒子的最佳位置(Pbest)Pi=(pi1,pi2,…,piN)T以及群體所發(fā)現(xiàn)的最佳位置(Gbest)Pg=(pg1,pg2,…,pgN)T。
細(xì)菌覓食算法是由Passino等人[13]于2002年基于細(xì)菌覓食行為過(guò)程而提出的一種隨機(jī)搜索的智能仿生優(yōu)化算法。細(xì)菌的覓食過(guò)程主要描述為趨向行為、復(fù)制(繁殖)行為和遷移(驅(qū)散)行為。其中復(fù)制行為使細(xì)菌覓食算法擁有優(yōu)勝略汰的特點(diǎn)。淘汰較差的半數(shù)細(xì)菌,保留較好的半數(shù)菌體并復(fù)制產(chǎn)生新細(xì)菌。假設(shè)細(xì)菌種群規(guī)模為M ,群體中要淘汰的細(xì)菌數(shù)為Mr=M/2。在淘汰過(guò)程中首先將群體中的細(xì)菌個(gè)體按照自身的適應(yīng)值好壞進(jìn)行排序,將適應(yīng)值較差的Mr 個(gè)細(xì)菌淘汰,剩下的Mr 細(xì)菌個(gè)體進(jìn)行自身復(fù)制,即復(fù)制出與原來(lái)的個(gè)體一樣的新個(gè)體,從而保持群體總數(shù)保持不變[14]。
BFA算法中的細(xì)菌驅(qū)散過(guò)程,能夠加強(qiáng)細(xì)菌覓食算法的全局尋優(yōu)能力,避免細(xì)菌陷入局部最優(yōu)。細(xì)菌的驅(qū)散操作是在菌體經(jīng)過(guò)數(shù)次復(fù)制行為之后發(fā)生的。驅(qū)散操作會(huì)根據(jù)一定的遷移概率Ped來(lái)決定是否驅(qū)散。當(dāng)遷移概率Ped滿足驅(qū)散條件時(shí),則將隨機(jī)地把細(xì)菌驅(qū)散到其所在搜索空間中去。由以上過(guò)程可看出BFA 算法有群體智能算法的全局尋優(yōu)、易計(jì)算等優(yōu)點(diǎn)[15]。
PSO進(jìn)行群體、協(xié)同搜索,記憶個(gè)體和群體信息[16],具有相當(dāng)快的逼近最優(yōu)解的速度,原理簡(jiǎn)單,通用性強(qiáng),不依賴問(wèn)題信息,易實(shí)現(xiàn)[17]。缺點(diǎn)是在局部的搜索準(zhǔn)確性不高,且易陷入局部最優(yōu)[18]。BFA在沿某一方向進(jìn)行搜索的過(guò)程中,可根據(jù)適應(yīng)值的變化調(diào)整運(yùn)動(dòng)方向,具有變方向搜索能力[19],使細(xì)菌個(gè)體易找到所在鄰域內(nèi)的最優(yōu)值,不易錯(cuò)過(guò)更優(yōu)解所在的區(qū)域,大大提高了對(duì)全局的搜索精度和搜索能力[20]。主要缺點(diǎn)是沒(méi)有對(duì)菌群最優(yōu)信息的記憶功能,全局搜索能力弱且收斂速度慢[21]?;旌狭W尤汉图?xì)菌覓食算法彌補(bǔ)了兩種算法的缺陷,將細(xì)菌覓食算法的復(fù)制和遷移行為應(yīng)用到粒子群算法中提高算法的全局搜索能力和收斂速度。
在運(yùn)用BOW 模型提取特征的過(guò)程中,存在兩個(gè)重要參數(shù):窗口大小d 和字典大小k。為優(yōu)化窗口大小d和字典大小k 的取值過(guò)程,將d 的取值范圍作為橫向坐標(biāo),k 的取值范圍作為縱向坐標(biāo)構(gòu)建參數(shù)搜索空間,每一組(d,k)值對(duì)應(yīng)一組特征向量,每一組特征向量具有相應(yīng)的分類準(zhǔn)確率。將求得最高分類準(zhǔn)確率的過(guò)程抽象為粒子尋求最高適應(yīng)度值的過(guò)程,(d,k)為粒子在搜索空間的位置。因此,d 、k 值的選取過(guò)程轉(zhuǎn)化為粒子的移動(dòng)過(guò)程,可以利用PSO 和BFA 的群體智能尋優(yōu)方法實(shí)現(xiàn)BOW 模型的參數(shù)尋優(yōu),從而獲得識(shí)別精度較高的特征向量。
鑒于以上分析,在PSO 進(jìn)行局部搜索時(shí),加入BFA的復(fù)制和遷移行為,如果粒子的適應(yīng)度值有增長(zhǎng)趨勢(shì),則按原始方式更新速度和位置。如果大多粒子的適應(yīng)度值沒(méi)有明顯提高,保留適應(yīng)度值較高的半數(shù)粒子,去除適應(yīng)度值較低的另半數(shù)粒子,留下的半數(shù)粒子復(fù)制產(chǎn)生新粒子,保持粒子總數(shù)不變。然后將粒子隨機(jī)驅(qū)散到搜索空間的其他位置,進(jìn)行下一階段的搜索。解空間由窗口大小d 和字典大小k 構(gòu)成,粒子的適應(yīng)度值即為該組(d,k)計(jì)算出的分類準(zhǔn)確率。
PSO-BFA混合優(yōu)化算法流程如圖1所示。
圖1 PSO_BFA混合優(yōu)化算法流程圖
設(shè)計(jì)實(shí)現(xiàn)的算法思想:在一個(gè)兩維的目標(biāo)搜索空間中,由T(T >10)個(gè)粒子構(gòu)成一個(gè)群體,其中第i 個(gè)粒子的位置表示為Xi=(d,k),d 為窗口大小,k 為字典大小。每個(gè)粒子的位置就是一個(gè)潛在的解。首先初始化一群隨機(jī)粒子,通過(guò)迭代找到適應(yīng)度值最高的解,在迭代過(guò)程中,粒子通過(guò)跟蹤自身最優(yōu)解(Pbest)Pi=(pi1,pi2,…,piN)T和整個(gè)種群的最優(yōu)解pg2,…,pgN)T更新自己的位置[13]。用公式表示粒子的速度和位置更新如下:
式中,i=1,2,…,M,M 為粒子總數(shù);d=1,2,…,N,N 為解空間維數(shù);ω 為慣性因子;是粒子的速度向量;c1、c2為加速因子;r1和r2是均勻分布在[0,1]上的隨機(jī)數(shù),互相獨(dú)立;是當(dāng)前粒子的位置;pid表示當(dāng)前粒子本身最優(yōu)解的位置;pgd表示當(dāng)前整個(gè)種群最優(yōu)解的位置[14]。
輸入:慣性因子c1、c2,最大迭代次數(shù)Tmax,粒子個(gè)數(shù)M ,每代復(fù)制粒子數(shù)和淘汰粒子數(shù)為M/2,窗口大小d 和字典大小k 的取值范圍,粒子速度范圍[-vdmax,vdmax],遷移概率Ped=0,取值根據(jù)不同情況的經(jīng)驗(yàn)值進(jìn)行選取。
輸出:種群最優(yōu)值Gbest 及位置Pg。
算法步驟如下:
(1)設(shè)置初始種群,初始化各參數(shù),根據(jù)窗口大小d和字典大小k 的取值范圍設(shè)置粒子位置范圍[xmin,xmax],在位置范圍內(nèi)隨機(jī)初始化粒子的位置Xi以及速度Vi,用Pi記錄粒子當(dāng)前位置為粒子初始最優(yōu)位置,設(shè)置遷移概率Ped=0。
(2)循環(huán)操作:for i=1,2,…,Tmax,如果i ≤Tmax循環(huán)繼續(xù),否則循環(huán)結(jié)束。
(3)根據(jù)SVM 分類預(yù)測(cè)結(jié)果評(píng)價(jià)各粒子的適應(yīng)度值,用Gbest 記錄當(dāng)前種群最優(yōu)的適應(yīng)度值,相應(yīng)粒子位置為當(dāng)前最優(yōu)位置記做Pg,用Pbest 記錄個(gè)體最優(yōu)適應(yīng)度值,然后根據(jù)公式(1)來(lái)更新粒子的速度,通過(guò)公式(2)更新粒子的位置。
(4)更新粒子速度位置后,則根據(jù)分類預(yù)測(cè)結(jié)果重新評(píng)價(jià)粒子的適應(yīng)度值,若優(yōu)于更新前的粒子,則更新該粒子的Pi為粒子當(dāng)前位置。若某粒子位置更新后成為種群適應(yīng)度值最高的粒子且優(yōu)于已有的Gbest ,則更新Gbest ,種群最優(yōu)Pg更新為該粒子的位置。若更新后最高適應(yīng)度值低于上一代Gbest,則Ped=Ped+0.1。Ped值按一定粒度值增加,是為了防止粒子陷入局部最優(yōu)發(fā)生早熟的現(xiàn)象,將SVM 分類預(yù)測(cè)結(jié)果終分類結(jié)果作為粒子適應(yīng)度值,根據(jù)適應(yīng)度值來(lái)動(dòng)態(tài)更新遷移概率值,經(jīng)多次實(shí)驗(yàn)得出粒度設(shè)為0.1效果最佳。
(5)如果Ped<0.5,轉(zhuǎn)向下一步,否則,保留適應(yīng)度值較高的M/2 個(gè)粒子,淘汰適應(yīng)度值較低的另M/2 個(gè)粒子,留下的M/2 個(gè)粒子復(fù)制產(chǎn)生新粒子,新粒子屬性與原粒子相同,粒子總數(shù)不變,然后將粒子隨機(jī)驅(qū)散到搜索空間的其他位置。遷徙概率Ped的取值范圍在0到1之間,設(shè)置值過(guò)大會(huì)導(dǎo)致算法在搜索空間中變成隨機(jī)窮舉搜索。因此,根據(jù)經(jīng)驗(yàn)值將Ped的最大值設(shè)為0.5。
(6)i=i+1,轉(zhuǎn)向步驟(2)。
(7)循環(huán)結(jié)束,輸出種群最優(yōu)解Gbest ,以及種群最優(yōu)位置Pg。
為檢驗(yàn)優(yōu)化詞袋模型的性能,將其應(yīng)用到蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究中,運(yùn)用優(yōu)化詞袋模型提取蛋白質(zhì)序列特征,然后將特征值送入支持向量機(jī)進(jìn)行分類預(yù)測(cè),并將分類準(zhǔn)確率作為適用度值,對(duì)每一組(d,k)值對(duì)應(yīng)的詞袋特征值進(jìn)行評(píng)價(jià)。
采用兩個(gè)凋亡蛋白數(shù)據(jù)集ZD98和CH317,ZD98數(shù)據(jù)集由Zhou 和Doctor[22]構(gòu)建,分為4 個(gè)亞細(xì)胞定位類別,共有98 條蛋白質(zhì)序列,分別是線粒體蛋白(Mitochondrial proteins,mi)13 條、細(xì)胞質(zhì)蛋白(Cytoplasmic proteins,cy)43 條、膜蛋白(Membrane proteins,me)30條和其他類蛋白(other)12條。CH317數(shù)據(jù)集是由Chen和Li[23]構(gòu)建,分為6個(gè)亞細(xì)胞定位類別,共有317條蛋白質(zhì)序列,分別是分泌蛋白(Secreted proteins,se)17 條、細(xì)胞核蛋白(Nuclear proteins,nu)52 條、細(xì)胞質(zhì)蛋白(Cytoplasmic proteins,cy)112 條、內(nèi)質(zhì)網(wǎng)蛋白(Endoplasmic reticulum proteins,en)47 條、膜蛋白(Membrane proteins,me)55 條和線粒體蛋白(Mitochondrial proteins,mi)34條。
對(duì)實(shí)驗(yàn)的PSO_BFA 優(yōu)化算法參數(shù)進(jìn)行設(shè)置,慣性因子c1=c2=2,最大迭代次數(shù)Tmax=1 000,粒子個(gè)數(shù)M =50,每代復(fù)制粒子數(shù)和淘汰粒子數(shù)為M/2,窗口大小d 取值范圍設(shè)為[L/5,L],其中L 為數(shù)據(jù)集中最短蛋白質(zhì)序列的長(zhǎng)度,字典大小k 取值范圍設(shè)為[20,500],k,d 值均取整數(shù),粒子速度范圍[-vdmax,vdmax] ,其中vdmax=k ?xdmax,0.1 ≤k ≤0.2,xdmax為d 維空間上限,遷移概率Ped初始化為0。
首先根據(jù)優(yōu)化后的詞袋模型提取蛋白質(zhì)序列的詞袋特征。實(shí)驗(yàn)借助Lin等人[24]設(shè)計(jì)開(kāi)發(fā)的LIBSVM工具箱構(gòu)造SVM 多類分類器,采用一對(duì)一的構(gòu)造方法為任意兩類樣本構(gòu)造一個(gè)SVM分類器。對(duì)一個(gè)未知樣本進(jìn)行分類時(shí),根據(jù)當(dāng)前類別投票數(shù)來(lái)判別該樣本屬于哪一類別,采用Jackknife進(jìn)行假設(shè)檢驗(yàn)。Jackknife是亞細(xì)胞定位預(yù)測(cè)中應(yīng)用最多的檢驗(yàn)方法,基本原理為:先從數(shù)據(jù)集中取出一條蛋白質(zhì)序列作為測(cè)試序列,其余蛋白質(zhì)序列作為訓(xùn)練集,一次測(cè)試結(jié)束后將這條測(cè)試序列放回?cái)?shù)據(jù)集。第二輪檢驗(yàn),取出下一條蛋白質(zhì)序列作為測(cè)試序列,剩下的做訓(xùn)練集,以此類推,直到數(shù)據(jù)集中所有序列都測(cè)試完畢[25]。測(cè)試次數(shù)等于數(shù)據(jù)集的大小,這種檢驗(yàn)方法具有最小的任意性,是一種客觀有效的交叉驗(yàn)證方法[26]。
為了便于比較蛋白質(zhì)亞細(xì)胞區(qū)間預(yù)測(cè)的結(jié)果,對(duì)實(shí)驗(yàn)方法進(jìn)行有效評(píng)估,引入敏感性Sn、特異性Sp和相關(guān)系數(shù)MMCi這3個(gè)指標(biāo)進(jìn)行評(píng)價(jià),并統(tǒng)計(jì)總的準(zhǔn)確率A,定義如下:
其中,F(xiàn)Ni是第i 類亞細(xì)胞區(qū)間預(yù)測(cè)錯(cuò)誤的序列條數(shù),TPi是第i 類亞細(xì)胞區(qū)間預(yù)測(cè)正確的序列條數(shù),TNi是被正確預(yù)測(cè)的非第i 類亞細(xì)胞區(qū)間的序列條數(shù),F(xiàn)Pi是非第i 類亞細(xì)胞區(qū)間但被預(yù)測(cè)為第i 類區(qū)間的序列條數(shù),M 為亞細(xì)胞類別總數(shù)。
運(yùn)用PSOBFA優(yōu)化前后的BOW模型對(duì)數(shù)據(jù)集ZD98和CH317進(jìn)行蛋白質(zhì)序列特征提取,并將各特征值送入SVM 分類器進(jìn)行亞細(xì)胞定位預(yù)測(cè),實(shí)驗(yàn)結(jié)果分別列于表1和表2中。在表中,用PSO算法優(yōu)化的BOW_AAC和BOW_PseAAC特征提取算法表示為pso1和pso2,用BFA算法優(yōu)化的BOW_AAC 和BOW_PseAAC 特征提取算法表示為bfa1 和bfa2,經(jīng)PSO_BFA 優(yōu)化的特征提取算法表示為b_f1 和b_f2。根據(jù)實(shí)驗(yàn)結(jié)果繪制優(yōu)化前后的預(yù)測(cè)結(jié)果圖,如圖2~5所示。
3.4.1 ZD98實(shí)驗(yàn)結(jié)果與分析
表1、圖2 和圖3 結(jié)果顯示,在數(shù)據(jù)集ZD98 上,經(jīng)PSO_BFA 優(yōu)化的BOW 模型得到的詞袋特征綜合性能提升明顯,并能進(jìn)一步提高識(shí)別準(zhǔn)確率。經(jīng)過(guò)PSO_BFA優(yōu)化后的BOW_AAC 和BOW_PseAAC 的預(yù)測(cè)準(zhǔn)確率比單PSO 優(yōu)化方法分別提高了1.1%和1.0%,比單BFA優(yōu)化方法均提高了2.1%。在other 亞細(xì)胞類上,經(jīng)優(yōu)化的BOW_PseAAC特征的特異性Sp達(dá)到了100%。
3.4.2 CH317實(shí)驗(yàn)結(jié)果與分析
由表2、圖4 和圖5 結(jié)果可以看出,在數(shù)據(jù)集CH317上,PSO_BFA 優(yōu)化后的BOW 模型比PSO 優(yōu)化的BOW準(zhǔn)確率分別提高了1.0%和0.6%,與BFA_BOW_AAC相比,預(yù)測(cè)準(zhǔn)確率分別提高了1.9%和1.2%,PSO_BFA_BOW_AAC的綜合性能均有明顯提升。與PSO_BOW_AAC 相比,PSO_BFA_BOW_AAC 在se 和mi 亞細(xì)胞類上,敏感性Sn提升了5.9%,在en亞細(xì)胞類上,特異性Sp提升3.4%,在mi亞細(xì)胞類上,相關(guān)系數(shù)MMCi提升3.8%。PSO_BFA_BOW_PseAAC與PSO_BOW_PseAAC、BFA_BOW_PseAAC相比在各亞細(xì)胞區(qū)間均有不同程度的性能提升。
表1 ZD98數(shù)據(jù)集預(yù)測(cè)結(jié)果 %
表2 CH317數(shù)據(jù)集預(yù)測(cè)結(jié)果 %
圖2 優(yōu)化前后的BOW_AAC在ZD98上的預(yù)測(cè)結(jié)果
圖3 優(yōu)化前后的BOW_PseAAC在ZD98上的預(yù)測(cè)結(jié)果
圖4 優(yōu)化前后的BOW_AAC在CH317上的預(yù)測(cè)結(jié)果
圖5 優(yōu)化前后的BOW_PseAAC在CH317上的預(yù)測(cè)結(jié)果
對(duì)比以上結(jié)果可以看出,在兩個(gè)數(shù)據(jù)集上經(jīng)加入細(xì)菌覓食優(yōu)化的粒子群算法優(yōu)化的BOW 模型都獲得了更高的識(shí)別準(zhǔn)確率。不管是在特異性Sp和相關(guān)系數(shù)MMCi還是在總的準(zhǔn)確率A 的評(píng)價(jià)上,結(jié)果均優(yōu)于粒子群算法和細(xì)菌覓食算法優(yōu)化的BOW模型。這說(shuō)明在同一的目標(biāo)搜索空間下,PSO_BFA 優(yōu)化算法的收斂概率大于細(xì)菌覓食算法,且同時(shí)大于粒子群優(yōu)化算法。這印證了粒子群算法與細(xì)菌覓食算法的不同特點(diǎn):粒子群算法的搜索速度快、較粗略,能相對(duì)快速確定全局極值的鄰域,但局部搜索準(zhǔn)確率不高;而細(xì)菌覓食算法的搜索比較細(xì)致,易在局部取得最優(yōu)值,但全局尋優(yōu)能力差且收斂速度慢。混合粒子群和細(xì)菌覓食算法結(jié)合兩者的優(yōu)點(diǎn),將細(xì)菌覓食算法的復(fù)制和遷移行為應(yīng)用到粒子群算法中提高算法的全局搜索能力和收斂速度。因此,無(wú)論在準(zhǔn)確率還是在搜索速度上,均顯著優(yōu)于單一的粒子群算法和細(xì)菌覓食算法,上述實(shí)驗(yàn)成功證明了優(yōu)化算法的有效性。
3.4.3 與其他算法對(duì)比
為了進(jìn)一步說(shuō)明優(yōu)化算法在蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)的有效性,將本文方法在ZD98和CH317數(shù)據(jù)集上的預(yù)測(cè)結(jié)果列于表3、4中,同時(shí)將選取在蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)領(lǐng)域中具有代表性的傳統(tǒng)蛋白質(zhì)序列特征提取算法AAC、PseAAC、PSSM 和組合特征向量(Combined Feature Vector)等算法進(jìn)行特征提取,并送入SVM分類器得到的預(yù)測(cè)準(zhǔn)確率一并列出;表中也列出了趙南等人[9]將詞袋模型結(jié)合AAC 算法對(duì)蛋白質(zhì)序列進(jìn)行特征提取,采用Jackknife進(jìn)行檢驗(yàn)的實(shí)驗(yàn)結(jié)果。表格的前兩行,根據(jù)文獻(xiàn)[27]和[28]中提到的AAC、PseAAC方法作為特征提取的方法,提取20 維向量作為一條蛋白質(zhì)序列特征,然后放入SVM 中進(jìn)行分類得出預(yù)測(cè)結(jié)果。實(shí)驗(yàn)使用libsvm中的庫(kù)函數(shù),主要參數(shù)為最佳懲罰參數(shù)c 和核函數(shù)參數(shù)g,文中通過(guò)交叉驗(yàn)證方法訓(xùn)練得到一組最佳參數(shù)。文獻(xiàn)[29]中采用位置特異性評(píng)分矩陣(PSSM)提取蛋白質(zhì)序列特征,主要參數(shù)PSI-BLAST設(shè)為0.001。文獻(xiàn)[9]中,詞袋模型中窗口大小d 和字典大小k 根據(jù)經(jīng)驗(yàn)值選取。
表3 ZD98數(shù)據(jù)集預(yù)測(cè)結(jié)果比較%
表4 CH317數(shù)據(jù)集預(yù)測(cè)結(jié)果比較 %
從表3 可以看出,在ZD98 數(shù)據(jù)集上本文算法相比傳統(tǒng)蛋白質(zhì)序列特征提取算法AAC、PseAAC等在總體預(yù)測(cè)精度上最大提升了約10 個(gè)百分點(diǎn),在cyto 亞細(xì)胞類上的預(yù)測(cè)準(zhǔn)確率達(dá)到了100%,實(shí)驗(yàn)證明本文方法能有效增加蛋白質(zhì)亞細(xì)胞區(qū)間定位預(yù)測(cè)的準(zhǔn)確率。將本文方法與基于特征融合和詞袋模型的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,在相同數(shù)據(jù)集上的準(zhǔn)確率也都提高了約3 到4 個(gè)百分點(diǎn),實(shí)驗(yàn)表明本文算法較基于傳統(tǒng)蛋白質(zhì)序列特征提取的改進(jìn)算法也具有顯著優(yōu)勢(shì)。通過(guò)表4 的比較可以看出,在CH317 數(shù)據(jù)集上,本文算法在cyto 這一亞細(xì)胞類上的預(yù)測(cè)準(zhǔn)確率最高達(dá)到了98.2%,相比其他算法提升了約3.6個(gè)百分點(diǎn),在Nucl這一亞細(xì)胞類上的準(zhǔn)確率最高提升了19.8個(gè)百分點(diǎn),總的準(zhǔn)確率較優(yōu)化前的詞袋模型提升了4.4個(gè)百分點(diǎn)。
詞袋模型是一種十分有效的文本特征提取方法,經(jīng)過(guò)本文的優(yōu)化效果得到進(jìn)一步提升。詞袋模型中d 值和k 值對(duì)特征提取效果的影響很大。對(duì)比算法[9]中,詞袋模型中窗口大小d 和字典大小k 均是根據(jù)經(jīng)驗(yàn)值選取的,然而針對(duì)不同的研究對(duì)象以及樣本空間最優(yōu)參數(shù)值都是不同的,隨機(jī)選取或根據(jù)經(jīng)驗(yàn)值選取參數(shù)均會(huì)影響最終預(yù)測(cè)結(jié)果。本文使用PSO_BFA 混合優(yōu)化算法,將最終分類結(jié)果作為粒子適應(yīng)度值,動(dòng)態(tài)求得d 值和k值的最佳組合,從而改進(jìn)詞袋模型的預(yù)測(cè)分類效果。同時(shí),隨著數(shù)據(jù)規(guī)模的增大,發(fā)揮粒子群和細(xì)菌覓食結(jié)合算法的群體智能優(yōu)化性能,在參數(shù)空間中對(duì)窗口大小d和字典大小k 的選取更加合理,能夠找到一組或多組(d,k)使提取的詞袋特征值具有較高的識(shí)別精度。
BOW模型應(yīng)用廣泛,但針對(duì)傳統(tǒng)BOW模型的改進(jìn)工作很少涉及參數(shù)優(yōu)化。本文利用BOW模型的主要參數(shù)窗口大小d 和字典大小k 構(gòu)建參數(shù)搜索空間,將BOW 模型求得最高分類準(zhǔn)確率的過(guò)程,抽象為粒子尋求最高適應(yīng)度值的過(guò)程。充分發(fā)揮PSO_BFA算法的群體智能優(yōu)化的性能,對(duì)(d,k)的選取過(guò)程進(jìn)行優(yōu)化,并將其應(yīng)用到蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究中。經(jīng)PSO_BFA優(yōu)化的BOW模型得到的詞袋特征能在更短的時(shí)間內(nèi)找到相應(yīng)的亞細(xì)胞區(qū)間,數(shù)據(jù)集規(guī)模越大,性能提升越明顯。實(shí)驗(yàn)證明基于PSO_BFA優(yōu)化的詞袋模型應(yīng)用于蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)中能有效提高識(shí)別精度。本文在詞袋模型參數(shù)優(yōu)化方面的研究取得了一些成果,然而詞袋模型忽略了數(shù)據(jù)的位置信息,接下來(lái)將對(duì)位置特征的提取融合進(jìn)行研究,并嘗試在預(yù)測(cè)模型構(gòu)建方面做一些工作,集成學(xué)習(xí)、深度學(xué)習(xí)等方法將是關(guān)注的重點(diǎn)。