亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于間隙模式的并發(fā)序列模式挖掘算法

        2019-07-18 10:45:26楊夢(mèng)濤王翠青陳未如
        關(guān)鍵詞:挖掘出數(shù)據(jù)源間隙

        楊夢(mèng)濤, 王翠青, 陳未如

        (沈陽(yáng)化工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 遼寧 沈陽(yáng) 110142)

        結(jié)構(gòu)關(guān)系模式(Structural Relation Patterns,SRPs)是一種后序列模式挖掘[1]的產(chǎn)物,描述了多個(gè)序列組成的復(fù)雜結(jié)構(gòu)關(guān)系.結(jié)構(gòu)關(guān)系模式挖掘首先研究的是序列模式之間的關(guān)系,然后再把這種關(guān)系進(jìn)一步分解、細(xì)化,整合成一種由并發(fā)、互斥、重復(fù)及串行關(guān)系組成的復(fù)合結(jié)構(gòu)模式[2].例如,結(jié)構(gòu)關(guān)系模式中的并發(fā)序列模式實(shí)現(xiàn)基于Web瀏覽中用來(lái)挖掘用戶(hù)瀏覽記錄里的并發(fā)關(guān)系,根據(jù)用戶(hù)每次瀏覽的喜好,分析客戶(hù)習(xí)慣,實(shí)現(xiàn)基于Web用戶(hù)行為分析、瀏覽興趣的網(wǎng)站設(shè)計(jì)[3].結(jié)構(gòu)關(guān)系模式在蛋白質(zhì)挖掘中也有重要應(yīng)用.傳統(tǒng)的序列模式挖掘只關(guān)注挖掘蛋白質(zhì)序列中頻繁出現(xiàn)的子序列,然而,在蛋白質(zhì)中一個(gè)特殊的功能點(diǎn)往往不是由一個(gè)子序列構(gòu)成,可能是多個(gè)基序共同作用,這種結(jié)構(gòu)關(guān)系隱藏在蛋白質(zhì)序列中.所以,可以在傳統(tǒng)序列模式的基礎(chǔ)上利用結(jié)構(gòu)關(guān)系模式挖掘這些子序列之間的結(jié)構(gòu)關(guān)系,以便高效地提取生物信息和分析蛋白質(zhì)功能組成規(guī)則.王翠青等人提出的ConSP算法是使用支持向量[4]數(shù)據(jù)結(jié)構(gòu)存放這些子序列在蛋白質(zhì)數(shù)據(jù)庫(kù)序列中的匹配情況,并進(jìn)行并發(fā)挖掘.實(shí)際蛋白質(zhì)數(shù)據(jù)集的實(shí)驗(yàn)突顯了ConSP方法在蛋白質(zhì)這種數(shù)據(jù)挖掘中的適用性[5].

        生物信息學(xué)是由統(tǒng)計(jì)學(xué)、生物學(xué)、計(jì)算機(jī)學(xué)等多門(mén)學(xué)科構(gòu)成的一門(mén)交叉復(fù)雜學(xué)科,也是目前生物研究的熱點(diǎn)學(xué)科之一.生物信息學(xué)研究的熱點(diǎn)之一就是生物序列模式挖掘.它對(duì)識(shí)別基因和功能解釋、識(shí)別非編碼區(qū)功能元素以及蛋白質(zhì)序列組成信息的識(shí)別等具有重要的指導(dǎo)意義.在生物序列中挖掘頻繁模式或者挖掘特定模式是其中兩個(gè)重要研究領(lǐng)域.1995年,Agrawal和Srikant給出用于交易序列數(shù)據(jù)庫(kù)的序列頻繁模式挖掘[6]的定義,如Apriori、GSP、PrefixSpan、SPADE等算法.在這些算法基礎(chǔ)上,研究者們?cè)O(shè)計(jì)了多個(gè)針對(duì)生物序列的模式挖掘算法[7].

        在序列模式挖掘中有時(shí)需要有時(shí)間限制約束條件,以保證序列事件或元素之間滿(mǎn)足一定的間隔限制.在蛋白質(zhì)中,通常一個(gè)功能點(diǎn)可能是由多個(gè)蛋白質(zhì)基序共同組成.為了有效地發(fā)現(xiàn)這些基序之間的關(guān)系,Chen-Ming Hsu等人提出WildSpan算法[8].此算法基于Prefixspan算法[9],在此基礎(chǔ)上增加了蛋白質(zhì)氨基酸序列之間的間隙約束.首先挖掘出蛋白質(zhì)序列中帶有固定間隙約束的塊,然后通過(guò)這些塊之間的序列關(guān)系來(lái)挖掘出它們順序出現(xiàn)的W-模式.

        本文首先提出間隙模式、剛隙模式等概念,試圖在通配符間隙約束條件挖掘[10]和One-Off[11]條件的基礎(chǔ)上,將間隙體現(xiàn)在模式挖掘結(jié)果當(dāng)中,并提出了基于間隙模式的并發(fā)序列模式思想和基于剛隙模式的并發(fā)序列模式算法PBcon.與已有的WildSpan算法的W-模式結(jié)果集比較,PBcon算法找到了WildSpan算法未發(fā)現(xiàn)的模式,且PBcon算法的挖掘效率也有優(yōu)勢(shì).

        1 相關(guān)概念

        1.1 并發(fā)關(guān)系、并發(fā)度及并發(fā)序列模式

        并發(fā)關(guān)系、并發(fā)度及并發(fā)序列模式的定義在參考文獻(xiàn)[4]中已有詳細(xì)的描述.

        1.2 間隙模式及剛隙模式

        間隙模式:間隙模式是指序列模式中個(gè)別位置可以是數(shù)據(jù)庫(kù)元素集Σ的任意元素,該位置用通配符x表示,稱(chēng)作間隙.在客戶(hù)序列數(shù)據(jù)庫(kù)中,一個(gè)間隙模式被表示為:

        GP=a1-x(s1,t1)-a2-x(s2,t2)-…-

        x(sn-1,tn-1)-an

        (1)

        式中,ai是元素,x(si,ti)是元素間的間隙,si和ti是間隙個(gè)數(shù)下限和上限,即x(si,ti)表示該位置對(duì)應(yīng)si到ti個(gè)通配符,其中0≤si≤ti.若si

        剛隙模式:剛隙模式是一種特殊的間隙模式,其中只允許存在剛性間隙,表示為

        RGP=a1-x(s1)-a2-x(s2)-…-

        x(sn-1)-an

        (2)

        子間隙模式:從間隙模式p首或尾部刪除若干個(gè)元素得到新的序列s,并保證s兩端不存在通配符區(qū)域,則s仍是一個(gè)間隙模式,稱(chēng)s為間隙模式p的子間隙模式,p為間隙模式s的超間隙模式.

        確型間隙模式、泛型間隙模式:若間隙模式p的通配符區(qū)域x(si,ti)的某個(gè)通配符置換為元素集Σ的某個(gè)確定元素,則可得到一個(gè)新的間隙模式s,稱(chēng)s為p的確型間隙模式,p是s的泛型間隙模式.

        性質(zhì)1 間隙模式與其子間隙模式之間存在支持關(guān)系,即對(duì)于間隙模式s和p,若p∠s有s→p.

        性質(zhì)2 如果一個(gè)間隙模式是頻繁的,則該間隙模式的子間隙模式也必然是頻繁的,該間隙模式的泛型間隙也必然是頻繁的.

        間隙模式支持量:對(duì)于給定的序列數(shù)據(jù)庫(kù)SDB,間隙模式a的支持量BSV(a)定義為一個(gè)長(zhǎng)度為n的二進(jìn)制向量.其中,n是SDB的序列總數(shù)|SDB|;bi=1|0為序列數(shù)據(jù)庫(kù)第i個(gè)序列對(duì)間隙模式a的支持分量BSVi(a),即間隙模式a是否在第i個(gè)序列出現(xiàn).參照序列支持度[8]的概念,間隙模式a的支持度也表示為:

        (3)

        序列的并發(fā)間隙模式和并發(fā)間隙模式集:若序列數(shù)據(jù)庫(kù)的序列s對(duì)于間隙模式GPa和GPb的支持分量BSVs(GPa)=BSVs(GPb)=1,則GPa和GPb在該序列中滿(mǎn)足并發(fā)關(guān)系.一般地,所有被序列s所支持的間隙模式c1,c2,…,cm在該序列中滿(mǎn)足并發(fā)關(guān)系,稱(chēng)它們?yōu)樵谛蛄衧上的并發(fā)間隙模式,表示為[c1+c2+…+cm]s,構(gòu)成序列s上的并發(fā)間隙模式集{c1,c2,…,cm}.

        2 PBcon算法分析

        參考了文獻(xiàn)[4]中并發(fā)全集和最大并發(fā)集的概念,本算法應(yīng)用了間隙模式集、間隙模式最大集、并發(fā)間隙模式最大集等概念,這里不再詳細(xì)闡述.

        輸入:序列數(shù)據(jù)源SDB,最小并發(fā)度mincon.

        輸出:并發(fā)間隙模式最大集MCGP.

        算法:

        (1) 在SDB上以mincon為最小支持度挖掘間隙模式,得到間隙模式最大集SetOfGP,并計(jì)算其中每個(gè)間隙模式的支持量BSV;

        (2) 令CGP=null,CGPK=SetOfGP=null,k=0;

        (3) do

        NewSet=null;

        k++;

        for each c of CGPK

        for each s of CGPK

        if(c和s有k-1條相同的分支

        且concurrence()≥mincon

        不構(gòu)成平凡并發(fā)關(guān)系)

        構(gòu)成新的k+1分支并發(fā)間隙模式ncgp;

        令NewSet=NewSetU{ncgp} 并標(biāo)識(shí)c和s為子模式;

        CGPK=NewSet;

        CGP=CGPUCGPK;

        While(NewSet is not null);

        (4) CGP即為并發(fā)間隙模式全集,刪除其中的所有被標(biāo)識(shí)為子模式的元素,得到最大集MCGP.

        (5) 在生成并發(fā)間隙模式的過(guò)程中,生成的并發(fā)間隙模式的數(shù)量會(huì)隨著制定的mincon的遞增而遞減.

        3 蛋白質(zhì)序列并發(fā)間隙模式挖掘?qū)嶒?yàn)

        為驗(yàn)證PBcon算法的有效性和可行性,嘗試在蛋白質(zhì)序列上挖掘并發(fā)間隙模式.WildSpan算法首先挖掘出帶有固定間隙的塊集,塊集的性質(zhì)正好滿(mǎn)足剛隙模式集的定義.因此,先用WildSpan挖掘出帶有固定間隙約束的由蛋白質(zhì)組成氨基酸為元素的塊集(剛隙模式集)SetOfGP,進(jìn)行基于蛋白質(zhì)剛隙模式的并發(fā)序列模式挖掘,實(shí)現(xiàn)PBcon算法.需要指出的是,這里僅是使用WildSpan算法的中間結(jié)果作為進(jìn)一步挖掘基礎(chǔ)的剛隙模式集,而剛隙模式集的挖掘方法并不只限于使用WildSpan算法.

        3.1 數(shù)據(jù)準(zhǔn)備

        實(shí)驗(yàn)數(shù)據(jù)是從蛋白質(zhì)功能位點(diǎn)數(shù)據(jù)庫(kù)下載的蛋白質(zhì)序列的文件.一條蛋白質(zhì)序列是由A、

        C、D、E、F、G、H、I、K、L、M、N、P、Q、R、S、T、V、W、Y 20個(gè)字符的字母表元素組成的線性序列,其中蛋白質(zhì)序列是用PORSITE語(yǔ)言描述的fasta格式,一個(gè)文件包含多個(gè)fasta格式的蛋白質(zhì)序列.

        3.2 實(shí)驗(yàn)過(guò)程與分析

        在CODEBLOCK軟件上用C++實(shí)現(xiàn)了PBCon算法,并在內(nèi)存為2G、CPU為2.40 GHz的Windows2007操作系統(tǒng)的環(huán)境上進(jìn)行了蛋白質(zhì)序列分析測(cè)試.

        首先用WildSpan算法在數(shù)據(jù)源PS00627.fasta上生成包含99個(gè)剛隙模式的候選1-剛隙模式集,生成剛隙模式時(shí)minsup=48.86 %;然后用PBcon算法對(duì)其分別進(jìn)行挖掘?qū)嶒?yàn).

        圖1表示數(shù)據(jù)源PS00627.fasta用PBcon算法在不同并發(fā)度下并發(fā)間隙模式全集中的2、3、4、5分支并發(fā)的間隙模式個(gè)數(shù).由圖1可知:并發(fā)間隙模式集數(shù)隨最小并發(fā)度mincon的增加而減少,表明并發(fā)度越大,所能挖掘的并發(fā)間隙模式的模式數(shù)量越少,基本呈遞減趨勢(shì),與理論分析相符.

        圖1 數(shù)據(jù)源PS00627.fasta并發(fā)間隙模式變化曲線

        圖2是數(shù)據(jù)源PS00627.fasta用WildSpan算法挖掘W-模式的變化曲線.由圖2可知:W-模式的挖掘結(jié)果隨minsup的變化而變化,但是只在minsup=51.14 %時(shí)挖掘出一個(gè)W-模式.

        圖2 數(shù)據(jù)源PS00627.fasta W-模式變化曲線

        圖3是數(shù)據(jù)源PS00627.fasta用PBcon算法挖掘并發(fā)間隙模式集所需要的運(yùn)行時(shí)間曲線.該曲線表明:隨著并發(fā)度的增加,挖掘所需要的時(shí)間減少.這與隨并發(fā)度的增加而產(chǎn)生的并發(fā)間隙模式集數(shù)減少有關(guān).

        圖3 數(shù)據(jù)源PS00627.fasta運(yùn)行時(shí)間變化曲線

        表1是數(shù)據(jù)源PS00627.fasta用WildSpan算法和PBcon算法生成的W-模式和并發(fā)間隙模式集的對(duì)比.

        表1 PBcon算法和WildSpan結(jié)果對(duì)比

        在對(duì)PS00627.fasta的挖掘結(jié)果中,WildSpan僅在minsup=51.14 %時(shí)挖掘出1個(gè)W-模式P-x(3)-G-L-x(1,3)-S-S-A-x(146,267)-G-A-G;在PBcon算法挖掘中,當(dāng)mincon=55.00 %時(shí),挖掘出P-x(3)-G-L(137,142)S-S-A(144,146)G-x(2)-S-S(218,222)G-L-x-S(325,328)G-A-G(332,334),上述W-模式被包含其中.除此以外,PBcon算法在mincon=90.00 %時(shí)挖掘出1個(gè)2-分枝的并發(fā)間隙模式和一個(gè)3-分枝的并發(fā)間隙模式,說(shuō)明它們之間的并發(fā)度很高,值得生物學(xué)家分析其中的可能信息.PBcon算法在mincon=80.00 %~50.00 %時(shí)均能挖掘出更多的多分枝并發(fā)間隙模式.

        4 結(jié) 語(yǔ)

        并發(fā)性是研究序列結(jié)構(gòu)關(guān)系的重要特性.本研究將并發(fā)序列模式挖掘和間隙模式應(yīng)用于蛋白質(zhì)基序的結(jié)構(gòu)關(guān)系挖掘.相比較WildSpan算法,PBcon算法可以找到更多的有意義的并發(fā)間隙模式.這有助于在蛋白質(zhì)序列的組成中找到更多隱藏在結(jié)構(gòu)之間的關(guān)系,可將其應(yīng)用在預(yù)測(cè)蛋白質(zhì)功能點(diǎn)的組合分析中.同時(shí),PBcon算法與現(xiàn)有算法相比效率更高.今后將致力于找到更加優(yōu)化的算法,提高效率,把并發(fā)序列模式應(yīng)用到更多的類(lèi)似蛋白質(zhì)序列的序列分析數(shù)據(jù)中.

        猜你喜歡
        挖掘出數(shù)據(jù)源間隙
        間隙
        飛行過(guò)載及安裝間隙對(duì)主安裝節(jié)推力測(cè)量的影響
        緊流形上的Schr?dinger算子的譜間隙估計(jì)
        從唱片里面挖掘出更多的細(xì)節(jié) Thorens多能士| TD 905黑膠唱盤(pán)
        三次實(shí)地采訪,挖掘出暖新聞背后的超暖細(xì)節(jié)
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        感悟生活,拓展思維空間
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        淺談保護(hù)間隙的利弊與應(yīng)用
        廣西電力(2016年4期)2016-07-10 10:23:38
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        国产丝袜美腿在线播放| 欧美精品久久久久久久自慰| 国产乱人视频在线播放| 特级a欧美做爰片第一次| 377p日本欧洲亚洲大胆张筱雨 | 国产av人人夜夜澡人人爽麻豆| 毛片大全真人在线| 久久精品国产91久久性色tv| 久久综合亚洲色hezyo国产| 免费人妻无码不卡中文字幕系| 亚洲国产韩国欧美在线| 欧美成人精品一区二区综合| 亚洲精品成人片在线观看| 2021精品国产综合久久| 亚洲色偷偷综合亚洲AVYP| 国产极品喷水视频| 中文字幕一区二区三区在线视频| 日韩精品极品在线观看视频| 国产精品第一区亚洲精品| 久久精品av在线视频| 一区二区三区视频亚洲| 精品国产精品久久一区免费式| 国产人妻鲁鲁一区二区| 亚洲av无码乱码在线观看富二代| 在线亚洲欧美日韩精品专区| 天堂网www在线资源| 亚洲成在人网av天堂| 久久精品国产亚洲av麻豆四虎 | av无码久久久久久不卡网站| 国产精品女丝袜白丝袜| 国产愉拍91九色国产愉拍| 噜噜中文字幕一区二区| 欧美疯狂性受xxxxx喷水| 看全色黄大色黄大片 视频| 免费1级做爰片1000部视频| 激情内射亚州一区二区三区爱妻| 男女扒开双腿猛进入免费看污| 中文字幕天天躁日日躁狠狠 | 国产精品国产成人国产三级| 亚洲电影一区二区三区| 操B小视频国产|