亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不確定圖上Top-k最大影響力邊查詢(xún)算法

        2018-11-20 06:40:24黃金晶劉光富
        計(jì)算機(jī)工程 2018年11期
        關(guān)鍵詞:條邊標(biāo)號(hào)頂點(diǎn)

        胡 陽(yáng),黃金晶,2,劉光富,趙 雷

        (1.蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006; 2.蘇州工業(yè)職業(yè)技術(shù)學(xué)院 軟件與服務(wù)外包學(xué)院,江蘇 蘇州 215104)

        0 概述

        在科研和實(shí)際應(yīng)用領(lǐng)域中,圖數(shù)據(jù)模型的研究工作已較為成熟。然而,隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增長(zhǎng)以及數(shù)據(jù)處理技術(shù)的改進(jìn),人們對(duì)數(shù)據(jù)的準(zhǔn)確性要求也在不斷提高,需要考慮到采集數(shù)據(jù)時(shí)出現(xiàn)的噪音數(shù)據(jù)和錯(cuò)誤[1]處理結(jié)果。因此,對(duì)圖數(shù)據(jù)的研究也從確定性數(shù)據(jù)擴(kuò)展到不確定性數(shù)據(jù)。由于很多傳統(tǒng)的確定圖算法無(wú)法有效地應(yīng)用于這類(lèi)新型數(shù)據(jù)模型,因此不確定圖[2-4]研究領(lǐng)域也就應(yīng)運(yùn)而生。就不確定性數(shù)據(jù)而言,由于不確定圖邊上特有的存在概率屬性,使得問(wèn)題定義、處理過(guò)程及結(jié)果信息都有所差異,不確定圖已經(jīng)成為近年來(lái)圖領(lǐng)域研究的熱點(diǎn)問(wèn)題。許多現(xiàn)實(shí)應(yīng)用中的數(shù)據(jù)都可以抽象地表示成不確定圖,如蛋白質(zhì)互連網(wǎng)絡(luò)[5-6]中的噪音數(shù)據(jù)和實(shí)驗(yàn)結(jié)果的誤差、通信網(wǎng)絡(luò)[7]中的傳播擁塞和異常中斷以及社交網(wǎng)絡(luò)[8-9]中影響力的傳播過(guò)程等。

        最大影響力邊是指能夠很大程度上影響圖結(jié)構(gòu)的那些邊,此處圖結(jié)構(gòu)包括平均距離、度分布、圖連通性、聚集系數(shù)等。最大影響力邊的數(shù)量一般非常少,但是其影響力卻可以快速地波及到圖中大部分頂點(diǎn)和邊[10]。因此,查詢(xún)不確定圖上邊的影響力是一項(xiàng)有意義的研究工作。該問(wèn)題在現(xiàn)實(shí)中同樣也有著廣泛的應(yīng)用場(chǎng)景。例如在生物網(wǎng)絡(luò)中,用頂點(diǎn)表示蛋白質(zhì)分子,邊表示蛋白質(zhì)之間的關(guān)系,但是實(shí)驗(yàn)中得到的數(shù)據(jù)可能出現(xiàn)的誤差和錯(cuò)誤會(huì)導(dǎo)致蛋白質(zhì)之間關(guān)系產(chǎn)生不確定性。通過(guò)在邊上賦概率值表示關(guān)系的重要程度,查詢(xún)出最大影響力的k條邊,能快速找到影響蛋白質(zhì)互連關(guān)系的重要的邊集。

        本文研究不確定圖上Top-k最大影響力邊查詢(xún)問(wèn)題,建立一個(gè)基于平均距離差評(píng)價(jià)邊影響力的計(jì)算模型。由于在圖中計(jì)算任意頂點(diǎn)對(duì)之間最短路徑距離時(shí),無(wú)向無(wú)權(quán)圖采用的廣度優(yōu)先搜索(Breadth-First Search,BFS)方法時(shí)間復(fù)雜度是O(|V|2),直接運(yùn)用到圖的距離差計(jì)算非常耗時(shí),因此,本文基于簡(jiǎn)單隨機(jī)邊抽樣算法(REB)和Forest Fire抽樣[11-12]算法(FFB)設(shè)計(jì)Top-k最大影響力邊查詢(xún)基礎(chǔ)算法。首先給出不確定圖上Top-k最大影響力邊查詢(xún)問(wèn)題及其形式化定義;然后采用抽樣技術(shù)簡(jiǎn)化窮舉可能圖的處理過(guò)程;最后建立基于平均距離的邊影響力評(píng)價(jià)模型并優(yōu)化過(guò)程,以進(jìn)一步提高算法的執(zhí)行效率。

        1 相關(guān)工作

        近年來(lái),不確定圖問(wèn)題得到了較多的關(guān)注。現(xiàn)有不確定圖的研究集中在3條主流觀點(diǎn)上:

        1)不確定圖上的挖掘問(wèn)題[13],特別是頻繁子圖挖掘[14-15]、子圖模式匹配[16]或高可靠性子圖挖掘[17]以及聚類(lèi)分析[9,18]。

        2)不確定圖上的查詢(xún)問(wèn)題,主要體現(xiàn)在兩方面:第一方面是基于距離的查詢(xún)[2-4,19-20],文獻(xiàn)[2]采用最短路徑距離方法去查找給定頂點(diǎn)的k個(gè)最近鄰居點(diǎn)集,文獻(xiàn)[3]研究基于距離約束的可達(dá)性問(wèn)題,判斷不確定圖中給定兩點(diǎn)是否滿(mǎn)足可達(dá)性的要求,并且滿(mǎn)足一個(gè)給定的距離閾值;另一方面是子圖查詢(xún)問(wèn)題[5,17,21],文獻(xiàn)[5]采用一種最優(yōu)化策略去查找不確定圖中的基于概率閾值的子圖,此外,文獻(xiàn)[21]還研究子圖相似度的問(wèn)題。

        3)針對(duì)不確定圖蘊(yùn)含的指數(shù)級(jí)個(gè)數(shù)的可能圖,且為了滿(mǎn)足特定問(wèn)題的需要,研究者利用圖抽樣方法避免窮舉所有可能圖基本的方法是基于蒙特卡洛抽樣法[3,22],并應(yīng)用到相關(guān)不確定圖問(wèn)題的研究中。文獻(xiàn)[23]提出基于分層抽樣的統(tǒng)計(jì)量來(lái)估計(jì)查詢(xún)結(jié)果,同時(shí)用實(shí)驗(yàn)證明了準(zhǔn)確性和效率要優(yōu)于蒙特卡洛抽樣法。文獻(xiàn)[24]提出從不確定圖中抽取一個(gè)具有代表性可能世界圖的算法,令該樣本圖保留了原圖大部分有用性質(zhì),并驗(yàn)證其有效性。然而,目前不確定圖上邊查詢(xún)的研究不多,其中文獻(xiàn)[25]從流量和流量可靠性的觀點(diǎn)出發(fā),研究不確定圖上關(guān)鍵邊的查詢(xún)。

        邊影響力計(jì)算問(wèn)題是近年來(lái)研究的一個(gè)熱點(diǎn)方向。文獻(xiàn)[26]研究邊刪除后對(duì)頂點(diǎn)之間可達(dá)性的影響,定義了圖上邊的影響力并且提出刪除邊后更新圖編號(hào)索引的方法,用于計(jì)算圖中任意邊的影響力大小。本文把從不確定圖的樣本圖中刪除候選邊后對(duì)平均最短距離的差值作為該邊的影響力大小來(lái)建立計(jì)算模型。

        目前基于不確定圖上查詢(xún)的研究也已經(jīng)有了很多成果,現(xiàn)有的方法主要是隨機(jī)算法,采用抽樣的技術(shù)估計(jì)邊影響力概率,其中最直觀也是最簡(jiǎn)單的抽樣技術(shù)是對(duì)不確定圖的每條邊等概率地進(jìn)行抽樣。文獻(xiàn)[3]從估計(jì)結(jié)果的準(zhǔn)確性和效率方面對(duì)4種隨機(jī)抽樣技術(shù)進(jìn)行對(duì)比,得到結(jié)論是這種算法優(yōu)點(diǎn)是簡(jiǎn)單,但需要確定每一條邊的存在性,另外通過(guò)基本的抽樣估計(jì)的方差較大。

        目前在不確定圖的研究方面較少有針對(duì)Top-k最大影響力邊查詢(xún)的算法。為此,本文綜合考慮不確定圖的概率模型與邊影響力的特點(diǎn),提出在不確定圖上進(jìn)行Top-k最大影響力邊查詢(xún)的有效算法。

        2 問(wèn)題定義與形式化

        2.1 不確定圖

        定義1(不確定圖) 一個(gè)不確定圖的無(wú)向圖可以表示為一個(gè)三元組g=(V,E,Pr),其中,V是g頂點(diǎn)的集合,E是邊的集合,Pr:E→(0,1]是邊上的概率函數(shù),表明該邊存在的概率,本文約定不確定圖上邊之間的存在性是相互獨(dú)立的。

        由于不確定圖邊的存在與否是不確定的,因此一個(gè)不確定圖實(shí)際上對(duì)應(yīng)著很多邊概率為1的確定圖,即上文提到的可能世界語(yǔ)義模型。在可能世界語(yǔ)義模型下,一個(gè)不確定圖可以派生出一組確定圖G=(V’,E’),記為g?G,此確定圖稱(chēng)為可能世界圖,也稱(chēng)可能圖,滿(mǎn)足V’=V,E’?E。那么根據(jù)邊上的存在概率以及不同邊是相互獨(dú)立的理論,即可得到可能圖的概率為:

        (1)

        設(shè)Pws(g)為不確定圖g的所有可能世界集合,顯然Pws(g)的大小為2|E|。

        定義2(邊影響力) 邊影響力的研究是近年來(lái)剛興起的一個(gè)研究方向,文獻(xiàn)[27]提出邊影響力的定義:每次在圖中刪除一條邊之后,導(dǎo)致兩點(diǎn)之間可達(dá)性改變的頂點(diǎn)對(duì)個(gè)數(shù)(即兩點(diǎn)之間不可達(dá))作為該邊對(duì)圖可達(dá)性的影響力?;诖?本文給出了邊影響力的定義。通過(guò)刪除每一條邊e,把刪除前后圖的平均最短距離的差值作為該邊影響力大小的衡量標(biāo)準(zhǔn),記作Imp(e)。

        定義3(不確定圖的邊影響力概率) 給定一個(gè)不確定圖g和一條邊e,求出所有e所存在的可能圖的影響力概率之和。對(duì)于一個(gè)可能圖G?g,本文定義一個(gè)符號(hào)函數(shù)如下:

        (2)

        則不確定圖中e的影響力概率可以表示為式(3)。

        (3)

        已知可能圖的數(shù)量是邊數(shù)量的指數(shù)量級(jí),精確計(jì)算每一個(gè)可能圖距離差值的邊影響力是#P-完全問(wèn)題,即使是中等大小規(guī)模的圖也是很難在多項(xiàng)式時(shí)間內(nèi)求解的。因此,本文利用隨機(jī)化方法處理該類(lèi)查詢(xún)問(wèn)題。

        2.2 問(wèn)題定義

        本文所提出問(wèn)題的定義如下:

        定義4(不確定圖上Top-k最大影響力邊查詢(xún))給定一個(gè)不確定圖g=(V,E,Pr)和一個(gè)很小的正整數(shù)k,尋找一個(gè)k大小的邊集EImp,對(duì)任意e∈EImp,能最大化e的影響力概率Rg(e)表示如下:

        (4)

        其中,|EImp|=k。

        3 Top-k最大影響力邊查詢(xún)基礎(chǔ)算法

        在不確定圖上查詢(xún)出最大影響力的邊具有非常廣泛的應(yīng)用場(chǎng)景。例如在社交網(wǎng)絡(luò)中,用戶(hù)之間一般通過(guò)最短路徑來(lái)傳遞信息。本文利用用戶(hù)之間的親密度來(lái)刻畫(huà)關(guān)系的不確定性。假設(shè)2個(gè)用戶(hù)之間親密度為0時(shí),原先經(jīng)過(guò)這2個(gè)用戶(hù)傳遞消息的路徑將會(huì)改變,或許需要尋找一條更長(zhǎng)的最短路徑進(jìn)行傳遞消息,或許消息完全不能傳遞。因此,網(wǎng)絡(luò)中一定存在一些影響力非常大的邊,它們一旦不存在,將對(duì)整個(gè)網(wǎng)絡(luò)的信息傳遞造成很大影響,如果查詢(xún)出網(wǎng)絡(luò)中最大影響力的k條邊加以保護(hù),則可使整個(gè)網(wǎng)絡(luò)的信息流通性更健壯。

        按照上節(jié)給出的邊影響力定義,本文基于最短路徑距離算法并采用抽樣技術(shù)設(shè)計(jì)Top-k最大影響力邊查詢(xún)算法。首先給出一個(gè)基準(zhǔn)方法,其采用每次刪除任意一條邊計(jì)算圖的平均距離差值來(lái)精確計(jì)算該圖中每一條邊的影響力概率Rg(e)。由于基準(zhǔn)算法肯定存在時(shí)間指數(shù)爆炸的缺點(diǎn),無(wú)法在多項(xiàng)式時(shí)間內(nèi)求解,因此給出2個(gè)對(duì)基準(zhǔn)算法的近似算法(REB和FFB)來(lái)估計(jì)概率Rg(e),進(jìn)而解決邊影響力的Top-k查詢(xún)問(wèn)題。

        3.1 REB算法

        本文的基準(zhǔn)算法在計(jì)算e這條邊的邊影響力概率Rg(e)時(shí)通過(guò)枚舉e存在的所有可能圖來(lái)計(jì)算,引發(fā)了圖數(shù)量的指數(shù)爆炸。因此,本文不再按照基準(zhǔn)方法去精確計(jì)算每條邊的影響力概率,而是采用獨(dú)立、隨機(jī)地N次采樣不確定圖空間,只需要對(duì)g中每條邊按照其存在概率進(jìn)行采樣即可得到一個(gè)樣本圖。然后在采樣得到每個(gè)樣本圖上計(jì)算e的影響力大小Imp(e)。

        利用REB算法在樣本圖中近似計(jì)算邊影響力概率時(shí),從候選邊集Ce中依次取出每條邊e及其被影響頂點(diǎn)對(duì)的集合Impnodepairs(e),調(diào)用e.Update()函數(shù)更新e被刪除之后所有點(diǎn)對(duì)的當(dāng)前最短距離。

        利用REB算法計(jì)算邊e影響力概率近似值的偽代碼如算法1所示。首先輸入一個(gè)不確定圖g,每次等概率地從g中抽取一條邊e。然后判斷e上的存在概率是否大于一個(gè)隨機(jī)值,若滿(mǎn)足,加入到樣本圖中;否則,繼續(xù)上述操作。對(duì)樣本圖中的候選邊計(jì)算其影響力概率并求和,輸出每條邊的影響力概率。

        算法1隨機(jī)抽樣邊影響力算法REB

        輸入不確定圖g,邊候選集合Ce,邊e∈Ce,參數(shù)k<|Ce|,樣本數(shù)N

        輸出邊影響力概率集合R

        1.Ce=?;//初始化邊候選集合

        有研究證實(shí)乳腺癌組織中基質(zhì)金屬蛋白酶2(MMP‐2)和VEGF的表達(dá)較正常乳腺組織增高,癌細(xì)胞降解細(xì)胞外基質(zhì)、促進(jìn)上皮間質(zhì)化、激活生長(zhǎng)因子及受體、促進(jìn)血管生成、增加血管通透性等能力較強(qiáng),而這些與腫瘤生長(zhǎng)、侵襲及轉(zhuǎn)移密切相關(guān)。范盼紅等[28]用染料木黃酮處理乳腺癌MDA‐MB‐231細(xì)胞,可觀察到染料木黃酮能顯著降低細(xì)胞的體外侵襲和遷移能力,進(jìn)一步研究結(jié)果顯示染料木黃酮可能通過(guò)抑制MMP‐2和VEGF的表達(dá),降低乳腺癌細(xì)胞侵襲和遷移能力。

        3.若一次BFS中訪(fǎng)問(wèn)到一次以上距離相等的頂點(diǎn)對(duì),將路徑上共用邊加入到Ce;

        4.按e∈Ce生成被影響頂點(diǎn)對(duì)集合 Impnodepairs(e)={(u1,v1),(u2,v2),…,(ut,vt)};

        5.Samptimes=0;

        6.g中所有的邊組成一個(gè)向量edges=(e1,e2,…,em);

        7.while(Samptimes≤N);

        8.產(chǎn)生(0,1]之間的均勻隨機(jī)數(shù)r1,r2,…,rm;

        9.while(ri

        10.Sampedges.push(ei);//產(chǎn)生一個(gè)樣本圖

        11.end while

        13.Pri=1;

        14.While(j

        15.if(edges[j] = 1)

        16.Pri=Pri·pr(ej);

        17.else

        18.Pri=Pri·(1-pr(ej));

        19.end if

        20.end while

        21.for each e∈Ce do

        22.Imp(e)=e.Update(Impnodepairs(e))-e.distance;

        23.R(e)=R(e)+Imp(e)·Pri;

        24.end for

        25.end for

        26.end while

        27.Sort(e1,e2,…,e|Ce|);

        28.R={e1,e2,…,ek};

        29.return R;

        3.2 FFB算法

        基于邊選擇的抽樣策略具有一定的隨機(jī)性,使用其并不能很好地保證結(jié)果的準(zhǔn)確性。因此,本文提出使用效果更好的“Forest Fire”采樣法(以下簡(jiǎn)稱(chēng)FFS算法),文獻(xiàn)[12]表明,FFS法在各種圖抽樣算法中是最優(yōu)的,采用該方法所獲得的樣本圖能夠很好的保留原圖的各種參數(shù)特性,如平均度、冪律指數(shù)和聚集系數(shù)。因此,本文采用FFS算法來(lái)對(duì)不確定圖進(jìn)行抽樣處理。

        在FFS算法中,首先隨機(jī)選擇一個(gè)頂點(diǎn)v,然后生成一個(gè)隨機(jī)數(shù)x且滿(mǎn)足均值為pf(1-pf) 的幾何分布,v選擇x條出邊沒(méi)有訪(fǎng)問(wèn)過(guò)的鄰居頂點(diǎn),使w1,w2,…,wx表示為所選擇邊的另一個(gè)端點(diǎn),這些頂點(diǎn)獲得一個(gè)機(jī)會(huì)去“燃燒”它的出邊,重復(fù)迭代上述過(guò)程直到滿(mǎn)足抽樣條件為止。在此過(guò)程中,頂點(diǎn)不可以被訪(fǎng)問(wèn)2次,這樣保證避免在構(gòu)造過(guò)程中出現(xiàn)環(huán)路。但是如果“燃燒”過(guò)程被“熄滅”(即沒(méi)有頂點(diǎn)可以繼續(xù)“燃燒”出邊),將重新隨機(jī)選擇一個(gè)頂點(diǎn)開(kāi)始上述過(guò)程。本文把參數(shù)pf稱(chēng)作前向燃燒概率。

        FFB算法其實(shí)是在算法1基礎(chǔ)上替換隨機(jī)邊抽樣過(guò)程為FFS法,因此,下文只給出FFS算法的偽代碼,如算法2所示。輸入一個(gè)不確定圖g,根據(jù)上述“燃燒”過(guò)程,輸出一個(gè)可能世界里的樣本圖G。

        算法2FFS算法

        輸入不確定圖g,前向燃燒概率pf,樣本圖邊數(shù)sampedgecount

        輸出樣本圖G

        1.Stack S=?;

        2.while(G.Edges.Count

        3.隨機(jī)選擇一個(gè)開(kāi)始頂點(diǎn)start;

        4.S.push(start);

        5.while(S.size)

        6.v=S.pop();

        7.v點(diǎn)未訪(fǎng)問(wèn)出邊放入集合outEdges={oe1,oe2,…,oex}中;

        8.for each oei∈outEdges do

        9.if(random≥pf)

        10.break;

        11.oej是從oei之后的一條隨機(jī)出邊;

        12.將oej和oei交換位置;

        13.G.Vertices.push(oei.destVertex);

        14.G.Edges.push(oei);

        15.S.push(oei.destVertex);

        16.end for

        17.end while

        18.end while

        19.return G;

        3.3 復(fù)雜度與算法局限性分析

        精確計(jì)算不確定圖上邊影響力概率是窮舉所有可能圖,然后計(jì)算每個(gè)可能圖上|E|條邊的影響力大小,整個(gè)算法運(yùn)行時(shí)間是O(2|E|·|E|·|V|2),顯然是多項(xiàng)式時(shí)間不可解。因此,只能采用近似算法盡可能快速、準(zhǔn)確地找出k條影響力最大的邊。

        4 Top-k最大影響力邊查詢(xún)優(yōu)化算法

        本節(jié)主要介紹在樣本圖中對(duì)BFS過(guò)程的優(yōu)化算法,由于該算法對(duì)2種抽樣得到樣本圖都適應(yīng),因此分別將其命名為REPB算法和FFPB算法,但是下文主要介紹優(yōu)化BFS的過(guò)程。

        上文分析了計(jì)算主要時(shí)間代價(jià)是距離差值的過(guò)程,計(jì)算距離時(shí)每一次查詢(xún)使用BFS或者Dijkstra’s算法效率較低。為減少計(jì)算距離的時(shí)間消耗,本文借鑒文獻(xiàn)[27]提出的剪枝BFS思想,采用PB(Pruned BFS)算法達(dá)到加速查詢(xún)邊影響力的目的。

        PB算法是基于2-hop覆蓋理論精確計(jì)算兩點(diǎn)之間距離的算法,算法開(kāi)始按照頂點(diǎn)標(biāo)號(hào)從小到大的順序開(kāi)始每輪BFS,并記錄起點(diǎn)到其他頂點(diǎn)的標(biāo)號(hào)集合,設(shè)起點(diǎn)是vφ第φ次BFS的起點(diǎn),標(biāo)號(hào)集合記為L(zhǎng)φ={Lφ(u1),Lφ(u2),…,Lφ(un)}。假設(shè)當(dāng)前訪(fǎng)問(wèn)u的距離為δ,如果Query(vφ,u,Lφ-1)≤δ,將剪枝u,即不再訪(fǎng)問(wèn)從u出發(fā)的任何鄰居;否則更新標(biāo)號(hào)集合Lφ(u)=Lφ-1(u)∪{(vφ,δ)}。PB算法的剪枝效果取決于頂點(diǎn)標(biāo)號(hào)的順序。文獻(xiàn)[28]證明了按照頂點(diǎn)度數(shù)或頂點(diǎn)中心性排序編號(hào)得到的剪枝效果要好于隨機(jī)編號(hào),所以,筆者在實(shí)驗(yàn)中先對(duì)原圖頂點(diǎn)度數(shù)排序,然后重新對(duì)頂點(diǎn)標(biāo)號(hào)編號(hào)。

        REPB算法和FFPB算法提高效率的原理是刪除邊之后不需要再重新構(gòu)建標(biāo)號(hào)集合,而只需對(duì)標(biāo)號(hào)集合中被影響到的標(biāo)號(hào)點(diǎn)對(duì)進(jìn)行距離的更新,而未被影響的標(biāo)號(hào)集合不改變。PB算法及其更新標(biāo)號(hào)集合算法UpdateLabelsSet的偽代碼分別如算法3和算法4所示。

        算法3PB算法

        輸入樣本圖G

        輸出標(biāo)號(hào)集合L

        1.初始化標(biāo)號(hào)集合L0[v]=?,v∈V(G);

        2.for each φ=1,2,…,|V(G)| do

        3.Lφ=PrunedBFS(G,vφ,Lφ-1);

        4.end for

        5.PrunedBFS(G,vφ,Lφ-1)//剪枝BFS主要過(guò)程

        6.Queue Q={vφ};

        7.P[vφ]=0;P[v]=∞,v∈V(G){vφ};

        8.Lφ[v]=Lφ-1[v],v∈V(G);

        9.while Q非空 do

        10.u=Q.front;

        11.if(Query(vφ,u,Lφ-1)≤P[u])

        12.continue;

        13.Lφ[u]=Lφ-1[u]∪{(vφ,P[vφ])};

        14.for each w∈NG(v) s.t.P[w]=∞do

        15.P[w]=P[u]+1;

        16.Q.push(w);

        17.end for

        18.end while

        19.L=L0∪L1∪…∪Lφ;

        20.return L;

        算法4UpdateLabelsSet算法

        輸入樣本圖G,被影響標(biāo)號(hào)點(diǎn)對(duì)集合ImpLabSet,刪除點(diǎn)對(duì)(u,v),標(biāo)號(hào)集合L

        輸出更新標(biāo)號(hào)集合L’

        1.從u出發(fā)尋找一條大于1的最短路徑到達(dá)v,并記距離為dist’(u,v),更新L[v]=(u, dist' (u,v));

        2.for each (lu,lv)∈ImpLabSet do

        3.Queue Q=?;

        4.Q.push(lu);

        5.while Q非空 do

        6.u=Q.front;

        7.Lk[u]=Lk-1[u]∪{vk,P[vk]};

        8.for each w∈Ng(v) s.t.P[w]=∞do

        9.P[w]=P[u]+1;

        10.Q.push(w);

        11.end for

        12.end while

        13.end for

        14.return G;

        5 實(shí)驗(yàn)與結(jié)果分析

        為了驗(yàn)證算法的執(zhí)行效率、不同數(shù)據(jù)規(guī)模對(duì)算法的影響以及隨機(jī)算法所獲結(jié)果的準(zhǔn)確性,本文采用真實(shí)和模擬的不確定圖數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。所有算法都在STL庫(kù)下用C++實(shí)現(xiàn),用于實(shí)驗(yàn)的是一臺(tái)Inter Core(TM)i5-3470 CPU @3.2 GHz內(nèi)存8 GB 64位Window7系統(tǒng)的PC機(jī)。

        對(duì)比算法包含:1)隨機(jī)邊抽樣的邊影響力估計(jì)算法REB;2)“Forest Fire”抽樣的邊影響力估計(jì)算法FFB;3)剪枝BFS策略的隨機(jī)邊抽樣法REPB;4)剪枝BFS策略的“Forest Fire”抽樣法REPB。

        下面介紹實(shí)驗(yàn)考察的集中測(cè)度,本文從準(zhǔn)確性和效率兩方面對(duì)4種算法作對(duì)比,其中REB和FFB這兩種不同抽樣技術(shù)用Top-k最大影響力邊的排名結(jié)果的相似度α來(lái)衡量,效率用各個(gè)算法的運(yùn)行時(shí)間來(lái)衡量。

        因?yàn)椴淮_定圖邊影響力算法獲取的是邊影響力大小的排序,所以分別從算法獲取的排名情況比較近似方法和基準(zhǔn)方法的準(zhǔn)確性。具體操作是計(jì)算基準(zhǔn)算法的排序結(jié)果和近似結(jié)果的平均歐幾里得距離α,表示如下:

        (5)

        實(shí)驗(yàn)數(shù)據(jù)集包括真實(shí)數(shù)據(jù)集和模擬數(shù)據(jù)集:

        1)真實(shí)數(shù)據(jù)集:實(shí)驗(yàn)中采用歐洲分子生物學(xué)實(shí)驗(yàn)室string(http://string-db.org)提供的真實(shí)不確定圖數(shù)據(jù)。數(shù)據(jù)集是一個(gè)蛋白質(zhì)網(wǎng)絡(luò),其中,頂點(diǎn)代表蛋白質(zhì),具有確定性,邊代表不同蛋白質(zhì)之間存在相互作用的概率,通過(guò)生物實(shí)驗(yàn)加以測(cè)定。整個(gè)網(wǎng)絡(luò)包括6 865個(gè)頂點(diǎn)和70 288條邊。實(shí)驗(yàn)對(duì)此數(shù)據(jù)集抽取了1 675個(gè)頂點(diǎn)和4 693條邊,避免數(shù)據(jù)集過(guò)大導(dǎo)致時(shí)間爆炸增長(zhǎng)。

        2)模擬數(shù)據(jù)集:首先產(chǎn)生|V|個(gè)頂點(diǎn),然后通過(guò)隨機(jī)選擇2個(gè)端點(diǎn)的方式生成|E|條邊,而后為所有的邊隨機(jī)生成存在概率,概率取值為隨機(jī)生成的0.01~0.99之間的小數(shù)。V和E是實(shí)驗(yàn)中可以設(shè)定的參數(shù),可以合成不同特征的數(shù)據(jù)。

        在考察抽樣方法的準(zhǔn)確性時(shí),需要通過(guò)枚舉出不確定圖g的全部可能圖準(zhǔn)確計(jì)算候選邊集的影響力排序,因此,實(shí)驗(yàn)不能使用邊數(shù)很大的數(shù)據(jù)。又由于本文抽取的可能圖須滿(mǎn)足:1)是連通圖;2)所有頂點(diǎn)都將被采集,因此本文在模擬數(shù)據(jù)集上生成5組實(shí)驗(yàn)數(shù)據(jù)集:Dys1(|V|=60,|E|=120),Dys2(|V|=70,|E|=140),Dys3(|V|=80,|E|=160),Dys4(|V|=90,|E|=180),Dys5(|V|=100,|E|=200)。對(duì)每組選擇60條查詢(xún)邊,用前兩種方法對(duì)邊的影響力概率進(jìn)行計(jì)算,其中樣本數(shù)設(shè)為2 000,對(duì)每條邊的估計(jì)次數(shù)K=100。

        圖1給出了不同規(guī)模圖上REB和FFB算法之間相似度的比較結(jié)果,可以看出隨著數(shù)據(jù)規(guī)模等比例增長(zhǎng),FFB算法在結(jié)果相似度的比較上要優(yōu)于隨機(jī)的REB算法,但是兩者相差不大并且維持在較低水平(30以?xún)?nèi))。圖2顯示了隨著樣本數(shù)的增加,排序結(jié)果相似度的變化,可以看出相似度呈下降趨勢(shì),并且FFS要更準(zhǔn)確一點(diǎn)。在考察不同抽樣方法及其優(yōu)化方法的效率時(shí),將上述4種方法分別在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了多組實(shí)驗(yàn),主要設(shè)置參數(shù)有圖規(guī)模(主要參數(shù)是圖邊數(shù)|E|)、查詢(xún)邊數(shù)k以及樣本大小N,并對(duì)優(yōu)化前后的執(zhí)行時(shí)間作對(duì)比。在測(cè)試某一參數(shù)時(shí)固定其他參數(shù),并給出執(zhí)行時(shí)間關(guān)于參數(shù)變化的關(guān)系。

        圖1 不同規(guī)模數(shù)據(jù)集上排序結(jié)果的相似度

        圖2 不同樣本數(shù)下排序結(jié)果的相似度

        首先設(shè)定參數(shù)N=1 000,k=60,測(cè)試圖邊數(shù)|E|從2 000~6 000變化時(shí)的執(zhí)行時(shí)間。由圖3可以看出,隨著邊數(shù)的增加剪枝BFS優(yōu)化算法的時(shí)間遠(yuǎn)小于未優(yōu)化算法,并且未優(yōu)化過(guò)的算法基本上都呈指數(shù)增長(zhǎng)。優(yōu)化后2種抽樣方法的時(shí)間基本上重合,增長(zhǎng)趨勢(shì)緩慢。造成這種現(xiàn)象的原因在于,計(jì)算邊影響力過(guò)程是直接影響整個(gè)實(shí)驗(yàn)效率的好壞的重要環(huán)節(jié),并且邊數(shù)是重要的影響因素。而后,設(shè)定參數(shù)N=1 000,圖規(guī)模|E|=4 000,測(cè)試k值從50~500變化的執(zhí)行時(shí)間。由圖4可以看出,當(dāng)k大于200時(shí),未優(yōu)化算法的執(zhí)行時(shí)間已經(jīng)超過(guò)3 000 s,而優(yōu)化算法維持在一個(gè)相對(duì)較低時(shí)間(1 000 s以?xún)?nèi))水平。k值是計(jì)算候選邊的影響力的個(gè)數(shù),由于未優(yōu)化算法每計(jì)算一條邊都要對(duì)所有被影響點(diǎn)對(duì)重新計(jì)算距離長(zhǎng)度,時(shí)空開(kāi)銷(xiāo)非常大,而優(yōu)化算法只需要更新被影響的標(biāo)號(hào)集合即可,其他非標(biāo)號(hào)的被影響點(diǎn)對(duì)可以通過(guò)更新之后的標(biāo)號(hào)集合間接計(jì)算,且每次需要更新的標(biāo)號(hào)集合比較小,查詢(xún)標(biāo)號(hào)集合的時(shí)間復(fù)雜度為O(|L(s)|+|L(t)|),s和t是被影響點(diǎn)對(duì),|L(s)|和|L(t)|分別是s和t的標(biāo)號(hào)集合長(zhǎng)度。因此,上述結(jié)果進(jìn)一步說(shuō)明了優(yōu)化算法的效率較高。

        圖3 不同邊數(shù)下執(zhí)行時(shí)間的變化

        圖4 不同k值下執(zhí)行時(shí)間的變化1

        下面考察樣本數(shù)對(duì)執(zhí)行時(shí)間的影響。設(shè)定k=60,|E|=2 000,測(cè)試N值從100~500變化對(duì)執(zhí)行時(shí)間的影響。由圖5可以看出,優(yōu)化算法的效率依舊緩慢增長(zhǎng),未優(yōu)化算法隨著樣本個(gè)數(shù)的增加執(zhí)行時(shí)間也在指數(shù)級(jí)增長(zhǎng)。本文提出的4種算法都可以單獨(dú)求解出所提出的不確定圖上查詢(xún)Top-k條最大影響力邊問(wèn)題,區(qū)別在于不同的圖抽樣策略和不同的最短路徑距離的計(jì)算策略,兩兩組合即為4種方法。通過(guò)圖1和圖2的分析可知,FFB和FFPB算法的結(jié)果準(zhǔn)確性更高,而通過(guò)對(duì)不同邊數(shù)、不同結(jié)果數(shù)值和不同樣本數(shù)上4種算法在時(shí)間效率上的比較可以總結(jié)出,優(yōu)化后算法REPB和FFPB的效率都明顯優(yōu)于未優(yōu)化算法REB和FFB。最后在真實(shí)數(shù)據(jù)集上驗(yàn)證k值變化時(shí)4種算法的執(zhí)行效率,同樣優(yōu)化算法明顯優(yōu)于非優(yōu)化算法,如圖6所示。

        圖5 不同樣本數(shù)下執(zhí)行時(shí)間的變化

        圖6 不同k值下執(zhí)行時(shí)間的變化2

        6 結(jié)束語(yǔ)

        本文給出不確定圖上邊影響力的定義,同時(shí)提出2個(gè)近似方法來(lái)求解Top-k最大影響力邊查詢(xún)問(wèn)題。在此基礎(chǔ)上,通過(guò)設(shè)計(jì)優(yōu)化方法進(jìn)一步提高效率。實(shí)驗(yàn)結(jié)果表明,本文算法具有較高的準(zhǔn)確性和效率。后續(xù)將把概率語(yǔ)義的“最短路徑距離”作為衡量標(biāo)準(zhǔn),進(jìn)一步解決不確定圖上Top-k最大影響力邊查詢(xún)問(wèn)題。

        猜你喜歡
        條邊標(biāo)號(hào)頂點(diǎn)
        圖的Biharmonic指數(shù)的研究
        過(guò)非等腰銳角三角形頂點(diǎn)和垂心的圓的性質(zhì)及應(yīng)用(下)
        關(guān)于頂點(diǎn)染色的一個(gè)猜想
        2018年第2期答案
        非連通圖2D3,4∪G的優(yōu)美標(biāo)號(hào)
        認(rèn)識(shí)平面圖形
        非連通圖D3,4∪G的優(yōu)美標(biāo)號(hào)
        非連通圖(P1∨Pm)∪C4n∪P2的優(yōu)美性
        非連通圖C3(m,0,0)∪G的優(yōu)美性
        數(shù)學(xué)問(wèn)答
        日韩一区二区三区熟女| 国产又色又爽又刺激视频| 国产亚洲欧美另类第一页| 成人影院羞羞的视频免费观看| 成午夜福利人试看120秒| 久久综合九色综合欧美狠狠| 欧美视频九九一区二区| 国产91精品清纯白嫩| 日韩av精品视频在线观看| 亚洲精品国偷拍自产在线麻豆| 国产91网| 国产精品黑丝美女av| 中文字幕 亚洲精品 第1页| 精品一区二区三区无码免费视频| 四虎影视久久久免费| 国产成人亚洲综合二区| 国语自产精品视频在线看| 无套内谢的新婚少妇国语播放| 久久亚洲午夜牛牛影视| 日韩精品一区二区亚洲观看av| 岛国av无码免费无禁网站| 日本大片免费观看完整视频| 一区二区特别黄色大片| 国产av剧情刺激对白| 天天天天躁天天爱天天碰2018| 亚洲AⅤ精品一区二区三区| 亚洲一区二区三区av天堂| 一本久道综合色婷婷五月| 亚洲国产人在线播放首页 | 国产精品麻豆成人av电影艾秋| 国产亚洲精品综合一区| 精品成人av人一区二区三区 | 78成人精品电影在线播放| 久久久人妻一区精品久久久| 亚洲精品国产电影| 精品国内自产拍在线观看| 色窝综合网| 在线观看中文字幕二区| 国产真人性做爰久久网站| 国产主播无套内射一区| 一区二区高清视频免费在线观看 |