亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        BP-ANN預(yù)測(cè)網(wǎng)絡(luò)關(guān)系中的數(shù)據(jù)降維與模型綜合方法

        2018-08-10 01:39:02峻,萬(wàn)
        統(tǒng)計(jì)與決策 2018年13期
        關(guān)鍵詞:降維分類器向量

        馬 峻,萬(wàn) 劼

        (首都經(jīng)濟(jì)貿(mào)易大學(xué) 安全與環(huán)境工程學(xué)院,北京 100070)

        0 引言

        復(fù)雜網(wǎng)絡(luò)廣泛存在于社會(huì)各個(gè)領(lǐng)域。社交網(wǎng)站用戶構(gòu)成的社交網(wǎng)絡(luò),反映的是社交網(wǎng)站用戶之間的好友關(guān)系或關(guān)注(收聽(tīng))關(guān)系;商店顧客與商品構(gòu)成的購(gòu)買關(guān)系網(wǎng)絡(luò),反映的是顧客對(duì)商品的購(gòu)買關(guān)系;其他諸如航空網(wǎng)絡(luò)、國(guó)家的電力網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、食物鏈網(wǎng)絡(luò)等。不論是什么種類的網(wǎng)絡(luò),一個(gè)網(wǎng)絡(luò)可抽象為由點(diǎn)集P和邊集E組成的圖G=(P,E),設(shè)R是從P到其自身的一個(gè)二元關(guān)系,即R?P×P,對(duì)任意(x,y)∈P×P,如果xRy,則從x有一條有向連邊指向y,連邊反映了x與y的一種二元關(guān)系,如果(x,y)≠(y,x),則構(gòu)成一個(gè)不對(duì)稱關(guān)系,否則為對(duì)稱關(guān)系。但在數(shù)量方面,同樣規(guī)模的網(wǎng)絡(luò)中,二元不對(duì)稱關(guān)系的潛在數(shù)量往往比二元對(duì)稱關(guān)系多;在信息量方面,二元不對(duì)稱關(guān)系更具有方向性,因此描述二元不對(duì)稱關(guān)系的網(wǎng)絡(luò)要比描述二元對(duì)稱關(guān)系的網(wǎng)絡(luò)包含更多的信息量。網(wǎng)絡(luò)中存在的這種關(guān)系對(duì)于網(wǎng)絡(luò)影響力的拓展以及網(wǎng)絡(luò)資源的有效利用具有很大的價(jià)值[1],二元不對(duì)稱關(guān)系相對(duì)于二元關(guān)系的研究更具有普遍性和研究意義。

        目前針對(duì)社會(huì)網(wǎng)絡(luò)中的二元關(guān)系的預(yù)測(cè)主要基于的信息可分為三類,第一類是根據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)屬性信息進(jìn)行預(yù)測(cè);第二類是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行預(yù)測(cè);第三類是上述兩類的混合方法,即在預(yù)測(cè)中既使用節(jié)點(diǎn)屬性信息也使用網(wǎng)絡(luò)結(jié)構(gòu)信息。文獻(xiàn)[2,3]表明使用節(jié)點(diǎn)屬性信息對(duì)社會(huì)網(wǎng)絡(luò)中的二元關(guān)系進(jìn)行預(yù)測(cè)求解可以得到較好的效果,但是使用節(jié)點(diǎn)屬性信息存在著以下問(wèn)題:第一,大量的節(jié)點(diǎn)屬性信息很難獲取,可靠性也難以得到保證;第二,需要大量的資源來(lái)存儲(chǔ)、讀取節(jié)點(diǎn)屬性信息。但是根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測(cè)求解一般不存在上述兩個(gè)問(wèn)題。

        根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)信息進(jìn)行關(guān)系預(yù)測(cè)求解中,一類是基于節(jié)點(diǎn)相似度的關(guān)系預(yù)測(cè)求解方法,另一類是基于似然分析的預(yù)測(cè)求解方法?;谙嗨贫鹊年P(guān)系預(yù)測(cè)求解方法較為簡(jiǎn)便,需要的假設(shè)前提較少,而基于似然分析的關(guān)系預(yù)測(cè)求解方法較為復(fù)雜,且需要建立在較多的假設(shè)(如層次結(jié)構(gòu)、社團(tuán)結(jié)構(gòu)等)之上,使用較少。文獻(xiàn)[4]將節(jié)點(diǎn)相似度與機(jī)器學(xué)習(xí)方法相結(jié)合,收到了較好的求解效果,但是還存在一些有待解決的問(wèn)題;其次,基于節(jié)點(diǎn)相似性的關(guān)系預(yù)測(cè)方法在處理二部分網(wǎng)絡(luò)時(shí)會(huì)遇到困難,例如很多常用的相似度指標(biāo)是無(wú)法計(jì)算的,這時(shí)一般需要使用一些更為復(fù)雜的相似度指標(biāo),或者采用集合投影和協(xié)同過(guò)濾的方法[5-7],這些方法或是較為復(fù)雜,或是有待完善。而神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)作為一種非線性動(dòng)力學(xué)模型廣泛用在各個(gè)領(lǐng)域預(yù)測(cè)求解,但是神經(jīng)網(wǎng)絡(luò)在進(jìn)行社會(huì)網(wǎng)絡(luò)關(guān)系預(yù)測(cè)計(jì)算中,由于社會(huì)網(wǎng)絡(luò)的動(dòng)態(tài)性和時(shí)變性導(dǎo)致網(wǎng)絡(luò)資源拓展的不確定性,同時(shí)社會(huì)網(wǎng)絡(luò)規(guī)模大、小世界性小社團(tuán)等特性導(dǎo)致網(wǎng)絡(luò)鄰接關(guān)系矩陣稀疏和不均勻性,產(chǎn)生社會(huì)網(wǎng)絡(luò)預(yù)測(cè)求解中輸入數(shù)據(jù)維數(shù)高,同時(shí)網(wǎng)絡(luò)中存在的不平衡性也極大地影響了神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)計(jì)算的效果[8],為此,本文針對(duì)這兩個(gè)問(wèn)題,在提出相應(yīng)降維算法基礎(chǔ)上,建立了如何克服不平衡性從而提高模型求解效果的方法。

        1 問(wèn)題描述

        本文采用BP神經(jīng)網(wǎng)絡(luò)對(duì)社會(huì)網(wǎng)絡(luò)二元不對(duì)稱關(guān)系進(jìn)行預(yù)測(cè)求解的基本邏輯過(guò)程如下頁(yè)圖1所示。

        圖1 利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行社會(huì)網(wǎng)絡(luò)二元不對(duì)稱關(guān)系預(yù)測(cè)求解邏輯過(guò)程

        T=(SR)反映訓(xùn)練集所有樣本在整個(gè)網(wǎng)絡(luò)的連接關(guān)系。

        P=(UV)反映了預(yù)測(cè)求解集所有樣本在整個(gè)網(wǎng)絡(luò)的連接關(guān)系。

        S和U分別是訓(xùn)練和預(yù)測(cè)求解的輸入值,R是訓(xùn)練輸出值,V是預(yù)測(cè)求解輸出值。S,U,R是鄰接矩陣的已知部分,V是鄰接矩陣的未知部分。

        實(shí)際應(yīng)用中V的某些部分可能是已知的,但鑒于一般V占整個(gè)鄰接矩陣的比例較?。ú淮笥?/9),而考慮V的已知部分會(huì)增大算法和代碼的復(fù)雜度,因此將V的全部設(shè)為未知。如果只需要預(yù)測(cè)求解V的部分列向量,那么就不需要獲取關(guān)于R的全部信息,只需要知道R所對(duì)應(yīng)列向量的取值。

        根據(jù)圖1,預(yù)測(cè)求解需要大量的訓(xùn)練樣本,因此An×n的m會(huì)很大,如果將S和U這種高維向量直接作為輸入,則算法復(fù)雜度會(huì)很大,因此需要采取適當(dāng)方法進(jìn)行降維;另外由于網(wǎng)絡(luò)中大部分節(jié)點(diǎn)對(duì)是不存在關(guān)系的(這種情形也被稱為數(shù)據(jù)不平衡),而神經(jīng)網(wǎng)絡(luò)算法通常以訓(xùn)練誤差最小化為目標(biāo)求解模型,這會(huì)導(dǎo)致模型傾向做出關(guān)系不存在的預(yù)測(cè),而實(shí)際應(yīng)用中更多被關(guān)注的是存在的關(guān)系,將存在的關(guān)系判斷為不存在所導(dǎo)致的損失經(jīng)常遠(yuǎn)大于將不存在的關(guān)系判斷為存在所導(dǎo)致的損失,因此需要對(duì)模型進(jìn)行進(jìn)一步的處理。

        2 數(shù)據(jù)降維

        2.1 數(shù)據(jù)降維方法

        根據(jù)圖1,在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測(cè)時(shí),需要將關(guān)系矩陣An×n中Sm×m的m個(gè)變量取值全部直接輸入到神經(jīng)網(wǎng)絡(luò)輸入層,通常較大的m將導(dǎo)致神經(jīng)網(wǎng)絡(luò)規(guī)模也會(huì)變大,將大大增加算法的復(fù)雜度,因此有必要設(shè)法減少輸入層的節(jié)點(diǎn)數(shù)。

        根據(jù)鄰接關(guān)系矩陣An×n,m個(gè)原始輸入變量的取值只有0與1兩種可能,又因?yàn)檫@個(gè)變量的順序是固定不變的,因此神經(jīng)網(wǎng)絡(luò)輸入層其實(shí)是一個(gè)長(zhǎng)度為m的0-1向量,為此可以將其固定長(zhǎng)度轉(zhuǎn)化為一個(gè)整數(shù),從而實(shí)現(xiàn)數(shù)據(jù)的降維。具體方法如下:

        設(shè)πn為全體n維0-1向量構(gòu)成的集合,Z為整數(shù)集。對(duì)?x∈πn,x可被表述為如下形式:

        再做如下映射:

        對(duì)于f,有如下命題成立:

        命 題 1:對(duì) ?x1,x2∈πn,若x1≠x2,則 必 有f(x1)≠f(x2)。

        采用反證法可以對(duì)上述命題進(jìn)行證明。

        命題1說(shuō)明:f可將不同長(zhǎng)度的0-1向量轉(zhuǎn)化為不同整數(shù),并且通過(guò)fn進(jìn)行數(shù)據(jù)降維的過(guò)程中不會(huì)丟失原有的任何信息。

        2.2 存在的問(wèn)題

        理論上任意n維0-1向量可以轉(zhuǎn)化為一維整數(shù),因此可以將m個(gè)輸入變量轉(zhuǎn)化為一個(gè)輸入變量,這樣神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)最少只需要一個(gè),而不是m個(gè)。但是,如果僅僅用一個(gè)十進(jìn)制數(shù)替代原先的m個(gè)變量,那么可能會(huì)大大增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。

        例如:設(shè)m為5,樣本A的原始輸入向量為(1,0,0,0,1),轉(zhuǎn)化為十進(jìn)制數(shù),即為17。樣本B的原始輸入向量為(0,0,0,0,1),轉(zhuǎn)化為十進(jìn)制數(shù),即為1。A和B只在一個(gè)位置上不同,應(yīng)該說(shuō)兩個(gè)樣本比較相似。但是轉(zhuǎn)化為十進(jìn)制數(shù)后,兩個(gè)樣本對(duì)應(yīng)的輸入值要相差16倍。再設(shè)樣本C的輸入向量為(0,1,1,1,0)。C與A在所有位置上都不同,但是C的輸入向量轉(zhuǎn)化為十進(jìn)制后為14,反而與A比較接近。一般來(lái)說(shuō),A與B的輸出值往往是相同的,而A與C的輸出值更可能是不同的。這意味著輸出值對(duì)輸入值的變化非常敏感,而且通過(guò)神經(jīng)網(wǎng)絡(luò)得出的預(yù)測(cè)函數(shù)會(huì)有高頻且大幅的波動(dòng)。

        雖然神經(jīng)網(wǎng)絡(luò)算法比很多其他算法更善于處理此類非線性的回歸,但在輸入值與輸出值之間幾乎毫無(wú)線性相關(guān)性的情況下,如果訓(xùn)練樣本并不是很多,那么神經(jīng)網(wǎng)絡(luò)也較難做出準(zhǔn)確的預(yù)測(cè)。

        2.3 分段降維算法

        解決上述問(wèn)題的辦法是將原始m維輸入向量分為k段(k>1),提高算法效率同時(shí)保證算法的有效性。m維的輸入向量分為k段,每段轉(zhuǎn)化為一個(gè)整數(shù),輸入變量轉(zhuǎn)化為k個(gè)整數(shù)。這樣對(duì)于任意一個(gè)樣本集,設(shè)原始輸入向量x=(a1,a2,…,am)(ai∈{0,1},i=1,2,…,m),分段降維結(jié)果y=(b1,b2,…,bk)∈Zk(k≤m)。

        k的取值既不能太大,也不能太小。如果k太大,達(dá)不到降低神經(jīng)網(wǎng)絡(luò)輸入層維數(shù)的目的,如果k太小,則輸出值對(duì)輸入值的變化會(huì)很敏感,從而增加神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的難度。由于k實(shí)際上就是輸入層的節(jié)點(diǎn)數(shù),因此k是一個(gè)影響神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變量,而神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也會(huì)影響預(yù)測(cè)的效果。

        分段降維算法如下:

        步驟1:ifk|m!=int

        步驟1.1:設(shè)h=m'/(k-1)

        步驟1.2:Forj=0tok-2

        依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個(gè)分量(am'+1,am'+2,…,am)記為Ak

        步驟2:ifk|m=int

        步驟2.1:設(shè)h=m/k

        步驟2.2:Forj=0tok-1

        依次將 (ajh+1,ajh+2,…ajh+h)記為Aj+1,將x的最后(m-m')個(gè)分量(am'+1,am'+2,…,am)記為Ak

        步驟3:得到分為k段的向量x,記為(A1,A2,…,Ak)

        步驟4:Forj=0tok

        ?Aj∈{A1,A2,…,Ak}將Aj轉(zhuǎn)化為整數(shù)f(Aj)

        bj=f(Aj)

        步驟5:得到k維整數(shù)向量y=(b1,b2,…,bk)∈Zk

        上述將An×n劃分為An×n的過(guò)程中,可以保證An×n都有相同的維數(shù)An×n,并且能使An×n盡量大。這樣,An×n就能較為“均勻”地被劃分為An×n段。同時(shí)由于分段降維算法對(duì)于每個(gè)二進(jìn)制數(shù)都會(huì)與一個(gè)十進(jìn)制數(shù)一一對(duì)應(yīng),因此降維前后的數(shù)據(jù)之間存在一一映射,降維并沒(méi)有使數(shù)據(jù)所包含的信息量減少,整個(gè)數(shù)據(jù)降維過(guò)程是可逆的。

        3 模型綜合法

        數(shù)據(jù)的降維提高了神經(jīng)網(wǎng)絡(luò)計(jì)算的效率,但是由于復(fù)雜社會(huì)網(wǎng)絡(luò)存在關(guān)系的復(fù)雜性,以及所擁有的冪律特性導(dǎo)致在利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測(cè)時(shí)存在的不平衡性問(wèn)題,即對(duì)于關(guān)系比較密集的社會(huì)網(wǎng)絡(luò),預(yù)測(cè)出不存在的關(guān)系實(shí)際是存在的,反之在稀疏關(guān)系網(wǎng)絡(luò)預(yù)測(cè)出存在的關(guān)系實(shí)際是不存在的,這種不平衡性是由于模型本身造成的[8],為了消除這種不平衡性,本文構(gòu)建預(yù)測(cè)模型綜合評(píng)價(jià)指標(biāo)基本上建立模型綜合方法,具體實(shí)現(xiàn)過(guò)程如下。

        3.1 基本評(píng)價(jià)指標(biāo)

        神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的評(píng)價(jià)是建立在鄰接矩陣An×n基礎(chǔ)上,設(shè)Y=(aij)(n-m)×q是An×n中V的一個(gè)子矩陣,表示V中全部待預(yù)測(cè)的部分,q是待預(yù)測(cè)的列向量的數(shù)量。X=(bij)(n-m)×q是對(duì)Y的預(yù)測(cè)值(Y為真實(shí)值)。||A表示任意有限集合A的基數(shù),N+表示正整數(shù)集,則有:

        Np=(n-m)q,即Np為Y的元素總數(shù);

        Nt=|{(i,j)∈N+×N+|aij=bij}|,即Nt為預(yù)測(cè)正確的次數(shù);

        Mp=|{(i,j)∈N+×N+|aij=1}|,即Mp為預(yù)測(cè)集中真正存在的連邊數(shù)量;

        Mt=|{(i,j)∈N+×N+|aij=bij=1}|,即Mt為在連邊真實(shí)存在的條件下,正確預(yù)測(cè)的次數(shù)。

        評(píng)價(jià)指標(biāo)有兩個(gè)。一個(gè)是總預(yù)測(cè)準(zhǔn)確率P1,另一個(gè)是正類預(yù)測(cè)準(zhǔn)確率P2。

        從本質(zhì)看P1反映的是模型整體的預(yù)測(cè)準(zhǔn)確率,P2反映的是模型對(duì)關(guān)系存在性的發(fā)現(xiàn)能力。之所以要進(jìn)一步計(jì)算P2,是因?yàn)樵诜治鰧?shí)際問(wèn)題中,人們往往更關(guān)注關(guān)系的存在性,而對(duì)關(guān)系的不存在性并不那么關(guān)注,從廣義上來(lái)看,關(guān)系的存在性與不存在性的受重視程度是不同的,P2會(huì)增強(qiáng)模型對(duì)非重視關(guān)系的發(fā)現(xiàn)能力。

        因此P1和P2是評(píng)價(jià)模型預(yù)測(cè)效果的兩個(gè)基本指標(biāo),兩個(gè)指標(biāo)缺一不可。如果忽視P2,而只看P1,那么將正類誤判為負(fù)類的概率就難以得到控制。另一方面,如果P2很高而P1很低,那么總的誤判損失還是會(huì)很大。為了彌補(bǔ)這個(gè)缺陷,本文建立基于P1和P2基本指標(biāo)的綜合評(píng)價(jià)指標(biāo)。

        3.2 綜合評(píng)價(jià)指標(biāo)

        將基本指標(biāo)P1和P2加權(quán)平均可以得到一個(gè)新的綜合指標(biāo)Pc,Pc可由式(4)確定:

        γ1和γ2的取值是與使用者對(duì)P1和P2的重視程度有關(guān),但是在實(shí)際應(yīng)用中Pc計(jì)算方法未必能真實(shí)體現(xiàn)使用者對(duì)P1和P2的重視程度。這是因?yàn)镻1和P2的標(biāo)準(zhǔn)差可能會(huì)有很大差異,在許多復(fù)雜網(wǎng)絡(luò)中(尤其是連邊較為稀疏網(wǎng)絡(luò)中),由于真實(shí)存在的連邊要比節(jié)點(diǎn)對(duì)總數(shù)少很多,往往P2的標(biāo)準(zhǔn)差要比P1大很多,影響P2的偶然隨機(jī)因素要比P1大,P1的差異更大程度上是模型本身因素導(dǎo)致的。為了消除上述影響,只有對(duì)P1和P2做調(diào)整,使兩者的標(biāo)準(zhǔn)差相同,才能更加客觀地評(píng)價(jià)模型的預(yù)測(cè)能力。

        設(shè)σi是Pi的標(biāo)準(zhǔn)差,則P1σ1和P2σ2具有相同的標(biāo)準(zhǔn)差,帶入公式(4)可得到:

        其中γi由人為主觀決定。σi是Pi總體的性質(zhì),無(wú)法直接結(jié)算,但是可以根據(jù)不?同模型得到的Pi值,通過(guò)計(jì)算Pi的樣本標(biāo)準(zhǔn)差 ,再將作為σi的估計(jì)值。

        3.3 模型綜合

        利用神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系預(yù)測(cè)時(shí),不同的模型參數(shù),相同的輸入其輸出的預(yù)測(cè)結(jié)果也不同,在這里把擁有不同參數(shù)的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型稱為不同的分類器。在實(shí)際問(wèn)題求解過(guò)程中,如果以預(yù)測(cè)效果最好的一個(gè)分類器預(yù)測(cè)結(jié)果為準(zhǔn),可能會(huì)導(dǎo)致較大的誤判風(fēng)險(xiǎn),因?yàn)橐粋€(gè)分類器預(yù)測(cè)效果的好壞,通常需要通過(guò)已知樣本進(jìn)行檢測(cè)才能得出,當(dāng)一個(gè)分類器在用于檢測(cè)模型效果的已知樣本上表現(xiàn)出良好效果時(shí),雖然可以認(rèn)為該分類器的預(yù)測(cè)能力是較強(qiáng)的,但其未必會(huì)在待預(yù)測(cè)的未知樣本上也能取得最好的效果。即使該分類器在未知樣本上的預(yù)測(cè)能力仍然是最強(qiáng)的,其預(yù)測(cè)效果也未必好于將多個(gè)分類器綜合得出的結(jié)果。因此,相對(duì)于僅僅“信任”一個(gè)分類器的做法,本文將若干個(gè)分類器組合起來(lái)進(jìn)行預(yù)測(cè),降低結(jié)果的誤判風(fēng)險(xiǎn)。基本原理是對(duì)各神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型賦予權(quán)重,根據(jù)各個(gè)分類器的預(yù)測(cè)值加權(quán)平均來(lái)獲得最終預(yù)測(cè)結(jié)果,加權(quán)平均值表達(dá)形式如下:

        其中,H為分類器個(gè)數(shù),yi是第i個(gè)分類器的預(yù)測(cè)值,βi第i個(gè)分類器的權(quán)重系數(shù)。問(wèn)題的關(guān)鍵轉(zhuǎn)換為如何得到每個(gè)分類器的βi值。

        在公式(6)中,βi值的大小是與預(yù)測(cè)效果成正比的,如果只考慮兩個(gè)分類器ρ1和ρ2的情形下,分類器ρi(i=1,2)的權(quán)重系數(shù)βi的計(jì)算公式為:

        其中,Pc(ρi)是分類器ρi對(duì)檢測(cè)集樣本的預(yù)測(cè)效果綜合評(píng)價(jià)指標(biāo)Pc的值。在其他條件不變的情況下,βi與Pc(ρi)成正比,說(shuō)明預(yù)測(cè)效果越好,權(quán)重系數(shù)越大。而φ(ρ1,ρ2)是兩個(gè)分類器ρ1和ρ2預(yù)測(cè)值相同的概率,,其中Ns是用于檢測(cè)集樣本總數(shù),yρ1,i和yρ2,i分別是分類器ρ1和ρ2對(duì)第i個(gè)檢測(cè)集樣本的預(yù)測(cè)值。

        根據(jù)公式(7),φ(ρ1,ρ2)越大,則βi越小。如果φ(ρ1,ρ2)達(dá)到最大值1,則有:

        這樣,在使用兩個(gè)預(yù)測(cè)結(jié)果完全相同的分類器的情況下,兩個(gè)分類器權(quán)重系數(shù)總和與僅僅保留其中一個(gè)分類器的情況下的權(quán)重系數(shù)是相同的。如果φ(ρ1,ρ2)達(dá)到最小值0,則βi=Pc(ρi),說(shuō)明當(dāng)兩個(gè)預(yù)測(cè)結(jié)果完全不同的分類器組合起來(lái)時(shí),他們各自的權(quán)重都不會(huì)被削弱。

        把式(7)式擴(kuò)展到兩個(gè)以上分類器的情形,在有H個(gè)分類器情況下,第i(i=1,2,…H)個(gè)分類器ρi的權(quán)重系數(shù)βi的計(jì)算公式為:

        由于φ(ρi,ρi)=1,因此式(8)又能寫成以下形式:

        因此,模型綜合的權(quán)值βi求解過(guò)程為:

        步驟1:從已知樣本中抽出一部分,將其作為檢測(cè)集樣本,并用各分類器對(duì)檢測(cè)集樣本進(jìn)行預(yù)測(cè),得出預(yù)測(cè)值;

        步驟2:根據(jù)第一步的預(yù)測(cè)結(jié)果,計(jì)算各分類器的Pc值;

        步驟3:計(jì)算每?jī)蓚€(gè)分類器預(yù)測(cè)值相同的概率φ(ρi,ρj);

        步驟4:利用式(9)計(jì)算βi。

        4 實(shí)例驗(yàn)證

        本文以美國(guó)政治博客引用關(guān)系網(wǎng)絡(luò)為實(shí)例(數(shù)據(jù)來(lái)源于www.linkprediction.org 2014年6月),網(wǎng)絡(luò)中節(jié)點(diǎn)是博客文章,如果博客文章A引用了博客文章B,則在網(wǎng)絡(luò)中代表文章A的節(jié)點(diǎn)會(huì)有一條有向邊指向代表文章B的節(jié)點(diǎn)。驗(yàn)證數(shù)據(jù)選用這一網(wǎng)絡(luò)的一個(gè)導(dǎo)出子網(wǎng)絡(luò)進(jìn)行實(shí)證分析,該子網(wǎng)絡(luò)包含150個(gè)節(jié)點(diǎn),將網(wǎng)絡(luò)中的節(jié)點(diǎn)編號(hào)為1~150號(hào),并將這150個(gè)節(jié)點(diǎn)構(gòu)成的集合記為Np。以1~100號(hào)節(jié)點(diǎn)為訓(xùn)練集,101~150號(hào)節(jié)點(diǎn)為預(yù)測(cè)集。為檢驗(yàn)算法效果,假定有序節(jié)點(diǎn)對(duì)集合Yp={(x,y)|x∈Np,y∈Np,101≤x≤150,106≤y≤150}中的二元關(guān)系存在性是未知的,其余節(jié)點(diǎn)對(duì)的二元關(guān)系存在性是已知的。然后從106~150號(hào)節(jié)點(diǎn)中隨機(jī)選擇10個(gè)節(jié)點(diǎn),構(gòu)成集合Kt,利用本文提出的方法對(duì)有序節(jié)點(diǎn)對(duì)集合Y={(x,y)|x∈Np,y∈Kt,101≤x≤150}中的二元關(guān)系存在性進(jìn)行預(yù)測(cè)。

        神經(jīng)網(wǎng)絡(luò)求解約束條件設(shè)置:①訓(xùn)練的最大迭代次數(shù)為1000;②連接函數(shù)選擇為L(zhǎng)ogistic函數(shù);③初始開(kāi)始進(jìn)行訓(xùn)練的次數(shù)選為50;④訓(xùn)練的學(xué)習(xí)率取值為0.01;⑤訓(xùn)練時(shí)觀察模型誤差的頻率是每迭代10次觀察一次;⑥迭代收斂的判斷標(biāo)準(zhǔn)是相鄰兩次觀察到的誤差值相差小于5×10-7。

        不同分類器的參數(shù)調(diào)整是:①輸入向量的維數(shù)k;②隱藏層的節(jié)點(diǎn)數(shù)s;③正類樣本權(quán)重c。

        將Yt={(x,y)|x∈Np,y∈Np,101≤x≤150,101≤y≤105}作為檢測(cè)集,以檢測(cè)不同參數(shù)下模型的預(yù)測(cè)效果。在k取10和20、s取15和30、c取5和6情況下,三個(gè)參數(shù)的全部組合共是8,分別在這8個(gè)參數(shù)組合下對(duì)檢測(cè)集進(jìn)行預(yù)測(cè)實(shí)驗(yàn)。測(cè)試實(shí)驗(yàn)發(fā)現(xiàn)s為30,c為6情況下的兩個(gè)模型預(yù)測(cè)效果最好。于是s取為30,c取為6,再分別取k為5、15和25,進(jìn)行三組實(shí)驗(yàn)。

        根據(jù)算法1,在k取5情況下的數(shù)據(jù)降維是:

        根據(jù)公式(2)和(3)計(jì)算得到11個(gè)參數(shù)組合下預(yù)測(cè)模型評(píng)價(jià)指標(biāo)如表1所示。

        表1 參數(shù)組合及預(yù)測(cè)模型評(píng)價(jià)指標(biāo)

        計(jì)算出表1中任意兩個(gè)模型預(yù)測(cè)值相同的概率如表3所示。

        表2 各個(gè)預(yù)測(cè)模型綜合評(píng)價(jià)指標(biāo)值

        表3 任意兩個(gè)模型預(yù)測(cè)值相同的概率

        根據(jù)公式(9)各個(gè)模型權(quán)重系數(shù)βi如表4所示。

        表4 各個(gè)模型的權(quán)重系數(shù)(歸一化前)

        依據(jù)表1中11個(gè)模型對(duì)Y中的關(guān)系進(jìn)行預(yù)測(cè),得出各模型對(duì)Y中有序各節(jié)點(diǎn)對(duì)關(guān)系存在性的預(yù)測(cè)值,然后對(duì)于每個(gè)待預(yù)測(cè)的有序節(jié)點(diǎn)對(duì),根據(jù)式(6)并采用表4的βi值計(jì)算各模型預(yù)測(cè)值的加權(quán)平均,該加權(quán)平均值即為整個(gè)模型最終的預(yù)測(cè)值。將各模型的預(yù)測(cè)值以及模型最終預(yù)測(cè)值與真實(shí)值做比較,計(jì)算各模型的P1值和P2值以及模型綜合的預(yù)測(cè)效果P1值和P2如下頁(yè)表5所示。

        從表5可以看出,最終對(duì)預(yù)測(cè)值求加權(quán)平均后得到的綜合模型的P2值是所有模型中最高的。雖然3號(hào)模型和8號(hào)模型的P2值與最終綜合模型的P2值相同,但這兩個(gè)模型的P1值都相對(duì)較低。在P1值方面,除去10號(hào)模型與11號(hào)模型以外,其他模型的P1值都比最終綜合模型低。10號(hào)模型與11號(hào)模型的P1值比最終綜合模型的P1值略高,但在P2值方面卻不如最終綜合模型。根據(jù)表5,可以計(jì)算出各模型的Pc值(其中對(duì)P1和P2的重視程度相同)如表6所示。

        表5 各模型的預(yù)測(cè)效果以及模型綜合法預(yù)測(cè)效果

        表6 各個(gè)模型的預(yù)測(cè)效果綜合評(píng)價(jià)指標(biāo)值

        從表6可知,在對(duì)P1和P2的重視程度相同的前提下,綜合模型的Pc值是最高的??梢?jiàn)綜合模型預(yù)測(cè)效果比單個(gè)模型要好。

        5 結(jié)束語(yǔ)

        隨著互聯(lián)網(wǎng)+的不斷發(fā)展,社會(huì)網(wǎng)絡(luò)逐步滲透到社會(huì)各個(gè)領(lǐng)域,充分利用網(wǎng)絡(luò)資源拓展服務(wù)成為互聯(lián)網(wǎng)經(jīng)濟(jì)時(shí)代面臨的一個(gè)突出問(wèn)題,而有效地預(yù)知網(wǎng)絡(luò)中二元不對(duì)稱關(guān)系可以為用戶準(zhǔn)確地把握措施的實(shí)施提供了有力的支持。本文基于社會(huì)網(wǎng)絡(luò)的復(fù)雜性和動(dòng)態(tài)性,利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)特性,構(gòu)建了預(yù)測(cè)時(shí)高維輸入向量降維的算法,在建立模型綜合評(píng)價(jià)指標(biāo)基礎(chǔ)上,構(gòu)造了具有消除不平衡性的模型綜合預(yù)測(cè)方法,實(shí)例驗(yàn)證表明,本文所提算法和方法是有效的。

        猜你喜歡
        降維分類器向量
        Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
        向量的分解
        聚焦“向量與三角”創(chuàng)新題
        降維打擊
        海峽姐妹(2019年12期)2020-01-14 03:24:40
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        手机在线中文字幕国产| 国内露脸少妇精品视频| 香蕉久久人人97超碰caoproen| av资源在线看免费观看| 亚洲发给我的在线视频| 国产 一二三四五六| 男女性高爱潮免费网站| 色综合久久加勒比高清88| 精品国产一区二区三区九一色| 亚洲中文字幕午夜精品| 欧美日韩精品| 99热这里只有精品国产66| 亚洲综合小综合中文字幕| 激情五月婷婷六月俺也去| 白白色发布免费手机在线视频观看| 亚洲视频在线观看| 久久AV老司机精品网站导航| 蜜桃视频免费在线视频| 久久精品国产亚洲av性瑜伽| 亚洲妇女自偷自偷图片| 国产精品video| 中文字幕人妻少妇久久| 亚洲国产高清精品在线| 精品麻豆国产色欲色欲色欲www| 亚洲av无码一区二区乱子仑| 国产又大大紧一区二区三区| 日韩日韩日韩日韩日韩日韩| 欧美最猛黑人xxxxx猛交| 久久国产亚洲中文字幕| 一本久道高清视频在线观看| 亚洲第一se情网站| 秋霞日韩一区二区三区在线观看| 在线亚洲精品中文字幕美乳色| 亚洲av综合av一区| chinese国产乱在线观看| 男女羞羞的视频免费网站| 亚洲综合精品中文字幕| 最新国产乱人伦偷精品免费网站| 精品国免费一区二区三区| 熟女人妻在线中文字幕| 99国产精品无码|