,
(常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164)
作為當(dāng)今最大的數(shù)據(jù)匯集地,互聯(lián)網(wǎng)上的信息數(shù)據(jù)能夠?yàn)橛脩魩?lái)極大的價(jià)值與效益,因此目前互聯(lián)網(wǎng)是各項(xiàng)研究的熱門(mén)[1]。同時(shí)由于互聯(lián)網(wǎng)數(shù)據(jù)的海量性與各種廣告數(shù)據(jù)節(jié)點(diǎn)的充斥,如何精準(zhǔn)地從龐大的互聯(lián)網(wǎng)云數(shù)據(jù)中獲取到所需的信息資源成為了一項(xiàng)重要的研究[2-3]。
在互聯(lián)網(wǎng)上根據(jù)需求搜索信息,用戶普遍無(wú)法迅速、精準(zhǔn)地回去到所需的有價(jià)值的信息對(duì)應(yīng)的數(shù)據(jù)節(jié)點(diǎn)[4]。而從互聯(lián)網(wǎng)中挖掘目標(biāo)信息的方式又可分為內(nèi)容挖掘、結(jié)構(gòu)挖掘等[5]。其中內(nèi)容挖掘通常是利用聚類分析、關(guān)聯(lián)規(guī)則等方法獲取所需的信息內(nèi)容,以此為基礎(chǔ)的挖掘方法均會(huì)存在匹配率較低以及冗余等不足[6]。
因此,考慮到互聯(lián)網(wǎng)中的云數(shù)據(jù)以及網(wǎng)頁(yè)之間存在的鏈接結(jié)構(gòu),這種數(shù)據(jù)節(jié)點(diǎn)與內(nèi)容間的指向與被指向的關(guān)系,與現(xiàn)實(shí)生活以及數(shù)據(jù)結(jié)合點(diǎn)中的人與人之間的關(guān)系較為接近,因此本文利用分析數(shù)據(jù)結(jié)合點(diǎn)[7-8]的方式來(lái)進(jìn)行互聯(lián)網(wǎng)云數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析。本文將互聯(lián)網(wǎng)云數(shù)據(jù)結(jié)構(gòu)的指向與被指向抽象為數(shù)據(jù)結(jié)合點(diǎn)中的關(guān)注關(guān)系,并以此為基礎(chǔ)設(shè)計(jì)并實(shí)現(xiàn)了挖掘方法,能夠較好地實(shí)現(xiàn)針對(duì)互聯(lián)網(wǎng)云數(shù)據(jù)集數(shù)據(jù)節(jié)點(diǎn)的有效挖掘。
與一般的綜合進(jìn)行數(shù)據(jù)節(jié)點(diǎn)內(nèi)容主題計(jì)算獲取不同的是,本文提出的方案僅基于互聯(lián)網(wǎng)數(shù)據(jù)節(jié)點(diǎn)間的關(guān)注關(guān)系來(lái)進(jìn)行所需互聯(lián)網(wǎng)數(shù)據(jù)的挖掘。本文基于數(shù)據(jù)節(jié)點(diǎn)間的關(guān)注關(guān)系定義了兩個(gè)特征:關(guān)聯(lián)度和影響力。定義關(guān)聯(lián)度用來(lái)衡量待判斷數(shù)據(jù)節(jié)點(diǎn)與已有數(shù)據(jù)節(jié)點(diǎn)集合間的連通強(qiáng)度,并以此判斷該數(shù)據(jù)節(jié)點(diǎn)是否為所需主題。而利用影響力可以使得實(shí)驗(yàn)向相對(duì)正確的方向擴(kuò)展分析發(fā)現(xiàn)目標(biāo)數(shù)據(jù)以及數(shù)據(jù)節(jié)點(diǎn)。
本文選定目標(biāo)內(nèi)容相關(guān)的若干個(gè)公認(rèn)較為精準(zhǔn)數(shù)據(jù)節(jié)點(diǎn)作為種子集,并以此為基礎(chǔ)擴(kuò)展搜索獲取種子集數(shù)據(jù)節(jié)點(diǎn)的關(guān)注數(shù)據(jù)節(jié)點(diǎn)(即該數(shù)據(jù)節(jié)點(diǎn)中存在的數(shù)據(jù)節(jié)點(diǎn)鏈接)中滿足條件的部分,并不斷迭代擴(kuò)大數(shù)據(jù)節(jié)點(diǎn)池規(guī)模直到得到以種子集為代表的所需內(nèi)容的主題數(shù)據(jù)節(jié)點(diǎn)集。最終實(shí)驗(yàn)結(jié)果顯示基于關(guān)注關(guān)系的關(guān)聯(lián)度和影響力能較好地進(jìn)行互聯(lián)網(wǎng)云數(shù)據(jù)發(fā)現(xiàn)。
互聯(lián)網(wǎng)上一個(gè)數(shù)據(jù)節(jié)點(diǎn)上存在數(shù)個(gè)數(shù)據(jù)節(jié)點(diǎn)鏈接,即可抽象為這數(shù)個(gè)數(shù)據(jù)節(jié)點(diǎn)被該數(shù)據(jù)節(jié)點(diǎn)關(guān)注,而該數(shù)據(jù)節(jié)點(diǎn)關(guān)注了其他數(shù)個(gè)數(shù)據(jù)節(jié)點(diǎn)。因此數(shù)據(jù)節(jié)點(diǎn)之間的這種“關(guān)注與被關(guān)注”的關(guān)系構(gòu)成了數(shù)據(jù)節(jié)點(diǎn)之間的有向邊。根據(jù)內(nèi)部群體同質(zhì)性,在一定條件下,在相同群體內(nèi)部的關(guān)注行為是同質(zhì)的[8]。擁有相似主題的數(shù)據(jù)節(jié)點(diǎn)之間存在很多關(guān)注關(guān)系,這將導(dǎo)致這些數(shù)據(jù)節(jié)點(diǎn)之間的連通密度顯著提高。關(guān)注關(guān)系數(shù)據(jù)的獲取過(guò)程相對(duì)簡(jiǎn)單,同時(shí)也具有穩(wěn)定性。因此,使用關(guān)注關(guān)系來(lái)進(jìn)行互聯(lián)網(wǎng)云數(shù)據(jù)發(fā)現(xiàn)較為靈活且迅速。為了衡量數(shù)據(jù)節(jié)點(diǎn)之間的連通密度,我們定義了關(guān)聯(lián)度;同時(shí)為了衡量已有數(shù)據(jù)節(jié)點(diǎn)集的權(quán)威排序,我們定義了影響力?;ヂ?lián)網(wǎng)數(shù)據(jù)節(jié)點(diǎn)關(guān)聯(lián)網(wǎng)絡(luò)可以使用關(guān)注與被關(guān)注關(guān)系的有向圖來(lái)表示[9]。
圖1 擴(kuò)展過(guò)程簡(jiǎn)單示例
有向圖G= (V,E)表示微博的完整互聯(lián)網(wǎng)集,其中V表示互聯(lián)網(wǎng)集中的數(shù)據(jù)節(jié)點(diǎn)集,而E表示其中的關(guān)注關(guān)系集;待發(fā)現(xiàn)的數(shù)據(jù)節(jié)點(diǎn)集有向圖G’= (V’,E’)表示G= (V,E)的一個(gè)子圖,V’表示子圖中的數(shù)據(jù)節(jié)點(diǎn)集,而E’表示子圖中的關(guān)注關(guān)系邊集。并滿足以下條件:
(1)V’中的所有點(diǎn)表示已判斷的數(shù)據(jù)節(jié)點(diǎn)以及現(xiàn)階段等待判斷的未確定數(shù)據(jù)節(jié)點(diǎn);
(2)E’中的所有邊表示圖G’= (V’,E’)中的所有數(shù)據(jù)節(jié)點(diǎn)的關(guān)注關(guān)系;
(3)圖G’= (V’,E’)隨著不斷持續(xù)的數(shù)據(jù)節(jié)點(diǎn)挖掘發(fā)現(xiàn)在不斷擴(kuò)大。
有向圖G’= (V’,E’)被構(gòu)建來(lái)衡量計(jì)算一個(gè)未確定的數(shù)據(jù)節(jié)點(diǎn)與已有數(shù)據(jù)節(jié)點(diǎn)集之間的關(guān)聯(lián)度。本文的所有實(shí)驗(yàn)工作均基于圖G’展開(kāi)。
當(dāng)本文的實(shí)驗(yàn)系統(tǒng)不斷地?cái)U(kuò)展到新數(shù)據(jù)節(jié)點(diǎn)時(shí),只會(huì)考慮那些關(guān)聯(lián)度大于當(dāng)前的關(guān)聯(lián)度閾值的數(shù)據(jù)節(jié)點(diǎn),而產(chǎn)生的不合格的數(shù)據(jù)節(jié)點(diǎn)將會(huì)在擴(kuò)展過(guò)程中被丟棄以降低擴(kuò)展的代價(jià)。擴(kuò)展過(guò)程的簡(jiǎn)單示例如圖1所示,圖中有向箭頭表示數(shù)據(jù)節(jié)點(diǎn)間的關(guān)注關(guān)系,淺色的點(diǎn)代表已確定并且已經(jīng)過(guò)擴(kuò)展的數(shù)據(jù)節(jié)點(diǎn),深色的點(diǎn)代表已確定且正在進(jìn)行擴(kuò)展分析的數(shù)據(jù)節(jié)點(diǎn),空心的點(diǎn)表示剛剛擴(kuò)展獲得且正在分析的數(shù)據(jù)節(jié)點(diǎn),而虛線構(gòu)成的點(diǎn)代表根據(jù)擴(kuò)展修正算法而被舍棄的數(shù)據(jù)節(jié)點(diǎn)。
圖1(a)中左側(cè)的點(diǎn)均為確定的數(shù)據(jù)節(jié)點(diǎn),其中包括已擴(kuò)展結(jié)束的淺色點(diǎn)以及尚未進(jìn)行擴(kuò)展的黑色點(diǎn);圖1(b)中右側(cè)空心點(diǎn)代表從深色點(diǎn)進(jìn)行擴(kuò)展得到的未確定點(diǎn);圖1(c)表示根據(jù)右側(cè)未確定點(diǎn)與左側(cè)已確定節(jié)點(diǎn)團(tuán)體之間的關(guān)聯(lián)度進(jìn)行的點(diǎn)取舍,其中被舍棄的點(diǎn) 的關(guān)聯(lián)度不滿足閾值;圖1(d)表示所有已確定節(jié)點(diǎn)進(jìn)行影響力排序。
直觀地,某些數(shù)據(jù)節(jié)點(diǎn)由于主題的相關(guān)性,存在大量的指向與被指向關(guān)系即關(guān)注關(guān)系。因此本文基于某個(gè)數(shù)據(jù)節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)集中其他數(shù)據(jù)節(jié)點(diǎn)間的關(guān)注關(guān)系定義了關(guān)聯(lián)度。此處利用數(shù)據(jù)節(jié)點(diǎn)的出度與入度來(lái)計(jì)算關(guān)聯(lián)度[10],低復(fù)雜度的計(jì)算能夠提高實(shí)驗(yàn)系統(tǒng)判斷響應(yīng)速度且能降低針對(duì)大規(guī)模數(shù)據(jù)時(shí)的計(jì)算成本。簡(jiǎn)單來(lái)說(shuō),當(dāng)某數(shù)據(jù)節(jié)點(diǎn)與目標(biāo)數(shù)據(jù)節(jié)點(diǎn)集之間有更多的出度與入度,也就表明了該數(shù)據(jù)節(jié)點(diǎn)屬于目標(biāo)數(shù)據(jù)節(jié)點(diǎn)集的概率更大。但互聯(lián)網(wǎng)中存在被指向達(dá)到數(shù)千萬(wàn)的數(shù)據(jù)節(jié)點(diǎn),而一般的主題數(shù)據(jù)節(jié)點(diǎn)集中的數(shù)據(jù)節(jié)點(diǎn)同樣也可能指向這些數(shù)據(jù)節(jié)點(diǎn),導(dǎo)致數(shù)據(jù)節(jié)點(diǎn)集中有大量的出邊指向這樣的數(shù)據(jù)節(jié)點(diǎn),這就使得這種數(shù)據(jù)節(jié)點(diǎn)在一般的主題數(shù)據(jù)節(jié)點(diǎn)集中也會(huì)擁有較高的關(guān)聯(lián)度和影響力。這些不屬于主題數(shù)據(jù)節(jié)點(diǎn)集的特殊數(shù)據(jù)節(jié)點(diǎn)如果加入進(jìn)去,其海量的關(guān)注關(guān)系將導(dǎo)致互聯(lián)網(wǎng)數(shù)據(jù)節(jié)點(diǎn)集發(fā)現(xiàn)偏離主題導(dǎo)致無(wú)限擴(kuò)散而失敗。為了避免這種情況出現(xiàn),我們?cè)陉P(guān)聯(lián)度中引入了懲罰因子來(lái)抑制此類數(shù)據(jù)節(jié)點(diǎn)的加入?;诖说贸鲫P(guān)聯(lián)度來(lái)判斷新擴(kuò)展數(shù)據(jù)節(jié)點(diǎn)是否屬于圖G’。根據(jù)數(shù)據(jù)節(jié)點(diǎn)的出度與入度及懲罰因子定義關(guān)聯(lián)度公式為:
(1)
在互聯(lián)網(wǎng)主題數(shù)據(jù)節(jié)點(diǎn)集中,若其中一個(gè)數(shù)據(jù)節(jié)點(diǎn)的多數(shù)指向數(shù)據(jù)節(jié)點(diǎn)與被指向數(shù)據(jù)節(jié)點(diǎn)屬于該數(shù)據(jù)節(jié)點(diǎn)集,那么可以認(rèn)為該數(shù)據(jù)節(jié)點(diǎn)在該數(shù)據(jù)節(jié)點(diǎn)集中擁有更高的影響力。為了計(jì)算出在等待擴(kuò)展時(shí)的優(yōu)先權(quán),需要做的是衡量出圖G’中的所有數(shù)據(jù)節(jié)點(diǎn)的影響力。因?yàn)閳DG’中的大部分?jǐn)?shù)據(jù)節(jié)點(diǎn)均是活躍的,且具有相同主題的數(shù)據(jù)節(jié)點(diǎn)更趨于互相關(guān)注。所以基于節(jié)點(diǎn)之間的關(guān)注關(guān)系來(lái)衡量數(shù)據(jù)節(jié)點(diǎn)在數(shù)據(jù)節(jié)點(diǎn)集內(nèi)的影響力。數(shù)據(jù)節(jié)點(diǎn)的影響力公式為:
(2)
其中:p為等待判斷影響力的數(shù)據(jù)節(jié)點(diǎn),Nin為圖G’中所有數(shù)據(jù)節(jié)點(diǎn)的入度之和,Nout為圖G’中所有數(shù)據(jù)節(jié)點(diǎn)的出度之和,實(shí)際中的Nin值與Nout的值相等,In(p) 為p數(shù)據(jù)節(jié)點(diǎn)的入度而Out(p)為p數(shù)據(jù)節(jié)點(diǎn)的出度,ω1與ω2為各屬性的權(quán)重,ω1+ω2=1,它們值的調(diào)整象征著在計(jì)算中關(guān)注對(duì)象與用戶對(duì)影響力的貢獻(xiàn)比例。
本文選擇關(guān)聯(lián)度特征作為分析標(biāo)準(zhǔn),并根據(jù)關(guān)聯(lián)度設(shè)定加入云數(shù)據(jù)的閾值,計(jì)算閾值的公式為:
(3)
其中:C(p)即為圖G’內(nèi)一數(shù)據(jù)節(jié)點(diǎn)與圖G’內(nèi)其他數(shù)據(jù)節(jié)點(diǎn)的關(guān)聯(lián)度值,N為當(dāng)前圖G’內(nèi)數(shù)據(jù)節(jié)點(diǎn)數(shù)量,而α為一可變參數(shù),它的范圍為-1.0到1.0,通過(guò)調(diào)整它即可調(diào)整產(chǎn)生的閾值V的高低,即可調(diào)整數(shù)據(jù)節(jié)點(diǎn)集的擴(kuò)展梯度和最終的數(shù)據(jù)節(jié)點(diǎn)集大小。
本文還設(shè)定了一個(gè)步長(zhǎng)參數(shù),通過(guò)調(diào)整它可以控制每一輪擴(kuò)展的規(guī)模。步長(zhǎng)參數(shù)公式為:
d=N×β
(4)
其中:N為當(dāng)前圖G’內(nèi)數(shù)據(jù)節(jié)點(diǎn)數(shù)量,β取值范圍為0到1.0,通過(guò)步長(zhǎng)參數(shù)可以控制每輪擴(kuò)展結(jié)果的步長(zhǎng)。
算法步驟如下。
步驟1:先選取一些某主題內(nèi)公認(rèn)權(quán)威數(shù)據(jù)節(jié)點(diǎn)作為種子集,這些種子數(shù)據(jù)節(jié)點(diǎn)構(gòu)成了最初的圖G’并標(biāo)記為未擴(kuò)展。
步驟2:使用公式(2)更新圖G’內(nèi)已有數(shù)據(jù)節(jié)點(diǎn)的影響力值。
步驟3:選取當(dāng)前圖G’中未擴(kuò)展且影響力最大的數(shù)據(jù)節(jié)點(diǎn),擴(kuò)展獲得其關(guān)注數(shù)據(jù)節(jié)點(diǎn)并將該數(shù)據(jù)節(jié)點(diǎn)標(biāo)記為已擴(kuò)展。
步驟4:將一個(gè)新獲得待判斷的數(shù)據(jù)節(jié)點(diǎn)臨時(shí)加入圖G’得到G’’,使用公式(1)計(jì)算出他在圖G’’中的關(guān)聯(lián)度值C(p),若關(guān)聯(lián)度值大于公式(3)計(jì)算出的閾值,則將該點(diǎn)加入圖G’,否則舍棄并重復(fù)步驟3和步驟4直到新找出的加入圖G’的數(shù)據(jù)節(jié)點(diǎn)數(shù)量不小于公式(4)得到的當(dāng)前步長(zhǎng)。
步驟5:重復(fù)步驟2,步驟3,步驟4,直到目標(biāo)數(shù)據(jù)節(jié)點(diǎn)集達(dá)到設(shè)定的規(guī)模大小或圖G’內(nèi)不存在待擴(kuò)展的數(shù)據(jù)節(jié)點(diǎn)。
本文選取數(shù)據(jù)挖掘作為目標(biāo)數(shù)據(jù)節(jié)點(diǎn)集的主題,并通過(guò)2.4節(jié)中的算法獲取該互聯(lián)網(wǎng)主題數(shù)據(jù)節(jié)點(diǎn)集。為了便于人工檢測(cè)興趣云數(shù)據(jù)發(fā)現(xiàn)方法的有效性,本文定義數(shù)據(jù)節(jié)點(diǎn)集的上限為500,并通過(guò)調(diào)節(jié)各個(gè)參數(shù)進(jìn)行組合共做了四組互聯(lián)網(wǎng)主題數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)挖掘發(fā)現(xiàn)實(shí)驗(yàn),并對(duì)最終實(shí)驗(yàn)結(jié)果進(jìn)行分析與比較。在表1中,可以看到各參數(shù)值以及最終數(shù)據(jù)節(jié)點(diǎn)集準(zhǔn)確率。對(duì)于數(shù)據(jù)節(jié)點(diǎn)集中數(shù)據(jù)節(jié)點(diǎn)準(zhǔn)確與否的判斷標(biāo)準(zhǔn)是該數(shù)據(jù)節(jié)點(diǎn)的主題以及指向數(shù)據(jù)節(jié)點(diǎn)與所指向的數(shù)據(jù)節(jié)點(diǎn)主題決定。
表1 實(shí)驗(yàn)各參數(shù)值及實(shí)驗(yàn)結(jié)果準(zhǔn)確率
由表1的實(shí)驗(yàn)結(jié)果可以看出,調(diào)整參數(shù)所產(chǎn)生的4組實(shí)驗(yàn)中,本文的互聯(lián)網(wǎng)主題數(shù)據(jù)節(jié)點(diǎn)集方法在數(shù)據(jù)節(jié)點(diǎn)集規(guī)模達(dá)到500的前期至少有82.67%的準(zhǔn)確率。盡管不同參數(shù)下數(shù)據(jù)節(jié)點(diǎn)集發(fā)現(xiàn)的準(zhǔn)確率相差不大,但是實(shí)際得到的結(jié)果數(shù)據(jù)節(jié)點(diǎn)集中數(shù)據(jù)節(jié)點(diǎn)構(gòu)成存在一些差異。
此處有必要對(duì)數(shù)據(jù)節(jié)點(diǎn)集中數(shù)據(jù)節(jié)點(diǎn)進(jìn)行分類以便更好地進(jìn)行展示及分析。與數(shù)據(jù)結(jié)合點(diǎn)中人員構(gòu)成類似,最終數(shù)據(jù)節(jié)點(diǎn)集中數(shù)據(jù)節(jié)點(diǎn)可以分為3種:權(quán)威數(shù)據(jù)節(jié)點(diǎn)、稍重要數(shù)據(jù)節(jié)點(diǎn)以及一般數(shù)據(jù)節(jié)點(diǎn),通常在互聯(lián)網(wǎng)中中這3種數(shù)據(jù)節(jié)點(diǎn)會(huì)呈現(xiàn)出金字塔型結(jié)構(gòu),由于本實(shí)驗(yàn)屬于互聯(lián)網(wǎng)主題數(shù)據(jù)節(jié)點(diǎn)集的早期階段,所以本實(shí)驗(yàn)的最終獲得的數(shù)據(jù)節(jié)點(diǎn)集內(nèi)數(shù)據(jù)節(jié)點(diǎn)分類情況見(jiàn)表2。
表2 實(shí)驗(yàn)發(fā)現(xiàn)的數(shù)據(jù)節(jié)點(diǎn)集內(nèi)數(shù)據(jù)節(jié)點(diǎn)的各比例構(gòu)成
1)由于在計(jì)算影響力值時(shí)對(duì)用戶數(shù)據(jù)節(jié)點(diǎn)的權(quán)重的提升,實(shí)驗(yàn)Ⅰ得到的云數(shù)據(jù)結(jié)果中有超過(guò)一半的用戶分屬于權(quán)威數(shù)據(jù)節(jié)點(diǎn)類別。然而實(shí)驗(yàn)Ⅲ中由于閾值門(mén)檻的降低,雖然在實(shí)驗(yàn)初期跟其他實(shí)驗(yàn)相比并無(wú)較大差別,但實(shí)驗(yàn)中的數(shù)據(jù)節(jié)點(diǎn)集中數(shù)據(jù)節(jié)點(diǎn)的準(zhǔn)確率比其他降得都快,同時(shí)超過(guò)半數(shù)的數(shù)據(jù)節(jié)點(diǎn)都屬于一般數(shù)據(jù)節(jié)點(diǎn)。
2)將實(shí)驗(yàn)Ⅳ與實(shí)驗(yàn)Ⅱ比較后,可以看到將擴(kuò)展步長(zhǎng)調(diào)到較小沒(méi)有獲得較大的正確率的提升,但擴(kuò)展到相同的數(shù)據(jù)節(jié)點(diǎn)集規(guī)模卻需要更多的輪次。同樣將數(shù)據(jù)節(jié)點(diǎn)集規(guī)模擴(kuò)展達(dá)到500規(guī)模,其他實(shí)驗(yàn)僅需11輪的同時(shí)實(shí)驗(yàn)Ⅳ卻需要多達(dá)21輪擴(kuò)展,這其中的擴(kuò)展步驟將耗費(fèi)更多的計(jì)算與時(shí)間。
圖2 4個(gè)實(shí)驗(yàn)在各擴(kuò)展階段云數(shù)據(jù)成員準(zhǔn)確率
3)通過(guò)對(duì)最終數(shù)據(jù)節(jié)點(diǎn)集內(nèi)錯(cuò)誤劃分到該集合內(nèi)的數(shù)據(jù)節(jié)點(diǎn)分析,可以看到該錯(cuò)誤數(shù)據(jù)節(jié)點(diǎn)會(huì)有較多的真正屬于該數(shù)據(jù)節(jié)點(diǎn)集的用戶指向。產(chǎn)生錯(cuò)誤的原因是該錯(cuò)誤數(shù)據(jù)節(jié)點(diǎn)在特定的熱點(diǎn)主題中擁有較高的影響,例如購(gòu)物、健康、股票以及熱點(diǎn)主題,因此數(shù)據(jù)節(jié)點(diǎn)集內(nèi)較多數(shù)據(jù)節(jié)點(diǎn)對(duì)該數(shù)據(jù)節(jié)點(diǎn)的指向關(guān)注導(dǎo)致了對(duì)該數(shù)據(jù)節(jié)點(diǎn)的錯(cuò)誤劃分。這種現(xiàn)象可能在一輪擴(kuò)展里出現(xiàn)多次,而該輪導(dǎo)致的結(jié)果就是準(zhǔn)確率會(huì)急劇下降。在圖3中,實(shí)驗(yàn)Ⅱ的第7輪擴(kuò)展由于錯(cuò)誤劃分了12位用戶,導(dǎo)致了準(zhǔn)確率出現(xiàn)了較大的下降。本輪結(jié)束后,根據(jù)實(shí)驗(yàn)步驟對(duì)已有數(shù)據(jù)節(jié)點(diǎn)集內(nèi)數(shù)據(jù)節(jié)點(diǎn)的影響力進(jìn)行計(jì)算并排序,可以有效抑制錯(cuò)誤在下一輪中進(jìn)一步擴(kuò)大。因此第8輪擴(kuò)展可以看出錯(cuò)誤并沒(méi)有延續(xù),且最終正確率達(dá)到了一個(gè)較高的水平。可以看到,較弱的關(guān)聯(lián)度閾值對(duì)于錯(cuò)誤的控制并沒(méi)有起到較好的效果。
圖3 在前10輪產(chǎn)生的錯(cuò)誤及對(duì)其控制的細(xì)節(jié)
基于互聯(lián)網(wǎng)鏈接關(guān)系與數(shù)據(jù)結(jié)合點(diǎn)中關(guān)注關(guān)系的相似,將鏈接關(guān)系抽象為關(guān)注關(guān)系并基于此提出了一種互聯(lián)網(wǎng)云數(shù)據(jù)的挖掘方法,并由此定義關(guān)聯(lián)度和影響力作為特征來(lái)進(jìn)行主題數(shù)據(jù)節(jié)點(diǎn)集的發(fā)現(xiàn),且最終劃分到數(shù)據(jù)節(jié)點(diǎn)集內(nèi)的數(shù)據(jù)節(jié)點(diǎn)具有較高的正確率。本文的實(shí)驗(yàn)論證了提出的發(fā)現(xiàn)方法互聯(lián)網(wǎng)云數(shù)據(jù)環(huán)境下發(fā)現(xiàn)主題數(shù)據(jù)節(jié)點(diǎn)集的有效性,且通過(guò)對(duì)過(guò)程中各項(xiàng)參數(shù)進(jìn)行調(diào)整,可以調(diào)整最終數(shù)據(jù)節(jié)點(diǎn)集結(jié)果中的各種類型數(shù)據(jù)節(jié)點(diǎn)的比例構(gòu)成。根據(jù)本文方法的特點(diǎn),此方法最終可以實(shí)現(xiàn)準(zhǔn)實(shí)時(shí)互聯(lián)網(wǎng)主題云數(shù)據(jù)挖掘,可以更好地運(yùn)用于針對(duì)互聯(lián)網(wǎng)云數(shù)據(jù)的獲取與使用的便利。在后繼的研究中,我們計(jì)劃繼續(xù)挖掘互聯(lián)網(wǎng)鏈接關(guān)系的潛在特性,以減少數(shù)據(jù)節(jié)點(diǎn)集發(fā)現(xiàn)過(guò)程中的錯(cuò)誤產(chǎn)生和擴(kuò)散,以期互聯(lián)網(wǎng)云數(shù)據(jù)挖掘有更好的效果。
[1] 陳 琳,李 勇,王 磊. 面向移動(dòng)互聯(lián)網(wǎng)的不良信息監(jiān)控系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)測(cè)量與控制, 2016, 24(9):126-129.
[2] 崔道江,陳 琳,李 勇. 智能檢索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)優(yōu)化研究[J]. 計(jì)算機(jī)測(cè)量與控制, 2017, 25(6): 189-191.
[3] 林明方. 異構(gòu)式分布下的Internet數(shù)據(jù)挖掘方法優(yōu)化研究[J]. 計(jì)算機(jī)測(cè)量與控制, 2017,25(7):282-284, 289.
[4] 喬智勇, 劉志鏡. Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及實(shí)現(xiàn)研究[J]. 計(jì)算
機(jī)工程與設(shè)計(jì), 2002, 23(7):36-38.
[5] 曼麗春, 朱 宏, 楊全勝. Web 數(shù)據(jù)挖掘研究與探討[J]. 現(xiàn)代電子技術(shù), 2005, 28(8): 3-6.
[6] 李鑫洪, 李慶華, 劉煒娜. 國(guó)內(nèi)Web數(shù)據(jù)挖掘研究綜述[J]. 現(xiàn)代計(jì)算機(jī):普及版, 2013(12):14-18.
[7] 邢東東, 王秀文. 基于微博媒體的云數(shù)據(jù)發(fā)現(xiàn)技術(shù)研究[J]. 智能計(jì)算機(jī)與應(yīng)用, 2013, 3(6):74-77.
[8] 孫怡帆, 李 賽. 基于相似度的微博社交網(wǎng)絡(luò)的云數(shù)據(jù)發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(12):2797-2807.
[9] 余永紅,向曉軍,高 陽(yáng),等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J]. 計(jì)算機(jī)科學(xué)與探索,2012(1):112-132.
[10] 丁 靜,楊善林,羅 賀,等.云計(jì)算環(huán)境下的數(shù)據(jù)挖掘服務(wù)模式[J]. 計(jì)算機(jī)科學(xué),2012(S1):56-65.
[11] 鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J]. 情報(bào)理論與實(shí)踐,2015(7):78-89.
[12] 朱亞?wèn)|.云計(jì)算網(wǎng)絡(luò)中邊界節(jié)點(diǎn)識(shí)別方法改進(jìn)研究[J]. 計(jì)算機(jī)測(cè)量與控制,2017(1):211-214.
[13] 張生福.云計(jì)算虛擬現(xiàn)實(shí)技術(shù)供應(yīng)鏈協(xié)同系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)測(cè)量與控制,2017(6):98-112.
[14] 古忻艷.網(wǎng)絡(luò)計(jì)算機(jī)模型下海量大數(shù)據(jù)存儲(chǔ)系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)測(cè)量與控制,2017(6):55-71.
[15] 何 清,莊福振,曾 立,等.PDMiner:基于云計(jì)算的并行分布式數(shù)據(jù)挖掘工具平臺(tái)[J]. 中國(guó)科學(xué):信息科學(xué),2014(7):88-117.