亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多異構(gòu)社交網(wǎng)絡(luò)的全局建模及應(yīng)用例證

        2020-12-18 04:45:52王藝霖仲兆滿樊繼冬
        數(shù)據(jù)采集與處理 2020年6期
        關(guān)鍵詞:異構(gòu)突發(fā)事件關(guān)聯(lián)

        王藝霖,仲兆滿,樊繼冬,管 燕

        (1.江蘇海洋大學海洋科學與水產(chǎn)學院,連云港,222005;2.江蘇海洋大學計算機工程學院,連云港,222005;3.江蘇省海洋資源開發(fā)研究院(連云港),連云港,222005)

        引 言

        諸多媒體包含了大量的用戶及用戶創(chuàng)造的內(nèi)容,包括Facebook、Twitter、MySpace、LinkedIn、Google+、微博、人人網(wǎng)、論壇、貼吧以及微信等,這類媒體被稱為在線社交網(wǎng)絡(luò)(Online social net?works,OSNs)。單個社交網(wǎng)絡(luò)包含了不同類型的實體以及實體之間建立了不同的關(guān)聯(lián),是典型的異構(gòu)社交網(wǎng)絡(luò),即網(wǎng)絡(luò)上的實體或者關(guān)系是多類型的。在單異構(gòu)社交網(wǎng)絡(luò)的基礎(chǔ)上,多個社交網(wǎng)絡(luò)通過某些實體產(chǎn)生關(guān)聯(lián),比如用戶賬戶、發(fā)表的信息等,這樣多個社交網(wǎng)絡(luò)又建立了更加復雜的網(wǎng)絡(luò)結(jié)構(gòu)。Bartunov 等[1]的研究表明,約有84%的互聯(lián)網(wǎng)用戶擁有多于一個的社交網(wǎng)站賬戶。2015 年,Global Web Index 面向50 個社交媒體的調(diào)研發(fā)現(xiàn),每個人平均擁有5.54 個賬號,經(jīng)?;钴S在2.82 個社交網(wǎng)絡(luò)上。由于社交網(wǎng)絡(luò)信息傳播性強,具有復雜網(wǎng)絡(luò)的結(jié)構(gòu)特征,內(nèi)部蘊含了豐富的潛在有價值信息,近幾年引起了學術(shù)界和產(chǎn)業(yè)界的高度重視??缍鄠€社交網(wǎng)絡(luò)的研究可以有效連接不同社交網(wǎng)絡(luò)的獨立異構(gòu)數(shù)據(jù),實現(xiàn)網(wǎng)絡(luò)的深層融合和數(shù)據(jù)的綜合利用。在多異構(gòu)社交網(wǎng)絡(luò)的研究過程中,以用戶為中心的分析方法相對充分,尤其是同一自然人在多個社交網(wǎng)絡(luò)的對齊關(guān)聯(lián)。因為人們更多地關(guān)注了用戶在多個社交網(wǎng)絡(luò)的社交圈子、社交行為、生活習慣和興趣愛好,在興趣推薦、社區(qū)發(fā)現(xiàn)以及特殊人員監(jiān)控等領(lǐng)域有著廣泛的應(yīng)用價值。

        1 相關(guān)工作

        1.1 單異構(gòu)社交網(wǎng)絡(luò)表示模型

        異構(gòu)社交網(wǎng)絡(luò)是指網(wǎng)絡(luò)中包含了不同的實體以及實體之間形成了不同的關(guān)系。因此,單異構(gòu)社交網(wǎng)絡(luò)的表示模型多是圍繞網(wǎng)絡(luò)中的對象及其關(guān)系加以描述。根據(jù)單異構(gòu)社交網(wǎng)絡(luò)表示模型包含的要素個數(shù),可分為二元組、三元組以及多元組等模型。二元組是對社交網(wǎng)絡(luò)的節(jié)點及其關(guān)系的直觀抽象描述形式。Yang 等[2]在研究社交推薦系統(tǒng)的協(xié)同過濾時,提出的社交網(wǎng)絡(luò)模型為有向圖G=(U,F(xiàn)),U是用戶集合,F(xiàn)是朋友鏈接集合。Chen 等[3]面向問答型社交網(wǎng)絡(luò),將網(wǎng)絡(luò)描述為一個由用戶、問題及類別3 種節(jié)點,用戶之間、用戶與問題之間、問題與類別之間3 種聯(lián)系邊的異構(gòu)網(wǎng)絡(luò)。Seo 等[4]定義的異構(gòu)信息網(wǎng)絡(luò)為二元組G={V,E},V是信息對象,E是信息對象之間的關(guān)系。

        有些研究者對社交網(wǎng)絡(luò)的節(jié)點和邊進行了細分,或者為邊添加了權(quán)重,進而形成了異構(gòu)社交網(wǎng)絡(luò)的 三 元 組 表 示 模 型 。 Li 等[5]定 義 社 交 網(wǎng) 絡(luò) 為 三 元 組 SNL=,U為 用 戶 集 ,NU×U?U×U表示用戶之間的好友關(guān)系集,P=Pu1∪,…,∪Pum是用戶發(fā)表、評論和交互的集合。Tang 等[6]將大規(guī)模復雜信息網(wǎng)絡(luò)定義為:G=(V,E,W),V代表網(wǎng)站的節(jié)點結(jié)合,E是邊的集合,W為邊的權(quán)重,表示關(guān)系的強度。齊金山等[7]在文獻[6]的基礎(chǔ)上,添加了C表示所有數(shù)據(jù)對象的多媒體內(nèi)容構(gòu)成,進而定義大規(guī)模復雜信息網(wǎng)絡(luò)為G=(V,E,W,C)。Zhu 等[8]在度量影響力擴散時,認為社交網(wǎng)絡(luò)是一個有向二部圖G(V,E,W),節(jié)點V=U∪B,U是用戶集合,B是用戶發(fā)表的內(nèi)容集合;邊E=EU→B∪EB→U,EU→B用戶指向內(nèi)容的邊集合,EB→U為內(nèi)容提及到用戶的邊集合;W是邊的權(quán)重。周小平等[9]將社交網(wǎng)絡(luò)表示為SN=(U,F(xiàn),C),其中U為用戶集合,F(xiàn)為用戶關(guān)系集合,C為用戶創(chuàng)造的內(nèi)容集合。汪潛等[10]定義一個社交網(wǎng)絡(luò)為G=(U,E,A),其中U為用戶集合,E代表用戶之間的關(guān)系集合,A為用戶的屬性集合。Qin 等[11]定義異構(gòu)社交網(wǎng)絡(luò)為三元組G={X,Y,E},X是社交網(wǎng)絡(luò)的節(jié)點集合,Y是節(jié)點產(chǎn)生的內(nèi)容集合,E是邊的集合。琚春華等[12]定義的電商化社交網(wǎng)絡(luò)包含了用戶U={u1,u2,…,un}、好友F={F1,F(xiàn)2,…,F(xiàn)n}和用戶信用R={r1,r2,…,rn}。

        針對特定研究目標,一些研究者進一步對社交網(wǎng)絡(luò)的對象進行了更精細化的描述,由此形成了包含了 4 個要素以上的多元組表示模型。Vu 等[13]在總結(jié)了 Facebook、Twitter、LinkedIn 及 Google+等媒體特點的基礎(chǔ)上,定義了社交網(wǎng)絡(luò)模型的5 個主要維度,分別是包含了用戶名、描述、城市、E?mail、性別和地點的用戶背景,用戶之間建立的朋友關(guān)系,包含了用戶的群組、用戶興趣以及用戶發(fā)表的帖子。Kundu 等[14]提出了模糊粒社交網(wǎng)絡(luò)的概念FGSN,融合了粒計算理論和模糊鄰居系統(tǒng),將有向的社交網(wǎng)絡(luò)表示為四元組S=(C,V,GIN,GOUT),其中V是網(wǎng)絡(luò)中的節(jié)點,C?V是粒表示的有限集,GIN是入度關(guān)系的有限集,GOUT是出度關(guān)系的有限集。已有的社交網(wǎng)絡(luò)表示模型將個體作為活動節(jié)點,但FG?SN 可以從不同的粒度出發(fā)重新定義節(jié)點,比如將一些個體形成的群體作為活動節(jié)點。吳奇等[15]將社交網(wǎng)絡(luò)描述為五元組G=,其中V是節(jié)點集合,E?V×V是邊集合,A是節(jié)點的種類,是節(jié)點V經(jīng)過φ函數(shù)的投影,R是邊的類型,是邊E經(jīng)過φ函數(shù)的投影,φ是投影函數(shù)。仲兆滿等[16]面向特定的社交網(wǎng)絡(luò)——新浪微博,對其進行了細化的描述,給出了九元組表示模型:MBN=(U,MB,EUMB,EMBC,EMBF,EUU,EUForU,EUCU,EUPU),其中,U為用戶集,MB為微博集,EUMB、EMBC、EMBF、EUU、EUForU、EUCU、EUPU為用戶與用戶、微博與微博、用戶與微博之間形成的關(guān)系集。

        1.2 多異構(gòu)社交網(wǎng)絡(luò)表示模型

        由于單個異構(gòu)社交網(wǎng)絡(luò)包含的信息量有限,面向多個異構(gòu)社交網(wǎng)絡(luò)的融合問題是近期研究的熱點。在單一的社交網(wǎng)絡(luò)的表示模型基礎(chǔ)上,已有的融合多個異構(gòu)社交媒體的研究多是以圍繞用戶的對齊關(guān)聯(lián)展開的。

        Kong 等[17]首 先 提 出 了 以 用 戶 為 中 心 的 多 個 社 交 網(wǎng) 絡(luò) 對 齊 的 概 念 ,g=((G1,G2,…,Gn),(A1,2,A1,3,…,A1,n,A2,3,…,A(n-1),n)),其中,Gi=(Vi,Ei)(i∈{1,2,…,n})是單一的包含了各種類型節(jié)點和鏈接的社交網(wǎng)絡(luò),Ai,j是Gi和Gj錨鏈接集合。如果Gi和Gj的所有用戶都存在錨鏈接,Gi和Gj是全對齊,否則,Gi和Gj是部分對齊?,F(xiàn)實中的社交網(wǎng)絡(luò)用戶之間多是部分對齊。Zhan 等[18]選取了Four?square 和Twitter 進行了跨社交媒體的鏈接預(yù)測的研究。在借鑒文獻[17]定義的社交網(wǎng)絡(luò)對齊概念的基礎(chǔ)上,將社交網(wǎng)絡(luò)的節(jié)點和邊細化為G=({U∪L∪W∪T},{Eu,u∪Eu,l∪Eu,w∪Eu,t}),其中U、L、W和T分別是用戶集、地點集、文本集和時間戳集,Eu,u、Eu,l、Eu,w和Eu,t分別為用戶鏈接集、地點鏈接集、文本鏈接集和時間戳鏈接集。通過采集用戶在Foursquare 主頁上的Twitter 賬號,使得用戶在兩個平臺上的信息對齊。Buccafurri 等[19]定義了社交互聯(lián)網(wǎng)絡(luò)圖為G=,其中,N是節(jié)點集合,E是邊集合。以Facebook、LinkedIn 和Twitter 為例,給出了多社交網(wǎng)絡(luò)場景的表示方法,將Facebook、LinkedIn 抽象為無向圖,而Twitter 是有向圖。Liu 等[20]提出了社交實體連接的概念。假設(shè)P為現(xiàn)實世界的所有自然人集合,對一個社交網(wǎng)絡(luò)平臺S而言,CS是社交網(wǎng)絡(luò)平臺S的所有用戶集合,社交實體連接定義為f:CS×CS'?{0,1}。進一步地,提出了通過異構(gòu)行為模型建立跨平臺的用戶關(guān)聯(lián)。李國良等[21]開展了多社交網(wǎng)絡(luò)影響力最大化分析,選取了 DBLP、Citeseer、Linkedin 和 Aminer 進行了實驗比較。給定n個網(wǎng)絡(luò)G1(V1,E1)、G2(V2,E2),…,Gn(Vn,En),對于每個網(wǎng)絡(luò)Gi(Vi,Ei)(0 ≤i≤n),Vi表示網(wǎng)絡(luò)Gi的節(jié)點集合,Ei表示網(wǎng)絡(luò)Gi的邊集合,ETi表示網(wǎng)絡(luò)Gi的實體集合。表示所有節(jié)點集合,同樣,E表示所有邊集合,ET表示所有實體集合。Huang 等[22]面向Flickr 社交網(wǎng)絡(luò)研究了社交朋友的推薦,論文提到了多網(wǎng)絡(luò)協(xié)作推薦的方法,但其使用的還是一個社交網(wǎng)絡(luò)因不同的實體和關(guān)系而構(gòu)建的不同子網(wǎng),比如聯(lián)系網(wǎng)、標簽網(wǎng)和評論網(wǎng)等。Zhou 等[23]將一個社交媒體定義為一個三元組,SMN={U,C,I},U指用戶,C指連接,I指用戶之間的交互。C和I是用戶U生成的,因此U是社交媒體的核心。進一步地,給出了不同社交媒體的用戶匹配對的概念UMPA~B(i,j)。選取新浪微博和人人網(wǎng),重點研究了基于用戶的朋友網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)不同社交媒體對同一真實用戶的對齊關(guān)聯(lián)。Wang 等[24]面向兩個社交網(wǎng)絡(luò)Gx={Ux,Ex}、Gy={Uy,Ey}定義了用戶身份鏈接為是同一個自然人,每個社交網(wǎng)絡(luò)仍然為包含了節(jié)點和邊的二元組。

        Shi 等[25]系統(tǒng)地論述了當前異構(gòu)網(wǎng)絡(luò)分析的現(xiàn)狀和存在的不足,指出需要進一步研究的方向包括不同異構(gòu)網(wǎng)絡(luò)信息的融合、實體間關(guān)系的清晰梳理、面向不同應(yīng)用的異構(gòu)網(wǎng)絡(luò)挖掘方法等。

        1.3 存在的問題

        已有社交網(wǎng)絡(luò)表示模型的研究存在的問題概述如下:

        (1)對單社交網(wǎng)絡(luò)而言,表示模型仍然以包含了節(jié)點和邊的二元組、三元組為主,部分研究者根據(jù)不同社交網(wǎng)絡(luò)的特點,對節(jié)點和邊進行了一定的細化分析,進而形成了包含4 個要素以上的多元組表示模型。已有研究多是面向特定的目標而構(gòu)建社交網(wǎng)絡(luò)表示模型,在研究目標的約束下,構(gòu)建的表示模型多是為特定研究內(nèi)容服務(wù),沒能根據(jù)社交媒體具有的宏觀和微觀特點進一步揭示其包含的各種復雜實體和聯(lián)系。

        (2)對多社交網(wǎng)絡(luò)的融合而言,同一自然人在不同社交網(wǎng)絡(luò)的賬號對齊關(guān)聯(lián)是研究重點,因此面向多個社交網(wǎng)絡(luò)構(gòu)建的表示模型也受限于此。跳出研究目標的約束,系統(tǒng)地梳理不同社交網(wǎng)絡(luò)的內(nèi)在本質(zhì)聯(lián)系,面向各種類型社交媒體的全局建模方法還沒有文獻提及。

        2 多異構(gòu)社交網(wǎng)絡(luò)全局建模

        基于OSNs 的用戶空間、內(nèi)容空間的關(guān)聯(lián)以及不同OSNs 之間的分類關(guān)系,在理清每個OSN 包含的節(jié)點及其關(guān)系的基礎(chǔ)上,給出的多異構(gòu)社交網(wǎng)絡(luò)(Multi?heterogeneous social networks,MHSN)的全局表示模型如圖1 所示。MHSN 從縱向和橫向兩個角度刻畫了多個社交網(wǎng)絡(luò)OSNs 的關(guān)聯(lián)關(guān)系。顯然,用戶及內(nèi)容在不同OSNs 的關(guān)聯(lián)與傳播,構(gòu)建了更加復雜的多異構(gòu)社交網(wǎng)絡(luò)。多異構(gòu)社交網(wǎng)絡(luò)MHSN 全局表示模型描述如下:

        (1)多異構(gòu)社交網(wǎng)絡(luò)表示為MHSN=(G,R),其中G表示不同社交網(wǎng)絡(luò)類OSN 和實例osn 集合,R表示不同OSNs 建立關(guān)聯(lián)關(guān)系的集合;

        (2)最高層 OSNs 類表示為 OSNs=(US,CS,RUU,RCC,RUC,T),以用戶空間US和內(nèi)容空間CS為實體類型,進而在用戶之間、內(nèi)容之間及用戶和內(nèi)容之間形成了3 種關(guān)系RUU、RCC和RUC,以時間戳集合T刻畫OSNs 類的動態(tài)特性;

        (3)不同的OSNs 類之間通過繼承形成了分類關(guān)系,ER={(OSNiExtend OSNj)|OSNi,OSNj∈G,i≠j};

        (4)社交網(wǎng)絡(luò)OSNi,OSNj通過用戶的對齊形成了關(guān)聯(lián)關(guān)系,UR={(u1Alignu2)|u1∈ OSNi,u2∈ OSNj,i≠j},u1,u2是同一自然人在不同社交媒體的賬號描述;

        (5)社交網(wǎng)絡(luò) OSNi,OSNj通過內(nèi)容的對齊形成了關(guān)聯(lián)關(guān)系,CR={(c1Alignc2)|c1∈ OSNi,c2∈ OSNj,i≠j},c1,c2是同一信息內(nèi)容在不同社交媒體的呈現(xiàn)描述;

        (6) 社 交 網(wǎng) 絡(luò) 類 OSNi通 過 實 例 化 生 成 具 體 的 社 交 網(wǎng) 絡(luò) 實 例 osni,OR={(osnijObject OSNi)|OSNigenerates object osnij,OSNi,osnij∈G}。

        每個社交網(wǎng)絡(luò)都包含了復雜的實體及其關(guān)系。比如,Twitter 包含用戶和tweets 兩種實體,用戶與tweet 之間存在發(fā)表、回復、轉(zhuǎn)發(fā)和點贊關(guān)系,tweets 之間可以建立回復和轉(zhuǎn)發(fā)關(guān)系,用戶之間可以直接建立關(guān)注關(guān)系,并通過tweet 建立用戶間的回復和轉(zhuǎn)發(fā)關(guān)系。又如,百度貼吧包括貼吧、帖子和用戶實體,用戶與帖子之間存在發(fā)表、回復和收藏關(guān)系,帖子之間可以建立回復關(guān)系,用戶之間可以直接建立關(guān)注關(guān)系,并通過帖子建立用戶間的回復關(guān)系。同一用戶在不同社交媒體上有不同的表現(xiàn)形式,但對應(yīng)的都是同一自然人?;贛HSN 用戶空間的關(guān)聯(lián),可以分析多個OSNs 上用戶的社交行為和影響力,可以進行全面的用戶畫像描述。圖2 是同一真實用戶在多個不同社交媒體的對齊關(guān)聯(lián)示例。

        圖1 多異構(gòu)社交網(wǎng)絡(luò)MHSN 全局表示模型Fig.1 Global representation model of multiple heterogeneous social networks

        網(wǎng)絡(luò)上的內(nèi)容在不同社交媒體的呈現(xiàn)有兩種模式:一種是顯式的,指同一篇信息在不同網(wǎng)絡(luò)上的傳播,比如新浪媒體發(fā)表的一篇新聞在貼吧、微博中以轉(zhuǎn)發(fā)的形式進行傳播;另一種是隱式的,指對同一內(nèi)容的描述采用了不同的表達方式,比如不同用戶對同一突發(fā)事件從不同側(cè)面進行了描述和分析,各個內(nèi)容是獨立的,但又內(nèi)在關(guān)聯(lián)到了同一突發(fā)事件。不同的社交媒體產(chǎn)生的內(nèi)容有所差異,總體上包括文本、圖片和音視頻等類型?;贛HSN 內(nèi)容空間的關(guān)聯(lián),可以分析信息在不同OSNs 上關(guān)聯(lián)的用戶數(shù),閱讀、評論及轉(zhuǎn)發(fā)數(shù),進而可以全面地計算信息的影響力、熱度值等。圖3 是社交媒體顯式內(nèi)容對齊關(guān)聯(lián)示例。

        圖2 MHSN 用戶對齊關(guān)聯(lián)示例Fig.2 User alignment association example of MHSN

        圖3 MHSN 顯式內(nèi)容的對齊關(guān)聯(lián)示例Fig.3 Explicit content alignment association ex?ample of MHSN

        3 多異構(gòu)社交網(wǎng)絡(luò)表示模型應(yīng)用例證

        本文選取基于異構(gòu)社交網(wǎng)絡(luò)的內(nèi)容空間關(guān)聯(lián)(突發(fā)事件檢測)及用戶空間關(guān)聯(lián)(用戶興趣挖掘)的兩個應(yīng)用場景,闡述多異構(gòu)社交網(wǎng)絡(luò)全局建模的應(yīng)用策略。

        3.1 基于MHSN 的地域突發(fā)事件檢測

        3.1.1 多異構(gòu)社交網(wǎng)絡(luò)突發(fā)事件檢測融合策略

        本文使用的社交網(wǎng)絡(luò)地域突發(fā)事件檢測如定義1 所述。

        定義1[26]地域Top?k突發(fā)事件,形式化描述為一個三元組:LEE=(l,t,E),l表示地域,t表示時間段,E表示 Top?k個突發(fā)事件集合,E={e1,e2,…,ek},ei={kw1,kw2,…,kwn}。從語義上講,地域 Top?k突發(fā)事件指地域l在時間段t發(fā)生的,產(chǎn)生較大影響的k個事件。多個社交網(wǎng)絡(luò)的內(nèi)容空間融合問題可以簡化為兩兩社交網(wǎng)絡(luò)的內(nèi)容融合。基于內(nèi)容空間的社交網(wǎng)絡(luò)SN1、SN2突發(fā)事件檢測融合策略如圖4所示。從自上而下的角度看,單異構(gòu)社交媒體的突發(fā)事件檢測包含3 個核心步驟,可以完成各自的突發(fā)事件檢測任務(wù)。從水平的方向看,兩個異構(gòu)社交媒體突發(fā)事件檢測可以有3 種融合策略,分別是信息融合、突發(fā)詞融合和突發(fā)詞簇融合,不同的融合策略對突發(fā)事件檢測效果的影響見3.1.4 小節(jié)結(jié)果對比部分。

        基于內(nèi)容空間的社交網(wǎng)絡(luò)SN1、SN2突發(fā)事件檢測融合策略描述如下:

        (1)融合策略 1(信息融合)。假設(shè)SN1、SN2采集的信息集合分別為DS?SN1、DS?SN2,將DS?SN1、DS?SN2合并為一個信息集合DS?SN。從信息集合DS?SN計算得到突發(fā)詞集為EW,后續(xù)可看作是基于同一社交網(wǎng)絡(luò)的突發(fā)詞聚類、詞簇熱度計算和Top?k 突發(fā)事件排序輸出。

        (2)融合策略 2(突發(fā)詞融合)。假設(shè)SN1、SN2計算得到的突發(fā)詞集合分別為EW1、EW2,將EW1、EW2合并為一個突發(fā)詞集EW。由于不同的社交媒體用戶的活躍度不同,導致信息量、閱讀數(shù)和關(guān)聯(lián)用戶等有較大差異,不能簡單地根據(jù)計算的指標值直接排序選取,需要分別對EW1和EW2中的詞突發(fā)值進行歸一化處理,選取m個詞構(gòu)成突發(fā)詞集合為EW,后續(xù)可基于EW進行聚類、詞簇熱度計算,進而排序得到Top?k突發(fā)事件。

        (3)融合策略3(突發(fā)詞簇融合)。假設(shè)SN1、SN2計算得到的突發(fā)詞簇集合分別為EWC1、EWC2,將EWC1、EWC2合并為一個突發(fā)詞簇集EWC。在融合的過程中,需要計算兩個詞簇的相似度,達到一定閾值兩個詞簇應(yīng)合并在一起,形成一個詞簇。兩個詞簇ewci、ewcj相似度計算方法采用Jaccard 相似系數(shù),有

        圖4 基于內(nèi)容空間的突發(fā)事件檢測融合策略Fig.4 Emergency detection and fusion strategy based on content space

        實驗驗證,當Sim(ewci,ewcj)≥0.6 時,兩個詞簇進行合并效果較好。

        3.1.2 單異構(gòu)微博網(wǎng)絡(luò)的地域突發(fā)事件檢測方法

        2018 年,面向單異構(gòu)微博社交網(wǎng)絡(luò),本文研究提出了地域Top?k突發(fā)事件檢測方法,簡記為LocBED?WB,詳見文獻[26]。該研究內(nèi)容包含3 個核心步驟,簡介如下:

        (1)詞突發(fā)值計算

        詞wi在k時間段的突發(fā)值為

        式中:F(wi)、U(wi)、GT(wi)、SB(wi)分別為詞wi的頻率突發(fā)性、用戶突發(fā)性、地域突發(fā)性和社交行為突發(fā)性;α、β、χ、δ為權(quán)重系數(shù),α+β+χ+δ=1,α≥ 0,β≥ 0,χ≥ 0,δ≥ 0。在實際應(yīng)用中,可以根據(jù)社交網(wǎng)絡(luò)的特點,對上述指標進行刪減。計算得到每個詞的突發(fā)值后,使用四分差選出m個突發(fā)特征詞,按照詞突發(fā)值進行降序排序,得到突發(fā)特征詞集EW。

        (2)突發(fā)詞聚類

        基于突發(fā)特征集EW,構(gòu)建突發(fā)詞關(guān)聯(lián)網(wǎng)絡(luò)EWN=(V,E),V是突發(fā)詞集EW,E表示突發(fā)詞之間的關(guān)聯(lián)強度。突發(fā)詞ewi、ewj關(guān)聯(lián)強度是統(tǒng)計兩個詞在同一篇信息中共現(xiàn)的次數(shù)。突發(fā)詞網(wǎng)絡(luò)EWN構(gòu)建完成后,使用開源的CLUTO 工具包對EWN進行聚類,獲取突發(fā)詞簇EWC={ewc1,ewc2,…,ewcq},假設(shè)有q個詞簇。

        (3)突發(fā)詞簇熱度計算

        詞簇ewci的熱度值為

        式中LN(ewci)、F(ewci)、MN(ewci)、MBI(ewci)、UN(ewci)分別為詞簇ewci的地域、頻率、關(guān)聯(lián)博文、關(guān)聯(lián)博文影響力和關(guān)聯(lián)用戶指標。

        3.1.3 實驗數(shù)據(jù)及評測指標

        新浪微博數(shù)據(jù)集BEWeiboDS 為采集北京、南京兩個大城市的 2016 年 12 月 1 日—12 月 30 日的帶有地理標簽的博文,采集連云港和日照兩個中小規(guī)模城 市 2016 年 5 月 1 日 —10 月 31 日的帶有地理標簽的博文,形成微博數(shù)據(jù)集BEWeiboDS。百度貼吧數(shù)據(jù)集BETiebaDS 為采集北京、南京兩個大城市的 2016 年 12 月 1 日—12 月 30 日的貼吧內(nèi)容,采集連云港和日照兩個中小規(guī)模城市2016年5 月1 日—10 月31 日的貼吧內(nèi)容,每個市包括了區(qū)縣級以上的貼吧,形成百度貼吧數(shù)據(jù)集BE?TiebaDS。兩個社交網(wǎng)絡(luò)數(shù)據(jù)集的情況如表1所示。

        采用精準率P@n作為評測指標。P@n是一個擬人化的指標,目前在搜索評測中用的較多。突發(fā)事件檢測類似于從給定的批量信息中搜索挖掘出密切相關(guān)的地域突發(fā)事件。P@n指標關(guān)心的是返回的n個結(jié)果中,是否存在相關(guān)的信息,不考慮返回信息相關(guān)性的順序。P@n=m/n,其中n指返回的突發(fā)事件個數(shù),m指人工判斷后符合突發(fā)事件檢測結(jié)果的個數(shù)。由于Top?k突發(fā)事件檢測返回的事件數(shù)量很少,人工參與評測工作量并不大。

        3.1.4 結(jié)果對比

        本文使用5 種方法基于新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS 進行突發(fā)事件檢測對比。5 種方法簡介如下。(1)方法1(LocBED?WB):使用單異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BE?WeiboDS,使用3.1.2 小節(jié)介紹的方法進行突發(fā)事件檢測,具體方法詳見文獻[26]。(2)方法2(LocBED?TB):使用單異構(gòu)社交網(wǎng)絡(luò)百度貼吧數(shù)據(jù)集BETiebaDS,使用3.1.2 小節(jié)介紹的方法進行突發(fā)事件檢測。(3)方法 3(LocBED?WB&TB?BW):使用兩個異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集 BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞計算層面進行融合,然后進行突發(fā)事件檢測。(4)方法4(LocBED?WB&TB?BWC):使用兩個異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞聚類層面進行融合,然后進行突發(fā)事件檢測。(5)方法5(LocBED?WB&TB?BEH):使用兩個異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集BEWeiboDS 和百度貼吧數(shù)據(jù)集BETiebaDS,在突發(fā)詞簇熱度計算層面進行融合,然后進行突發(fā)事件檢測。

        5 種方法使用兩個社交網(wǎng)絡(luò)數(shù)據(jù)集,在P@1、P@2、P@3、P@4、P@5 和 Average 的評測指標結(jié)果如表2 所示。

        如表2 所示,單獨使用新浪微博數(shù)據(jù)集,方法LocBED?WB 的平均準確率為0.79,精準率已經(jīng)比較高了,說明單獨使用新浪微博進行突發(fā)事件檢測的優(yōu)勢。單獨使用百度貼吧數(shù)據(jù)集,方法LocBED?TB的平均準確率為0.56,精準率比較低,一方面百度貼吧活躍用戶數(shù)相對少,發(fā)表的信息量偏少,另外貼吧發(fā)表的帖子沒有地理標簽的標記,檢測的很多突發(fā)事件多是廣域突發(fā)事件,地域特征型不強。使用兩個社交網(wǎng)絡(luò),從3 個層面進行融合檢測突發(fā)事件,第3 種融合策略,即突發(fā)詞簇熱度計算融合的方法,效果最理想,準確率達到0.84,比單獨使用新浪微博數(shù)據(jù)集的方法LocBED?WB 提高了0.05,比單獨使用百度貼吧數(shù)據(jù)集的方法LocBED?TB 提高了0.28。

        表1 突發(fā)事件檢測的兩個數(shù)據(jù)集Table 1 Two data sets for emergency detection

        表2 5 個評測指標檢測結(jié)果Table 2 Detection results of five evaluation indicators

        3.2 基于MHSN 的用戶興趣挖掘

        3.2.1 多異構(gòu)社交網(wǎng)絡(luò)用戶興趣挖掘融合策略

        本文使用的社交網(wǎng)絡(luò)用戶興趣表示模型如定義2 和3 所述。

        定義2[16]用戶靜態(tài)興趣是指從用戶背景中挖掘出的興趣點,UI={Int1,Int2,…,Intm},每個興趣點是一個二元組Inti=(kwi,wi),kwi為關(guān)鍵詞;wi為用戶對kwi的喜好權(quán)重。

        定義3用戶動態(tài)興趣是指從用戶生成中挖掘出的隨時間變化而變化的興趣點,UI={Int1,Int2,…,Intm},每個興趣點為一個三元組Inti=(topici,wi,T),其中,topici是由多個關(guān)鍵詞組成的話題;wi為用戶對topici的喜好權(quán)重;T={t1,t2,…,ts},ti為用戶討論話題 topici的各個時間點,即話題在不同時間點的分布情況。

        同樣,多個社交網(wǎng)絡(luò)的用戶空間融合問題可以簡化為兩兩社交網(wǎng)絡(luò)的用戶融合。兩個社交網(wǎng)絡(luò)SN1、SN2在挖掘用戶興趣時,用戶的靜態(tài)興趣可以從簡介、標簽和職位等背景信息方面融合,用戶的動態(tài)興趣可以從用戶生成的內(nèi)容方面進行融合?;谟脩艨臻g的社交網(wǎng)絡(luò)SN1、SN2用戶興趣挖掘融合策略如圖5 所示。單異構(gòu)社交網(wǎng)絡(luò)的用戶興趣挖掘分為靜態(tài)興趣和動態(tài)興趣兩類,使用社交網(wǎng)絡(luò)上用戶的背景和內(nèi)容信息,可以完成各自的興趣挖掘任務(wù)。對兩個社交網(wǎng)絡(luò)SN1、SN2而言,靜態(tài)興趣和動態(tài)興趣挖掘都有兩種融合策略,分別是背景和生成內(nèi)容的融合,以及靜態(tài)興趣和動態(tài)興趣的融合。不同的融合策略對用戶興趣挖掘效果的影響見3.2.4 小節(jié)結(jié)果對比部分。

        基于用戶空間的社交網(wǎng)絡(luò)SN1、SN2用戶興趣挖掘融合策略描述如下:

        (1)融合策略1(背景和生成內(nèi)容的融合)。假設(shè)SN1、SN2用戶的背景信息分別為profile1、profile2,SN1、SN2用戶的生成內(nèi)容分別為 content1、content2,將 profile1、profile2合并為一個背景信息 profile,將content1、content2合并為一個生成內(nèi)容content。后續(xù)分別從profile 和content 中挖掘用戶的靜態(tài)興趣和動態(tài)興趣。

        (2)融合策略2(靜態(tài)興趣和動態(tài)興趣的融合)。假設(shè)SN1、SN2用戶的靜態(tài)興趣分別為SN1?SI、SN2?SI,SN1、SN2用戶的動態(tài)興趣分別為SN1?DI、SN2?DI,將SN1?SI、SN2?SI合并為SN?SI,將SN1?DI、SN2?DI合并為SN?DI。在融合用戶動態(tài)興趣時,需要計算興趣點的相似度,然后調(diào)整權(quán)重W和時間點T的 分 布 ,SN1、SN2用 戶 的 一 個 興 趣 點 分 別 記 為SN1?DI?Inti={topici,Wi,Ti}、SN2?DI?Intj={topicj,Wj,Tj},用戶興趣點相似度計算使用 Jaccard 相似系數(shù),有

        圖5 基于用戶空間的用戶興趣挖掘融合策略Fig.5 User interest mining and fusion strategy based on user space

        實驗驗證,當 Sim(SN1?DI?Inti,SN1?DI?Intj)≥ 0.6 時,兩個興趣點合并效果較好。

        3.2.2 單異構(gòu)微博網(wǎng)絡(luò)的用戶興趣挖掘方法

        2017 年,作者提出了面向微博的用戶興趣靜態(tài)和動態(tài)興趣挖掘方法,簡記為USDInt?WB,詳見文獻[16]。該研究內(nèi)容包含3 個核心步驟,簡介如下:

        (1)用戶靜態(tài)興趣挖掘。挖掘新浪微博用戶的簡介、標簽和職位等背景信息,得到用戶的靜態(tài)興趣為 USInt={(kw1,w1),(kw2,w2),…,(kwm,wm)}。

        (2)用戶動態(tài)興趣挖掘。挖掘用戶原創(chuàng)、轉(zhuǎn)發(fā)和評論等方式的微博,得到用戶的動態(tài)興趣為UDInt={(topic1,w1,T1),(topic2,w2,T2),…,(topicm,wm,Tm)}。

        (3)用戶興趣相似度計算。兩個用戶興趣相似度整合,有

        式中α是靜態(tài)興趣和動態(tài)興趣權(quán)重系數(shù),0≤α≤1。

        用戶u1,u2的靜態(tài)興趣相似度計算使用Jaccard 方式。用戶u1,u2的動態(tài)興趣中的兩個興趣點Inti,In?tj的相似度計算公式為

        式中綜合考慮了用戶興趣點內(nèi)容的相似度和興趣點的時間周期。

        3.2.3 實驗數(shù)據(jù)及評測指標

        本文的研究內(nèi)容沒有涉及不同用戶在跨社交媒體的對齊關(guān)聯(lián)方法。因此人工選取了100 個用戶,已知他們在新浪微博和百度貼吧的賬號,然后從兩個社交媒體中融合挖掘用戶興趣進行實驗分析。對于100 個用戶,采用滾雪球的方式分別采集其關(guān)注和粉絲用戶共計2 層,即采集到了用戶u1關(guān)注的關(guān)注集和粉絲的粉絲集。對于采集的用戶,分別從新浪微博和百度貼吧采集用戶背景和生成內(nèi)容信息,每個用戶的背景信息合并為1 條,得到的新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS情況如表3 所示。

        表3 用戶興趣挖掘的兩個數(shù)據(jù)集Table 3 Two data sets of user interest mining

        新浪微博數(shù)據(jù)集中用戶u1的關(guān)注集記為u1.follower,作為標準答案。通過方法method1計算用戶間的興趣相似度選取出的關(guān)注集記為u1.follower?method1,令 |u1.follower|=|u1.follower?method1|,方法method1選取關(guān)注的準確率計算公式為

        3.2.4 結(jié)果對比

        本文使用4 種方法基于新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS 進行用戶興趣挖掘?qū)Ρ取? 種方法簡介如下。(1)方法1(USDInt?WB):使用單異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集UserWeiboDS,使用 3.2.2 小節(jié)介紹的方法挖掘用戶興趣,具體方法詳見文獻[16]。(2)方法 2(USDInt?TB):使用單異構(gòu)社交網(wǎng)絡(luò)百度貼吧數(shù)據(jù)集UserTiebaDS,使用3.2.2 小節(jié)介紹的方法進行用戶興趣挖掘。(3)方法 3(USDInt?WB&TB?PC):使用兩個異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集 UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS,在背景和生成內(nèi)容層面融合,然后挖掘用戶興趣。(4)方法4(USDInt?WB&TB?SD):使用兩個異構(gòu)社交網(wǎng)絡(luò)新浪微博數(shù)據(jù)集UserWeiboDS 和百度貼吧數(shù)據(jù)集UserTiebaDS,在靜態(tài)和動態(tài)興趣層面融合,然后挖掘用戶興趣。4 種方法使用兩個社交網(wǎng)絡(luò)數(shù)據(jù)集,在RUA 指標的評測結(jié)果如表4 所示。單獨使用UserWeiboDS,方法USDInt?WB 推薦用戶準確率RUA 為0.61,說明單獨使用新浪微博挖掘用戶興趣進行關(guān)注用戶推薦已經(jīng)比較準確。單獨使用UserTiebaDS,方法USDInt?TB 推薦用戶準確率為0.37,準確率比較低,主要原因是百度貼吧中,用戶往往對特定的貼吧感興趣,用戶之間的關(guān)注關(guān)系相對較少,不像新浪微博用戶之間構(gòu)建了豐富的社交關(guān)系。使用兩個社交網(wǎng)絡(luò),從兩個層面進行融合挖掘用戶興趣,第2 種融合策略,即在靜態(tài)和動態(tài)興趣層面融合,效果最理想,推薦用戶準確率達到0.69。比單獨使用新浪微博數(shù)據(jù)集的方法USDInt?WB 提高了0.08,比單獨使用百度貼吧數(shù)據(jù)集的方法USDInt?TB 提高了0.32,比使用第1 種融合策略提高了0.04。

        表4 RUA 指標的評測結(jié)果Table 4 Evaluation results of RUA indicators

        4 結(jié)束語

        本文在社交網(wǎng)絡(luò)的用戶空間和內(nèi)容空間關(guān)聯(lián)、不同OSNs 的分類關(guān)系的基礎(chǔ)上,給出了多異構(gòu)社交網(wǎng)絡(luò)的全局表示模型,為面向多異構(gòu)社交網(wǎng)絡(luò)的后續(xù)研究提供參考。選取多異構(gòu)社會網(wǎng)絡(luò)的地域突發(fā)事件檢測、用戶興趣挖掘兩個應(yīng)用場景,闡述了基于內(nèi)容空間和用戶空間的多異構(gòu)社會網(wǎng)絡(luò)的融合策略。以新浪微博和百度貼吧兩大社交網(wǎng)絡(luò),進行了實驗對比和分析。還需進一步提升的研究內(nèi)容:(1)基于多異構(gòu)社交網(wǎng)絡(luò)的不同應(yīng)用場景的抽象分析,以期為多異構(gòu)社交網(wǎng)絡(luò)的實際應(yīng)用提供借鑒;(2)擴大社交網(wǎng)絡(luò)分析的范圍,選取主流的社交網(wǎng)絡(luò),進行更大規(guī)模的數(shù)據(jù)采集和分析;(3)基于隱式內(nèi)容空間的社交媒體關(guān)聯(lián)分析,使用自然語言處理、社交網(wǎng)絡(luò)分析等技術(shù),挖掘隱式內(nèi)容在多異構(gòu)社交網(wǎng)絡(luò)的關(guān)聯(lián),進而實現(xiàn)突發(fā)事件、熱點信息等的精準挖掘。

        猜你喜歡
        異構(gòu)突發(fā)事件關(guān)聯(lián)
        試論同課異構(gòu)之“同”與“異”
        “一帶一路”遞進,關(guān)聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
        電信科學(2016年11期)2016-11-23 05:07:56
        突發(fā)事件的輿論引導
        LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
        清朝三起突發(fā)事件的處置
        文史春秋(2016年8期)2016-02-28 17:41:32
        在新興異構(gòu)SoCs上集成多種系統(tǒng)
        突發(fā)事件
        小說月刊(2014年10期)2014-04-23 08:53:40
        久久精品国产69国产精品亚洲| 欧美精品一区二区性色a+v| 日韩AV无码一区二区三| 日本av一区二区播放| 久亚洲精品不子伦一区| 丝袜美腿一区二区三区| 亚洲av无码电影网| 国产一精品一aⅴ一免费| 高清国产亚洲精品自在久久| 国产一二三四2021精字窝| 人妻系列无码专区久久五月天| 亚洲国产精品国语在线| 91麻豆精品久久久影院| 国产成人无码一区二区三区| 国产熟人av一二三区| 国产欧美日韩在线观看一区二区三区| 蜜桃av一区二区三区久久| 亚洲av福利院在线观看| 中文无码一区二区不卡αv| 岛国大片在线免费观看| 国产色婷亚洲99精品av网站| 性人久久久久| 欧美两根一起进3p做受视频| 亚洲 无码 制服 丝袜 自拍| 伊人久久亚洲综合av影院| 内射人妻无套中出无码| 性一交一乱一伦a片| 欧美黑人xxxx性高清版| 久久99人妖视频国产| 中文字幕色av一区二区三区| 玖玖资源站无码专区| 亚洲av高清资源在线观看三区 | 日本女优中文字幕看片| 在线观看一区二区三区国产| 最新国产毛2卡3卡4卡| 国产精品.xx视频.xxtv| 视频二区 无码中出| 亚洲国产精品久久无人区| 国产乱国产乱老熟300部视频| 亚洲国产美女在线观看| av在线播放一区二区免费|