亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于區(qū)域交互模型的SNS網(wǎng)絡(luò)用戶影響力評(píng)估

        2016-07-18 11:49:27王楠孫欽東周亞東王漢秦隋連升
        通信學(xué)報(bào) 2016年1期
        關(guān)鍵詞:用戶信息模型

        王楠,孫欽東,周亞東,王漢秦,隋連升

        ?

        基于區(qū)域交互模型的SNS網(wǎng)絡(luò)用戶影響力評(píng)估

        王楠1,孫欽東1,周亞東2,王漢秦1,隋連升1

        (1. 西安理工大學(xué)網(wǎng)絡(luò)計(jì)算與安全技術(shù)陜西省重點(diǎn)實(shí)驗(yàn)室,陜西西安 710048; 2. 西安交通大學(xué)智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室,陜西西安710049)

        針對(duì)現(xiàn)有方法與模型未能準(zhǔn)確體現(xiàn)不同距離用戶之間真實(shí)交互行為的問題,提出了一種基于用戶區(qū)域交互模型的用戶影響力評(píng)估方法。區(qū)域交互模型利用影響力傳遞的不同方式,刻畫不同距離之間用戶的交互行為模式,能更為真實(shí)準(zhǔn)確地反映在線社會(huì)網(wǎng)絡(luò)用戶之間的交互行為。通過計(jì)算用戶對(duì)相鄰用戶的顯性影響力與非相鄰用戶的隱性影響力,可有效識(shí)別在線社會(huì)網(wǎng)絡(luò)中大影響力用戶、僵尸粉用戶等不同類型用戶。基于新浪微博與人人網(wǎng)真實(shí)數(shù)據(jù)開展用戶影響力評(píng)估以及相應(yīng)的用戶角色識(shí)別實(shí)驗(yàn),結(jié)果顯示,與現(xiàn)有方法相比,基于區(qū)域交互模型的識(shí)別方法可以準(zhǔn)確有效地識(shí)別出在線社會(huì)網(wǎng)絡(luò)中的大影響力用戶、僵尸粉用戶等各類型用戶。

        用戶影響力評(píng)估;區(qū)域交互模型;在線社會(huì)網(wǎng)絡(luò);大影響力用戶;僵尸粉

        1 引言

        近年來,Twitter、新浪微博、Facebook等新興在線社會(huì)網(wǎng)絡(luò)(SNS, online social network services)吸引了大量網(wǎng)絡(luò)用戶關(guān)注。與傳統(tǒng)的E-mail、新聞?wù)军c(diǎn)等網(wǎng)絡(luò)信息交換平臺(tái)相比,這些新興在線社會(huì)網(wǎng)絡(luò)具有用戶主動(dòng)參與度高、信息規(guī)模巨大、信息傳播速度快等特點(diǎn)。海量用戶之間通過關(guān)注或者添加好友等行為,建立起有向或無向的連接關(guān)系,并通過信息轉(zhuǎn)發(fā)或者分享等行為形成了新型的網(wǎng)絡(luò)生態(tài)系統(tǒng)。用戶影響力評(píng)估是在線社會(huì)網(wǎng)絡(luò)的重要研究內(nèi)容之一,其研究結(jié)果可為網(wǎng)絡(luò)的信息傳播規(guī)律、用戶行為分析等研究提供理論支撐,并且可用于精準(zhǔn)化網(wǎng)絡(luò)營銷、網(wǎng)絡(luò)輿情管控等提供技術(shù)支持[1]。目前,用戶影響力相關(guān)研究方法大多基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、用戶行為[2-4]等基礎(chǔ)特征(諸如粉絲連接數(shù)、轉(zhuǎn)發(fā)行為)對(duì)用戶影響力進(jìn)行評(píng)估。已有方法對(duì)用戶影響力評(píng)估有著重要的參考價(jià)值,但是仍然存在不足。單一拓?fù)浣Y(jié)構(gòu)并不能真實(shí)反映用戶重要性[5],而基于介數(shù)等復(fù)雜的拓?fù)浣Y(jié)構(gòu)方法同樣僅考慮到網(wǎng)絡(luò)中用戶之間的連接關(guān)系,忽略了用戶行為等其他在線社會(huì)網(wǎng)絡(luò)用戶特性?;谟脩粜袨榈挠绊懥υu(píng)估方法大多從相鄰用戶之間的交互行為為出發(fā)點(diǎn),對(duì)于一定距離范圍內(nèi)的非直接相鄰用戶行為交互分析不足。此外,現(xiàn)有影響力分析研究中大多數(shù)方法的研究對(duì)象只針對(duì)網(wǎng)絡(luò)的大影響力用戶,而在線社會(huì)網(wǎng)絡(luò)用戶可根據(jù)用戶影響力被區(qū)分為大影響力用戶、普通用戶、僵尸粉用戶等多種類型用戶。

        在線社會(huì)網(wǎng)絡(luò)中,用戶之間的交互行為與真實(shí)社會(huì)類似,用戶之間即使并不直接相連,由于信息在不同用戶之間的多次轉(zhuǎn)發(fā)也能夠形成交互關(guān)系,如圖1所示。用戶影響力可由與其不同距離用戶之間的交互行為體現(xiàn),并且對(duì)其他用戶的影響方式以及影響力大小能夠體現(xiàn)出該用戶在社會(huì)網(wǎng)絡(luò)中的地位與角色。本文以新浪微博與人人網(wǎng)為研究對(duì)象,針對(duì)現(xiàn)有研究中所存在的問題,提出了一個(gè)在線社會(huì)網(wǎng)絡(luò)用戶區(qū)域交互模型并對(duì)網(wǎng)絡(luò)用戶影響力進(jìn)行評(píng)估。通過用影響力傳遞的方式描述用戶與其他相鄰或非相鄰用戶之間的交互行為,反映用戶在在線社會(huì)網(wǎng)絡(luò)中真實(shí)的影響力,并以此來對(duì)網(wǎng)絡(luò)中的用戶進(jìn)行類型劃分。實(shí)驗(yàn)結(jié)果表明,區(qū)域交互模型可應(yīng)用于在線社會(huì)網(wǎng)絡(luò)中用戶的影響力評(píng)估研究,并且能夠?qū)W(wǎng)絡(luò)中不同類型角色的用戶進(jìn)行有效準(zhǔn)確地識(shí)別。

        2 相關(guān)研究

        目前,在線社會(huì)網(wǎng)絡(luò)用戶影響力研究大多針對(duì)大影響力用戶的識(shí)別,現(xiàn)有方法可分為基于拓?fù)浣Y(jié)構(gòu)與基于用戶行為特征等。早期研究大多將簡單的拓?fù)浣Y(jié)構(gòu)屬性直接作為評(píng)估與識(shí)別網(wǎng)絡(luò)中重要節(jié)點(diǎn)的依據(jù),如Leavitt等[6]直接將用戶粉絲規(guī)模的大小作為判斷用戶影響力大小的依據(jù)。Kitsak等[7]根據(jù)計(jì)算用戶的介數(shù)(betweenness)、中心度(centralities)等特征值來對(duì)用戶影響力進(jìn)行評(píng)估,進(jìn)而篩選網(wǎng)絡(luò)中大影響力的用戶。Brown等[8]通過-shell分解的方法識(shí)別Twitter中的大影響力用戶,該方法通過節(jié)點(diǎn)在網(wǎng)絡(luò)中所處的位置對(duì)節(jié)點(diǎn)影響力進(jìn)行評(píng)估,認(rèn)為越靠近中心位置的節(jié)點(diǎn)其影響力越大。由于根據(jù)介數(shù)與中心度評(píng)估用戶影響力的方法難以應(yīng)用到大規(guī)模復(fù)雜的網(wǎng)絡(luò)中,Chen等[9]在中心度等用戶結(jié)構(gòu)特征的基礎(chǔ)上結(jié)合時(shí)間開銷因素,對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)進(jìn)行影響力評(píng)估。

        基于用戶行為特征的方法是在線社會(huì)網(wǎng)絡(luò)大影響力用戶識(shí)別常用的一類方法。此類方法大多基于用戶轉(zhuǎn)發(fā)、評(píng)論等行為,再采取相應(yīng)的評(píng)估手段對(duì)用戶影響力進(jìn)行評(píng)估。Huang等[10]將用戶行為與PageRank算法相結(jié)合對(duì)微博社會(huì)網(wǎng)絡(luò)中的用戶影響力進(jìn)行評(píng)估,研究結(jié)果發(fā)現(xiàn)網(wǎng)絡(luò)中活躍用戶的影響力更大,并且此現(xiàn)象與粉絲規(guī)模的大小并無嚴(yán)格的相關(guān)關(guān)系。Tang等[11]研究了用戶轉(zhuǎn)發(fā)行為、交互信息內(nèi)容以及相應(yīng)時(shí)間等屬性與用戶影響力之間的關(guān)系,并在此基礎(chǔ)上提出了一個(gè)在線社會(huì)網(wǎng)絡(luò)用戶影響力評(píng)估架構(gòu)。

        此外,針對(duì)大影響力用戶識(shí)別還有一些其他類型方法。Uysal等[12]根據(jù)用戶轉(zhuǎn)發(fā)微博的習(xí)慣,提出了一種用戶微博的排序方法,并以轉(zhuǎn)發(fā)微博的可能性作為用戶影響力評(píng)估的標(biāo)準(zhǔn)。Sun等[13]根據(jù)在線社會(huì)網(wǎng)絡(luò)話題傳播過程中用戶行為的差別,將用戶分為不同角色,并利用相應(yīng)方法對(duì)分類過的用戶進(jìn)行影響力分析。

        對(duì)于僵尸粉識(shí)別,早期研究主要根據(jù)一些指標(biāo)并通過簡單的規(guī)則進(jìn)行僵尸粉的識(shí)別[14],這些方法雖然簡單易于實(shí)現(xiàn)但是準(zhǔn)確率偏低,難以應(yīng)用到實(shí)際的僵尸粉識(shí)別工作中。目前,比較有效的僵尸粉識(shí)別方法大多通過特征選擇,選出與用戶身份存在密切關(guān)聯(lián)的特征集,然后通過機(jī)器學(xué)習(xí)的方法對(duì)僵尸粉進(jìn)行識(shí)別,如Chu等[15]研究分析了多個(gè)正常用戶、僵尸粉用戶等類型用戶的特征,并提出了一個(gè)基于熵、用戶屬性以及文本處理的僵尸粉、正常用戶分類系統(tǒng)。Bhat等[16]根據(jù)群組特性來對(duì)網(wǎng)絡(luò)中僵尸粉進(jìn)行研究,通過分析群組交互性、用戶連接、用戶是否為核心節(jié)點(diǎn)等多個(gè)屬性,對(duì)網(wǎng)絡(luò)用戶類型進(jìn)行劃分。

        3 數(shù)據(jù)集

        實(shí)驗(yàn)過程所使用的數(shù)據(jù)通過爬蟲程序采用廣度優(yōu)先的策略從新浪微博以及人人網(wǎng)獲得,并且為保障用戶隱私所有數(shù)據(jù)均進(jìn)行了匿名化處理。在采集新浪微博數(shù)據(jù)時(shí),利用新浪提供的API獲取相關(guān)數(shù)據(jù),采集人人網(wǎng)數(shù)據(jù)則使用基于頁面內(nèi)容解析方式的網(wǎng)絡(luò)爬蟲進(jìn)行爬取。最終得到的微博數(shù)據(jù)如表1所示,采集得到的微博用戶數(shù)據(jù)中分為用戶信息以及用戶的微博信息,其中,用戶信息包括用戶UID、昵稱、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)以及注冊(cè)日期等。微博信息則包括了發(fā)布時(shí)間、轉(zhuǎn)發(fā)量以及轉(zhuǎn)發(fā)列表信息等。

        表1 新浪微博數(shù)據(jù)集

        對(duì)于人人網(wǎng),由于其有向圖性質(zhì)以及受限于隱私保護(hù)策略,在爬取數(shù)據(jù)時(shí)選取的實(shí)驗(yàn)室內(nèi)部成員為根節(jié)點(diǎn),篩選可以瀏覽到新鮮事分享的用戶對(duì)其信息進(jìn)行存儲(chǔ)。最終得到的人人網(wǎng)數(shù)據(jù)如表2所示。其中,用戶信息包括用戶UID、好友數(shù)、學(xué)校信息、用戶基本信息等。新鮮事信息包括參與信息分享過程的用戶鏈以及信息ID、分享數(shù)等。

        表2 人人網(wǎng)數(shù)據(jù)集

        4 區(qū)域用戶交互模型

        磁場、引力場等物理學(xué)的場模型理論描述了物理場中節(jié)點(diǎn)之間的相互作用關(guān)系,以及物體之間的能量傳遞效應(yīng)。在線社會(huì)網(wǎng)絡(luò)用戶之間的交互行為與場模型中節(jié)點(diǎn)間的交互作用相類似,具有相近的特征。作者在前期研究中發(fā)現(xiàn),用戶之間的交互行為與影響力相關(guān),用戶影響力由于與其相鄰和非相鄰用戶的信息轉(zhuǎn)發(fā)行為具有與場模型類似的傳遞效應(yīng)[17]。本文在考慮用戶交互行為與影響力傳遞關(guān)系的基礎(chǔ)上,提出了用戶區(qū)域交互模型,用戶區(qū)域交互行為模式與影響力傳遞機(jī)制如圖2所示。

        交互行為與影響力傳遞過程可描述如下。

        有社會(huì)網(wǎng)絡(luò)(,),其中,表示社會(huì)網(wǎng)絡(luò)的節(jié)點(diǎn)集合,為邊集合,表示節(jié)點(diǎn)之間有無連接關(guān)系,其值的大小表示節(jié)點(diǎn)之間的距離。={1,2,3},其中,2是1的粉絲節(jié)點(diǎn),3是2的粉絲節(jié)點(diǎn)。如果2轉(zhuǎn)發(fā)了1的信息,由于信息內(nèi)容或者用戶真實(shí)身份等因素,1所發(fā)布的信息有一定的概率被2的粉絲再次轉(zhuǎn)發(fā)。轉(zhuǎn)發(fā)過程使1的影響力沿著轉(zhuǎn)發(fā)鏈傳遞下去,同時(shí)節(jié)點(diǎn)由于信息被轉(zhuǎn)發(fā)其影響力得到了增加,此過程與能量反饋相類似。根據(jù)參與轉(zhuǎn)發(fā)用戶之間的距離,本文將影響力劃分為2種不同的形式:顯性影響力與隱性影響力。顯性影響力表示距離為1(=1)的情況下,用戶轉(zhuǎn)發(fā)所傳遞的影響力,即由于粉絲用戶轉(zhuǎn)發(fā)所產(chǎn)生的影響力。隱性影響力表示距離大于1(>1)的情況下,用戶轉(zhuǎn)發(fā)所產(chǎn)生的影響力傳遞效應(yīng),即由于非直接相連接用戶轉(zhuǎn)發(fā)所產(chǎn)生的影響力。

        圖2中由用戶交互產(chǎn)生的影響力傳遞效應(yīng)可被推廣到一般模型。假設(shè)有社會(huì)網(wǎng)絡(luò)圖(,),表示節(jié)點(diǎn)集合={1,2,…,3},表示邊集合={1,2,…,E}。則可以得到如下定義。

        定義1時(shí)刻節(jié)點(diǎn)(即用戶)之間的連接關(guān)系(距離)矩陣為

        定義2時(shí)刻用戶V轉(zhuǎn)發(fā)V信息的轉(zhuǎn)發(fā)關(guān)系矩陣為

        結(jié)論1時(shí)刻用戶V轉(zhuǎn)發(fā)總量為,即為中第行的總和。

        結(jié)論2時(shí)刻用戶V信息被轉(zhuǎn)發(fā)總量為,即為中第列的總和。

        定義3 所有節(jié)點(diǎn)(即用戶)在時(shí)刻的發(fā)帖數(shù)目向量為

        定義4時(shí)刻用戶V活躍粉絲的規(guī)模為(V,),其值為參與轉(zhuǎn)發(fā)的粉絲數(shù),即,其中,,為定義2中轉(zhuǎn)發(fā)關(guān)系矩陣中第列的值。

        定義5時(shí)刻用戶V若轉(zhuǎn)發(fā)了V的信息,且他們之間的距離為,則稱VV的距父節(jié)點(diǎn),記為;相對(duì)應(yīng)地,稱VV的距孩子節(jié)點(diǎn),記為。若與V距離為的孩子節(jié)點(diǎn)有多個(gè),則,其中,V∈。

        用戶的信息越多地被轉(zhuǎn)發(fā)表示該用戶的吸引度越大,其影響力傳遞效應(yīng)越強(qiáng),基于上述定義,本文建立的用戶區(qū)域交互模型中在時(shí)刻用戶V的吸引度為,可由以下公式計(jì)算

        其中,c為粉絲V轉(zhuǎn)發(fā)V的信息數(shù)量,為V總的轉(zhuǎn)發(fā)數(shù)量。用戶吸引度為用戶吸引粉絲,并使其信息被轉(zhuǎn)發(fā)的能力。用戶吸引度與粉絲轉(zhuǎn)發(fā)其信息占粉絲轉(zhuǎn)發(fā)平均比例成正比,粉絲轉(zhuǎn)發(fā)其信息的比例越高,表示該用戶對(duì)其粉絲的吸引越大。此外用戶活躍度與其粉絲規(guī)模(V,)成正比,活躍粉絲越多表示該用戶的信息具有被更廣泛傳播的可能性。

        由于用戶影響力分為顯性影響力與隱性影響力,所以在模型中時(shí)刻用戶V總的影響力為所有傳遞效應(yīng)產(chǎn)生的顯性與隱性影響力之和,表達(dá)式為

        由圖2可以看出,用戶的顯性影響力為相鄰用戶間的影響關(guān)系,其物理意義可由某一時(shí)刻鄰接用戶轉(zhuǎn)發(fā)引起的用戶影響度變化率表示,其表達(dá)式如下

        那么,時(shí)刻用戶V的顯性影響力I(V,)則可由累計(jì)的相鄰用戶影響度變化率表示

        (8)

        對(duì)于時(shí)間尺度的間隔Δ,本文實(shí)驗(yàn)取Δ=1,=0,1,2,…,(是考慮到的最大時(shí)間,時(shí)間單位為天)。在初始時(shí)刻用戶之間沒有信息傳遞,其顯性影響力為零,因此在初始時(shí)刻(即零時(shí)刻)規(guī)定I(V,0)=0。

        對(duì)于用戶的隱性影響力,采取遍歷連接圖中所有父節(jié)點(diǎn)的方式,計(jì)算每個(gè)父節(jié)點(diǎn)與其孩子節(jié)點(diǎn)的傳遞效應(yīng)總和衡量該父節(jié)點(diǎn)的隱性影響力。所以時(shí)刻用戶V的隱性影響力I(V,),本文主要考慮V與其距孩子節(jié)點(diǎn)(1)的影響關(guān)系。假設(shè)此時(shí)用戶V有個(gè)孩子節(jié)點(diǎn),則I(V,)表達(dá)式為

        其中,為轉(zhuǎn)發(fā)概率(其值是通過抽樣得到的分布概率),為用戶間信息轉(zhuǎn)發(fā)的路徑距離。

        實(shí)際中,由于影響力作用的距離不可能是無窮遠(yuǎn)。若已知時(shí)刻用戶之間的連接距離矩陣中的最大值,則相應(yīng)地修正隱性影響力I(V,)表達(dá)式為

        綜上所述,時(shí)刻用戶V總的影響力為

        用戶任意時(shí)刻影響力可基于上述過程計(jì)算得到。由于實(shí)驗(yàn)過程中所需要處理的用戶數(shù)據(jù)都是十萬級(jí)別以上的,此時(shí)得到的轉(zhuǎn)發(fā)關(guān)系矩陣、連接關(guān)系(距離)矩陣等是稀疏且相當(dāng)龐大的,而大數(shù)據(jù)的存取也制約了模型的求解。為了解決上面的問題,本文采用圖論中樹形結(jié)構(gòu)的方式來表達(dá)用戶間的連接關(guān)系,使數(shù)據(jù)的存取和模型的求解得到極大的簡化。

        5 用戶交互行為實(shí)證分析

        在線社會(huì)網(wǎng)絡(luò)中,相鄰用戶交互行為可以通過直觀的數(shù)據(jù)進(jìn)行分析,而不相鄰用戶之間的交互行為則難以直接被觀測到。本節(jié)通過分析表明非直接相鄰用戶之間是否存在交互行為且具有一定規(guī)模能夠?yàn)閰^(qū)域交互行為模型提供支撐。

        5.1 用戶關(guān)系的確定

        研究不同距離用戶之間的交互行為,需要確定轉(zhuǎn)發(fā)鏈中各個(gè)用戶之間的連接關(guān)系。由于各SNS站點(diǎn)都設(shè)置了隱私保護(hù)機(jī)制,因此信息傳播鏈中用戶之間是否存在關(guān)注關(guān)系需要進(jìn)行判斷分析。新浪微博的共同關(guān)注功能顯示了2個(gè)用戶之間是否關(guān)注了同一個(gè)用戶,本文通過共同關(guān)注判斷2個(gè)用戶之間是否存在關(guān)注關(guān)系。由于請(qǐng)求限制以及轉(zhuǎn)發(fā)鏈中用戶數(shù)量規(guī)模,難以準(zhǔn)確判斷全部用戶的連接關(guān)系。本文根據(jù)抽樣推斷的方法,從獲取到的轉(zhuǎn)發(fā)鏈中隨機(jī)選擇了一部分用戶,并判斷他們的關(guān)系,基于此結(jié)果來估計(jì)轉(zhuǎn)發(fā)鏈中各個(gè)用戶之間的關(guān)注關(guān)系。具體方法如下。

        1) 隨機(jī)選取條轉(zhuǎn)發(fā)鏈。

        2) 統(tǒng)計(jì)距離為且存在關(guān)注關(guān)系的用戶數(shù)目,并計(jì)算其占整個(gè)轉(zhuǎn)發(fā)鏈的比例P。

        3) 為了減少抽樣統(tǒng)計(jì)的分布與總體分布的誤差,采取多次抽樣取平均的方法,即重復(fù)步驟1)和步驟2),完成次抽樣統(tǒng)計(jì)得到一系列的距離為且存在關(guān)注關(guān)系的用戶比例。

        4) 最終的總體分布表示為

        例如,分析長度為3的轉(zhuǎn)發(fā)鏈中用戶之間的距離關(guān)系,從數(shù)據(jù)集中選取相應(yīng)長度的轉(zhuǎn)發(fā)鏈,并判斷不同位置的用戶之間是否存在關(guān)注關(guān)系。

        人人網(wǎng)提供了與微博類似的共同好友查看功能。在判斷轉(zhuǎn)發(fā)鏈中用戶之間的鏈接關(guān)系時(shí),共同好友可作為判斷依據(jù)之一。由于人人網(wǎng)部分用戶設(shè)置了非好友的訪問權(quán)限,因此針對(duì)有向圖中用戶關(guān)系采取以下機(jī)制進(jìn)行判別。

        1) 根據(jù)有向圖節(jié)點(diǎn)之間連接關(guān)系以及相應(yīng)的用戶轉(zhuǎn)發(fā)行為方式,在轉(zhuǎn)發(fā)鏈中相鄰的2個(gè)用戶為互為好友的用戶。

        2) 對(duì)于轉(zhuǎn)發(fā)鏈中非直接相鄰的用戶,若能訪問用戶詳細(xì)信息,則進(jìn)一步判斷2個(gè)用戶是否擁有共同好友。

        3) 若不能訪問用戶詳細(xì)信息,用戶通常會(huì)填寫學(xué)校信息以及籍貫等,通過個(gè)人信息相似性對(duì)用戶之間是否存在好友關(guān)系進(jìn)行判斷。

        5.2 測量結(jié)果

        根據(jù)轉(zhuǎn)發(fā)鏈中用戶距離的分析過程,將基于轉(zhuǎn)發(fā)順序的用戶序列,轉(zhuǎn)化成基于距離排列的用戶序列,并且對(duì)不同距離用戶轉(zhuǎn)發(fā)進(jìn)行統(tǒng)計(jì)分析。數(shù)據(jù)集中信息被不同距離用戶轉(zhuǎn)發(fā)比例如圖3和圖4所示。從圖中可知,當(dāng)用戶之間距離大于1時(shí),用戶之間的交互行為是存在并且活躍的。對(duì)于無向圖網(wǎng)絡(luò),雖然用戶之間若非直接好友關(guān)系并不能直接訪問,但是非相鄰用戶之間同樣存在一定規(guī)模的交互行為。

        由于人人網(wǎng)數(shù)據(jù)規(guī)模及其隱私限制,為了減小判斷誤差帶來的影響,在分析時(shí)定義用戶的距離最長為4。根據(jù)上述結(jié)果,在線社會(huì)網(wǎng)絡(luò)用戶之間的交互關(guān)系存在于不相鄰的用戶之間并具有一定數(shù)量規(guī)模,能夠?qū)诓煌徑泳嚯x用戶交互行為的區(qū)域交互行為模型提供理論依據(jù)。

        6 實(shí)驗(yàn)結(jié)果與分析

        6.1 影響力評(píng)估與用戶劃分結(jié)果分析

        為了驗(yàn)證區(qū)域交互模型在用戶影響力評(píng)估以及基于影響力分析的用戶角色劃分研究的有效性,本文基于用戶顯性、隱性影響力對(duì)網(wǎng)絡(luò)中的大影響力用戶、普通用戶以及僵尸粉用戶進(jìn)行識(shí)別研究。

        圖5為基于微博數(shù)據(jù)得到的部分大影響力用戶、普通用戶以及僵尸粉用戶的顯性、隱性影響力分布。大影響力用戶的隱性影響力與顯性影響力都具有較大的數(shù)值規(guī)模,此結(jié)果表明大影響力用戶的微博信息不僅能夠被大量的粉絲轉(zhuǎn)發(fā),還能夠由傳遞效應(yīng)傳播到距離較遠(yuǎn)的用戶。普通用戶的信息傳播能力較弱,因此其2類影響力分布取值區(qū)域較小。僵尸粉用戶的影響力分布顯示出極為不平均的結(jié)果,這是由于僵尸粉用戶的信息很難被正常用戶轉(zhuǎn)發(fā),其影響力分布也與普通用戶有明顯差別。

        由于人人網(wǎng)的有向圖性質(zhì),用戶之間的好友關(guān)系建立需要用戶審核確認(rèn),因此本文研究內(nèi)容不包括人人網(wǎng)中僵尸粉的識(shí)別。圖6為人人網(wǎng)中大影響力用戶與普通用戶的顯性、隱性影響力分布。由于本文實(shí)驗(yàn)所使用的人人網(wǎng)數(shù)據(jù)中不包括明星賬號(hào)、機(jī)構(gòu)賬號(hào)或者媒體賬號(hào)等用戶,并且人人網(wǎng)用戶整體的活躍性與新浪微博相比相對(duì)較低,因此用戶影響力的計(jì)算值相對(duì)較小。

        從圖6所示的各類型用戶的顯性與隱性影響力分布可以看出,大影響力用戶的信息能夠被大量的粉絲轉(zhuǎn)發(fā),并且還可被大量非連接用戶轉(zhuǎn)發(fā),因此其區(qū)域交互性十分明顯。普通用戶與相鄰、非相鄰用戶之間也存在交互行為但規(guī)模相對(duì)較小。僵尸粉用戶的信息難以被大規(guī)模轉(zhuǎn)發(fā)。即使目前存在通過僵尸粉團(tuán)等模擬正常用戶的僵尸粉,其不同類型的影響力分布與正常用戶相比仍有明顯區(qū)別。

        6.2 有效性分析

        6.2.1 大影響力用戶

        為了分析區(qū)域交互模型在識(shí)別大影響力用戶時(shí)的有效性,本文與基于粉絲數(shù)、PageRank[18]以及信息級(jí)聯(lián)模型[19]的大影響力用戶識(shí)別方法進(jìn)行對(duì)比分析。圖7和圖8為新浪微博與人人網(wǎng)中影響力排序前50用戶的粉絲粘性對(duì)比結(jié)果。

        本文用粉絲用戶轉(zhuǎn)發(fā)次數(shù)2次上的用戶數(shù)來表示用戶粘性,用以反映用戶與其粉絲之間的交互頻度與依賴關(guān)系。根據(jù)圖7和圖8結(jié)果,無論有向圖網(wǎng)絡(luò)(新浪微博)或無向圖網(wǎng)絡(luò)(人人網(wǎng)),基于區(qū)域交互模型識(shí)別得到的大影響力用戶要優(yōu)于其他方法。雖然通過不同方法識(shí)別得到的大影響力用戶具有重合部分,但是基于區(qū)域交互模型識(shí)別得到大影響力用戶在整體上具有較大粉絲粘性。

        信息轉(zhuǎn)發(fā)是在線社會(huì)網(wǎng)絡(luò)中最具特色的功能,信息的轉(zhuǎn)發(fā)規(guī)模能夠體現(xiàn)用戶影響力。若排序序列中越靠前的用戶其信息傳播具有越大的覆蓋人數(shù),相應(yīng)的影響力評(píng)估方法具有更好的效果。因此,本文對(duì)影響力排名靠前的用戶信息轉(zhuǎn)發(fā)規(guī)模進(jìn)行統(tǒng)計(jì)分析,進(jìn)一步驗(yàn)證區(qū)域交互模型的有效性,結(jié)果如圖9和圖10所示。根據(jù)圖中結(jié)果可知,采用區(qū)域交互模型的方法識(shí)別得到用戶在信息覆蓋人數(shù)上要高于其他方法。從上述分析可以看出,基于區(qū)域交互模型的用戶影響力評(píng)估方法識(shí)別得到的大影響力用戶具有較高的活躍性,并且能夠吸引大量其他用戶關(guān)注與轉(zhuǎn)發(fā)其信息,該模型能夠有效體現(xiàn)出在線社會(huì)網(wǎng)絡(luò)中用戶的真實(shí)影響力。

        6.2.2 僵尸粉用戶

        僵尸粉用戶是在線社會(huì)網(wǎng)絡(luò)中對(duì)正常用戶造成較差用戶體驗(yàn)度的一類虛假用戶,簡稱為僵尸粉,部分僵尸粉由機(jī)器人程序自動(dòng)注冊(cè)生成,以廣告為目的發(fā)布大量垃圾信息。還有一些用戶在注冊(cè)后并沒有任何使用站點(diǎn)服務(wù)的行為,也屬于僵尸粉。為了驗(yàn)證在識(shí)別僵尸粉時(shí)模型的有效性,本文采用人工方式從微博中的僵尸粉進(jìn)行標(biāo)注,具體判斷原則為:1)判斷用戶發(fā)布微博內(nèi)容中是否明顯為廣告信息,如果比例超過90%則判定其為僵尸粉用戶;2)判斷用戶微博內(nèi)容的差異性,若用戶微博內(nèi)容中含有大量短鏈接或者圖片等,判斷文字內(nèi)容與短鏈接內(nèi)容是否相關(guān);3)若微博內(nèi)容為純文字信息,判斷信息內(nèi)容是否具有意義,是否含有生僻、亂碼等字符。最終通過人工標(biāo)注方式得到3 000個(gè)僵尸粉樣本。

        目前識(shí)別僵尸粉的方法大多是基于用戶的特征指標(biāo),然后利用機(jī)器學(xué)習(xí)的方法來分類識(shí)別。對(duì)于基于用戶特征的識(shí)別方法,單一指標(biāo)雖然可以被用來識(shí)別網(wǎng)絡(luò)中的僵尸粉用戶,但是準(zhǔn)確率偏低,實(shí)際應(yīng)用效果較差。表3所示內(nèi)容為根據(jù)單個(gè)特征進(jìn)行僵尸粉識(shí)別時(shí)的準(zhǔn)確率(由于數(shù)據(jù)集的差異,本文中的結(jié)果與文獻(xiàn)[15]稍有差異)。因此,為了保證識(shí)別效果,此類方法必須要有足夠多的特征指標(biāo)。

        表3 單一指標(biāo)僵尸粉識(shí)別準(zhǔn)確率

        在使用較多用戶屬性進(jìn)行僵尸粉識(shí)別時(shí),基于機(jī)器學(xué)習(xí)方法,如SVM識(shí)別方法能夠達(dá)到90%的正確率,但是如果相關(guān)算法使用的特征較少時(shí)準(zhǔn)確率則相對(duì)較低。選取2個(gè)屬性作為特征向量并使用SVM做2類分類,進(jìn)行僵尸粉識(shí)別,結(jié)果如表4所示。從表5中的結(jié)果可以看出少量特征并不能保證識(shí)別結(jié)果能夠有很高的準(zhǔn)確性,因?yàn)樘卣鲗?duì)于識(shí)別方法的權(quán)重也是有區(qū)別的。

        表4 基于區(qū)域交互模型的僵尸粉識(shí)別結(jié)果

        表5 基于少量特征的僵尸粉識(shí)別準(zhǔn)確率

        基于區(qū)域交互模型采取的僵尸粉識(shí)別方法為:1)獲取用戶顯性、隱性影響力值;2)顯性、隱性影響力值閾值設(shè)定;3)根據(jù)用戶相應(yīng)影響力值對(duì)其身份進(jìn)行標(biāo)定。為了設(shè)定合理的影響力閾值取值,本文根據(jù)人工篩選得到的數(shù)據(jù)集以300個(gè)僵尸粉與300個(gè)普通用戶一組,將用戶分成10組作為訓(xùn)練與測試數(shù)據(jù)集,并采用循環(huán)估計(jì)的方法選取平均準(zhǔn)確率最高時(shí)相應(yīng)顯性、隱性影響力數(shù)值作為僵尸粉識(shí)別過程的閾值。最終僵尸粉判定條件為選取顯性影響力大于100且隱性影響力小于5,隱性影響力大于150且顯性影響力小于10以及選取顯性、隱性影響力同時(shí)小于1為僵尸粉用戶,其他則認(rèn)為是正常用戶。僵尸粉識(shí)別實(shí)驗(yàn)結(jié)果如表4所示。

        根據(jù)對(duì)識(shí)別錯(cuò)誤的用戶進(jìn)行分析發(fā)現(xiàn),誤判的主要原因在于某些正常用戶其活躍性非常低,在實(shí)驗(yàn)周期中發(fā)微博的行為十分稀疏,雖然在用戶影響力上與僵尸粉用戶極為相似,但通過人工篩檢并不能被歸為僵尸粉用戶。此外把僵尸粉誤認(rèn)為普通用戶的原因?yàn)槠湫畔⒃诒疚膶?shí)驗(yàn)數(shù)據(jù)中截止時(shí)間的原因并不完整,因此計(jì)算出結(jié)果未能滿足僵尸粉篩選條件。在分析得到的僵尸粉后,發(fā)現(xiàn)存在僵尸粉團(tuán)的現(xiàn)象存在,部分賬號(hào)其信息內(nèi)容與行為跟普通用戶相比并無較大差異,該賬號(hào)微博由其他僵尸粉進(jìn)行轉(zhuǎn)發(fā)但賬號(hào)之間并不存在關(guān)注關(guān)系,這些模擬正常用戶行為的僵尸粉也被基于區(qū)域交互模型的識(shí)別方法檢測獲得。綜合上述幾部分實(shí)驗(yàn),結(jié)果表明區(qū)域交互模型能夠較為真實(shí)地反映用戶之間的交互行為,基于行為不同模式的差異可對(duì)在線社會(huì)網(wǎng)絡(luò)中不同類型用戶進(jìn)行識(shí)別。

        7 結(jié)束語

        本文基于新浪微博與人人網(wǎng)數(shù)據(jù)發(fā)現(xiàn)用戶之間的轉(zhuǎn)發(fā)、分享等交互行為在一定鄰接距離范圍內(nèi)是廣泛存在的,并不僅限于相鄰用戶。根據(jù)不同距離的交互行為提出了一個(gè)區(qū)域交互模型。該模型基于不同鄰接距離用戶之間的交互行為,對(duì)在線社會(huì)網(wǎng)絡(luò)中用戶的影響力進(jìn)行判斷分析。用戶對(duì)相鄰節(jié)點(diǎn)的顯性影響力以及非相鄰節(jié)點(diǎn)的隱性影響力可應(yīng)用于在線社會(huì)網(wǎng)絡(luò)用戶類型劃分,能夠從用戶行為、用戶影響范疇等方面更真實(shí)地體現(xiàn)出用戶在網(wǎng)絡(luò)中所處的地位。實(shí)驗(yàn)結(jié)果表明,不論是對(duì)于大影響力用戶識(shí)別,還是僵尸粉識(shí)別,本文的方法在準(zhǔn)確度等方面具有一定的有效性。

        區(qū)域交互模型是針對(duì)在線社會(huì)網(wǎng)絡(luò)用戶之間交互行為的抽象,本文開展包括的用戶影響力研究以及相應(yīng)的用戶角色劃分研究僅是基于該模型展開的部分基礎(chǔ)研究。在下一步研究工作中,將開展在本文工作基礎(chǔ)上的算法復(fù)雜度優(yōu)化研究,并對(duì)算法有效性進(jìn)行更為細(xì)致的分析研究。

        [1] KANNA A F, YACINE A, AJITH A. Models of influence in online social networks[J]. International Journal of Intelligent Systems, 2013, 29(2): 161-183.

        [2] LIM S H, KIM S W, PARK SUN J. Determining content power users in a blog network: an approach and its applications[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans Archive, 2011, 41(5): 853-862.

        [3] LI X,CHENG S Y, CHEN W L. Novel user influence measurement based on user interaction in microblog[C]//The 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and MiningNiagara Falls. Canada, c2013: 615-619.

        [4] WU X M,WANG J M. Micro-blog in China: identify influential users and automatically classify posts on Sina micro-blog[J]. Journal of Ambient Intelligence and Humanized Computing, 2014, 5(1): 51-63.

        [5] CHA M Y, HADDADI H, BENEVENUTO F. Measuring user influence in Twitter: the million follower fallacy[C]//The Fourth International AAAI Conference on Weblogs and Social Media. Washington, DC, USA, c2010: 10-18.

        [6] LEAVITT A, BURCHARD E, FISHER D, et al. The Influentials: New Approaches for Analyzing Influence on Twitter[R]. Web Ecology Project, 2009.

        [7] KITSAK M, GALLOS L K, HAVLIN S. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893.

        [8] BROWN P, FENG J L. Measuring user influence on Twitter using modified-shell decomposition[C]//The 2011 ICWSM Workshop on the Social Mobile Web. Barcelona, Spain, c2011: 18-23.

        [9] CHEN D B, LV L Y, SHANG M S. Identifying influential nodes in complex networks[J]. Physica A: Statistical Mechanics and its Applications, 2012, 391(4): 1777-1787.

        [10] HUANG Y L,LI L. Analysis of user influence in social network based on behavior and relationship[C]//The 2nd International Conference on Measurement, Information and Control. Harbin, China, c2013: 682-686.

        [11] TANG X N, YANG C C. Ranking user influence in healthcare social media[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 565-582.

        [12] UYSAL I, CRFOFT W B. User oriented tweet ranking: a filtering approach to microblogs[C]//The 20th ACM International Conference on Information and knowledge Management. Glasgow, Scotland, c2011: 2261-2264.

        [13] SUN B M, VINCENT T Y. Identifying influential users by their postings in social networks[C]//The23rd ACM Conference on Hypertext and Social Media Workshop on Modeling Social Media. Milwaukee, USA, c2012: 1-8.

        [14] STRINGHINI G, KRUEGEL C, VIGNA G. Detecting spammers on social networks[C]//The 26th Annual Computer Security Applications Conference. New York, NY , USA: ACM, c2010: 1-9.

        [15] CHU Z, GIANVECCHIO S, WANG H N. Detecting automation of Twitter accounts: are you a human, bot, or cyborg[J]. IEEE Transactions on Dependable and Secure Computing, 2012, 9(6): 811-824.

        [16] BHAT S Y, ISLAMIA J M, DELHI N. Community-based features for identifying spammers in online social networks[C]//The 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining. Niagara Falls, Canada, c2013: 100-107.

        [17] SUN Q D, WANG N, ZHOU Y D, et al. Modeling for user Interaction by influence transfer effect in online social networks[C]//The 39th IEEE Conference on Local Computer Networks. Edmonton, Canada, c2014: 486-489.

        [18] LIANG H, LU G, XU N S. Analyzing user influence of microblog[C]//2012 IEEE fifth International Conference on Advanced Computational Intelligence (ICACI). Nanjing, China, c2012: 15-22.

        [19] BAKSHY E, HOFMAN J M, MASON W A, et al. Everyone’s an influencer: quantifying influence on Twitter[C]//The 4th ACM International Conference on Web Search & Data Mining. HongKong, Ch ina, c2011: 65-74.

        Study on user influence analysis via regional user interaction model in online social networks

        WANG Nan1, SUN Qin-dong1, ZHOU Ya-dong2, WANG Han-qin1, SUI Lian-sheng1

        (1. Shaanxi Key Laboratory of Network Computing and Security, Xi’an University of Technology, Xi’an 710048, China;2. MOE KLINNS Lab, Xi’an Jiaotong University, Xi’an 710049, China)

        Conventional user influence researches do not accurately reflect the real interaction pattern between different users in online social networks. In order to solve this problem, a user influence evaluation method based on regional user interaction model has been proposed. The regional user interaction model can illustrate the real online social network user interaction pattern between users with different distance by the influence transfer effect. The method calculates the direct influence and the indirect influence of each user in online social networks and identifies the influential users and zombie users. Experiments are based on the real data of Sina Weibo and RenRen online social networks and the results show that compared with the existing methods the method has better accuracy and efficiency for the influential user and zombie user identification.

        user influence evaluation, regional interaction model, online social network, influential user, zombie user

        TP393

        A

        10.11959/j.issn.1000-436x.2016020

        2015-02-03;

        2015-07-30

        孫欽東,sqd@xaut.edu.cn

        國家自然科學(xué)基金資助項(xiàng)目(No.61172124, No.61571360, No.61202392)

        TheNational Natural Science Foundation of China (No.61172124, No.61571360, No.61202392)

        王楠(1983-),男,河南安陽人,西安理工大學(xué)博士生,主要研究方向?yàn)樵诰€社會(huì)網(wǎng)絡(luò)、數(shù)據(jù)挖掘等。

        孫欽東(1975-),男,山東莒南人,博士,西安理工大學(xué)教授,主要研究方向?yàn)榫W(wǎng)絡(luò)安全、在線社會(huì)網(wǎng)絡(luò)、物聯(lián)網(wǎng)等。

        周亞東(1982-),男,陜西漢中人,博士,西安交通大學(xué)講師,主要研究方向?yàn)樵诰€社會(huì)網(wǎng)絡(luò)、Web挖掘等。

        王漢秦(1987-),男,陜西西安人,西安理工大學(xué)碩士生,主要研究方向?yàn)樵诰€社會(huì)網(wǎng)絡(luò)。

        隋連升(1972-),男,陜西韓城人,博士,西安理工大學(xué)副教授,主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)、數(shù)字圖像處理以及計(jì)算機(jī)視覺等。

        猜你喜歡
        用戶信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        3D打印中的模型分割與打包
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        如何獲取一億海外用戶
        展會(huì)信息
        美女一区二区三区在线视频| 中文字幕在线亚洲精品一区| 欧美一级在线全免费| 人妻少妇精品无码专区动漫| 一区二区在线观看视频高清| 国产高潮精品一区二区三区av| 久久精品国产亚洲av成人| 中文字幕人妻第一区| 免费av日韩一区二区| 韩国美女主播国产三级| 亚洲国产夜色在线观看| 亚洲中文字幕无码爆乳| 欧美a级在线现免费观看| 水蜜桃视频在线观看入口| 无码熟妇人妻av在线c0930| 亚洲国产中文在线二区三区免 | 妺妺窝人体色www在线直播| 午夜精品久久久久成人| 国产人成无码视频在线观看| 色久悠悠婷婷综合在线| 人妻少妇偷人精品久久人妻| 精品人妻少妇一区二区中文字幕| 特级毛片a级毛片免费播放| 妺妺窝人体色www聚色窝| 精品久久有码中文字幕| 天堂一区二区三区精品| 精品蜜桃一区二区三区| 久热香蕉精品视频在线播放| 日韩精品无码一区二区三区视频| 无码人妻人妻经典| 成年丰满熟妇午夜免费视频| 国产精品熟女视频一区二区三区| 有码中文字幕一区二区| 色播在线永久免费视频网站 | 亚洲av男人电影天堂热app| 久久丝袜熟女av一区二区| 中文字幕人妻激情在线视频| av天堂线上| 国产精品九九九无码喷水| 亚洲国产激情一区二区三区| 曰本女人与公拘交酡|