李新煥+趙應(yīng)丁
摘 要: 如今社交網(wǎng)絡(luò)已成為人與人之間保持聯(lián)絡(luò)、休閑娛樂的主要手段。用戶是社交網(wǎng)絡(luò)中的核心,其行為是深入了解社交網(wǎng)絡(luò)運行機理的起點,對社交網(wǎng)絡(luò)中用戶行為的分析研究有非常大的價值。針對新浪微博中提取出的數(shù)據(jù),利用社交網(wǎng)絡(luò)分析中的節(jié)點與節(jié)點度、用戶群與聚類系數(shù),以及平均路徑長度與直徑進(jìn)行了一系列研究,詳細(xì)分析了用戶在轉(zhuǎn)發(fā)微博和評論微博方面的行為,說明了用戶與用戶之間存在的關(guān)聯(lián)。
關(guān)鍵詞: 社交網(wǎng)絡(luò); 用戶行為; 節(jié)點度; 聚類系數(shù); 平均路徑長度
中圖分類號:TP393 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2017)06-29-04
Analysis of social network user behavior
Li Xinhuan1,3, Zhao Yingding2,3
(1. College of Computer and Infomation, Jiangxi Agricultural University, Nanchang, Jiangxi 330045, China; 2. College of Software, Jiangxi Agricultural University; 3. Key Laboratory of Agricultural Information Technology of Jiangxi College)
Abstract: Today, social network has become a major means for people to keep in touch with people and entertainment. Users are the core of social networks, and their behavior is the starting point for in-depth understanding of the operation mechanism of social networks. According to the extracted data in Sina micro-blog, using the node and the node degree, the user group and the clustering coefficient, and average path length and diameter, etc. in social network analysis, studies and analyzes the users' behavior when they forwarding micro-blog or making comments on micro-blog, and shows the correlations between the user and the user.
Key words: social network; user behavior; node degrees; clustering coefficient; average path length
1 用戶行為分析的重要性
隨著web2.0快速的發(fā)展,社交網(wǎng)絡(luò)既作為一個工具又作為一個交互平臺,對用戶建立在線社交關(guān)系、互動交流等方面有深刻的影響[1]。社交網(wǎng)站( 新浪,臉譜、推特等)的發(fā)展為社交網(wǎng)絡(luò)研究提供了最初的數(shù)據(jù)以及事實根據(jù)。社交網(wǎng)絡(luò)中數(shù)據(jù)是非常龐大的,利用相關(guān)技術(shù)把它提取出來,但若不加以整理分類,便會顯得雜亂無章,毫無頭緒,重要的數(shù)據(jù)也會變成一堆無用的數(shù)字而已。這時就需要對這些數(shù)據(jù)進(jìn)行分析研究,歸納整理,得出有意義的結(jié)論[2]。同時,對社交網(wǎng)絡(luò)中的用戶行為進(jìn)行分析研究,也為后續(xù)的研究指明了動機和目的。
2 社交網(wǎng)絡(luò)中用戶行為分析
社交網(wǎng)絡(luò)中用戶的相關(guān)數(shù)據(jù)相當(dāng)龐大,如用戶的信息、用戶的朋友數(shù)、粉絲數(shù)、發(fā)布的微博數(shù)等,利用新浪微博中的API接口對數(shù)據(jù)進(jìn)行獲取[3],再對提取的數(shù)據(jù)運用抽樣調(diào)查的方式,對社交網(wǎng)絡(luò)中的用戶行為進(jìn)行分析研究。
以某一類標(biāo)簽為對象,如音樂和運動,在提取的數(shù)據(jù)中抽取500個用戶的信息進(jìn)行分析,從而可以對這些用戶在轉(zhuǎn)發(fā)微博、評論微博等行為規(guī)律進(jìn)行分析,通過呈現(xiàn)出的圖像,分析歸納出用戶在社交網(wǎng)絡(luò)中的行為。社交網(wǎng)絡(luò)中用戶行為流程圖如圖1所示。
[新浪微博][提取出的數(shù)據(jù)][結(jié)束][抽取出500條數(shù)據(jù)][分析結(jié)果] [利用API接口提取數(shù)據(jù)][轉(zhuǎn)發(fā)行為分析][評論行為分析]
2.1 分析方法
有越來越多的人參與到社交網(wǎng)絡(luò)的研究中。社交網(wǎng)絡(luò)分析(Social Network Analysis)[4],它指的是對社交網(wǎng)絡(luò)中大量的數(shù)據(jù)進(jìn)行分析的方法,主要研究社交網(wǎng)絡(luò)中節(jié)點與節(jié)點之間的關(guān)系,并且分析出用戶與用戶交往形成的網(wǎng)絡(luò)結(jié)構(gòu)對他們的影響。社交網(wǎng)絡(luò)分析中,會用到三個指標(biāo),分別是節(jié)點與節(jié)點度,用戶群與聚類系數(shù),平均路徑長度與直徑[5]。
2.1.1 節(jié)點與節(jié)點度
節(jié)點(node)[6],它指的是網(wǎng)絡(luò)中的每一個用戶,也就是說在網(wǎng)絡(luò)中與其他連接的單個人、一個組織、一個事件,或者是其他社會實體。這說明了在社交網(wǎng)絡(luò)中,用戶與用戶之間形成了一個很大的網(wǎng)狀結(jié)構(gòu),其中的用戶就是網(wǎng)絡(luò)節(jié)點,因此形成了社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)[7]。
圖論中,節(jié)點度(degree)指的是與這個節(jié)點關(guān)聯(lián)的邊有多少條,同時節(jié)點度的大小也說明了其中一個節(jié)點與另一個節(jié)點相連接的緊密程度,也代表了這個節(jié)點是否接近網(wǎng)絡(luò)中心[8]。依據(jù)一條信息流它的進(jìn)出方向如何,又可以將節(jié)點度分為節(jié)點入度(indegree)和節(jié)點出度(outdegree)[9]。用網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以表示一個節(jié)點與另一個節(jié)點之間的關(guān)系,用節(jié)點入度、節(jié)點出度以及節(jié)點度,可以描述一個節(jié)點有多重要,并且可以說明它與其他節(jié)點之間有什么樣的關(guān)系??梢允褂霉?jié)點度的分布函數(shù)P(k)來表示節(jié)點度是如何分布的,計算出的P(k)的值,就等于在網(wǎng)絡(luò)中隨機選取其中的一個節(jié)點,它的節(jié)點度是k的概率,用公式表示即為:
其中,k為正整數(shù)。
2.1.2 用戶群與聚類系數(shù)
用戶群指的是社交網(wǎng)絡(luò)中的用戶根據(jù)他們之間共同的興趣以及愛好從而聚集起來的群體,他們之間具有共同屬性,因為這些共同屬性,才使得他們能夠聚合到一起,從而形成具有共同興趣愛好的小群體[10]?,F(xiàn)實中,一個個體如果喜歡打球,那么就會結(jié)交別的喜歡打球的個體,這樣他們之間就有了聯(lián)系,從而成為了朋友。同理可以運用在社交網(wǎng)絡(luò)中,工作性質(zhì)相同、學(xué)歷相當(dāng)、所在城市相同,那么這些用戶群很有可能就會組合到一起,進(jìn)行他們之間的活動。
聚類系數(shù)(Cluster Coefficient)[11],也可以稱它為集聚系數(shù)、群聚系數(shù)或者集群系數(shù),它可以用來描述圖或者節(jié)點與節(jié)點之間結(jié)合在一起的強度系數(shù)。換一種說法是,聚類系數(shù)表示的是用戶與用戶之間關(guān)系強弱的系數(shù)。在無向網(wǎng)絡(luò)中,可以把節(jié)點的聚類系數(shù)用公式表示如下:
其中,n表示節(jié)點V的所有k個鄰居間的邊數(shù),網(wǎng)絡(luò)的聚類系數(shù)C等于所有節(jié)點的聚類系數(shù)的平均值,即:
其中,N為網(wǎng)絡(luò)中節(jié)點個數(shù)。
2.1.3 平均路徑長度與直徑
平均路徑長度[12],它代表的是網(wǎng)絡(luò)及群眾之間凝聚在一起的指數(shù)大小,若凝聚指數(shù)越小,則說明網(wǎng)絡(luò)中的小世界特性越明顯[13]。社交網(wǎng)絡(luò)中節(jié)點與節(jié)點之間相連接的路徑有許多,其中最短的一條路徑是經(jīng)過最少的節(jié)點,即最短路徑長度指的是節(jié)點m通過中間其中一個最少的節(jié)點,它所能到達(dá)的節(jié)點n所經(jīng)過的路程長度。另外,直徑指的是網(wǎng)絡(luò)圈中最短路徑長度的最大值[14]。最短路徑的平均值(L)就是網(wǎng)絡(luò)的平均路徑長度,它的計算公式為:
其中,N為網(wǎng)絡(luò)中節(jié)點個數(shù),d為直徑。
3 用戶“轉(zhuǎn)發(fā)”和“評論”行為分析
新浪微博在國內(nèi)的發(fā)展可謂是迅猛,用戶的數(shù)量也越來越多,已經(jīng)達(dá)到4億多,并且新浪微博的大量用戶每秒發(fā)布的微博量非常龐大,面對這么多的信息,很顯然用戶的精力是有限的,他們不可能每一條信息都去看[15]。因此,我們關(guān)注用戶對于這些被發(fā)布出來的微博會產(chǎn)生怎樣的轉(zhuǎn)發(fā)、評論以及點贊行為。利用新浪微博的API接口提取出某一知名認(rèn)證用戶微博中相關(guān)的信息,如某一條微博的被轉(zhuǎn)發(fā)信息以及被評論信息等等,再抽取其中500條數(shù)據(jù)進(jìn)行研究分析,然后歸納出用戶的行為特點。
3.1 用戶“轉(zhuǎn)發(fā)”行為分析
為了更好地研究用戶轉(zhuǎn)發(fā)某一條微博的行為,特地獲取了從2017年3月1日到2017年3月7日該知名認(rèn)證用戶發(fā)布的微博數(shù),一共397條,表1顯示的是其一周內(nèi)發(fā)布的微博數(shù)量。
3.2 用戶“評論”行為分析
根據(jù)對用戶的轉(zhuǎn)發(fā)行為進(jìn)行的分析,同樣的抽取出該知名認(rèn)證用戶微博中的相關(guān)信息進(jìn)行研究,分析得出用戶評論行為。如圖3所示就是用戶對該知名認(rèn)證用戶2017年3月1日到2017年3月7日之內(nèi)所發(fā)微博的評論數(shù),可以很明顯的看出,與用戶對微博的轉(zhuǎn)發(fā)數(shù)變化極其相似。由此可以得出,在如此多的微博信息中,用戶會選擇自己感興趣的話題發(fā)表看法,而不是對每條微博都給予評論。
另外,還可以從圖3中得出,被評論量在1-500之間的微博數(shù)最多,在500以上的被評論量的微博非常少,這兩者之間差距很大。同樣也說明只有少數(shù)微博被用戶評論了很多,即只有少量的微博信息被用戶所關(guān)注。
4 結(jié)果分析
從對社交網(wǎng)絡(luò)中用戶的行為進(jìn)行分析,運用其中三項指標(biāo):節(jié)點與節(jié)點度,用戶群與聚類系數(shù),平均路徑長度與直徑。先分析用戶與用戶之間的關(guān)系,進(jìn)而分析這些用戶對某一知名認(rèn)證用戶所發(fā)微博的轉(zhuǎn)發(fā)行為以及評論行為,可以得出的是,用戶會選擇自己感興趣的話題參與到其中,并對其進(jìn)行轉(zhuǎn)發(fā)或者評論等行為,進(jìn)而引出熱門話題,使得更多的用戶參與到該話題中。這也更進(jìn)一步說明了以上分析研究的內(nèi)容,不僅結(jié)果準(zhǔn)確可行,而且也為以后微博信息的擴散研究打下很好的基礎(chǔ),具有不錯的效果。
5 結(jié)束語
通過對社交網(wǎng)絡(luò)中用戶行為分析研究發(fā)現(xiàn),如果微博信息具有高質(zhì)量或具有很強的吸引力,那么就會吸引更多用戶關(guān)注該信息,相應(yīng)的就會獲得更多用戶的轉(zhuǎn)發(fā)、評論及點贊,這是因為信息本身具有魅力。當(dāng)一條微博信息被很多人轉(zhuǎn)發(fā)時,就會有更多的人看到該信息,從而獲得更多的評論,評論越多,也越會引起更多人討論與該微博信息有關(guān)的內(nèi)容,這樣就會打開其他用戶的思維,從而促進(jìn)人們對微博信息的思考,對其點贊。這同時也說明了用戶與用戶之間是具有一定的聯(lián)系的,他們的行為可以帶動其他用戶同樣的行為,從而使得更多的用戶之間有聯(lián)系。當(dāng)然,該研究分析為后續(xù)新浪微博中其他方面的研究奠定了扎實的基礎(chǔ)。
參考文獻(xiàn)(References):
[1] 夏夢甜,楊漫欣.大學(xué)生社交網(wǎng)絡(luò)的使用及其對社交能力的
影響[J].中國高等醫(yī)學(xué)教育,2014.6:9-10
[2] 楊善林,王佳佳,代寶,李旭軍,姜元春,劉業(yè)政.在線社交網(wǎng)絡(luò)
用戶行為研究現(xiàn)狀與展望[J].中國科學(xué)院院刊,2015.2:200-215
[3] 趙俊.社交網(wǎng)絡(luò)的數(shù)據(jù)采集與分析方法研究[D].鄭州大學(xué)碩
士學(xué)位論文,2015.
[4] 紀(jì)雪梅,王芳.SNA視角下的在線社交網(wǎng)絡(luò)情感傳播研究綜
述[J].情報理論與實踐,2015.7:139-144
[5] 徐文婷.社交網(wǎng)絡(luò)的用戶行為分析及信息擴散研究[D].揚州
大學(xué),2015.
[6] 王朋飛.基于節(jié)點度之差和節(jié)點相似性度量的社團(tuán)檢測算法
的研究[D].蘭州大學(xué),2014.
[7] 朱永習(xí),嚴(yán)廣樂.有向在線社交網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)分析[J].信息
技術(shù),2016.9:14-17,21
[8] 孫文珠,王洪玉,祝開艷,王潔,唐震洲.一種規(guī)則變量節(jié)點度
LT Codes編碼方案[J].電子學(xué)報,2014.10:1918-1924
[9] 周立欣,劉臣,霍良安,王育清.基于交叉度的有向網(wǎng)絡(luò)中心節(jié)
點識別算法研究[J].計算機應(yīng)用研究,2016.11:3299-3302,3306
[10] 馬力.基于聚類分析的網(wǎng)絡(luò)用戶興趣挖掘方法研究[D].西安
電子科技大學(xué)碩士學(xué)位論文,2012.
[11] 許鵬遠(yuǎn),黨延忠.基于聚類系數(shù)的推薦算法[J].計算機應(yīng)用研
究,2016.3:654-656,660
[12] 劉業(yè)政,周云龍.無尺度網(wǎng)絡(luò)平均路徑長度的估計[J].系統(tǒng)工
程理論與實踐,2014.6:1566-1571
[13] 王國紅,周建林,唐麗艷.小世界特性的創(chuàng)新孵化網(wǎng)絡(luò)知識
轉(zhuǎn)移模型及仿真研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2014.5:53-63
[14] 韓衛(wèi)國,彭偉,唐晉韜.基于路標(biāo)的最短路徑長度快速估計
算法[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2013.7:96-102,118
[15] 向仲敏,朱煒,朱瑩燕.新媒體平臺傳播社會主義核心價值
觀的對策研究——基于青少年使用新浪微博的數(shù)據(jù)統(tǒng)計[J].西南交通大學(xué)學(xué)報(社會科學(xué)版),2016.2:77-83