亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微博社交網(wǎng)絡(luò)數(shù)據(jù)挖掘與用戶權(quán)重分析

        2016-05-14 06:08:59張宇航
        中國高新技術(shù)企業(yè) 2016年5期
        關(guān)鍵詞:新浪微博社交網(wǎng)絡(luò)數(shù)據(jù)分析

        摘要:隨著互聯(lián)網(wǎng)時(shí)代的到來,數(shù)據(jù)成為當(dāng)今社會(huì)中重要的資源,在龐大的數(shù)據(jù)體系中蘊(yùn)藏著無限的價(jià)值,對(duì)這些數(shù)據(jù)進(jìn)行挖掘有著重要的意義。社交網(wǎng)絡(luò)是在傳統(tǒng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來的,但是當(dāng)網(wǎng)絡(luò)的應(yīng)用和移動(dòng)的終端設(shè)備快速的發(fā)展時(shí),社交網(wǎng)絡(luò)也飛速發(fā)展起來。文章對(duì)新浪微博中的數(shù)據(jù)通過適當(dāng)?shù)姆绞竭M(jìn)行了收集,并進(jìn)行了相關(guān)的分析。

        關(guān)鍵詞:新浪微博;社交網(wǎng)絡(luò);用戶權(quán)重;數(shù)據(jù)分析;數(shù)據(jù)體系 文獻(xiàn)標(biāo)識(shí)碼:A

        中圖分類號(hào):TP391 文章編號(hào):1009-2374(2016)05-0190-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.095

        信息的獲取方式有很多種,但是比較常用的主要是兩種:一種是網(wǎng)絡(luò)爬蟲;另一種是網(wǎng)頁信息解析。但是微博用這兩種常規(guī)的方法很難高效地獲取相關(guān)數(shù)據(jù),因?yàn)槲⒉┑挠脩袅亢艽?,?shù)據(jù)更新的速度很快,用戶之間的交流很頻繁,這種常規(guī)的方法無法實(shí)現(xiàn)這種數(shù)據(jù)的獲取。所以,微博的數(shù)據(jù)獲取主要依賴于API接口,它是由微博服務(wù)商提供的一種可以查詢微博數(shù)據(jù)和微博中的交流情況的應(yīng)用,可以實(shí)現(xiàn)微博數(shù)據(jù)的獲取。

        微博服務(wù)商不僅可以獲得微博的數(shù)據(jù),還可以獲得用戶的數(shù)據(jù),這些數(shù)據(jù)都是很重要的資源,但是API作為一個(gè)服務(wù)器,同其他服務(wù)器一樣,有一定的負(fù)荷限度,所以為了保證服務(wù)器不出現(xiàn)崩潰、為了保護(hù)數(shù)據(jù)不丟失,必須對(duì)每個(gè)API接口設(shè)置一定的權(quán)限。在新浪微博中,一般的權(quán)限是用戶在一個(gè)小時(shí)內(nèi)調(diào)用的次數(shù)不能太過于頻繁,最多為1000次,而且在此基礎(chǔ)上每個(gè)API中都設(shè)有各自的小權(quán)限,所以在收集數(shù)據(jù)的過程中要分別對(duì)每個(gè)API接口進(jìn)行相應(yīng)的設(shè)置,這樣才能獲得更多的數(shù)據(jù)。除了解決API接口的限制問題,還需要系統(tǒng)具備災(zāi)難恢復(fù)功能,這樣可以相對(duì)提高數(shù)據(jù)獲取速度。

        1 微博數(shù)據(jù)收集和特征分析

        1.1 微博數(shù)據(jù)收集

        雖然利用開放的API接口可以收集微博中的數(shù)據(jù),但是還有一個(gè)重要的問題需要解決,那就是關(guān)于用戶的身份認(rèn)證的問題。用戶在微博中注冊(cè)的時(shí)候進(jìn)行的身份認(rèn)證是受保護(hù)的,任何第三方在不知道用戶名和密碼的情況下是不能查看該用戶的任何信息的。新浪微博是通過OAUTH認(rèn)證來實(shí)現(xiàn)用戶身份保護(hù)的,QAUTH認(rèn)證不僅安全,而且還特別簡(jiǎn)單實(shí)用,在新浪微博中主要是用于API的用戶驗(yàn)證協(xié)議。當(dāng)用戶在微博中進(jìn)行注冊(cè)的時(shí)候,通過QAUTH的授權(quán)后,用戶會(huì)收到一份由API根據(jù)用戶的請(qǐng)求而發(fā)送的XML或JSON文件??梢酝ㄟ^對(duì)這類文件進(jìn)行解析,從而獲得原始的數(shù)據(jù)。

        1.2 微博特征分析

        每個(gè)用戶的受關(guān)注程度都不相同,為了評(píng)價(jià)某個(gè)用戶的受關(guān)注程度,可以通過統(tǒng)計(jì)其微博的回復(fù)數(shù)和轉(zhuǎn)發(fā)數(shù)來估計(jì)。在新浪微博中,對(duì)于用戶所發(fā)送的一條微博,關(guān)注他的用戶可以有三種行為:第一種是單純的回復(fù),在這種情況下該用戶的微博中的評(píng)論數(shù)就會(huì)增加1個(gè);第二種是單純的轉(zhuǎn)發(fā),在這種情況下該用戶的原微博中轉(zhuǎn)發(fā)數(shù)就會(huì)增加1個(gè);第三種是既有回復(fù)又有轉(zhuǎn)發(fā),在這種情況下就會(huì)評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)都加1個(gè)。所以在微博的轉(zhuǎn)發(fā)回復(fù)兩者之間既相互聯(lián)系,又相互區(qū)別。同理,微博的回復(fù)數(shù)量和轉(zhuǎn)發(fā)數(shù)量之間同樣存在著某種關(guān)系,如果某一條微博的回復(fù)數(shù)量很高,那么這條微博被轉(zhuǎn)發(fā)的可能性也很大。

        新浪微博較其他的社交網(wǎng)絡(luò)平臺(tái)有更多的功能,其中很重要的一個(gè)就是在新浪微博中含有很多多媒體的信息。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),在微博的內(nèi)容中添加了一些圖片或其他多媒體信息會(huì)比單純的文字內(nèi)容更具吸引力,會(huì)有更多的回復(fù)量和轉(zhuǎn)發(fā)量。此外,對(duì)于同樣具有多媒體信息的微博,如果在微博中存在提及關(guān)系,那么它的關(guān)注量會(huì)比沒有提及關(guān)系的更高,而且這個(gè)關(guān)注度還隨提及的用戶的數(shù)量的增加而增加,所以在微博傳播性能參考特征中還有提及特征。

        2 用戶特征分析

        雖然微博同F(xiàn)acebook、MySpace等一樣都是社交網(wǎng)絡(luò),但是微博有很多不同于它們的特點(diǎn)。比如,在微博中用戶之間的友好關(guān)系是雙向的,當(dāng)用戶A關(guān)注用戶B的時(shí)候,不需要經(jīng)過用戶B的審核,而且如果用戶B不關(guān)注用戶A的話,用戶A就不會(huì)出現(xiàn)在用戶B的關(guān)注名單中,在這種情況中,用戶A與用戶B之間的關(guān)系比較復(fù)雜,與一般的好友關(guān)系不同,前者是后者的粉絲,后者是前者的被關(guān)注好友。在微博這種社交網(wǎng)絡(luò)中,其結(jié)構(gòu)特征可以描述為一種關(guān)系式,即G=(U,E),U指網(wǎng)絡(luò)中的節(jié)點(diǎn),也就是用戶,E表示各個(gè)用戶之間存在的有向的連接關(guān)系。該關(guān)系式稱為網(wǎng)絡(luò)拓?fù)潢P(guān)系,在這個(gè)關(guān)系式中,分別設(shè)定了出度和入度,其中出度是指一個(gè)用戶的關(guān)注好友數(shù),入度是指這個(gè)用戶的粉絲數(shù)量,通過用戶的出度和入度形成了一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的度的分布特征。

        在新浪微博中用戶是分不同等級(jí)的,在本文進(jìn)行數(shù)據(jù)收集的過程中發(fā)現(xiàn),在新浪微博中通過認(rèn)證用戶將用戶分為普通用戶和認(rèn)證用戶。因?yàn)槲⒉┰诓粩嗟纳?jí)更新,在最新版的新浪微博中對(duì)認(rèn)證用戶進(jìn)行了更加詳細(xì)的分類。在研究過程中發(fā)現(xiàn),經(jīng)過認(rèn)證的用戶的粉絲量較普通用戶多很多,而且其微博的評(píng)論量和轉(zhuǎn)發(fā)量也更高,所以是否為認(rèn)證用戶也在很大程度上決定了微博的傳播情況。一般來說,如果一個(gè)用戶有很多的粉絲,那么他的微博被轉(zhuǎn)發(fā)或者被評(píng)論的可能性就很高,對(duì)于用戶微博的轉(zhuǎn)發(fā)與回復(fù)數(shù)與用戶粉絲數(shù)量之間存在著很密切的關(guān)系,但是這個(gè)關(guān)系比較模糊。

        當(dāng)用戶打開微博的時(shí)候,最先呈現(xiàn)在其微博首頁的是其所關(guān)注的好友的最新微博,一般都是按照時(shí)間的順序進(jìn)行排列,最新的消息排在最上面。一般來說,用戶打開微博后最先出現(xiàn)的就是關(guān)注好友的最新微博,但是隨著逐漸向下滑動(dòng),會(huì)有更多的信息呈現(xiàn)出來,所以每次用戶在打開微博后,會(huì)有大量的信息出現(xiàn),但是一般的用戶都只是簡(jiǎn)單瀏覽,很多信息都會(huì)被忽略掉。因此,一個(gè)微博是否會(huì)被關(guān)注還會(huì)因?yàn)橛脩舻那闆r不同而不同,如果一條微博的發(fā)布時(shí)間恰好處于用戶的活躍時(shí)段,那么被關(guān)注的可能性就會(huì)很大,但如果恰好處于不活躍時(shí)段,則很有可能會(huì)被忽略,所以用戶的活躍時(shí)間特征也是微博傳播的重要影響因素。

        3 基于HITS算法的節(jié)點(diǎn)權(quán)重分析

        在社交網(wǎng)絡(luò)中特別重視人與人之間的相互關(guān)系,所以一個(gè)很具有權(quán)威的微博作者的微博會(huì)傳播得更廣。通過前面的分析可知,用戶的權(quán)重有很多的影響因素,比如用戶的影響力、用戶的活躍程度等。HITS算法是一種權(quán)重排序法,在互聯(lián)網(wǎng)中有很廣泛的應(yīng)用,它主要是指:在同一個(gè)網(wǎng)頁中同時(shí)存在兩個(gè)不同的值,分別是hub值與authority值。其中hub值是指該網(wǎng)頁所指向的所有的網(wǎng)頁中的authority值構(gòu)成;而網(wǎng)頁的authority值由指向該頁面的所有網(wǎng)頁hub值構(gòu)成。在互聯(lián)網(wǎng)中,有這樣一個(gè)規(guī)律,如果有很多具有高權(quán)威性的網(wǎng)頁都指向一個(gè)未知的網(wǎng)頁,那么這個(gè)未知的網(wǎng)頁在很大程度上也會(huì)是高權(quán)威性網(wǎng)頁。

        在整個(gè)互聯(lián)網(wǎng)中,每一個(gè)網(wǎng)頁都會(huì)含有各種不同的連接,假如在你打開的一個(gè)具有很高權(quán)威性的網(wǎng)頁中連接到某一個(gè)廣告,那么這個(gè)廣告就會(huì)因此而同樣具有很高的權(quán)威性;或者另外一種情況,當(dāng)你在搜索一個(gè)主題的時(shí)候,出現(xiàn)一個(gè)與你搜索的主題沒有任何關(guān)系但是具有很高權(quán)威性的頁面,這些情況都會(huì)使得HITS的公正性受到嚴(yán)重的影響。但是,在微博中,每個(gè)用戶都是獨(dú)立的個(gè)體,都有自己的思想。很多明星在微博中有大量的粉絲,并且一般都只有少量的關(guān)注好友,但是他們的微博通常都會(huì)有很高的回復(fù)率和轉(zhuǎn)發(fā)率。對(duì)微博中的用戶進(jìn)行詳細(xì)的分析后,得出了一些重要的規(guī)律,比如:在新浪微博中,如果某個(gè)用戶有很高的權(quán)重,他關(guān)注的好友越多,那么說明他所關(guān)注的好友越不重要;但是,反過來,如果他關(guān)注的好友越少,則說明他所關(guān)注的好友對(duì)他來說都很重要。為了限制權(quán)威性用戶無限度的傳遞其自身的權(quán)威性,必須將HITS算法進(jìn)行相應(yīng)的改進(jìn),因?yàn)樵谖⒉┲杏脩糁g的友好關(guān)系是有方向的,這種關(guān)系正好與互聯(lián)網(wǎng)的網(wǎng)頁連接非常相似,所以可以按照互聯(lián)網(wǎng)中的方法同樣的改進(jìn),HITS算法。

        在社會(huì)快速發(fā)展的同時(shí),互聯(lián)網(wǎng)也在迅速的發(fā)展,特別是社交網(wǎng)絡(luò)如微博逐漸成為人們?nèi)粘躺钪胁豢苫蛉钡囊徊糠?。社交網(wǎng)絡(luò)比傳統(tǒng)網(wǎng)絡(luò)傳播信息速度更快,特征也更復(fù)雜,所以傳統(tǒng)的理論和研究模型都不再適用于社交網(wǎng)絡(luò),怎樣才能更加快速、更加高效地獲取社交網(wǎng)絡(luò)中的各種信息和數(shù)據(jù),具有很重要的研究意義和應(yīng)用的價(jià)值。

        本文將API接口的應(yīng)用合理地運(yùn)用到研究過程中,并結(jié)合網(wǎng)頁信息解析法,分別對(duì)微博的數(shù)據(jù)進(jìn)行了收集和多角度的分析,根據(jù)研究結(jié)果發(fā)現(xiàn)影響了影響微博用戶的權(quán)威性和微博的傳播范圍的相關(guān)因素。在微博等社交網(wǎng)絡(luò)中,雖然所發(fā)布的內(nèi)容完全相同,但是具有不同權(quán)威性的人進(jìn)行發(fā)布將會(huì)有不同的效果、不同的影響力。

        參考文獻(xiàn)

        [1]Linyuan Lü,Matú?Medo,Chi Ho Yeung,Yi-Cheng Zhang,Zi-Ke Zhang,Tao Zhou.Recommender systems[J].Physics Reports,2012,(1).

        [2]Chuang Liu,Wei-Xing Zhou.Heterogeneity in initial resource configurations improves a network-based hybrid recommendation algorithm[J].Physica A:Statistical Mechanics and its Applications,2012,(22).

        [3]蔣昌金,彭宏,陳建超,等.基于主題詞權(quán)重和句子特征的自動(dòng)文摘[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,(7).

        作者簡(jiǎn)介:張宇航,男,本溪廣播電視大學(xué)計(jì)算機(jī)講師。

        (責(zé)任編輯:王 波)

        猜你喜歡
        新浪微博社交網(wǎng)絡(luò)數(shù)據(jù)分析
        新浪微博熱點(diǎn)事件的輿論傳播與群體心理
        新浪微博娛樂明星的社會(huì)網(wǎng)絡(luò)分析
        基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
        戲劇之家(2016年19期)2016-10-31 19:44:28
        社交網(wǎng)絡(luò)自拍文化的心理解讀
        新聞前哨(2016年10期)2016-10-31 17:46:44
        Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
        淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營銷策略
        新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
        淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營銷模式的影響
        社交媒體平臺(tái)醫(yī)患關(guān)系報(bào)道特點(diǎn)研究
        今傳媒(2016年8期)2016-10-17 23:50:55
        微博的社會(huì)公信力現(xiàn)狀探究及其未來構(gòu)建研究
        商(2016年21期)2016-07-06 17:23:54
        车上震动a级作爱视频| 一区二区三区视频在线观看| 成人无码一区二区三区| 中文字幕无码日韩专区免费 | 精选麻豆国产AV| 大岛优香中文av在线字幕| 一区二区三区国产在线视频 | 国产日韩AV无码免费一区二区 | 国产精品伦一区二区三级视频 | 亚洲av无码之国产精品网址蜜芽| 人妻丰满熟妇av无码区hd| 亚洲中文有码一区二区| 二区三区三区视频在线观看| 日本高清视频www| 亚洲日韩精品欧美一区二区三区不卡| 国产一区二区免费在线观看视频| 国产自拍av在线观看视频 | 精品免费在线| 蜜桃av夺取一区二区三区| 在线播放亚洲丝袜美腿| 野花社区视频在线观看| 亚洲成a人片在线网站| 97超碰中文字幕久久| 亚洲 欧美 综合 在线 精品| 国产色a在线观看| 亚洲a人片在线观看网址| 91久久香蕉国产熟女线看| 久久国产加勒比精品无码| 狠狠久久久久综合网| 国产一区二区三区蜜桃av| 亚洲精品在线国产精品| 精产国品一二三产区m553麻豆| 日本三级吃奶头添泬| 国产美女露脸口爆吞精| 久久精品成人亚洲另类欧美| av在线天堂国产一区| 亚洲av永久无码精品三区在线| 综合网在线视频| 精品日韩一区二区三区av| 挺进邻居丰满少妇的身体| 亚洲AV无码一区二区三区日日强 |