亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博社區(qū)的用戶影響力評價(jià)研究

        2019-05-22 11:18:06劉芳芳張婉婷
        電腦知識(shí)與技術(shù) 2019年10期

        劉芳芳 張婉婷

        摘要:文章在微博用戶已分類的基礎(chǔ)上,提出一種基于社區(qū)內(nèi)用戶當(dāng)前時(shí)間段的影響力計(jì)算方法,使得用戶影響力計(jì)算結(jié)果更加客觀、科學(xué)以及具有應(yīng)用價(jià)值。文章提出一種新的影響力排名算法,對原有pagerank算法進(jìn)行改進(jìn),加入時(shí)間和活躍度兩個(gè)因素計(jì)算用戶粉絲對用戶的影響力貢獻(xiàn)值。首先在數(shù)據(jù)抓取時(shí),只抓取限定時(shí)間段內(nèi)微博數(shù)據(jù),確保數(shù)據(jù)能反應(yīng)用戶最新動(dòng)態(tài)。然后再把用戶的活躍度作為PR值計(jì)算的一個(gè)因子構(gòu)造PR值計(jì)算公式,活躍度越高則粉絲的貢獻(xiàn)值越大。除此以外,還對用戶自身的影響力進(jìn)行計(jì)算,用戶最終的影響力值等于粉絲貢獻(xiàn)值與自身影響力之和。最后通過對新浪微博數(shù)據(jù)進(jìn)行采集,將計(jì)算結(jié)果與傳統(tǒng)的pagerank進(jìn)行比較,該算法能更準(zhǔn)確更科學(xué)地反應(yīng)社區(qū)內(nèi)用戶當(dāng)前的影響力排名。

        關(guān)鍵詞:微博社區(qū);影響力;pagerank

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2019)10-0248-03

        開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        隨著互聯(lián)網(wǎng)技術(shù)和信息傳播方式的不斷發(fā)展,微博從初始的社交網(wǎng)絡(luò)平臺(tái)逐漸發(fā)展成為一種新興的信息傳播媒體,在現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)中擁有巨大的影響力。新浪微博作為國內(nèi)最大的社交網(wǎng)絡(luò)平臺(tái),通過名人效應(yīng)吸引了一大批用戶,至2017年底,新浪微博月活躍用戶數(shù)已經(jīng)達(dá)到4億。經(jīng)過幾年的發(fā)展,新浪微博已經(jīng)積累了巨大的用戶量,用戶每天在平臺(tái)上發(fā)布新的狀態(tài)或者新聞事件,用戶傳播信息的能力等等,吸引了大批的研究者對其進(jìn)行研究。研究者通過用戶公開的信息對其進(jìn)行分類,也就是社區(qū)劃分,將相似的人群劃分為一個(gè)社區(qū),然后再對各個(gè)社區(qū)挖掘影響力較大的用戶。這種基于社區(qū)劃分的大“V”用戶的挖掘,對于商業(yè)廣告以及社會(huì)輿論、新聞傳播都有著重要的應(yīng)用價(jià)值。

        目前,微博用戶影響力的研究已經(jīng)取得一些成果。張琳等[1]在對用戶聚類后,提出一種微博魅力指數(shù)即用粉絲數(shù)/微博數(shù),簡單地計(jì)算用戶影響力??禃圼2]從復(fù)雜網(wǎng)絡(luò)學(xué)分析用戶行為,認(rèn)為微博用戶的活躍度對其關(guān)注用戶的影響力計(jì)算具有重要作用,主要考慮好友轉(zhuǎn)發(fā)微博對其影響力的貢獻(xiàn),提出一種改進(jìn)的pagerank算法,將活躍度作為權(quán)值計(jì)算用戶轉(zhuǎn)發(fā)微博的能力作為影響力值。劉玲等[3],提出用戶的影響力應(yīng)該由用戶自身的質(zhì)量指數(shù)與用戶的間接質(zhì)量指數(shù)構(gòu)成,用戶的自身質(zhì)量指數(shù)即用戶微博的轉(zhuǎn)發(fā)率、評論率,是否為認(rèn)證用戶等,用戶間接質(zhì)量指數(shù)即用戶好友對其影響力的貢獻(xiàn)值。但現(xiàn)實(shí)中,大部分的微博用戶行為存在周期性和不穩(wěn)定性,如果拿所有的原始數(shù)據(jù)進(jìn)行分析,得到用戶影響力是長時(shí)間以來積累的值,不能反映該用戶在最近一段時(shí)間內(nèi)的影響力。本文在以上算法的基礎(chǔ)上,加上時(shí)間因素,采集最近一段時(shí)間內(nèi)的數(shù)據(jù)對用戶自身質(zhì)量指數(shù)算法和間接質(zhì)量指數(shù)的算法進(jìn)行改進(jìn),提出一種新的微博影響力計(jì)算方法,實(shí)驗(yàn)結(jié)果分析表明,該算法更具科學(xué)性和準(zhǔn)確性。

        1 pagerank算法

        pagerank算法[4]是一個(gè)網(wǎng)頁排名算法,基本思想是將網(wǎng)頁之間的連接看作是一種投票行為,如果網(wǎng)頁a鏈接到網(wǎng)頁b,則認(rèn)為網(wǎng)頁a給網(wǎng)頁b投了一票。在微博中,也可以用來描述用戶與用戶好友之間的相互作用關(guān)系。如果用戶a轉(zhuǎn)發(fā)了用戶b的微博,如果用戶b是一個(gè)影響力非常大的大“V”用戶,則用戶a的影響力也會(huì)得到大幅提升[5]。Weng 等[6]的研究說明,如果將好友對其影響力貢獻(xiàn)的總值作為影響力評價(jià)公式的唯一指標(biāo)應(yīng)用在Twitter上,最后實(shí)驗(yàn)的排序結(jié)果與經(jīng)典的 PageRank 算法排序結(jié)果總體上一致。但是微博用戶中,每個(gè)用戶的活躍度是不一樣的,對于同一個(gè)粉絲,用戶活躍度越高應(yīng)該獲取到粉絲的影響力貢獻(xiàn)值越高,同時(shí)還要考慮時(shí)間因素,因此需要綜合多項(xiàng)指標(biāo)進(jìn)行評價(jià)。

        經(jīng)典的PageRank算法是通過網(wǎng)頁的鏈接進(jìn)行分析得到網(wǎng)頁的重要度,計(jì)算的網(wǎng)頁的重要度值稱為PR值。一個(gè)網(wǎng)頁的PR值取決于鏈接到頁面的數(shù)量及該被鏈接的頁面的質(zhì)量和重要度,最后該網(wǎng)頁的PR值會(huì)被平均分配給它鏈出的網(wǎng)頁。例如,一個(gè)網(wǎng)頁a指向一個(gè)網(wǎng)頁b,則網(wǎng)頁b的一部分PR值由網(wǎng)頁a的PR值除以鏈出數(shù)量,網(wǎng)頁a的影響力越大,則對網(wǎng)頁b的PR值貢獻(xiàn)值越大。PageRank算法的數(shù)學(xué)公式描述如下,設(shè)pi為一個(gè)網(wǎng)頁,L(pj)為網(wǎng)頁pj鏈出數(shù)目,M(pi)鏈出到pi的網(wǎng)頁集合,d為阻尼系數(shù),表示用戶在瀏覽某個(gè)頁面后以1-d的概率繼續(xù)瀏覽某一個(gè)鏈出的頁面,以d概率重新選擇一個(gè)隨機(jī)頁面進(jìn)行瀏覽,那么頁面pi的PR值可以用以下公式表示:

        其中阻尼系數(shù)d一般取值為0.15[45],加入阻尼系數(shù)是為了保證最后的計(jì)算結(jié)果總是收斂的。微博中用戶之間的關(guān)系可以看成一個(gè)有向圖,用戶看成是網(wǎng)絡(luò)中的網(wǎng)頁,好友關(guān)系可以看成是網(wǎng)頁的鏈入鏈出。但是,傳統(tǒng)的算法只考慮了鏈接, 沒有考慮網(wǎng)頁內(nèi)容和主題的相關(guān)影響,而將PR值均勻地傳遞給它所鏈出的頁面,因此計(jì)算結(jié)果不準(zhǔn)確。后期很多研究者對算法進(jìn)行了改進(jìn),比如加入時(shí)間因素,加入網(wǎng)頁的內(nèi)容因素和主題因素等。

        2 微博用戶影響力計(jì)算模型

        本文在基于滑動(dòng)窗口多標(biāo)記傳播算法[7]對用戶進(jìn)行社區(qū)劃分后,再針對不同社區(qū)的用戶分別采集最近一段時(shí)間的數(shù)據(jù),計(jì)算影響力。在微博中[8],用戶影響力主要通過發(fā)布微博、轉(zhuǎn)發(fā)微博、評論、點(diǎn)贊等行為積累而成的,微博社區(qū)內(nèi)的用戶之間交互量非常大且活躍。假設(shè),用戶A關(guān)注了用戶B ,則用戶B發(fā)布的微博就可以被用戶A看到,如果用戶A轉(zhuǎn)發(fā)了用戶B的微博則用戶B的微博影響力被擴(kuò)大,等同于用戶B的影響力擴(kuò)大,用戶A的影響力越大,則對用戶B的影響力貢獻(xiàn)值就越大;如果用戶A 僅評論了用戶B的微博,則用戶B的微博僅影響到用戶A一人,因此用戶B中參與評論的粉絲數(shù)量越多,則影響的用戶量越大;如果用戶A點(diǎn)贊用戶B的微博,則影響如同評論。除此以外,用戶本身如果為認(rèn)證用戶,則其發(fā)表微博更令人信服,因此,從這個(gè)角度,認(rèn)證用戶自身的影響力指數(shù)高于非認(rèn)證用戶。本文將用戶的影響力計(jì)算值為自身影響力與粉絲影響力貢獻(xiàn)值(間接影響力)之和,具體公式如下:

        3 實(shí)驗(yàn)分析

        本文在微博用戶社區(qū)劃分[7]數(shù)據(jù)基礎(chǔ)上,對標(biāo)簽為“裝修 家居 電器 臥室”社區(qū)用戶數(shù)據(jù)爬取。首先爬取該社區(qū)用戶2018年的微博、每條微博被轉(zhuǎn)發(fā)的數(shù)量和轉(zhuǎn)發(fā)的用戶id、 每條微博被評論的數(shù)量和評論的用戶id、每條微博被點(diǎn)贊的數(shù)量和點(diǎn)贊用戶的id、用戶是否為認(rèn)證用戶。對用戶的轉(zhuǎn)發(fā)用戶id、評論用戶id、點(diǎn)贊用戶id統(tǒng)計(jì)并去重,得到的用戶id則認(rèn)為是與該用戶有交互的粉絲,本文考慮為有效粉絲。然后再根據(jù)有效粉絲的id進(jìn)行第二層數(shù)據(jù)爬取,計(jì)算這些用戶最近一年的微博數(shù)量,這些用戶所關(guān)注的所有用戶集合,以計(jì)算這些用戶的活躍度。

        本文針對“裝修家居”類的社區(qū)3000個(gè)用戶數(shù)據(jù)進(jìn)行分析,并且與傳統(tǒng)的pagerank算法按歷史累計(jì)數(shù)據(jù)對粉絲影響力平均分配進(jìn)行計(jì)算的結(jié)果比較,分別得到不同的影響力評價(jià)結(jié)果。其中表1和表2分別代表pagerank算法和本文算法得到的影響力PR值,按照本社區(qū)的影響力PR排名結(jié)果對比。

        由于算法不同,基礎(chǔ)研究數(shù)據(jù)不同,因此PR值計(jì)算結(jié)果不同,但是對所有用戶排名結(jié)果是有效的。通過兩種算法比較可以看出,本文的算法得到的社區(qū)內(nèi)影響力排名較傳統(tǒng)的pagerank算法發(fā)生了變化。比如用戶id為2354950807的用戶微博等級(jí)為LV43,被譽(yù)為2018年十大影響力家居LV,查看其微博的轉(zhuǎn)發(fā)量、評論數(shù)已經(jīng)點(diǎn)贊數(shù)相對較多。傳統(tǒng)pagerank排名第5,本文算法中排名第二,用戶2994476004情況也類似于2354950807用戶。比如用戶id為2143116435的用戶總的粉絲數(shù)和總的微博量都很大,但是其在最近一年內(nèi)發(fā)布的微博數(shù)量只有2070不到微博總數(shù)的10%,查看其微博的互動(dòng)也非常少,本文的算法排名中它的排名后退了2位,用戶2517621301情況類似。因?yàn)楸舅惴ㄗ⒅刈罱欢螘r(shí)間內(nèi)用戶的影響力,而不是對歷史累計(jì)的影響力,同時(shí)考慮用戶的活躍度,有些用戶或許過去影響力比較大,而隨著時(shí)間的延長,用戶發(fā)布微博數(shù)量越來越少,或者微博質(zhì)量降低,導(dǎo)致不再吸引用戶而影響力降低,該算法能夠更加準(zhǔn)確客觀地反映用戶的影響力排名。

        4 結(jié)語

        新浪微博作為國內(nèi)最大的社交網(wǎng)絡(luò)平臺(tái),其反應(yīng)的人類的社交行為具有非常實(shí)際的代表性,研究微博社區(qū)用戶影響力對新聞傳播、社會(huì)輿論監(jiān)控已經(jīng)商業(yè)廣告都有非常重要的意義。本文提出計(jì)算微博用戶的影響力應(yīng)該以最近時(shí)間段數(shù)據(jù)為基礎(chǔ),從人類的行為特征來分析,人類的活動(dòng)具有周期性和不穩(wěn)定性,因此也把用戶發(fā)布微博的頻率作為用戶的活躍度用來構(gòu)造用戶影響力公式。本文把實(shí)際參與互動(dòng)的粉絲作為有效粉絲計(jì)算用戶自身的影響力和間接影響力,最后通過在新浪微博數(shù)據(jù)集上進(jìn)行試驗(yàn),驗(yàn)證了該算法的有效性。但是目前該算法只能手動(dòng)爬取用戶數(shù)據(jù)再進(jìn)行用戶影響力計(jì)算,還不能實(shí)現(xiàn)實(shí)時(shí)滾動(dòng)地計(jì)算用戶的影響力,而且本文在基于社區(qū)劃分的基礎(chǔ)上進(jìn)行分析,只能對已分好的社區(qū)內(nèi)用戶進(jìn)行排名,用戶數(shù)數(shù)量固定,不能實(shí)現(xiàn)自我擴(kuò)展,因而排名的范圍受到一定限制,本文接下來將對這些內(nèi)容進(jìn)行研究。

        參考文獻(xiàn):

        [1] 張琳,謝忠紅.基于聚類的微博用戶類型與影響力研究[J].情報(bào)科學(xué),2016,34(08):57-61.

        [2] 康書龍.基于用戶行為及關(guān)系的社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力評價(jià)——以微博研究為例[D].北京郵電大學(xué),2011.

        [3] 劉玲,楊長春.一種新的微博社區(qū)用戶影響力評估算法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(07):212-216.

        [4] Matthew Richard,Pedro Domings.Combing link and content information in web scarch[EB/OL].http://www.cse.Lehigh.edu/.

        [5] 馬俊.基于話題傳播的微博用戶影響力分析[D].解放軍信息工程大學(xué),2013.

        [6] Weng J,Lim E P,Jiang J,et al.Twitter Rank: finding top-ic-sensitive influential twitterersC]/ / International Confer-ence on Web Search and Web Data Mining,WSDM 2010,New York,Ny,Usa,F(xiàn)ebruary.2010: 261-270.

        [7] 劉芳芳,谷瑞軍,張婉婷.滑動(dòng)窗口多標(biāo)記傳播算法在微博用戶聚類的應(yīng)用.內(nèi)江科技,2018,39(12):42-44.

        [8] 馬俊,周剛,許斌等.基于個(gè)人屬性特征的微博用戶影響力分析[J].計(jì)算機(jī)應(yīng)用研究,2013,30(8):2483-2487.

        【通聯(lián)編輯:梁書】

        男女视频在线观看一区| 亚洲综合伦理| 女同国产日韩精品在线| 在线播放草猛免费视频| 24小时日本在线视频资源| 欧美成人精品一区二区综合| 亚洲精品乱码8久久久久久日本| 欧美粗大猛烈老熟妇| 综合网五月| 国产精品久久久久久久久久影院| 一本色道精品亚洲国产一区| 丰满熟妇人妻av无码区| 国产av一区二区精品久久凹凸| 国产午夜激情视频自拍| 蜜桃在线视频一区二区| 国色天香中文字幕在线视频| 亚洲依依成人亚洲社区| 欧美日韩亚洲国产千人斩| 激情视频在线观看免费播放| 久久久精品国产性黑人| 激情第一区仑乱| 国产精品刺激好大好爽视频| 亚洲av乱码一区二区三区观影| 丝袜美腿制服诱惑一区二区| 在线观看免费无码专区| 久久精品国产亚洲av忘忧草18| 在线观看av手机网址| 热综合一本伊人久久精品| 免费看美女被靠到爽的视频| 欧美aa大片免费观看视频| 草莓视频在线观看无码免费| 午夜免费观看国产视频| 人妻体体内射精一区二区| 91免费播放日韩一区二天天综合福利电影| 久久久国产精品ⅤA麻豆百度| 久久伊人精品色婷婷国产| 在线无码中文字幕一区| 久久综合狠狠色综合伊人| 欧洲熟妇乱xxxxx大屁股7| 毛片av中文字幕一区二区| 国产精品成人一区二区在线不卡|