劉海鷗 張靜 李源 康鵬松
摘要:構(gòu)建微博群體用戶的畫像模型并對(duì)其信息行為進(jìn)行分析,是認(rèn)識(shí)大數(shù)據(jù)環(huán)境下微博群體用戶復(fù)雜行為的前提和基礎(chǔ),有助于微博平臺(tái)精準(zhǔn)營(yíng)銷的實(shí)施。以微博群體用戶為例,基于微博數(shù)據(jù)構(gòu)建了微博群體用戶畫像的概念模型,由此對(duì)其信息耦合傳播機(jī)理進(jìn)行實(shí)證分析。
關(guān)鍵詞:微博群體用戶;用戶畫像;信息發(fā)布行為;交互行為
作為異軍突起的新興社交網(wǎng)絡(luò)媒體,微博每天都能產(chǎn)生大量的數(shù)據(jù),這些海量的用戶行為數(shù)據(jù)、博文數(shù)據(jù),可以全方位、立體性的刻畫用戶需求,形成微博用戶畫像。構(gòu)建微博群體用戶的畫像并對(duì)其信息行為進(jìn)行分析,是認(rèn)識(shí)網(wǎng)絡(luò)環(huán)境下微博群體用戶復(fù)雜行為的前提和基礎(chǔ),有助于微博平臺(tái)根據(jù)用戶特征及其偏好提供更精準(zhǔn)的個(gè)性化服務(wù)。因此,如何深刻認(rèn)識(shí)微博群體用戶畫像模型并揭示其信息耦合傳播行為,具有重大理論意義和實(shí)際應(yīng)用價(jià)值。
1、數(shù)據(jù)來(lái)源
構(gòu)建微博群體用戶畫像所需要的數(shù)據(jù)主要來(lái)源于兩類:一是體現(xiàn)用戶年齡、性別、學(xué)歷、住所的自然數(shù)據(jù);二是來(lái)自于用戶行為操作、能夠反映用戶具體行為的數(shù)據(jù),例如用戶的訪問次數(shù)、頁(yè)面停留時(shí)間、點(diǎn)擊頻率、轉(zhuǎn)發(fā)點(diǎn)贊、屏蔽行為等。本文實(shí)證數(shù)據(jù)來(lái)自我國(guó)最為知名的新浪微博。用戶數(shù)據(jù)涉及如下元素:用戶編號(hào)、用戶昵稱、性別、年齡、職業(yè)、地域、使用設(shè)備等,信息數(shù)據(jù)包括:信息編號(hào)、信息內(nèi)容、信息發(fā)布時(shí)間、信息的評(píng)論數(shù)量等。其中,自然數(shù)據(jù)主要通過(guò)微博用戶的個(gè)人檔案頁(yè)面(profile pages)獲取,此類數(shù)據(jù)是用戶在新浪微博注冊(cè)時(shí)需要輸入的信息,如個(gè)人信息簡(jiǎn)介頁(yè)面包含的用戶年齡、性別、學(xué)歷、住所、工作情況、興趣標(biāo)簽、注冊(cè)時(shí)間等,因此可以獲得社交用戶較為精確和細(xì)粒度的個(gè)人信息特征。本文對(duì)研究獲得的個(gè)人基本特征數(shù)據(jù)進(jìn)行了顯著性檢驗(yàn),由此得出用戶個(gè)人基本特征的皮爾遜相關(guān)系數(shù)PCC以及X2統(tǒng)計(jì)量。根據(jù)X2統(tǒng)計(jì)量計(jì)算結(jié)果,大多數(shù)微博用戶個(gè)人基本特征通過(guò)了置信水平為9570時(shí)的顯著性檢驗(yàn)。其中,PCC的高低體現(xiàn)了微博用戶個(gè)人基本特征與用戶信息行為之間存在較強(qiáng)的線性相關(guān)關(guān)系還是較弱的線性相關(guān)關(guān)系。如微博用戶個(gè)人基本特征中“地域”的X2統(tǒng)計(jì)值最高,由此體現(xiàn)了微博平臺(tái)活躍用戶主要聚集于部分一線城市與沿海發(fā)達(dá)省份,這些地區(qū)的用戶數(shù)量及其信息行為要明顯強(qiáng)于其它地區(qū)。究其原因,主要是這一現(xiàn)象與經(jīng)濟(jì)與社會(huì)發(fā)展水平有關(guān),由于地理以及歷史原因,內(nèi)陸和西部地區(qū)無(wú)論在經(jīng)濟(jì)上還是社會(huì)發(fā)展上都存在較大差距,從而導(dǎo)致這些地區(qū)的活躍用戶數(shù)量及關(guān)系強(qiáng)度小于一線城市與沿海發(fā)達(dá)省份,從而在一定程度上體現(xiàn)了不同地理區(qū)間經(jīng)濟(jì)發(fā)展的不平衡性。
2、微博群體用戶畫像概念模型
在構(gòu)建微博群體用戶畫像模型的過(guò)程中,通常會(huì)使用較為通俗且貼近現(xiàn)實(shí)生活的語(yǔ)義去描述微博群體用戶的屬性特征、行為特征與偏好特征,由此來(lái)形成用戶畫像的概念模型,并將其作為實(shí)際用戶的虛擬代表。對(duì)微博群體用戶來(lái)講,可從多個(gè)維度對(duì)其進(jìn)行刻畫,即可從多個(gè)方面去構(gòu)建用戶畫像模型。搜集到的用戶社交活動(dòng)“痕跡”越多,構(gòu)建的用戶畫像模型越能準(zhǔn)確反映現(xiàn)實(shí)社會(huì)中該用戶的具體特征。但鑒于信息搜集成本以及隱私保護(hù)方面的限制,構(gòu)建完全匹配的“精準(zhǔn)”用戶畫像幾乎是不可能的。因此,在信息搜集過(guò)程中需要充分考慮實(shí)際的應(yīng)用場(chǎng)景,構(gòu)建滿足條件的微博群體用戶畫像模型即可。
鑒于上述考慮,本文在收集新浪微博用戶信息時(shí),主要從以下兩個(gè)方面考慮:微博群體用戶通過(guò)哪些行為(如回答問題、點(diǎn)擊圖片、瀏覽信息、關(guān)注等)產(chǎn)生或獲取信息,或通過(guò)哪些行為(如轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論等)將該信息傳播出去。由此,本文將重點(diǎn)研究在線社交活動(dòng)中用戶的以下兩種信息行為:(1)同一個(gè)人發(fā)布不同信息的行為,稱為發(fā)布行為;(2)不同個(gè)體同時(shí)評(píng)論某一條信息,其中包含信息發(fā)布者對(duì)評(píng)論者的回復(fù)信息,稱為交互行為。依據(jù)微博特性以及用戶的自身特點(diǎn),本文從三個(gè)維度對(duì)微博用戶畫像模型進(jìn)行劃分,即用戶的基本特征(人口統(tǒng)計(jì)學(xué)屬性)、用戶的信息發(fā)布行為特征以及用戶交互行為特征。微博群體用戶畫像概念模型如圖1所示。
3、信息耦合傳播行為分析
本文在分析微博群體用戶信息發(fā)布行為與交互行為的過(guò)程中,主要采用了發(fā)布行為時(shí)間間隔分布、交互行為時(shí)間間隔分布、交互周期分布、交互熱度分布等。
3.1信息發(fā)布時(shí)間間隔分布
用戶在日常生活中會(huì)從事各種重復(fù)性活動(dòng),包括呈現(xiàn)規(guī)律性的吃飯、睡覺和無(wú)規(guī)律性的購(gòu)物、出游、上網(wǎng)等,對(duì)于這些無(wú)規(guī)律的活動(dòng),研究用戶相同活動(dòng)相繼發(fā)生的時(shí)間間隔,可發(fā)現(xiàn)其從事某活動(dòng)的規(guī)律,對(duì)研究社交用戶的信息行為有重要意義。圖2表示數(shù)據(jù)集的時(shí)間間隔分布,在雙對(duì)數(shù)坐標(biāo)下呈現(xiàn)明顯的胖尾特征,表明在線社交活動(dòng)中,少數(shù)人處于活躍狀態(tài),積極頻繁地發(fā)布消息,而大部分成員活躍程度低,一般處于靜默狀態(tài),頻繁發(fā)出消息的是固定的幾個(gè)“話嘮”,大部分成員都處于“潛水”或“冒泡”的狀態(tài)。去掉下垂的頭部和松散的尾部,數(shù)據(jù)集的時(shí)間間隔部分服從冪律分布,通過(guò)最大似然估計(jì)方法計(jì)算冪指數(shù),冪指數(shù)集中在1 .69-2.38的范圍內(nèi)。
3.2交互時(shí)間間隔分布
圖3顯示數(shù)據(jù)集交互行為的時(shí)間間隔分布,本文數(shù)據(jù)集的時(shí)間間隔為以某條信息為主題,所討論的相鄰內(nèi)容的時(shí)間差。每個(gè)數(shù)據(jù)集的時(shí)間間隔均服從冪律分布,冪指數(shù)集中在1.57-1.99的范圍內(nèi),一條信息發(fā)出后,有相同或相似經(jīng)歷的用戶會(huì)產(chǎn)生共鳴,進(jìn)而展開討論,好友或關(guān)注關(guān)系可能會(huì)有一定的影響,但不會(huì)因?yàn)檫@種關(guān)系形成爆發(fā)性評(píng)論。交互行為與發(fā)布行為一樣,都表現(xiàn)出重尾分布特征,在線網(wǎng)絡(luò)中信息爆炸,大多數(shù)的信息都被淹沒,無(wú)人問津,只有極少數(shù)信息在短時(shí)間內(nèi)收到爆發(fā)性評(píng)論,例如鹿晗獲得千萬(wàn)評(píng)論的微博“十年相依,終身紅魔!”在發(fā)出的第一天就收到了將近9千條評(píng)論。
3.3 交互周期分布
人類對(duì)信息的興趣都呈逐漸衰減的趨勢(shì),開始時(shí)對(duì)其興趣極濃,時(shí)間長(zhǎng)了興趣消失,很少人會(huì)對(duì)其進(jìn)行評(píng)論。人們對(duì)信息或話題的討論存在一個(gè)交互周期。本文將發(fā)布信息與最后一條評(píng)論的時(shí)間差作為交互周期。信息發(fā)布的三個(gè)月之后,評(píng)論數(shù)量非常少,因此,剔除距離采集時(shí)間三個(gè)月之內(nèi)的信息,計(jì)算每個(gè)信息的交互周期及其互補(bǔ)累積分布,如圖4所示,熱門話題與冷淡話題之間的交互周期相差4-6個(gè)數(shù)量級(jí),微博的最大與最小的交互周期相差較少,為4個(gè)數(shù)量級(jí)。從形態(tài)上看,其交互周期分布較窄,具有長(zhǎng)周期的信息所占的概率較大,這是由于部分話題的“直播”引起,信息內(nèi)容不是一次性發(fā)出,而是利用碎片時(shí)間經(jīng)過(guò)幾天到十幾天不等的時(shí)間陸續(xù)發(fā)布,不斷吸引人跟帖并討論,形成較長(zhǎng)的交互周期。
3.4 交互熱度分布
人們對(duì)某個(gè)話題感興趣時(shí),在生活、娛樂和其他空閑時(shí)間都會(huì)有所提及和討論,這方面的話題信息也得到傳播,進(jìn)而引起更大強(qiáng)度的討論和交流,形成病毒式傳播。因此,人類行為與其在社交活動(dòng)中的交互是密不可分的,交互熱度對(duì)人類行為有重要影響。交互熱度的計(jì)算如公式為Pi=Ni/Ti。其中,Pi表示交互熱度,Ni表示對(duì)一個(gè)信息人們討論的總數(shù)量,Ti表示話題的交互周期。圖5顯示交互熱度的互補(bǔ)累積分布,不同交互熱度的話題相差好幾個(gè)數(shù)量級(jí),交互熱度強(qiáng)的話題所占的概率非常高,說(shuō)明微博是引起爆發(fā)性評(píng)論的主要聚集地之一。
4、結(jié)語(yǔ)
微博在人們的生活中起到至關(guān)重要的作用,微博信息發(fā)布行為與交互行為已經(jīng)成為人們生活的常態(tài),研究微博群體用戶信息傳播行為的統(tǒng)計(jì)特征并刻畫其用戶畫像,不僅有助于發(fā)揮微博用戶線上交流的積極性和信息傳播的主動(dòng)性,充分認(rèn)識(shí)人們的社交活動(dòng),同時(shí)對(duì)強(qiáng)化精準(zhǔn)服務(wù)、投放廣告、企業(yè)宣傳具有重要的應(yīng)用價(jià)值。需要指出的是,本研究對(duì)微博群體用戶畫像的描述性屬性方面考慮不夠全面,擬在今后的研究中全面考慮與用戶需求趨向相關(guān)的信息,以此為基礎(chǔ)進(jìn)行模型化表示,多維度制定微博用戶的描述性標(biāo)簽屬性,全面刻畫微博用戶畫像模型。
參考文獻(xiàn)
[l]林燕霞,謝湘生.基于社會(huì)認(rèn)同理論的微博群體用戶畫像[J].情報(bào)理論與實(shí)踐,2017(11)
[2]黃文彬,徐山川,吳家輝,王軍.移動(dòng)用戶畫像構(gòu)建研究[J].現(xiàn)代情報(bào),2016,(IO)
[3]孫晶晶.移動(dòng)數(shù)字圖書館用戶畫像模型及情境化推薦方法[J].圖書館,2018,(6)
[4]陳晶.網(wǎng)紅經(jīng)濟(jì)下青少年卷入行為及其歸因?qū)嵶C研究[J].情報(bào)雜志,2018,(3)
[5]劉海鷗.云環(huán)境用戶情境感知的移動(dòng)服務(wù)QoS混合推薦[J].情報(bào)雜志,2016,35(4)
[6]蘇妍嫄.面向圖書館大數(shù)據(jù)知識(shí)服務(wù)的多情境興趣推薦方法[J].現(xiàn)代情報(bào)雜志,2018,(6)
[7]張亞明.國(guó)內(nèi)外用戶畫像研究綜述[J].情報(bào)理論與實(shí)踐,2018,(7)
[8]趙攀.在線社交活動(dòng)中的用戶畫像及其信息傳播行為分析[J].情報(bào)科學(xué),2018 (6)
[9]孫晶晶.基于用戶畫像的旅游情境化推薦服務(wù)研究[J].情報(bào)理論與實(shí)踐,2018.(5)