摘 要:針對微博客在信息更新頻率、組織結(jié)構、用戶關聯(lián)等方面與其他社會化媒體有較大差異,具有驚人的聚合力和滲透力,文章通過研究其特點提出了五維一體的微博輿情監(jiān)測指標體系(MBPOI),用以衡量和評價微博客中話題/事件的輿情度。同時以A自動化世界活動為例分析,對指標體系和分析挖掘系統(tǒng)進行驗證,結(jié)果表明該指標體系使用五種統(tǒng)計方式(QI,II,RI,PI,CI),從多維度、多層次量化話題/事件的影響力有較好的效果,為A公司自動化世界活動監(jiān)控和追蹤提供了有效的社會化媒體分析依據(jù)。
關鍵詞:微博客;輿情監(jiān)測指標;中文信息處理;社會化媒體
1 概述
國內(nèi)已有一些輿情指標體系的研究,這些研究多數(shù)建立在輿情分析和網(wǎng)絡安全的基礎上,國內(nèi)外已有一些相關的研究工作,如基于網(wǎng)絡性能度量指標[1],社會學角度計量社會穩(wěn)定指標體系[2]等。還有一些系統(tǒng)開發(fā)工作,如:中國傳媒大學網(wǎng)絡輿情研究所的IRI網(wǎng)絡輿情指數(shù)和Imonitor輿情系統(tǒng),中科院計算所的網(wǎng)絡安全輿情指數(shù)和天璣監(jiān)測系統(tǒng),TRS公司的網(wǎng)絡輿情指標體系和網(wǎng)絡輿情監(jiān)控解決方案以及skeye輿情監(jiān)控系統(tǒng)。
前人的研究[3]一般針對常規(guī)社會化媒體來構建輿情指標體系,然而微博在傳播機制、聚合力、影響力等特點與傳統(tǒng)社會化媒體有很大的不同,常規(guī)的輿情指標體系和監(jiān)測工具已不完全適用。因此,文章針對微博的特點,提出了專門的微博輿情監(jiān)測指標體系,基于該體系實現(xiàn)了微博監(jiān)控與分析系統(tǒng),并通過“A自動化世界活動”實例分析,驗證該指標體系和系統(tǒng)的有效性。
2 微博輿情監(jiān)測指標體系構建
微博用戶及傳播的信息具有自由化、隱蔽化、發(fā)散化、復雜化等特點,微博輿情指標的選取要有相對穩(wěn)定性或具有自動更新機制,能夠在時間上延續(xù)和空間上擴展,從而用于衡量話題/事件的輿情態(tài)勢進行有效的引導。其定義如下:
定義1:MBPOI={Quantity Index(QI), Intensity Index(II), Relation Index(RI), Polarity Index(PI),Confidence Index(CI)}
其中QI表示量度指標,II表示強度指標, RI表示關聯(lián)指標,PI表示情感傾向指標,CI信度指標。
圖1 微博輿情監(jiān)控指標體系圖
2.1 量度
量度體現(xiàn)了總體演化趨勢,事件持續(xù)、輿情參與度等宏觀方面的度量。
量度將加入分類模型,對話題相關信息更有效的過濾,增加量度的準確度;同時,引入聚類模型,有效的發(fā)現(xiàn)領域相關熱點話題,提煉關聯(lián)話題。
2.2 強度
強度體現(xiàn)了輿情熱點和行為活躍性分布、涉及話題/事件的重要程度、興趣熱點等方面的度量。
分析的數(shù)據(jù)來源是將整體數(shù)據(jù)集中進行過濾、歸類獲得。強度可以對話題/事件相關博主影響力進行計算,以確定話題意見領袖;同時,話題/事件一般有產(chǎn)生、熱議、消減的周期,強度計算將話題周期也納入計算范圍,進行及時預警。
2.3 關聯(lián)度
關聯(lián)度體現(xiàn)了波及的傳播關聯(lián)網(wǎng)絡、層次維度,涉及話題/事件的覆蓋面、影響力等方面的度量。
分析來源于整體數(shù)據(jù)中抽取的用戶粉絲和關注信息。關聯(lián)度可以在網(wǎng)絡圖中,增加話題相關博主重要性,關聯(lián)緊密度的分析,并以節(jié)點的大小,弧的粗細來可視化展示。同時,可將話題相關微博在博主中轉(zhuǎn)博的路徑進行勾勒,以便捷的進行溯源和追蹤。
2.4 情感度
情感度體現(xiàn)了情緒傾向和社會狀態(tài),涉及關注、社會心理、和諧等方面的度量。
分析數(shù)據(jù)來源于話題相關博文和用戶發(fā)布的博文的評論內(nèi)容,文章采取基于HowNet1的詞粒度語義傾向性分析方法,建立具有強烈褒貶傾向的詞典,在設定種子情感詞后,使用HowNet計算相似度。根據(jù)博文中情感詞語與詞典中詞語的語義傾向相似度來判斷博文內(nèi)容和評論的支持度分布。
2.5 信任度
信任度體現(xiàn)了權威性和可信度,涉及話題/事件的準確、真實、有用性等方面的度量。
信任度的數(shù)據(jù)來源為話題相關的某一條博文內(nèi)容發(fā)布用戶發(fā)布站點的相關屬性數(shù)據(jù)。以上屬性建立影響力模型,基于模型判斷某條博文的可信度。信任度將建立不同細分領域的影響力模型,并結(jié)合領域?qū)<抑R不斷調(diào)整模型,以達到對信息可信度的有效判斷。
3 微博客實時監(jiān)控分析系統(tǒng)
在微博輿情指標體系的基礎上,文章實現(xiàn)了微博客實時監(jiān)控分析分布式系統(tǒng),server負責分配站點、調(diào)度URL、抽取與分析任務分配等以實現(xiàn)采集分析系統(tǒng)的負載均衡,client端實現(xiàn)其具體監(jiān)控與分析功能,圖2為系統(tǒng)client的模塊設計,由微博用戶登陸模塊、采集模塊、抽取模塊、中文信息處理模塊、分析模塊組成。
文章采集時使用HttpClient2和Heritrix3開源工具,將網(wǎng)頁下載的同時以ARC文件形式保存到本地,本地ARC文件作為備份,用于系統(tǒng)評測。信息抽取模塊采用xPath定位html網(wǎng)頁中所需的內(nèi)容,對html樹進行進行抽取,實現(xiàn)對各個站點以可配置的形式對微博內(nèi)容定向抽取有價值信息,使用了JS異步加載模式,無法直接獲得,文章實現(xiàn)了Json插件用于處理動態(tài)頁面內(nèi)容。
分析模塊以微博輿情指標體系為理論,在中文信息處理處理模塊的基礎上進行,中文信息處理模塊包括分詞、名詞短語識別、共指消解、語義相似度計算[9]等,使用哈工大自然語言處理工具進行內(nèi)容識別與預處理,識別內(nèi)容將作為指標體系分析五種方法的數(shù)據(jù)輸入,由各分析算法進行處理,具體處理方法在第2節(jié)已做詳細介紹。
圖2 微博客監(jiān)控分析系統(tǒng)圖
4 微博輿情指標體系實例分析
根據(jù)用戶單位的具體微博活動主題監(jiān)測的需求,選取A公司自動化活動為主題做實例研究。A公司在新浪設有官方微博,本次實驗在微博監(jiān)測分析指標數(shù)據(jù)選取時,選取新浪微博數(shù)據(jù)作為量度、情感度、關聯(lián)度的分析源,強度的數(shù)據(jù)源則有主流的11個微博網(wǎng)站構成,網(wǎng)站列表在圖5中有所展示。
本次實驗收集2011年3月1日至2011年8月2日時間段內(nèi)11個微博網(wǎng)站的話題相關數(shù)據(jù),其中,在新浪微博中A公司自動化相關的微博和A公司自動化世界官方發(fā)布的微博數(shù)據(jù)量,如圖3所示。
4.1 量度分析結(jié)果
量度分析相關話題發(fā)布內(nèi)容的總量,量度分析結(jié)果如圖4所示,A公司自動化世界3月入駐的新浪微博,評論數(shù)值在3月下旬比轉(zhuǎn)發(fā)和微博量高出很多,5月上旬量度達到頂峰,相關的微博和評論出現(xiàn)了井噴的異?,F(xiàn)象,隨后量度值降低。通過查閱采集數(shù)據(jù)不難發(fā)現(xiàn)這是由于5月10-12日有A公司自動化世界活動,相關博主紛紛發(fā)布展會參會心得體驗,公司官方博主也加強與粉絲的互動;6月下旬的評論和轉(zhuǎn)發(fā)量度升高幅度較大,通過分析發(fā)現(xiàn)這段時間A公司自動化世界發(fā)布了一些用戶感興趣的工廠照片并發(fā)起了一個有獎投票,增加互動獲得較多的轉(zhuǎn)發(fā)和評論。
該指標為企業(yè)微博營銷管理措施提供了有效的實時跟蹤和效果反饋功能。
圖4 A公司自動化世界的量度分析
4.2 強度分析結(jié)果
強度分析話題各個微博站點中出現(xiàn)的強度分布,圖5為截止到2011年8月2日所有監(jiān)控站點微博相關信息量。統(tǒng)計圖表明A公司自動化世界活動話題強度分布,有效話題統(tǒng)計依次為新浪微博、騰訊微博和搜狐微博,百度i貼吧雖然信息量較多,但以水貼為主,去噪后有效信息較少。同時部分站點話題強度基本為零,如同學網(wǎng)、做啥、嘀咕等。
該分析結(jié)果可以為A公司自動化世界活動下一步官方參與互動,設置官方微博的站點提供有效的支持。
4.3 情感度分析結(jié)果
情感度分析話題中的大眾博文中體現(xiàn)的總體輿情傾向,圖6可看出5月份自動化世界活動期間中立情感度值更高,用戶對A公司自動化活動多是客觀的描述,包括各界媒體的報道、活動的通知以及活動情況的互相轉(zhuǎn)述等信息。其次用戶是正面評價居多反映出此次活動的新引力,以及對A公司自動化世界的認可,如“大愛自動化世界”,“太專業(yè)了,希望有一套”等信息。同時包括極少量的負面信息,如“為什么沒有我,恨死了”等信息。
該分析結(jié)果可以直接為自動化世界提供清晰的整理出意見和建議,并及時解決負面話題進行危機公關。
圖6 情感傾向度分析
4.4 關聯(lián)度分析結(jié)果
關聯(lián)度分析構建出話題相關博主的社會化網(wǎng)絡關聯(lián),分析其核心任務和核心群體。分析結(jié)果可以清晰的分析出話題相關的意見領袖和核心群體,便于公司自動化世界活動對此類用戶增加公關互動,使得營銷策略得意迅速推廣。
5 結(jié)束語
文章提出的微博輿情監(jiān)測指標體系,與其他傳統(tǒng)輿情指標體系相比,微博輿情監(jiān)測指標體系融合了多層面和多粒度指標,各項熵值指標相互融合又相對獨立,共同標識事件、活動、話題的微博輿情態(tài)勢。同時,在該體系的基礎上實現(xiàn)微博監(jiān)控分析系統(tǒng),系統(tǒng)智能的采集微博數(shù)據(jù)并自動分析統(tǒng)計指標結(jié)果。最后以A公司自動化世界為實例初步驗證該輿情指標體系的有效性和可行性。
下一步,指標體系將融合社會學、傳播學的領域?qū)<覙嫿P椭С?,精細化輿情指標的計算方法,并融入微博監(jiān)測與分析系統(tǒng),更好的為個人、企業(yè)、國家提供全方位把握微博輿情的分析指標與系統(tǒng)支持。
參考文獻
[1]Salim Hariri,Qu Guangzhi,Tushneem Dharmagadda,et al.Impact analysis offaults and attacks in large-scale networks.IEEE Security&Privacy.2003,1(5):49-54.
[2]閻耀軍.社會穩(wěn)定的計量及預警預控管理系統(tǒng)的構建[J].社會學研究,2004(3):54-60.
[3]Kanagasabi Rajaraman, Ah-Hwee Tan. Topic Detection, Tracking, and Trend Analysis Using Self-Organizing Neural Networks. Lecture Notes in Computer Science, 2001(LANI2035):102-107.
[4]http://rp-www.cs.usyd.edu.au/~aquigley/3dfade.
[5]S.A. Golder, D. Willkinson, B.A. Huberman. Rhythms of Social Interaction: Messaging within a Massive Online Network[J].3rd International Conference on Communities and Technologies, 2010,10(6):583~593.
[6]李耘濤,劉妍,劉毅.網(wǎng)絡輿情灰色預警評價研究[J].情報雜志,2011,30(4):24-27.
作者簡介:白傳棟(1975,12-),男,漢族,山東省鄆城縣,講師,碩士,研究方向:機電一體化。