丁晟春 王 楠 吳靚嬋媛
(南京理工大學經(jīng)濟管理學院,江蘇 南京 210094)
微博作為國內主流社交媒體之一,具有使用便捷、時效性強、交互性強、傳播迅速等特征,在信息傳播中占據(jù)十分重要的地位。近年來,越來越多的用戶使用微博,成為網(wǎng)絡輿情事件的參與主體,以致網(wǎng)絡上每時每刻都在產(chǎn)生海量信息,孕育出各種各樣的話題。由于用戶的參與既可以形成熱點話題,又可以進一步推動已形成的熱點話題,這使得在隱匿、開放的網(wǎng)絡背景下,虛假信息極易得到擴散、蔓延,形成負面的輿論傾向,給社會安定帶來極大隱患。因此,如何從海量網(wǎng)絡輿情數(shù)據(jù)中準確、高效發(fā)現(xiàn)當前的熱點主題,幫助政府和企業(yè)進行良好的輿情管理,對于主題識別領域來說仍然是研究的重點和熱點。
早期熱點主題識別的研究對象主要為傳統(tǒng)的新聞媒體報道,對此學者們提出了向量空間模型及文檔主題生成模型等主題發(fā)現(xiàn)方法。但隨著自媒體時代的來臨,這些傳統(tǒng)方法已無法滿足熱點主題識別的要求。近年來,社會網(wǎng)絡分析方法逐漸被應用到多個學術領域中,其高效應用也得到學界的廣泛認可。本研究將該方法引入微博熱點主題識別領域,同時綜合考慮微博的用戶屬性和傳播特征,挖掘熱點主題,以期為政府和企業(yè)監(jiān)控網(wǎng)絡輿情方向及應急預警分析提供良好的信息基礎。
熱點主題,即熱門話題,是指一定時間、一定范圍內,公眾最為關心的熱點問題?,F(xiàn)有的熱點主題識別研究大致可分為兩種研究思路:一種是基于聚類思想;另一種是利用主題模型。
基于聚類思想的網(wǎng)絡輿情熱點主題識別多通過計算文檔相似度,對文檔進行聚類,以識別熱點主題。如路榮等[1]提出了一種層次聚類和K均值結合的混合聚類算法,以檢測微博文本中的新聞話題。鄭斐然等[2]則利用相關度模型和增量式聚類算法實現(xiàn)了微博話題檢測。諶志群等[3]利用共詞分析和bisecting K-means聚類算法檢測BBS熱點話題。王偉等[4]使用OPTICS聚類算法獲取網(wǎng)頁熱點簇,根據(jù)熱點簇特征向量進行二次聚類,以獲取輿情網(wǎng)頁熱點。也有學者通過抽取主題特征詞來進行聚類分析,如王小華等[5]利用TF-IDF關鍵詞抽取技術抽取主題詞串,再結合K-means算法對關鍵詞抽取結果進行聚類分析。遲呈英等[6]利用TF-IDF算法分別對新聞標題和新聞正文進行特征詞抽取,并針對新聞標題與正文對主題的表達程度不同,對上述抽取的特征詞賦予了不同的權重,實現(xiàn)了對網(wǎng)絡新聞熱點主題的識別。高繼平[7]采用關聯(lián)規(guī)則挖掘中的頻繁項集抽取算法,實現(xiàn)了多詞間的共現(xiàn)分析,以挖掘領域研究熱點。此外,還有學者將增長率的概念引入主題特征詞的抽取,王勇等[8]從詞頻統(tǒng)計、詞頻增長率和TF-IDF三方面計算詞語的權重,提出的“絕對聚類”算法能夠較準確地檢測突發(fā)事件。趙文清等[9]使用相對詞頻和詞頻增長率抽取主題詞,基于詞語間的共現(xiàn)圖聚類,識別微博熱點事件。
基于主題模型的網(wǎng)絡輿情熱點主題識別多考慮文本信息中潛在的語義關系來進行熱點主題識別。如畢凌燕等[10]提出了基于概率模型的微博熱點主題識別模型,比較了基于詞頻統(tǒng)計的聚類方法在微博主題識別中的優(yōu)劣,發(fā)現(xiàn)LDA主題模型的可解釋性更好且效果更加穩(wěn)定。曹通[11]利用LDA和BTM主題模型分別對新聞正文和新聞標題進行主題特征抽取,在融合兩種語義特征的基礎上,引入改進的聚類算法及新聞熱度計算公式,實現(xiàn)了對熱點新聞的識別。吳永輝等[12]將LDA模型和仿射傳播聚類算法(AP)相結合,實現(xiàn)網(wǎng)絡主題的發(fā)現(xiàn)和熱點新聞推薦。唐曉波等[13]提出微博熱度的概念,將其引入LDA模型中以挖掘熱點主題。聶文匯等[14]構建了一種基于熱度矩陣的主題模型,通過獲取各潛在主題的熱度和主題—詞概率分布,以詞間的共有熱度來挖掘熱點主題。但主題模型對詞頻依賴度很高,主題抽取效果與文本長度有關,對微博等短文本信息的主題抽取效果并不理想。
因此,越來越多的學者開始注重社交媒體的網(wǎng)絡化特性,將社會網(wǎng)絡的思想引入到主題識別研究中。J Deng等[15]提出了一種動態(tài)調整聚類以更準確地匹配文檔的改進模型,為進一步研究復雜網(wǎng)絡熱點話題演化奠定了基礎。P Bródka等[16]認為現(xiàn)有的社會網(wǎng)絡分析方法僅適用于單層網(wǎng)絡,因此提出了一種動態(tài)的多層次社會網(wǎng)絡分析方法。吳小蘭等[17]根據(jù)用戶關系網(wǎng)絡的社區(qū)結構特性發(fā)現(xiàn)網(wǎng)絡社區(qū),并在社區(qū)內部有針對性地追蹤社區(qū)話題及其演化過程。段煉等[18]綜合考慮了潛在地理區(qū)域、連續(xù)時間和社區(qū)三要素,實現(xiàn)了基于主題相似性的社區(qū)發(fā)現(xiàn)方法。王林等[19]提出了“極大社區(qū)”的概念,通過反復挖掘極大社區(qū),實現(xiàn)熱點主題的發(fā)現(xiàn)。此外,還有學者利用基于社會網(wǎng)絡分析思想的關鍵詞共現(xiàn)分析以實現(xiàn)熱點分析,將關鍵詞視作是關系網(wǎng)絡的節(jié)點,詞間共現(xiàn)現(xiàn)象視作是網(wǎng)絡節(jié)點間的關系,通過“關鍵詞—關鍵詞”共現(xiàn)以發(fā)現(xiàn)領域主題、研究熱點與趨勢[20]。
基于對上述研究成果的分析,本文設計了一種綜合詞頻、詞頻增長率和主題權重三種特征的關鍵詞抽取算法,引入基于社區(qū)發(fā)現(xiàn)的關鍵詞共現(xiàn)分析,充分考慮微博傳播過程中的用戶屬性和傳播特征,實現(xiàn)微博熱點主題的識別。
本文借助微博研究平臺,選取微博內容和微博用戶為研究對象,提出圖1所示的研究流程。
2.1.1 數(shù)據(jù)預處理
分析微博平臺數(shù)據(jù)特征,設定數(shù)據(jù)過濾機制,對數(shù)據(jù)進行繁簡體轉換、分詞及停用詞過濾、詞性過濾處理,最終通過數(shù)據(jù)預處理及垃圾信息過濾獲得高質量的有效實驗數(shù)據(jù)集。
2.1.2 主題模型構建
依據(jù)微博特性,從維度、特征和度量三方面綜合考慮,構建“帖子—主題”二模網(wǎng)絡模型,對能夠表達主題的關鍵詞進行抽取研究。其中“關鍵詞—關鍵詞”單模網(wǎng)絡模型利用關鍵詞共現(xiàn)發(fā)現(xiàn)主題社區(qū),“帖子—關鍵詞”二模網(wǎng)絡模型得到每個帖子與之對應的關鍵詞集,將二者聯(lián)立得到“帖子—主題”二模網(wǎng)絡模型,即發(fā)現(xiàn)每個帖子所映射的主題社區(qū),以支撐主題的熱度計算。
2.1.3 主題識別
該部分主要包括兩階段:一是種子主題的識別;二是子主題的識別。在第一階段,由于基于話題標簽“#*#”發(fā)布的微博通常具有明確性,發(fā)表內容多為對話題標簽中的內容進行討論,可以認為其討論的大主題即為微博話題標簽內的內容,即“種子主題”,由于“種子主題”存在表述不同意思相同的現(xiàn)象,故需要將這些相同或相似的話題標簽進行合并,因其多為短文本,故采用編輯距離算法進行相似度聚類,以此聚出各個種子主題。與此同時,由種子主題衍生的微博內容在討論的過程也會分化出不同的言論觀點,分裂成各個子主題,因此在第二階段,本文對包含種子主題的微博內容進行更細粒度的子主題挖掘,通過對內容中抽取出的關鍵詞進行共現(xiàn)網(wǎng)絡分析,運用社區(qū)發(fā)現(xiàn)算法實現(xiàn)種子主題下的子主題識別。
2.1.4 熱度分析
主題識別后,利用“帖子—主題”二模網(wǎng)絡模型對各主題下的帖子的熱度實行疊加計算,帖子的轉發(fā)數(shù)、評論數(shù)、點贊數(shù)一定程度上表征了該主題的參與度,而發(fā)帖用戶的認證情況、日微博數(shù)和粉絲數(shù)一定程度上表征了該主題的影響力,本文引入用戶影響力及傳播影響力的雙重度量,來確定主題熱度,實現(xiàn)熱點主題的檢測。
2.1.5 熱度遷移
該部分選取實例,將某一熱點主題下的所有微博數(shù)據(jù)劃分成以“天”為粒度的多個單位時間片,按時間軸順序依統(tǒng)計熱點主題在每個時間片上的主題熱度,分析該主題的輿情生命周期,即其的生成期、擴散期、削減期和消亡期,實現(xiàn)輿情主題的動態(tài)監(jiān)測。
2.1.6 情感分布
選取實例,利用課題組已成熟的SVM算法分析和挖掘關于該熱點主題下所有微博文本中的主觀性信息判斷其情感極性,闡明該主題的情感分布,并以“天”為時間單位,梳理輿情主題生命周期中的整體情感走勢,為獲曉網(wǎng)民輿論支持度和進一步引導輿情方向提供有價值的信息。
2.2.1 基于關鍵詞的社區(qū)發(fā)現(xiàn)方法
1)關鍵詞主題貢獻度
微博中的關鍵詞簡潔、時效性強,是熱點主題識別的重要線索,它的提取質量直接決定了主題識別的準確性。本文在微博中文文本分詞的基礎上,基于詞頻、詞頻增長率、主題權重,定義了一個詞項在單位時間窗內的主題貢獻度[21],如公式(1)所示為該詞3個特征計算分別歸一化后的加權和,即:
(1)
Fij=fij
Fij代表第j個時間窗內的第i個詞項的詞頻,fij即為詞頻數(shù)值。
FKij表示詞項wi在時間窗j內的詞頻增長率,fij為其詞頻,fij′為相對時間窗內的詞頻。
2)關鍵詞抽取算法
微博文本通常十分簡潔,為避免使用傳統(tǒng)特征選擇方法(如卡方選擇)提取詞語表示特征向量而導致的向量稀疏和高維空間問題,本文提出如下所示的一種關鍵詞抽取算法:
第一步:將微博數(shù)據(jù)按照時間劃分,以天為單位,進行文本預處理,獲得每個時間窗的詞項集合w;
第二步:對所有詞項進行詞頻統(tǒng)計及帕累托分布,設置閾值S1;
第三步:選取詞項wi;
第四步:判斷該詞項的詞頻是否大于S1,大于則保留該詞項,執(zhí)行下一步;否則,過濾該詞項,返回第三步,同時i=i+1,以執(zhí)行下一個詞項的判斷;
第五步:計算該詞項的詞頻增長率,判斷是否大于閾值S2,大于則保留該詞項,執(zhí)行下一步;否則,過濾該詞項,返回第三步,同時i=i+1,以執(zhí)行下一個詞項的判斷;
第六步:計算該詞項的主題權重及主題貢獻度,設定所有詞項主題貢獻度的平均值為閾值S3;判斷該詞項的主題貢獻度是否大于S3,大于則保留該詞項,執(zhí)行下一步;否則,過濾該詞項,返回第三步,同時i=i+1,以執(zhí)行下一個詞項的判斷;
第七步:將wi添加到關鍵詞列表中,最終輸出符合條件的所有詞項,作為該時間窗內的主題特征關鍵詞。
本文設定了不同的閾值對比實驗,以確定更準確、有效的特征計算方法,最終將閾值S1定為100,S2定為4。
3)主題社區(qū)發(fā)現(xiàn)
本研究采用社區(qū)算法中的FN算法——凝聚法做主題社區(qū)發(fā)現(xiàn)。該算法是Newman在GN算法上改進優(yōu)化提出的一種快速算法,它克服了傳統(tǒng)社區(qū)算法效率低、研究規(guī)模不大的局限性,可以用于分析結點數(shù)達100萬的復雜網(wǎng)絡,其基本思路是:首先將網(wǎng)絡中的每個節(jié)點自定義成一個獨立的社區(qū),再依次合并有邊相連的社區(qū),計算合并后的網(wǎng)絡模塊度增量,如果增加,則合并,否則撤銷;如此循環(huán),到網(wǎng)絡的模塊度無法提高時停止。
基于此,本文將抽取出的關鍵詞視作網(wǎng)絡中的節(jié)點,關鍵詞與關鍵詞在微博中的共現(xiàn)情況為邊,構建關鍵詞共現(xiàn)網(wǎng)絡,運用FN算法識別出最佳網(wǎng)絡社區(qū)結構,以此挖掘出各主題。由于微博分為帶話題標簽的微博和不帶話題標簽的微博兩大類,針對第一類微博,本文首先利用短文本聚類方法進行種子主題的識別,其次運用社區(qū)發(fā)現(xiàn)實現(xiàn)種子主題下的子主題識別;而針對第二類微博,本文直接通過社區(qū)發(fā)現(xiàn)方法進行主題識別。
2.2.2 基于熱度分析的熱點主題識別
本研究基于用戶影響力和傳播影響力兩個熱度因素,認為某主題的熱度等于其所有發(fā)布該文本的用戶影響力加上該信息的傳播影響力[21]。定義主題熱度計算公式為:
EH(e)=α∑UIi+β∑WIj
(2)
其中,EH(e)是主題e的熱度值,UIi是第i個用戶影響力,WIj是第j條微博的傳播影響力,α和β分別是用戶影響力和傳播影響力的調節(jié)因子,且α+β=1。
UIi=log(Fli+1)×log(Twi+1)×(1+Vi)
其中Fli是用戶的粉絲數(shù),Twi是該用戶平均每天發(fā)布的微博數(shù)量,Vi是判斷用戶是否為VIP認證用戶,若是取值為0.5,否則取值為0。
其中Fcj是微博的轉發(fā)數(shù),Ccj是微博的評論數(shù),Acj是微博的點贊次數(shù)。
1)當α=1,β=0時,該公式用于計算該主題在該時間段內的用戶影響力,即用戶參與度。
2)當α=0,β=1時,該公式用于計算該主題在該時間段內的傳播影響力,即主題擴散程度。
3)當α=0.5,β=0.5時,該公式用于計算該主題在該時間段內的熱度值。
本文利用課題組已成熟的基于新浪微博開放平臺的API接口實現(xiàn)的爬蟲進行數(shù)據(jù)獲取,抓取了2016年08月12日至2016年08月19日八天的微博數(shù)據(jù),共102多萬條數(shù)據(jù),其分布如表1。由于存在著大量的噪聲及垃圾數(shù)據(jù),根據(jù)上一章節(jié)的研究,首先進行包括“@***”、“//@***”、表情符號、URL鏈接、影音圖片等噪聲符號的過濾,然后引用簡體——繁體對照詞典將繁體微博轉換為簡體微博,在此基礎上保留微博文本字數(shù)大于5的數(shù)據(jù),然后基于NLPIR分詞處理技術進行中文分詞處理,過濾停用詞,最后僅保留名詞、動詞及縮略詞。
表1 微博數(shù)據(jù)分布
3.2.1 帶話題標簽的微博
首先運用正則表達式識別帶話題標簽的微博,提取標簽內容進行相似度計算并聚類,以數(shù)據(jù)集中8月13日的微博數(shù)據(jù)為例,共識別出了5個種子主題,如表2所示:
表2 帶話題標簽微博主題表(2016-08-13數(shù)據(jù))
從表1可以看出,關鍵詞能夠較完整的描述該主題,所以本文選用關鍵詞表述主題特征是可行的。對比新浪微博自身的輿情檢測平臺“微輿情”,發(fā)現(xiàn)本文識別的帶話題標簽類主題皆符合微輿情熱點主題情況。然而這類微博屬于特殊文本,其自身可能是基于當下熱點主題進行的帶話題標簽文本發(fā)布,因此,其識別的準確性雖高,但并不具備很高的代表性,例如主題1“2016里約奧運會”,其在特殊的時間段內(奧運會開展期間),數(shù)量呈現(xiàn)出指數(shù)增長式爆發(fā),不論是各類官方媒體還是明星大V們,都在關注并參與到該主題的傳播中,其成為熱點主題屬于必然現(xiàn)象。但針對包含主題標簽的所有微博而言,大多數(shù)微博所發(fā)布的內容并不完全與主題詞直接相關,如主題1“2016里約奧運會”,用戶發(fā)表的微博內容并不一定聚焦于“2016、里約、奧運會”這些主題詞,其發(fā)布的主題可能只是該主題下的一部分。
因此本文選取主題2“孫楊”為例,進行該種子主題下的子主題識別,實行基于核心節(jié)點的局部社區(qū)發(fā)現(xiàn),結果如圖2所示:
圖2 主題2“孫揚”局部社區(qū)發(fā)現(xiàn)結果
其中,位居圖2中心位置的關鍵詞社區(qū)所表述的主題即為種子主題,社區(qū)1~9表示9個子主題,其具體表述如表3所示:
表3 主題2“孫楊”下的子主題識別結果
表3(續(xù))
對比表2和表3我們發(fā)現(xiàn),通過話題標簽識別出來的種子主題更具概括性,并不能準確表示用戶真正想表達的主題,如主題2“孫楊”僅表示用戶發(fā)布的微博與孫楊有關,而通過子主題的識別可準確發(fā)現(xiàn)有的用戶關注的是孫楊帶病參賽所表現(xiàn)出的奧林匹克精神,有的則更關心孫楊的身體狀況,愿其能養(yǎng)好身體,因此有必要對種子主題進行進一步的子主題識別,實現(xiàn)更細粒度的主題發(fā)現(xiàn)。
2.2.2 不帶話題標簽的微博
對于該類微博,直接采用研究提出的關鍵詞特征抽取方法,獲取符合條件的有效關鍵詞集。以上述數(shù)據(jù)集中2016年8月13日的微博數(shù)據(jù)為依據(jù),針對不帶話題標簽的微博做基于關鍵詞共現(xiàn)網(wǎng)絡的社區(qū)發(fā)現(xiàn),結果如圖3所示:
圖3 不帶話題標簽微博主題識別情況
一共識別出10個主題,見表4:
表4 不帶話題標簽主題識別表
由圖3可以看出,因采集數(shù)據(jù)時段為里約奧運會開展期間,期間的大部分微博內容均提及關鍵字段“2016”、“巴西”、“奧運會”等等,這使得社區(qū)1與其他社區(qū)的連接非常緊密,出現(xiàn)圖3中的社區(qū)1“2016里約奧運會”位居社區(qū)中心的現(xiàn)象,與上節(jié)中出現(xiàn)的種子主題十分類似,究其原因是由數(shù)據(jù)集的特殊性造成的。此外除了社區(qū)1是巴西奧運會主題,社區(qū)2~10涵蓋了帆船、蹦床、接力、乒乓球、拳擊、競走、自行車、舉重、游泳各項體育賽事,很好地將用戶關于奧運會的談論主題劃分開來,分門別類,說明公眾在奧運會期間對各類體育項目均有關注,無論是拿下了“首金”、獲得“銀牌”還是“無緣決賽”,大眾紛紛發(fā)表了自己的言論觀點并參與了討論。進行用戶發(fā)布的微博主題識別,不僅能直觀地了解討論的主題分布,還為進一步熱點主題的識別奠定了基礎。
為了獲曉主題的熱度,發(fā)現(xiàn)民眾的關注、討論焦點,實驗對上述不帶話題標簽的微博中識別出的10個主題分別做熱度度量,得出該時間窗內各主題熱度值占比,結果如圖4所示:
圖4 不帶話題標簽微博各主題熱度排序
從圖4中可以看出,實驗檢測出的當前最熱的主題為“2016里約奧運會”,占當前時間窗熱度值的31%左右,隨后9個主題按熱度從大到小排序依次是:孫楊帶病參賽1 500米無緣決賽;男子4*100米接力;女子團體自行車競速賽首金;蔡澤林、王鎮(zhèn)包攬男子競走冠亞軍;奧運黑點:拳擊黑幕,國旗弄錯;田濤獲得85公斤級舉重銀牌;中國乒乓球隊小組賽事;徐莉佳帆船名次下跌;何雯娜蹦床比賽。對比微博平臺熱點主題的實際情況,基本檢測正確,證明本文熱點主題識別方法是可行且有效的。其中,“孫楊帶病參賽1 500米無緣決賽”排在熱度值的第二位,這可能是因為賽前澳大利亞運動員霍頓對我國游泳運動員孫楊進行了言語挑釁,指責孫楊是一位“吃藥的騙子”并強調孫楊將無緣金牌,該言論一經(jīng)曝光立刻引起網(wǎng)民的高度重視,大規(guī)模參與到孫楊賽事的討論中,事關國家的榮譽與尊嚴,更能使民眾的情緒高漲、討論呈爆點趨勢,使得最終孫楊無緣1 500米決賽這一憾事的關注度超過了排名第三的當日“男子4*100接力決賽”,甚至超過了緊跟其后的自行車團體拿下首金、競走包攬冠亞軍兩大喜事的關注度。同時,排名第五的“奧運黑點:拳擊黑幕,國旗弄錯”也排在了“田濤獲得85公斤級舉重銀牌”的前面。表明較于國家正面的拿下獎牌事項,公眾可能對來自外界對我們國家的尋釁事項更為敏感,易于發(fā)表言論,使其蔓延成為熱點主題。因此,越早準確地發(fā)現(xiàn)和識別熱點主題,不僅有利于政府和企業(yè)掌握社情民意、把握輿情動態(tài),還能為相關部門監(jiān)控、疏導網(wǎng)絡輿論提供有價值的方向。
經(jīng)過上述的主題熱度計算,可以得到每個主題在單個時間窗內的熱度值?,F(xiàn)以“天”為時間單位,以4.2小節(jié)里數(shù)據(jù)集中的主題2“孫楊”為例,采集了2016年8月12日至2016年8月19日關于該主題的微博數(shù)據(jù)236 716條,共包含62 757個用戶,考察該主題在不同時間窗的熱度值變化,得出該主題的生命周期和熱度遷徙情況。
3.4.1 用戶影響力
取熱度度量中的α=1,β=0,得主題2“孫楊”的用戶影響力,如圖5:
圖5 主題2“孫楊”的用戶影響力變化曲線圖
3.4.2 傳播影響力
取熱度度量中的α=0,β=1,得主題2“孫楊”的傳播影響力,如圖6:
圖6 主題2“孫楊”的傳播影響力變化曲線圖
3.4.3 主題熱度
取熱度度量中的α=0.5,β=0.5,得主題2“孫楊”的熱度,如圖7。
由以上3張圖可看出,無論是用戶影響力、傳播影響力還是主題熱度,三者走勢基本是一致的,即:無論是用戶參與度還是主題擴散程度均能體現(xiàn)主題熱度的變化。梳理主題2“孫楊”的關鍵輿情信息,如表5所示。
圖7 主題2“孫楊”的熱度變化曲線圖
時 間主 題2016-08-12孫楊即將參賽1500米自由泳2016-08-13孫楊帶病出戰(zhàn)1500米自無緣決賽2016-08-14孫楊加油2016-08-15孫楊東京奧運會再見2016-08-16中國游泳隊抵京2016-08-17奧林匹克精神重在參與2016-08-18倫敦奧運孫楊表現(xiàn)2016-08-19孫楊感冒好了重賽
主題熱度走勢梳理如下:
8月12日,孫楊將出戰(zhàn)衛(wèi)冕冠軍項目——1 500米自由泳,因此,絕大部分媒體均參與了預告孫楊賽程并給予祝福的信息傳播;8月13日,里約奧運會男子1 500米自由泳預賽,孫楊帶病出戰(zhàn)排名第七,無緣決賽,這一情況一經(jīng)出現(xiàn),立刻引起網(wǎng)民的高度關注,呈現(xiàn)熱點爆發(fā)現(xiàn)象;8月14日,對孫楊的討論減少,這一時間段內,人們基于“孫楊帶病參賽”的情況發(fā)布了其余的內容,主題遷移為“孫楊加油”;8月15日,人們對孫楊的討論繼續(xù)減少,少部分的人發(fā)布了孫楊關于再戰(zhàn)下一屆奧運會的信息,而絕大多數(shù)網(wǎng)民參與到了其他主題的傳播中;8月16日,出現(xiàn)一個小峰值,因為中國游泳隊順利飛抵北京,包括孫楊、傅園慧等等,許多網(wǎng)民不僅在微博上發(fā)布了相關消息,甚至親自去到機場一睹運動將風采,使得關于孫楊的討論出現(xiàn)增高;8月17日,熱度再次下降,部分媒體發(fā)布孫楊相關采訪信息,宣言孫楊帶病參賽的奧林匹克精神,得到少數(shù)網(wǎng)民傳播;8月18日,少數(shù)網(wǎng)友對比了孫楊在本次里約奧運會以及上一屆倫敦奧運會的表現(xiàn),表達了對孫楊的支持與理解;而8月19日,熱度再次出現(xiàn)上升趨勢,原因是女子4*100米美國隊掉棒申訴成功,破例獲得重賽資格,擠掉中國隊,該事件一出現(xiàn)即引起網(wǎng)民廣泛討論,其中一些網(wǎng)友由此聯(lián)想到孫楊事件,紛紛表達“讓孫楊申訴,感冒好了重新比賽”,使得關于#孫楊#的主題熱度出現(xiàn)回溫趨勢。
對該主題的生命周期進行分析,結果如圖8所示。
由圖8可看出,8月12日至8月13日,主題2“孫楊”處于生成擴散階段,在微博上引起網(wǎng)民關注,期間事件迅速升溫,出現(xiàn)輿情熱度的首次峰值;8月14日至8月15日處于消減階段,該主題的輿情熱度開始降低;8月16日又處于擴散階段,這是該主題出現(xiàn)了新的關注轉折點,輿情熱度回升上一個小波峰;8月17日至8月18日再次進入消減階段,該主題的輿論慢慢降溫,輿情熱度逐漸降低;8月19日處于擴散階段,該主題的熱度有稍許回溫,大體呈現(xiàn)平穩(wěn)狀態(tài)。不難發(fā)現(xiàn),該輿情主題的生命周期的波動較大,輿情熱度升溫迅速、降溫也很快,整個生命周期呈現(xiàn)的時間比較短暫。且到最后該輿情主題也沒有完全消亡,而是伴隨其他主題的熱度被網(wǎng)友再次聯(lián)想提及,這可能是因為,在輿情網(wǎng)絡中主題與主題之間并不是孤立存在的,許多主題由于存在一定的相關性或相似性,在其中一個爆發(fā)成熱點主題后網(wǎng)民對此的討論和聯(lián)想會加深加劇,從而引發(fā)另一波主題的復現(xiàn)。因此在網(wǎng)絡輿情中如果短期內出現(xiàn)多起類似的負面新聞主題,政府和企業(yè)更應該注意,避免輿論的連帶效應引發(fā)到不可收拾的地步。
圖8 主題2“孫楊”的生命周期階段劃分
現(xiàn)實中常常存在歸到一個主題下的微博表達的卻是截然不同的情感的現(xiàn)象,為了避免將兩個情感極性相反的微博歸為一類,本研究對主題進行情感傾向性分析。還是以主題2“孫楊”為例,將該主題下的所有微博按其情感傾向分為正、負兩類,分析該主題的情感分布及走勢,如圖9所示:
圖9 主題2“孫楊”的情感分布及走勢
由圖9可看出,8月13日到8月19日期間,關于主題2“孫楊”,大部分網(wǎng)民的微博評論均為正面情感,如“孫楊帶病參加資格賽,展現(xiàn)奧林匹克精神”、“孫楊養(yǎng)好身體”、“孫楊下次亞運會加油”;極少部分為負面,且多屬于網(wǎng)民個人負面情感的宣泄,如“孫楊服用興奮劑”、“孫楊說大話打臉自己”??傮w來看,關于這一主題的輿論是比較正面和積極的,且在這一周內波動不大,較為良好。在實際的輿情監(jiān)控工作中,當通過分析情感分布發(fā)現(xiàn)負面情感占比過多時,應及時進行正面的輿論引導,避免大規(guī)模負面輿論的爆發(fā)。
本文從關鍵詞本身與所屬主題兩方面綜合考慮,提出了一種全新的基于主題特征的關鍵詞抽取算法,同時,不僅考慮了微博傳播過程中的用戶行為和微博特征,還結合了用戶屬性進行主題的熱度分析,最后引入社區(qū)發(fā)現(xiàn)等方法體系發(fā)現(xiàn)熱點主題,最終實驗結果理想,可較為準確地識別微博中的熱點主題。此外,本文還對熱點主題的熱度遷徙和情感分布進行了分析,期望起到一定的預警作用,但是研究仍存在一些不足,一是實驗部分采集的數(shù)據(jù)量有限,可能會導致部分熱點主題的遺漏;二是主題識別依賴關鍵詞集及人工總結,缺少能直接表達主題的完整語句。在接下來的研究中,將考慮通過采用自動摘要技術,提高主題識別效率,避免人工總結帶來的主觀性錯誤。
[1]路榮,項亮,劉明榮,等.基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J].模式識別與人工智能,2012,25(3):382-387.
[2]鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測的方法[J].計算機科學,2012,39(1):138-141.
[3]諶志群,徐寧,王榮波.基于主題演化圖的網(wǎng)絡論壇熱點跟蹤[J].情報科學,2013,(3):147-150.
[4]王偉,許鑫.基于聚類的網(wǎng)絡輿情熱點發(fā)現(xiàn)及分析[J].現(xiàn)代圖書情報技術,2009,(3):74-79.
[5]王小華,徐寧,諶志群.基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J].情報科學,2011,(11):1621-1624.
[6]遲呈英,李紅.基于改進TF* PDF算法的網(wǎng)絡新聞熱點話題檢測和跟蹤[J].計算機應用與軟件,2013,(12):311-314.
[7]高繼平,丁堃,潘云濤,等.多詞共現(xiàn)分析方法的實現(xiàn)及其在研究熱點識別中的應用[J].圖書情報工作,2014,58(24):80-85,98.
[8]王勇,肖詩斌,郭跇秀,等.中文微博突發(fā)事件檢測研究[J].現(xiàn)代圖書情報技術,2013,29(2):57-62.
[9]趙文清,侯小可.基于詞共現(xiàn)圖的中文微博新聞話題識別[J].智能系統(tǒng)學報,2012,7(5):444-449.
[10]畢凌燕,王騰宇,左文明.基于概率模型的微博熱點主題識別實證研究[J].情報理論與實踐,2014,37(2):112-116.
[11]曹通.一種基于語義分析的熱點新聞發(fā)現(xiàn)方法[J].計算機與現(xiàn)代化,2017,(6):30-33,39.
[12]吳永輝,王曉龍,丁宇新,等.基于主題的自適應、在線網(wǎng)絡熱點發(fā)現(xiàn)方法及新聞推薦系統(tǒng)[J].電子學報,2010,38(11):2620-2624.
[13]唐曉波,向坤.基于LDA模型和微博熱度的熱點挖掘[J].圖書情報工作,2014,58(5):58-63.
[14]聶文匯,曾承,賈大文.基于熱度矩陣的微博熱點話題發(fā)現(xiàn)[J].計算機工程,2017,(2):57-62.
[15]J Deng,K Deng,Y Li,et al.Hot Topic Detection Based on Complex Networks[J].Fuzzy Systems and Knowledge Discovery(FSKD),2013 10th International Conference on,2013:1055-1059.
[16]P Bródka,P Kazienko,K Musial,et al.Analysis of Neighbourhoods in Multi-Layered Dynamic Social Networks[J].International Journal of Computational Intelligence Systems,2012,5(3):582-596.
[17]吳小蘭,章成志.基于突發(fā)事件特征網(wǎng)絡的用戶社區(qū)發(fā)現(xiàn)與社區(qū)主題演化研究——以新浪微博H7N9事件為例[J].情報理論與實踐,2017,40(5):94-98,60.
[18]段煉,朱欣焰.基于社區(qū)時空主題模型的微博社區(qū)發(fā)現(xiàn)方法[J].電子科技大學學報,2014,43(3):464-469.
[19]王林,戴冠中.基于復雜網(wǎng)絡社區(qū)結構的論壇熱點主題發(fā)現(xiàn)[J].計算機工程,2008,34(11):214-216,224.
[20]邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻資源深度聚合研究探析[J].中國圖書館學報,2013,39(3):25-33.
[21]吳靚嬋媛.基于社區(qū)發(fā)現(xiàn)的網(wǎng)絡輿情熱點主題識別研究[D].南京:南京理工大學,2017.