鄒佳成,馬遠遠,劉 婷,唐伯超,劉振國,高 輝
(1.電子科技大學計算機科學與工程學院,四川成都 611731;2.成都數(shù)之聯(lián)科技有限公司,四川成都 610094;3.宜賓五糧液股份有限公司,四川宜賓 644000;4.中國酒業(yè)協(xié)會,北京 100831)
隨著移動互聯(lián)網(wǎng)用戶的大規(guī)模增長,互聯(lián)網(wǎng)已經成為人們生活的重要組成部分。如今社會,眾多熱點事件層出不窮,負面敏感信息可以在短時間內得到快速放大傳播,制造嚴重輿情危機,給相關人員的聲譽造成嚴重影響。相關部門和企業(yè)部門越來越關注公眾輿論熱點,面對洶涌的輿論,對大數(shù)據(jù)在線網(wǎng)絡輿情的挖掘、方法和預警等方面的研究具有重要的社會價值和理論意義。無論是電視、報刊、網(wǎng)絡、還是新媒體微博、論壇等,都在不斷發(fā)布和傳播各級政府的最新政策法規(guī),全面監(jiān)測這些媒體,可以及時獲得自己關心的相關政策動向。同時根據(jù)自己所在部門和行業(yè)所關注的社會熱點新聞,每天能夠從輿情監(jiān)測中獲得所有的相關信息。
目前,輿情監(jiān)控已引起政府部門和先進企業(yè)的重視[1],在大數(shù)據(jù)技術的支持下,相繼開發(fā)了屬于自己的輿情監(jiān)測平臺[2]。如,新浪推出了自己輿情平臺“新浪輿情通”,可對某一網(wǎng)絡事件在互聯(lián)網(wǎng)上的整體傳播情況,收集全網(wǎng)數(shù)據(jù)進行分析,自動生成涵蓋事件簡介、事件走勢、網(wǎng)站統(tǒng)計、數(shù)據(jù)類型、關鍵詞云、熱門信息、熱點網(wǎng)民、傳播路徑、相關詞、網(wǎng)民觀點、輿情總結等11 個維度的全網(wǎng)事件分析報告。政府部門也在開發(fā)各領域下的大數(shù)據(jù)輿情平臺。同樣,對于酒業(yè),輿情同樣影響著每一個品牌和企業(yè)。假酒事件常有出現(xiàn),騙財害命也影響了品牌的形象。
酒業(yè)輿情較為龐雜,各業(yè)務部門、業(yè)務人員對于輿情的訴求各有所異,因此酒業(yè)輿情的處理不僅僅是對于酒業(yè)相關輿情的獲取,更需要將酒業(yè)輿情結合酒企的業(yè)務場景,為其提供高效的分主題輿情,使得各業(yè)務主體均可通過酒業(yè)輿情快速定位業(yè)務問題,為企業(yè)相關業(yè)務的開展提供充分的外部決策數(shù)據(jù),給業(yè)務部門提供參考與指導。本次研究的酒業(yè)輿情信息涵蓋了從百度貼吧、搜狐、新浪微博、騰訊、鳳凰網(wǎng)、網(wǎng)易、知乎、同花順、微信、今日頭條、人民網(wǎng)、宜賓零距離、央視網(wǎng)、新浪、東方財富網(wǎng)多個渠道所獲取的關于五糧液、茅臺、古井貢、洋河、瀘州老窖、劍南春6 個相關酒企的新聞、博客和帖子。
針對此而基于大數(shù)據(jù)開發(fā)的酒業(yè)輿情信息監(jiān)測平臺,能夠實時采集酒企及主要競爭對手在主流社交媒體上的酒業(yè)輿情信息,整理分類為“營銷生產”:與白酒生產、營銷、白酒價格升降相關的新聞、論壇帖子、公眾號文章等內容;“金融投資”:與白酒企業(yè)股票、基金、期貨、投資、并購等相關的財經類內容;“公司動態(tài)”:與白酒企業(yè)人事調動、公司高層動態(tài)、公司對外合作等相關的文章;“產品討論”:討論白酒產品口味、真假、售價高低、包裝、物流等相關的評論文章;“社會新聞”:與白酒品牌相關的貪污受賄、清掃造假窩點、行業(yè)宣傳活動等相關報道文章;“行業(yè)動態(tài)”:討論整個白酒行業(yè)的評論性文章,白酒行業(yè)數(shù)據(jù)解讀類文章以及文章評論,并分析相關網(wǎng)帖、事件,判斷新聞情感傾向,跟蹤事件發(fā)展趨勢、事件熱度并實時預警,從而幫助酒企全面了解自己及競爭對手在網(wǎng)絡媒體上的輿情動態(tài),為制定品牌形象優(yōu)化策略提供指引,提前把握緊急事件。
圖1 平臺框架圖
本平臺能夠對五糧液及其競爭品牌的電商銷售數(shù)據(jù)與輿情數(shù)據(jù)進行采集與分析,分別監(jiān)控各酒類品牌的電商銷售、渠道營銷、用戶評價以及輿情口碑情況,幫助五糧液全面地了解線上市場、競爭對手、用戶偏好以及實時跟蹤輿論事件發(fā)展動態(tài),從而在線上銷售策略的制定、產品的渠道投放和用戶口碑建設等方面,為五糧液提供基于大數(shù)據(jù)的支撐和指引。平臺共分為7個層次,框架如圖1所示。
數(shù)據(jù)接入層包含酒企電商銷售數(shù)據(jù)及輿情數(shù)據(jù),采用基于Redis的增量式爬蟲,接入天貓、京東、酒仙網(wǎng)等各大電商平臺,以及微博、微信公眾號、東方財經、同花順等各大社交媒體和信息門戶,每小時定時爬取數(shù)據(jù),并將其自動導入系統(tǒng)。數(shù)據(jù)標準化層檢查數(shù)據(jù)接入層獲取數(shù)據(jù)的完整性、有效性和規(guī)范性,并對其做元數(shù)據(jù)提取等預處理操作。數(shù)據(jù)存儲層利用分布式文件系統(tǒng)HDFS 和數(shù)據(jù)倉庫工具HIVE對各類數(shù)據(jù)實現(xiàn)高效存儲。資源調度層采用airflow,對各層內部、層與層之間,統(tǒng)一進行資源的管理與調度。計算框架層主要包含可視化分析、深度學習框架和大數(shù)據(jù)計算框架,為平臺提供算法支撐。數(shù)據(jù)計算層根據(jù)具體需求對預處理后的數(shù)據(jù)進行分類、聚類、情感分析等。應用服務層用于建立和維護用戶管理系統(tǒng)、輿情系統(tǒng)、綜合展示系統(tǒng),真正實現(xiàn)可視化輿情信息并實時告警功能。
平臺每小時自動爬取網(wǎng)絡數(shù)據(jù),并利用數(shù)據(jù)預處理模塊對原始數(shù)據(jù)進行數(shù)據(jù)清洗和特征提取,得到處理好的待分類數(shù)據(jù),每條數(shù)據(jù)稱為網(wǎng)帖。利用分類模塊對網(wǎng)帖數(shù)據(jù)進行分類,將網(wǎng)帖分為6 個類別。在每個類別內部,利用聚類模塊進行聚類,每個聚類結果稱為一個事件。最后利用聲量計算和情感分析模塊,根據(jù)熱度計算每個網(wǎng)帖的聲量,并對其進行情感分析,確定網(wǎng)帖的正負情感傾向;將每個事件下所有網(wǎng)帖聲量之和作為事件的聲量,統(tǒng)計事件下網(wǎng)帖正負情感傾向,得到事件的情感正負向占比。數(shù)據(jù)處理流程如圖2所示。
圖2 數(shù)據(jù)處理流程
網(wǎng)帖指輿情新聞話題,由屬性和文本兩部分組成,其中屬性包括時間、酒企標簽、轉發(fā)量、瀏覽量、聲量、情感正負向等,文本包括標題和正文文本。屬性用于計算聲量及平臺前臺按條件篩選展示網(wǎng)帖,文本數(shù)據(jù)用于網(wǎng)帖分類、聚類及情感分析。平臺直接從網(wǎng)絡中獲取的網(wǎng)絡數(shù)據(jù)分散、零亂、標準不統(tǒng)一,需要對其進行數(shù)據(jù)清洗和元數(shù)據(jù)提取。首先,以五糧液、瀘州老窖、洋河、茅臺、劍南春、古井貢為正則化規(guī)則,剔除原始數(shù)據(jù)庫中與六大白酒企業(yè)無關的網(wǎng)帖。另外,剔除微博數(shù)據(jù)中,標簽大于3或者以http開頭的網(wǎng)帖;剔除微博粉絲數(shù)少于200的微博用戶發(fā)布的網(wǎng)帖數(shù)據(jù);剔除標題中出現(xiàn)“小說”“故事”短語的網(wǎng)帖數(shù)據(jù)。由于網(wǎng)絡數(shù)據(jù)中可能包含大量的CSS、HTML 等特殊字符,影響后續(xù)數(shù)據(jù)處理的準確性,所以再次利用正則匹配的方法,剔除網(wǎng)帖中的無關成分;對于沒有標題的數(shù)據(jù),用文本的前十位進行填充。對清洗后的數(shù)據(jù)進行元數(shù)據(jù)提取,更新網(wǎng)帖屬性和文本對應字段。最后,將處理好的數(shù)據(jù)壓縮,并存入清洗結果數(shù)據(jù)庫中。
Bert 模型[3]是Google 公司于2018 年發(fā)布的一種新的語言編碼模型,它在ELMO[4]、Word2Vec[5]等模型的基礎上,采用雙向語言模型進行預訓練,使用Transformer[6]代替循環(huán)神經網(wǎng)絡或卷積神經網(wǎng)絡作為特征提取器。Bert 模型一經提出,就在11 個NLP 任務上刷新了記錄,它具有非常好的效果和很強的普適性,只需要預訓練和微調,就能將Bert 模型應用到不同的任務上。Bert-Base,Chinese 模型是Google 在原始Bert 模型基礎上預訓練的中文文本分類模型,在使用過程中,只需要再對其進行微調,就能得到非常好的結果。
經過對酒業(yè)輿情數(shù)據(jù)和輿情訴求數(shù)據(jù)的分析,得知酒企重點關注的業(yè)務領域如下:自身及競爭產品在營銷生產方面的動態(tài)與市場反應、行業(yè)企業(yè)的投資并購金融近況、企業(yè)內部運營變動情況、行業(yè)突發(fā)緊急輿情、行業(yè)評論文章與網(wǎng)民態(tài)度。因此,本平臺將酒業(yè)輿情進行主題輿情分類,并對分類結果進行聚類,以更好地為酒企提供輿情服務。根據(jù)以上需求,我們通過人工標注的方式,將10000 條網(wǎng)帖分為營銷生產、金融投資、公司動態(tài)、產品討論、社會新聞、行業(yè)觀察六個類別,用這些標注后的樣本對Bert-Base,Chinese模型進行微調,得到能夠滿足酒業(yè)輿情分類需求的分類模型。利用該模型,將所有輸入的未分類網(wǎng)帖分為對應類別,并自動更新網(wǎng)帖屬性中對應的類別字段。
由于模型以字為粒度對文本進行切分,不需要任何分詞、去停用詞和詞嵌入操作,將清洗后的文本截取前200 個字直接送入模型,就可以得到分類結果。
在與傳統(tǒng)的分類模型對比發(fā)現(xiàn),平臺使用的模型分類準確率能夠提升7%??梢?,我們選擇的模型,不僅能夠縮減分類步驟,減少分類所需時間,同時也能夠提高分類準確率。
使用網(wǎng)帖分類模塊將網(wǎng)帖分為6 個類別后,每類別中包含的網(wǎng)帖可能與某一相同事件有關,將這樣具有相似性的網(wǎng)帖聚類成相同事件,有助于更加直觀的描述現(xiàn)實中的輿情事件。網(wǎng)帖包含我們將網(wǎng)帖文本字段分詞后得到文本詞語集合,利用doc2vec[7],將每條網(wǎng)帖數(shù)據(jù)分詞后的詞語集合嵌入到300 維的文檔向量。使用single-pass[8]計算兩個網(wǎng)帖向量的余弦相似度。
式中:A、B 表示A 網(wǎng)帖和B 網(wǎng)帖的文檔向量。將余弦相似度0.75 作為閾值,當cosθ大于0.75 時,將A、B 網(wǎng)帖聚為一個類別。事件包含的ID、聲量和正負向占比等字段。用不同ID 表示不同的事件,一個事件下的網(wǎng)帖有相同ID。對于已有事件,將事件中所有的網(wǎng)帖的文檔向量取均值作為該事件的聚類中心向量。對于每天新增的網(wǎng)帖,將計算其與已有事件的余弦相似度。當余弦相似度大于閾值時,網(wǎng)帖歸屬于余弦相似度最大的事件下,并更新當前事件的中心向量;當余弦相似度小于閾值時,生成新事件ID,將新增網(wǎng)帖歸為此事件,且該新事件的聚類中心為網(wǎng)帖的文檔向量。
輿情平臺關注媒體熱度高、群眾關注度高的網(wǎng)帖,該類網(wǎng)帖是非常重要的輿情信息。本平臺中,用聲量來衡量網(wǎng)帖的熱度,作為輿情熱度指標,以聲量的變化來描述現(xiàn)實生活中輿情熱度的變化,并為平臺提供輿情監(jiān)控和告警設置提供衡量標準。聲量(volume)定義如下:
式中:bi指評論數(shù)、點擊數(shù)、喜愛數(shù)、收藏數(shù)、轉發(fā)數(shù)5 個網(wǎng)帖的相關信息,wi指bi對應的權值,分別為0.3、0.2、0.2、0.1、0.2。
通過聲量公式直接計算網(wǎng)帖的聲量,用事件中所有網(wǎng)帖的聲量之和作為事件的聲量。每次更新數(shù)據(jù)時,同時計算網(wǎng)帖的聲量增量和事件的聲量增量,并更新網(wǎng)帖和事件相應字段,以便于畫出輿情的聲量走勢圖。對于連續(xù)7 天內,網(wǎng)帖數(shù)量增量或網(wǎng)帖聲量增量為0 的事件,將其設置為停止事件,不再對其進行關注。
此外,了解網(wǎng)帖的正負情感傾向,有助于了解其是正向輿情還是負向輿情,掌控輿情發(fā)展狀況。故平臺實現(xiàn)了對網(wǎng)帖的情感分析,并對事件中網(wǎng)帖的情感傾向進行統(tǒng)計,得到事件的正負情感傾向占比。我們將原始網(wǎng)帖數(shù)據(jù)分詞并去停用詞后,基于正負情感詞詞庫,匹配網(wǎng)帖詞語集合中的所有詞語。網(wǎng)帖初始情感值設為0,匹配到正向詞語時情感值做+1 操作,匹配到負向詞語時情感值做-1 操作。匹配完所有網(wǎng)帖詞語后,得到最終的網(wǎng)帖情感值,對其進行sigmoid 平滑處理。當處理的平滑值大于0 時,網(wǎng)帖情感傾向為正向,否則為負向。情感傾向示意圖如圖3所示。
圖3 情感分析流程圖
事件不區(qū)分具體情感傾向,對事件中所有網(wǎng)帖情感傾向做統(tǒng)計,得到事件的正負情感傾向比例,用該比例描述事件的性質。當正向網(wǎng)帖占比較大時,認為該事件屬于正向事件;當負向網(wǎng)帖占比較大時,認為該事件屬于負向事件。
平臺能夠實時采集酒企及主要競爭對手在主流社交媒體上的輿情信息,分析識別相關網(wǎng)帖、事件,判斷新聞情感傾向,跟蹤事件發(fā)展趨勢、事件熱度并實時預警并根據(jù)其整理出輿情統(tǒng)觀信息。
輿情統(tǒng)觀功能利用每日在“騰訊”“搜狐”“網(wǎng)易”等新聞門戶網(wǎng)站,“百度貼吧”“今日頭條”“知乎”等論壇,“同花順”“東方財富”等財經類網(wǎng)站,新浪微博等社交網(wǎng)站渠道收集的中國酒業(yè)輿情網(wǎng)帖信息(圖4),利用Bert 分類與情感傾向詞匯統(tǒng)計分析并動態(tài)展現(xiàn)每日網(wǎng)帖聲量走勢,橫向對比各渠道網(wǎng)帖數(shù)量及正負向情緒占比。
該功能直觀的展現(xiàn)了酒類品牌網(wǎng)帖的實時聲量走勢,討論熱度,情緒正負向占比及熱議關鍵詞。為酒企輿情監(jiān)測,突發(fā)事件公關提供詳細數(shù)據(jù)指導。
平臺每日監(jiān)控新聞類、論壇類、微博類等社交平臺及媒體渠道,實時采集“五糧液”“茅臺”“瀘州老窖”等中國酒業(yè)代表品牌相關的輿情網(wǎng)帖,統(tǒng)計各個網(wǎng)帖產生的輿情聲量。聲量大小體現(xiàn)了網(wǎng)帖的輿情熱度,圖5 展示了2019 年6 月聲量靠前的部分網(wǎng)帖,可見“張藝興,迪麗熱巴在五糧液生產間”網(wǎng)帖聲量大幅高于其余網(wǎng)帖,也體現(xiàn)了明星相關網(wǎng)帖熱度往往高于一般網(wǎng)帖,對企業(yè)的推廣有著積極的效果。
同時,對各個渠道所獲取的網(wǎng)帖,平臺會分析網(wǎng)帖的情感正負向,統(tǒng)計網(wǎng)帖在一天、一周、一月的時間內的數(shù)量并根據(jù)渠道來源展示其網(wǎng)帖的情感正負類,展示結果見圖6。
圖4 中國酒業(yè)輿情網(wǎng)帖聲量走勢及渠道分布
圖5 當月中國酒業(yè)輿情事件及事件聲量
圖6 中國酒業(yè)輿情渠道及正負向網(wǎng)帖數(shù)量占比
對于事件與網(wǎng)帖,平臺會利用每日的新聞數(shù)據(jù)統(tǒng)計與分類跟蹤其聲量走勢,以便酒企直觀的查看其對輿情造成的影響。也可查看具體網(wǎng)帖及其聲量走勢。圖7 展示了根據(jù)網(wǎng)帖聚類后所形成的事件“一噸新酒加一勺老酒就是陳釀,企業(yè)受到起訴”的前5 網(wǎng)帖及其事件輿情聲量近一個月的走勢??梢娫撌录怀霈F(xiàn)便引起了社會的廣泛關注,然后在一月時間內討論熱度持續(xù)下降,但仍有一定的關注度。
告警系統(tǒng)如圖8 所示,可設置事件熱度閾值和通知方式及人員,閾值以每天的網(wǎng)帖數(shù)量,每天的聲量,每天微博大v 的博客數(shù)量來設定。對于熱度超過設定值的事件,平臺會向指定的相關人員以短信或郵件的方式發(fā)起告警,以及時做出處理緊急事件。
該平臺運行近一年來,在處理重大輿情事件的過程中,充分體現(xiàn)了快捷、高效、準確的優(yōu)勢。面對突發(fā)事件,輿情平臺可以幫助酒企及時的獲得消息,及時地做出處理,以免事件發(fā)酵,造成更大的輿論影響,網(wǎng)絡輿情監(jiān)控對于了解社情民意,緩解輿論壓力具有重要作用和意義;同時,在輔助決策方面,平臺提供了完整的統(tǒng)計信息,為酒企制定未來規(guī)劃提供了參考。
圖7 網(wǎng)帖詳情與其單月內聲量走勢
圖8 事件告警系統(tǒng)
在平臺的進一步優(yōu)化方面,可以通過深化和豐富互聯(lián)網(wǎng)輿情基礎理論,不斷修正模型;通過理論和實踐的相互促進,提升互聯(lián)網(wǎng)輿情監(jiān)測分析基礎模型的科學性,優(yōu)化完善互聯(lián)網(wǎng)輿情監(jiān)測分析系統(tǒng)。另一方面,在對大量網(wǎng)絡輿情事件開展測試應用,可以利用隨機森林進行分析,使平臺能夠自動確定或推薦事件聲量的合理告警閾值,加強平臺的自動化性能。