梁翠萍++胡慶寶
摘 要:2011年麥肯錫發(fā)布了《大數(shù)據(jù),下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》研究報告之后,大數(shù)據(jù)概念開始風(fēng)靡全球。近年來,隨著國內(nèi)微博、微信、娛樂網(wǎng)站等新媒體的興起和發(fā)展,越來越多的民眾通過互聯(lián)網(wǎng)參與到熱點話題和熱門事件中。所以,通過大數(shù)據(jù)對網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測和分析,并對民眾的態(tài)度和傾向做出準(zhǔn)確的定位顯得非常重要。該文主要通過對大數(shù)據(jù)論述、網(wǎng)絡(luò)輿情篩選、輿情捕獲存儲以及數(shù)據(jù)分析,來探究大數(shù)據(jù)在輿情分析中的應(yīng)用及其價值。
關(guān)鍵詞:大數(shù)據(jù) 網(wǎng)絡(luò)輿情 數(shù)據(jù)抓取 數(shù)據(jù)存儲 輿情分析
中圖分類號:G206 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2017)01(c)-0108-02
隨著新興媒體的發(fā)展,互聯(lián)網(wǎng)輿情已經(jīng)在社會發(fā)展中扮演著重要的角色,它已不僅僅局限于個別范圍的使用和拓展,而是演變?yōu)槿窕有偷膮⑴c和討論,所以如何在眾多信息中獲取最全面的輿情數(shù)據(jù),并將輿情數(shù)據(jù)以最快的速度和最靈活的方式展現(xiàn)出來,使輿情在可控的范圍內(nèi)實現(xiàn)最大的社會和商業(yè)價值,顯得尤為重要。
1 網(wǎng)絡(luò)輿情
網(wǎng)絡(luò)輿情不同于傳統(tǒng)輿情,傳統(tǒng)輿情是民意理論中的一個概念,是民意的一種綜合反映。該文所提到的網(wǎng)絡(luò)輿情,是未經(jīng)任何中介包裝和驗證,直接發(fā)布于網(wǎng)上的社會輿情,并以互聯(lián)網(wǎng)為載體,以輿論事件為核心,集民眾情感、態(tài)度、意見、建議、傳播互動和影響力于一身的集合。
因為網(wǎng)絡(luò)輿情的傳播介質(zhì)是網(wǎng)絡(luò),網(wǎng)絡(luò)既具有公開性又具有隱蔽性,同時需要事件、網(wǎng)民、網(wǎng)民情感,以及通過網(wǎng)絡(luò)介質(zhì)的傳播和互動,所以在既公開又隱蔽的環(huán)境中,從眾多的信息中捕獲并抽取出復(fù)雜的網(wǎng)民情緒和態(tài)度非常重要。
2 輿情捕獲
由于輿情具有自由性、交互性、多元性、偏差性和突發(fā)性,所以如何從眾多輿情中獲取實時數(shù)據(jù)并服務(wù)于大眾,是新興媒體所面臨的嚴(yán)峻挑戰(zhàn)和考驗。
2.1 關(guān)鍵詞確定
在互聯(lián)網(wǎng)上傳播的信息可以用海量來形容,如果針對輿情盲目進(jìn)行檢索,猶如大海撈針,不僅得不到我們想要的數(shù)據(jù),還會浪費大量的人力、物力和財力來投入到數(shù)據(jù)的分析中。所以如何在海量的信息中獲取用戶想要的數(shù)據(jù),“關(guān)鍵詞”就顯得非常重要,它不僅可以讓我們精確地捕獲到想要的數(shù)據(jù),而且還可以減少臟數(shù)據(jù)的捕獲,大大縮短了輿情分析的時間,提升了輿情分析的反應(yīng)速率,下面就介紹幾種關(guān)鍵詞確定的方法。
(1)定制關(guān)鍵詞。關(guān)鍵詞的確定可以從輿情分析的發(fā)出者來反向提出,輿情分析的發(fā)出者一定是希望從網(wǎng)絡(luò)輿情中得到某種相關(guān)信息,那么我們可以從需求提出者和需求分析者的角度來確定關(guān)鍵詞,即關(guān)鍵詞由用戶提出,并通過需求分析將用戶的表述發(fā)展為定制詞語,并將其定義為用戶定制關(guān)鍵詞。根據(jù)用戶定制的關(guān)鍵詞來捕獲數(shù)據(jù),是最直接明了的數(shù)據(jù)捕獲方式。
(2)熱門輿情關(guān)鍵詞。很多網(wǎng)站如百度、搜狐、Facebook、新浪等幾乎所有的交互網(wǎng)站都會有熱門指數(shù),我們可以借助這些網(wǎng)站自身攜帶的熱門指數(shù),來確定關(guān)鍵詞。因為通過熱門輿情關(guān)鍵詞來捕獲數(shù)據(jù),一定是網(wǎng)站熱門數(shù)據(jù),這樣不僅可以節(jié)省我們分析確定關(guān)鍵詞的時間,而且還可以用最短的時間獲取最多的分析數(shù)據(jù),提高大數(shù)據(jù)在輿情分析中的反應(yīng)速率。
(3)熱搜輿情關(guān)鍵詞。熱搜輿情關(guān)鍵詞不同于熱門關(guān)鍵詞,由于輿情具有廣泛傳播性,很多人參與到輿情探討中,都是通過網(wǎng)絡(luò)搜索并定位的,所以熱搜關(guān)鍵詞就是根據(jù)搜索引擎的熱搜排行榜,來確定輿情關(guān)鍵詞,通過熱搜排行榜,我們可以第一時間知道并了解網(wǎng)民想要了解的輿論事件。
(4)參考輿情發(fā)布網(wǎng)站。想要找到網(wǎng)絡(luò)事件的發(fā)展?fàn)顩r和原由,最簡單也是最直接的方式,就是找到輿情發(fā)布的網(wǎng)站,很多網(wǎng)站就是網(wǎng)絡(luò)輿情事件的源泉。
2.2 數(shù)據(jù)抓取
當(dāng)我們通過各種方式獲取并確定了關(guān)鍵詞之后,如何把關(guān)鍵詞變成我們想要的精確數(shù)據(jù),就顯得非常重要。我們可以通過網(wǎng)絡(luò)爬蟲技術(shù)來獲取輿情數(shù)據(jù)。
當(dāng)前主流的數(shù)據(jù)抓取模式主要包含4個主要部分:網(wǎng)絡(luò)爬蟲技術(shù)(Spider)、數(shù)據(jù)處理技術(shù)(Data Process)、爬取URL隊列(URL Queue)和數(shù)據(jù)。爬蟲主要是從互聯(lián)網(wǎng)上捕捉網(wǎng)頁內(nèi)容,并從中抽取出需要的內(nèi)容。數(shù)據(jù)處理:對爬蟲抓取的內(nèi)容進(jìn)行處理。URL隊列:為爬蟲提供需要抓取數(shù)據(jù)網(wǎng)站的URL。數(shù)據(jù)包含3個方面:(1)Site URL:需要抓取數(shù)據(jù)網(wǎng)站的URL信息;(2)Spider Data:爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù);(3)Dp Data:經(jīng)過dp處理之后的數(shù)據(jù)。
2.3 數(shù)據(jù)存儲
因為網(wǎng)絡(luò)輿情具有及時更新和海量的特性,所以我們?nèi)绾螌⒆ト〉降臄?shù)據(jù)實時保存起來,是非常關(guān)鍵的,它決定了最后輿情分析的全面性和精確性。一般通過IT技術(shù)可以將數(shù)據(jù)存儲到數(shù)據(jù)庫中,下面介紹一下當(dāng)前主流的3種數(shù)據(jù)庫及其區(qū)別。
Oracle數(shù)據(jù)文件都是采用二進(jìn)制編碼的文件,而且它可以對SQL在執(zhí)行過程中的解析和優(yōu)化指定統(tǒng)一標(biāo)準(zhǔn),其中包括RBO、CBO以及HTNT規(guī)則,這些都會使在Oracle數(shù)據(jù)庫中執(zhí)行的SQL擁有極大的優(yōu)化自由,同時也對CPU、內(nèi)存、IO資源方面進(jìn)行優(yōu)化。
MySQL最大的特點應(yīng)該屬自由選擇存儲引擎。它的每一個表都是一個文件,都可以選擇合適的存儲引擎。但由于它的存儲引擎是開放式的插件引擎,所以文件的一致性大大降低,并且在SQL優(yōu)化方面,也會有一些不可避免的瓶頸,例如多表關(guān)聯(lián)、子查詢優(yōu)化、統(tǒng)計函數(shù)等都是它的弱項,并且MySQL只支持極簡單的HINT。
SQL Server的數(shù)據(jù)架構(gòu)基本是縱向劃分,分為:Protocol Layer、Relational Engine、Storage Engine、SQLOS。SQL執(zhí)行都是逐層,其中Relational Engine中的優(yōu)化器,是基于成本的,其工作過程跟Oracle是非常相似的。同時它也支持豐富的HINT,包括:連接提示、查詢提示、表提示。
雖然,這3個數(shù)據(jù)庫各具特色,但是,如果對數(shù)據(jù)安全、存儲等特性沒有特殊要求,通常我們會選取MySQL數(shù)據(jù)庫,因為開源而且操作相對簡單。
3 輿情分析
如果說輿情數(shù)據(jù)的抓取和存儲目的是在數(shù)據(jù)獲取方面下工夫,那么輿情分析就是通過比較、論證等方法把數(shù)據(jù)通過圖形報表等更加簡潔的方式呈獻(xiàn)給用戶。
每一個輿情事件的本身都有自己的特點,分析設(shè)計人員可以根據(jù)不同的特點選擇輿情分析的方法或報表。通常輿情分析方法有連續(xù)接近法、舉例說明法、比較分析法和流程圖法等。通常圖形報表也有很多種,如趨勢圖、比例餅圖、百分比柱圖、流程圖、表格等,分析設(shè)計人員根據(jù)輿情的特點選擇合適的圖形呈獻(xiàn)給用戶。
4 結(jié)語
通過大數(shù)據(jù)相關(guān)技術(shù)對輿情進(jìn)行全方位收集、存儲和分析的過程中,我們既不修飾、篡改輿情事件的真實性,也不隱藏輿情事件的丑陋性,大數(shù)據(jù)的智能捕獲分析,只是將網(wǎng)絡(luò)輿情更加清晰形象地呈現(xiàn)給用戶,使用戶在第一時間獲取民眾態(tài)度,掌握民眾意見或建議,并根據(jù)輿情報告的精準(zhǔn)分析反饋,及時對輿情事件做出相應(yīng)的政策,調(diào)整相關(guān)的策略,實現(xiàn)商業(yè)和政治利益最大化,創(chuàng)造更多的社會價值,并使網(wǎng)絡(luò)輿情健康良性發(fā)展。
參考文獻(xiàn)
[1] 王博.大數(shù)據(jù)時代網(wǎng)絡(luò)輿情與社會治理研究[D].云南財經(jīng)大學(xué),2016.
[2] 楊旭東.網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究[J].信息網(wǎng)絡(luò)安全,2016(9):251-256.
[3] 李麗清.網(wǎng)絡(luò)輿情監(jiān)控與分析系統(tǒng)的設(shè)計與實現(xiàn)[D].西安電子科技大學(xué),2014.
[4] 唐勇.互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2013.