(遵義師范學(xué)院,貴州 遵義 563000)
大數(shù)據(jù)技術(shù)為人們?nèi)粘I钆c工作帶來很多便利,從當(dāng)前我國社會(huì)發(fā)展可以看出,互聯(lián)網(wǎng)已經(jīng)在全國范圍內(nèi)得到普及。在網(wǎng)民的網(wǎng)絡(luò)生活中,微信以及微博成為其中的重要組成部分,而且還有很多網(wǎng)民會(huì)在社交網(wǎng)站以及論壇中,發(fā)表自身的看法與意見。百分之八十的網(wǎng)民,會(huì)討論社會(huì)中剛剛發(fā)生的新聞與熱點(diǎn)事件,這也在一定程度上說明,網(wǎng)絡(luò)已經(jīng)成為人民群眾的思想文化聚集地,以及社會(huì)輿情的傳播地?;诖?,本文將針對(duì)大數(shù)據(jù)技術(shù)下的網(wǎng)絡(luò)輿情分析系統(tǒng)相關(guān)內(nèi)容進(jìn)行闡述。
大數(shù)據(jù)技術(shù)主要是指數(shù)據(jù)量以及規(guī)模超過傳統(tǒng),而且無法使用主流軟件對(duì)數(shù)據(jù)量進(jìn)行整理與分析。政府部門及企業(yè)可以通過大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)信息進(jìn)行有效處理,并制定有效的經(jīng)營發(fā)展方案以及管理方式等。大數(shù)據(jù)技術(shù)有著屬于自身的特點(diǎn),比如:數(shù)量巨大、種類繁多、價(jià)值低、密度低以及流通速度快。國外的Hadoop平臺(tái)具有可靠性、高效性與可伸縮性特點(diǎn),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的專門處理。這一平臺(tái)包含許多不同組件,比如多種存儲(chǔ)節(jié)點(diǎn),即可以在一個(gè)節(jié)點(diǎn)中實(shí)現(xiàn)對(duì)不同節(jié)點(diǎn)數(shù)據(jù)信息的收集與處理。眾多的廉價(jià)計(jì)算機(jī)群可以在系統(tǒng)有需要的時(shí)候,增加處理節(jié)點(diǎn)。
網(wǎng)絡(luò)輿情通常情況下主要是指互聯(lián)網(wǎng)中的網(wǎng)民針對(duì)社會(huì)發(fā)生的熱點(diǎn)新聞事件,尤其是與網(wǎng)民自身切身利益相關(guān)的熱點(diǎn)事件、國家政策等,所表現(xiàn)出的情緒、觀點(diǎn)以及意見等,此類輿情具有一定傾向性特點(diǎn),而輿情就是不同態(tài)度與觀點(diǎn)的總和[1]。具有以下幾個(gè)特點(diǎn):廣泛性特點(diǎn),輿情可以在全國范圍內(nèi)迅速傳播;參與者類型廣泛且分布廣泛;突發(fā)性特點(diǎn),如果在某個(gè)地區(qū)發(fā)生突發(fā)事件,那么該事件可能就是社會(huì)輿情的發(fā)源地;主觀性特點(diǎn),主觀性特點(diǎn)主要是因?yàn)樯鐣?huì)輿情中的內(nèi)容以及觀點(diǎn)具有較強(qiáng)主觀性;多元化特點(diǎn),多元化特點(diǎn)主要表現(xiàn)在社會(huì)參與者有著不同的態(tài)度與觀點(diǎn),而且社會(huì)輿情的傳播方式與表達(dá)方式也存在一定不同。在如今社會(huì)發(fā)展中,社會(huì)輿情數(shù)量以及內(nèi)容每年都在增多。怎樣盡早發(fā)現(xiàn)社會(huì)輿情,同時(shí)更好引導(dǎo)社會(huì)輿情,是如今政府部門面臨的一個(gè)重要問題。在此背景下,就要對(duì)大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用,更好地處理與解決網(wǎng)絡(luò)輿情相關(guān)問題。
在大數(shù)據(jù)技術(shù)背景下,網(wǎng)絡(luò)輿情分析系統(tǒng)的功能主要包含以下幾點(diǎn)。
2.1.1 數(shù)據(jù)采集功能
在網(wǎng)絡(luò)輿情分析系統(tǒng)中,數(shù)據(jù)采集功能是最為基本的功能模塊,主要工作就是對(duì)論壇、貼吧以及微信、微博中的輿情信息進(jìn)行采集。在大數(shù)據(jù)背景下的網(wǎng)絡(luò)輿情分析系統(tǒng),不僅要對(duì)傳統(tǒng)搜索引擎爬蟲進(jìn)行合理應(yīng)用,使得下載網(wǎng)頁全面性得到保障,同時(shí)還要利用聚焦爬蟲,提升采集信息的有效性與精準(zhǔn)性。還可以利用設(shè)置黑名單與白名單的方式,將有效的URL鏈接保留,實(shí)現(xiàn)對(duì)新信息的有效搜索。在Web信息抓取過程中,最主要是對(duì)網(wǎng)頁中的兩種信息進(jìn)行采集,分別是文章內(nèi)容信息以及版塊列表信息。通過對(duì)信息的采集,為后續(xù)工作展開打下良好基礎(chǔ)。
2.1.2 預(yù)處理功能
在網(wǎng)絡(luò)輿情分析系統(tǒng)中,預(yù)處理功能模塊屬于數(shù)據(jù)信息的準(zhǔn)備階段。該功能模塊的主要工作為對(duì)采集到的網(wǎng)頁信息進(jìn)行去重處理、預(yù)處理與去噪預(yù)處理,然后得到相應(yīng)文本向量集[2]。新聞網(wǎng)頁、論壇網(wǎng)頁以及微博網(wǎng)頁實(shí)際結(jié)構(gòu)存在不同,因此,要將與文本無關(guān)的HTML源碼清洗,將與輿情相關(guān)的信息,比如:信息發(fā)布時(shí)間、內(nèi)容摘要信息等保留。與此同時(shí),能夠?qū)]有意義的網(wǎng)頁信息以及重復(fù)的網(wǎng)頁信息及時(shí)過濾,防止噪聲干擾問題出現(xiàn),確保數(shù)據(jù)信息科學(xué)性。
對(duì)于網(wǎng)絡(luò)輿情分析系統(tǒng)中的關(guān)鍵技術(shù),本文主要從以下幾點(diǎn)進(jìn)行闡述與分析。
2.2.1 輿情數(shù)據(jù)采集技術(shù)
輿情數(shù)據(jù)采集技術(shù)主要對(duì)輿情主體進(jìn)行明確,同時(shí)選擇采集起點(diǎn),輿情數(shù)據(jù)采集技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的重要組成部分,可以為后續(xù)數(shù)據(jù)處理工作,以及數(shù)據(jù)分析工作打下良好基礎(chǔ)。輿情數(shù)據(jù)采集技術(shù)的主要工作原理就是,能夠從初始URL中,獲取其中的頁面信息,然后將頁面信息存儲(chǔ)到本地系統(tǒng)中,并對(duì)頁面結(jié)構(gòu)以及頁面內(nèi)容進(jìn)行分析,實(shí)現(xiàn)對(duì)其中網(wǎng)頁鏈接提取,并將其作為新的URL[3]。目前所使用的網(wǎng)絡(luò)爬蟲有不同方式,比如:主題爬蟲、增量式爬蟲等,不同爬蟲方式有著屬于自身的特點(diǎn)與優(yōu)勢,具體爬蟲技術(shù)的選擇要結(jié)合網(wǎng)絡(luò)輿情實(shí)際情況展開。
2.2.2 輿情數(shù)據(jù)預(yù)處理技術(shù)
在使用網(wǎng)絡(luò)爬蟲技術(shù)對(duì)網(wǎng)頁中的信息進(jìn)行抓取過程中,實(shí)際頁面結(jié)構(gòu)以及頁面內(nèi)容存在很大不同,有很多數(shù)據(jù)信息根本達(dá)不到分析要求。在此背景下,就要對(duì)輿情數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行合理應(yīng)用,為后續(xù)數(shù)據(jù)信息分析提供保障[4]。輿情數(shù)據(jù)預(yù)處理技術(shù)主要是對(duì)網(wǎng)頁信息進(jìn)行有效處理,避免噪聲、重復(fù)等情況的出現(xiàn),并在網(wǎng)頁中對(duì)正文信息進(jìn)行有效處理,對(duì)于提取到的數(shù)據(jù)信息進(jìn)行文本預(yù)處理以及文本向量化。比如,在文本預(yù)處理中,需要對(duì)中文分詞技術(shù)進(jìn)行合理應(yīng)用,對(duì)采集到的文本字符串進(jìn)行有效切分,將其轉(zhuǎn)化為由不同單詞組成的詞集合。與此同時(shí),可以將集合中包含的停用詞去除,對(duì)不同詞在文本中出現(xiàn)的頻率次數(shù)進(jìn)行有效統(tǒng)計(jì),這就是人們所熟知的詞頻,詞頻可以生成倒排索引文件,從而促使文本預(yù)處理工作能夠更好完成。
2.2.3 輿情智能分析技術(shù)
輿情智能分析技術(shù)是網(wǎng)絡(luò)輿情分析系統(tǒng)中的核心技術(shù),主要工作就是對(duì)話題進(jìn)行識(shí)別與跟蹤、發(fā)現(xiàn)熱點(diǎn)話題,同時(shí)對(duì)文本傾向進(jìn)行分析。話題識(shí)別主要是通過對(duì)預(yù)處理模塊的應(yīng)用,獲得相應(yīng)文本向量集,并使用機(jī)器進(jìn)行學(xué)習(xí)。將相同類型的事件匯總到文檔中,并識(shí)別其中的輿情話題。在這一過程中,可以使用Hadoop平臺(tái),將文本向量集劃分成為不同的小塊,并與中心文件一同發(fā)送給Map函數(shù),從而開展相應(yīng)計(jì)算工作。Map能夠?qū)⑿K中的數(shù)據(jù)分配到距離最近的中心點(diǎn)中,通過鍵值對(duì)方式,向Reduce傳遞,從而展開規(guī)劃求均值工作,將最終結(jié)果作為全新的聚類中心[5]。話題跟蹤主要是指,對(duì)后續(xù)更新的向量化文本進(jìn)行有效檢測,同時(shí)做好相似度計(jì)算工作,對(duì)與已經(jīng)存在話題的相似度進(jìn)行判斷。如果相似度已經(jīng)達(dá)到規(guī)定值,那么可以將此類文本歸納到該話題當(dāng)中。如果相似度沒有達(dá)到規(guī)定值,那么可以將其作為全新的話題進(jìn)行歸類。在這一過程中,要對(duì)話題評(píng)論數(shù)量、轉(zhuǎn)載情況以及點(diǎn)贊情況進(jìn)行分析,然后計(jì)算熱度指標(biāo),結(jié)合熱度指標(biāo)做好排序工作,進(jìn)而對(duì)熱點(diǎn)話題進(jìn)行篩選。
2.2.4 輿情預(yù)測預(yù)警技術(shù)
輿情預(yù)測預(yù)警技術(shù)主要是將輿情智能分析結(jié)果展現(xiàn)出來,在對(duì)某一熱點(diǎn)新聞、事件或者輿情進(jìn)行監(jiān)督過程中,如果用戶達(dá)到設(shè)定的報(bào)警值,那么系統(tǒng)將會(huì)自動(dòng)生成相應(yīng)輿情報(bào)告,該輿情報(bào)告會(huì)通過郵件方式或者信息方式,通知工作人員。工作人員在接到通知后,可以對(duì)問題進(jìn)行有效處理。
在具體的模型設(shè)計(jì)中,要注意以下幾點(diǎn)問題:(1)信息抓取要確保全面性。如今的網(wǎng)絡(luò)輿情有著屬于自身的特點(diǎn),比如:規(guī)模大、類型多、網(wǎng)頁數(shù)量多等。因此,在實(shí)際模型設(shè)計(jì)中,要對(duì)信息的全面抓取進(jìn)行考慮。確保能夠從網(wǎng)頁、音頻、圖片以及結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)中,對(duì)信息進(jìn)行有效抓取,并對(duì)存儲(chǔ)器以及網(wǎng)絡(luò)爬行器進(jìn)行創(chuàng)新與優(yōu)化。(2)確保應(yīng)對(duì)輿情信息的時(shí)效性。從目前網(wǎng)絡(luò)的快速發(fā)展中可以看出,網(wǎng)絡(luò)輿情靈活多變,傳統(tǒng)輿情分析系統(tǒng)模型已經(jīng)不適合,當(dāng)今時(shí)代發(fā)展,尤其是網(wǎng)頁以及圖片中隱藏的信息,更是無法及時(shí)被發(fā)現(xiàn)與抓取[6]?;诖?,在模型設(shè)計(jì)工作開展中,要考慮系統(tǒng)應(yīng)對(duì)輿情信息的實(shí)效性,實(shí)現(xiàn)對(duì)其中隱藏信息的有效抓取,這樣才能實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情的有效引導(dǎo)。(3)保證分析有效性。有效的網(wǎng)絡(luò)輿情分析軟件,可以幫助企業(yè)以及政府部門盡快獲取網(wǎng)絡(luò)中的熱點(diǎn)事件以及相關(guān)信息。這樣在輿情爆發(fā)之前,能夠進(jìn)行有效控制,同時(shí)將輿情影響控制在有效范圍之內(nèi)?;诖耍谀P驮O(shè)計(jì)過程中,要對(duì)輿情信息分析的有效性進(jìn)行全面了解,確保模型設(shè)計(jì)的合理性。
綜上所述,網(wǎng)絡(luò)輿情分析系統(tǒng)對(duì)于網(wǎng)絡(luò)輿情分析,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情有效引導(dǎo)具有重要作用。因此,為使得網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)的科學(xué)性與合理性得到保障,在實(shí)際設(shè)計(jì)工作開展中,要對(duì)大數(shù)據(jù)技術(shù)進(jìn)行合理應(yīng)用。將技術(shù)優(yōu)勢發(fā)揮出來,實(shí)現(xiàn)對(duì)不同數(shù)據(jù)的有效抓取,為網(wǎng)絡(luò)的健康穩(wěn)定發(fā)展打下良好基礎(chǔ)。