許 鵬 耿藤森 郭鑫濤 陶瑞雪 張傳營 張書曼 李俐瑩
(河北科技大學(xué),河北 石家莊 050018)
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,網(wǎng)民數(shù)量的增多,網(wǎng)絡(luò)逐漸成為社會公眾關(guān)注新聞的第一渠道。個人和各種社會群體由于自身的基本訴求未得到滿足,在網(wǎng)絡(luò)上自由抒發(fā)自己的觀點,其通過網(wǎng)絡(luò)數(shù)據(jù)的高速傳播,部分內(nèi)容伴隨時間的發(fā)酵,公眾關(guān)注力逐漸上升,會形成針對某一官方機構(gòu)或公共事務(wù)責(zé)任方的網(wǎng)絡(luò)輿論。這樣的輿論傳播存在很明顯的情感導(dǎo)向,很大層面上無法及時解決真正的社會問題,反而會給相關(guān)機構(gòu)和人員帶來很大的輿論沖擊,造成其聲譽和社會地位上難以挽回的損失。因此,本研究基于分布式數(shù)據(jù)處理,搭建網(wǎng)絡(luò)輿情調(diào)控系統(tǒng),其能對網(wǎng)絡(luò)中的大量數(shù)據(jù)進(jìn)行實時的監(jiān)測和篩選,及時發(fā)現(xiàn)有關(guān)社會輿情的信息,及時和相關(guān)人員取得聯(lián)系,避免事態(tài)進(jìn)一步發(fā)酵形成輿論,達(dá)到網(wǎng)絡(luò)輿情調(diào)控的目的。
根據(jù)第49次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截至2021年12月,我國的網(wǎng)民規(guī)模達(dá)到了10.32億,和上一年同期比較,增長了4 296萬人;移動互聯(lián)網(wǎng)接入流量為2 216億GB,相較上一年增長了33.9%;市場上監(jiān)測到的APP數(shù)量達(dá)到了252萬款;移動電話用戶規(guī)模也在持續(xù)上漲,5G移動電話用戶達(dá)到了3.55億戶[1]。這些數(shù)據(jù)表明,網(wǎng)絡(luò)和現(xiàn)實生活已經(jīng)緊密相連。人們在享受著網(wǎng)絡(luò)技術(shù)所提供的便利的同時,其日常生活也已經(jīng)被信息流所“裹挾”。
網(wǎng)絡(luò)中的活躍用戶,往往渴望被認(rèn)同,對較為新鮮的事件會更加積極地響應(yīng)和反饋。網(wǎng)絡(luò)具有隱蔽性,前臺用戶的信息依然具有匿名性,言論發(fā)布者的心理壓力相對較小,相比現(xiàn)實生活,有些人更愿意在網(wǎng)絡(luò)中跟隨情緒發(fā)表自己的意見。網(wǎng)絡(luò)具有開放性和強交互性,因此個人能通過言論的傳播謀取更大程度的社會認(rèn)同。一方面,網(wǎng)絡(luò)的監(jiān)管力度遠(yuǎn)不如現(xiàn)實,在此過程中,部分人把互聯(lián)網(wǎng)當(dāng)情緒的宣泄口,其中部分群體很容易被虛假信息甚至極端的言論所影響,產(chǎn)生激進(jìn)、感性和情緒化的言論敘述,這些情緒化言論在眾人的響應(yīng)下,存在逐漸發(fā)展成有害輿論的可能性。另一方面,廣大網(wǎng)民情感、態(tài)度、意見和觀點的表達(dá)和傳播過程中,實時審核機制存在漏洞,缺乏對其后續(xù)影響力的預(yù)判,這是現(xiàn)階段技術(shù)的局限性造成的。因此,在信息的快速傳播過程中,缺少傳統(tǒng)媒體中的“把關(guān)人”,信息被不停產(chǎn)生的新信息所埋沒,部分內(nèi)容隨機伴隨網(wǎng)絡(luò)上龐雜的信息流進(jìn)行傳播、擴散,最終,在傳播過程中進(jìn)行發(fā)酵,成為網(wǎng)絡(luò)熱點,產(chǎn)生社會輿情,造成一定的社會影響。
從Web2.0時代開始,網(wǎng)絡(luò)信息傳播不再僅按照傳統(tǒng)形式發(fā)布內(nèi)容供用戶瀏覽,更多的是集各種媒介方式于一體進(jìn)行信息傳播,并能針對用戶喜好、興趣、關(guān)注對象、地區(qū)信息和個人信息等相關(guān)數(shù)據(jù)進(jìn)行分析與追蹤,形成“用戶畫像”,精確推送符合用戶偏好的內(nèi)容[2],大眾所熟知的先進(jìn)的主流傳播平臺如微博、知乎以及抖音,均以這種形式進(jìn)行信息傳播。
通過智能算法,用戶可以對自己感興趣的相關(guān)事件產(chǎn)生更強的參與感,因此新媒體時代,用戶不再單單處于傳統(tǒng)媒體的“議程設(shè)置”下,而是通過表達(dá)自己對于某一事件的體會和感受,完成了自身的議程設(shè)置工作,將相關(guān)事件融合個人想法進(jìn)行“信息包裝”,借用網(wǎng)絡(luò)進(jìn)行傳播。
廣義的輿情是個人和各種社會群體構(gòu)成的公眾,發(fā)布與自身利益相關(guān)的公共事務(wù)引起的個人情緒所造成的社會性討論的總和。而網(wǎng)絡(luò)輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是對社會輿情的直接反映[3]。隨著信息社會的快速發(fā)展和互聯(lián)網(wǎng)的普及,各階層與網(wǎng)絡(luò)的接觸更加緊密,信息具有傳播渠道多、傳播速度快、傳播范圍廣的特點。在這種情況下,易形成網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情具有突發(fā)性、交互性、自由性、多元性與偏差性等特點。從積極方面看,社會輿情在某些方面可以形成正確的輿論導(dǎo)向,可以凈化社會環(huán)境與人的心靈,陶冶人的情操,有助于良好社會風(fēng)氣的形成,在弘揚中華民族文化和社會主義道德上起到巨大的推動作用,但同時,網(wǎng)民看問題存在主觀性,無法清楚地了解事件的來龍去脈,容易給當(dāng)事人造成很大的傷害。
網(wǎng)絡(luò)輿論的發(fā)酵過程中,參與討論的個人大多不具有很高的社會地位或權(quán)力,卻可以通過互聯(lián)網(wǎng)表達(dá)自身訴求,通過和網(wǎng)友進(jìn)行討論,抒發(fā)自身不滿,在此過程中滿足自身期望與自我肯定。但是,在網(wǎng)絡(luò)中,個人的議程設(shè)置往往具有很強的偏向性和主觀性,網(wǎng)絡(luò)輿論中的相關(guān)官方機構(gòu)和公共事務(wù)的責(zé)任方往往會受到眾多網(wǎng)友的聲討。
發(fā)起者利用網(wǎng)絡(luò)輿論是以闡述個人訴求,得到社會肯定為目的,但是,通過網(wǎng)絡(luò)輿論的傳播,無論最終的結(jié)果如何,都會給相關(guān)單位或組織造成一定程度的聲譽損害。相關(guān)人員在前期和發(fā)起者積極進(jìn)行溝通,并且迅速做出反饋,對事情進(jìn)行全面調(diào)查與分析,就可以降低對自身聲譽的損害。如果是由于發(fā)起者自身的相關(guān)問題,通過溝通,可以引導(dǎo)其完善個人資料,滿足個人或群體訴求;如果是因為組織內(nèi)部存在制度缺陷,則積極回應(yīng),完善內(nèi)部機制,與發(fā)起者進(jìn)行溝通,使雙方的社會利益均得到保障。
民眾是輿情的核心所在,是整個網(wǎng)絡(luò)鏈中核心的部分,是受輿情結(jié)果牽制的最終受益者或受害者。這要求網(wǎng)絡(luò)監(jiān)測能更切合實際地反映民情,更有效地展示社會中的實際問題,維護(hù)民眾的利益。因此,網(wǎng)絡(luò)輿情監(jiān)測發(fā)展的方向必然是更專業(yè)化和更服務(wù)化。設(shè)立相關(guān)預(yù)警機制,實時監(jiān)測、準(zhǔn)確地分析數(shù)據(jù),并在此基礎(chǔ)上提出行之有效的解決方案等,將是輿情監(jiān)測這個新興行業(yè)需要堅持不懈地努力的方向。
本研究針對以上社會訴求,進(jìn)行系統(tǒng)功能開發(fā)和平臺搭建,該系統(tǒng)可以通過網(wǎng)絡(luò)對特定學(xué)校、企業(yè)和政府部門相關(guān)信息的實時篩查,及時發(fā)現(xiàn)并收集來自組織或個人的可能醞釀成熱點新聞的話題言論,進(jìn)行風(fēng)險評估,并形成相關(guān)預(yù)防預(yù)警機制,從而減緩社會事態(tài)的發(fā)酵,減小學(xué)校、企業(yè)和政府相關(guān)部門等的輿論壓力,營造和諧的社會風(fēng)氣,以更好地維護(hù)社會秩序。
輿情監(jiān)控對于維護(hù)國家和社會的穩(wěn)定具有重要意義,而“網(wǎng)絡(luò)爬蟲工具”為其提供了有力的技術(shù)支持。近年來隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)爬取行為的合法性受到質(zhì)疑,在輿情監(jiān)測系統(tǒng)的創(chuàng)建與發(fā)展中,數(shù)據(jù)爬取行為是否合法,應(yīng)從三個方面看待[4]。
運用數(shù)據(jù)爬取技術(shù)應(yīng)秉持中立原則,但技術(shù)中立原則不是免責(zé)條款,其使用方式和目標(biāo)追求以及社會影響都是判斷其是否合法的依據(jù)。輿情監(jiān)測系統(tǒng)使用的數(shù)據(jù)爬取技術(shù)如非出于惡意,具有非實質(zhì)性侵權(quán)性質(zhì),則不影響被爬取數(shù)據(jù)擁有者的合法權(quán)益,那么這種爬取行為就是合法的。
不正當(dāng)競爭行為的成立要求當(dāng)事人之間具有實質(zhì)性的競爭關(guān)系,輿情監(jiān)測系統(tǒng)應(yīng)用數(shù)據(jù)爬取技術(shù)之時,如沒有與被爬取數(shù)據(jù)擁有者之間產(chǎn)生實質(zhì)性的競爭關(guān)系,就不存在不正當(dāng)競爭行為,數(shù)據(jù)爬取行為應(yīng)為合法,同時還應(yīng)當(dāng)綜合考慮競爭主體、行為不正當(dāng)性等多方面因素。
關(guān)于數(shù)據(jù)爬取行為是否合法并沒有明確的法律規(guī)定,但是基于民法的自愿誠信原則,遵循Robots協(xié)議[5],對數(shù)據(jù)進(jìn)行合法的抓取利用,未出現(xiàn)違背法律的現(xiàn)象。合理運用數(shù)據(jù)爬取手段進(jìn)行輿論檢測符合行業(yè)規(guī)范,是合法行為。
通過對網(wǎng)絡(luò)數(shù)據(jù)抓取的合法性的調(diào)查和研究,最終得出結(jié)果,數(shù)據(jù)爬取技術(shù)在輿論檢測系統(tǒng)中的應(yīng)用是具有合法性的,只要合理合規(guī)地運用,可以通過此類技術(shù)實現(xiàn)信息的二次價值,并且并不會觸及法律的邊界。
本系統(tǒng)從兩個部分進(jìn)行開發(fā),分別是數(shù)據(jù)采集和系統(tǒng)部署。數(shù)據(jù)采集部分采用Elasticsearch搜索引擎進(jìn)行搜索,在短時間內(nèi)完成目標(biāo)內(nèi)容定位,獲取相關(guān)數(shù)據(jù)。獲取的數(shù)據(jù)經(jīng)由三個數(shù)據(jù)處理系統(tǒng)進(jìn)行數(shù)據(jù)過濾,這三個系統(tǒng)分別是數(shù)據(jù)在線處理子系統(tǒng)、數(shù)據(jù)應(yīng)用分析子系統(tǒng)和數(shù)據(jù)資源管理子系統(tǒng)。通過三個系統(tǒng)的相互配合,對原數(shù)據(jù)進(jìn)行清洗凈化來獲取特征詞,以自然語言分析自動形成文摘。
系統(tǒng)以Elasticsearch+Hive+HBase組合作為數(shù)據(jù)層的解決方案。其中,Elasticsearch是基于Lucene開發(fā)的搜索和數(shù)據(jù)分析引擎,具備強大的數(shù)據(jù)索引、快速搜索和海量存儲功能,適用于包括文本、數(shù)字、地理空間、結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等在內(nèi)的所有類型的數(shù)據(jù)。本系統(tǒng)主要使用Elasticsearch完成關(guān)鍵數(shù)據(jù)的索引和搜索工作,輿情數(shù)據(jù)通過使用Elasticsearch從多個來源(包括日志、系統(tǒng)指標(biāo)和網(wǎng)絡(luò)應(yīng)用程序)實現(xiàn)匯集。這些數(shù)據(jù)在Elasticsearch中索引完成之后,用戶便可針對他們的數(shù)據(jù)運行復(fù)雜的查詢,并使用聚合來檢索自身數(shù)據(jù)。同時,將網(wǎng)絡(luò)爬蟲技術(shù)和Elasticsearch搜索引擎結(jié)合,通過網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)絡(luò)上的各個客戶端的網(wǎng)站進(jìn)行訪問,在遵循互聯(lián)網(wǎng)的Robots協(xié)議的基礎(chǔ)上,對各個網(wǎng)站的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行獲取。
數(shù)據(jù)在線處理子系統(tǒng)是自主研發(fā)的通用采集器,采用主從分離的分布式架構(gòu),根據(jù)需要通過分布式擴展部署,在實現(xiàn)高效率數(shù)據(jù)采集的同時,也具備高可用性、高擴展性、快速定制采集規(guī)則等能力,從而保證數(shù)據(jù)在線處理子系統(tǒng)擁有增量式采集、按主題分類采集、可定制化采集的強大功能。
它由數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、在線翻譯、相似度計算、云端數(shù)據(jù)管理、系統(tǒng)管理組成。在互聯(lián)網(wǎng)如微博、知乎、貼吧等各大網(wǎng)絡(luò)平臺上進(jìn)行熱點信息采集后交由云端處理器管理,對輿情數(shù)據(jù)進(jìn)行預(yù)處理、翻譯和計算后,價值度更高的監(jiān)測信息被送入海量數(shù)據(jù)存儲集群。針對需要登錄的網(wǎng)站定制化的采集需求,可通過采集器的定制服務(wù)完成。
數(shù)據(jù)資源存儲管理子系統(tǒng)可通過開源的分布式數(shù)據(jù)存儲組件構(gòu)成,如Minio、HBase、Hive等。其中,HBase是一個開源的、分布式的、版本化的NoSQL數(shù)據(jù)庫(非關(guān)系型數(shù)據(jù)庫),它利用Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)提供分布式數(shù)據(jù)存儲。HBase將所收集的目標(biāo)信息以表的形式組織數(shù)據(jù),表由行和列組成,它將一列或者多列組織在一起,每一個列都必須屬于某個列族。
利用這些工具可以對所采集的輿情數(shù)據(jù)如文本文件、網(wǎng)頁文件、PDF文檔、Office文檔等常見的數(shù)據(jù)類型進(jìn)行統(tǒng)一的數(shù)據(jù)管理,方便人工進(jìn)行熱點數(shù)據(jù)標(biāo)注,開展數(shù)據(jù)文本分析,對輿情信息由面到點地一一摘取進(jìn)行處理,如提取關(guān)鍵信息、實體識別、實體屬性等,構(gòu)建領(lǐng)域知識圖譜。一系列操作完畢后,數(shù)據(jù)交由海量數(shù)據(jù)存儲集進(jìn)行更深的加工處理。
數(shù)據(jù)分析應(yīng)用子系統(tǒng)在使用開源的基礎(chǔ)算法組件之上,根據(jù)需求,定制算法,對全網(wǎng)進(jìn)行監(jiān)測,如對熱門論壇、貼吧、微博等各大網(wǎng)媒門戶網(wǎng)站實時監(jiān)控,收集重大高校相關(guān)政策信息、本校熱門事件,若發(fā)現(xiàn)負(fù)面輿情,第一時間進(jìn)行處理。利用自然語言分析,在重要數(shù)據(jù)分析模塊進(jìn)行全方位、多角度的關(guān)聯(lián)分析與擴展,為系統(tǒng)用戶提供具有實際價值和前瞻性的綜合分析內(nèi)容。
針對數(shù)據(jù)資源管理子系統(tǒng)處理后的數(shù)據(jù),進(jìn)一步挖掘可用信息,進(jìn)行可視化的關(guān)聯(lián)展示,使用戶可以直觀地看到所需信息。用戶能夠通過主題設(shè)置,實現(xiàn)信息分類展示,便于對其感興趣的內(nèi)容進(jìn)行瀏覽閱讀。相關(guān)信息從數(shù)據(jù)庫中調(diào)取,通過圖表、文字等形式進(jìn)行用戶展現(xiàn)。
系統(tǒng)采用以Java語言為主、以開源軟件為基礎(chǔ)的定制化系統(tǒng)架構(gòu),共分四個層次。其中資源平臺層和基礎(chǔ)平臺層屬于數(shù)據(jù)在線處理子系統(tǒng),其采用分布式的C/S架構(gòu),實現(xiàn)多線程并發(fā)信息采集與數(shù)據(jù)清洗;業(yè)務(wù)層和功能平臺層屬于數(shù)據(jù)分析管理子系統(tǒng),采用B/S架構(gòu)實現(xiàn),使用瀏覽器來進(jìn)行配置和瀏覽。
網(wǎng)絡(luò)部分,系統(tǒng)采用“外網(wǎng)+內(nèi)部局域網(wǎng)”方式進(jìn)行部署。外網(wǎng)部署數(shù)據(jù)在線處理子系統(tǒng)基于Java開發(fā)的C/S架構(gòu)設(shè)計,通過多節(jié)點、多進(jìn)程、多線程并發(fā)的方式進(jìn)行信息采集。由于系統(tǒng)整體采用的是松耦合設(shè)計,通過松耦合,與Java的多接口設(shè)計相結(jié)合,使該系統(tǒng)可以很好地部署在多種類型的服務(wù)器上,可以合理運行于Linux、Windows等服務(wù)器平臺上。局域網(wǎng)部署數(shù)據(jù)分析管理子系統(tǒng)基于Java開發(fā)的B/S架構(gòu)設(shè)計,前端使用主流的Vue框架以及阿里開源的ant-design組件,可達(dá)到完美兼容IE11、Chrome和Firefox三款最主流的瀏覽器的目標(biāo),并實現(xiàn)數(shù)據(jù)的集中可視化展示。
系統(tǒng)能夠給用戶提供可視化的分析結(jié)果,采集瀏覽到的信息和各類統(tǒng)計圖表?;A(chǔ)業(yè)務(wù)數(shù)據(jù)能夠與國產(chǎn)達(dá)夢數(shù)據(jù)庫實現(xiàn)兼容移植,同時系統(tǒng)能夠運行在國產(chǎn)化的操作系統(tǒng)上。該系統(tǒng)現(xiàn)擁有完善的功能體系,平臺操作界面簡單,可以為用戶提供信息監(jiān)測、熱點分析、事件分析、輿情簡報及輿情大屏顯示功能,模塊可靈活部署于不同系統(tǒng)和應(yīng)用之上,功能模塊間的通信通過消息中間件來完成。
整個系統(tǒng)主要由內(nèi)網(wǎng)和外網(wǎng)兩大模塊構(gòu)成。外網(wǎng)進(jìn)行數(shù)據(jù)的云端獲取,內(nèi)網(wǎng)用于數(shù)據(jù)的實時處理和結(jié)果輸出,兩者之間通過光盤擺渡進(jìn)行數(shù)據(jù)的傳輸,進(jìn)而進(jìn)行數(shù)據(jù)的進(jìn)一步加工工作,通過此種方式,可以實現(xiàn)系統(tǒng)的高效運行。
數(shù)據(jù)分析子系統(tǒng)和數(shù)據(jù)資源管理子系統(tǒng)在內(nèi)網(wǎng)進(jìn)行部署,數(shù)據(jù)在線處理子系統(tǒng)在外網(wǎng)進(jìn)行部署?;贐/S架構(gòu)的系統(tǒng)可以使得數(shù)據(jù)更加容易獲取,利用C/S架構(gòu)進(jìn)行外網(wǎng)部署,有利于數(shù)據(jù)的處理和直接呈現(xiàn)。三個部分通過光盤擺渡的方式實現(xiàn)數(shù)據(jù)交換,系統(tǒng)部署部分如圖1所示。
圖1 系統(tǒng)部署框架圖
系統(tǒng)通過對網(wǎng)絡(luò)信息的收集和處理,得以在較短時間內(nèi)明確輿情相關(guān)的事件性質(zhì),便于確定與相關(guān)單位或社會群體有關(guān)的危險等級,展開事件的風(fēng)險評估。并通過及時聯(lián)系相關(guān)責(zé)任機關(guān)或責(zé)任人,使其明確事態(tài)發(fā)展進(jìn)程,及時把控事件的嚴(yán)重程度,降低社會輿論發(fā)生的可能性,減小相關(guān)輿論議題的社會影響,將輿情影響降低到最小,起到網(wǎng)絡(luò)輿情調(diào)控的目的。
網(wǎng)絡(luò)輿情調(diào)控系統(tǒng)能利用網(wǎng)絡(luò)爬蟲,在遵守互聯(lián)網(wǎng)關(guān)于數(shù)據(jù)抓取的Robots協(xié)議的基礎(chǔ)上,對各大門戶網(wǎng)站的公開輿情信息進(jìn)行搜索并抓?。煌ㄟ^對元數(shù)據(jù)的清洗和去重獲取特征詞匯,結(jié)合自然語言處理和HBase數(shù)據(jù)庫完成數(shù)據(jù)的存儲和歸類;再使用自然語言分析技術(shù)將數(shù)據(jù)進(jìn)行歸總展示。通過本系統(tǒng)進(jìn)行網(wǎng)絡(luò)輿情數(shù)據(jù)調(diào)控可以更加及時高效地解決公眾提出的社會問題,同時也能降低由于公眾的盲目發(fā)泄對官方機構(gòu)和社會公共組織造成的潛在傷害。進(jìn)行輿情防控,在很大程度上可以提高社會的安定程度和人民的生活幸福感。