陳蒙 李學(xué)志
摘? 要:隨著當(dāng)今時(shí)代網(wǎng)絡(luò)的高速發(fā)展與廣泛應(yīng)用,大量的互聯(lián)網(wǎng)信息也隨之而來(lái),如何對(duì)互聯(lián)網(wǎng)進(jìn)行監(jiān)測(cè)與分析便成了一項(xiàng)重大的命題,識(shí)別網(wǎng)絡(luò)輿情在公眾情緒中的變化趨勢(shì)具有重要意義?;诖?,對(duì)高校的網(wǎng)絡(luò)輿情監(jiān)測(cè)機(jī)制進(jìn)行分析研究,提出一個(gè)基于互聯(lián)網(wǎng)話題定時(shí)的新詞結(jié)構(gòu)發(fā)掘方法。通過(guò)監(jiān)測(cè)校園中的公共事件,實(shí)現(xiàn)對(duì)校園中網(wǎng)絡(luò)信息的有效監(jiān)控。
關(guān)鍵詞:高校輿情;輿情監(jiān)測(cè);數(shù)據(jù)挖掘;情感分析
中圖分類(lèi)號(hào):TP391.1 ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2021)17-0145-04
Abstract: With the rapid development and wide application of the network in today's era, a large amount of internet information also appears. How to monitor and analyze the internet has become a major proposition, it is of great significance to identify the change trend of network public opinion in public sentiment. Based on this, this paper analyzes and studies the network public opinion monitoring mechanism of universities, and puts forward a new word structure mining method based on internet topic timing. By monitoring the public events in the campus, we can effectively monitor the network information in the campus.
Keywords: university public opinion; public opinion monitoring; data mining; sentiment analysis
0? 引? 言
現(xiàn)在是大數(shù)據(jù)的時(shí)代同時(shí)也處于人人都是自媒體的時(shí)代,社交網(wǎng)絡(luò)成為現(xiàn)下大家進(jìn)行溝通、交流和獲取信息的主要且重要媒介和平臺(tái)。由于網(wǎng)絡(luò)信息傳播的特點(diǎn)一級(jí)網(wǎng)絡(luò)自身的自由性與包容性,使得我們傳輸?shù)男畔⒉还芎门c不好,積極與消極,都能在網(wǎng)絡(luò)中快速傳播。再加上網(wǎng)民自身對(duì)于訊息具有較強(qiáng)的好奇心和獵奇心理,導(dǎo)致其對(duì)于消極和負(fù)面的信息表現(xiàn)出更大的興趣,這也無(wú)形中刺激了信息的二次迭代傳播,甚至?xí)纬梢还刹豢煽氐挠绊懥?。高校也是一個(gè)重要的信息傳播場(chǎng)所,學(xué)校的主要成員是學(xué)生,學(xué)生是年輕和活力的代表,這個(gè)人群對(duì)于新生事物會(huì)表現(xiàn)出更強(qiáng)大的關(guān)注度,而且作為年輕的一代往往不具備甄別是非好壞的能力,缺少較強(qiáng)的信息識(shí)別和判斷意識(shí)。而且,現(xiàn)在的趨勢(shì)是,社會(huì)大眾和媒體對(duì)高校校園越來(lái)越關(guān)注,其所處的輿論環(huán)境也是越發(fā)復(fù)雜,故其對(duì)于高校網(wǎng)絡(luò)輿情的研究具有現(xiàn)實(shí)意義。
針對(duì)高校校園網(wǎng)絡(luò)輿情的監(jiān)測(cè)和群體網(wǎng)絡(luò)的演化研究的需求,對(duì)高校網(wǎng)絡(luò)輿情監(jiān)測(cè)機(jī)制進(jìn)行研究和分析[1]。校園網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái),其目的在于能夠及時(shí)、準(zhǔn)確、高效地對(duì)以大學(xué)生為群體的網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控,提供科學(xué)合理的技術(shù)方法對(duì)網(wǎng)絡(luò)輿情態(tài)勢(shì)進(jìn)行分析和研判,并將評(píng)判結(jié)果反饋給高校學(xué)生管理部門(mén),以便制定相應(yīng)的對(duì)策,維護(hù)高校校園的穩(wěn)定。學(xué)生作為校園網(wǎng)絡(luò)輿情的重要載體,交互的對(duì)象往往也是學(xué)生,而其相互之間的互動(dòng)以及交互也是導(dǎo)致校園網(wǎng)絡(luò)輿情的主因。針對(duì)這一基本特點(diǎn),本文網(wǎng)絡(luò)輿情信息獲取的來(lái)源主要包括針對(duì)大學(xué)生的各類(lèi)論壇、貼吧、微博等。根據(jù)以上需求,該機(jī)制的研究主要從以下幾個(gè)方面開(kāi)展:輿情信息采集(文本挖掘)、輿情信息預(yù)處理(文本挖掘)、輿情分析(情感分析)。在文本挖掘方面,我們采用“Scrapy-Redis-Bloomfilter”分布式爬蟲(chóng)框架對(duì)語(yǔ)料庫(kù)進(jìn)行抓取,并以微博評(píng)論為實(shí)驗(yàn)對(duì)象。在文本處理方面,系統(tǒng)將自動(dòng)裝配數(shù)據(jù)庫(kù)中的語(yǔ)料庫(kù),完成相應(yīng)的處理工作。在情感分析方面,我們嘗試用一種新的思路構(gòu)建漢語(yǔ)分詞詞典。為了彌補(bǔ)情感詞典在識(shí)別“形容詞不定式句”時(shí)的有效性不足,我們準(zhǔn)備一套情感映射的預(yù)備方案,并且考慮到句子中狀語(yǔ)副詞對(duì)于情感表達(dá)可能會(huì)產(chǎn)生的影響[2]。
1? 高校網(wǎng)絡(luò)輿情監(jiān)測(cè)
1.1? 數(shù)據(jù)挖掘
如何從互聯(lián)網(wǎng)上去獲取有效的數(shù)據(jù)使我們進(jìn)行數(shù)據(jù)分析的一個(gè)非常重要的組成部分。
Pais等人[Pais,Cordeiro,Martins等人(2019)]開(kāi)發(fā)了一種基于API的特定社交網(wǎng)絡(luò)爬蟲(chóng)技術(shù)。該技術(shù)可以通過(guò)社交網(wǎng)絡(luò)提供的API輕松方便地去獲取結(jié)構(gòu)化數(shù)據(jù)。但是對(duì)于類(lèi)似于微博的社交網(wǎng)絡(luò),有限的訪問(wèn)令牌日期、API數(shù)據(jù)內(nèi)容和訪問(wèn)時(shí)間會(huì)嚴(yán)重阻礙到數(shù)據(jù)收集。若是使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的話,則是沒(méi)有如上的要求和限制的。在此,我們選擇使用selenium工具去啟動(dòng)瀏覽器,進(jìn)而去模擬出登錄的動(dòng)作,在此基礎(chǔ)之上去分析網(wǎng)頁(yè),最后得到我們想要的數(shù)據(jù)。在此,介紹一下selenium,它是一個(gè)用于進(jìn)行Web應(yīng)用程序測(cè)試的工具插件,可以拿來(lái)處理涉及復(fù)雜環(huán)節(jié)的登錄。但是有一個(gè)我們無(wú)法忽視的細(xì)節(jié)問(wèn)題,它對(duì)于抓取數(shù)據(jù)量大的海量數(shù)據(jù)效果不是很理想,基于此,提出了一個(gè)新的改進(jìn)方案:可以去利用爬蟲(chóng)框架Scrapy,把Scrapy-Redis的分布式組件中的Redis數(shù)據(jù)庫(kù)導(dǎo)入到該框架中,進(jìn)去達(dá)到一種更加高效的分布式爬蟲(chóng)系統(tǒng),該系統(tǒng)的提出也能用來(lái)解決數(shù)據(jù)率低的問(wèn)題?;谶@樣的研究前提,我們的輿情監(jiān)測(cè)平臺(tái)系統(tǒng)的數(shù)據(jù)采集部分采用Scrapy-Redis分布式框架,使用基于二進(jìn)制向量和哈希函數(shù)的重復(fù)數(shù)據(jù)刪除算法Bloom Filter對(duì)抓取前后的url進(jìn)行過(guò)濾和處理。
1.2? 情感分析
對(duì)于前面采集到的數(shù)據(jù),我們準(zhǔn)備采用文本情感分析的方法對(duì)獲取的數(shù)據(jù)進(jìn)行處理?,F(xiàn)在來(lái)講,對(duì)文本情感進(jìn)行分析主要是采用兩種方法進(jìn)行分析研究,分別是基于機(jī)器學(xué)習(xí)的方法和基于詞典的方法[3]。前者主要是從文本中提取一些積極和消極的情感文本作為訓(xùn)練集,并根據(jù)情感分類(lèi)器對(duì)所有的文本進(jìn)行積極和消極方向的分類(lèi)。該方法已應(yīng)用到許多領(lǐng)域,但是仍然有其不足之處:需要人為的標(biāo)注訓(xùn)練模型;當(dāng)遇到的文本數(shù)據(jù)規(guī)模比較大的時(shí)候,無(wú)法保證一個(gè)較高的準(zhǔn)確度;由于語(yǔ)言本身句子結(jié)構(gòu)和用法的靈活性,在特征選擇方面存在著許多干擾因素。于是針對(duì)上述的研究分析結(jié)果,我們選擇用基于詞典的方法對(duì)數(shù)據(jù)進(jìn)行分析和處理。我們往往會(huì)選擇一個(gè)比較龐大的,質(zhì)量稍微比較高一些的情感詞典,結(jié)合相應(yīng)的語(yǔ)義規(guī)則,去評(píng)判相關(guān)的輿情熱度和情感傾向性,為我們提供一個(gè)感知輿情,掌控輿情和引導(dǎo)輿情的方法。
2? 相關(guān)技術(shù)
2.1? 文本挖掘及數(shù)據(jù)分析
大家都很清楚,基于Scrapy-Redis的分布式爬蟲(chóng)框架主要是用于協(xié)助我們捕獲評(píng)論信息的。但是有一個(gè)情況需要考慮,當(dāng)用于爬行的數(shù)據(jù)超過(guò)一定量的時(shí)候,Redis會(huì)占用大量?jī)?nèi)存空間。同時(shí)爬蟲(chóng)框架自身也是需要占用內(nèi)存,故在此使用Scrapy同時(shí)進(jìn)行爬蟲(chóng)變得有些困難。在這里,我們可以使用一個(gè)可以刪除重復(fù)數(shù)據(jù)的算法Bloom Filter,該算法通過(guò)使用數(shù)組表示要進(jìn)行檢測(cè)的集合,通過(guò)概率算法快速去判斷出該集合中是否存在重復(fù)元素,通過(guò)研判,若是集合中存在有重復(fù)的數(shù)據(jù),可以進(jìn)行刪除操作。這個(gè)算法在空間和時(shí)間上都占用優(yōu)勢(shì)。我們準(zhǔn)備了一些解決方案用于對(duì)抗微博上的反爬蟲(chóng)行為的檢測(cè),用來(lái)確保獲取數(shù)據(jù)的任務(wù)。具體做法為:
(1)重新編寫(xiě)代理IP池的維護(hù)腳本。國(guó)內(nèi)的幾家主要代理IP供應(yīng)商的網(wǎng)站,采用的都是“雙進(jìn)程+多線程+多協(xié)程”的維護(hù)模式,可以異步操作“代理IP池驗(yàn)證”和“代理IP池旋轉(zhuǎn)”,確??捎玫腎P存活率為90%。以上保證了主爬蟲(chóng)框架能夠?qū)崟r(shí)使用100多個(gè)http類(lèi)型的代理ip。代理IP的使用頻率控制在1/5分鐘。
(2)基于STAFF對(duì)國(guó)內(nèi)24家網(wǎng)絡(luò)服務(wù)商主頁(yè)進(jìn)行監(jiān)控框架,采集中繼服務(wù)器IP;分布式爬蟲(chóng)攜帶Socks5來(lái)偽裝HTTPS流量以實(shí)現(xiàn)全局訪問(wèn)。
(3)準(zhǔn)備200個(gè)微博免驗(yàn)證賬號(hào),定期模擬登錄破解驗(yàn)證,確保cookie池可用。
我們可使用以下描述的兩種方法進(jìn)行數(shù)據(jù)分析,用來(lái)確保大多數(shù)沒(méi)有用處的數(shù)據(jù)被過(guò)濾掉。第一種優(yōu)先可調(diào)用爬蟲(chóng)智能分析報(bào)紙庫(kù),它可以為我們提供更為強(qiáng)大的功能,以及它可讀性也不錯(cuò)。具體做法是,Article類(lèi)首先被導(dǎo)入到報(bào)紙庫(kù)中,然后直接傳入U(xiǎn)RL,并調(diào)用它的下載方法。其次,去調(diào)用解析方法來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行智能解析。最后,根據(jù)需要過(guò)濾掉沒(méi)有用處的數(shù)據(jù)。而在Scrapy中,有兩種提取數(shù)據(jù)的方法供我們選擇,一種是使用Xpath選擇器,另一種是使用CSS選擇器。在Scrapy爬蟲(chóng)框架中,text()函數(shù)經(jīng)常與Xpath表達(dá)式一起使用,以提取節(jié)點(diǎn)的數(shù)據(jù)內(nèi)容,而我們常常會(huì)選擇Scrapy自帶的解析器Scrapy Selector的XPath工具來(lái)解析HTML信息。
2.2? 數(shù)據(jù)清理
接下來(lái)我們要對(duì)已經(jīng)采集獲取到的文本數(shù)據(jù)進(jìn)行分析處理,由于獲取的原始數(shù)據(jù)會(huì)存在錯(cuò)誤、格式不一致的情況或是帶有一些與情感分析不太相關(guān)的內(nèi)容,我們統(tǒng)稱其為臟數(shù)據(jù)。為了提高數(shù)據(jù)的質(zhì)量,須對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理。
2.3? 情感分析
我們對(duì)文本進(jìn)行的情感分析,主要是通過(guò)分析文本信息數(shù)據(jù)來(lái)挖掘出來(lái)情感傾向。對(duì)于文本情感分類(lèi),首先從文檔中提取情感特征,然后使用分類(lèi)器對(duì)其進(jìn)行分類(lèi)。這里使用的分類(lèi)器主要是采用樸素貝葉斯方法構(gòu)建文本情感分析分類(lèi)器[4],繼而將情感粒子細(xì)分。
2.3.1? 建立詞典
詞典的覆蓋面和完整性往往決定最終的分析效果,詞典也是文本情感分析中非常核心的環(huán)節(jié)。我們選取的一般情感詞典有清華大學(xué)褒貶義詞典、知網(wǎng)情感分析用詞語(yǔ)集、臺(tái)灣大學(xué)NTUSD??紤]到網(wǎng)絡(luò)新詞更新速度非???,我們選擇基于這些通用情感詞典,基于時(shí)間維度對(duì)每天的采樣信息進(jìn)行分析,發(fā)現(xiàn)新詞,擴(kuò)展情感詞典。
2.3.2? 文本預(yù)處理
文本預(yù)處理包括中文分詞和停止詞的去除。刪除停止詞就是遍歷語(yǔ)料庫(kù)中的所有單詞,并刪除停止詞[5]。
2.3.3? 建立模型
根據(jù)分詞的結(jié)果進(jìn)行正負(fù)極性的分類(lèi)。如何實(shí)施,我們采用樸素的貝葉斯算法。其是一種基于概率的算法,根據(jù)一定的先驗(yàn)概率,計(jì)算出Y變量屬于某一類(lèi)的后驗(yàn)概率[6]。具體步驟如下所示:根據(jù)構(gòu)造的向量矩陣,計(jì)算公式為:
接下來(lái)的工作重點(diǎn)是細(xì)分情緒粒子,詞匯本體中的情緒分為7種類(lèi)型:希望、快樂(lè)、沮喪、憤怒、恐懼、失望、震驚,情緒強(qiáng)度為:1、3、5、7、9、5級(jí),9級(jí)強(qiáng)度最大,1級(jí)強(qiáng)度最小[7]。每個(gè)詞對(duì)應(yīng)的信息,如在每種情緒下的極性。將上述分割結(jié)果轉(zhuǎn)換為字典,繼而對(duì)對(duì)文本分詞結(jié)果進(jìn)行分類(lèi)操作處理,甄別出其中代表情感的詞匯、否定意義的詞匯以及程度副詞。第一步是先將初始權(quán)重W的值設(shè)置成為1,從詞匯本體中的第一個(gè)情感詞開(kāi)始,用其情感詞的權(quán)重值與情感值進(jìn)行乘法運(yùn)算作為分?jǐn)?shù)值,隨之去判斷確認(rèn)詞匯本體中的情感詞是否有程度副詞和否定詞匯,若是其中有一個(gè)是消極的詞匯,則用權(quán)重值W乘(-1)作為程度副詞程度值。第二步用新的W的權(quán)重值去進(jìn)行遍歷第二個(gè)情感詞,循環(huán)操作直到詞匯本體中所有的情感詞都被遍歷一遍。每次遍歷結(jié)束之后的權(quán)重值之和就是這個(gè)文本最終的情感值,當(dāng)然這個(gè)最終結(jié)果值是以累加和的形式存在的[8]。
2.4? 系統(tǒng)總體設(shè)計(jì)
網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)總體架構(gòu),如圖1所示。該設(shè)計(jì)主要是由以下幾個(gè)模塊組成的:數(shù)據(jù)挖掘采集模塊、數(shù)據(jù)預(yù)處理模塊、情感分析模塊、網(wǎng)絡(luò)輿情預(yù)測(cè)模塊。
2.5? 實(shí)驗(yàn)對(duì)象描述
現(xiàn)在的學(xué)生使用社交網(wǎng)絡(luò)比如微博,貼吧記錄自己的日常以及表達(dá)各自的情感,微博和貼吧也是近年來(lái)發(fā)展比較快的社交網(wǎng)絡(luò),它可以做到信息實(shí)時(shí)更新與傳播。故選擇它們?yōu)橹饕难芯繉?duì)象,通過(guò)“Scrapy-Redis-Bloomfilter”的分布式爬蟲(chóng)架構(gòu)來(lái)獲取數(shù)據(jù)信息,為了保證文本數(shù)據(jù)的合理性和有效性,我們對(duì)其進(jìn)行了預(yù)處理操作,然后采用上述的方法對(duì)信息進(jìn)行情感分析。
2.6? 實(shí)驗(yàn)配置
我們選擇了一臺(tái)存儲(chǔ)類(lèi)型為DDR4 2 400 MHz,硬盤(pán)容量為128 GB SSD+2 TB的PC機(jī)作為實(shí)驗(yàn)PC。表1詳細(xì)說(shuō)明了PC的配置。
2.7? 監(jiān)測(cè)結(jié)果展示
通過(guò)對(duì)來(lái)自新聞、微博、貼吧等相關(guān)社交網(wǎng)絡(luò)中的有關(guān)新疆理工學(xué)院的文本類(lèi)輿情信息進(jìn)行實(shí)時(shí)全面監(jiān)測(cè),并且通過(guò)圖片文字識(shí)別技術(shù)幫助我們進(jìn)行圖片輿情監(jiān)測(cè),獲取到的信息更加全面,更加準(zhǔn)確。監(jiān)測(cè)到的實(shí)時(shí)信息如圖2所示。
我們將社交網(wǎng)絡(luò)上獲取到的有關(guān)新疆理工學(xué)院的相關(guān)信息數(shù)據(jù)進(jìn)行處理分析,數(shù)據(jù)可視化展示,清楚并且有效地傳達(dá)處理輿情信息,如圖3所示。
3? 結(jié)? 論
在本文中,我們對(duì)高校網(wǎng)絡(luò)輿情監(jiān)測(cè)機(jī)制進(jìn)行探索分析和研究。首先,考慮到網(wǎng)絡(luò)輿情環(huán)境,在可轉(zhuǎn)移模型有限、種子語(yǔ)料庫(kù)不足的情況下,嘗試采用改進(jìn)的方法區(qū)構(gòu)建情感分析相關(guān)的詞典。建立中文分詞詞典。當(dāng)情感詞典不能直接有效地對(duì)文本的深層情感進(jìn)行分類(lèi)時(shí),我們可以根據(jù)基準(zhǔn)的積極情緒和消極情緒進(jìn)行分類(lèi)和區(qū)分,將情感映射到深層情感,實(shí)現(xiàn)間接分類(lèi)。同時(shí),我們整合了一些優(yōu)秀的網(wǎng)絡(luò)詞匯和情感詞匯,進(jìn)一步擴(kuò)展了詞匯語(yǔ)料庫(kù),提高了系統(tǒng)識(shí)別的準(zhǔn)確性。我們接下來(lái)的工作重點(diǎn)將會(huì)放在以下幾個(gè)方面:在網(wǎng)絡(luò)世界中我們經(jīng)常使用表情符號(hào)來(lái)表達(dá)我們的觀點(diǎn),但是在數(shù)據(jù)采集的過(guò)程中我們卻人為的沒(méi)有考慮這些因素。這是因?yàn)椴煌挲g階段的網(wǎng)友對(duì)同一個(gè)表情符號(hào)的理解是不一樣的,我們無(wú)法獲取到準(zhǔn)確地信息。我們還會(huì)動(dòng)態(tài)持續(xù)地改進(jìn)構(gòu)建一套“網(wǎng)絡(luò)輿情詞典”,畢竟網(wǎng)絡(luò)語(yǔ)言更新比較快,不同年齡群體的網(wǎng)絡(luò)都有自己的一套網(wǎng)絡(luò)習(xí)慣用語(yǔ),而傳統(tǒng)的詞典是不能夠好好去甄別這些詞匯,一套好的詞典是能夠幫助我們提高分詞效率。最后我們需要改進(jìn)的工作是需要優(yōu)化網(wǎng)絡(luò)爬蟲(chóng)框架,需適度且適量地增加請(qǐng)求的頻率,進(jìn)而去提高整體的爬行效率,在前期的工作中我們?yōu)榱舜_保爬蟲(chóng)可以獲取到一些敏感的詞匯信息,我們?cè)O(shè)計(jì)了匿名代理訪問(wèn)網(wǎng)站的方案,這個(gè)在解決問(wèn)題的同時(shí)卻讓我們的數(shù)據(jù)爬蟲(chóng)速度降低了,這已成為我們下一個(gè)階段關(guān)注和解決的重點(diǎn)。
參考文獻(xiàn):
[1] 李瑋潔.校園網(wǎng)輿情監(jiān)測(cè)平臺(tái)與網(wǎng)絡(luò)群體演化的研究 [D].北京:北京交通大學(xué),2012.
[2] 賈珊珊.基于規(guī)則與模型相結(jié)合的中文微博情感分類(lèi)研究 [D].石家莊:石家莊鐵道大學(xué),2015.
[3] 王世泓.基于情緒詞典擴(kuò)展技術(shù)的中文微博情緒分析 [D].南京:南京航空航天大學(xué),2015.
[4] 馬曉玲,金碧漪,范并思.中文文本情感傾向分析研究 [J].情報(bào)資料工作,2013(1):52-56.
[5] 葉翔斌.網(wǎng)絡(luò)文本情感分析的研究與實(shí)現(xiàn) [D].長(zhǎng)沙:湖南大學(xué),2015.
[6] 宋靜靜.中文短文本情感傾向性分析研究 [D].重慶:重慶理工大學(xué),2013.
[7] 朱儉.基于集成情感成員模型的文本情感分析方法 [J].計(jì)算機(jī)工程與應(yīng)用,2014,50(8):211-214.
[8] 孫本旺.漢藏雙語(yǔ)情感詞典構(gòu)建及情感計(jì)算研究 [D].西寧:青海大學(xué),2019.
作者簡(jiǎn)介:陳蒙(1991.01—),女,漢族,河南南陽(yáng)人,講師,碩士研究生,主要研究方向:網(wǎng)絡(luò)輿情,數(shù)據(jù)挖掘。