王娟琳,陶宇煒,高東偉,封紅旗
(常州大學(xué)信息化建設(shè)與管理中心,江蘇常州 213164)
校園網(wǎng)絡(luò)同樣具備互聯(lián)網(wǎng)絡(luò)的匿名性、虛擬性、隱蔽性和即時(shí)互動(dòng)性,一旦突發(fā)網(wǎng)絡(luò)輿情傳播快、波及面廣、影響范圍大等,高校校園網(wǎng)絡(luò)信息管理部門高度關(guān)注積極應(yīng)對(duì)。從2003 年起我國開始對(duì)網(wǎng)絡(luò)輿情監(jiān)管平臺(tái)進(jìn)行研究[1],十年來隨著網(wǎng)絡(luò)信息技術(shù)發(fā)展,高性能計(jì)算、云計(jì)算等技術(shù)在高校網(wǎng)絡(luò)輿情監(jiān)管中被應(yīng)用,通過構(gòu)建Hadoop 集群與MapReduce 分布處理架構(gòu),從智慧校園數(shù)據(jù)中心各個(gè)應(yīng)用系統(tǒng)數(shù)據(jù)接口采集高校網(wǎng)絡(luò)輿情數(shù)據(jù),關(guān)聯(lián)爬取到學(xué)生在校園內(nèi)的學(xué)習(xí)生活靜態(tài)、動(dòng)態(tài)數(shù)據(jù)并針對(duì)這些數(shù)據(jù)進(jìn)行處理、分析獲取相關(guān)的高校網(wǎng)絡(luò)輿情預(yù)警信息[2]使職能部門的教師、輔導(dǎo)員主動(dòng)關(guān)注目標(biāo)學(xué)生做好學(xué)生工作預(yù)案及時(shí)研判、疏導(dǎo),降低和避免負(fù)面事件發(fā)生。
高校網(wǎng)絡(luò)信息管理部門在構(gòu)建輿情監(jiān)管平臺(tái)時(shí),在Linux操作系統(tǒng)上通常使用出現(xiàn)較早的開源分布式大數(shù)據(jù)計(jì)算Hadoop 平臺(tái)(如常州大學(xué)高性能計(jì)算集群上構(gòu)建Hadoop 平臺(tái),計(jì)算節(jié)點(diǎn)服務(wù)器操作系統(tǒng)是Redhat V6.2,共有30 多個(gè)計(jì)算節(jié)點(diǎn),總存儲(chǔ)容量50TB),該大數(shù)據(jù)平臺(tái)具有穩(wěn)定性、擴(kuò)展性、容錯(cuò)性、投資少、維護(hù)成本低等特性,在此平臺(tái)上可使用多種編程語言[2]、使用一般硬件配置。主要的兩個(gè)核心平臺(tái)架構(gòu)分別是:1)HDFS 分布式文件管理體系可實(shí)現(xiàn)高效存儲(chǔ),2)MapReduce 分布式并行計(jì)算可將一組數(shù)據(jù)按照某種Map 函數(shù)映射成新的數(shù)據(jù)再將若干組映射結(jié)果進(jìn)行匯總并輸出,Hadoop平臺(tái)架構(gòu)如圖1所示。
圖1 平臺(tái)架構(gòu)示意圖
HDFS 是將大文件、大批量文件進(jìn)行分布式存儲(chǔ)的文件系統(tǒng),在投資成本較低的高性能計(jì)算機(jī)服務(wù)器集群上可進(jìn)行文件切塊、副本存儲(chǔ),使用統(tǒng)一的命名空間目錄樹進(jìn)行文件定位,用戶可使用客戶端訪問文件系統(tǒng)。它是一個(gè)主從存儲(chǔ)模式的文件系統(tǒng)[3],如圖2所示。有一個(gè)Namenode 主節(jié)點(diǎn)管理目錄樹、文件所對(duì)應(yīng)的文件塊id以及所在的從節(jié)點(diǎn)服務(wù)器等;而多個(gè)Datanode 數(shù)據(jù)從節(jié)點(diǎn)執(zhí)行主節(jié)點(diǎn)所發(fā)出的指令來進(jìn)行數(shù)據(jù)存儲(chǔ),主節(jié)點(diǎn)與從節(jié)點(diǎn)通信方式采用心跳信號(hào)進(jìn)行。每個(gè)數(shù)據(jù)塊可以將副本存放在多個(gè)datanode從節(jié)點(diǎn)上(通過參數(shù)可設(shè)置存放副本的數(shù)量),由此可見HDFS具有高容錯(cuò)性特性。
圖2 HDFS結(jié)構(gòu)
MapReduce 主要針對(duì)大數(shù)據(jù)計(jì)算(TB 級(jí)數(shù)據(jù)以上)模型如圖3 所示。其主要有兩個(gè)過程即Map 和Reduce,為達(dá)到高計(jì)算效率采用并行計(jì)算框架或者說是一種編程模型。計(jì)算時(shí)先將一個(gè)大的計(jì)算作業(yè)分解成多個(gè)子作業(yè)(復(fù)雜問題簡(jiǎn)單化),再將這些子作業(yè)分別處理將得出結(jié)果再合并成最后的計(jì)算分析結(jié)果。整個(gè)作業(yè)計(jì)算流程主要分為:提交作業(yè)、初始化作業(yè)和任務(wù)分配[4]。MapReduce 分布式并行計(jì)算框架其功能是實(shí)現(xiàn)高校網(wǎng)絡(luò)輿情數(shù)據(jù)的并行爬取及分析計(jì)算,使高校開展網(wǎng)絡(luò)輿情的數(shù)據(jù)收集和分析工作快速而高效。
圖3 MapReduce模型
采用K-Means算法是基于劃分的聚類算法,其核心思想根據(jù)用戶所設(shè)的類別數(shù)量,隨機(jī)在文本集里選擇K個(gè)文本設(shè)置成最初的類簇中心,計(jì)算剩余的文本集里的各個(gè)文本到類簇中心的距離,把文本分別劃分到就近的類簇中,當(dāng)全部劃分完畢后重新再計(jì)算每個(gè)類簇的中心,再次計(jì)算剩余每個(gè)文本到這些新類簇中心的距離,將文本重新劃分到當(dāng)前最接近的類簇中去;不斷重復(fù)以上過程,當(dāng)完成設(shè)置的迭代次數(shù)或簇不發(fā)生變化了停止算法[5]。K-Means算法的優(yōu)點(diǎn)是復(fù)雜度較低并且易實(shí)現(xiàn),任意范圍內(nèi)都可進(jìn)行聚類。但比較難選擇到最初始的全局最優(yōu)化的聚類中心,算法還容易受到噪聲和例外文本的影響。
基于Hadoop 架構(gòu)的高校輿情監(jiān)管平臺(tái),管理員可自由地開發(fā)運(yùn)行基于大數(shù)據(jù)的應(yīng)用程序[6],兼容性好,以常大高性能計(jì)算集群linux 操作系統(tǒng)為例,在4個(gè)計(jì)算節(jié)點(diǎn)服務(wù)器上進(jìn)行安裝部署。將其中一臺(tái)計(jì)算節(jié)點(diǎn)服務(wù)器作為Namenode 主節(jié)點(diǎn)命名為Masternode,作為名字空間存儲(chǔ)服務(wù)和下發(fā)指令任務(wù);另外3臺(tái)計(jì)算節(jié)點(diǎn)服務(wù)器作為DataNode 從節(jié)點(diǎn)分別命名為Branch1、Branch2、Branch3 負(fù)責(zé)存儲(chǔ)具體數(shù)據(jù)。為每臺(tái)計(jì)算機(jī)服務(wù)器配置IP 地址(vim/etc/hosts 文件中配置),再進(jìn)行測(cè)試主節(jié)點(diǎn)和所有從節(jié)點(diǎn)網(wǎng)絡(luò)通信狀態(tài);設(shè)置主節(jié)點(diǎn)和從節(jié)點(diǎn)之間實(shí)現(xiàn)SSH 免密登錄。(免密登錄需關(guān)閉防火墻再配置遠(yuǎn)程連接SSH服務(wù))。配置的軟件、硬件如下表1、表2所示。
表1 集群軟件信息表
表2 集群硬件信息表
由于輿情數(shù)據(jù)大部分都是結(jié)構(gòu)化數(shù)據(jù),使用Sqoop工具從智慧校園數(shù)據(jù)中心MySQL等結(jié)構(gòu)化數(shù)據(jù)庫中將數(shù)據(jù)從接口導(dǎo)入Hadoop 平臺(tái)。MySQL 數(shù)據(jù)需導(dǎo)入HDFS 中,由DataNode 負(fù)責(zé)數(shù)據(jù)塊元數(shù)據(jù)的存儲(chǔ)根據(jù)NameNode 的指令進(jìn)行檢索讀取數(shù)據(jù)。每個(gè)DataNode 會(huì)定期向NameNode 發(fā)送“心跳”信息判斷DataNode的運(yùn)行情況。
從校園網(wǎng)上爬取在校學(xué)生信息數(shù)據(jù)如:學(xué)號(hào)、姓名、班級(jí)、所學(xué)專業(yè)、愛好等靜態(tài)特征數(shù)據(jù)和動(dòng)態(tài)特征數(shù)據(jù)如:上課出勤率、使用校園一卡通圖書館借閱率、食堂消費(fèi)率、考核成績(jī)、使用校園網(wǎng)時(shí)長(zhǎng)等。
結(jié)合高校的工作內(nèi)容,Hadoop平臺(tái)獲取的關(guān)鍵信息還有:
1)學(xué)習(xí)。主要包括自主學(xué)習(xí)、授課、網(wǎng)上教學(xué)等模式信息。
2)考試。涉及考試紀(jì)律、考試成績(jī)、成績(jī)服務(wù)器、考核方式等信息。
3)上課。涉及教師授課方法、上課教室軟硬件條件、興趣愛好等信息。
4)宿舍。同學(xué)間聊天的話題、宿舍軟硬件條件、后管服務(wù)滿意度等信息。
5)愛情。愛情觀、失戀等信息。
6)食堂。涉及飯菜種類、口味、價(jià)格、衛(wèi)生、環(huán)境、服務(wù)等信息。
7)圖書館。涉及軟硬件條件、電子借閱、占位、館員服務(wù)等信息。
8)其他。在校體育活動(dòng)場(chǎng)地、運(yùn)動(dòng)器材、校園文化環(huán)境、教學(xué)管理服務(wù)等信息。
將“高?!薄案咝4髮W(xué)生”“高等院?!钡汝P(guān)鍵詞與上述信息進(jìn)行組合,在Hadoop 平臺(tái)中進(jìn)行爬取。再對(duì)這些數(shù)據(jù)進(jìn)行清洗,去除不符合用戶標(biāo)準(zhǔn)的數(shù)據(jù)。網(wǎng)頁信息數(shù)據(jù)含有文本、圖像、除了我們所需的正文信息,還包含了多種輔助信息如:商家廣告、導(dǎo)航、彈窗等。在進(jìn)行數(shù)據(jù)清洗時(shí),也要對(duì)網(wǎng)頁內(nèi)容進(jìn)行清洗,消除一些不需要的內(nèi)容干擾。獲得有價(jià)值數(shù)據(jù)后再將兩個(gè)時(shí)段數(shù)據(jù)合并進(jìn)行曼哈頓距離計(jì)算(如本時(shí)段的數(shù)據(jù)和前一個(gè)時(shí)段的數(shù)據(jù)合并),得到某個(gè)特征數(shù)據(jù)離中心距離的偏離大小及某個(gè)數(shù)據(jù)的異常情況。
通過搭建的實(shí)驗(yàn)平臺(tái)可以提取在校學(xué)生行為的靜態(tài)、動(dòng)態(tài)信息數(shù)據(jù)中與輿情信息關(guān)聯(lián)的敏感關(guān)鍵字,依據(jù)一些有負(fù)面風(fēng)險(xiǎn)影響信號(hào)的關(guān)鍵字給相關(guān)學(xué)生畫像,再通過這些學(xué)生在校內(nèi)的各種上網(wǎng)行為軌跡(如QQ、微信、網(wǎng)頁瀏覽、短信等)達(dá)到對(duì)監(jiān)測(cè)的輿情進(jìn)行追溯。積極發(fā)揮班主任、輔導(dǎo)員老師的主觀能動(dòng)性做好預(yù)警和研判工作,從而降低輿情負(fù)面風(fēng)險(xiǎn)值達(dá)到高校網(wǎng)絡(luò)輿情監(jiān)測(cè)的目的。
清洗干凈的學(xué)生靜態(tài)、動(dòng)態(tài)特征數(shù)據(jù)通過Map-Reduce進(jìn)行并行計(jì)算,在主成分分析中用協(xié)方差矩陣的特征值而在求協(xié)方差矩陣時(shí),用的就是矩陣的加減乘除。針對(duì)主成分進(jìn)行分析后將結(jié)果合并在一起提取關(guān)鍵字,通過離中心距離的劃分聚類算法,再從多角度出發(fā)對(duì)不同的數(shù)據(jù)將其結(jié)果聚合在一起,從中獲取出離中心距離偏大的一系列學(xué)生數(shù)據(jù),針對(duì)提取的異常數(shù)據(jù)實(shí)時(shí)進(jìn)行監(jiān)測(cè)和研判。
Hadoop 平臺(tái)獲取信息速度與快速分析信息是一項(xiàng)重要的性能指標(biāo)。實(shí)驗(yàn)中針對(duì)單機(jī)模式與Hadoop模式進(jìn)行爬取信息的速度和熱點(diǎn)計(jì)算所需時(shí)間、聚類分析所需時(shí)間的測(cè)試。通過實(shí)驗(yàn)對(duì)比依據(jù)平臺(tái)運(yùn)行時(shí)間遞增單機(jī)模式與Hadoop模式運(yùn)行結(jié)果是:在平臺(tái)運(yùn)行較短時(shí)間內(nèi),單機(jī)模式與Hadoop 模式?jīng)]有明顯差別,這是因Hadoop 模式在開始集群運(yùn)行時(shí)各種系統(tǒng)存在比較大的開銷。運(yùn)行時(shí)間逐漸增加時(shí),信息爬取、數(shù)據(jù)清洗、聚類分析的數(shù)據(jù)量也在遞增,Hadoop模式爬取信息速度明顯較單機(jī)模式塊、熱點(diǎn)計(jì)算時(shí)間與聚類分析時(shí)間較單機(jī)模式信息計(jì)算分析速度明顯加快。由此可見,Hadoop模式在并行計(jì)算分析方面有著明顯的優(yōu)勢(shì),能快速有效提升高校網(wǎng)絡(luò)輿情的數(shù)據(jù)采集與分析效率。
通過基于Hadoop 高校網(wǎng)絡(luò)輿情監(jiān)管平臺(tái)研究,實(shí)施分析爬取到學(xué)生在校園內(nèi)的各種學(xué)習(xí)生活靜態(tài)、動(dòng)態(tài)數(shù)據(jù),提取到偏離中心的負(fù)面風(fēng)險(xiǎn)信號(hào)關(guān)鍵字并關(guān)注這些學(xué)生在校內(nèi)學(xué)習(xí)生活行為軌跡相關(guān)數(shù)據(jù),由班主任、輔導(dǎo)員針對(duì)這些學(xué)生給予一對(duì)一的關(guān)注并解決問題。數(shù)字化技術(shù)手段助力高校學(xué)生管理工作科學(xué)、高效,同時(shí)促進(jìn)建設(shè)高校智慧平安校園。由此可見,構(gòu)建高校Hadoop 網(wǎng)絡(luò)輿情監(jiān)管平臺(tái)具有廣泛的實(shí)際應(yīng)用價(jià)值。