◆陳 濤 欒禹鑫 譚英杰 欒 悅 喬意凡
基于爬蟲技術(shù)的校園網(wǎng)絡(luò)輿情分析和監(jiān)測系統(tǒng)
◆陳 濤 欒禹鑫 譚英杰 欒 悅 喬意凡
(西北民族大學(xué) 甘肅 730030)
大數(shù)據(jù)、云計算、網(wǎng)絡(luò)爬蟲等技術(shù)日益成熟,智能化生活已經(jīng)逐漸從實驗室走入人們的生活。本文介紹的監(jiān)測系統(tǒng)將網(wǎng)絡(luò)爬蟲技術(shù)和數(shù)據(jù)分析以及Android相結(jié)合起來并利用現(xiàn)有的技術(shù)設(shè)計了一種校園輿情分析的系統(tǒng)。這款A(yù)PP以網(wǎng)絡(luò)爬蟲技術(shù)的成熟、在數(shù)據(jù)量還不是特別龐大以及WIFI全面覆蓋的基礎(chǔ)下,通過對獲取的數(shù)據(jù)進行去重,清洗,以及分詞來做出相關(guān)的分析研究,將分析出來的結(jié)果通過APP及時反饋給學(xué)校,高校管理層及時加強學(xué)生心理健康教育工作,發(fā)掘正確的網(wǎng)絡(luò)輿情引導(dǎo)機制,有效控制網(wǎng)絡(luò)的負(fù)面效應(yīng),控制輿情的發(fā)展和蔓延。
輿情分析;機器學(xué)習(xí);分析;校園安全;校園生活;學(xué)生;Android開發(fā)
隨著科學(xué)技術(shù)的發(fā)展和社會的進步,網(wǎng)絡(luò)在生活中扮演著越來越重要的角色,尤其在校園生活中,經(jīng)過調(diào)查,近八成大學(xué)生使用的是Android系統(tǒng)的手機而且他們每天都會不定時的上網(wǎng)、瀏覽網(wǎng)頁,時間長短也不一,通過對這些數(shù)據(jù)的整合來對學(xué)生的狀況進行分析也就是校園網(wǎng)絡(luò)輿情分析。網(wǎng)絡(luò)輿情是在互聯(lián)網(wǎng)上傳播的公眾所關(guān)注的現(xiàn)實生活中某些熱點、焦點問題,是網(wǎng)民通過互聯(lián)網(wǎng)來表達(dá)和傳播不同思想和態(tài)度的總和。網(wǎng)絡(luò)輿情源于現(xiàn)實生活,但它是不同于現(xiàn)實社會的虛擬現(xiàn)實,它將人們傳播渠道和表達(dá)輿情的方式拓展到了互聯(lián)網(wǎng)上。與傳統(tǒng)的傳播媒介相比,高校校園網(wǎng)絡(luò)的發(fā)展一定程度上容易給大學(xué)生的心理健康帶來消極的影響。因此,高校管理層應(yīng)及時加強大學(xué)生心理健康教育工作,發(fā)掘正確的網(wǎng)絡(luò)輿情引導(dǎo)機制,有效控制網(wǎng)絡(luò)的負(fù)面效應(yīng),控制輿情的發(fā)展和蔓延。如何及時化解、實現(xiàn)對高校網(wǎng)絡(luò)輿情的引導(dǎo)和控制,維護高校大學(xué)生生活的和諧,是構(gòu)建社會主義和諧校園迫切需要解決的問題。所以,研發(fā)這樣一款分析軟件就顯得尤為重要。現(xiàn)階段,據(jù)筆者調(diào)查了解到,學(xué)校對于學(xué)生狀況的了解主要是通過同學(xué)口述或者老師把學(xué)生叫到辦公室來進行面談交流獲得的,這樣十分費時費力。首先教師也沒有這么多時間能把每一個學(xué)生都叫過去面談,其次教師也不能每天叫學(xué)生過去,最后即便把學(xué)生叫過去了學(xué)生也不一定能夠很好地和老師進行交流,及時把自己最近的狀況反饋給老師,部分的學(xué)生還是會選擇不將自己的一些事告訴教師。通過研究發(fā)現(xiàn),絕大多數(shù)高校的學(xué)生都喜歡上網(wǎng),對于學(xué)生的近期上網(wǎng)狀況能夠很好地映射出這段時間學(xué)生自身的狀況。本項目系統(tǒng)的研發(fā),正是以對學(xué)生上網(wǎng)的情況進行數(shù)據(jù)采集,再對這些數(shù)據(jù)進行清洗以及去重再分析,給教師們節(jié)約了時間來頻繁了解學(xué)生狀況,同時也給學(xué)校管理提供幫助,能及時提供應(yīng)對的方案。
通過調(diào)查了解,中國許多高校中,都存在著教師或者學(xué)校管理層的人員不能及時地掌握學(xué)生們最近的動態(tài),出現(xiàn)一些能可以避免發(fā)生的有害事件。對于此類現(xiàn)象,通常學(xué)校會開會對于此類事件進行處理,之后每個班的教師也會對于此類事件進行強調(diào),同時對于此類事件也會在近段時間進行管控,但很難長時間解決此類事情;于是,基于這類現(xiàn)象,我們著手研發(fā)了本系統(tǒng),本系統(tǒng)的研發(fā),正是針對大學(xué)校園,特別是很多高校面臨不能及時掌握學(xué)生的狀況問題,以及教師沒有大量時間能夠跟所有學(xué)生進行頻繁的交流。本系統(tǒng)旨在為高校的學(xué)生的最近狀況分析工作提供便利,能夠讓學(xué)校管理人員和教師隨時隨地了解學(xué)生們的近期狀況情況,以便于管理和及時找相關(guān)學(xué)生進行交流,來解決學(xué)生所遇到的問題,避免一些不必要的事情發(fā)生,通過“網(wǎng)絡(luò)輿情分析”這種方法,減少高校學(xué)生由于教師們沒能及時了解情況而出現(xiàn)問題的狀況。
如今的智能手機能夠?qū)崿F(xiàn)隨時隨地進行上網(wǎng),沒有太大的約束條件,通過上網(wǎng)每個人都會產(chǎn)生許許多多的數(shù)據(jù)信息,這些數(shù)據(jù)是十分龐大的,而且不需要通過交流產(chǎn)生,這些都是上網(wǎng)自己產(chǎn)生的,不會因為學(xué)生自己不想說出來而無從下手,讓這些信息更加真實,因為這個信息都是基于他們主觀和最近他自己的狀態(tài)而產(chǎn)生的,也就是這些信息是具有個性化的,這樣筆者就通過獲取相關(guān)數(shù)據(jù),基于這些數(shù)據(jù)通過機器學(xué)習(xí)分析模型分析出每個人近期的狀況;因此基于網(wǎng)絡(luò)輿情分析變得不僅可行,而且十分方便。
輿情分析是基于機器學(xué)習(xí)算法模型的k鄰近算法,k近鄰算法,也稱為KNN算法,是一種基本分類與回歸算法。
k近鄰模型:k近鄰模型的核心是一種歐式空間距離,獲得距離目標(biāo)點最近的k個點,根據(jù)分類決策規(guī)則,決定目標(biāo)點的分類。
(1)距離目標(biāo)
(2)k值的選取
k鄰近算法模型中k的選取非常重要,k鄰近算法分類的準(zhǔn)備率對k值十分敏感。無論是對原始數(shù)據(jù)的距離計算和分類還是標(biāo)準(zhǔn)化后的分類,都是以距離最近的數(shù)據(jù)點分類來表示的新數(shù)據(jù)類別,不同的值有可能帶來不同的結(jié)果。如k選大了的話,求出來的k最近鄰集合可能包含了太多隸屬于其他類別的樣本點,不具有代表性,最極端的就是k取訓(xùn)練集的大小,此時無論輸入實例是什么,都只是簡單的預(yù)測它屬于在訓(xùn)練實例中最多的類,模型過于簡單,忽略了訓(xùn)練實例中大量有用信息。如果k選小了的話,結(jié)果對噪音樣本點很敏感。在實際中,一般采用交叉驗證(一部分樣本做訓(xùn)練集,一部分做測試集)或者依靠經(jīng)驗的方法來選取k值。k值初始時取一個比較小的數(shù)值,依次調(diào)整k值的大小來使得樣本分類最優(yōu),最優(yōu)時的k值即為所選值。
(3)分類決策規(guī)則
k近鄰的分類決策機制中最為常見的簡單多數(shù)規(guī)則,即在最近的k個點中,標(biāo)簽數(shù)目最多者,就把目標(biāo)點的標(biāo)簽歸于此類。
工作原理:存在樣本數(shù)據(jù)集合,也稱作訓(xùn)練樣本集,并且樣本集中的每個數(shù)據(jù)都存在標(biāo)簽,即知道樣本集中每一個數(shù)據(jù)與所屬分類的對應(yīng)關(guān)系。當(dāng)輸入一個沒有包含標(biāo)簽(也就是對應(yīng)的類別)的新數(shù)據(jù)后,將新數(shù)據(jù)的每個特征與樣本集中數(shù)據(jù)對應(yīng)的特征進行比較,然后用算法提取樣本集中特征與新數(shù)據(jù)最相似的數(shù)據(jù)(最近鄰)的分類標(biāo)簽。
歸一化特征值:對于大多數(shù)數(shù)據(jù)來說,其每個特征的特征值可能數(shù)值差距很大,因此需要對這些數(shù)據(jù)進行歸一化。
注:oldValue是需要進行歸一化的特征值,min是所有同類特征值最小的特征值,max是所有同類特征值最大的特征值。
該系統(tǒng)的服務(wù)對象目前只適用于學(xué)校教師,意在幫助教師能夠更加方便及時地了解學(xué)生近期的具體狀況,創(chuàng)建一個更加和諧安全的校園環(huán)境,減少校園暴力的發(fā)生。
基于前期的調(diào)研與分析,為該系統(tǒng)制定設(shè)計方案,從功能、交互兩方面進行軟件設(shè)計,使得教師能夠快捷方便的使用該系統(tǒng)。功能模塊主要包括:登錄、資訊、查詢、概況、個人信息等模塊。
(1)登錄:輸入用戶的用戶名及密碼,即可實現(xiàn)登錄。若忘記密碼,則可驗證賬號,以此來修改密碼。
(2)資訊:用戶在此頁面可以迅速了解到學(xué)校近期發(fā)生的事情,方便了解學(xué)校近期發(fā)生的具體事情。
(3)查詢:教師在這個頁面可以選擇學(xué)院和所對應(yīng)的專業(yè)班級,選擇完了之后點擊查詢,查看全校的學(xué)生近期的總體狀況,這樣可以實時了解到全校學(xué)生的動態(tài)。
(4)概況:這個功能到時候會識別出登錄教師所屬班級,之后顯示出這位教師所屬班級的近期狀況的總結(jié)報告,方便教師直接查看自己班級學(xué)生近期的總體情況,以便教師對相關(guān)學(xué)生進行交談。
(5)我:方便教師修改自己的個人信息,如:頭像,手機號,密碼等(學(xué)號不得修改)。
西北民族大學(xué)國家級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃資助項目(編號:201810742062,名稱:基于爬蟲技術(shù)的校園網(wǎng)絡(luò)輿情分析和監(jiān)測系統(tǒng))。