摘 要:對(duì)大數(shù)據(jù)做出簡(jiǎn)單介紹,從我國(guó)普通院?,F(xiàn)有的數(shù)據(jù)來(lái)源問(wèn)題入手,介紹了現(xiàn)有技術(shù)能夠產(chǎn)生和收集到得數(shù)據(jù),提出了數(shù)據(jù)來(lái)源的收集方法。重點(diǎn)分析了現(xiàn)有數(shù)據(jù)對(duì)學(xué)校的價(jià)值問(wèn)題。最后,提出了一些未來(lái)大數(shù)據(jù)在教育行業(yè)的設(shè)想。
關(guān)鍵詞:校園網(wǎng);大數(shù)據(jù);分析
中圖分類號(hào):TP393.18
大數(shù)據(jù)作為目前的熱門詞在教育行業(yè)被廣泛關(guān)注,相關(guān)的探討也很多,如通過(guò)將學(xué)生的到課率、回答問(wèn)題次數(shù)與正確率、師生互動(dòng)頻率與時(shí)長(zhǎng)等等這些數(shù)據(jù)收集、統(tǒng)計(jì)和分析,使之成為支撐教學(xué)改進(jìn)策略的重要指標(biāo)。但以目前我國(guó)本科院校和中高職院校的信息化水平,收集此類數(shù)據(jù)成為第一道門檻。這些數(shù)據(jù)需要通過(guò)物聯(lián)網(wǎng)、射頻、無(wú)線定位等技術(shù)作為收集通道,而目前我國(guó)院校能達(dá)到這個(gè)要求的寥寥無(wú)幾。那么大數(shù)據(jù)對(duì)于我國(guó)普通院校真的是一場(chǎng)夢(mèng)么?筆者認(rèn)為在現(xiàn)有技術(shù)條件下整個(gè)校園網(wǎng)中產(chǎn)生的數(shù)據(jù)已經(jīng)非常巨大,只是缺少相應(yīng)的收集、統(tǒng)計(jì)分析的思路和方法,故本文針對(duì)現(xiàn)有校園網(wǎng)中的數(shù)據(jù),進(jìn)行收集方法和分析思路的探索,尋找適合我國(guó)普通院校的大數(shù)據(jù)運(yùn)營(yíng)方法。
1 數(shù)據(jù)來(lái)源
數(shù)據(jù),一般是指通過(guò)實(shí)驗(yàn)、檢測(cè)、統(tǒng)計(jì)等方式所得到的,被用于技術(shù)設(shè)計(jì)、科學(xué)研究、查證和決策等目的的數(shù)值。通過(guò)全面、準(zhǔn)確、系統(tǒng)的測(cè)量、收集、記錄、分類、存儲(chǔ)這些數(shù)據(jù),再經(jīng)過(guò)嚴(yán)格的統(tǒng)計(jì)、分析、檢驗(yàn)這些數(shù)據(jù),就能得出一些具備較強(qiáng)說(shuō)服力的結(jié)論。大規(guī)模、長(zhǎng)期的進(jìn)行系統(tǒng)的收集和分析這些數(shù)據(jù),所得的海量數(shù)據(jù)就是大數(shù)據(jù),所得的精簡(jiǎn)結(jié)論就是大數(shù)據(jù)價(jià)值。本次針對(duì)校園網(wǎng)進(jìn)行數(shù)據(jù)來(lái)源的分析。
圖1 一般中職類院校或本科院校的校園網(wǎng)網(wǎng)絡(luò)拓?fù)鋱D
如圖1為一般中職類院?;虮究圃盒5男@網(wǎng)網(wǎng)絡(luò)拓?fù)鋱D,接入交換機(jī)和匯聚交換機(jī)上能夠獲取的只是其下聯(lián)用戶的數(shù)據(jù),數(shù)據(jù)量相對(duì)較小暫不考慮;由于所有對(duì)內(nèi)服務(wù)器訪問(wèn)和對(duì)外互聯(lián)網(wǎng)訪問(wèn)的數(shù)據(jù)都要經(jīng)過(guò)核心交換機(jī),所以核心層數(shù)據(jù)量最大,首先我們將對(duì)內(nèi)服務(wù)器訪問(wèn)的數(shù)據(jù)進(jìn)行收集,通過(guò)核心交換機(jī)的流量分析功能,我們只能獲取到源IP、目的IP、時(shí)間、延時(shí)等。
通過(guò)流量分析獲取的只是網(wǎng)絡(luò)層的數(shù)據(jù),且延遲這個(gè)數(shù)據(jù)由于是在核心交換機(jī)上獲取的,不能代表終端的真實(shí)延時(shí),所以意義不大。IP地址由于大部分校園網(wǎng)用的是DHCP分配的動(dòng)態(tài)IP,所以需要通過(guò)認(rèn)證系統(tǒng)、運(yùn)維系統(tǒng)等進(jìn)一步關(guān)聯(lián)得到可用數(shù)據(jù),包括用戶名、訪問(wèn)的應(yīng)用系統(tǒng)、訪問(wèn)時(shí)間和速率。
針對(duì)對(duì)外的數(shù)據(jù)在核心交換機(jī)、防火墻、應(yīng)用控制、出口路由器上的數(shù)據(jù)量是基本一致的,為了避免網(wǎng)絡(luò)層數(shù)據(jù)不夠直觀,需要關(guān)聯(lián)分析的問(wèn)題,這里我們將數(shù)據(jù)分析來(lái)源定位在應(yīng)用控制設(shè)備(也可放在具備應(yīng)用層分析能力的防火墻或路由器上)上,得到如下應(yīng)用層數(shù)據(jù):
(1)針對(duì)網(wǎng)頁(yè)訪問(wèn):用戶名、訪問(wèn)網(wǎng)站、內(nèi)容、時(shí)間,如用戶YKX在2014-4-8 PM 7:20:00訪問(wèn)了網(wǎng)站百度,搜索內(nèi)容為馬航。
(2)針對(duì)郵件:用戶名、目的郵箱、郵件名稱、附件名稱、內(nèi)容關(guān)鍵字、時(shí)間,如用戶YKX向郵箱地址為1234@qq.com,發(fā)送了名稱為應(yīng)聘,附件為簡(jiǎn)歷的郵件,內(nèi)容關(guān)鍵字為應(yīng)聘。
(3)針對(duì)IM軟件(注:QQ為密文傳輸,需要終端安裝控件后進(jìn)行審計(jì)):用戶名、對(duì)象、工具、內(nèi)容關(guān)鍵字、時(shí)間,如用戶YKX在2014-4-8 PM 7:20:00通過(guò)QQ向12345發(fā)送了關(guān)鍵字為考試的信息。
(4)針對(duì)論壇貼吧:用戶名、論壇名稱、關(guān)鍵字、時(shí)間,如用戶YKX在2014-4-8 PM 7:20:00在校園論壇中發(fā)了關(guān)鍵字為考試的帖子。
以上為通過(guò)校園網(wǎng)直接收集所得數(shù)據(jù),現(xiàn)在一般的院校都具備一卡通系統(tǒng),配合校園網(wǎng)能夠收集到學(xué)生在校園的部分消費(fèi)信息,包括用戶名、地點(diǎn)、金額、時(shí)間等,如用戶YKX在2014-4-8 PM 7:20:00食堂5號(hào)窗口花費(fèi)了15元。
2 運(yùn)營(yíng)對(duì)象
在數(shù)據(jù)分析之前,首先要明確分析的目的,本次我們分析的是校園網(wǎng)的數(shù)據(jù),作用是為了更好的運(yùn)營(yíng)數(shù)字化校園,幫助我們校園網(wǎng)內(nèi)的人高效的工作生活,并使數(shù)字化校園產(chǎn)生價(jià)值。這里我們主要把校園內(nèi)的領(lǐng)導(dǎo)、教師、職工、學(xué)生、商鋪等作為本次價(jià)值假設(shè)的對(duì)象。
3 數(shù)據(jù)價(jià)值分析
大數(shù)據(jù)的核心價(jià)值就是預(yù)測(cè)。它通常被視為人工智能的一部分,或者更確切地說(shuō),被視為一種機(jī)器學(xué)習(xí)。但是這種定義是有誤導(dǎo)性的。大數(shù)據(jù)不是要教機(jī)器像人一樣思考。相反,它是把數(shù)學(xué)算法運(yùn)用到海量的數(shù)據(jù)上來(lái)預(yù)測(cè)事情發(fā)生的可能性。一封郵件被作為垃圾郵件過(guò)濾掉的可能性,輸入的“teh”應(yīng)該是“the”的可能性,從一個(gè)人亂穿馬路時(shí)行進(jìn)的軌跡和速度來(lái)看他能及時(shí)穿過(guò)馬路的可能性,都是大數(shù)據(jù)可以預(yù)測(cè)的范圍。那么接下來(lái)我們將要對(duì)上文收集到的大數(shù)據(jù)進(jìn)行分析和定向預(yù)測(cè),并對(duì)我們校園中得對(duì)象產(chǎn)生價(jià)值。
本次的數(shù)據(jù)分析可以分為兩種方法,即針對(duì)群體的單一行為分析和針對(duì)個(gè)體的綜合行為分析,接下來(lái)我們就用這兩種方法進(jìn)行數(shù)據(jù)分析的價(jià)值體現(xiàn)。
(1)針對(duì)教師教學(xué)
基于興趣的教學(xué)方式一直是被教師所推崇的,例如在學(xué)校里優(yōu)秀的老師往往能通過(guò)用學(xué)生所關(guān)心的最新的話題作為一堂課的引子,在設(shè)計(jì)課堂教學(xué)內(nèi)容時(shí)也會(huì)貼近學(xué)生關(guān)注的熱點(diǎn),這樣更能吸引學(xué)生的注意,幫助學(xué)生更加容易的去理解和掌握課程的內(nèi)容,但是難點(diǎn)在于由于年齡的代溝,老師所關(guān)注的實(shí)時(shí)熱點(diǎn)不一定是學(xué)生關(guān)心的,這也是為什么往往年輕老師更容易讓學(xué)生喜歡。在這里我們也想通過(guò)校園網(wǎng)大數(shù)據(jù)分析提升所有的老師課堂吸引力。這里我們以法學(xué)院為例,按照教師的思維最近的實(shí)時(shí)熱點(diǎn)應(yīng)該是馬航事件,可學(xué)生是這樣想得么?首先根據(jù)我們第二章中應(yīng)用分析得到的數(shù)據(jù),將法學(xué)院學(xué)生區(qū)域的網(wǎng)頁(yè)搜索、論壇訪問(wèn)等數(shù)據(jù)進(jìn)行收集,以關(guān)鍵索引的方式我可以得出結(jié)果,如表1
表1
關(guān)鍵字 搜索次數(shù) 搜索人數(shù) 時(shí)間段
文章出軌 1000 400 2014-4-5—2014-4-10
黑老大劉漢 120 50 2014-4-5—2014-4-10
馬航失聯(lián) 100 80 2014-4-5—2014-4-10
XP退役 80 30 2014-4-5—2014-4-10
數(shù)據(jù)分析的結(jié)果告訴我們,其實(shí)學(xué)生對(duì)馬航整體關(guān)注度并不高,反而對(duì)文章事件有很大熱情。那么接下來(lái)法學(xué)院的課堂上,如果開場(chǎng)就用文章事件引出一個(gè)課堂問(wèn)題:如果文、馬離婚,財(cái)產(chǎn)和孩子怎么分配?接下來(lái)結(jié)合文章事件和婚姻法進(jìn)行授課,相信課堂效果會(huì)由很大的提升。而且整個(gè)數(shù)據(jù)分析過(guò)程其實(shí)很簡(jiǎn)單,只需要學(xué)校信息中心的人導(dǎo)出行為審計(jì)日志,交給法學(xué)院老師后用EXCEL表格的篩選功能就可以得出。
(2)針對(duì)學(xué)校維穩(wěn)
特殊時(shí)期的維穩(wěn)工作對(duì)學(xué)校來(lái)說(shuō)非常重要,因?yàn)閷W(xué)生思想自由容易受到外人的惡意蠱惑,例如釣魚島時(shí)期的游行事件等。這種時(shí)期學(xué)校一般采取的方式是一刀切的限制出行、思想工作等,這樣沒有重點(diǎn)的防護(hù)對(duì)學(xué)校人力的消耗是非常大的。那么首先我們通過(guò)群體的單一行為方法進(jìn)行分析,可以針對(duì)“游行”等關(guān)鍵字,以及“釣魚島貼吧”等關(guān)鍵論壇進(jìn)行數(shù)據(jù)收集,分析如表2:
表2
用戶 途徑 關(guān)鍵字 搜索次數(shù) 詳細(xì)內(nèi)容 時(shí)間段
YKX XX貼吧 游行 60 XXX 2014-4-5—2014-4-10
CZM XX論壇 釣魚島 50 XXX 2014-4-5—2014-4-10
XHB XX貼吧 游行 50 XX 2014-4-5—2014-4-10
FLM XX論壇 釣魚島 40 XX 2014-4-5—2014-4-10
通過(guò)上表我們就可以初步得出一個(gè)重點(diǎn)保障的人員范圍,然后再利用個(gè)體的綜合分析來(lái)精確這個(gè)范圍,這樣學(xué)校就可以針對(duì)性的對(duì)這個(gè)范圍開展思想工作和安全保障,雖然不能完全肯定只有這些人有隱患(有些沒有通過(guò)網(wǎng)絡(luò)進(jìn)行),但是相對(duì)于完全無(wú)重點(diǎn)的防護(hù),大數(shù)據(jù)分析的結(jié)果還是能夠幫助學(xué)校節(jié)省一部分的人力消耗。
(3)針對(duì)商鋪盈利
一般的學(xué)校都會(huì)有的超市、藥店、書店等商鋪,同一個(gè)學(xué)校不同的商鋪,往往會(huì)有月盈利參差不齊的情況,除了地理位置等其他因素,能否把握到學(xué)生的實(shí)時(shí)采購(gòu)需求是商鋪盈利情況的一個(gè)重要因素,而實(shí)時(shí)的需求如何得來(lái)在過(guò)去一直是超市老板的難題,最終的結(jié)果可能就是拍腦袋想出來(lái)的,沒有什么事實(shí)的依據(jù)。這里我們通過(guò)大數(shù)據(jù)的方式,收集到學(xué)生淘寶、天貓、京東等一些購(gòu)物網(wǎng)站的搜索內(nèi)容,并進(jìn)行數(shù)據(jù)分析后,如表3:
表3
關(guān)鍵字 途徑 搜索人數(shù) 搜索次數(shù) 時(shí)間段
板藍(lán)根 淘寶 3000 4500 2014-4-5—2014-4-10
努比亞 京東 2000 4700 2014-4-5—2014-4-10
喬布斯傳 當(dāng)當(dāng) 1200 1700 2014-4-5—2014-4-10
這些熱點(diǎn)商品數(shù)據(jù)可以直接支撐商鋪老板的進(jìn)貨策略,在學(xué)校網(wǎng)絡(luò)中心完全可以用收費(fèi)的方式為商鋪提供這種持續(xù)的服務(wù),將大數(shù)據(jù)直接轉(zhuǎn)換為學(xué)校的盈利。
(4)針對(duì)學(xué)校決策支撐
每年年底學(xué)校都要對(duì)第二年的信息化采購(gòu)計(jì)劃進(jìn)行預(yù)算規(guī)劃,規(guī)劃的依據(jù)可能來(lái)源于近幾年的趨勢(shì)、明年的重大事項(xiàng)等,這里我們希望用大數(shù)據(jù)的方式使我們部分的采購(gòu)計(jì)劃更加精確。比如通過(guò)一年的流量分析統(tǒng)計(jì),我可以得出每個(gè)業(yè)務(wù)系統(tǒng)的年運(yùn)行質(zhì)量,如表4:
表4
應(yīng)用系統(tǒng) 年訪問(wèn)量 平均速率 時(shí)間段
選課系統(tǒng) 30K 300K 2013-1-5—2014-11-5
網(wǎng)站系統(tǒng) 50K 100K 2013-1-5—2014-11-5
圖書管系統(tǒng) 60K 200K 2013-1-5—2014-11-5
可以看到,網(wǎng)站系統(tǒng)的訪問(wèn)量較大,但平均速率偏低,同時(shí)經(jīng)過(guò)深度分析,發(fā)現(xiàn)在6月-8月之間的訪問(wèn)量已達(dá)到40K,那么在申報(bào)預(yù)算時(shí)可能要加上對(duì)網(wǎng)站系統(tǒng)擴(kuò)建,同時(shí)擴(kuò)建截止時(shí)間一定要再5月份之前完成。詳細(xì)的擴(kuò)建內(nèi)容,如到底是增加服務(wù)器、還是提高帶寬等,我們也可以通過(guò)精度分析年平均速率的障礙點(diǎn)進(jìn)行判斷。
4 結(jié)束語(yǔ)
筆者認(rèn)為隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)收集方法和數(shù)據(jù)量已經(jīng)不是瓶頸,如何通過(guò)已有的大數(shù)據(jù)進(jìn)行精簡(jiǎn)分析,從而得出我們想要的價(jià)值,這個(gè)過(guò)程是需要重點(diǎn)考慮的,以上的數(shù)據(jù)分析只是筆者的一些拋磚引玉探索想法,相信在校園網(wǎng)如此龐大的數(shù)據(jù)中,還會(huì)有更多的價(jià)值可以進(jìn)行挖掘。目前,大數(shù)據(jù)分析已經(jīng)被應(yīng)用到美國(guó)的公共教育中,成為教育改革的重要力量,為了順應(yīng)并推動(dòng)這一趨勢(shì),美國(guó)聯(lián)邦政府教育部2012年參與了一項(xiàng)耗資2億美元的公共教育中得大數(shù)據(jù)計(jì)劃,這一計(jì)劃旨在通過(guò)運(yùn)用大數(shù)據(jù)分析來(lái)改善教育,隨著越來(lái)越多的網(wǎng)絡(luò)在線教育和大規(guī)模開放網(wǎng)絡(luò)課程的橫空出世,也使得教育領(lǐng)域中得大數(shù)據(jù)獲得了更為廣闊的應(yīng)用空間,未來(lái)的大數(shù)據(jù)將直接革新學(xué)生的學(xué)習(xí)、教師的教學(xué)、教育政策制定的方式和方法等,最終掀起新的教育革命!
參考文獻(xiàn):
[1]維克托·邁爾-舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].浙江人民出版社:浙江人民出版社,2012.
[2]黃海,車皓陽(yáng) ,王悅.駕馭大數(shù)據(jù)[M].人民郵電出版社,2013.
[3][英]維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger).Delete:The Virtue of Forgetting in the Digital Age [M].浙江人民出版社,2013.
作者簡(jiǎn)介:楊凱雪(1982-),男,侗族,貴州凱里人,講師,碩士研究生,主要從事網(wǎng)絡(luò)與信息化管理工作。
作者單位:黔東南民族職業(yè)技術(shù)學(xué)院,貴州凱里 556000