任 祎
(陜西學前師范學院,710100)
“大數(shù)據(jù)時代”從2012 年以來逐漸成為信息技術(shù)領(lǐng)域的關(guān)鍵詞匯,目前互聯(lián)網(wǎng)上信息量的增加速度越來越快,數(shù)量龐大,結(jié)構(gòu)復雜多變,可以稱之為海量數(shù)據(jù)。這就對整個社會如何合理高效地管理信息,利用信息提出了新的要求。在這種背景下,高校也不可避免的面臨大數(shù)據(jù)時代,因為信息系統(tǒng)的數(shù)據(jù)量和數(shù)據(jù)結(jié)構(gòu)會產(chǎn)生驚人的改變,在“大數(shù)據(jù)”時代高校需要切實提高對日益增長的教育資源的處理能力,因此有機遇,有挑戰(zhàn),更有壓力,我們必須理性地認識大數(shù)據(jù)。
大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)在日常運營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G 或T 來衡量,無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的海量的、復雜的數(shù)據(jù)集合。
大數(shù)據(jù)的典型特點如下:規(guī)模性(volume)、多樣性(variety)、高速性(velocity)、價值性(value)。大數(shù)據(jù)的數(shù)據(jù)體量巨大數(shù)據(jù)類型繁多。包含結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),其中半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的比重越來越大。大數(shù)據(jù)的數(shù)據(jù)處理速度快,遵循“1 秒定律”,可以從各種類型的數(shù)據(jù)中快速獲得高價值的信息。大數(shù)據(jù)的價值往往呈現(xiàn)出稀疏性的特點,價值密度低。以視頻為例,在不間斷的監(jiān)控過程中,一小時的視頻,可能有用的數(shù)據(jù)僅僅有一兩秒。因此大數(shù)據(jù)還有一個顯著特點就是在數(shù)據(jù)處理方面更加艱巨和復雜。
高校信息化建設(shè)對于高校來說是學校事業(yè)發(fā)展不可或缺的重要部分,學校的教學、科研、管理、學習等諸多方面都離不開信息化,但是信息化建設(shè)的技術(shù)更新快、業(yè)務變更多、新技術(shù)不斷出現(xiàn)、應用系統(tǒng)不斷更新發(fā)展。在大數(shù)據(jù)背景下,高校里學生的學籍、選課、成績、借書、上網(wǎng)、論壇、微博還有教師的基本信息、上課課件和視頻、遠程教育課程等等也會產(chǎn)生大量數(shù)據(jù),還有設(shè)備、機房和圖書等信息等等都會產(chǎn)生大量數(shù)據(jù)。
云計算是大數(shù)據(jù)的基礎(chǔ)平臺,它在數(shù)據(jù)存儲、管理和分析方面給大數(shù)據(jù)起支撐作用,目前各個高校都在建立或者籌備運用云技術(shù)的第二代數(shù)字化校園,通過云技術(shù)組建高校數(shù)據(jù)業(yè)務云中心(圖1),利用云計算技術(shù)為各業(yè)務系統(tǒng)提供數(shù)據(jù)服務。此服務體系中,各類計算
資源和業(yè)務資源高度集中,用戶無需了解提供服務的來源和實現(xiàn)的過程。當用戶有數(shù)據(jù)要求時,只需在數(shù)據(jù)云交換平臺的框架下提出數(shù)據(jù)服務請求,相關(guān)業(yè)務云將返回數(shù)據(jù),用戶綜合所獲數(shù)據(jù)就能得到結(jié)果。所以在面臨大數(shù)據(jù)挑戰(zhàn)的情況下,首先的要務就是建設(shè)以云技術(shù)為核心的高校數(shù)據(jù)中心,實現(xiàn)教學資源的充分利用以及教學模式教學方法的推陳出新。
傳統(tǒng)的校園業(yè)務系統(tǒng)于缺乏統(tǒng)一規(guī)劃, 數(shù)據(jù)標準不一致,信息關(guān)聯(lián)度極差,部門之間很難實現(xiàn)業(yè)務協(xié)同。工作效率,工作質(zhì)量都不能令人滿意。所以建立基于云技術(shù)的數(shù)據(jù)中心的優(yōu)勢就在于數(shù)據(jù)整合,通過業(yè)務集成來實施信息集成,降低各系統(tǒng)間耦合度,增強業(yè)務系統(tǒng)間的協(xié)作能力,通過建立統(tǒng)一的數(shù)據(jù)標準,遵循數(shù)據(jù)互操作規(guī)范協(xié)議,組成數(shù)據(jù)服務云,向其他信息系統(tǒng)提供數(shù)據(jù)服務。通過數(shù)據(jù)遷移,數(shù)據(jù)轉(zhuǎn)換,共享等手段,把舊有數(shù)據(jù)重新整合起來,徹底消除高校信息化建設(shè)中存在的信息孤島以及信息碎片化現(xiàn)象,提高數(shù)據(jù)的使用率。例如,教務處需要查詢某教師的實際授課情況,就可以向數(shù)據(jù)中心提出請求,從相關(guān)系統(tǒng)中調(diào)出數(shù)據(jù),如所帶班級成績,到課率,好評度,授課方式,課時完成率等等,經(jīng)過自動分析,按照規(guī)范返回查詢結(jié)果。
數(shù)據(jù)整合的結(jié)果就是數(shù)據(jù)的存儲量與日俱增,在這種情況下,傳統(tǒng)數(shù)據(jù)存儲方法已經(jīng)明顯不能適應。隨著學校的快速發(fā)展,這種問題越來越凸現(xiàn)出來,面對類型繁多,數(shù)量巨大的數(shù)據(jù),必須考慮如何高效的壓縮數(shù)據(jù)。云存儲是(Cloud STorage)是在云計算(Cloud Computing)概念上延伸和發(fā)展出來的一個新的概念,它是指通過集群應用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。它是建立新型數(shù)據(jù)中心必不可少的一個環(huán)節(jié),具有容量大、性能高、可靠性好、協(xié)同優(yōu)良的優(yōu)點。
建立新型數(shù)據(jù)中心,加強數(shù)據(jù)整合和存儲將帶來大量的可以利用的數(shù)據(jù),如何使得這些數(shù)據(jù)真正起到重要作用是高校信息化建設(shè)的另一個重要領(lǐng)域。在數(shù)據(jù)處理分析階段主要應用Hadoop 大數(shù)據(jù)處理平臺,其總體架構(gòu)如圖2 所示
首先通過數(shù)據(jù)采集手段,將需要的數(shù)據(jù)整合起來并存儲,通過并行計算框架,優(yōu)化并行分析算法如M ahout、R 語言等,同時采用大量服務器進行分析,排除臟數(shù)據(jù),重復數(shù)據(jù),提高效率,然后將合理的分析結(jié)果反饋回業(yè)務系統(tǒng)。
良好的數(shù)據(jù)分析會提高高校對于數(shù)據(jù)的實際利用能力,通過對數(shù)據(jù)的挖掘分析,得出真正有價值的數(shù)據(jù),結(jié)合數(shù)據(jù)反饋回來的信息,我們可以在教學、科研、管理等多方面加以利用。如教學方面可以對老師的代課情況,課時的分配情況,教學資源利用情況以及各種教學方式對教學的影響加以整理分析,得出最優(yōu)化的教學方法,提高教學質(zhì)量;學生管理方面可以對學生在校的學習情況,畢業(yè)去向等多方面加以分析。幫助學校根據(jù)需要對學校的專業(yè)設(shè)置、專業(yè)發(fā)展做出良性改變;科研方面,可以利用大數(shù)據(jù)里海量的科研信息,加強自身的科研實力,學習先進的科研技術(shù);管理方面可以分析各類制度的執(zhí)行情況,優(yōu)缺點,對于學校發(fā)展的影響等等,幫助學校制定更為合理的制度,從而全面提高學校的建設(shè)水平。
數(shù)據(jù)安全是一個長久話題,當數(shù)據(jù)量越來越大,尤其是倡導開放、靈活和共享的大數(shù)據(jù)時代,更是至關(guān)重要,數(shù)據(jù)的破壞、篡改、泄露都會給我們造成嚴重的不良影響和損失。在云數(shù)據(jù)中心建成后,數(shù)據(jù)安全防護的重點是具有高價值的數(shù)據(jù)資產(chǎn),比如學生、教師的各類隱私信息,財務、資產(chǎn)方面的重要信息等,需要圍繞數(shù)據(jù)的產(chǎn)生、使用,傳輸,存儲等方面考慮數(shù)據(jù)安全體系的構(gòu)建。首先是加強數(shù)據(jù)標準化建設(shè),加快數(shù)據(jù)安全處理的效率,針對數(shù)據(jù)在業(yè)務系統(tǒng)中運行的不同階段設(shè)置針對性的防護措施,做到有效的保護;其次是加強和改進網(wǎng)絡(luò)層、傳輸層和用戶層的安全策略,如網(wǎng)絡(luò)傳輸加密技術(shù),可采用IPSecVPN、SSL 等VPN 技術(shù)提高用戶數(shù)據(jù)的網(wǎng)絡(luò)傳輸安全性,加強網(wǎng)絡(luò)層數(shù)據(jù)辨識智能化和本地系統(tǒng)的相互監(jiān)控協(xié)調(diào),同時杜絕非常態(tài)數(shù)據(jù)的運行,保證數(shù)據(jù)的完整性和可靠性;再次是利用數(shù)據(jù)檢索識別技術(shù)(如HP Autonomy)對數(shù)據(jù)進行有效的自動化識別,提高對臟數(shù)據(jù),垃圾數(shù)據(jù)的鑒別能力,根據(jù)數(shù)據(jù)來源和存在方式進行特征分析,建立數(shù)據(jù)分類、分級策略;最后是加強對人為因素影響的控制,加強用戶訪問的權(quán)限和范圍,加強內(nèi)部管理的監(jiān)控制度,制定適應新技術(shù)新環(huán)境的管理制度,應急制度等。當然這不是一步就能徹底解決的,既要考慮實際需求也要考慮高?,F(xiàn)狀,做好安全防護體系應該遵循“循序漸進,持續(xù)改進”原則,真正實現(xiàn)管控并重的安全體系建設(shè)思路。
在大數(shù)據(jù)背景下的高校信息化建設(shè)給高校的發(fā)展帶來的巨大的變化,為了更好的融入到大數(shù)據(jù)時代,高校必須建立新型的以云計算為基礎(chǔ)的數(shù)據(jù)中心,要善于利用大數(shù)據(jù)平臺進行交流和發(fā)展,要開拓新的思路來適應新技術(shù)帶來的變革,另外要加強專業(yè)人才的培養(yǎng),尤其是數(shù)據(jù)分析和挖掘,這是大數(shù)據(jù)的本質(zhì),只有這樣才能真正把數(shù)據(jù)轉(zhuǎn)換為高校的最有價值資產(chǎn),從而促進高校的全面發(fā)展。
圖1 高校云數(shù)據(jù)中心
圖2 Hadoop 數(shù)據(jù)分析架構(gòu)
[1] 陳婕.高校數(shù)據(jù)中心發(fā)展戰(zhàn)略探討[J]電腦知識與技術(shù)2013 年01 月
[2] 桑慶兵. 大數(shù)據(jù)在高校的應用與思考[J]南通紡織職業(yè)技術(shù)學院學報(綜合版)2013 年6 月
[3] 高洪.楊慶平.黃震江.基于 H adoop 平臺的大數(shù)據(jù)分析關(guān)鍵技術(shù)標準化探討.大數(shù)據(jù)與云計算標準研究專題 2013 年5 月
[4] 劉中宇.劉海良.大數(shù)據(jù)時代高校云資源應用[J]現(xiàn)代教育技術(shù) 2013 年第7 期