楊曄
摘要;隨著現(xiàn)代科學(xué)技術(shù)與經(jīng)濟的不斷發(fā)展,大數(shù)據(jù)時代已經(jīng)來臨。在大數(shù)據(jù)的背景下,我國各大高校也開始了校園的信息化建設(shè)。文章基于數(shù)字化校園建設(shè)過程中的實踐經(jīng)驗,對于大數(shù)據(jù)分析技術(shù)在數(shù)字校園建設(shè)中的應(yīng)用,以及應(yīng)用過程中出現(xiàn)的問題,進行了探討與分析,并提出了適應(yīng)大數(shù)據(jù)時代的數(shù)字校園建設(shè)思路,以進一步推動校園信息化建設(shè)的深度發(fā)展。
關(guān)鍵詞:大數(shù)據(jù);數(shù)字校園;校園建設(shè);大數(shù)據(jù)應(yīng)用;大數(shù)據(jù)分析技術(shù)
中圖分類號:TP399 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)07-0116-02
1引言
隨著互聯(lián)網(wǎng)技術(shù)的進步和云計算等先進計算方法的產(chǎn)生,海量的數(shù)據(jù)以成倍增長的速度不斷生成,開啟了大數(shù)據(jù)的時代。而大數(shù)據(jù)時代的到來,也為數(shù)字化校園的建設(shè)帶來了一場技術(shù)和思想的變革。
2大數(shù)據(jù)的發(fā)展背景
大數(shù)據(jù),指的是蘊含巨大價值的海量、高增長率、多樣化和復(fù)雜關(guān)聯(lián)的信息數(shù)據(jù)集,其在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。大數(shù)據(jù)的特征,決定了大數(shù)據(jù)在數(shù)字校園建設(shè)中的應(yīng)用價值,決定了其會對教育信息化的發(fā)展產(chǎn)生巨大影響。因此,如何高效的處理這些海量數(shù)據(jù),并展現(xiàn)其中蘊含的巨大價值,則成為了關(guān)鍵。
由于在大數(shù)據(jù)背景下,數(shù)據(jù)的來源豐富多樣、數(shù)據(jù)的類型也不具備一致性、數(shù)據(jù)的規(guī)模更是非常龐大,而傳統(tǒng)的數(shù)據(jù)存儲和分析技術(shù)是采用關(guān)系型數(shù)據(jù)庫,一般只能處理數(shù)據(jù)格式一致,規(guī)模也較小的數(shù)據(jù)。因此,需要特有的大數(shù)據(jù)分析技術(shù),如大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、云計算平臺、可擴展的存儲系統(tǒng)等,才能分析得出大量額外的有價值信息和數(shù)據(jù)關(guān)系。
3數(shù)字校園應(yīng)用大數(shù)據(jù)分析技術(shù)的優(yōu)勢
數(shù)字校園是基于計算機和網(wǎng)絡(luò)技術(shù)建立起來的對教學(xué)、科研、管理、技術(shù)服務(wù)、生活服務(wù)等校園信息的收集、處理、整合、存儲、傳輸和應(yīng)用,再以校園網(wǎng)為基礎(chǔ),實現(xiàn)包括教育教學(xué)環(huán)境,電子資源,科研活動等方面的,具有整體性的校園信息化管理。
3.1解決海量數(shù)據(jù)的無用堆積
隨著各種信息通訊技術(shù)、數(shù)據(jù)庫管理技術(shù)以及網(wǎng)絡(luò)應(yīng)用的高速發(fā)展,基于數(shù)字化校園的應(yīng)用系統(tǒng)、信息系統(tǒng)也越來越多,如教務(wù)管理系統(tǒng)、科研管理系統(tǒng)、電子圖書館、OA辦公系統(tǒng)等,這也直接導(dǎo)致各應(yīng)用系統(tǒng)數(shù)據(jù)庫存儲的數(shù)據(jù)量也急劇增大。這些信息系統(tǒng)每天都在產(chǎn)生大量的結(jié)構(gòu)化的、半結(jié)構(gòu)化的以及非結(jié)構(gòu)化的數(shù)據(jù),日積月累,大量堆積,但是一方面由于對數(shù)據(jù)價值的忽視,另一方面基于數(shù)據(jù)挖掘與數(shù)據(jù)分析整理的難度,這些寶貴的資源都被棄之不用,導(dǎo)致大量的數(shù)據(jù)成為數(shù)據(jù)存儲方面的包袱,不但沒有產(chǎn)生價值,反而因不能隨意丟棄而占用了大量存儲空間。
3.2提升管理水平和業(yè)務(wù)發(fā)展水平
由于傳統(tǒng)信息系統(tǒng)數(shù)據(jù)庫的查詢檢索機制和統(tǒng)計分析方法,已經(jīng)不能適應(yīng)數(shù)據(jù)規(guī)模劇增情況下的海量數(shù)據(jù)庫。只有通過大數(shù)據(jù)分析技術(shù),才能對高校的信息資產(chǎn)進行有效的數(shù)據(jù)挖掘和數(shù)據(jù)分析操作,從而為學(xué)校管理層進行決策提供有力的數(shù)據(jù)支撐,為教學(xué)、科研等方面工作的改進提供合理的統(tǒng)計數(shù)據(jù)。同時,大數(shù)據(jù)分析技術(shù)還可以通過對信息系統(tǒng)數(shù)據(jù)的集成,增加師生校園生活的獲得感,如對學(xué)科建設(shè)的支持、校園交通規(guī)劃和改善、準確快速的網(wǎng)絡(luò)輿情分析等,從而從根本上改變校園的管理方式及應(yīng)用水平,充分挖掘?qū)氋F的信息資源,進一步提高業(yè)務(wù)的發(fā)展水平和統(tǒng)計分析水平,輔助教育管理和教育決策,實現(xiàn)從擁有數(shù)據(jù)到預(yù)判需求。
3.3促進信息技術(shù)與教學(xué)科研的深度融合
大數(shù)據(jù)分析技術(shù)還可以促進教學(xué)質(zhì)量的提升,從而進一步促進信息技術(shù)與教育教學(xué)的深度融合。比如,通過采集在線學(xué)習(xí)系統(tǒng)中學(xué)生課后習(xí)題的完成情況,了解學(xué)生知識掌握的情況;采集學(xué)生對課外學(xué)習(xí)資源的訪問情況,了解學(xué)生的興趣方向;采集學(xué)生課堂的互動信息,了解學(xué)生喜愛的課堂教學(xué)方式等等,從而改變傳統(tǒng)單一化的教學(xué)方式,為學(xué)生制定個性化的學(xué)習(xí)指導(dǎo)計劃,幫助學(xué)生完善知識結(jié)構(gòu),甚至為學(xué)生提供個性化的就業(yè)指導(dǎo)。而通過大數(shù)據(jù)分析技術(shù),在自然科學(xué)領(lǐng)域?qū)崿F(xiàn)的對信息和數(shù)據(jù)更全面的掌握,則對于無論微觀科學(xué)還是宏觀科學(xué)都會帶來更加進一步的提升。
4大數(shù)據(jù)分析技術(shù)應(yīng)用的難關(guān)
4.1大數(shù)據(jù)的清洗
由于在產(chǎn)生和獲取數(shù)據(jù)的過程中,即使是多個數(shù)據(jù)源,也必然會有大量相同的數(shù)據(jù),而這些就會成為數(shù)據(jù)的冗余。同時,數(shù)據(jù)的采集過程也伴隨著很多無關(guān)數(shù)據(jù)和錯誤數(shù)據(jù)的進入,因此數(shù)據(jù)的清洗就是對大數(shù)據(jù)進行降噪去冗的處理,從而提高數(shù)據(jù)的質(zhì)量,提高大數(shù)據(jù)的價值密度。但是在清洗的過程中,也會丟失一些有用細節(jié)信息。因此如何把握數(shù)據(jù)清洗的平衡,既保證數(shù)據(jù)的質(zhì)量,去冗降噪,又不會因為過度清洗而流失數(shù)據(jù)的價值,成為大數(shù)據(jù)分析技術(shù)應(yīng)用的第一道難關(guān)。
4.2大數(shù)據(jù)的集成
大數(shù)據(jù)必須進行有效的集成,才能成為數(shù)據(jù)挖掘的基礎(chǔ)信息資源,才能發(fā)揮其巨大的價值。而當(dāng)前大數(shù)據(jù)復(fù)雜異構(gòu)的特性對大數(shù)據(jù)的整合形成了挑戰(zhàn),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)的大量并存和融合、不同來源不同特征的多種數(shù)據(jù)混雜,以及不同數(shù)據(jù)庫系統(tǒng)中文件系統(tǒng)差異形成的數(shù)據(jù)格式的巨大差異,無不造成大數(shù)據(jù)有效集成的困境。
4.3大數(shù)據(jù)處理模型的建立
數(shù)據(jù)的挖掘和分析需要建立數(shù)據(jù)分析處理模型,但是數(shù)據(jù)的海量多樣、應(yīng)用場景的各不相同以及各個應(yīng)用管理系統(tǒng)復(fù)雜的業(yè)務(wù)處理流程,使這些系統(tǒng)的功能模塊各有差異,處理框架也是不盡相同,導(dǎo)致很難整合這些碎片化的業(yè)務(wù)數(shù)據(jù)。因此,大數(shù)據(jù)處理模型需要專業(yè)的大數(shù)據(jù)技術(shù)人員以及業(yè)務(wù)領(lǐng)域的專業(yè)人員投入大量的時間和精力去研究和梳理業(yè)務(wù)流程,經(jīng)過反復(fù)的測試和修改才能建立。
5大數(shù)據(jù)背景下數(shù)字化校園的建設(shè)思路
5.1基礎(chǔ)環(huán)境建設(shè)
數(shù)字校園的建設(shè)首先要重視數(shù)據(jù)采集的基礎(chǔ)建設(shè),確保有良好的基礎(chǔ)傳輸網(wǎng)絡(luò)可以使用,為教學(xué)、科研、管理提供無所不在的基礎(chǔ)環(huán)境。需要充分利用先進的科學(xué)技術(shù),按照基本的建設(shè)標(biāo)準,保證大數(shù)據(jù)能夠存儲,并能夠高速地傳輸。數(shù)據(jù)傳輸更是基礎(chǔ)網(wǎng)絡(luò)建設(shè)的重點,尤其是現(xiàn)代化教育對視頻等多媒體課程的需求量加大,需要建立良好的基礎(chǔ)傳輸環(huán)境。
5.2打破信息孤島。建立完善的數(shù)據(jù)采集系統(tǒng)
大數(shù)據(jù)的集成、分析和管理等技術(shù)都是基于盡可能多的、完善的數(shù)據(jù)資源的基礎(chǔ)上才能進行的,而數(shù)字校園早期建設(shè)的信息系統(tǒng)已經(jīng)在各自的數(shù)據(jù)庫中存儲了大量的歷史數(shù)據(jù),但是由于早期信息系統(tǒng)的建立大多各自為政,導(dǎo)致這些數(shù)據(jù)都是處于信息孤島之中,無法為大數(shù)據(jù)技術(shù)所用。因此,大數(shù)據(jù)背景下的數(shù)字校園,首先就需要打通這些信息孤島,讓所有的數(shù)據(jù)產(chǎn)生聯(lián)系,然后再從物理環(huán)境和應(yīng)用環(huán)境兩個方面,建立一個具備數(shù)據(jù)采集、存儲能力的、較為完善的數(shù)據(jù)采集系統(tǒng)。物理環(huán)境方面主要指數(shù)字校園建設(shè)中的硬件設(shè)施及傳感器,比如通過語音教室、數(shù)字圖書館、視頻監(jiān)控、一卡通刷卡設(shè)備等采集的數(shù)據(jù);應(yīng)用環(huán)境方面則是指通過各業(yè)務(wù)應(yīng)用系統(tǒng)采集運行過程中產(chǎn)生的大量數(shù)據(jù),包括數(shù)字校園的統(tǒng)一門戶平臺及其他云平臺軟件、虛擬化軟件等。
5.3統(tǒng)一數(shù)據(jù)格式。建立良好的數(shù)據(jù)標(biāo)準體系
良好的數(shù)據(jù)標(biāo)準體系的建設(shè),能極大地提升并決定數(shù)字校園建設(shè)的質(zhì)量與水平。由于數(shù)據(jù)規(guī)模的增長相當(dāng)迅速,當(dāng)出現(xiàn)存儲設(shè)備容量的增長速度跟不上數(shù)據(jù)規(guī)模增長速度的情況時,就會對大數(shù)據(jù)的集成造成困擾,對大數(shù)據(jù)的存儲同樣制造了沉重的壓力,而大數(shù)據(jù)不進行有效的集成和整合就不能發(fā)揮其蘊含的巨大價值。在此背景下,統(tǒng)一數(shù)據(jù)格式、制定數(shù)據(jù)標(biāo)準、保障數(shù)據(jù)來源的唯一性,通過統(tǒng)一的數(shù)據(jù)交換平臺,減少冗余的數(shù)據(jù),降低數(shù)據(jù)源的差異性,進而建立良好的數(shù)據(jù)標(biāo)準體系,成為大數(shù)據(jù)有效集成的必然要求。
6結(jié)束語
網(wǎng)絡(luò)應(yīng)用、云計算、物聯(lián)網(wǎng)等技術(shù)的發(fā)展,為數(shù)字校園的建設(shè)注入了新鮮的血液,但是同樣也帶來了新的挑戰(zhàn),例如,如何對海量數(shù)據(jù)進行去冗降噪處理,提高數(shù)據(jù)質(zhì)量和相對降低數(shù)據(jù)規(guī)模,如何進行分析與模型處理等等。作為教育信息化的實踐者,數(shù)字校園的建設(shè)要求我們不斷深入學(xué)習(xí)大數(shù)據(jù)分析體系的各種技術(shù),而隨著對大數(shù)據(jù)技術(shù)的學(xué)習(xí)和實踐,我們也期待看到大數(shù)據(jù)技術(shù)為校園信息化建設(shè)帶來更多的活力。