馬鴻健 張耘凡 王關祥 車路 王嬌
【摘 要】隨著高校信息化應用范圍的逐步擴大,以及物聯(lián)網(wǎng)、云計算、移動互聯(lián)等新型信息技術(shù)的廣泛應用,高校信息化建設逐漸進入了大數(shù)據(jù)時代。面對迅速增長的教育信息資源,海量信息的存儲和利用問題日益嚴峻,各大高校對于數(shù)據(jù)采集整合、集中管理、分析挖掘的需求日益明顯,都在探索和思考新的應對策略。
【關鍵詞】數(shù)據(jù)管理;數(shù)據(jù)采集;數(shù)據(jù)分析
Thinking of University data management in the Big Data era
MA Hong-jian ZHANG Yun-fan WANG Guan-xiang CHE Lu WANG Jiao
(Shandong Agricultural University, Taian Shandong 271000, China)
【Abstract】The university information system is gradually entered the era of big data, with the widely application of information, as well as networking, cloud computing, mobile Internet and suchlike new information technology. Facing the rapid growth of educational information resources, the problems of storage and utilization of magnanimity information resources is becoming more seriously. With the urgent requirement in data collection, centralized management, analysis and data mining, all of them are thinking and exploration of the new strategies.
【Key words】Data management; Data collection; Data analysis
0 引言
自21世紀以來,我國高校數(shù)字化校園建設得到快速發(fā)展,大致經(jīng)歷了基礎設施建設階段、應用系統(tǒng)建設階段和信息數(shù)據(jù)整合階段,提升了高校信息化的整體水平。如今,數(shù)據(jù)中心在承載著越來多和越來越重要的應用與業(yè)務系統(tǒng)的同時,也積累了大量的數(shù)據(jù)資源,數(shù)據(jù)管理漸行漸近。
大數(shù)據(jù)技術(shù)的目的不在于掌握龐大的數(shù)據(jù)信息,而在于對這些蘊藏知識的數(shù)據(jù)進行專業(yè)化處理,通過分析得出大量額外的有價值信息和數(shù)據(jù)關系,幫助人們優(yōu)化自身的決策和行為方式[1]。高校中的數(shù)據(jù)是多源的、異構(gòu)的,需要利用大數(shù)據(jù)技術(shù)進行整合,挖掘數(shù)據(jù)潛在的價值,進而幫助學校進行決策分析及管理,大數(shù)據(jù)技術(shù)的應用在高校教育信息化中起到越來越重要的地位。
1 數(shù)據(jù)管理
高校數(shù)據(jù)資源是高校各職能部門產(chǎn)生的業(yè)務數(shù)據(jù)及相關數(shù)據(jù),包括教學資源數(shù)據(jù)、網(wǎng)絡行為數(shù)據(jù)、無線認證數(shù)據(jù)等,從數(shù)據(jù)來源上涵蓋教學、科研、人事、資產(chǎn)、財務等各個方面,從數(shù)據(jù)類型上有數(shù)據(jù)庫、圖像、報表、公文、音頻、視頻、日志等形式。
數(shù)據(jù)管理的概念最早提出于20世紀80年代,指利用先進的管理手段和計算機硬件、軟件,實現(xiàn)對數(shù)據(jù)資源進行規(guī)劃、設計、使用、維護與控制的全面管理,其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用[2-5]。當前高校數(shù)據(jù)管理的工作主要包括三個方面:
1.1 數(shù)據(jù)的管理及共享服務
根據(jù)高校應用系統(tǒng)的數(shù)據(jù)需求,規(guī)劃數(shù)據(jù)庫結(jié)構(gòu)和內(nèi)容,將各種異構(gòu)數(shù)據(jù)源進行統(tǒng)一,對外提供統(tǒng)一的訪問接口和數(shù)據(jù)發(fā)現(xiàn)、檢索等服務;建立統(tǒng)一數(shù)據(jù)庫平臺,存儲各應用系統(tǒng)數(shù)據(jù)交換所需要的信息,并通過數(shù)據(jù)交換功能獲取應用系統(tǒng)權(quán)威數(shù)據(jù),根據(jù)需求定期回寫到其他數(shù)據(jù)使用部門的應用系統(tǒng),實現(xiàn)各個業(yè)務部門之間的數(shù)據(jù)共享。
1.2 制定相應數(shù)據(jù)標準和數(shù)據(jù)規(guī)劃
建立高校數(shù)據(jù)標準規(guī)范,將學校各類數(shù)據(jù)資源集成,實現(xiàn)單一數(shù)據(jù)源管理和有授權(quán)的數(shù)據(jù)訪問,保證學校主數(shù)據(jù)庫中數(shù)據(jù)的實時性、準確性、一致性;對全校范圍的數(shù)據(jù)資源進行統(tǒng)一規(guī)劃,確定各類數(shù)據(jù)對應的權(quán)威數(shù)據(jù)生產(chǎn)部門,明確共享數(shù)據(jù)內(nèi)容。
1.3 數(shù)據(jù)統(tǒng)計分析與應用
對集成的數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)分析及數(shù)據(jù)展示工作,除去冗余、重復的數(shù)據(jù),提高數(shù)據(jù)質(zhì)量;對高校教育大數(shù)據(jù)進行數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中的價值,實現(xiàn)教學評估、學生個體分析、輿情預測等大數(shù)據(jù)分析與應用。
2 數(shù)據(jù)采集
高校信息化建設過程中,各個部門根據(jù)自身的業(yè)務需求建立了各自的業(yè)務系統(tǒng),并收集了大量的、不同類型的數(shù)據(jù),如教學、人事、科研、財務等部門的基本業(yè)務數(shù)據(jù),教學課件、視頻等多媒體數(shù)據(jù),論壇、微博、微信等網(wǎng)絡行為數(shù)據(jù),校內(nèi)無線網(wǎng)感知的位置數(shù)據(jù)等,從數(shù)據(jù)類型上可分為應用關系數(shù)據(jù)、文檔、操作日志、圖形數(shù)據(jù)、XML數(shù)據(jù)、流式數(shù)據(jù)等,這些數(shù)據(jù)在數(shù)據(jù)采集時可以分為兩類,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)采集架構(gòu)如圖1所示。
2.1 結(jié)構(gòu)化數(shù)據(jù)采集
結(jié)構(gòu)化數(shù)據(jù)采集即數(shù)據(jù)集成,將互相關聯(lián)的分布式異構(gòu)數(shù)據(jù)集成到一起。其實現(xiàn)方式是在各業(yè)務系統(tǒng)與數(shù)據(jù)中心之間做接口,并完成對接,實現(xiàn)抽取與推送數(shù)據(jù)的目的。根據(jù)實際應用的需求,數(shù)據(jù)交換分為數(shù)據(jù)庫級數(shù)據(jù)交換和應用級數(shù)據(jù)交換,數(shù)據(jù)庫級數(shù)據(jù)交換適合數(shù)據(jù)集實時要求高數(shù)據(jù)量不大的數(shù)據(jù);應用級數(shù)據(jù)交換適合數(shù)據(jù)實時性要求不高但數(shù)據(jù)量較大的數(shù)據(jù)。高校中數(shù)據(jù)集成的部門和需要集成數(shù)據(jù)項名稱如表1所示。
2.2 非結(jié)構(gòu)化數(shù)據(jù)采集
高校產(chǎn)生的數(shù)據(jù)大多是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),在進行數(shù)據(jù)采集時,將存儲于數(shù)據(jù)庫以外的數(shù)據(jù)作為非結(jié)構(gòu)化數(shù)據(jù)進行研究。高校中,將各種不同類型和格式的數(shù)據(jù)進行集成時,需要使用與非結(jié)構(gòu)化的數(shù)據(jù)相關聯(lián)的鍵或者標簽,這些非結(jié)構(gòu)化數(shù)據(jù)通常包含了與主數(shù)據(jù)相關的數(shù)據(jù)。通過分析包含了文本數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),可以將非結(jié)構(gòu)化的數(shù)據(jù)進行關聯(lián)。如圖所示,存儲在數(shù)據(jù)庫外部的數(shù)據(jù),如文檔、音頻、視頻文件,可以通過教師、學生、課程或者其它主數(shù)據(jù)引用進行搜索,將主數(shù)據(jù)引用作為元數(shù)據(jù)標簽附加到非結(jié)構(gòu)化數(shù)據(jù)上,在此基礎上實現(xiàn)與其它數(shù)據(jù)源和其它類型的數(shù)據(jù)進行集成。
3 數(shù)據(jù)分析
數(shù)據(jù)采集獲取到高校大數(shù)據(jù)之后,需要進行數(shù)據(jù)分析、挖掘工作。數(shù)據(jù)分析方式主要有兩種,一種是傳統(tǒng)的SPSS、SAS數(shù)據(jù)分析,另一種是采用大數(shù)據(jù)架構(gòu)及相關工具進行分析,如Hadoop、Spark。
大數(shù)分析技術(shù)可以應用于高校大數(shù)據(jù)的各個方面,分析結(jié)論也可以應用于教育、教學的多個方面。通過對學生成績數(shù)據(jù)、圖書借閱數(shù)據(jù)、課外活動數(shù)據(jù)、一卡通消費數(shù)據(jù)、體能測試數(shù)據(jù)進行分析,可以綜合性地分析學生的全面發(fā)展狀況;在以上基礎上,增加學生興趣數(shù)據(jù)、科學研究及實踐數(shù)據(jù)、就業(yè)數(shù)據(jù),可以分析得出各類學生對就業(yè)的方向選擇及社會對學生的認可程度,進而幫助學校在教學模式、培養(yǎng)方案上的優(yōu)化,更加準確高效地培養(yǎng)出更多優(yōu)秀的、為社會服務的高水平人才。
4 數(shù)據(jù)管理思考
從高校數(shù)據(jù)的來源及匯聚方面,高校中的數(shù)據(jù)很大一部分來源于各職能部門,而高校內(nèi)部對于各職能部門間數(shù)據(jù)資源規(guī)劃缺位、缺乏共享共建意識,導致了各部門建設進度不同、數(shù)據(jù)標準不統(tǒng)一,增加了數(shù)據(jù)資源共享共用的壁壘。因此,大量的數(shù)據(jù)分布在各個互相獨立的系統(tǒng)中,無法有效流動形成規(guī)模效應,數(shù)據(jù)價值得不到有效挖掘。
從大數(shù)據(jù)時代的數(shù)據(jù)管理思想上,傳統(tǒng)的數(shù)據(jù)管理只是采集基本數(shù)據(jù),使用數(shù)據(jù)自身含義,沒有利用數(shù)據(jù)的附加價值;而大數(shù)據(jù)時代的數(shù)據(jù)管理更強調(diào)數(shù)據(jù)之間的關聯(lián)性,主要研究數(shù)據(jù)間的關系,以挖掘內(nèi)在關系及預測為核心思想,通過對海量數(shù)據(jù)進行分析,得到未來發(fā)展趨勢或者推斷將來的可能性,進而為高校決策提供數(shù)據(jù)支持。
從大數(shù)據(jù)時代的隱私保護上,多項案例表明,即使無害的數(shù)據(jù)被大量收集后,也會暴露個人隱私。高校大數(shù)據(jù)覆蓋高校、學科、教師、學生的方方面面,如學校課程體系、學科目錄、教師的工資收入,學生的生活習慣、閱讀習慣、檢索習慣等。因此,需要在大數(shù)據(jù)采集、分析、決策開展的同時,做好用戶隱私的保護。
5 結(jié)論
綜上所述,大數(shù)據(jù)的出現(xiàn),給高校的數(shù)據(jù)整合和數(shù)據(jù)管理提供了技術(shù)支持。利用大數(shù)據(jù)技術(shù)做好高校數(shù)據(jù)管理工作,讓數(shù)據(jù)更好的為教學、科研、學生管理等提供決策支持,是大數(shù)據(jù)時代高校數(shù)據(jù)管理發(fā)展的方向。
【參考文獻】
[1]趙玉潔.大數(shù)據(jù)在高校教育信息化中的應用探究[J].中國教育信息化,2015,19:38-41.
[2]孫曼,王全.大數(shù)據(jù)及其處理架構(gòu)在高校中的應用探究[J].現(xiàn)代經(jīng)濟信息,2015,12:96+98.
[3]石峻峰,周俐霞,樊澤恒,王麗.大數(shù)據(jù)時代高校數(shù)字檔案資源管理研究[J].現(xiàn)代教育技術(shù),2015,01:19-24.
[4]向禹.高校檔案資源異構(gòu)數(shù)據(jù)采集研究與實現(xiàn)[J].農(nóng)業(yè)圖書情報學刊,2015,06:18-21.
[5]曾凌靜.大數(shù)據(jù)系統(tǒng)架構(gòu)及技術(shù)發(fā)展研究[J].石家莊學院學報,2015,06:38-43.
[6]余水清,潘黎萍.大數(shù)據(jù)管理-數(shù)據(jù)集成的技術(shù)、方法與最佳實踐[M].機械工業(yè)出版社,2014∶2-9.
[7]王益.數(shù)據(jù)中心信息交換平臺的研究與設計[J].中國教育信息化,2010,21:16-17.
[8]鄧佳,詹華清.莫納什大學科研數(shù)據(jù)管理實踐及對我國機構(gòu)知識庫建設的啟示[J].情報理論與實踐,2014,05:136-139.
[9]趙亮.大數(shù)據(jù)在高校教育信息化中的應用[J].黑龍江教育學院學報,2014,09:14-15.
[10]舒忠梅,屈瓊斐.大數(shù)據(jù)時代高校信息管理與決策機制研究[J].華南理工大學學報:社會科學版,2013,06:96-101.
[11]孫洪睿.高校數(shù)據(jù)信息平臺的研究與設計[J].應用科技,2009,07:41-46.
[12]陳琴,耿植.構(gòu)建高校信息管理數(shù)據(jù)倉庫[J].福建電腦,2008,03:183+159.
[13]潘奇.基于Hadoop技術(shù)的高校學生行為分析系統(tǒng)研究與實現(xiàn)[D].北京郵電大學,2015.
[責任編輯:楊玉潔]