陳迎春
(中共青海省委黨校,青海 西寧 810001)
隨著當(dāng)前大數(shù)據(jù)和云計(jì)算技術(shù)的迅猛發(fā)展,建設(shè)智慧校園是學(xué)校教育信息化發(fā)展的必然趨勢(shì),數(shù)字校園已經(jīng)不能適應(yīng)當(dāng)下校園綜合管理。我們必須在智慧校園建設(shè)中利用云計(jì)算的快速運(yùn)算能力實(shí)現(xiàn)大數(shù)據(jù)的最大價(jià)值。這是一個(gè)長(zhǎng)期的積累和應(yīng)用過(guò)程,然而現(xiàn)在許多學(xué)校對(duì)這些海量重要數(shù)據(jù)的認(rèn)識(shí)不足,重視程度也欠缺,造成了數(shù)據(jù)的流失和孤島情況嚴(yán)重。在這種情況下,智慧校園頂層設(shè)計(jì)中大數(shù)據(jù)平臺(tái)的建設(shè)顯得尤為重要。
本文主要介紹智慧校園大數(shù)據(jù)平臺(tái)的建設(shè)框架及其技術(shù)實(shí)現(xiàn)。
智慧校園中的數(shù)據(jù)以TB甚至PB數(shù)量級(jí)計(jì),這樣的海量數(shù)據(jù)通過(guò)Internet傳輸耗時(shí)長(zhǎng)且慢,過(guò)程中數(shù)據(jù)很易丟失,必須以High-Performance Networks為基礎(chǔ)進(jìn)行傳輸,將數(shù)據(jù)傳送于一個(gè)大的云服務(wù)集群進(jìn)行信息的存儲(chǔ)、管理和應(yīng)用。
1)語(yǔ)境搜索:主要實(shí)現(xiàn)對(duì)文本檔案類數(shù)據(jù)進(jìn)行高速索引,同時(shí)在深度信息整合的基礎(chǔ)上實(shí)現(xiàn)上下文的進(jìn)一步搜索。
2)數(shù)據(jù)倉(cāng)庫(kù):主要功能是對(duì)文本檔案類信息按照既定規(guī)律進(jìn)行合理搜集存儲(chǔ),實(shí)行數(shù)據(jù)分析。建立數(shù)據(jù)倉(cāng)庫(kù)的主要目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為領(lǐng)導(dǎo)層提供決策支持。其基本架構(gòu)主要包含的是數(shù)據(jù)出入過(guò)程,分為三層:召數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用。它本身既不“生產(chǎn)”數(shù)據(jù)也不“消費(fèi)”數(shù)據(jù),數(shù)據(jù)純粹來(lái)源于外部且應(yīng)用于外部,真正體現(xiàn)了“倉(cāng)庫(kù)”的真實(shí)含義。
3)HdooP系統(tǒng):基于x86服務(wù)器本地的計(jì)算與存儲(chǔ)資源,是一個(gè)分布式基礎(chǔ)架構(gòu),實(shí)現(xiàn)分布式文件系統(tǒng),提供分布式并行計(jì)算、低成本存儲(chǔ)和低時(shí)延高迸發(fā)的查詢功能,其集群可以擴(kuò)展到上千臺(tái)服務(wù)器。適合對(duì)大數(shù)據(jù)進(jìn)行經(jīng)濟(jì)高效的分析,尤其是對(duì)PB級(jí)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的收集、提取和分析處理。
智慧校園的大數(shù)據(jù)服務(wù)中心主要以分布式存儲(chǔ)與云計(jì)算為核心技術(shù),通過(guò)Hadoop、Map Reduce等技術(shù)作為平臺(tái)搭建技術(shù)實(shí)現(xiàn)基礎(chǔ),存儲(chǔ)和處理學(xué)校日常產(chǎn)生的巨量復(fù)雜數(shù)據(jù)。通過(guò)對(duì)品種繁多的核心大數(shù)據(jù)的深度分析和挖掘,經(jīng)由智慧校園系統(tǒng)的各種上層應(yīng)用,從技術(shù)層面和管理層面提升學(xué)校教學(xué)的工作效率,管理水平進(jìn)一步得以提升。
根據(jù)校園的大數(shù)據(jù)特點(diǎn),所有分布式文件(包含流媒體文件、文本文件、辦公檔案類等常見(jiàn)文件格式在內(nèi)的)必須依據(jù)一定的規(guī)律規(guī)則規(guī)范存儲(chǔ),并利用大數(shù)據(jù)云計(jì)算技術(shù)在分布式文件系統(tǒng)上提供分布式快速計(jì)算功能。其主要目標(biāo)包括三方面:一是定義校園內(nèi)部大數(shù)據(jù)標(biāo)準(zhǔn);二是標(biāo)準(zhǔn)化規(guī)范化后續(xù)數(shù)據(jù)存儲(chǔ);三是、對(duì)數(shù)據(jù)進(jìn)行管理和 應(yīng)用。
主要用途是存儲(chǔ)來(lái)自四面八方的各類大數(shù)據(jù),為智慧校園應(yīng)用模塊之間提供標(biāo)準(zhǔn)的可共享訪問(wèn)接口的大數(shù)據(jù)服務(wù),包括來(lái)源于關(guān)系型數(shù)據(jù)庫(kù)、各種日志文件、校園集群、學(xué)員論壇、課件文檔數(shù)據(jù)和相關(guān)教育數(shù)據(jù)等。分布式數(shù)據(jù)庫(kù)的核心目標(biāo)是建立大數(shù)據(jù)集群存儲(chǔ),實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)和均衡計(jì)算能力負(fù)載,集中對(duì)外提供大數(shù)據(jù)服務(wù)。
主要是利用非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)ETL工具、在實(shí)現(xiàn)大數(shù)據(jù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘展示服務(wù)的基礎(chǔ)上.充分保障處理后的目標(biāo)大數(shù)據(jù)結(jié)果無(wú)縫對(duì)接學(xué)?,F(xiàn)有數(shù)據(jù)資源和網(wǎng)絡(luò)數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換過(guò)程如下圖 所示。
1)通用數(shù)據(jù)采集接口。支持各種類型數(shù)據(jù)的數(shù)據(jù)采集、入場(chǎng)。支持主流關(guān)系型數(shù)據(jù)庫(kù)(Oracal、Mysql等數(shù)據(jù)庫(kù))、半結(jié)構(gòu)化數(shù)據(jù)庫(kù)數(shù)據(jù)采集(Excel、MDB、XML等文件數(shù)據(jù)采集),非結(jié)構(gòu)文本及辦公類文件采集(TXT、word、電子圖書等主流文檔格式),還支持WEB數(shù)據(jù)抓取,并提供二次開(kāi)發(fā)接口。
2)通用數(shù)據(jù)共享接口。為智慧校園應(yīng)用系統(tǒng)和數(shù)據(jù)庫(kù)提供基于大數(shù)據(jù)平臺(tái)的共享接口(數(shù)據(jù)訪問(wèn)標(biāo)準(zhǔn)接口、核心應(yīng)用封裝接口和出入數(shù)據(jù)接口等);提供數(shù)據(jù)服務(wù)用于二次開(kāi)發(fā)接口。
3)通用數(shù)據(jù)服務(wù)接口。為智慧校園用戶提供基于大數(shù)據(jù)中心的數(shù)據(jù)服務(wù)接口(WEB應(yīng)用訪問(wèn)、微信、一卡通、身份認(rèn)證、APP等);保障二次開(kāi)發(fā)接口滿足特定服務(wù)。
在智慧校園的建設(shè)過(guò)程中,學(xué)校管理者一定要有前瞻性,充分意識(shí)到信息化建設(shè)初期頂層設(shè)計(jì),尤其是數(shù)據(jù)中心的整理、規(guī)劃、設(shè)計(jì)的重要性,有組織有步驟地推動(dòng)智慧校園建設(shè)。建議成立以校領(lǐng)導(dǎo)為核心的智慧校園建設(shè)領(lǐng)導(dǎo)小組,全程參與項(xiàng)目的規(guī)劃、實(shí)施和管理,全面組織、協(xié)調(diào)學(xué)校各類綜合資源,傾力推進(jìn)智慧校園建設(shè)。但是我們也要理性地看到,由于技術(shù)上、思想上和人員配置上的問(wèn)題以及學(xué)校信息化的特殊性,智慧校園建設(shè)仍然面臨著許多困難與挑戰(zhàn),需要我們?cè)趯?shí)踐中不斷發(fā)現(xiàn)問(wèn)題、總結(jié)問(wèn)題。