進入2016年,在國家政策導向和大數(shù)據(jù)技術發(fā)展的整體趨勢下,“大數(shù)據(jù)”已經(jīng)成為最火熱的詞匯,引爆各行各業(yè)。上至國家戰(zhàn)略層面,下到大數(shù)據(jù)產(chǎn)業(yè)鏈的各個環(huán)節(jié),都開始對大數(shù)據(jù)進行研究與探索。作為人才的高地與源頭,中國教育領域的大數(shù)據(jù)建設也迅速提上議程,成為今年教育信息化最熱的話題。
那么教育行業(yè)該如何根據(jù)自身特性去建設、落地教育大數(shù)據(jù),大數(shù)據(jù)到底能為現(xiàn)代教育帶來怎樣的價值與效益?在此,本人根據(jù)三盟科技近幾年在教育大數(shù)據(jù)上取得的一些研發(fā)成果、教育大數(shù)據(jù)應用落地過程中遇到的問題及建設方法經(jīng)驗,淺談一下教育大數(shù)據(jù)到底該如何真正落地,并與業(yè)內(nèi)同仁共同分享,一起探討,共同助力教育大數(shù)據(jù)快速健康良性發(fā)展。
教育大數(shù)據(jù)整體建設流程
如上圖所示,教育大數(shù)據(jù)能夠真正落地,主要經(jīng)歷了對數(shù)據(jù)源層數(shù)據(jù)的采集整理、大數(shù)據(jù)平臺的搭建、業(yè)務的開發(fā),然后通過移動APP、電腦、短信、微信、郵件等方式為具體的教育用戶服務。
數(shù)據(jù)源層數(shù)據(jù)的采集整理
教育大數(shù)據(jù)系統(tǒng)的構建基于學校沉淀的數(shù)據(jù),只有將學校散落在各個系統(tǒng)里的數(shù)據(jù)進行集中采集,統(tǒng)一存儲,然后進行深度挖掘和分析,才能真正讓這些數(shù)據(jù)為教育教學和管理所用,服務到教育用戶。
目前,數(shù)據(jù)源層的數(shù)據(jù)主要來自校內(nèi)管理、校內(nèi)教學、校內(nèi)硬件和互聯(lián)網(wǎng)絡四個層面。其中校內(nèi)管理、校內(nèi)教學業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù),以結構化為主,是學校管理教學的核心數(shù)據(jù),現(xiàn)階段很多高校自建的數(shù)據(jù)分析平臺,數(shù)字化校園廠商提供的大數(shù)據(jù)服務主要是基于這部分數(shù)據(jù);校內(nèi)硬件設備、互聯(lián)網(wǎng)上的數(shù)據(jù),包含了大量的半結構化和非結構化數(shù)據(jù),也是數(shù)據(jù)源極其重要的一部分,是現(xiàn)在教育大數(shù)據(jù)發(fā)展的重要方向。
大數(shù)據(jù)平臺的搭建
在完成數(shù)據(jù)的采集以后,需要把采集到的四類數(shù)據(jù)統(tǒng)一存儲到大數(shù)據(jù)平臺,然后對這些采集到的數(shù)據(jù)進行清洗、整理、轉(zhuǎn)換,統(tǒng)一標準,接口封裝,最后提供統(tǒng)一的對外接口,為具體的大數(shù)據(jù)業(yè)務提供所需的數(shù)據(jù)。
考慮到所采集的數(shù)據(jù)特性,統(tǒng)一的大數(shù)據(jù)平臺需要包括結構化數(shù)據(jù)中心和非結構化數(shù)據(jù)中心兩個部分,同時要求數(shù)據(jù)倉庫平臺是分步式,并且是多數(shù)據(jù)庫整合模式,以滿足高校多種類型的數(shù)據(jù)源,較高的數(shù)據(jù)處理和存儲要求,以及新增數(shù)據(jù)的持續(xù)擴展。同時還需要支持圖形化管理,用于校內(nèi)管理人員日常運維管理。
大數(shù)據(jù)業(yè)務開發(fā)
大數(shù)據(jù)業(yè)務的開發(fā)可以說是大數(shù)據(jù)能為教育行業(yè)真正所用的最重要的一環(huán),只有結合每個學校的特性與需求,開發(fā)出所需的業(yè)務應用模塊,我們的學校管理者、教師、學生才能真正感受到大數(shù)據(jù)的存在,才能利用大數(shù)據(jù)去變革傳統(tǒng)教育教學管理模式,為學校各級領導、教師、學生帶來宏觀層面以及微觀個體的綜合服務。
目前,三盟科技主要研發(fā)出了“學校概況”、“我的大學”、“行為畫像”、“綜合預警”、“輿情分析”、“招生就業(yè)”和“安全大數(shù)據(jù)”等七大業(yè)務應用模塊,分別從教學就業(yè)、學生服務、學校管理三大維度,為學校構建了整體的大數(shù)據(jù)環(huán)境,實現(xiàn)了“因材施教”的個性化教學、全校可視化和預測性管理,學生綜合性和精準性的就業(yè)服務等,充分利用和呈現(xiàn)了大數(shù)據(jù)在教育行業(yè)的應用價值,構建了持續(xù)化的發(fā)展能力。
特別值得一提的是,由于高校各部門需求差異大,因此高校大數(shù)據(jù)講究標準化與開放性,以便各類公司、學校部門師生均可以參與,共同開發(fā)出所需的大數(shù)據(jù)分析業(yè)務。2016年開始流行的高校大數(shù)據(jù)服務大廳理念,可以預見其將成為未來的發(fā)展趨勢。高校大數(shù)據(jù)服務大廳除了提供大數(shù)據(jù)分析結果服務外,還能夠提供原始數(shù)據(jù)服務,因此技術上需要大數(shù)據(jù)倉庫平臺提供統(tǒng)一的服務接口。學校老師、各類公司不用關心數(shù)據(jù)存儲的具體位置,也不需要學習Oracle、hadoop等數(shù)據(jù)庫,只需要使用最簡單的SQL語句就可以調(diào)用整個數(shù)據(jù)倉庫的相關數(shù)據(jù),進行大數(shù)據(jù)業(yè)務的開發(fā);開發(fā)出的大數(shù)據(jù)分析業(yè)務,通過電腦、手機、郵件等現(xiàn)階段主流方式,為學校用戶、校外社會用戶提供服務。
教育大數(shù)據(jù)具體實現(xiàn)技術
教育大數(shù)據(jù)真正應用與落地,在技術實現(xiàn)層面,主要涉及到大數(shù)據(jù)建設的五大關鍵領域,包括數(shù)據(jù)采集、清洗和質(zhì)量管理、存儲及建模、分析及挖掘、展現(xiàn)和應用,同時涉及整個軟硬件環(huán)境和安全保障整體性設計。 由于篇幅有限,在這里,我們主要談一下數(shù)據(jù)的采集、清洗和建模三個部分:
數(shù)據(jù)采集
教育大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)源分為業(yè)務系統(tǒng)、硬件設備、互聯(lián)網(wǎng)三大類,數(shù)據(jù)格式類型豐富;每類數(shù)據(jù)源的數(shù)據(jù)量大小和數(shù)據(jù)質(zhì)量差異很大,需要采用不同的存儲技術;同時還面臨業(yè)務系統(tǒng)間獨立建設、相互割裂、數(shù)據(jù)標準不統(tǒng)一、數(shù)據(jù)接口難協(xié)調(diào)等問題。因此,教育領域的大數(shù)據(jù)系統(tǒng)需要根據(jù)數(shù)據(jù)特點和應用要求,定制設計大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)采集方案,規(guī)劃和設計每個系統(tǒng)的采集方式、采集頻率、存儲方式和采集時間等。
針對高校數(shù)據(jù)類型豐富、應用服務復雜、數(shù)據(jù)特點差異大等情況,三盟科技開發(fā)了一套數(shù)據(jù)采集工具,對當前已經(jīng)構建的信息系統(tǒng)、硬件設備和互聯(lián)網(wǎng)的數(shù)據(jù)進行采集。數(shù)據(jù)采集的接口包括DB接口、Socket接口、Webservice接口、Syslog接口等,在這過程中對采集到的數(shù)據(jù)進行質(zhì)量監(jiān)控和管理。對于非系統(tǒng)化的數(shù)據(jù),比如表格、文字等,可以通過人工方式錄入到大數(shù)據(jù)系統(tǒng)??傮w而言,數(shù)據(jù)采集包括系統(tǒng)專有接口、數(shù)據(jù)庫接口、網(wǎng)絡爬蟲和手工導入四種方式,具體采集方式的選擇原則如下:
接口讀取
對于實時性要求較高的系統(tǒng),需要通過接口進行采集,如一卡通、上網(wǎng)行為審計、認證計費設備等。
數(shù)據(jù)庫獲取
對于靜態(tài)性強的系統(tǒng),如教務系統(tǒng),可以采用數(shù)據(jù)庫讀取的方式,但是這種方式工作量較大,而且實時性不高。
網(wǎng)絡爬蟲
互聯(lián)網(wǎng)上的數(shù)據(jù),如新浪微博、當當網(wǎng)、就業(yè)網(wǎng)站等。
人工導入
非系統(tǒng)的數(shù)據(jù)可以人工導入大數(shù)據(jù)系統(tǒng)。
目前,很多學校已經(jīng)建設了數(shù)據(jù)交換平臺,整合了高校常見的業(yè)務數(shù)據(jù)。因此,這類學校可以通過數(shù)字化校園廠家提供的數(shù)據(jù)字典或者視圖,直接從數(shù)據(jù)交換平臺中獲得所需要的相關數(shù)據(jù)。
數(shù)據(jù)清洗
由于學校數(shù)據(jù)源缺乏有效的數(shù)據(jù)分析技術,同時在數(shù)據(jù)錄入時,可能會存在因輸入錯誤、數(shù)據(jù)來源不同而導致的各類“臟數(shù)據(jù)”,所以,通過數(shù)據(jù)清洗,對“臟數(shù)據(jù)”進行剔除或修正,提高整體數(shù)據(jù)質(zhì)量顯得十分必要。
教育數(shù)據(jù)清洗的對象主要包括傳統(tǒng)的關系型數(shù)據(jù)庫,XML半結構化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結構化數(shù)據(jù)。常見的數(shù)據(jù)問題主要包含殘缺數(shù)據(jù)、錯誤數(shù)據(jù)和重復數(shù)據(jù)三大類。由于學校業(yè)務系統(tǒng)之間數(shù)據(jù)源的差異性,這就需要根據(jù)實際情況定制出適合該校的數(shù)據(jù)清洗規(guī)則和流程,從而保障數(shù)據(jù)質(zhì)量。以下是高校數(shù)據(jù)源清洗的通用流程:
1、分析數(shù)據(jù)源的數(shù)據(jù)是否滿足業(yè)務規(guī)則和定義,是否存在非正常的數(shù)據(jù)結構;
2、讀取采集后的結果集,進行數(shù)據(jù)屬性適配;
3、獲取數(shù)據(jù)清洗規(guī)則;
4、進行數(shù)據(jù)匹配;
5、正常數(shù)據(jù)放入清洗結果集,異常數(shù)據(jù)放入異常結果集;
6、把結果集入庫,并記錄清洗結果。
數(shù)據(jù)建模
數(shù)據(jù)建模是抽象描述現(xiàn)實世界的一種工具和方法,是通過抽象組織實體及實體之間聯(lián)系,來表示現(xiàn)實世界中事務相互關系的一種映射。數(shù)據(jù)模型是整個數(shù)據(jù)底層建設中的關鍵部分,數(shù)據(jù)倉庫的數(shù)據(jù)模型架構與數(shù)據(jù)倉庫的整體架構緊密關聯(lián),不僅是對業(yè)務進行抽象劃分,更是對實現(xiàn)技術進行具體的指導,它涵蓋了從業(yè)務到技術實現(xiàn)的各個部分;根據(jù)數(shù)據(jù)建模分階段的設計,數(shù)據(jù)倉庫的數(shù)據(jù)建模一般分為業(yè)務建模、概念建模、邏輯建模、物理建模四個階段:
第一階段:業(yè)務建模
劃分高校業(yè)務,一般按照業(yè)務部門(如后勤處、教務處、圖書館等)劃分,并界定各部門之間的業(yè)務工作、理清部門之間的關系。
深入了解各業(yè)務部門的具體業(yè)務流程并將其程序化。
提出改進業(yè)務部門工作流程的方法并程序化。
數(shù)據(jù)建模的范圍界定,數(shù)據(jù)倉庫項目的目標和階段劃分。
第二階段:概念建模
抽取關鍵業(yè)務概念,并將之抽象化。
將業(yè)務概念分組,按照業(yè)務主線聚合類似的分組概念。
細化分組概念,理清分組概念內(nèi)的業(yè)務流程并抽象化。
理清分組概念之間的關聯(lián),形成完整的概念模型。
第三階段:邏輯建模
業(yè)務概念實體化,并考慮其屬性內(nèi)容。
事件實體化,并考慮其屬性內(nèi)容。
說明實體化,并考慮其屬性內(nèi)容。
第四階段:物理建模
針對特定物理化平臺,做出相應的技術調(diào)整。
針對模型的性能考慮,調(diào)整Hadoop平臺與Mysql平臺。
根據(jù)管理需要,結合特定平臺,做出相應的調(diào)整。
生成最后的數(shù)據(jù)結構實例并完善。
在教育大數(shù)據(jù)建設中,數(shù)據(jù)建模設計要將學校的一卡通、教工、圖書館、后勤管理、科研等現(xiàn)有數(shù)據(jù)系統(tǒng)進行統(tǒng)一整合。不同業(yè)務系統(tǒng)均有各自固有的數(shù)據(jù)模型,為了讓數(shù)據(jù)模型更好地適應現(xiàn)有環(huán)境、具備較好的數(shù)據(jù)處理速度,數(shù)據(jù)原型可采用雪花模型或范式模型進行設計。根據(jù)上圖的設計方法,教育大數(shù)據(jù)系統(tǒng)設計的核心共享庫、分析庫與采集庫均遵循上述方法進行數(shù)據(jù)建模與數(shù)據(jù)實例的建立。
以上便是教育大數(shù)據(jù)落地過程中涉及到的部分技術。當然,影響教育大數(shù)據(jù)真正落地的因素有很多,這里只談到了很少的一部分,而且還存在很多未知的領域,有待我們?nèi)ス餐接???傊痪湓?,教育大?shù)據(jù)發(fā)展?jié)摿薮?,實施落地意義重大,將為我們的傳統(tǒng)教育變革帶來無限可能。