羅云芳,唐運(yùn)樂(lè),閔金花
(1.廣西職業(yè)技術(shù)學(xué)院,廣西 南寧 530226;2.南寧師范大學(xué)師園學(xué)院,廣西 南寧 530226)
大數(shù)據(jù)等新一代信息技術(shù)已成為推動(dòng)各領(lǐng)域創(chuàng)新、改革與發(fā)展的新動(dòng)力。我國(guó)的教育大數(shù)據(jù)發(fā)展戰(zhàn)略,目的是通過(guò)成立研究機(jī)構(gòu)和設(shè)置相關(guān)機(jī)制,研究和推動(dòng)大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用,利用大數(shù)據(jù)為教育的改革與發(fā)展賦能,使大數(shù)據(jù)成為教育改革與發(fā)展的新引擎[1]。隨著校園信息化建設(shè)的迅速發(fā)展,教育數(shù)據(jù)大量產(chǎn)生。構(gòu)建融基礎(chǔ)數(shù)據(jù)采集、存儲(chǔ)計(jì)算和數(shù)據(jù)的分析、挖掘、應(yīng)用于一體的高校教育大數(shù)據(jù)平臺(tái)成為了實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)數(shù)據(jù)融合,消除信息孤島,助推教育創(chuàng)新、改革與發(fā)展的重要保障手段[2]。目前各高校尚未構(gòu)建能有效驅(qū)動(dòng)教育改革與發(fā)展的完整的大數(shù)據(jù)平臺(tái)架構(gòu)。將教育改革與發(fā)展的關(guān)鍵問(wèn)題與當(dāng)前前沿的大數(shù)據(jù)技術(shù)相結(jié)合,在此基礎(chǔ)上研究高校教育大數(shù)據(jù)平臺(tái)的構(gòu)建,進(jìn)一步完善智慧校園技術(shù)體系,具有很好的現(xiàn)實(shí)意義。
根據(jù)大數(shù)據(jù)概念,教育大數(shù)據(jù)指的是教育教學(xué)過(guò)程中產(chǎn)生的結(jié)構(gòu)化和非結(jié)構(gòu)化的,需要借助分布式存儲(chǔ)管理等新處理模式和新技術(shù)才能管理、分析和挖掘其價(jià)值的高速增長(zhǎng)的具有多樣化、低密度價(jià)值的數(shù)據(jù)信息[3]。大數(shù)據(jù)新處理模式和新技術(shù)主要包括Hadoop分布式集群、HDFS分布式文件系統(tǒng)、HBase分布式數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、認(rèn)知計(jì)算等存儲(chǔ)和分析挖掘算法[4]。對(duì)高校而言,高校大數(shù)據(jù)即是高校在教育管理、教學(xué)和科研活動(dòng)中產(chǎn)生的,對(duì)推動(dòng)高校教育教學(xué)改革、綜合管理、發(fā)展規(guī)劃和決策等具有巨大價(jià)值的信息數(shù)據(jù)。目前高校產(chǎn)生的大數(shù)據(jù)主要包括學(xué)生的基本信息(如選課、成績(jī)、教材、食堂消費(fèi)、網(wǎng)絡(luò)行為等),教師基本信息、科研基本信息、教學(xué)相關(guān)信息等,這些數(shù)據(jù)孤立地存儲(chǔ)在各獨(dú)立的信息系統(tǒng)中,且呈現(xiàn)出數(shù)據(jù)來(lái)源多元化、數(shù)據(jù)類型多樣化、數(shù)據(jù)異構(gòu)維度高和數(shù)據(jù)整體價(jià)值高等特性[5]。要充分挖掘出這些數(shù)據(jù)的潛在價(jià)值,新構(gòu)建的高校教育大數(shù)據(jù)平臺(tái)需具備如下功能:一要能對(duì)歷史數(shù)據(jù)進(jìn)行有效的融合存儲(chǔ),二要能對(duì)新產(chǎn)生的數(shù)據(jù)進(jìn)行規(guī)范統(tǒng)一的整體性存儲(chǔ)。因此,在構(gòu)建高校教育大數(shù)據(jù)平臺(tái)時(shí)需重點(diǎn)圍繞“管理+治理+應(yīng)用”三方面對(duì)高校教育大數(shù)據(jù)存在的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)源頭多樣化、數(shù)據(jù)不同步、數(shù)據(jù)存儲(chǔ)分散等問(wèn)題進(jìn)行處理,具體的措施有:從信息服務(wù)頂層切入,制定數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn),對(duì)歷史數(shù)據(jù)進(jìn)行充分地清洗;確定數(shù)據(jù)產(chǎn)生的唯一性歸口和數(shù)據(jù)訪問(wèn)統(tǒng)一接口;對(duì)錯(cuò)誤和殘缺的數(shù)據(jù)進(jìn)行解析、關(guān)聯(lián)、清洗和交換,提升數(shù)據(jù)質(zhì)量;構(gòu)建標(biāo)準(zhǔn)的數(shù)據(jù)交換接口和利用ODI等工具建設(shè)數(shù)據(jù)交換平臺(tái)中間件,提高數(shù)據(jù)共享水平;對(duì)數(shù)據(jù)采集、管理和應(yīng)用的全過(guò)程進(jìn)行規(guī)范管理,完善數(shù)據(jù)維度,實(shí)現(xiàn)數(shù)據(jù)全量融合與綜合分析。
構(gòu)建高校教育大數(shù)據(jù)平臺(tái)可形成統(tǒng)一的中心數(shù)據(jù)庫(kù),通過(guò)有效的數(shù)據(jù)挖掘,可為高校學(xué)生的個(gè)人學(xué)習(xí)與發(fā)展,教師的教學(xué)、科研與職業(yè)發(fā)展,學(xué)校的教育教學(xué)管理(如網(wǎng)絡(luò)教學(xué)管理、專業(yè)診斷改進(jìn)和規(guī)劃建設(shè)等)提供強(qiáng)大的數(shù)據(jù)支持。高校教育大數(shù)據(jù)平臺(tái)應(yīng)具有如下功能:(1)提供連接各應(yīng)用系統(tǒng)數(shù)據(jù)的采集接口,實(shí)現(xiàn)結(jié)構(gòu)化、非結(jié)構(gòu)化和實(shí)時(shí)行為數(shù)據(jù)的采集、存儲(chǔ)和融合;(2)綜合利用HDFS、HBase等分布式存儲(chǔ)系統(tǒng),實(shí)現(xiàn)各類型、各形式數(shù)據(jù)的存儲(chǔ),并提供高容錯(cuò)和高吞吐的管理與快速查詢功能;(3)根據(jù)上層分析、挖掘和應(yīng)用的需要,提供并行計(jì)算、實(shí)時(shí)計(jì)算和圖式計(jì)算等算法,實(shí)現(xiàn)海量數(shù)據(jù)的分析、挖掘、計(jì)算和應(yīng)用;(4)根據(jù)高校教育教學(xué)管理、規(guī)劃發(fā)展和決策需要,提供分析、挖掘模型和算法。高校教育大數(shù)據(jù)平臺(tái)應(yīng)覆蓋從數(shù)據(jù)采集、存儲(chǔ)計(jì)算、分析挖掘到具體應(yīng)用的全過(guò)程,其構(gòu)建總體架構(gòu)如圖1所示。
圖1 高校教育大數(shù)據(jù)平臺(tái)總體架構(gòu)
高校教育數(shù)據(jù)包括三類。第一類是以結(jié)構(gòu)化形式存儲(chǔ)于教務(wù)管理系統(tǒng)、科研管理系統(tǒng)、教學(xué)診斷與改進(jìn)管理系統(tǒng)、一卡通系統(tǒng)、實(shí)踐教學(xué)管理系統(tǒng)和就業(yè)管理系統(tǒng)等各類業(yè)務(wù)管理系統(tǒng)中的數(shù)據(jù);第二類是在教育教學(xué)過(guò)程中產(chǎn)生的圖形、音頻、視頻和文檔等非結(jié)構(gòu)化數(shù)據(jù),如音視頻素材文件、Excel文件、PPT文件、PDF文件等;第三類是智慧教室等系統(tǒng)采集的實(shí)時(shí)行為數(shù)據(jù),如教學(xué)過(guò)程中產(chǎn)生的演示和指導(dǎo)等行為數(shù)據(jù),學(xué)習(xí)過(guò)程中產(chǎn)生的答題和在課堂中討論等行為數(shù)據(jù)。
高校教育大數(shù)據(jù)平臺(tái)數(shù)據(jù)的采集主要包括對(duì)原來(lái)各業(yè)務(wù)管理系統(tǒng)中數(shù)據(jù)的采集和對(duì)實(shí)時(shí)產(chǎn)生的數(shù)據(jù)的采集兩種:對(duì)原來(lái)業(yè)務(wù)管理系統(tǒng)中數(shù)據(jù)的采集一般通過(guò)直接讀取數(shù)據(jù)庫(kù)記錄、公開接口處理或批量導(dǎo)入等方式實(shí)現(xiàn);教學(xué)等實(shí)時(shí)數(shù)據(jù)的采集則通過(guò)Agent技術(shù)來(lái)實(shí)現(xiàn);對(duì)于非數(shù)字化數(shù)據(jù)可采用圖像識(shí)別等技術(shù)來(lái)實(shí)現(xiàn)采集。
數(shù)據(jù)存儲(chǔ)層是以Hadoop技術(shù)為基礎(chǔ),利用Hadoop分布式計(jì)算框架和服務(wù)器硬件構(gòu)建起來(lái)的能提供HBase、Hive等標(biāo)準(zhǔn)大數(shù)據(jù)服務(wù),能完成高可靠、高容錯(cuò)和高吞吐的復(fù)雜分析挖掘任務(wù)的具有高可靠性和高可擴(kuò)展性的并行分布式系統(tǒng),可實(shí)現(xiàn)和滿足不同數(shù)據(jù)結(jié)構(gòu)和不同存儲(chǔ)方式的高校教育大數(shù)據(jù)的匯集和海量存儲(chǔ)需求,為數(shù)據(jù)挖掘?qū)犹峁┯行У臄?shù)據(jù)存儲(chǔ)服務(wù)。
高校大數(shù)據(jù)的分析、挖掘和應(yīng)用主要包括教學(xué)和管理兩大方面,具體涉及教學(xué)分析、學(xué)習(xí)分析、專業(yè)診斷分析、科研分析、學(xué)生行為分析和規(guī)劃決策分析等內(nèi)容,主要涉及兩個(gè)大方向的技術(shù)。一是根據(jù)數(shù)據(jù)挖掘的新需求,設(shè)計(jì)新的挖掘模型;二是通過(guò)數(shù)據(jù)挖掘,解決當(dāng)前教育大數(shù)據(jù)在應(yīng)
用中存在的核心問(wèn)題,涉及的技術(shù)主要包括關(guān)聯(lián)、聚類、時(shí)序、回歸、語(yǔ)義等。
數(shù)據(jù)挖掘的目的是找出其中的價(jià)值,而價(jià)值則體現(xiàn)在具體應(yīng)用之中。如針對(duì)學(xué)生數(shù)據(jù)的挖掘,通過(guò)對(duì)學(xué)生的學(xué)習(xí)規(guī)律、生活規(guī)律、心理、知識(shí)技能和素質(zhì)等數(shù)據(jù)進(jìn)行深入挖掘,可形成學(xué)生在未來(lái)學(xué)習(xí)表現(xiàn)、心理問(wèn)題、在校成長(zhǎng)軌跡和就業(yè)崗位匹配等方面的精準(zhǔn)畫像;對(duì)教師數(shù)據(jù)的挖掘,可形成教師在教學(xué)、科研等方面的精準(zhǔn)畫像,幫助教師改進(jìn)教學(xué)方式方法,發(fā)現(xiàn)科研中存在的問(wèn)題,助力教師提升科研能力,做好項(xiàng)目研究工作等。對(duì)專業(yè)發(fā)展的診斷分析,可以找出制約專業(yè)改革與發(fā)展的核心問(wèn)題,形成專業(yè)改進(jìn)方案,促進(jìn)專業(yè)改革與發(fā)展,此外,還可對(duì)學(xué)校均衡發(fā)展等問(wèn)題進(jìn)行分析、挖掘與預(yù)測(cè)。
平臺(tái)數(shù)據(jù)的采集主要通過(guò)兩種渠道實(shí)現(xiàn)。一是對(duì)接原有各業(yè)務(wù)管理系統(tǒng),將各業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)統(tǒng)一存儲(chǔ)到大數(shù)據(jù)中心倉(cāng)庫(kù),可在制定數(shù)據(jù)存取標(biāo)準(zhǔn)的基礎(chǔ)上,通過(guò)直接讀取業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)庫(kù)、數(shù)據(jù)處理接口API對(duì)接等方式實(shí)現(xiàn);二是直接采集存儲(chǔ)于數(shù)據(jù)中心倉(cāng)庫(kù)的行為數(shù)據(jù),本大數(shù)據(jù)平臺(tái)采用Flume技術(shù)實(shí)現(xiàn)對(duì)行為數(shù)據(jù)的采集。利用Flume實(shí)現(xiàn)行為數(shù)據(jù)采集的處理過(guò)程如圖2所示。采集具體過(guò)程是行為對(duì)象觸發(fā)產(chǎn)生事件對(duì)象對(duì)行為根據(jù)的采集。事件監(jiān)聽器監(jiān)聽到事件后,對(duì)應(yīng)事件處理器就會(huì)采集行為對(duì)象的數(shù)據(jù),匯聚采集的數(shù)據(jù)后推送給服務(wù)器接收組件,服務(wù)器接收組件處理后將數(shù)據(jù)存入到數(shù)據(jù)緩存組件中,然后通過(guò)數(shù)據(jù)分發(fā)組件將存儲(chǔ)于緩存組件中的數(shù)據(jù)發(fā)送到Kafka消息隊(duì)列中。
圖2 行為數(shù)據(jù)采集處理過(guò)程
歷史數(shù)據(jù)都分布存儲(chǔ)于各業(yè)務(wù)管理系統(tǒng)中,在對(duì)歷史數(shù)據(jù)進(jìn)行采集抽取、清洗過(guò)濾、數(shù)據(jù)轉(zhuǎn)換、關(guān)聯(lián)分析、知識(shí)點(diǎn)獲取和構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)后將其存儲(chǔ)到大數(shù)據(jù)倉(cāng)庫(kù)中。結(jié)合數(shù)據(jù)顆粒度原理,按學(xué)生、教師、專業(yè)等不同應(yīng)用主題和行為分析需求進(jìn)行數(shù)據(jù)組織,本研究設(shè)計(jì)的高校教育大數(shù)據(jù)平臺(tái)數(shù)據(jù)存儲(chǔ)倉(cāng)庫(kù)設(shè)計(jì)結(jié)構(gòu)如圖3所示。
高校教育大數(shù)據(jù)涉及到結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù),其數(shù)據(jù)來(lái)源和體量都已超越小規(guī)模數(shù)據(jù)范疇[6]。對(duì)于教育大數(shù)據(jù)的存儲(chǔ)和管理,利用Hadoop技術(shù)構(gòu)建分布式集群和分布式存儲(chǔ),并實(shí)現(xiàn)存儲(chǔ)和計(jì)算一體化。在數(shù)據(jù)存儲(chǔ)方面,利用HDFS存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),利用HBase和Hive存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),利用Kafka和Redis緩存經(jīng)常處理和需要快速響應(yīng)的數(shù)據(jù)。在并行計(jì)算方面,利用MapReduce進(jìn)行大規(guī)模數(shù)據(jù)集計(jì)算,利用Spark技術(shù)實(shí)現(xiàn)流式數(shù)據(jù)處理和內(nèi)存計(jì)算,以滿足實(shí)時(shí)性數(shù)據(jù)處理要求和高速統(tǒng)計(jì)分析,利用Graph圖計(jì)算技術(shù),滿足知識(shí)結(jié)構(gòu)圖譜的計(jì)算處理需求。
3.4.1 數(shù)據(jù)變換與擴(kuò)充處理采集的數(shù)據(jù)中,有些數(shù)據(jù)往往包含大量信息,如學(xué)生身份證號(hào)碼包含了省份信息,隱含了飲食習(xí)慣差異、語(yǔ)言差異、氣候差異、人均GDP差異等對(duì)學(xué)生心理產(chǎn)生影響的重要信息,因此要對(duì)身份證信息數(shù)據(jù)進(jìn)行變換與擴(kuò)充處理。
3.4.2 數(shù)據(jù)缺失值處理
針對(duì)采集到的數(shù)據(jù)存在的數(shù)據(jù)值缺失情況,需要通過(guò)相關(guān)技術(shù)手段進(jìn)行補(bǔ)全處理。如采集的“父母受教育水平”數(shù)據(jù)就可能出現(xiàn)數(shù)據(jù)值缺失的情況,可以使用均值方式填補(bǔ)缺失值,采集的“家庭月收入”數(shù)據(jù)也可能出現(xiàn)數(shù)據(jù)值缺失的情況,可以使用聚類填充方式進(jìn)行處理。
3.4.3 歸一化與標(biāo)準(zhǔn)化處理
在建立模型進(jìn)行數(shù)據(jù)分析之前,需要將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換為同一規(guī)格,這種需求被稱為將數(shù)據(jù)“無(wú)量綱化”。線性的無(wú)量綱化包括中心化處理和縮放處理,中心化和縮放是實(shí)現(xiàn)線性無(wú)量綱化的兩種形式。中心化是將所有記錄減去一個(gè)固定值,使原數(shù)據(jù)處理成統(tǒng)一規(guī)格;縮放是將原數(shù)據(jù)除以一個(gè)固定的數(shù),將樣本縮放到固定的范圍中。歸一化和標(biāo)準(zhǔn)化處理實(shí)現(xiàn)方法如表1所示。
建設(shè)高校教育大數(shù)據(jù)平臺(tái)的目的就是對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,充分實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。在對(duì)數(shù)據(jù)進(jìn)行過(guò)濾、清洗、擴(kuò)充、轉(zhuǎn)換和關(guān)聯(lián)等處理后,利用機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和概率等算法構(gòu)建模型,分析、挖掘出數(shù)據(jù)所蘊(yùn)含的價(jià)值。本研究所設(shè)計(jì)的高校教育大數(shù)據(jù)平臺(tái)利用關(guān)聯(lián)規(guī)則挖掘?qū)W生數(shù)據(jù),可發(fā)現(xiàn)學(xué)生的選課規(guī)律和優(yōu)異學(xué)生的學(xué)習(xí)習(xí)慣,在此基礎(chǔ)上構(gòu)建反映知識(shí)點(diǎn)關(guān)聯(lián)的概念圖[7];還可利用手勢(shì)、神態(tài)識(shí)別、心理表現(xiàn)建模、學(xué)生行為特征抽取等技術(shù),通過(guò)多功能攝像頭,捕捉學(xué)生的學(xué)習(xí)動(dòng)態(tài)特征行為,如神態(tài)、表情、手勢(shì)等多模態(tài)數(shù)據(jù),綜合分析學(xué)生的學(xué)習(xí)動(dòng)態(tài)行為[8]。本文主要介紹箱式圖、概率和神經(jīng)網(wǎng)絡(luò)分析算法三種分析挖掘技術(shù)。
3.5.1 箱式圖單維度離群值分析
利用箱式圖進(jìn)行單維度離群值分析的步驟是:將數(shù)據(jù)按升序排序,如果是奇數(shù)個(gè)數(shù)值則取最中間一個(gè)值作為中位數(shù),之后最中間的值在計(jì)算1/4分位點(diǎn)Q1和3/4分位點(diǎn)Q3時(shí)不再使用;如果是偶數(shù)個(gè)數(shù)值,中位數(shù)則是最中間兩個(gè)數(shù)的平均值,這兩個(gè)數(shù)在計(jì)算Q1和Q3時(shí)繼續(xù)使用。Q1:以中位數(shù)為分界點(diǎn),數(shù)值中最小值到分界點(diǎn)的數(shù)據(jù)再按中位數(shù)取法求得Q1;Q3:同Q1取法,取分界點(diǎn)到最大值的中位數(shù),計(jì)算IQR(四分位數(shù)間距),即IQR=Q3-Q1,所有不在(Q1-1.5IQR,Q3+1.5IQR)區(qū)間內(nèi)的數(shù)為離群值,根據(jù)不同的應(yīng)用情況,有的只取離群大值,有的取離群小值。
3.5.2 概率模型單維度離群值分析
使用onehot編碼或者其他方式模擬分布概率,如學(xué)生就餐分析,將學(xué)生就餐時(shí)間分為三個(gè)時(shí)間段,分別為早餐、午餐、晚餐。在每個(gè)就餐時(shí)間段中再進(jìn)行分段,每個(gè)就餐時(shí)間對(duì)應(yīng)一個(gè)onehot值,并用多日數(shù)據(jù)求出向量均值,此向量即為在此時(shí)間段就餐的概率分布,具體分析過(guò)程如圖4所示。同理,求出全校學(xué)生就餐時(shí)間對(duì)應(yīng)的概率分布,以學(xué)校的數(shù)據(jù)為標(biāo)準(zhǔn),對(duì)比學(xué)生數(shù)據(jù),概率分布差異越大代表就餐時(shí)間越不規(guī)律。利用此方法還可找到出入宿舍時(shí)間分布,出入校門時(shí)間分布,活動(dòng)軌跡分布等學(xué)生在校的多維分析。
表1 歸一化和標(biāo)準(zhǔn)化處理實(shí)現(xiàn)方法
圖4 概率模型分析學(xué)生用餐時(shí)間過(guò)程
3.5.3 利用神經(jīng)網(wǎng)絡(luò)進(jìn)行多尺度回歸預(yù)測(cè)
學(xué)生發(fā)展預(yù)測(cè)是一個(gè)多維度指標(biāo)體系,是一個(gè)各個(gè)指標(biāo)之間既相對(duì)獨(dú)立,但又存在聯(lián)系的多屬性訓(xùn)練集,屬于多個(gè)具有相關(guān)性的任務(wù)在同一訓(xùn)練集的同時(shí)學(xué)習(xí)問(wèn)題,可利用神經(jīng)網(wǎng)絡(luò)結(jié)合多尺度回歸法進(jìn)行預(yù)測(cè),形成學(xué)生發(fā)展預(yù)測(cè)畫像。如利用如下方式(見圖5)建模,并利用三層神經(jīng)網(wǎng)絡(luò)算法對(duì)學(xué)生的發(fā)展進(jìn)行多尺度回歸預(yù)測(cè)(如圖5所示)。
圖5 三層神經(jīng)網(wǎng)絡(luò)多回歸預(yù)測(cè)學(xué)生發(fā)展
構(gòu)建高校大數(shù)據(jù)平臺(tái),對(duì)教育數(shù)據(jù)進(jìn)行挖掘具有重要現(xiàn)實(shí)意義,一可為高校培養(yǎng)大數(shù)據(jù)技術(shù)相關(guān)專業(yè)人才提供真實(shí)的教學(xué)資源和實(shí)訓(xùn)條件;二可為高校的教育、教學(xué)和科研的改革與決策發(fā)展賦能。本研究重點(diǎn)闡述了高校教育大數(shù)據(jù)平臺(tái)的構(gòu)建和涉及的相關(guān)技術(shù),但對(duì)專業(yè)診斷與改進(jìn)方面如何進(jìn)行數(shù)據(jù)挖掘還沒(méi)有具體的闡述,今后的研究將在這方面進(jìn)行拓展,為高校的改革與發(fā)展提供更優(yōu)質(zhì)的參考。
廣西職業(yè)技術(shù)學(xué)院學(xué)報(bào)2020年3期