西安交通大學(xué)副校長 鄭慶華
高校教育大數(shù)據(jù)的分析挖掘與利用
西安交通大學(xué)副校長 鄭慶華
本文從高校教育大數(shù)據(jù)的匯聚融合與挖掘應(yīng)用的角度,分析了如何運(yùn)用教育大數(shù)據(jù)技術(shù)推動(dòng)大學(xué)管理和人才培養(yǎng)的創(chuàng)新改革的思路和方法。首先,分析了教育大數(shù)據(jù)對(duì)高?,F(xiàn)代化、精細(xì)化、規(guī)范化管理的4個(gè)價(jià)值;其次,給出了高等教育大數(shù)據(jù)技術(shù)平臺(tái)的基本技術(shù)架構(gòu);第三,結(jié)合教育大數(shù)據(jù)實(shí)際應(yīng)用,介紹了陜西省高等教育質(zhì)量監(jiān)管大數(shù)據(jù)中心、MOOC中國、西安交通大學(xué)教學(xué)質(zhì)量綜合監(jiān)控與評(píng)價(jià)三個(gè)典型案例;最后,提出了教育大數(shù)據(jù)分析挖掘中的3項(xiàng)基礎(chǔ)性關(guān)鍵技術(shù)。
高等教育;大數(shù)據(jù);分析;挖掘
高校大數(shù)據(jù)分析挖掘至少有四個(gè)典型價(jià)值:
一是使得大學(xué)的管理更加精準(zhǔn)高效,可以朝著智慧治理、分類管理、過程監(jiān)控、趨勢(shì)預(yù)測(cè)、風(fēng)險(xiǎn)預(yù)警的方向發(fā)展,真正實(shí)現(xiàn)基于大數(shù)據(jù)分析規(guī)律的精準(zhǔn)治理,改變管理的模糊性;
二是可以更加準(zhǔn)確地分析評(píng)價(jià)課堂教學(xué)的質(zhì)量,過去我們對(duì)課堂、對(duì)老師的評(píng)價(jià)是定性和模糊的,而在大數(shù)據(jù)智慧課堂的模式下,可以真正實(shí)現(xiàn)采集樣本的持久化,采集方式的多元化,挖掘手段的多樣化,分析技術(shù)多維度,通過這些方式可以提高課堂教學(xué)的質(zhì)量;
三是使得教和學(xué)更加智慧,更加有效。對(duì)學(xué)生來說,老師可以了解學(xué)生學(xué)習(xí)的進(jìn)展情況,發(fā)現(xiàn)學(xué)習(xí)興趣點(diǎn),以及對(duì)老師講的哪些內(nèi)容理解或者不理解,學(xué)習(xí)路徑分析及課程推薦等等。對(duì)教師而言,不僅可以跨??绲赜蚍窒硭说膬?yōu)秀課程,而且可以對(duì)學(xué)習(xí)者進(jìn)行精準(zhǔn)分類,進(jìn)行個(gè)性化指導(dǎo);
四是資源服務(wù)的個(gè)性化、精準(zhǔn)化推薦與服務(wù),學(xué)習(xí)績效的個(gè)性化評(píng)價(jià),以及個(gè)性化教學(xué)管理,個(gè)性化手機(jī)內(nèi)容推送等等,這些功能將有效提升教與學(xué)的效率和質(zhì)量。
首先,我們對(duì)高等教育大數(shù)據(jù)技術(shù)平臺(tái)有一個(gè)總體的頂層設(shè)計(jì),如圖1所示。這不僅是學(xué)校自己要有一個(gè)大數(shù)據(jù)的管理平臺(tái)或者是數(shù)據(jù)中心,而且也是面向區(qū)域乃至全國的平臺(tái)。教育部評(píng)估中心正在努力建立國家級(jí)高等教育教學(xué)質(zhì)量監(jiān)控大數(shù)據(jù)中心,陜西省也是這樣考慮的。數(shù)據(jù)來自高校、教育管理部門以及行業(yè)、第三方、企業(yè)用人單位等等各方面采集的數(shù)據(jù),該數(shù)據(jù)平臺(tái)既有大學(xué)的業(yè)務(wù)數(shù)據(jù)、課程資源,也有政府部門的統(tǒng)計(jì)數(shù)據(jù),還有學(xué)生網(wǎng)上學(xué)習(xí)的日志數(shù)據(jù),用戶產(chǎn)生的UGC數(shù)據(jù),比如微信、微博、論壇等等的數(shù)據(jù),基于大數(shù)據(jù)平臺(tái),開展面向?qū)W習(xí)者、面向高等教育管理機(jī)構(gòu)、教師、高校等提供服務(wù),并和教育部評(píng)估中心、主管部門等進(jìn)行數(shù)據(jù)交換與對(duì)接。
顯然,這樣一個(gè)大數(shù)據(jù)平臺(tái)必須是一個(gè)高性能的計(jì)算平臺(tái),沒有這樣的基礎(chǔ)設(shè)施一切無從談起,所以去年我們學(xué)?;撕艽蟮牧庾隽藘杉拢粋€(gè)是把校內(nèi)二級(jí)單位原來小的集群計(jì)算進(jìn)行整合,形成學(xué)校統(tǒng)一的高性能云計(jì)算平臺(tái),既面向校內(nèi)的科學(xué)研究、人才培養(yǎng)提供服務(wù),其實(shí)也可以為社會(huì)提供合作共建共享模式。目前,我們已建立了一種自我造血機(jī)制,四兩撥千斤,以這個(gè)平臺(tái)吸引更多的外部資源,努力擴(kuò)展平臺(tái)的性能和應(yīng)用。
圖1 高等教育大數(shù)據(jù)的頂層設(shè)計(jì)
圖2 典型應(yīng)用——陜西省高校大數(shù)據(jù)匯聚與分析評(píng)估
目前,我校的高性能平臺(tái)除了應(yīng)用于材料、航天、能動(dòng)、信息等大型科學(xué)計(jì)算之外,還開展了以下三項(xiàng)典型的大數(shù)據(jù)應(yīng)用。
案例1:陜西省高等教育質(zhì)量監(jiān)控與評(píng)估大數(shù)據(jù)應(yīng)用
圖2所示的是陜西省高等教育的整體架構(gòu)。其數(shù)據(jù)基礎(chǔ)是來自陜西省100多所高校的各種辦學(xué)狀態(tài)數(shù)據(jù),有將近700個(gè)表格,以及陜西省教育廳各個(gè)職能部處的各種各樣的管理數(shù)據(jù),此外還有行業(yè)第三方提供的數(shù)據(jù),包括招生、就業(yè)數(shù)據(jù)等等,這個(gè)平臺(tái)上我們開展預(yù)測(cè)預(yù)警、查詢?cè)诰€分析、信息發(fā)布、統(tǒng)計(jì)決策等等,主要是為省級(jí)教育管理部門、評(píng)估機(jī)構(gòu)、教育管理機(jī)構(gòu)提供各種各樣的辦學(xué)狀況的分析、統(tǒng)計(jì)、關(guān)聯(lián)分析。
建設(shè)全省高等教育大數(shù)據(jù)服務(wù)平臺(tái),實(shí)時(shí)采集各高校的辦學(xué)狀態(tài)數(shù)據(jù),其根本目的是為了匯聚全省各高校的辦學(xué)狀態(tài)數(shù)據(jù),打破數(shù)據(jù)孤島,融合各方數(shù)據(jù),實(shí)現(xiàn)橫向關(guān)聯(lián)比較、縱向歷史分析,提供精準(zhǔn)服務(wù),支持科學(xué)決策。
首先,該平臺(tái)面向省教育廳提供了11項(xiàng)功能,從根本上解決了原來各處室間的數(shù)據(jù)孤島的問題,實(shí)現(xiàn)了數(shù)據(jù)融合,橫向關(guān)聯(lián),縱向融通,這個(gè)數(shù)據(jù)和各個(gè)高校是實(shí)時(shí)融通的,為省教育廳領(lǐng)導(dǎo)和職能部處提供了領(lǐng)導(dǎo)儀表盤、各職能處室的專項(xiàng)服務(wù)、81張高基表及年報(bào)年鑒表格的自動(dòng)生成、績效分析、招生就業(yè)及辦學(xué)指標(biāo)計(jì)算、教育評(píng)估等功能,從根本上解決了數(shù)據(jù)碎片化及其治理問題。
其次,面向全省高校輔助決策,為高校領(lǐng)導(dǎo)以及校內(nèi)各個(gè)職能部處提供了系列功能,包括辦學(xué)情況綜合分析和在線查詢,專業(yè)結(jié)構(gòu)分析比較,校級(jí)的教學(xué)質(zhì)量監(jiān)控評(píng)測(cè)體系,教師管理等等,這些功能非常實(shí)用,這是大學(xué)實(shí)現(xiàn)精細(xì)化、規(guī)范化、現(xiàn)代化管理的必備基礎(chǔ)。以我校為例,我們過去教師的數(shù)據(jù)可能在人事處、教務(wù)處、科研院等學(xué)校的職能部門,采取本平臺(tái)以后,把教師有關(guān)的所有數(shù)據(jù)都進(jìn)行了融合,打通了所有原來割裂的數(shù)據(jù)。從去年開始,我們學(xué)校的職稱評(píng)聘,年度考核全部基于這一平臺(tái),全部在大數(shù)據(jù)里,建立健全了基于數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)化服務(wù),解決了數(shù)據(jù)碎片化歷史遺留問題,實(shí)現(xiàn)了從管理信息化向服務(wù)信息化的根本轉(zhuǎn)變。
第三,為本科教育教學(xué)評(píng)估及專業(yè)認(rèn)證提供技術(shù)支撐。鑒于本平臺(tái)能提供比較全面的高校辦學(xué)狀態(tài)數(shù)據(jù),便于專家在進(jìn)校之前全面系統(tǒng)地掌握學(xué)校辦學(xué)的情況,找到問題,精準(zhǔn)查看驗(yàn)證,提高效率,給高等教育評(píng)估提供了重要支持?;诒酒脚_(tái),我們成立了中國西部高等教育評(píng)估中心,接受陜西省教育廳指派的省屬本科高校的審核評(píng)估和專業(yè)論證。如果沒有這一高等教育大數(shù)據(jù)平臺(tái)的支撐,工作量和難度是極其巨大的,甚至難以實(shí)現(xiàn)。
案例2:MOOC中國技術(shù)平臺(tái)
MOOC中國成立于2015年1月,到目前為止已經(jīng)有121所高校加入,理事單位40家,會(huì)員單位80家。該平臺(tái)的宗旨是:做政府想做的,做社會(huì)愿意做的,做單一高校做不了的事情。例如,真正解決校際資源共享、學(xué)分互認(rèn)等,開拓遠(yuǎn)程教育國際化等未來發(fā)展的難題。
圖3給出了MOOC中國的技術(shù)框架。其核心是互聯(lián)網(wǎng)+教育,實(shí)現(xiàn)互聯(lián)網(wǎng)教育從1.0到2.0的升級(jí)?;谶@一平臺(tái),既要開展網(wǎng)絡(luò)教育業(yè)務(wù)的國際化,比如我們牽頭成立的 “絲路大學(xué)聯(lián)盟”,其目的之一是借助MOOC中國平臺(tái),實(shí)現(xiàn)網(wǎng)絡(luò)教育業(yè)務(wù)的國際化,通過MOOC中國平臺(tái),面向“一帶一路”國家開展開放教育和技能培訓(xùn)。
圖3MOOC中國技術(shù)架構(gòu)
到目前為止,MOOC中國已經(jīng)有了9911門課程,用戶將近600萬,其中光IT培訓(xùn)的有500多萬,學(xué)歷教育在讀學(xué)生50多萬。
案例3:西安交大教育教學(xué)大數(shù)據(jù)分析挖掘與應(yīng)用
學(xué)校非常重視教育信息化技術(shù)融入和應(yīng)用到教育教學(xué)之中,去年一次性建成了80個(gè)智能教室,把物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)應(yīng)用于智能教室和教學(xué)一線,基于物聯(lián)網(wǎng)技術(shù)實(shí)現(xiàn)教室設(shè)備的集中管理、智能控制,同時(shí),將互聯(lián)網(wǎng)技術(shù)深度融入到教室的管理當(dāng)中,除了多媒體的直播錄制功能以外,還提供了學(xué)生考勤和專家的精準(zhǔn)督導(dǎo),通過云平臺(tái)來集中管理各個(gè)教室,比如說開投影機(jī)、關(guān)電源、關(guān)多媒體設(shè)備等等,都可以通過后端的云平臺(tái)集中管控,真正實(shí)現(xiàn)教室管理的數(shù)字化、智能化、精細(xì)化,提升了教學(xué)保障的能力,也大大提高了教室管理的效率。更重要的是,這些教學(xué)的過程數(shù)據(jù)可以全程采集下來,獲得數(shù)據(jù),有了這些數(shù)據(jù),就可以做精準(zhǔn)化分析服務(wù),建立西安交大教學(xué)質(zhì)量大數(shù)據(jù)監(jiān)測(cè)中心。
目前,我校的教學(xué)大數(shù)據(jù)主要包括兩大部分:一是教師在授課過程中的全程錄制的課堂實(shí)況;二是學(xué)生在學(xué)習(xí)過程中產(chǎn)生的大量日志數(shù)據(jù)?;谶@個(gè)平臺(tái),我們可以開展教育教學(xué)的大數(shù)據(jù)關(guān)聯(lián)分析,開展課堂教學(xué)質(zhì)量的綜合評(píng)價(jià),實(shí)現(xiàn)正面激勵(lì)、負(fù)面懲戒、精準(zhǔn)督導(dǎo),實(shí)現(xiàn)教學(xué)評(píng)價(jià)從模糊宏觀到量化精準(zhǔn)、從每學(xué)期制到持續(xù)常態(tài)、從部分隨機(jī)到全面覆蓋、從事后評(píng)價(jià)到實(shí)時(shí)動(dòng)態(tài)的根本轉(zhuǎn)變。通過評(píng)價(jià)激勵(lì)老師敬畏課堂,評(píng)選精品課堂、示范課堂,在全校內(nèi)進(jìn)行正面表彰,另外也作為教學(xué)質(zhì)量評(píng)價(jià)的重要依據(jù),包括教師的職稱晉升,評(píng)選最喜愛的老師等等。
此外,本系統(tǒng)還為學(xué)院領(lǐng)導(dǎo)和管理部門提供了針對(duì)性的信息服務(wù)與決策支持,以數(shù)據(jù)說話,量化分析,改變了以前我們的模糊評(píng)價(jià),采取多維度、全覆蓋、持續(xù)化、精細(xì)化的過程評(píng)價(jià)與監(jiān)控。
首先,介紹一下大數(shù)據(jù)人工智能的基本原理。前段時(shí)間,AlphaGo戰(zhàn)勝世界圍棋冠軍這一故事炒得很熱。這對(duì)我們的教育科研工作者提出了一個(gè)重要的課題,到底人工智能會(huì)不會(huì)戰(zhàn)勝人類的智能,將來教師存在的主要價(jià)值是否還有必要?863計(jì)劃正在研究一個(gè)項(xiàng)目,到2020年,人工智能軟件參加高考得分要超過一本線,這就是說,計(jì)算機(jī)教出來的機(jī)器軟件參加高考都能達(dá)到一本線以上。這就引起我們的思考,這是一個(gè)深層次的方向性問題。當(dāng)然我們今天不是談這個(gè)問題,而是我們要看看Alpha-GO的原理,其核心是價(jià)值計(jì)算函數(shù),用收益函數(shù)來判斷圍棋下一步該落子到哪里其收益是最大的,其中采用了人工智能深度學(xué)習(xí)方法。AlphaGO并非天生聰明,其實(shí)他的智慧是分三步完成的:
第一步,給AlphaGO輸入了3000萬個(gè)人類圍棋高手的棋譜和走法,任何一個(gè)人是不可能記住3000萬個(gè)棋局的,只有人工智能才能記住。
第二步,AlphaGO自己和自己對(duì)弈,在對(duì)弈過程中找到自己的薄弱點(diǎn),進(jìn)而改進(jìn)和完善,這其實(shí)和人的學(xué)習(xí)原理類似。
第三步,才是人機(jī)對(duì)弈,從職業(yè)選手到世界圍棋冠軍,通過這樣不斷的對(duì)弈完善算法,校正學(xué)習(xí),使得AlphaGO具有強(qiáng)大的智能計(jì)算能力。AlphaGO的難點(diǎn)在哪?其關(guān)鍵在于在一個(gè)巨大的落子空間選一個(gè)最大的收益點(diǎn),或者落子點(diǎn),稱之為MovePicker()函數(shù),這個(gè)空間很大,有10170次方,在如此龐大的計(jì)算空間中選擇最優(yōu)函數(shù),只能依靠高性能計(jì)算平臺(tái)。
AlphaGo為我們研究大數(shù)據(jù)問題提供了思路和啟發(fā)。我們?cè)谘芯拷逃髷?shù)據(jù)問題中需要著力攻克以下理論與技術(shù)難題。
第一,大數(shù)據(jù)造成了嚴(yán)重的認(rèn)知碎片化問題。比如,大家在百度搜糖尿病會(huì)檢索出4440萬個(gè)數(shù)據(jù)源,誰也看不過來,并且里面還有一大堆真假難辯的數(shù)據(jù)。所以,碎片化知識(shí)的聚合是一個(gè)非常基礎(chǔ)的難題,高度的碎片化降低了知識(shí)的可用性,造成了分布性、動(dòng)態(tài)化、低質(zhì)化、無序化等典型的問題。
一方面是知識(shí)的碎片化,另一方面是每個(gè)人的興趣和需求還不一樣。所以,資源的碎片化整合以及個(gè)性化推薦是今后人工智能中的關(guān)鍵問題。我們的思路是:一方面,我們要從資源的角度把無序、分散、低質(zhì)的資源進(jìn)一步重組以后形成知識(shí)點(diǎn),形成有序的知識(shí)地圖;另一方面,要對(duì)學(xué)習(xí)過程進(jìn)行跟蹤,實(shí)現(xiàn)興趣、個(gè)性、情感等方面的動(dòng)態(tài)分析與挖掘,兩者結(jié)合起來,建立基于用戶興趣和個(gè)性的資源推薦,最后實(shí)現(xiàn)個(gè)性化精準(zhǔn)過濾,通過知識(shí)地圖面向用戶提供導(dǎo)航學(xué)習(xí),從而緩碎片化知識(shí)的問題。開展這一研究也要建立龐大的基礎(chǔ)數(shù)據(jù),就像剛才講的AlphaGO,光靠智能軟件肯定不可能那么聰明,需要建立龐大的知識(shí)地圖、知識(shí)圖譜,并將其放到了國際開源社區(qū)和開放數(shù)據(jù)平臺(tái)之上。
第二,碎片化知識(shí)的聚合問題。其目的是解決“既見樹木,又見森林”的問題,破解“學(xué)習(xí)迷航”、“認(rèn)知過載”的問題。我們正在承擔(dān)國家自然科學(xué)基金重點(diǎn)項(xiàng)目,研究如何將多源、片面、無序的碎片化知識(shí)聚合成符合人類認(rèn)知的知識(shí)森林,找出主題與主題之間的認(rèn)知關(guān)系,最后形成一個(gè)知識(shí)森林,其中需要解決主題分面樹的生成、碎片化知識(shí)的裝配、知識(shí)森林生成、學(xué)習(xí)路徑選擇與導(dǎo)航等有關(guān)知識(shí)地圖、知識(shí)圖譜構(gòu)建與應(yīng)用等許多基礎(chǔ)性關(guān)鍵技術(shù)。
第三,學(xué)習(xí)行為的分析和挖掘技術(shù)。網(wǎng)上學(xué)習(xí)最大的好處我們可以把教師和學(xué)生所有的教與學(xué)的行為記錄下來,討論、作業(yè)、習(xí)題、筆記及進(jìn)度記錄下來,有了這些數(shù)據(jù),我們可以進(jìn)行后續(xù)分析,開展學(xué)習(xí)行為的特征識(shí)別和規(guī)律發(fā)現(xiàn)等等,既可以跟蹤挖掘某個(gè)個(gè)體的學(xué)習(xí)規(guī)律,也可以找出一個(gè)群體、一個(gè)小組的特征和規(guī)律。針對(duì)不同的課程,開展課程點(diǎn)擊率、學(xué)習(xí)人群、知識(shí)關(guān)注點(diǎn)、學(xué)習(xí)時(shí)間等的分析與跟蹤,刻畫一個(gè)學(xué)生學(xué)習(xí)的過程,從時(shí)間、空間和課程知識(shí)導(dǎo)航的角度,甚至圍繞某個(gè)知識(shí)點(diǎn),研究學(xué)習(xí)者的特征、行為、交互等相互之間的關(guān)系,為老師深化課程改革、探索以學(xué)生為中心的教學(xué)設(shè)計(jì)具有非常重要的意義。
教育是全人類、全社會(huì)發(fā)展的基礎(chǔ)性事業(yè),隨著互聯(lián)網(wǎng)+技術(shù)全面滲透和深度融入教育教學(xué),不僅產(chǎn)生了大量的課程資源和學(xué)習(xí)內(nèi)容,而且還產(chǎn)生了巨量的教育教學(xué)管理數(shù)據(jù)、行為數(shù)據(jù)、服務(wù)數(shù)據(jù),蘊(yùn)藏著巨大的價(jià)值,亟需我們開展深入研究,可謂前景廣闊,挑戰(zhàn)巨大!
(編輯:王曉明)