李欣
摘要:在新時代高等教育變革的浪潮下,迫切需要教育工作者將大數(shù)據(jù)、用戶畫像、深度學習這些先進的技術引入到學生的培養(yǎng)中來。本文已高校學生第四課堂實踐數(shù)據(jù)為依托,充分利用大數(shù)據(jù)領域Pearson相似性、Apriori關聯(lián)規(guī)則、GBDT、推薦系統(tǒng)等算法及用戶畫像技術,挖掘大學生學習習慣、行為興趣偏好,充分發(fā)揮長板,從而形成符合學生發(fā)展的個性化培養(yǎng)方案。
關鍵詞:學生畫像;大數(shù)據(jù)算法;第四課堂
引言
在信息化數(shù)據(jù)化爆發(fā)的社會,人們越來越重視數(shù)據(jù)的價值,而互聯(lián)網(wǎng)的繁榮,又使得數(shù)據(jù)有了行為特性,我們可以廣泛的收集用戶的網(wǎng)絡行為、興趣偏好等,進而通過機器學習、深度學習算法標簽化處理數(shù)據(jù),準確解析用戶需求及預測用戶變化趨勢,從而形成個性化的推薦服務。隨著高校信息化的日趨完善,在高校積累的知識數(shù)據(jù)越來越豐富,充分發(fā)揮學生長板,因材施教,進行形成千人千面的智能化教育顯得尤為重要,而新型智能化教育也被提升到了前所未有的高度。本文已高校智慧化校園信息集成數(shù)據(jù)為基礎,結合學生第四課堂活動數(shù)據(jù),利用Pearson Correlation Coefficient、GBDT、Apriori等機器學習算法挖掘分析學生的學習習慣、興趣偏好、特色長板,形成豐富的個性化的學生畫像的標簽,利用基于內容的推薦、基于行為的推薦算法融合深度學習算法構建推薦系統(tǒng)模型,為學生推薦個性化的學習路徑及培養(yǎng)方案,精準服務使得高校教育從大眾教育走向優(yōu)質教育,實現(xiàn)個性化培養(yǎng)。
2 基于大數(shù)據(jù)算法的學生畫像模型構建
2.1數(shù)據(jù)的采集及處理
模型整合了大學生多維度的第四課堂數(shù)據(jù),包括經(jīng)典閱讀、社會實踐、語言表達實踐、文藝活動、體育活動、創(chuàng)新創(chuàng)業(yè)、科研攻關等13個維度的第四課堂實踐數(shù)據(jù),數(shù)據(jù)來源于線下的結構化數(shù)據(jù)表,并與信息化系統(tǒng)中智慧校園大數(shù)據(jù)相結合(包括學生自然屬性信息、教務系統(tǒng)各門類成績信息、圖書借閱信息、校園消費信息等),形成了線上于線下互補,離線于實時共存的多渠道數(shù)據(jù)源。
數(shù)據(jù)的處理采用規(guī)范化的分析流程,先進行數(shù)據(jù)的探索,根據(jù)探索結果進行數(shù)據(jù)的預處理。如學生第四課堂各項原始數(shù)據(jù),我們可以進行數(shù)據(jù)質量分析,如經(jīng)典閱讀實踐活動的缺失值分析、異常值分析、一致性分析等整體把握原始數(shù)據(jù)的質量狀況方便數(shù)據(jù)清洗時針對性選擇方法;數(shù)據(jù)特征分析,可對經(jīng)典閱讀實踐活動進行分布分析、統(tǒng)計量分析、對比分析及累積貢獻度分析等,目的是深入掌握數(shù)據(jù)特性,結合實際進行數(shù)據(jù)變換如數(shù)據(jù)規(guī)范化、連續(xù)屬性離散化、屬性構造等。
在異常值分析方面模型根據(jù)特征維度的高低采用不同的算法,對于單維度特征采用6西格瑪原理、箱型圖原理、DBScan 聚類進行多渠道識別加權融合,高緯度特征采用孤立森林進行識別校準。對識別的異常值,模型整體采用拉格朗日差值法進行插值處理,較好的保證了數(shù)據(jù)原始的分布狀態(tài)。
2.2分析維度及整體框架
基于大數(shù)據(jù)算法的第四課堂學生畫像智能教育模型的整體架構,可分為數(shù)據(jù)的采集,數(shù)據(jù)的預處理、模型的建立、模型的自我學習和優(yōu)化。在模型的建立環(huán)節(jié),可以往單純的利用指標訓練不同,這里我們增加了大數(shù)據(jù)維度的標簽分析,包括第四課堂實踐活動的偏好度、學生的活躍度、第四課堂實踐活動相關性分析(Pearson Correlation Coefficient)、受學生歡迎的第四課堂實踐活動組合(Apriori關聯(lián)分析)、第四課堂實踐質量分析等,通過多維度的大數(shù)據(jù)分析進而構造高質量的模型訓練數(shù)據(jù)集結合信息化系統(tǒng)中的學生的學習習慣及風格劃分培養(yǎng)方案,利用GBDT算法進行智能預測,同時利用基于內容及行為的推薦算法進行推薦,如隱性因子算法根據(jù)學生的偏好、長板進行個性化推薦,對于最終的推薦方案結果,可通過評估樣本集進行自我學習調優(yōu),給出最佳融合權重。
2.3第四課堂實踐活動Pearson相關性分析
由于實踐數(shù)據(jù)是數(shù)值型結構化數(shù)據(jù),這里我們可以采用皮爾森相關系數(shù)(Pearson Correlation Coefficient)法進行相關的計算,將各項活動間的正相關、負相關、不相關通過相關系數(shù)矩陣和熱力圖矩陣進行表示,從而挖掘的較強的實踐活動相關性規(guī)則。
為了更加準確的描述變量之間的線性相關程度,可以通過計算相關系數(shù)來進行相關分析,而皮爾森相似度就是其中最為有效的計算方法。一般用于對定距變量的數(shù)據(jù)進行計算,即分析兩個連續(xù)性變量之間的關系,Pearson皮爾森相似度的計算原理如下:
r(x,y)=cov(x,y)/σx*σy
其中cov(x,y)為協(xié)方差(Covariance)在概率論和統(tǒng)計學中用于衡量兩個變量的總體誤差,σx、σy為x與y的標準差,用于衡量兩個數(shù)值特征的離散程度。
Pearson皮爾森算法計算特征相似度是有前提條件的,它的約束條件為:1兩個變量間有線性關系;2均是連續(xù)變量;3變量均符合正態(tài)分布,且二元分布也符合正態(tài)分布兩個變量獨立。而且皮爾森相似度r的計算結果具有良好的可解釋性,當r=1,正相關:r>0;負相關:r<0;不相關:|r|=0;完全線性相關:|r|=1,進而我們可以通過兩兩見的相似性系數(shù)解讀實踐活動相關性規(guī)則,提供基于數(shù)據(jù)的科學可靠的分析結論。
2.4 受學生歡迎的第四課堂實踐活動組合Apriori關聯(lián)分析
受學生歡迎的實踐活動組合,利用apriori算法進行了關聯(lián)分析,探索活動間是否具有關聯(lián)性,即選擇了某項實踐活動的同學,更傾向于選擇哪些實踐活動,了解學生們的第四課堂實踐偏好,可以適當?shù)倪M行活動推薦。
Apriori關聯(lián)分析核心就是在交易事務中挖掘頻繁項集及關聯(lián)規(guī)則,這里需要引入支持度和可信度(置信度)的概念。支持度:一個項集的支持度被定義為數(shù)據(jù)集中包含該項集的記錄所占的比例,支持度是針對項集來說的,因此可以定義一個最小支持度,只保留最小支持度的項集??尚哦龋ㄖ眯哦龋横槍θ鐊尿布}->{啤酒}這樣的關聯(lián)規(guī)則來定義的。計算為支持度{尿布,啤酒}/支持度{尿布},假設其中{尿布,啤酒}的支持度為3/5,{尿布}的支持度為4/5,所以“尿布->啤酒”的可行度為3/4=0.75,這意味著尿布的記錄中,我們的規(guī)則有75%都適用。
借助Apriori關聯(lián)規(guī)則算法,我們可以根據(jù)數(shù)據(jù)集中的樣本的記錄數(shù)量,選擇合適支持度、置信度參數(shù),進行算法訓練從而挖掘學生實踐活動的偏好組合。
2.5 GBDT算法智能預測
在前面的數(shù)據(jù)處理環(huán)節(jié),我們通過多維度的大數(shù)據(jù)分析進而構造高質量的模型訓練數(shù)據(jù)集同時結合信息化系統(tǒng)中的學生的學習習慣及風格劃分了主流的幾類培養(yǎng)方案,接下來利用GBDT算法進行智能預測。GBDT算法基本原理是通過多輪迭代,每輪迭代產(chǎn)生一個弱分類器(利用cart回歸樹構建),每個分類器在上一輪分類器的殘差基礎上進行訓練。GBDT的思想可以用一個通俗的例子解釋,假如有個人30歲,我們首先用20歲去擬合,發(fā)現(xiàn)損失有10歲,這時我們用6歲去擬合剩下的損失,發(fā)現(xiàn)差距還有4歲,第三輪我們用3歲擬合剩下的差距,差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完,可以繼續(xù)迭代下面,每一輪迭代,擬合的歲數(shù)誤差都會減小。主要優(yōu)點:可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。在相對少的調參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。基于上述優(yōu)點,我們針對學生的學習習慣及風格劃分了主流的幾類培養(yǎng)方案數(shù)據(jù)集進行智能預測,通過算法的參數(shù)調優(yōu)及特征的優(yōu)化,尋找最佳分類推薦模型。
3 結束語
本文將大數(shù)據(jù)學生畫像技術與學校多年開展的第四課數(shù)據(jù)相結合,深入挖掘學生長板,為高校人才培養(yǎng)和個性化教育提供理論支撐。通過基于大數(shù)據(jù)的算法分析學生第四課堂興趣偏好、活躍度、突出長板等并與學生的學習風格、生活習慣等畫像指標數(shù)據(jù)相結合,對學生進行多維度畫像,了解學生的長板,為個性化教育提供數(shù)據(jù)支撐,切實發(fā)揮大數(shù)據(jù)技術對改進人才培養(yǎng)目標、課程體系等培養(yǎng)環(huán)節(jié)的推動作用,為人才培養(yǎng)模式的構建提供重要數(shù)據(jù)基礎。
參考文獻
[1]郎波,樊一娜.基于深度神經(jīng)網(wǎng)絡的個性化學習行為評價方法[J].2019.
[2]梁婷婷,李麗琴.基于深度學習的資源個性化推薦算法及模型設[J].智能計算機與應用.2018.