亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大數(shù)據(jù)算法的第四課堂學(xué)生畫像智能教育模型

2020-11-16 02:11:06李欣

數(shù)碼世界 2020年10期

李欣

摘要：在新時(shí)代高等教育變革的浪潮下，迫切需要教育工作者將大數(shù)據(jù)、用戶畫像、深度學(xué)習(xí)這些先進(jìn)的技術(shù)引入到學(xué)生的培養(yǎng)中來。本文已高校學(xué)生第四課堂實(shí)踐數(shù)據(jù)為依托，充分利用大數(shù)據(jù)領(lǐng)域Pearson相似性、Apriori關(guān)聯(lián)規(guī)則、GBDT、推薦系統(tǒng)等算法及用戶畫像技術(shù)，挖掘大學(xué)生學(xué)習(xí)習(xí)慣、行為興趣偏好，充分發(fā)揮長板，從而形成符合學(xué)生發(fā)展的個(gè)性化培養(yǎng)方案。

關(guān)鍵詞：學(xué)生畫像;大數(shù)據(jù)算法;第四課堂

引言

在信息化數(shù)據(jù)化爆發(fā)的社會(huì)，人們越來越重視數(shù)據(jù)的價(jià)值，而互聯(lián)網(wǎng)的繁榮，又使得數(shù)據(jù)有了行為特性，我們可以廣泛的收集用戶的網(wǎng)絡(luò)行為、興趣偏好等，進(jìn)而通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法標(biāo)簽化處理數(shù)據(jù)，準(zhǔn)確解析用戶需求及預(yù)測用戶變化趨勢，從而形成個(gè)性化的推薦服務(wù)。隨著高校信息化的日趨完善，在高校積累的知識(shí)數(shù)據(jù)越來越豐富，充分發(fā)揮學(xué)生長板，因材施教，進(jìn)行形成千人千面的智能化教育顯得尤為重要，而新型智能化教育也被提升到了前所未有的高度。本文已高校智慧化校園信息集成數(shù)據(jù)為基礎(chǔ)，結(jié)合學(xué)生第四課堂活動(dòng)數(shù)據(jù)，利用Pearson Correlation Coefficient、GBDT、Apriori等機(jī)器學(xué)習(xí)算法挖掘分析學(xué)生的學(xué)習(xí)習(xí)慣、興趣偏好、特色長板，形成豐富的個(gè)性化的學(xué)生畫像的標(biāo)簽，利用基于內(nèi)容的推薦、基于行為的推薦算法融合深度學(xué)習(xí)算法構(gòu)建推薦系統(tǒng)模型，為學(xué)生推薦個(gè)性化的學(xué)習(xí)路徑及培養(yǎng)方案，精準(zhǔn)服務(wù)使得高校教育從大眾教育走向優(yōu)質(zhì)教育，實(shí)現(xiàn)個(gè)性化培養(yǎng)。

2 基于大數(shù)據(jù)算法的學(xué)生畫像模型構(gòu)建

2.1數(shù)據(jù)的采集及處理

模型整合了大學(xué)生多維度的第四課堂數(shù)據(jù)，包括經(jīng)典閱讀、社會(huì)實(shí)踐、語言表達(dá)實(shí)踐、文藝活動(dòng)、體育活動(dòng)、創(chuàng)新創(chuàng)業(yè)、科研攻關(guān)等13個(gè)維度的第四課堂實(shí)踐數(shù)據(jù)，數(shù)據(jù)來源于線下的結(jié)構(gòu)化數(shù)據(jù)表，并與信息化系統(tǒng)中智慧校園大數(shù)據(jù)相結(jié)合（包括學(xué)生自然屬性信息、教務(wù)系統(tǒng)各門類成績信息、圖書借閱信息、校園消費(fèi)信息等），形成了線上于線下互補(bǔ)，離線于實(shí)時(shí)共存的多渠道數(shù)據(jù)源。

數(shù)據(jù)的處理采用規(guī)范化的分析流程，先進(jìn)行數(shù)據(jù)的探索，根據(jù)探索結(jié)果進(jìn)行數(shù)據(jù)的預(yù)處理。如學(xué)生第四課堂各項(xiàng)原始數(shù)據(jù)，我們可以進(jìn)行數(shù)據(jù)質(zhì)量分析，如經(jīng)典閱讀實(shí)踐活動(dòng)的缺失值分析、異常值分析、一致性分析等整體把握原始數(shù)據(jù)的質(zhì)量狀況方便數(shù)據(jù)清洗時(shí)針對性選擇方法;數(shù)據(jù)特征分析，可對經(jīng)典閱讀實(shí)踐活動(dòng)進(jìn)行分布分析、統(tǒng)計(jì)量分析、對比分析及累積貢獻(xiàn)度分析等，目的是深入掌握數(shù)據(jù)特性，結(jié)合實(shí)際進(jìn)行數(shù)據(jù)變換如數(shù)據(jù)規(guī)范化、連續(xù)屬性離散化、屬性構(gòu)造等。

在異常值分析方面模型根據(jù)特征維度的高低采用不同的算法，對于單維度特征采用6西格瑪原理、箱型圖原理、DBScan 聚類進(jìn)行多渠道識(shí)別加權(quán)融合，高緯度特征采用孤立森林進(jìn)行識(shí)別校準(zhǔn)。對識(shí)別的異常值，模型整體采用拉格朗日差值法進(jìn)行插值處理，較好的保證了數(shù)據(jù)原始的分布狀態(tài)。

2.2分析維度及整體框架

基于大數(shù)據(jù)算法的第四課堂學(xué)生畫像智能教育模型的整體架構(gòu)，可分為數(shù)據(jù)的采集，數(shù)據(jù)的預(yù)處理、模型的建立、模型的自我學(xué)習(xí)和優(yōu)化。在模型的建立環(huán)節(jié)，可以往單純的利用指標(biāo)訓(xùn)練不同，這里我們增加了大數(shù)據(jù)維度的標(biāo)簽分析，包括第四課堂實(shí)踐活動(dòng)的偏好度、學(xué)生的活躍度、第四課堂實(shí)踐活動(dòng)相關(guān)性分析（Pearson Correlation Coefficient）、受學(xué)生歡迎的第四課堂實(shí)踐活動(dòng)組合（Apriori關(guān)聯(lián)分析）、第四課堂實(shí)踐質(zhì)量分析等，通過多維度的大數(shù)據(jù)分析進(jìn)而構(gòu)造高質(zhì)量的模型訓(xùn)練數(shù)據(jù)集結(jié)合信息化系統(tǒng)中的學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分培養(yǎng)方案，利用GBDT算法進(jìn)行智能預(yù)測，同時(shí)利用基于內(nèi)容及行為的推薦算法進(jìn)行推薦，如隱性因子算法根據(jù)學(xué)生的偏好、長板進(jìn)行個(gè)性化推薦，對于最終的推薦方案結(jié)果，可通過評估樣本集進(jìn)行自我學(xué)習(xí)調(diào)優(yōu)，給出最佳融合權(quán)重。

2.3第四課堂實(shí)踐活動(dòng)Pearson相關(guān)性分析

由于實(shí)踐數(shù)據(jù)是數(shù)值型結(jié)構(gòu)化數(shù)據(jù)，這里我們可以采用皮爾森相關(guān)系數(shù)（Pearson Correlation Coefficient）法進(jìn)行相關(guān)的計(jì)算，將各項(xiàng)活動(dòng)間的正相關(guān)、負(fù)相關(guān)、不相關(guān)通過相關(guān)系數(shù)矩陣和熱力圖矩陣進(jìn)行表示，從而挖掘的較強(qiáng)的實(shí)踐活動(dòng)相關(guān)性規(guī)則。

為了更加準(zhǔn)確的描述變量之間的線性相關(guān)程度，可以通過計(jì)算相關(guān)系數(shù)來進(jìn)行相關(guān)分析，而皮爾森相似度就是其中最為有效的計(jì)算方法。一般用于對定距變量的數(shù)據(jù)進(jìn)行計(jì)算，即分析兩個(gè)連續(xù)性變量之間的關(guān)系，Pearson皮爾森相似度的計(jì)算原理如下：

r（x，y）=cov（x，y）/σx*σy

其中cov（x，y）為協(xié)方差（Covariance）在概率論和統(tǒng)計(jì)學(xué)中用于衡量兩個(gè)變量的總體誤差，σx、σy為x與y的標(biāo)準(zhǔn)差，用于衡量兩個(gè)數(shù)值特征的離散程度。

Pearson皮爾森算法計(jì)算特征相似度是有前提條件的，它的約束條件為：1兩個(gè)變量間有線性關(guān)系;2均是連續(xù)變量;3變量均符合正態(tài)分布，且二元分布也符合正態(tài)分布兩個(gè)變量獨(dú)立。而且皮爾森相似度r的計(jì)算結(jié)果具有良好的可解釋性，當(dāng)r=1，正相關(guān)：r>0;負(fù)相關(guān)：r<0;不相關(guān)：|r|=0;完全線性相關(guān)：|r|=1，進(jìn)而我們可以通過兩兩見的相似性系數(shù)解讀實(shí)踐活動(dòng)相關(guān)性規(guī)則，提供基于數(shù)據(jù)的科學(xué)可靠的分析結(jié)論。

2.4 受學(xué)生歡迎的第四課堂實(shí)踐活動(dòng)組合Apriori關(guān)聯(lián)分析

受學(xué)生歡迎的實(shí)踐活動(dòng)組合，利用apriori算法進(jìn)行了關(guān)聯(lián)分析，探索活動(dòng)間是否具有關(guān)聯(lián)性，即選擇了某項(xiàng)實(shí)踐活動(dòng)的同學(xué)，更傾向于選擇哪些實(shí)踐活動(dòng)，了解學(xué)生們的第四課堂實(shí)踐偏好，可以適當(dāng)?shù)倪M(jìn)行活動(dòng)推薦。

Apriori關(guān)聯(lián)分析核心就是在交易事務(wù)中挖掘頻繁項(xiàng)集及關(guān)聯(lián)規(guī)則，這里需要引入支持度和可信度（置信度）的概念。支持度：一個(gè)項(xiàng)集的支持度被定義為數(shù)據(jù)集中包含該項(xiàng)集的記錄所占的比例，支持度是針對項(xiàng)集來說的，因此可以定義一個(gè)最小支持度，只保留最小支持度的項(xiàng)集。可信度（置信度）：針對如{尿布}->{啤酒}這樣的關(guān)聯(lián)規(guī)則來定義的。計(jì)算為支持度{尿布，啤酒}/支持度{尿布}，假設(shè)其中{尿布，啤酒}的支持度為3/5，{尿布}的支持度為4/5，所以“尿布->啤酒”的可行度為3/4=0.75，這意味著尿布的記錄中，我們的規(guī)則有75%都適用。

借助Apriori關(guān)聯(lián)規(guī)則算法，我們可以根據(jù)數(shù)據(jù)集中的樣本的記錄數(shù)量，選擇合適支持度、置信度參數(shù)，進(jìn)行算法訓(xùn)練從而挖掘?qū)W生實(shí)踐活動(dòng)的偏好組合。

2.5 GBDT算法智能預(yù)測

在前面的數(shù)據(jù)處理環(huán)節(jié)，我們通過多維度的大數(shù)據(jù)分析進(jìn)而構(gòu)造高質(zhì)量的模型訓(xùn)練數(shù)據(jù)集同時(shí)結(jié)合信息化系統(tǒng)中的學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分了主流的幾類培養(yǎng)方案，接下來利用GBDT算法進(jìn)行智能預(yù)測。GBDT算法基本原理是通過多輪迭代，每輪迭代產(chǎn)生一個(gè)弱分類器（利用cart回歸樹構(gòu)建），每個(gè)分類器在上一輪分類器的殘差基礎(chǔ)上進(jìn)行訓(xùn)練。GBDT的思想可以用一個(gè)通俗的例子解釋，假如有個(gè)人30歲，我們首先用20歲去擬合，發(fā)現(xiàn)損失有10歲，這時(shí)我們用6歲去擬合剩下的損失，發(fā)現(xiàn)差距還有4歲，第三輪我們用3歲擬合剩下的差距，差距就只有一歲了。如果我們的迭代輪數(shù)還沒有完，可以繼續(xù)迭代下面，每一輪迭代，擬合的歲數(shù)誤差都會(huì)減小。主要優(yōu)點(diǎn)：可以靈活處理各種類型的數(shù)據(jù)，包括連續(xù)值和離散值。在相對少的調(diào)參時(shí)間情況下，預(yù)測的準(zhǔn)備率也可以比較高。這個(gè)是相對SVM來說的。使用一些健壯的損失函數(shù)，對異常值的魯棒性非常強(qiáng)。比如 Huber損失函數(shù)和Quantile損失函數(shù)。基于上述優(yōu)點(diǎn)，我們針對學(xué)生的學(xué)習(xí)習(xí)慣及風(fēng)格劃分了主流的幾類培養(yǎng)方案數(shù)據(jù)集進(jìn)行智能預(yù)測，通過算法的參數(shù)調(diào)優(yōu)及特征的優(yōu)化，尋找最佳分類推薦模型。

3 結(jié)束語

本文將大數(shù)據(jù)學(xué)生畫像技術(shù)與學(xué)校多年開展的第四課數(shù)據(jù)相結(jié)合，深入挖掘?qū)W生長板，為高校人才培養(yǎng)和個(gè)性化教育提供理論支撐。通過基于大數(shù)據(jù)的算法分析學(xué)生第四課堂興趣偏好、活躍度、突出長板等并與學(xué)生的學(xué)習(xí)風(fēng)格、生活習(xí)慣等畫像指標(biāo)數(shù)據(jù)相結(jié)合，對學(xué)生進(jìn)行多維度畫像，了解學(xué)生的長板，為個(gè)性化教育提供數(shù)據(jù)支撐，切實(shí)發(fā)揮大數(shù)據(jù)技術(shù)對改進(jìn)人才培養(yǎng)目標(biāo)、課程體系等培養(yǎng)環(huán)節(jié)的推動(dòng)作用，為人才培養(yǎng)模式的構(gòu)建提供重要數(shù)據(jù)基礎(chǔ)。

參考文獻(xiàn)

[1]郎波，樊一娜.基于深度神經(jīng)網(wǎng)絡(luò)的個(gè)性化學(xué)習(xí)行為評價(jià)方法[J].2019.

[2]梁婷婷，李麗琴.基于深度學(xué)習(xí)的資源個(gè)性化推薦算法及模型設(shè)[J].智能計(jì)算機(jī)與應(yīng)用.2018.

數(shù)碼世界2020年10期

數(shù)碼世界的其它文章: 智能化數(shù)控加工技術(shù)的特點(diǎn)分析; 數(shù)控加工的工藝設(shè)計(jì)原則及方法探討; 探討大截面碳纖維導(dǎo)線卡線器夾嘴優(yōu)化設(shè)計(jì); 交叉式露點(diǎn)間接蒸發(fā)冷卻空調(diào)機(jī)組在數(shù)據(jù)機(jī)房的應(yīng)用方案分析; 跳繩智能化發(fā)展研究; 智能樓宇自動(dòng)化監(jiān)控系統(tǒng)分析