亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于興趣度關(guān)聯(lián)規(guī)則的在線學(xué)習(xí)行為分析方法

        2019-05-25 01:00:16胡延雪懷麗波崔榮一
        關(guān)鍵詞:置信度學(xué)習(xí)效果數(shù)據(jù)挖掘

        胡延雪, 懷麗波, 崔榮一

        ( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )

        0 引言

        隨著教育信息化的推進,數(shù)字化學(xué)習(xí)已經(jīng)成為當(dāng)今學(xué)習(xí)者的重要學(xué)習(xí)方式.同時,數(shù)據(jù)挖掘技術(shù)的應(yīng)用促進了學(xué)習(xí)分析從傳統(tǒng)的經(jīng)驗性向客觀性發(fā)展,為研究學(xué)習(xí)者的個性化發(fā)展提供了新的技術(shù)支持[1].近年來,如何采用數(shù)據(jù)挖掘技術(shù)對全數(shù)據(jù)環(huán)境進行分析以獲得直接、客觀的教育評價和學(xué)習(xí)分析成為學(xué)者們關(guān)注的研究熱點.

        教育數(shù)據(jù)挖掘是基于大量的學(xué)生個體相關(guān)數(shù)據(jù)信息的基礎(chǔ)上,分析挖掘出隱含于這些數(shù)據(jù)背后的各類信息,使其更加具有針對性和個性化[2].常用的教育數(shù)據(jù)挖掘方法有聚類分析、決策樹、關(guān)聯(lián)規(guī)則等.其中,聚類分析方法常用于學(xué)習(xí)行為特征分析[3]、判斷影響成績的因素[4]、尋找成績評價中存在的問題[5]等.決策樹算法常用于建立學(xué)生成績分析預(yù)測模型[6-7].關(guān)聯(lián)規(guī)則常用于對不同學(xué)生課程的成績進行關(guān)聯(lián)分析,找出課程間的相互影響關(guān)系,為學(xué)生推薦課程或分析影響成績的重要因素等[8-10].目前,相關(guān)研究大多僅用數(shù)據(jù)挖掘中的單一算法對成績進行分析,得到的結(jié)果不夠明確,難以直接用于指導(dǎo)改善學(xué)習(xí)行為.例如,通過決策樹可以找出影響分類的關(guān)鍵因素,卻無法得知各項間的關(guān)聯(lián);而關(guān)聯(lián)規(guī)則可得到各項間的關(guān)聯(lián),卻無法說明它們之間的內(nèi)在影響關(guān)系.本文以在線課堂環(huán)境下用戶的學(xué)習(xí)行為數(shù)據(jù)為研究對象,采用含興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對學(xué)習(xí)行為數(shù)據(jù)進行分析,尋找學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層關(guān)系,以為學(xué)習(xí)者提供明確的學(xué)習(xí)指導(dǎo).

        1 相關(guān)算法概述

        1.1 聚類分析

        聚類是將抽象對象的集合組成為由類似的對象組成的多個類的過程.聚類生成的類是一組數(shù)據(jù)對象的集合,聚類分析的原理是使屬于同一類別的個體之間距離盡可能小,而不同類別的個體之間距離盡可能大.目前主要的聚類算法可以劃分為:劃分法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[11].K-means算法是一種典型的扁平聚類算法,是劃分法中應(yīng)用最為廣泛的算法之一.該算法的主要目標(biāo)是最小化各元素到其簇中心的歐式距離平方的平均值,具有簡單、快速的優(yōu)點,可以對大型的數(shù)據(jù)集合進行快速分類.聚類準(zhǔn)則函數(shù)用于衡量聚類結(jié)果,通常是用數(shù)據(jù)集中所有對象與各自所在簇的簇中心誤差平方和來計算.當(dāng)平方誤差和足夠小時,即表示可以結(jié)束聚類操作.聚類準(zhǔn)則函數(shù)的表達式為

        (1)

        其中ci表示第i類數(shù)據(jù)對象的集合,p是簇ci中的數(shù)據(jù)對象,mi是簇ci的平均值,k表示該數(shù)據(jù)集可以劃分為k個簇.聚類分析可作為數(shù)據(jù)挖掘的一個模塊,也可作為其他挖掘算法的預(yù)處理步驟.

        1.2 關(guān)聯(lián)規(guī)則

        傳統(tǒng)關(guān)聯(lián)規(guī)則[12]是表示項集X與項集Y的某種相關(guān)性,形如X?Y的蘊涵式,由支持度s和置信度c決定.規(guī)則X?Y在事務(wù)集D中成立.支持度s是D中事務(wù)包含X和Y的百分比,即概率P(X∩Y), 其表達式為

        s(X?Y)=P(X∩Y).

        (2)

        置信度c是D中事務(wù)包含X的同時也包含Y的百分比,即條件概率P(Y|X),其表達式為

        (3)

        Apriori是經(jīng)典的關(guān)聯(lián)規(guī)則算法之一,其包括尋找頻繁項集和尋找強規(guī)則兩部分.尋找頻繁項集是算法核心,包含連接、剪枝兩步操作.Apriori算法的基本思想是通過多遍掃描數(shù)據(jù)庫找出全部頻繁項集,從1-項頻繁集開始,遞歸地產(chǎn)生2-項頻繁集、3-項頻繁集,如此下去直到產(chǎn)生所有的頻繁項集.最后,利用頻繁項集構(gòu)造出滿足最小置信度的強規(guī)則.

        傳統(tǒng)關(guān)聯(lián)規(guī)則算法主要考慮支持度和置信度指標(biāo),通過滿足大于最小支持度和置信度來獲得強關(guān)聯(lián)規(guī)則,但該方法有時難以解釋其規(guī)則的實際意義.因此,學(xué)者們引入了“興趣度”度量值,修剪無用的規(guī)則.目前興趣度模型主要有基于模板的興趣度模型、基于概率相關(guān)性的興趣度模型、基于信息量的興趣度模型和基于差異思想的興趣度模型等[13],這些模型由于是從不同的角度對興趣度進行評價,因此只適用于不同的實際問題.

        基于概率相關(guān)性的興趣度模型[14]是從統(tǒng)計獨立性檢查的角度出發(fā),在關(guān)聯(lián)規(guī)則的置信度和支持度基礎(chǔ)上增加一個新的相關(guān)性約束,以將不滿足條件的關(guān)聯(lián)規(guī)則刪除.X和Y的相關(guān)性計算公式為

        (4)

        式(4)中的相關(guān)性計算值作為興趣度,其體現(xiàn)的是X和Y的密切程度.In tr(X?Y)=1, 表示X和Y相互獨立,它們之間沒有相關(guān)性,此時P(X∪Y)=P(X)P(Y); In tr(X?Y)>1, 表示X與Y為正相關(guān),X的出現(xiàn)會促進Y的出現(xiàn); In tr(X?Y)<1, 表示X與Y為負相關(guān),X的出現(xiàn)會減少Y的出現(xiàn).在實際應(yīng)用中,當(dāng)關(guān)聯(lián)規(guī)則的后件為單數(shù)據(jù)項時具有較為明確的決策指導(dǎo)意義,因此為保證規(guī)則的應(yīng)用價值,在算法實現(xiàn)過程中只挖掘形如X?Y的關(guān)聯(lián)規(guī)則,這樣可以減少大量的冗余關(guān)聯(lián)規(guī)則,提高算法效率.

        2 基于興趣度的學(xué)習(xí)行為分析方法

        2.1 基于興趣度的學(xué)習(xí)行為分析

        傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法在分析學(xué)習(xí)效果的影響因素時,通常僅考慮支持度和置信度指標(biāo)[15],而且置信度只考慮X出現(xiàn)時Y的出現(xiàn)概率,而未考慮X未出現(xiàn)時Y的出現(xiàn)概率,因此在挖掘時會得到大量的冗余規(guī)則,難以實用.因此,本文采用含有興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法對學(xué)習(xí)行為進行分析,以獲得屬性間更多的信息.

        假設(shè)學(xué)生的一系列學(xué)習(xí)行為屬性為集合A={A1,A2,…,Am}, 每個屬性有k個不同等級的具體取值.根據(jù)實際學(xué)習(xí)情況,屬性不同k取值不同.假設(shè)學(xué)生的每條學(xué)習(xí)行為數(shù)據(jù)對應(yīng)的學(xué)習(xí)成績?yōu)閆, 并且Z按分數(shù)值劃分為n個等級,即Z={Z1,Z2,…,Zn}.在分析學(xué)習(xí)行為過程中,本文引入基于概率相關(guān)性的興趣度模型思想,通過計算興趣度值分析學(xué)習(xí)行為屬性與學(xué)習(xí)成績之間的深層關(guān)系.一般情況下,學(xué)習(xí)行為總量為某一具體常數(shù),則屬性間的興趣度計算過程可由式(5)所示:

        (5)

        2.2 具體算法步驟

        數(shù)據(jù)挖掘的過程一般包括4個部分:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析和結(jié)果解釋.關(guān)聯(lián)規(guī)則算法是通過挖掘頻繁項集來發(fā)現(xiàn)屬性間的聯(lián)系,但若數(shù)據(jù)量大產(chǎn)生的規(guī)則也就越多,用戶很難觀察到某些細化區(qū)域的隱含規(guī)則,因此本文將聚類分析作為數(shù)據(jù)挖掘的一個步驟.首先對樣本數(shù)據(jù)進行聚類將區(qū)域細化,然后對不同簇類的數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,以此提高挖掘效率.

        本文采用基于興趣度的關(guān)聯(lián)規(guī)則算法進行學(xué)習(xí)行為分析的主要步驟如下:

        1)獲取用戶的原始學(xué)習(xí)行為數(shù)據(jù),并進行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)離散化等操作,預(yù)處理后的數(shù)據(jù)存入數(shù)據(jù)庫,形成樣本數(shù)據(jù)集;

        2)采用K-means算法進行聚類,利用公式(1)選取聚類簇數(shù),將數(shù)據(jù)區(qū)域細則化,生成相互區(qū)分的類.以學(xué)習(xí)成績作為學(xué)習(xí)效果的依據(jù),對各類學(xué)習(xí)行為和學(xué)習(xí)效果進行歸納分析;

        3)采用基于興趣度的關(guān)聯(lián)規(guī)則算法對各區(qū)域數(shù)據(jù)進行挖掘,利用式(2)和式(3)得到影響學(xué)習(xí)效果的學(xué)習(xí)行為因素,然后根據(jù)式(5)計算結(jié)果,分析學(xué)習(xí)行為與學(xué)習(xí)效果之間的深層聯(lián)系.

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)預(yù)處理

        實驗數(shù)據(jù)來自edX平臺提供的MITx的2013年春季編號為8.02x的課程學(xué)習(xí)記錄,該數(shù)據(jù)集含有學(xué)習(xí)者從注冊到最后結(jié)業(yè)成績的所有學(xué)習(xí)數(shù)據(jù),共計18 579條.實驗主要提取的學(xué)習(xí)特征分別是:是否訪問課件標(biāo)簽(A),訪問課程是否過半(B),互動次數(shù)(C),視頻播放次數(shù)(D),互動的章節(jié)數(shù)(E),論壇發(fā)帖數(shù)(F),是否獲得證書(G),成績結(jié)果(Z).為提高數(shù)據(jù)挖掘的效率,首先進行數(shù)據(jù)預(yù)處理操作,將原始數(shù)據(jù)離散化,獲得的部分學(xué)習(xí)特征數(shù)據(jù)如表1所示.

        表1 學(xué)習(xí)特征表

        表1中,每一行數(shù)值代表某一名學(xué)習(xí)者的全部學(xué)習(xí)特征,各特征項的屬性見表2.

        表2 特征值的屬性

        3.2 聚類分析

        實驗以Eclipse環(huán)境為平臺,用Python作為開發(fā)語言,采用K-means算法對獲得的學(xué)習(xí)特征進行聚類分析.首先,通過聚類準(zhǔn)則函數(shù)確定最佳的聚類簇數(shù),其結(jié)果如圖1所示.

        圖1 聚類的數(shù)目

        由圖1可以看出,曲線呈不斷下降趨勢,但結(jié)合實際情況可知聚類數(shù)不可能取無限小的值,否則失去研究意義.當(dāng)簇的數(shù)目為3時,曲線變化率最大,即聚類效果最好,因此本實驗選取聚類數(shù)為3.聚類結(jié)果如表3所示,表中列舉了每類含有的主要特征項,括號內(nèi)的數(shù)值為具體人數(shù).

        從表3可以看出,第1類消極型學(xué)習(xí)者幾乎沒有瀏覽過課件和視頻等學(xué)習(xí)內(nèi)容,并且?guī)缀鯖]有過互動,學(xué)習(xí)質(zhì)量很差,沒有獲得證書.第2類被動型學(xué)習(xí)者雖然大多數(shù)瀏覽過課件和視頻,以及有過互動學(xué)習(xí)經(jīng)歷,但大多數(shù)沒能堅持學(xué)習(xí)到課程的一半,學(xué)習(xí)效果并不理想,也沒能獲得證書.第3類主動型學(xué)習(xí)者都瀏覽過課件和視頻,互動和發(fā)帖數(shù)較多,而且能夠堅持長時間學(xué)習(xí),因此這類學(xué)習(xí)者的學(xué)習(xí)效果較好,大多獲得了相應(yīng)的課程證書.

        表3 聚類結(jié)果

        注:第1類約占總?cè)藬?shù)的25%,第2類約占總?cè)藬?shù)的70%,第3類約占總?cè)藬?shù)的5%.

        3.3 關(guān)聯(lián)規(guī)則分析

        為找出影響學(xué)習(xí)效果的重要因素,分別采用傳統(tǒng)的Apriori算法和含有興趣度的改進算法對不同類型學(xué)習(xí)者的學(xué)習(xí)特征數(shù)據(jù)進行挖掘,獲得的關(guān)聯(lián)規(guī)則數(shù)目如表4所示.

        表4 不同關(guān)聯(lián)規(guī)則算法的實驗結(jié)果

        實驗結(jié)果顯示,采用含興趣度的算法獲得的強規(guī)則數(shù)目比傳統(tǒng)Apriori算法減少了40.9%.學(xué)習(xí)成績作為學(xué)習(xí)效果的重要體現(xiàn),分析與其相關(guān)的強規(guī)則可獲知學(xué)習(xí)者的學(xué)習(xí)行為與學(xué)習(xí)效果之間的關(guān)系.由于大多數(shù)學(xué)習(xí)者屬于被動型學(xué)習(xí)類型,因此本文以被動型學(xué)習(xí)者為例進行分析.被動型學(xué)習(xí)類型的部分強規(guī)則如表5所示.

        表5 部分強規(guī)則

        由表5中的置信度可知,所選擇的學(xué)習(xí)特征都是影響學(xué)習(xí)成績的重要因素.由G0 ?Z0的興趣度為1.0可知,是否獲得證書和成績的關(guān)系是相互獨立的,不能以成績優(yōu)劣決定是否能獲得證書.學(xué)習(xí)特征A、D與Z之間的興趣度值均小于1,即訪問課件、播放視頻與成績的關(guān)系為負相關(guān),說明當(dāng)增多訪問課件、播放視頻等行為時,成績?yōu)?分的情況會減少;而特征B、C、E、F與Z之間的興趣度值均大于1,即訪問課程的次數(shù)不過半,互動次數(shù)少、學(xué)習(xí)的章節(jié)數(shù)少、不發(fā)帖討論等與成績的關(guān)系為正相關(guān),說明這些情況的出現(xiàn)會增加成績?yōu)?分的情況.

        4 結(jié)論

        本文以在線課堂的用戶學(xué)習(xí)行為數(shù)據(jù)為研究對象,通過引入興趣度指標(biāo)的關(guān)聯(lián)規(guī)則算法研究了學(xué)習(xí)行為因素與學(xué)習(xí)效果之間的關(guān)系.實驗結(jié)果表明,相比傳統(tǒng)關(guān)聯(lián)規(guī)則本文方法可有效去除冗余規(guī)則,并且可得出規(guī)則前后件的具體聯(lián)系,有利于指導(dǎo)用戶改善學(xué)習(xí)行為.影響學(xué)習(xí)效果的因素較為復(fù)雜,本文僅對在線學(xué)習(xí)用戶的部分學(xué)習(xí)行為因素進行了分析,今后將考慮網(wǎng)絡(luò)環(huán)境、學(xué)習(xí)資源等其他因素對學(xué)習(xí)行為因素的影響,以及提高數(shù)據(jù)挖掘算法的準(zhǔn)確率,以更有效地分析學(xué)習(xí)行為因素之間的深層關(guān)系,提高在線學(xué)習(xí)用戶的學(xué)習(xí)效果.

        猜你喜歡
        置信度學(xué)習(xí)效果數(shù)據(jù)挖掘
        “百詞斬”對于大學(xué)英語四級詞匯學(xué)習(xí)效果的實證研究
        民族文匯(2022年14期)2022-05-10 03:08:22
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        基于學(xué)習(xí)性評價原則提高研究性學(xué)習(xí)效果的研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        蓮心寶寶有話說
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        欧美激情内射喷水高潮| 精品成人av人一区二区三区| 日本精品免费看99久久| 国产乡下妇女做爰| 亚洲国产精品高清一区| 天天躁夜夜躁狠狠躁2021a2| 午夜福利92国语| av无码天堂一区二区三区 | 一本到无码AV专区无码| 精品人妻无码中文字幕在线| 亚洲中文字幕精品一区二区| 免费观看在线视频一区| 一本久道久久丁香狠狠躁| 久久婷婷综合激情五月| av免费不卡国产观看| 日本亚洲色大成网站www久久| 国产a级精精彩大片免费看| 国产午夜激无码AV毛片不卡| 亚洲麻豆av一区二区| 喷水白浆视频在线观看| 色欲综合一区二区三区| 高中生粉嫩无套第一次| 无码国产日韩精品一区二区| 蜜桃码一区二区三区在线观看| 日本av一区二区三区在线| 国产日产精品一区二区三区四区的特点 | 免费看男女啪啪的视频网站| 日韩一级精品亚洲一区二区精品| 美丽的小蜜桃在线观看| 日韩经典午夜福利发布| 欧美亚洲日本国产综合在线美利坚| 少女高清影视在线观看动漫| 中文精品久久久久中文| 亚洲人妻中文字幕在线视频| 日韩av一区二区蜜桃| 精品亚洲第一区二区三区| 激情伊人五月天久久综合| 精品久久亚洲中文无码| 日本女同伦理片在线观看| 青青草好吊色在线观看| 夜夜春亚洲嫩草影院|