亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行Adaboost-BP網(wǎng)絡(luò)的大規(guī)模在線學(xué)習(xí)行為評價

        2017-08-12 15:45:56曹建芳郝耀軍
        關(guān)鍵詞:評價模型

        曹建芳 郝耀軍

        (忻州師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 山西 忻州 034000)

        ?

        基于并行Adaboost-BP網(wǎng)絡(luò)的大規(guī)模在線學(xué)習(xí)行為評價

        曹建芳 郝耀軍

        (忻州師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 山西 忻州 034000)

        針對傳統(tǒng)的在線學(xué)習(xí)行為評價方法在處理大規(guī)模數(shù)據(jù)集時面臨的問題,提出一種基于并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)的在線學(xué)習(xí)行為評價方法。將BP神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測器,由Adaboost算法組合15個BP神經(jīng)網(wǎng)絡(luò)的輸出,構(gòu)建了強(qiáng)預(yù)測器;充分利用了Hadoop平臺下MapReduce并行編程模型,提出了大規(guī)模在線學(xué)習(xí)行為的自動評價模型,設(shè)計(jì)了并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法的Map和Reduce任務(wù)。多組實(shí)驗(yàn)表明,提出的算法準(zhǔn)確率高、運(yùn)行耗時少,取得了良好的加速比,效率大于0.5,適合大規(guī)模在線學(xué)習(xí)行為的自動評價。

        Adaboost-BP神經(jīng)網(wǎng)絡(luò) 在線學(xué)習(xí)行為 特征提取 MapReduce并行編程模型

        0 引 言

        網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展打破了傳統(tǒng)的學(xué)習(xí)方式,網(wǎng)絡(luò)環(huán)境下開放的教學(xué)資源(MOOC、網(wǎng)易公開課、視頻公開課等)為用戶學(xué)習(xí)提供了愈來愈多的便利,基于網(wǎng)絡(luò)的學(xué)習(xí)逐漸成為一種新型的學(xué)習(xí)方式。然而,網(wǎng)絡(luò)環(huán)境下學(xué)習(xí)者處于自主學(xué)習(xí)的狀態(tài),學(xué)習(xí)行為有很大的隨意性和片面性。隨著在線學(xué)習(xí)用戶數(shù)量的增多,學(xué)習(xí)效果受到愈來愈多師生的關(guān)注。而網(wǎng)絡(luò)學(xué)習(xí)師生分離,教師無法很好地監(jiān)控學(xué)生的學(xué)習(xí)行為,學(xué)生也由于是自主學(xué)習(xí)而表現(xiàn)出更多的主觀隨意性。因此,針對大規(guī)模的網(wǎng)絡(luò)在線學(xué)習(xí)者,建立學(xué)校效果評價模型,自動監(jiān)督學(xué)習(xí)者的學(xué)習(xí)行為,評價其學(xué)習(xí)效果并將結(jié)果反饋給學(xué)習(xí)者,激發(fā)學(xué)習(xí)者的學(xué)習(xí)主動性,用以指導(dǎo)學(xué)習(xí)者進(jìn)行有效的自主學(xué)習(xí),是高校教學(xué)工作者和學(xué)習(xí)者關(guān)心的熱點(diǎn)問題,也成為計(jì)算機(jī)智能信息處理的重要內(nèi)容。

        1 相關(guān)工作

        近年來,隨著網(wǎng)絡(luò)學(xué)習(xí)用戶的急劇增加,研究學(xué)者們逐漸展開了對在線學(xué)習(xí)的分析研究。石娟[1]通過對學(xué)習(xí)績效的研究,提出了一種使用網(wǎng)絡(luò)協(xié)作進(jìn)行知識建構(gòu)的基于問題的學(xué)生學(xué)習(xí)績效評價方法。之后,石娟[2]又使用該方法構(gòu)建了學(xué)習(xí)行為評價體系,并實(shí)施應(yīng)用,檢驗(yàn)其提出的方法的可行性和有效性。針對MOOC平臺產(chǎn)生的教育大數(shù)據(jù),蔣卓軒等[3]對其做了數(shù)據(jù)分析和預(yù)測,為MOOC教學(xué)的測評提供了一種依據(jù)。劉士喜等[4]對MOOC環(huán)境下學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行了分析并做出了學(xué)習(xí)效果的預(yù)測。李爽等[5]通過分析學(xué)習(xí)者學(xué)習(xí)行為的投入,建立了學(xué)習(xí)行為投入框架和21個測量指標(biāo),為促進(jìn)有效學(xué)習(xí)提供理論指導(dǎo)。但上述研究雖然對在線學(xué)習(xí)行為做了一定程度的分析,但大多是基于人工方式的,都沒有做自動的評價分析和預(yù)測。信息技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展使得研究學(xué)者們開始探討如何讓計(jì)算機(jī)對在線學(xué)習(xí)行為進(jìn)行自動分析。姜華等[6]使用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建了學(xué)習(xí)行為評價模型,在小樣本集上進(jìn)行了訓(xùn)練和測試,取得了較好的評價效果。劉明春[7]也使用BP神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)環(huán)境下學(xué)習(xí)者的學(xué)習(xí)行為做了評價分析。戴慧珺等[8]將決策樹算法應(yīng)用于MOOC歷史數(shù)據(jù)的分析中,提出了一種教學(xué)評估方法。上述機(jī)器學(xué)習(xí)算法對在線學(xué)習(xí)行為的分析和預(yù)測都是基于小樣本數(shù)據(jù)集的,然而網(wǎng)絡(luò)教育的迅速發(fā)展以及在線學(xué)習(xí)人數(shù)的急劇增長已導(dǎo)致海量數(shù)據(jù)的產(chǎn)生,隨著數(shù)據(jù)量的急劇膨脹,這些基于小樣本集的算法效率會驟然下降。MapReduce是近幾年發(fā)展起來的Hadoop平臺下的并行編程框架,能夠在基本不增加硬件成本的前提下實(shí)現(xiàn)分布式并行處理,這使得傳統(tǒng)機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)并行處理成為可能。江小平等[9]實(shí)現(xiàn)了基于MapReduce的并行K-Means聚類算法,實(shí)驗(yàn)測試取得了很好的加速比和擴(kuò)展性。吳昊等[10]提出了MapReduce環(huán)境下的蟻群算法。為解決BP神經(jīng)網(wǎng)絡(luò)處理海量數(shù)據(jù)存在的時間效率低下等問題,苑超等[11]提出了基于MapReduce的BP神經(jīng)網(wǎng)絡(luò)算法并將其應(yīng)用于農(nóng)業(yè)領(lǐng)域的精準(zhǔn)施肥中,有效地指導(dǎo)了施肥過程。

        海量數(shù)據(jù)的產(chǎn)生給傳統(tǒng)的機(jī)器學(xué)習(xí)算法帶來了極大的挑戰(zhàn),而Hadoop平臺下MapReduce并行編程框架為海量數(shù)據(jù)的處理提供了新的思路。本文針對網(wǎng)絡(luò)環(huán)境下學(xué)習(xí)者在線學(xué)習(xí)產(chǎn)生的教育大數(shù)據(jù),為提高預(yù)測性能,提出了并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法,在MapReduce環(huán)境下將BP神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測器,由Adaboost算法組合弱預(yù)測器的結(jié)果構(gòu)建了強(qiáng)預(yù)測器,對在線學(xué)習(xí)行為進(jìn)行評價分析。

        2 基于MapReduce的Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法

        2.1 Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法

        為構(gòu)造出一個好的網(wǎng)絡(luò)結(jié)構(gòu),傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)算法根據(jù)經(jīng)驗(yàn)和反復(fù)實(shí)驗(yàn)不斷測試網(wǎng)絡(luò),以保證獲得好的泛化能力。Hansen等[12]證明,反復(fù)訓(xùn)練多個神經(jīng)網(wǎng)絡(luò)并組合其輸出可以顯著提高神經(jīng)網(wǎng)絡(luò)算法的泛化能力。而由Freund等[13]在1999年提出的Adaboost迭代算法,通過反復(fù)搜索樣本特征空間,獲取樣本權(quán)重,并在迭代過程中不斷調(diào)整訓(xùn)練樣本的權(quán)重,增加預(yù)測精度低的樣本的權(quán)重、減小預(yù)測精度高的樣本的權(quán)重,并通過線性組合形成一個強(qiáng)預(yù)測器,顯著提高學(xué)習(xí)算法的預(yù)測性能,而且Adaboost算法由于不需要事先知道弱預(yù)測學(xué)習(xí)算法的精度下限而被廣泛應(yīng)用于各類實(shí)際問題中。Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法就是將Adaboost算法與BP神經(jīng)網(wǎng)絡(luò)算法有機(jī)結(jié)合,將BP神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測器,由Adaboost算法組合多個BP神經(jīng)網(wǎng)絡(luò)的輸出構(gòu)建強(qiáng)預(yù)測器。算法的執(zhí)行步驟[14]為:

        (1) 初始化樣本數(shù)據(jù)的分布權(quán)值和BP神經(jīng)網(wǎng)絡(luò)。

        確定BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),輸入層節(jié)點(diǎn)數(shù)根據(jù)樣本特征維數(shù)確定,輸出層個數(shù)根據(jù)輸出結(jié)果維數(shù)確定,隱含層節(jié)點(diǎn)數(shù)由以下公式確定:

        (1)

        式中,ni、no、nh分別表示BP神經(jīng)網(wǎng)絡(luò)輸入層、輸出層和隱含層的節(jié)點(diǎn)數(shù);α為[0,1]之間的隨機(jī)數(shù)。

        將BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值初始化為[0,1]之間的隨機(jī)數(shù)。

        (2) 單個BP神經(jīng)網(wǎng)絡(luò)弱預(yù)測器預(yù)測。訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),根據(jù)每個神經(jīng)網(wǎng)絡(luò)的輸出計(jì)算預(yù)測序列g(shù)(t)的預(yù)測誤差和εt:

        (2)

        式中,gt(xi)為BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果,yi為期望的預(yù)測結(jié)果。

        (3) 計(jì)算預(yù)測序列的權(quán)重αt:

        (3)

        (4)

        式中,Bt為歸一化因子,作用是使得在權(quán)重比例不變時權(quán)值總和保持為1。

        (5) 構(gòu)造強(qiáng)預(yù)測函數(shù)。組合T輪訓(xùn)練后得到的T組弱預(yù)測函數(shù)f(gt,αt),得到強(qiáng)預(yù)測函數(shù)h(x):

        (5)

        2.2 MapReduce并行編程模型

        MapReduce是Hadoop平臺分布式并行處理的核心技術(shù)之一,它采用標(biāo)準(zhǔn)的函數(shù)式編程計(jì)算模型,將計(jì)算分為Map和Reduce兩個任務(wù),分別對應(yīng)mapper()和reducer()兩個函數(shù),主要是以鍵值對的形式,按照一定的映射規(guī)則將輸入的鍵值對轉(zhuǎn)換為另一個鍵值對輸出。Map任務(wù)主要是將大數(shù)據(jù)集分解成一個個的小數(shù)據(jù)集split,然后利用Hadoop集群中的空閑節(jié)點(diǎn)進(jìn)行計(jì)算并產(chǎn)生中間結(jié)果;而Reduce任務(wù)會根據(jù)指令對Map任務(wù)產(chǎn)生的中間結(jié)果進(jìn)行遍歷、排序,產(chǎn)生最終的結(jié)果??梢钥闯?,MapReduce并行編程模型利用mapper()函數(shù)實(shí)現(xiàn)了對大數(shù)據(jù)集的分割,將分割后的小數(shù)據(jù)集交由各節(jié)點(diǎn)處理,而reducer()函數(shù)又綜合了各節(jié)點(diǎn)的處理結(jié)果,從而達(dá)到了分布式并行處理的目的。

        2.3 并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法

        為克服傳統(tǒng)的Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法在面對海量樣本數(shù)據(jù)時存在的硬件開銷大、訓(xùn)練時間長等問題,本文利用MapReduce并行編程模型對Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了并行化設(shè)計(jì),有效地縮短了訓(xùn)練時間,提高了預(yù)測精度。其模型結(jié)構(gòu)如圖1所示。

        圖1 算法并行化模型

        2.3.1 Adaboost-BP-mapper()設(shè)計(jì)及實(shí)現(xiàn)

        Map階段,mapper()函數(shù)針對每個BP神經(jīng)網(wǎng)絡(luò)弱預(yù)測器,逐層計(jì)算網(wǎng)絡(luò)輸出,并與期望值相比較,得出預(yù)測誤差εt,然后以此更新連接權(quán)值,進(jìn)行重新標(biāo)記。函數(shù)偽代碼如下:

        輸入:<弱預(yù)測器ID, 樣本特征值>

        輸出:<弱預(yù)測器ID,εt>

        {

        //對每個弱預(yù)測器

        訓(xùn)練弱預(yù)測器:

        {

        計(jì)算網(wǎng)絡(luò)各層的輸出;

        計(jì)算網(wǎng)絡(luò)的學(xué)習(xí)誤差;

        更新網(wǎng)絡(luò)連接權(quán)值;

        }

        截至2017年底,全國鐵路營業(yè)里程達(dá)12.7萬公里,其中高鐵2.5萬公里;公路總里程477.15萬公里,其中高速公路13.6萬公里;港口萬噸級以上泊位達(dá)2317個;民航運(yùn)輸機(jī)場發(fā)展到229個。交通與物流融合發(fā)展,物流基礎(chǔ)設(shè)施網(wǎng)絡(luò)基本成型。

        獲取弱預(yù)測器的預(yù)測函數(shù)gt;

        計(jì)算預(yù)測誤差εt;

        輸出(弱預(yù)測器ID,εt);

        }

        2.3.2 Adaboost-BP-combine()設(shè)計(jì)及實(shí)現(xiàn)

        在MapReduce并行編程模型中,使用Combine()函數(shù)可以對Map階段產(chǎn)生的中間結(jié)果做本地處理,從而大大降低通信開銷。因此,本文在Reduce階段之前先設(shè)計(jì)Adaboost-BP-combine()函數(shù)對Adaboost-BP-mapper()函數(shù)產(chǎn)生的中間結(jié)果進(jìn)行了本地處理。函數(shù)偽代碼如下:

        輸入:<弱預(yù)測器ID,εt>

        Adaboost-BP-combine (弱預(yù)測器ID,εt)

        {

        count←0;

        //統(tǒng)計(jì)訓(xùn)練弱預(yù)測器數(shù)

        //對每個弱預(yù)測器

        解析并處理εt的各維坐標(biāo)值;

        count←count+1;

        }

        2.3.3 Adaboost-BP-reducer()設(shè)計(jì)及實(shí)現(xiàn)

        Reduce階段,reducer()函數(shù)接收combine()函數(shù)的輸出,合并、計(jì)算,形成最終輸出結(jié)果。函數(shù)偽代碼如下:

        {

        }

        3 大規(guī)模在線學(xué)習(xí)行為評價

        3.1 特征提取

        使用機(jī)器學(xué)習(xí)算法對在線學(xué)習(xí)行為自動評價之前,需要首先確定能夠反映學(xué)習(xí)者學(xué)習(xí)行為的主要特征,即影響學(xué)習(xí)行為的主要因素。根據(jù)學(xué)習(xí)者在網(wǎng)絡(luò)環(huán)境下學(xué)習(xí)的軌跡和調(diào)研,確定了以下11個特征作為本文設(shè)計(jì)的算法中BP神經(jīng)網(wǎng)絡(luò)的輸入:登錄次數(shù)(x1)、停留時間(x2)、已瀏覽的媒體類型數(shù)(x3)、提交作業(yè)的次數(shù)(x4)、作業(yè)打分(x5)、參與測驗(yàn)次數(shù)(x6)、上傳資源次數(shù)(x7)、瀏覽資源次數(shù)(x8)、下載資源次數(shù)(x9)、討論發(fā)言次數(shù)(x10)和在線交流時間(x11)。這些都是定量指標(biāo),為方便處理,BP神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)都做了歸一化。最終輸出的結(jié)果為3個評價標(biāo)準(zhǔn):學(xué)習(xí)積極性(y1)、知識點(diǎn)掌握情況(y2)和分析、解決實(shí)際問題的能力(y3),本文對這3個定性指標(biāo)做了量化,取值范圍都在0-1之間,分3檔,[0.8,1]表示“優(yōu)”,[0.5,0.8)表示“中”,[0,0.5)表示“差”。

        3.2 評價模型的構(gòu)建

        根據(jù)學(xué)習(xí)者常采用的在線學(xué)習(xí)方式,并結(jié)合目前網(wǎng)絡(luò)教育的現(xiàn)狀,本文提出的基于并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)的大規(guī)模在線學(xué)習(xí)評價模型如圖2所示。

        圖2 大規(guī)模在線學(xué)習(xí)評價模型

        3.3 在線學(xué)習(xí)行為評價的實(shí)現(xiàn)

        基于并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)的大規(guī)模在線學(xué)習(xí)行為評價模型,根據(jù)采集到的學(xué)習(xí)者在線學(xué)習(xí)行為特征,在Hadoop平臺下利用MapReduce并行編程模型實(shí)現(xiàn)并行處理,實(shí)現(xiàn)在線學(xué)習(xí)行為的自動評價。具體步驟為:

        (1) 確定模型的拓?fù)浣Y(jié)構(gòu)。本文將15個BP神經(jīng)網(wǎng)絡(luò)作為弱預(yù)測器,對于每個BP神經(jīng)網(wǎng)絡(luò),由于輸入是x1至x1111個在線學(xué)習(xí)行為特征,輸出是y1至y33個評價指標(biāo),所以根據(jù)式(1)構(gòu)建了11-4-3的網(wǎng)絡(luò)結(jié)構(gòu)。

        (2) 確定學(xué)習(xí)樣本數(shù)據(jù),并根據(jù)式(6)對數(shù)據(jù)做歸一化處理。

        (6)

        式中,xi為樣本特征值,xmax、xmin分別為樣本空間中對應(yīng)特征的最大值和最小值,ri為歸一化處理后的特征值。

        (3) 并行訓(xùn)練Adaboost-BP神經(jīng)網(wǎng)絡(luò)。根據(jù)本文提出的并行Adaboost-BP算法,搭建Hadoop集群,不斷更新連接權(quán)值,反復(fù)修正誤差,訓(xùn)練網(wǎng)絡(luò),組合各網(wǎng)絡(luò)輸出結(jié)果。

        (4) 評價預(yù)測。使用訓(xùn)練好的網(wǎng)絡(luò)結(jié)構(gòu),對在線學(xué)習(xí)者的學(xué)習(xí)行為進(jìn)行預(yù)測,并將結(jié)果反饋給學(xué)習(xí)者。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)來源

        實(shí)驗(yàn)環(huán)境:5臺計(jì)算機(jī)搭建Hadoop集群,1臺為Master節(jié)點(diǎn),其余4臺為Slave節(jié)點(diǎn)。所有節(jié)點(diǎn)計(jì)算機(jī)都采用4 GB內(nèi)存、主頻3.4 GHz的四核處理器,1 TB硬盤空間的基本配置,使用Ubuntu操作系統(tǒng)。

        數(shù)據(jù)來源:本文使用的實(shí)驗(yàn)數(shù)據(jù)來源于中國大學(xué)MOOC上的在線學(xué)習(xí)者的學(xué)習(xí)行為,由于數(shù)據(jù)采集和統(tǒng)計(jì)工作量較大,因此共收集整理了20 000條有效數(shù)據(jù)作為本文的實(shí)驗(yàn)數(shù)據(jù)集(今后會進(jìn)一步擴(kuò)大數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)),采用計(jì)算機(jī)隨機(jī)選擇的方法構(gòu)造了5個數(shù)據(jù)集Data1、Data2、Data3、Data4、Data5,各數(shù)據(jù)集包含的樣本數(shù)據(jù)量分別為:500、2 000、5 000、10 000、20 000。

        4.2 性能測試與分析

        為驗(yàn)證提出的算法的評價效果,本文從預(yù)測準(zhǔn)確率、運(yùn)行耗時以及加速比和效率等幾個方面進(jìn)行了實(shí)驗(yàn)對比。

        (1) 預(yù)測準(zhǔn)確率

        預(yù)測準(zhǔn)確率是常用的一個評測標(biāo)準(zhǔn),指的是在一次預(yù)測過程中,系統(tǒng)得到的在線學(xué)習(xí)行為評價準(zhǔn)確(與專家的人工評價相比較)的學(xué)習(xí)者數(shù)目占參與評價的所有學(xué)習(xí)者數(shù)目的比例。

        (7)

        式中,n為一次預(yù)測過程中得到的在線學(xué)習(xí)行為評價準(zhǔn)確的學(xué)習(xí)者數(shù)目;T為參與評價的學(xué)習(xí)者總數(shù)。

        本文在不同的數(shù)據(jù)規(guī)模下,在訓(xùn)練樣本與測試樣本分別為3∶2、2∶1、3∶1、5∶1的比例下,對Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法、文獻(xiàn)[11]中提出的并行BP神經(jīng)網(wǎng)絡(luò)算法以及本文提出的并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測準(zhǔn)確率進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如表1所示。

        表1 不同數(shù)據(jù)規(guī)模下不同算法性能比較

        從表1的數(shù)據(jù)可以看出,本文提出的并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法的預(yù)測準(zhǔn)確率明顯優(yōu)于傳統(tǒng)的Adaboost-BP神經(jīng)網(wǎng)絡(luò)和文獻(xiàn)[11]提出的并行BP神經(jīng)網(wǎng)絡(luò)算法。隨著樣本數(shù)據(jù)集的不斷增大,雖然三種算法的準(zhǔn)確率都有下降,但傳統(tǒng)的Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法由于是串行處理導(dǎo)致準(zhǔn)確率急劇下降,而并行BP神經(jīng)網(wǎng)絡(luò)和本文提出的算法下降的幅度不是很大,這也充分說明了MapReduce并行編程模型更適合于處理大數(shù)據(jù)集。另外,從標(biāo)準(zhǔn)差的統(tǒng)計(jì)結(jié)果看,無論在哪種數(shù)據(jù)規(guī)模下,本文提出的算法標(biāo)準(zhǔn)差最小,這說明使用并行Adaboost-BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行在線學(xué)習(xí)行為評價產(chǎn)生的波動最小,相對于Adaboost-BP算法和并行BP算法,本文提出的并行Adaboost-BP算法算法性能優(yōu)越。

        (2) 運(yùn)行耗時

        為進(jìn)一步驗(yàn)證提出的算法的有效性,本文使用15 000條數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò),其余的5 000條數(shù)據(jù)做測試,在不同的從節(jié)點(diǎn)數(shù)情況下對并行BP神經(jīng)網(wǎng)絡(luò)算法和本文的算法做了運(yùn)行耗時的實(shí)驗(yàn)對比。比較結(jié)果如圖3所示。

        圖3 運(yùn)行耗時比較

        圖3的數(shù)據(jù)表明,由于本文提出的算法并行使用Adaboost算法構(gòu)建了強(qiáng)預(yù)測器,而且設(shè)計(jì)了Combine()函數(shù)降低了通信開銷,因此訓(xùn)練網(wǎng)絡(luò)和預(yù)測的運(yùn)行耗時較少,取得了較理想的實(shí)驗(yàn)效果。

        (3) 加速比和效率

        加速比[15]是指同一任務(wù)在單個計(jì)算節(jié)點(diǎn)的運(yùn)行時間與多個計(jì)算節(jié)點(diǎn)的運(yùn)行時間的比值,效率[15]是加速比與計(jì)算節(jié)點(diǎn)數(shù)量的比值,二者都是衡量Hadoop集群下并行算法效率的重要指標(biāo)。圖4(a)和(b)分別是在Data1-Data5不同數(shù)據(jù)規(guī)模下的加速比與效率的實(shí)驗(yàn)結(jié)果。

        圖4 性能對比

        理想狀態(tài)下,加速比應(yīng)隨著節(jié)點(diǎn)數(shù)的增加而線性增長,效率始終保持1不變。但由于受到通信開銷、負(fù)載平衡等因素的影響,加速比不能線性增長,效率也達(dá)不到1,一般認(rèn)為,只要效率達(dá)到了0.5,就認(rèn)為獲得了很好的性能。從圖4(a)和(b)可以看出,在不同的數(shù)據(jù)規(guī)模下,加速比隨著節(jié)點(diǎn)個數(shù)的增加而增加,系統(tǒng)效率也始終在0.5以上,充分說明系統(tǒng)獲得了很好的性能。另外,面對大規(guī)模數(shù)據(jù)集,節(jié)點(diǎn)個數(shù)愈多,加速比與效率性能愈好,這也進(jìn)一步說明了MapReduce并行編程模型更適合于處理大規(guī)模數(shù)據(jù)集,數(shù)據(jù)集愈大,愈能充分發(fā)揮各節(jié)點(diǎn)的計(jì)算能力。

        5 結(jié) 語

        本文對基于并行Adaboost-BP神經(jīng)網(wǎng)路的大規(guī)模在線學(xué)習(xí)行為評價做了深入的探討和研究,研究了如何并行使用Adaboost算法構(gòu)建強(qiáng)預(yù)測器,并將其應(yīng)用于在線學(xué)習(xí)行為的評價和預(yù)測中,在Hadoop平臺上實(shí)現(xiàn)了大規(guī)模在線學(xué)習(xí)行為的自動評價,用以指導(dǎo)學(xué)習(xí)者的學(xué)習(xí)行為。實(shí)驗(yàn)結(jié)果表明,提出的算法預(yù)測準(zhǔn)確率高,運(yùn)行耗時少,搭建的Hadoop集群能充分利用各計(jì)算節(jié)點(diǎn)的資源,提高訓(xùn)練和預(yù)測速度,相對于單節(jié)點(diǎn)架構(gòu),系統(tǒng)獲得了很好的性能,充分體現(xiàn)了分布式并行處理架構(gòu)的強(qiáng)大運(yùn)算能力。

        伴隨著大數(shù)據(jù)時代的到來,對于各類大數(shù)據(jù)的分析和處理已成為新的研究熱點(diǎn)。本文下一步的研究工作主要包括:(1)擴(kuò)展Hadoop集群的節(jié)點(diǎn)數(shù),調(diào)節(jié)系統(tǒng)的相關(guān)參數(shù),進(jìn)一步提高分布式并行系統(tǒng)的工作效率;(2) 調(diào)整BP神經(jīng)網(wǎng)絡(luò)的參數(shù)和弱預(yù)測器的個數(shù),進(jìn)一步提高預(yù)測的準(zhǔn)確率;(3) 優(yōu)化MapReduce并行編程模型的Map任務(wù)和Reduce任務(wù)的設(shè)計(jì),從而實(shí)現(xiàn)更快、更精確的評價預(yù)測。

        [1] 石娟. 基于問題的Web-CKB學(xué)習(xí)績效評價研究[J].中國遠(yuǎn)程教育,2011(11):17-21,95.

        [2] 石娟. 基于問題的Web- CKB學(xué)習(xí)行為評價體系的構(gòu)建及教學(xué)應(yīng)用[J].中國電化教育,2015(3):115-118.

        [3] 蔣卓軒,張巖,李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計(jì)算機(jī)研究與發(fā)展,2015,52(3):614-628.

        [4] 劉士喜,胡曉靜,徐志紅,等. MOOCs環(huán)境下學(xué)習(xí)者學(xué)習(xí)行為分析與學(xué)習(xí)效果評估[J]. 巢湖學(xué)院學(xué)報(bào),2015,17(6):143-148.

        [5] 李爽,王增賢,喻忱,等. 在線學(xué)習(xí)行為投入分析框架與測量指標(biāo)研究[J].開放教育研究,2016,22(2):77-88.

        [6] 姜華,趙潔. 基于BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)行為評價模型及實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2005,22(8):89-91.

        [7] 劉明春. 基于BP神經(jīng)網(wǎng)絡(luò)的在線學(xué)習(xí)行為評價模型[J]. 無線互聯(lián)科技,2015(14):36-37,43.

        [8] 戴慧珺,桂小林,張成,等. 基于歷史大數(shù)據(jù)決策樹分類的MOOC教學(xué)評估方法研究[J]. 計(jì)算機(jī)教育,2015(22):52-55.

        [9] 江小平,李成華,向文,等. K-Means聚類算法的MapReduce并行化實(shí)現(xiàn)[J]. 華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,39(SI):120-124.

        [10] 吳昊,倪志偉,王會穎. 基于MapReduce的蟻群算法[J]. 計(jì)算機(jī)集成制造系統(tǒng),2012,18(7):1503-1509.

        [11] 苑超,李東明,李巖. 基于MapReduce的BP神經(jīng)網(wǎng)絡(luò)在精準(zhǔn)施肥中的應(yīng)用[J]. 中國農(nóng)機(jī)化學(xué)報(bào),2016,37(2):191-195.

        [12] Hansen L K.,Salamon P. Neural network ensembles[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1990,12(10):993-1001.

        [13] Robert E S. Theoretical views of boosting[C]//Proceedings of European Conference on Computational Learning Theory. Nordkirchen, Germany, Springer-Verlag,1999:1-10.

        [14] 曹建芳,陳俊杰,李海芳. 基于Adaboost-BP神經(jīng)網(wǎng)絡(luò)的圖像情感分類方法研究[J]. 山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,36(3):331-337.

        [15] 王賢偉,戴青云,姜文超. 基于MapReduce 的外觀設(shè)計(jì)專利圖像檢索方法[J]. 小型微型計(jì)算機(jī)系統(tǒng),2012,33(3):626-632.

        EVALUATION OF LARGE-SCALE ONLINE LEARNING BEHAVIOR BASED ON PARALLEL ADABOOST-BP NETWORK

        Cao Jianfang Hao Yaojun

        (DepartmentofComputerScienceandTechnology,XinzhouTeachersUniversity,Xinzhou034000,Shanxi,China)

        Aiming at the problems that traditional online learning behavior evaluation methods face when dealing with large-scale data sets, an online learning behavior evaluation method based on parallel Adaboost-BP neural network is proposed. The BP neural network was used as the weak predictor, and 15 BP neural networks were combined by the Adaboost algorithm to construct the strong predictor. The MapReduce parallel programming model of Hadoop platform was fully utilized. An automatic evaluation model of large-scale online learning behavior was proposed. The Map and Reduce tasks of parallel Adaboost-BP neural network algorithm were designed. The experimental results show that the proposed algorithm has high accuracy rate, low running time and good speedup ratio. The efficiency is more than 0.5, which is suitable for the automatic evaluation of large-scale online learning behavior.

        Adaboost-BP neural network Online learning behavior Feature extraction MapReduce parallel programming model

        2016-07-23。山西省自然科學(xué)基金項(xiàng)目(2013011017-2);山西省高等學(xué)校教學(xué)改革重點(diǎn)項(xiàng)目(J2015099);2014年度忻州師范學(xué)院重點(diǎn)學(xué)科專項(xiàng)課題(XK201308)。曹建芳,教授,主研領(lǐng)域:智能信息處理,大數(shù)據(jù)技術(shù)。郝耀軍,副教授。

        TP391

        A

        10.3969/j.issn.1000-386x.2017.07.049

        猜你喜歡
        評價模型
        一半模型
        SBR改性瀝青的穩(wěn)定性評價
        石油瀝青(2021年4期)2021-10-14 08:50:44
        中藥治療室性早搏系統(tǒng)評價再評價
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        基于Moodle的學(xué)習(xí)評價
        關(guān)于項(xiàng)目后評價中“專項(xiàng)”后評價的探討
        保加利亞轉(zhuǎn)軌20年評價
        亚洲女人被黑人巨大进入| 国模无码一区二区三区| 日日碰狠狠添天天爽超碰97| av色综合网站| 亚洲人妻av在线播放| 日韩精品在线免费视频| 日本最大色倩网站www| 啪啪免费网站| 日韩精品夜色二区91久久久 | 国产做床爱无遮挡免费视频| 中文字幕av素人专区| 国产乱妇无码大片在线观看 | 国产无遮挡aaa片爽爽| 男女啪啪免费体验区| 一个人免费观看在线视频播放 | 国产午夜激无码AV毛片不卡| 亚洲av天堂在线免费观看| 国产精品无码素人福利不卡| 亚洲日韩精品欧美一区二区一| 亚洲AV无码一区二区一二区色戒 | 亚洲av高清一区二区| 天天做天天添av国产亚洲| 亚洲av无码久久寂寞少妇| 最新永久无码AV网址亚洲| 女同一区二区三区在线观看| 日韩av无码精品一二三区| 日韩在线看片免费人成视频| 在线免费观看亚洲毛片| 亚洲天堂成人av在线观看| 94久久国产乱子伦精品免费 | 国产青青草自拍视频在线播放| 国产在线观看自拍av| 国产精品久久国产三级国不卡顿| 久久精品国产亚洲一区二区| 在线看亚洲一区二区三区| 国产三级精品三级| 亚洲精品你懂的在线观看| 日韩精品av在线一区二区| 国精产品一区一区三区有限在线 | 免费人成网站在线播放| 欧美奶涨边摸边做爰视频|