
(5)

圖1 干擾數(shù)據(jù)挖掘流程圖Fig.1 Flow chart of interference data mining
將Yj從DK中刪除并寫(xiě)入M后,需要重新計(jì)算DK的聚類(lèi)中心點(diǎn)[11],其相應(yīng)函數(shù)表達(dá)式為
(6)
式中:mk為DK中的數(shù)據(jù)點(diǎn)數(shù)量;x為大數(shù)據(jù)聚類(lèi)分析層數(shù);t為K類(lèi)數(shù)據(jù)總量.
為了更加精準(zhǔn)地挖掘干擾數(shù)據(jù),可以設(shè)置一個(gè)挖掘精度閾值α,當(dāng)挖掘精度小于α?xí)r,應(yīng)利用式(5)進(jìn)行二次挖掘[12].在干擾數(shù)據(jù)挖掘過(guò)程中挖掘精度的函數(shù)表達(dá)式為
(7)
2 基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型設(shè)計(jì)
利用數(shù)據(jù)估計(jì)量挖掘模型進(jìn)行運(yùn)算,不同服務(wù)器數(shù)據(jù)在大數(shù)據(jù)分析技術(shù)下可被分門(mén)別類(lèi),但由于挖掘出來(lái)的數(shù)據(jù)參數(shù)特征過(guò)多,無(wú)法直接利用這些挖掘結(jié)果設(shè)計(jì)最優(yōu)選取模型[13],因而需要依據(jù)以下兩點(diǎn)進(jìn)行篩選:
1) 挖掘出的數(shù)據(jù)具有的特征是否具有獨(dú)特性;
2) 該參數(shù)特征是否值得選取.
對(duì)此,需要額外構(gòu)建一個(gè)數(shù)據(jù)特征歸納集合R和數(shù)據(jù)特征選取標(biāo)準(zhǔn)集合T,目的是在大量數(shù)據(jù)參數(shù)特征挖掘下,以高精準(zhǔn)度選取效率對(duì)數(shù)據(jù)進(jìn)行融合[14].R中主要包括特征點(diǎn)集、數(shù)據(jù)擬合精度評(píng)估與參數(shù)特征,T中主要包括被挖掘的干擾數(shù)據(jù)和特征整合結(jié)果.
基于大數(shù)據(jù)分析的最優(yōu)選取模型由數(shù)據(jù)源整合、數(shù)據(jù)擬合與濾除干擾三方面共同作用,大數(shù)據(jù)分析技術(shù)通過(guò)采取相關(guān)性定義[15]對(duì)最優(yōu)數(shù)據(jù)的選擇幾率進(jìn)行計(jì)算,最優(yōu)選取模型可以表示為
(8)
式中:rp、cp、dij分別為集合R、T、D中的數(shù)據(jù)點(diǎn);w為集合T中的數(shù)據(jù)點(diǎn)數(shù)量.
為了提高模型精度,大數(shù)據(jù)分析技術(shù)提出采用一個(gè)調(diào)整系數(shù)來(lái)平衡計(jì)算條件的方法.調(diào)整系數(shù)的作用是將數(shù)據(jù)特征集合中與教學(xué)科目完全無(wú)關(guān)的數(shù)據(jù)進(jìn)行權(quán)重調(diào)整,這樣既節(jié)省了模型存儲(chǔ)空間,又不會(huì)刪除有用資源.調(diào)整系數(shù)的函數(shù)表達(dá)式為
(9)
可見(jiàn),調(diào)整系數(shù)與t成反比,與w成正比.加入調(diào)整系數(shù)后,最優(yōu)選取教學(xué)方式模型表達(dá)式可以調(diào)整為
(10)
3 實(shí)驗(yàn)評(píng)估
3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
將基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型應(yīng)用在教學(xué)中,通過(guò)對(duì)教學(xué)方式的最優(yōu)選取來(lái)判斷所設(shè)計(jì)模型的有效性,且需要一個(gè)計(jì)算機(jī)硬件平臺(tái)與數(shù)據(jù)庫(kù)對(duì)其進(jìn)行支持.計(jì)算機(jī)硬件平臺(tái)采用NEXTSTEP系統(tǒng)實(shí)現(xiàn)開(kāi)發(fā),其開(kāi)發(fā)成果完善且獨(dú)立,能夠最大限度抵御外界干擾,防火墻功能十分強(qiáng)勁.數(shù)據(jù)庫(kù)的語(yǔ)言類(lèi)型為結(jié)構(gòu)化查詢語(yǔ)言SQL,SQL數(shù)據(jù)庫(kù)的靈活性與穩(wěn)定性較強(qiáng),即便是在存儲(chǔ)大數(shù)據(jù)時(shí)也無(wú)需了解存儲(chǔ)方式便可提供便捷的搜索功能.
將海量數(shù)據(jù)信息存儲(chǔ)到SQL數(shù)據(jù)庫(kù)中,數(shù)據(jù)樣本采用5萬(wàn)條學(xué)生樣本,每條樣本中都含有2016年一整年的學(xué)生個(gè)人信息、班級(jí)、歷史考試成績(jī)、教師評(píng)價(jià)與學(xué)生評(píng)價(jià).教學(xué)科目包括高數(shù)、英語(yǔ)與語(yǔ)文.對(duì)樣本數(shù)據(jù)進(jìn)行數(shù)據(jù)擬合,利用本文所設(shè)計(jì)的基于大數(shù)據(jù)分析的學(xué)生偏好挖掘模型獲取上述數(shù)據(jù)的學(xué)生長(zhǎng)期偏好與短期偏好,同時(shí)根據(jù)實(shí)際情況構(gòu)造教學(xué)資源集合,并采取調(diào)查問(wèn)卷的方式構(gòu)造教師偏好集合.
3.2 評(píng)估標(biāo)準(zhǔn)
本文旨在進(jìn)行基于大數(shù)據(jù)分析的最優(yōu)選取模型的教學(xué)方式選取能力評(píng)估與模型復(fù)雜度評(píng)估,并分別采用偏好查準(zhǔn)率與模糊評(píng)估法實(shí)現(xiàn).在選取教學(xué)方式的過(guò)程中,偏好查準(zhǔn)率定義為學(xué)生偏好與教學(xué)方式選取結(jié)果的契合比率.可見(jiàn),查準(zhǔn)率并不以教學(xué)資源和教師偏好的選取為主導(dǎo),而是建立在學(xué)生偏好表達(dá)能力之上,其函數(shù)表達(dá)式為
(11)
式中:o為存在于學(xué)生偏好集合中的結(jié)果數(shù);g為教學(xué)方式推薦數(shù)量.
模糊評(píng)估法是指在復(fù)雜大數(shù)據(jù)環(huán)境中對(duì)模型做出的綜合評(píng)估.由于基于大數(shù)據(jù)分析的教學(xué)方式選取模型在處理過(guò)程中涉及到的數(shù)據(jù)點(diǎn)數(shù)據(jù)極多,所以選擇模糊評(píng)估法進(jìn)行模型復(fù)雜度評(píng)估是比較合理的.模糊評(píng)估法需要構(gòu)建可能對(duì)評(píng)估對(duì)象造成影響的參數(shù)集合與評(píng)估項(xiàng)目集合,其表達(dá)式分別為
U={u1,u2,…,um+n}
(12)
V={v1,v2,…,vm+n}
(13)
利用專家評(píng)估法設(shè)置參數(shù)集合中數(shù)據(jù)的比重集合,其表達(dá)式為
A={A1,A2,…,Am+n}
(14)
式中,A1+A2+…+Am+n=1.
模糊評(píng)估法的評(píng)估結(jié)果是評(píng)估項(xiàng)目集合條件下的一個(gè)模糊集合,相應(yīng)表達(dá)式為
G=AUV
(15)
若想獲取基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型復(fù)雜度,評(píng)估標(biāo)準(zhǔn)集合中需要包含最優(yōu)教學(xué)方式選取時(shí)間、偏好計(jì)算時(shí)間以及數(shù)據(jù)傳輸時(shí)間.參數(shù)集合中包含學(xué)生歷史成績(jī)?cè)鲩L(zhǎng)率和學(xué)生思維偏好.
3.3 查準(zhǔn)率評(píng)估結(jié)果
基于蟻群算法的最優(yōu)教學(xué)方式選取模型和基于雙層神經(jīng)網(wǎng)絡(luò)的教學(xué)方式選取模型的理論架構(gòu)與實(shí)際應(yīng)用效果均比較完善,利用這兩種模型與本文設(shè)計(jì)的基于大數(shù)據(jù)分析的教學(xué)方式選取模型共同進(jìn)行評(píng)估具有一定代表性.采用三種模型對(duì)SQL數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行教學(xué)方式選取,將結(jié)果中的o、g值提取出來(lái).由于學(xué)生樣本數(shù)量太多,故對(duì)結(jié)果進(jìn)行隨機(jī)抽取,從學(xué)號(hào)為00001的學(xué)生開(kāi)始抽取10個(gè)學(xué)生,所得到的具體評(píng)估值分別如表1~3所示.

表1 蟻群算法模型評(píng)估值Tab.1 Evaluation values with ant colony algorithm model

表2 雙層神經(jīng)網(wǎng)絡(luò)模型評(píng)估值Tab.2 Evaluation values with double-layer neural network model

表3 大數(shù)據(jù)分析模型評(píng)估值Tab.3 Evaluation values with big data analysis model
根據(jù)查準(zhǔn)率公式,將三個(gè)模型的查準(zhǔn)率計(jì)算結(jié)果進(jìn)行對(duì)比,結(jié)果如圖2所示.由圖2可見(jiàn),基于大數(shù)據(jù)分析的教學(xué)方式選取模型查準(zhǔn)率最高,表明利用所提方法設(shè)計(jì)的最優(yōu)選取模型具有更高的選取精度.
3.4 復(fù)雜度評(píng)估結(jié)果
在模糊評(píng)估法中最優(yōu)教學(xué)方式選取時(shí)間、偏好計(jì)算時(shí)間與數(shù)據(jù)傳輸時(shí)間(包括收發(fā)延遲)為基于大數(shù)據(jù)分析的最優(yōu)教學(xué)方式選取模型的復(fù)雜度評(píng)估項(xiàng)目.對(duì)于基于蟻群算法和基于雙層神經(jīng)網(wǎng)絡(luò)的教學(xué)方式選取模型而言,并不存在對(duì)學(xué)生偏好的計(jì)算過(guò)程,因此,為了方便對(duì)比,將本文模型的教學(xué)方式選取時(shí)間和偏好計(jì)算時(shí)間統(tǒng)一看作“計(jì)算時(shí)間”,因而模型復(fù)雜度將主要取決于模型計(jì)算時(shí)間與數(shù)據(jù)傳輸時(shí)間.

圖2 三種模型查準(zhǔn)率對(duì)比Fig.2 Comparison in precision ratio of three models
任意抽取20個(gè)學(xué)生后,三個(gè)模型的計(jì)算時(shí)間和數(shù)據(jù)傳輸時(shí)間統(tǒng)計(jì)結(jié)果分別如表4~6所示.模型復(fù)雜度統(tǒng)計(jì)值和平均值對(duì)比結(jié)果如表7所示.由表7可見(jiàn),本文模型復(fù)雜度具有明顯優(yōu)勢(shì).

表4 蟻群算法模型復(fù)雜度Tab.4 Complexity of ant colony algorithm model

表5 雙層神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度Tab.5 Complexity of double-layer neural network model

表6 大數(shù)據(jù)分析模型復(fù)雜度Tab.6 Complexity of big data analysis model

表7 模型復(fù)雜度統(tǒng)計(jì)值和平均值Tab.7 Statistical and average values of model complexity
4 結(jié) 論
本文設(shè)計(jì)了最優(yōu)教學(xué)方式選取模型,在大數(shù)據(jù)分析的基礎(chǔ)上分析了不同服務(wù)器大數(shù)據(jù)信息,預(yù)測(cè)了高噪聲干擾數(shù)據(jù),分析了干擾數(shù)據(jù)點(diǎn)濾除前后統(tǒng)計(jì)量的變化,對(duì)數(shù)據(jù)估計(jì)量進(jìn)行了高效挖掘,構(gòu)造出由數(shù)據(jù)源整合、數(shù)據(jù)擬合與濾除干擾三方面相結(jié)合的最優(yōu)選取模型,并利用調(diào)整系數(shù)進(jìn)一步提高了模型精度.實(shí)驗(yàn)結(jié)果表明,所設(shè)計(jì)模型能夠有效選取最優(yōu)教學(xué)方式,且模型復(fù)雜度不高,同時(shí)具有較高實(shí)用性.