胡 悅,羅小楠,王 彬,張 偉
(空軍軍醫(yī)大學(xué)教學(xué)考評(píng)中心,陜西西安 710032)
近年來(lái),隨著社會(huì)教育水平的不斷提高,繼續(xù)教育的需求逐年增加[1]。利用互聯(lián)網(wǎng)發(fā)展的紅利,實(shí)現(xiàn)互聯(lián)網(wǎng)+繼續(xù)教育的模式是繼續(xù)教育行業(yè)的一個(gè)新的趨勢(shì)[2-3]。為了更優(yōu)地提高繼續(xù)教育的教學(xué)水平,滿足不同人群的需要,面向個(gè)性化繼續(xù)教育研究新方法成為一個(gè)研究熱點(diǎn)。在個(gè)性化推薦方面,關(guān)聯(lián)規(guī)則挖掘算法在諸多領(lǐng)域均得到了應(yīng)用[4-6]。文獻(xiàn)[7]提出利用關(guān)聯(lián)規(guī)則算法,實(shí)現(xiàn)高校圖書館書籍個(gè)性化推薦。文獻(xiàn)[8]利用學(xué)生信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘,在教育管理系統(tǒng)上實(shí)現(xiàn)了個(gè)性化管理。相似的,文獻(xiàn)[9-10]分別利用關(guān)聯(lián)規(guī)則模型建立了銀行產(chǎn)品個(gè)性化推薦模型和醫(yī)療用品推薦模型。這些研究和應(yīng)用在一定程度上說(shuō)明了關(guān)聯(lián)規(guī)則算法可以實(shí)現(xiàn)個(gè)性化的方案推薦,能夠挖掘數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。
為了進(jìn)一步提高關(guān)聯(lián)規(guī)則算法的性能,針對(duì)算法的改進(jìn)也得到了廣泛的研究[11-12]。文獻(xiàn)[13]基于MapReduce 計(jì)算模型對(duì)關(guān)聯(lián)規(guī)則算法改進(jìn)進(jìn)行了總結(jié)。針對(duì)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,文獻(xiàn)[14-15]分別提出利用模糊邏輯規(guī)則和聚類方法提高關(guān)聯(lián)規(guī)則挖掘的算法性能。此類算法改進(jìn)在較大程度上可以提高關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性,為個(gè)性化推薦提供依據(jù),但在非確定性屬性關(guān)聯(lián)情況下仍需研究新的方法[16]。
該文面向個(gè)性化繼續(xù)教育方案優(yōu)化的需求,研究了關(guān)聯(lián)規(guī)則挖掘算法。在構(gòu)建個(gè)性化繼續(xù)教育方案的基礎(chǔ)上,文中利用關(guān)聯(lián)規(guī)則算法,通過(guò)建立強(qiáng)關(guān)聯(lián)規(guī)則和頻繁項(xiàng)集,實(shí)現(xiàn)數(shù)據(jù)屬性的關(guān)聯(lián)規(guī)則挖掘。為了獲得更準(zhǔn)確的強(qiáng)關(guān)聯(lián)規(guī)則,該文利用DBSCAN 聚類算法進(jìn)行不確定聚類數(shù)目的自適應(yīng)規(guī)則聚類。通過(guò)仿真試驗(yàn)與數(shù)據(jù)分析,說(shuō)明所提算法相對(duì)于現(xiàn)有算法規(guī)則聚類結(jié)果更加合理,在個(gè)性化繼續(xù)教育方案優(yōu)化方面,具有更高的實(shí)用性。
繼續(xù)教育個(gè)性化是目前的發(fā)展趨勢(shì),為了滿足大規(guī)模用戶人群的個(gè)性化繼續(xù)教育的需求,文中提出基于關(guān)聯(lián)規(guī)則挖掘算法的個(gè)性化繼續(xù)教育優(yōu)化方案。其可以有效挖掘不同用戶群體的需求與期望,根據(jù)用戶自身情況進(jìn)行個(gè)性化教育優(yōu)化,方案架構(gòu)設(shè)計(jì)如圖1 所示。
圖1 個(gè)性化繼續(xù)教育方案架構(gòu)
文中設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化教育方案架構(gòu)主要分為目標(biāo)人群、應(yīng)用方向、教學(xué)環(huán)境和數(shù)據(jù)來(lái)源4 部分。
1)目標(biāo)人群。個(gè)性化教育方案的目標(biāo)人群主要包括學(xué)習(xí)者、教師和教育管理者3 種,教育管理者與教師根據(jù)個(gè)性化數(shù)據(jù)挖掘?yàn)閷W(xué)習(xí)者制定個(gè)性化教育方案;
2)應(yīng)用方向。個(gè)性化教育主要可以應(yīng)用于教材更新、個(gè)性化課程制定推薦和學(xué)生成績(jī)預(yù)測(cè)等,針對(duì)學(xué)生的個(gè)人情況和課程匹配程度制定學(xué)習(xí)方案;
3)教學(xué)環(huán)境。除了在傳統(tǒng)課堂教學(xué)環(huán)境上進(jìn)行應(yīng)用,個(gè)性化教育還可以應(yīng)用于線上教育平臺(tái)和教育管理系統(tǒng);
4)數(shù)據(jù)來(lái)源。進(jìn)行個(gè)性化繼續(xù)教育數(shù)據(jù)挖掘,需要保證數(shù)據(jù)的充分性和多樣性,數(shù)據(jù)來(lái)源主要包括課程評(píng)價(jià)、學(xué)生成績(jī)反饋、師生在線互動(dòng)以及社交媒體上的評(píng)價(jià),通過(guò)多種渠道確保數(shù)據(jù)的多元性。
文中提出的面向個(gè)性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的架構(gòu)如圖2 所示。算法流程分為數(shù)據(jù)庫(kù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則建立、產(chǎn)生頻繁項(xiàng)集和關(guān)聯(lián)數(shù)據(jù)挖掘5 部分。
圖2 關(guān)聯(lián)規(guī)則挖掘算法架構(gòu)
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘,首先需要建立挖掘數(shù)據(jù)庫(kù),將需要挖掘的數(shù)據(jù)放入數(shù)據(jù)庫(kù)中。在準(zhǔn)備好原始數(shù)據(jù)后,需要進(jìn)行數(shù)據(jù)預(yù)處理。預(yù)處理內(nèi)部如圖3 所示,數(shù)據(jù)預(yù)處理的效果在較大程度上影響算法的挖掘效果和運(yùn)行效率。
圖3 數(shù)據(jù)預(yù)處理架構(gòu)
建立關(guān)聯(lián)規(guī)則是算法的核心,在若干可組合規(guī)則中選擇具有最大影響的核心規(guī)則,可保證數(shù)據(jù)挖掘結(jié)果的有效性。與關(guān)聯(lián)規(guī)則有直接關(guān)系的是頻繁項(xiàng)集,兩者是互偶關(guān)系。在若干屬性中確定最頻繁出現(xiàn)和結(jié)果關(guān)系最大的屬性,才能建立正確的關(guān)聯(lián)規(guī)則。確定完兩者后,即可對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。如圖3 所示,數(shù)據(jù)預(yù)處理架構(gòu)主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約4 部分。
面向個(gè)性化教育的數(shù)據(jù)挖掘算法設(shè)計(jì),首先需要建立關(guān)聯(lián)規(guī)則。其是指由事件X必然可以導(dǎo)致事件Y的發(fā)生,事件Y是事件X的結(jié)果,事件X是事件Y的原因,即X?Y。
假設(shè)所有預(yù)處理后的數(shù)據(jù)集合為D,事件X?D,事件Y?D,且X?Y=φ。若有X?Y,則事件X與事件Y之間存在關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則可分為強(qiáng)關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則,根據(jù)規(guī)則的支持度和置信度來(lái)進(jìn)行劃分。關(guān)聯(lián)規(guī)則的支持度是指同時(shí)包含集合X和集合Y的事件數(shù)量與數(shù)據(jù)集合中D事件總數(shù)之比:
置信度是指集合中同時(shí)包含集合X和集合Y的事件數(shù)量與包含集合X的事件數(shù)量之比:
設(shè)最小支持度與最小置信度為Smin和Cmin,若規(guī)則的支持度與置信度可以同時(shí)大于最小支持度和最小置信度,則此規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則;否則,為弱關(guān)聯(lián)規(guī)則。
為了制定個(gè)性化的繼續(xù)教育方案,需要對(duì)數(shù)據(jù)進(jìn)行分類,文中提出基于聚類算法對(duì)數(shù)據(jù)間的關(guān)聯(lián)規(guī)則進(jìn)行分類。數(shù)據(jù)集合中的數(shù)據(jù)由事件、事件子集和關(guān)聯(lián)規(guī)則等元素組成,對(duì)數(shù)據(jù)進(jìn)行聚類,需要計(jì)算集合元素間的距離。
設(shè)數(shù)據(jù)庫(kù)中任意兩個(gè)事件I1和I2,其中I1∈X,I2∈Y,則I1與I2之間的距離定為:
事件之間的距離定為兩個(gè)事件同時(shí)發(fā)生的次數(shù)占所有包含I1或I2的事件數(shù)目之比,其取值范圍為0~1,即兩個(gè)事件總是同時(shí)發(fā)生,其距離為0;兩個(gè)事件完全無(wú)法同時(shí)發(fā)生,則其距離為1。
設(shè)事件集合X與Y分別包含m和n個(gè)元素,則兩個(gè)事件集合的距離定義為集合內(nèi)所有元素的平均距離,即:
事件集合之間的距離范圍為0~1。
關(guān)聯(lián)規(guī)則之間的距離定義較為抽象,設(shè)數(shù)據(jù)庫(kù)存在規(guī)則r1和r2,其規(guī)則定義可表示為:
則r1與r2之間的距離可定義為:
其中,α、β和γ是自定義調(diào)節(jié)參數(shù),可根據(jù)實(shí)際數(shù)據(jù)情況進(jìn)行調(diào)節(jié),對(duì)參數(shù)進(jìn)行歸一化處理:
為了簡(jiǎn)便分析,一般使自定義調(diào)節(jié)參數(shù)之和為1,α+β+γ=1。
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與完善,計(jì)算機(jī)病毒問(wèn)題也變得越來(lái)越棘手。計(jì)算機(jī)病毒的防范是一個(gè)綜合的系統(tǒng)工程,它主要包括了對(duì)單個(gè)計(jì)算機(jī)系統(tǒng)與整個(gè)網(wǎng)絡(luò)的病毒防范過(guò)程。如果想要對(duì)整個(gè)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行防范就必須要進(jìn)行統(tǒng)一的管理,首先必須要使用統(tǒng)一的網(wǎng)絡(luò)病毒查找軟件,這個(gè)軟件能夠及時(shí)準(zhǔn)確地對(duì)網(wǎng)絡(luò)中的病毒進(jìn)行識(shí)別并及時(shí)的做出相應(yīng)的處理。第二,網(wǎng)絡(luò)殺毒軟件要對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行殺毒處理,這些軟件也要能夠在沒(méi)有人工干涉的條件下自動(dòng)升級(jí),自動(dòng)對(duì)病毒進(jìn)行深層次的消毒處理,保證網(wǎng)絡(luò)系統(tǒng)的安全性與穩(wěn)定性。
為了實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘,文中提出利用DBSCAN 聚類算法進(jìn)行分類,并使用輪廓系數(shù)來(lái)評(píng)估聚類算法的性能,輪廓系數(shù)的定義為:
其中,ai表示樣本i到同一規(guī)則集合其他樣本的平均距離,bi表示樣本i到其他任一規(guī)則集合樣本的平均距離。式(8)可以改寫為:
由式(9)可知,輪廓系數(shù)取值范圍為-1~1。輪廓系數(shù)越接近于1,說(shuō)明該樣本屬于該規(guī)則集合的概率越大;輪廓系數(shù)越接近于-1,說(shuō)明該樣本屬于該規(guī)則集合的概率越小。當(dāng)輪廓系數(shù)為0 時(shí),該樣本屬于兩個(gè)規(guī)則集合的概率相等。
文中提出的DBSCAN 聚類算法流程,如圖4 所示。其中,可達(dá)規(guī)則密度是指在規(guī)則可達(dá)半徑內(nèi)的樣本數(shù)目。
圖4 DBSCAN聚類算法流程圖
面向個(gè)性化繼續(xù)教育的需求,文中設(shè)計(jì)了基于DBSCAN 聚類的關(guān)聯(lián)規(guī)則挖掘算法,其步驟如下:
1)輸入:數(shù)據(jù)集合g,最小聚類數(shù)目Nmin,可達(dá)密度閾值e;
2)隨機(jī)確定聚類中心Ci;
4)將元素i從數(shù)據(jù)集合g中剔除;
5)若N(Ri) 6)計(jì)算集合中元素j到聚類中心的距離εij; 7)若εij≥e,則繼續(xù)執(zhí)行步驟8);否則轉(zhuǎn)到步驟9); 8)將元素j加入到關(guān)聯(lián)集合Ri; 9)將元素j從數(shù)據(jù)集合g中剔除; 10)j=j+1; 11)生成若干個(gè)數(shù)據(jù)類別集合{Ri}; 12)輸出:數(shù)據(jù)類別集合{Ri}。 為了驗(yàn)證所提的面向個(gè)性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的有效性,文中通過(guò)對(duì)比現(xiàn)有算法與所提算法的聚類輪廓系數(shù),比較聚類算法的合理性。另外,通過(guò)分析對(duì)比不同聚類算法下的關(guān)聯(lián)規(guī)則置信度和支持度,說(shuō)明了所提算法的有效性。 如表1 所示,該文在5 個(gè)不同數(shù)據(jù)集上進(jìn)行關(guān)聯(lián)數(shù)據(jù)挖掘,對(duì)比層次聚類算法、K-means 聚類算法和文中所提的DBSCAN 聚類算法的聚類輪廓系數(shù)。整體上看,K-means 聚類算法略優(yōu)于層次聚類算法。但在部分情況下,由于K-means 聚類算法的聚類中心數(shù)目錯(cuò)誤,導(dǎo)致其性能反而低于層次聚類算法。文中所提算法在不同數(shù)據(jù)集合上的輪廓系數(shù)均高于其他兩種算法,說(shuō)明聚類結(jié)果更合理。 表1 不同算法聚類輪廓系數(shù)對(duì)比 如表2 所示,在同一數(shù)據(jù)集下,該文對(duì)比了基于3 種聚類算法的關(guān)聯(lián)規(guī)則挖掘算法的置信度和支持度。文中所提算法的關(guān)聯(lián)規(guī)則置信度與支持度均高于層次聚類算法和K-means 聚類算法,說(shuō)明文中所挖掘的關(guān)聯(lián)規(guī)則屬于強(qiáng)規(guī)則,利用所挖掘的規(guī)則可以更智能地進(jìn)行個(gè)性化繼續(xù)教育方案優(yōu)化推薦。 表2 不同算法關(guān)聯(lián)規(guī)則置信度和支持度對(duì)比 為了滿足個(gè)性化繼續(xù)教育方案優(yōu)化的需求,基于關(guān)聯(lián)規(guī)則挖掘算法提出了一種智能的個(gè)性化繼續(xù)教育方案制定技術(shù)。利用DBSCAN 聚類算法實(shí)現(xiàn)數(shù)據(jù)集內(nèi)聚類中心數(shù)目不確定情況下的自適應(yīng)聚類,并根據(jù)聚類結(jié)果提取核心規(guī)則進(jìn)行個(gè)性化繼續(xù)教育方案優(yōu)化。通過(guò)仿真分析證明,所提算法相對(duì)于現(xiàn)有聚類算法,聚類結(jié)果更合理,且具有較高的魯棒性,而且該算法可以挖掘的規(guī)則關(guān)聯(lián)性更強(qiáng),在繼續(xù)教育方案優(yōu)化領(lǐng)域具有良好的實(shí)際應(yīng)用價(jià)值。4 仿真驗(yàn)證及數(shù)據(jù)分析
5 結(jié)束語(yǔ)