亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向個(gè)性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法研究

2021-06-11 03:53:30羅小楠

電子設(shè)計(jì)工程 2021年11期

關(guān)鍵詞：數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

胡悅，羅小楠，王彬，張偉

（空軍軍醫(yī)大學(xué)教學(xué)考評(píng)中心，陜西西安 710032）

近年來(lái)，隨著社會(huì)教育水平的不斷提高，繼續(xù)教育的需求逐年增加[1]。利用互聯(lián)網(wǎng)發(fā)展的紅利，實(shí)現(xiàn)互聯(lián)網(wǎng)+繼續(xù)教育的模式是繼續(xù)教育行業(yè)的一個(gè)新的趨勢(shì)[2-3]。為了更優(yōu)地提高繼續(xù)教育的教學(xué)水平，滿足不同人群的需要，面向個(gè)性化繼續(xù)教育研究新方法成為一個(gè)研究熱點(diǎn)。在個(gè)性化推薦方面，關(guān)聯(lián)規(guī)則挖掘算法在諸多領(lǐng)域均得到了應(yīng)用[4-6]。文獻(xiàn)[7]提出利用關(guān)聯(lián)規(guī)則算法，實(shí)現(xiàn)高校圖書館書籍個(gè)性化推薦。文獻(xiàn)[8]利用學(xué)生信息進(jìn)行關(guān)聯(lián)規(guī)則挖掘，在教育管理系統(tǒng)上實(shí)現(xiàn)了個(gè)性化管理。相似的，文獻(xiàn)[9-10]分別利用關(guān)聯(lián)規(guī)則模型建立了銀行產(chǎn)品個(gè)性化推薦模型和醫(yī)療用品推薦模型。這些研究和應(yīng)用在一定程度上說(shuō)明了關(guān)聯(lián)規(guī)則算法可以實(shí)現(xiàn)個(gè)性化的方案推薦，能夠挖掘數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。

為了進(jìn)一步提高關(guān)聯(lián)規(guī)則算法的性能，針對(duì)算法的改進(jìn)也得到了廣泛的研究[11-12]。文獻(xiàn)[13]基于MapReduce 計(jì)算模型對(duì)關(guān)聯(lián)規(guī)則算法改進(jìn)進(jìn)行了總結(jié)。針對(duì)基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法，文獻(xiàn)[14-15]分別提出利用模糊邏輯規(guī)則和聚類方法提高關(guān)聯(lián)規(guī)則挖掘的算法性能。此類算法改進(jìn)在較大程度上可以提高關(guān)聯(lián)規(guī)則挖掘的準(zhǔn)確性，為個(gè)性化推薦提供依據(jù)，但在非確定性屬性關(guān)聯(lián)情況下仍需研究新的方法[16]。

該文面向個(gè)性化繼續(xù)教育方案優(yōu)化的需求，研究了關(guān)聯(lián)規(guī)則挖掘算法。在構(gòu)建個(gè)性化繼續(xù)教育方案的基礎(chǔ)上，文中利用關(guān)聯(lián)規(guī)則算法，通過(guò)建立強(qiáng)關(guān)聯(lián)規(guī)則和頻繁項(xiàng)集，實(shí)現(xiàn)數(shù)據(jù)屬性的關(guān)聯(lián)規(guī)則挖掘。為了獲得更準(zhǔn)確的強(qiáng)關(guān)聯(lián)規(guī)則，該文利用DBSCAN 聚類算法進(jìn)行不確定聚類數(shù)目的自適應(yīng)規(guī)則聚類。通過(guò)仿真試驗(yàn)與數(shù)據(jù)分析，說(shuō)明所提算法相對(duì)于現(xiàn)有算法規(guī)則聚類結(jié)果更加合理，在個(gè)性化繼續(xù)教育方案優(yōu)化方面，具有更高的實(shí)用性。

1 系統(tǒng)模型

繼續(xù)教育個(gè)性化是目前的發(fā)展趨勢(shì)，為了滿足大規(guī)模用戶人群的個(gè)性化繼續(xù)教育的需求，文中提出基于關(guān)聯(lián)規(guī)則挖掘算法的個(gè)性化繼續(xù)教育優(yōu)化方案。其可以有效挖掘不同用戶群體的需求與期望，根據(jù)用戶自身情況進(jìn)行個(gè)性化教育優(yōu)化，方案架構(gòu)設(shè)計(jì)如圖1 所示。

圖1 個(gè)性化繼續(xù)教育方案架構(gòu)

文中設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化教育方案架構(gòu)主要分為目標(biāo)人群、應(yīng)用方向、教學(xué)環(huán)境和數(shù)據(jù)來(lái)源4 部分。

1）目標(biāo)人群。個(gè)性化教育方案的目標(biāo)人群主要包括學(xué)習(xí)者、教師和教育管理者3 種，教育管理者與教師根據(jù)個(gè)性化數(shù)據(jù)挖掘?yàn)閷W(xué)習(xí)者制定個(gè)性化教育方案；

2）應(yīng)用方向。個(gè)性化教育主要可以應(yīng)用于教材更新、個(gè)性化課程制定推薦和學(xué)生成績(jī)預(yù)測(cè)等，針對(duì)學(xué)生的個(gè)人情況和課程匹配程度制定學(xué)習(xí)方案；

3）教學(xué)環(huán)境。除了在傳統(tǒng)課堂教學(xué)環(huán)境上進(jìn)行應(yīng)用，個(gè)性化教育還可以應(yīng)用于線上教育平臺(tái)和教育管理系統(tǒng)；

4）數(shù)據(jù)來(lái)源。進(jìn)行個(gè)性化繼續(xù)教育數(shù)據(jù)挖掘，需要保證數(shù)據(jù)的充分性和多樣性，數(shù)據(jù)來(lái)源主要包括課程評(píng)價(jià)、學(xué)生成績(jī)反饋、師生在線互動(dòng)以及社交媒體上的評(píng)價(jià)，通過(guò)多種渠道確保數(shù)據(jù)的多元性。

2 算法架構(gòu)

文中提出的面向個(gè)性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的架構(gòu)如圖2 所示。算法流程分為數(shù)據(jù)庫(kù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則建立、產(chǎn)生頻繁項(xiàng)集和關(guān)聯(lián)數(shù)據(jù)挖掘5 部分。

圖2 關(guān)聯(lián)規(guī)則挖掘算法架構(gòu)

基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘，首先需要建立挖掘數(shù)據(jù)庫(kù)，將需要挖掘的數(shù)據(jù)放入數(shù)據(jù)庫(kù)中。在準(zhǔn)備好原始數(shù)據(jù)后，需要進(jìn)行數(shù)據(jù)預(yù)處理。預(yù)處理內(nèi)部如圖3 所示，數(shù)據(jù)預(yù)處理的效果在較大程度上影響算法的挖掘效果和運(yùn)行效率。

圖3 數(shù)據(jù)預(yù)處理架構(gòu)

建立關(guān)聯(lián)規(guī)則是算法的核心，在若干可組合規(guī)則中選擇具有最大影響的核心規(guī)則，可保證數(shù)據(jù)挖掘結(jié)果的有效性。與關(guān)聯(lián)規(guī)則有直接關(guān)系的是頻繁項(xiàng)集，兩者是互偶關(guān)系。在若干屬性中確定最頻繁出現(xiàn)和結(jié)果關(guān)系最大的屬性，才能建立正確的關(guān)聯(lián)規(guī)則。確定完兩者后，即可對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。如圖3 所示，數(shù)據(jù)預(yù)處理架構(gòu)主要包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約4 部分。

3 個(gè)性化關(guān)聯(lián)規(guī)則挖掘

面向個(gè)性化教育的數(shù)據(jù)挖掘算法設(shè)計(jì)，首先需要建立關(guān)聯(lián)規(guī)則。其是指由事件X必然可以導(dǎo)致事件Y的發(fā)生，事件Y是事件X的結(jié)果，事件X是事件Y的原因，即X?Y。

假設(shè)所有預(yù)處理后的數(shù)據(jù)集合為D，事件X?D，事件Y?D，且X?Y=φ。若有X?Y，則事件X與事件Y之間存在關(guān)聯(lián)規(guī)則。

關(guān)聯(lián)規(guī)則可分為強(qiáng)關(guān)聯(lián)規(guī)則和弱關(guān)聯(lián)規(guī)則，根據(jù)規(guī)則的支持度和置信度來(lái)進(jìn)行劃分。關(guān)聯(lián)規(guī)則的支持度是指同時(shí)包含集合X和集合Y的事件數(shù)量與數(shù)據(jù)集合中D事件總數(shù)之比：

置信度是指集合中同時(shí)包含集合X和集合Y的事件數(shù)量與包含集合X的事件數(shù)量之比：

設(shè)最小支持度與最小置信度為Smin和Cmin，若規(guī)則的支持度與置信度可以同時(shí)大于最小支持度和最小置信度，則此規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則；否則，為弱關(guān)聯(lián)規(guī)則。

為了制定個(gè)性化的繼續(xù)教育方案，需要對(duì)數(shù)據(jù)進(jìn)行分類，文中提出基于聚類算法對(duì)數(shù)據(jù)間的關(guān)聯(lián)規(guī)則進(jìn)行分類。數(shù)據(jù)集合中的數(shù)據(jù)由事件、事件子集和關(guān)聯(lián)規(guī)則等元素組成，對(duì)數(shù)據(jù)進(jìn)行聚類，需要計(jì)算集合元素間的距離。

設(shè)數(shù)據(jù)庫(kù)中任意兩個(gè)事件I1和I2，其中I1∈X，I2∈Y，則I1與I2之間的距離定為：

事件之間的距離定為兩個(gè)事件同時(shí)發(fā)生的次數(shù)占所有包含I1或I2的事件數(shù)目之比，其取值范圍為0～1，即兩個(gè)事件總是同時(shí)發(fā)生，其距離為0；兩個(gè)事件完全無(wú)法同時(shí)發(fā)生，則其距離為1。

設(shè)事件集合X與Y分別包含m和n個(gè)元素，則兩個(gè)事件集合的距離定義為集合內(nèi)所有元素的平均距離，即：

事件集合之間的距離范圍為0～1。

關(guān)聯(lián)規(guī)則之間的距離定義較為抽象，設(shè)數(shù)據(jù)庫(kù)存在規(guī)則r1和r2，其規(guī)則定義可表示為：

則r1與r2之間的距離可定義為：

其中，α、β和γ是自定義調(diào)節(jié)參數(shù)，可根據(jù)實(shí)際數(shù)據(jù)情況進(jìn)行調(diào)節(jié)，對(duì)參數(shù)進(jìn)行歸一化處理：

為了簡(jiǎn)便分析，一般使自定義調(diào)節(jié)參數(shù)之和為1，α+β+γ=1。

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展與完善，計(jì)算機(jī)病毒問(wèn)題也變得越來(lái)越棘手。計(jì)算機(jī)病毒的防范是一個(gè)綜合的系統(tǒng)工程，它主要包括了對(duì)單個(gè)計(jì)算機(jī)系統(tǒng)與整個(gè)網(wǎng)絡(luò)的病毒防范過(guò)程。如果想要對(duì)整個(gè)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行防范就必須要進(jìn)行統(tǒng)一的管理，首先必須要使用統(tǒng)一的網(wǎng)絡(luò)病毒查找軟件，這個(gè)軟件能夠及時(shí)準(zhǔn)確地對(duì)網(wǎng)絡(luò)中的病毒進(jìn)行識(shí)別并及時(shí)的做出相應(yīng)的處理。第二，網(wǎng)絡(luò)殺毒軟件要對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行殺毒處理，這些軟件也要能夠在沒(méi)有人工干涉的條件下自動(dòng)升級(jí)，自動(dòng)對(duì)病毒進(jìn)行深層次的消毒處理，保證網(wǎng)絡(luò)系統(tǒng)的安全性與穩(wěn)定性。

為了實(shí)現(xiàn)關(guān)聯(lián)規(guī)則挖掘，文中提出利用DBSCAN 聚類算法進(jìn)行分類，并使用輪廓系數(shù)來(lái)評(píng)估聚類算法的性能，輪廓系數(shù)的定義為：

其中，ai表示樣本i到同一規(guī)則集合其他樣本的平均距離，bi表示樣本i到其他任一規(guī)則集合樣本的平均距離。式（8）可以改寫為：

由式（9）可知，輪廓系數(shù)取值范圍為-1～1。輪廓系數(shù)越接近于1，說(shuō)明該樣本屬于該規(guī)則集合的概率越大；輪廓系數(shù)越接近于-1，說(shuō)明該樣本屬于該規(guī)則集合的概率越小。當(dāng)輪廓系數(shù)為0 時(shí)，該樣本屬于兩個(gè)規(guī)則集合的概率相等。

文中提出的DBSCAN 聚類算法流程，如圖4 所示。其中，可達(dá)規(guī)則密度是指在規(guī)則可達(dá)半徑內(nèi)的樣本數(shù)目。

圖4 DBSCAN聚類算法流程圖

面向個(gè)性化繼續(xù)教育的需求，文中設(shè)計(jì)了基于DBSCAN 聚類的關(guān)聯(lián)規(guī)則挖掘算法，其步驟如下：

1）輸入：數(shù)據(jù)集合g，最小聚類數(shù)目Nmin，可達(dá)密度閾值e；

2）隨機(jī)確定聚類中心Ci；

4）將元素i從數(shù)據(jù)集合g中剔除；

5）若N（Ri）

6）計(jì)算集合中元素j到聚類中心的距離εij；

7）若εij≥e，則繼續(xù)執(zhí)行步驟8）；否則轉(zhuǎn)到步驟9）；

8）將元素j加入到關(guān)聯(lián)集合Ri；

9）將元素j從數(shù)據(jù)集合g中剔除；

10）j=j+1；

11）生成若干個(gè)數(shù)據(jù)類別集合{Ri}；

12）輸出：數(shù)據(jù)類別集合{Ri}。

4 仿真驗(yàn)證及數(shù)據(jù)分析

為了驗(yàn)證所提的面向個(gè)性化繼續(xù)教育的關(guān)聯(lián)規(guī)則挖掘算法的有效性，文中通過(guò)對(duì)比現(xiàn)有算法與所提算法的聚類輪廓系數(shù)，比較聚類算法的合理性。另外，通過(guò)分析對(duì)比不同聚類算法下的關(guān)聯(lián)規(guī)則置信度和支持度，說(shuō)明了所提算法的有效性。

如表1 所示，該文在5 個(gè)不同數(shù)據(jù)集上進(jìn)行關(guān)聯(lián)數(shù)據(jù)挖掘，對(duì)比層次聚類算法、K-means 聚類算法和文中所提的DBSCAN 聚類算法的聚類輪廓系數(shù)。整體上看，K-means 聚類算法略優(yōu)于層次聚類算法。但在部分情況下，由于K-means 聚類算法的聚類中心數(shù)目錯(cuò)誤，導(dǎo)致其性能反而低于層次聚類算法。文中所提算法在不同數(shù)據(jù)集合上的輪廓系數(shù)均高于其他兩種算法，說(shuō)明聚類結(jié)果更合理。

表1 不同算法聚類輪廓系數(shù)對(duì)比

如表2 所示，在同一數(shù)據(jù)集下，該文對(duì)比了基于3 種聚類算法的關(guān)聯(lián)規(guī)則挖掘算法的置信度和支持度。文中所提算法的關(guān)聯(lián)規(guī)則置信度與支持度均高于層次聚類算法和K-means 聚類算法，說(shuō)明文中所挖掘的關(guān)聯(lián)規(guī)則屬于強(qiáng)規(guī)則，利用所挖掘的規(guī)則可以更智能地進(jìn)行個(gè)性化繼續(xù)教育方案優(yōu)化推薦。

表2 不同算法關(guān)聯(lián)規(guī)則置信度和支持度對(duì)比

5 結(jié)束語(yǔ)

為了滿足個(gè)性化繼續(xù)教育方案優(yōu)化的需求，基于關(guān)聯(lián)規(guī)則挖掘算法提出了一種智能的個(gè)性化繼續(xù)教育方案制定技術(shù)。利用DBSCAN 聚類算法實(shí)現(xiàn)數(shù)據(jù)集內(nèi)聚類中心數(shù)目不確定情況下的自適應(yīng)聚類，并根據(jù)聚類結(jié)果提取核心規(guī)則進(jìn)行個(gè)性化繼續(xù)教育方案優(yōu)化。通過(guò)仿真分析證明，所提算法相對(duì)于現(xiàn)有聚類算法，聚類結(jié)果更合理，且具有較高的魯棒性，而且該算法可以挖掘的規(guī)則關(guān)聯(lián)性更強(qiáng)，在繼續(xù)教育方案優(yōu)化領(lǐng)域具有良好的實(shí)際應(yīng)用價(jià)值。