劉克禮
摘 要:在網(wǎng)絡學習平臺中,如何有效推薦學習資源具有重要意義。為進一步提高在數(shù)據(jù)稀疏情況下的關聯(lián)規(guī)則推薦效率,從相似性角度出發(fā),引入學習資源文本信息,通過構建學習資源相似度矩陣,提出一個基于資源相似度的關聯(lián)規(guī)則擴展方法,從而在歷史數(shù)據(jù)稀疏的情況下生成關聯(lián)規(guī)則推薦。實踐結果表明,基于同一數(shù)據(jù)對象進行研究,通過擴展關聯(lián)規(guī)則方法可以提高推薦的有效性和實用性。
關鍵詞:關聯(lián)規(guī)則;Apriori;規(guī)則擴展;數(shù)據(jù)挖掘
DOI:10. 11907/rjdk. 201364 開放科學(資源服務)標識碼(OSID):
中圖分類號:TP391文獻標識碼:A 文章編號:1672-7800(2020)007-0158-03
Extension and Application of Association Rules in Data Sparse Cases
LIU Ke-li
(School of Information Engineering ,Anhui Open University,Hefei 230022,China)
Abstract: In the network learning platform, how to effectively recommend learning resources is of great significance. To further improve the efficiency of association rule recommendation in the case of sparse data, from the perspective of similarity, this paper introduces the text information of learning resources, and constructs a similarity matrix of learning resources to propose an association rule expansion method based on resource similarity. Correlation rule recommendation is generated when the data is sparse. The practical results show that the effectiveness and practicability of recommendation can be improved by extending association rules based on the same data.
Key Words: the association rule; Apriori; rule extension; data mining
0 引言
隨著網(wǎng)絡學習的快速發(fā)展,學習資源的數(shù)字化程度不斷提高,網(wǎng)絡學習平臺每天都會產生大量學習記錄。如何對這些學習記錄進行分析與處理,挖掘隱含在其中的學習規(guī)律,從而進一步提高網(wǎng)絡學習效率和質量是目前教育研究中的熱點問題。關聯(lián)規(guī)則可用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中有意義的聯(lián)系,是數(shù)據(jù)挖掘技術中的常用方法[1],已廣泛應用于金融、建筑、鐵路、航空、醫(yī)療等眾多領域[2]。Agrawal等[3]在分析大量購物車商品信息的基礎上,提出一種基于頻繁項集的關聯(lián)規(guī)則挖掘算法,用于分析商品之間的關聯(lián)關系,其核心就是對頻繁項集的挖掘[4-6]。
目前,網(wǎng)絡學習平臺不斷有新的學習資源上線,這些新上線的學習資源由于缺少瀏覽記錄,采用常規(guī)數(shù)據(jù)挖掘方法難以生成有效的關聯(lián)規(guī)則。針對這種缺乏用戶歷史行為數(shù)據(jù)的情況,有研究者提出在關聯(lián)規(guī)則基礎上進行擴展。如李學明[7]認為關聯(lián)規(guī)則模型中隱藏的肯定關系與否定關系同樣重要,并將擴展型關聯(lián)規(guī)則與原關聯(lián)規(guī)則相結合,提高了擴展關聯(lián)規(guī)則挖掘效率;董俊[8]提出利用多維關聯(lián)規(guī)則的本體規(guī)則擴展方法進行關聯(lián)規(guī)則擴展,發(fā)現(xiàn)該方法可以提高分類準確率和召回率;Abbache等[9]提出在數(shù)據(jù)挖掘中,除對歷史行為數(shù)據(jù)進行挖掘外,還可以挖掘資源本身的信息。本文在研究學習平臺中學習資源相似性的基礎上,引入學習資源文本描述信息,以向量形式表示學習資源,通過計算向量之間的余弦相似度,構建相似度矩陣,通過擴展關聯(lián)規(guī)則方法,實現(xiàn)在用戶歷史行為數(shù)據(jù)稀疏情況下對學習資源的高效推薦。
1 用戶數(shù)據(jù)稀疏情況下關聯(lián)規(guī)則擴展
通過數(shù)據(jù)收集、數(shù)據(jù)清理、關聯(lián)分析與相似度計算等步驟生成關聯(lián)規(guī)則。
1.1 數(shù)據(jù)收集與數(shù)據(jù)清理
1.1.1 數(shù)據(jù)收集
采用數(shù)據(jù)收集與數(shù)據(jù)存儲技術可以積累海量數(shù)據(jù)。在線學習平臺每天都有大量活躍用戶,這些用戶的網(wǎng)上學習行為會產生大量數(shù)據(jù),包含用戶瀏覽的視頻、文本及課程論壇互動信息等,同時平臺還記錄了用戶學習時長、資源點擊頻率等。這些快速積累的海量數(shù)據(jù)對于獲得有價值的信息具有重要意義。
1.1.2 數(shù)據(jù)清理
學生在網(wǎng)絡學習平臺學習的過程中,也會產生隨機、雜亂、無目的瀏覽記錄[10]。其在學習中也不是一次性瀏覽課程所有資源,通常按照教學要求進行階段性的學習。平臺中存在部分學生為完成學習任務而隨意點擊的數(shù)據(jù),也存在著為“掛學時”而產生的數(shù)據(jù)等[11],這也是無法避免的數(shù)據(jù)質量問題,因此需要對數(shù)據(jù)進行檢測與糾正,也即進行數(shù)據(jù)清理。
1.2 關聯(lián)規(guī)則挖掘
本文基于頻繁項集理論[12],采用循環(huán)生成頻繁項集的方法[13],通過基于支持度的剪枝技術去掉非頻繁項[14],然后對頻繁項集進行運算得到擴展的關聯(lián)規(guī)則。
1.3 學習資源相似度計算及關聯(lián)規(guī)則擴展
關聯(lián)規(guī)則挖掘的目的就是找出具有相似屬性的資源。通常關聯(lián)規(guī)則挖掘算法需要根據(jù)用戶歷史行為和興趣,預測用戶未來的行為和興趣,因此需要大量用戶數(shù)據(jù)作為支撐。若用戶歷史行為數(shù)據(jù)不足,如剛上線的學習資源以及缺少瀏覽量的學習資源等,就會因缺乏置信度而無法生成關聯(lián)規(guī)則。因此,針對相關學習資源,可通過構建資源相似度矩陣,同時以資源文本描述信息作為補充進行關聯(lián)規(guī)則挖掘。用戶在學習平臺中瀏覽了資源A,通過計算資源的文本描述信息,若能發(fā)現(xiàn)資源B與資源A具有一定相似度,則推斷用戶可能會對學習資源B感興趣,也即是說,資源B對其具有同樣重要的學習價值。通過關聯(lián)規(guī)則算法挖掘到的規(guī)則“資源A=>資源B”,若有一個學習資源C與資源B具有一定相似度,甚至在學習價值上可能超過資源B,則對于學習者來說,學習資源C和學習資源B給其帶來的收獲大致相同,甚至體驗更好。說明在關聯(lián)規(guī)則“資源A=>資源B”的基礎上,如果學習資源C與學習資源B具備一定相似度,則“資源A=>資源C”可作為一條關聯(lián)規(guī)則納入頻繁項集。
通過上述方法可構建學習資源相似度矩陣,對關聯(lián)規(guī)則進行擴展,最終實現(xiàn)在歷史數(shù)據(jù)稀疏條件下的學習資源推薦。要實現(xiàn)上述情況下的資源推薦,關鍵在于對關聯(lián)規(guī)則進行擴展,其核心就是計算學習資源的相似度。
1.3.1 學習資源相似度計算
對于學習資源相似度計算,在增加學習資源文本信息的基礎上,利用向量空間模型描述學習資源,將學習資源表示成一個關鍵詞向量,然后通過余弦相似度計算構造相似度矩陣。具體步驟如下:首先把學習資源按特征維度進行劃分,按文本分詞形式處理權重。用維度向量表示學習資源,如學習資源d可表示成一個關鍵詞向量:di={(e1,w1),(e2,w2),…(ei,wi )…}。其中,ei表示關鍵詞,wi表示關鍵詞對應權重。利用信息檢索鄰域的TU-IDF公式計算關鍵詞權重:
[wi=TF(ei)logDF(ei)]
學習資源相似度可通過計算向量之間的余弦相似度得到,具體公式如下:
通過公式可計算出不同學習資源的相似度,并構造一個學習資源相似度矩陣,從而求得任意兩學習資源之間的相似度。
1.3.2 關聯(lián)規(guī)則擴展
為了更好地在數(shù)據(jù)稀疏的情況下計算學習資源相似度,并通過計算找出相似度高的學習資源,在進行規(guī)則擴展時,將規(guī)則置信度與學習資源相似度的乘積作為擴展后規(guī)則的置信度。針對已有規(guī)則<資源A=>資源B ,conf=x>,即對學習資源A感興趣的用戶有x的概率對學習資源B感興趣,通過計算發(fā)現(xiàn),學習資源C與學習資源B的相似度為y,且x與y的乘積符合置信度要求,從而得到新規(guī)則< 資源A=>資源C,conf=x*y >,即對學習資源A感興趣的用戶有x*y的概率對學習資源B感興趣。采用這種計算方法,可實現(xiàn)對關聯(lián)規(guī)則按置信度進行擴展。
2 實例分析驗證
2.1 數(shù)據(jù)處理
本研究使用的數(shù)據(jù)來自某高校網(wǎng)絡學習平臺,該平臺是以計算技術為基礎的集約化一站式學習平臺,每天都有海量學習記錄數(shù)據(jù)產生,這些數(shù)據(jù)真實、可靠,可用于數(shù)據(jù)挖掘研究。本文主要采用《計算機應用基礎》課程數(shù)據(jù)進行實證研究,該課程是一門公共基礎課,每學期約有1萬名學生選修該課程。課程網(wǎng)絡資源豐富,包括文本輔導、精講視頻、經典案例、在線測驗等,另外課程討論區(qū)也有大量學習資源,如學生學習心得、問題回復等。選取2019春季學期學生的學習記錄,剔除沒有學習行為,以及學習行為數(shù)量較少的學習記錄,得到有效選課數(shù)據(jù)8 578條。研究發(fā)現(xiàn),96.68%的學習記錄里包含的學習資源個數(shù)在30以內。參照數(shù)據(jù)挖掘中的數(shù)據(jù)清洗規(guī)則,剔除部分異常數(shù)據(jù)記錄,最終得到21 251條學習記錄。
2.2 關聯(lián)規(guī)則挖掘及擴展
通過Apriori算法對上述步驟得到的21 251條學習記錄進行關聯(lián)規(guī)則分析。選取支持度大于0.03,同時置信度大于0.05的關聯(lián)規(guī)則進行分析,共挖掘出104條關聯(lián)規(guī)則。按置信度從高到低排序,選擇前10條關聯(lián)規(guī)則如表1所示。
在上述關聯(lián)規(guī)則挖掘基礎上,針對用戶歷史行為數(shù)據(jù)稀疏的情況,引入學習資源文本描述信息,以向量形式表示學習資源,通過計算向量之間的余弦相似度,得到擴展的關聯(lián)規(guī)則。為了研究的需要,本文將擴展后關聯(lián)規(guī)則的置信度從0.05提升到0.07,只保留置信度在0.07之上的學習資源。
通過對比發(fā)現(xiàn),利用Apriori算法挖掘到的關聯(lián)規(guī)則數(shù)量與規(guī)則擴展后的數(shù)量都是隨著置信度提高而逐漸下降的。當置信度小于0.085時,擴展得到的關聯(lián)規(guī)則數(shù)量都比原關聯(lián)規(guī)則數(shù)量多。隨著置信度不斷增加,擴展得到的關聯(lián)規(guī)則數(shù)量則逐漸減少,如圖1所示。
從圖中可以發(fā)現(xiàn),在置信度小于0.085時使用擴展規(guī)則,得到的關聯(lián)規(guī)則數(shù)量隨著置信度增加呈現(xiàn)平緩的態(tài)勢,說明使用規(guī)則擴展方法能保持一個相對穩(wěn)定的擴展效率。隨著置信度不斷增加,特別是當置信度大于0.085后,得到的擴展關聯(lián)規(guī)則數(shù)量不斷減少,說明高度相似的學習資源數(shù)量會隨著相似度提高而逐漸減少??傮w來看,規(guī)則擴展能實現(xiàn)在用戶歷史行為數(shù)據(jù)稀疏情況下生成關聯(lián)規(guī)則,且提高數(shù)據(jù)關聯(lián)的效率和實用性。
3 結語
本文從學習資源相似度角度出發(fā),兼顧學習者歷史行為數(shù)據(jù)和學習資源文本描述信息,在歷史行為數(shù)據(jù)稀疏的情況下,通過構建學習資源相似度矩陣,提出一個基于學習資源相似度的關聯(lián)規(guī)則擴展方法。最后依托在線學習平臺真實的學習記錄進行實驗,證明擴展的關聯(lián)規(guī)則能在歷史行為數(shù)據(jù)稀疏的情況下,提高數(shù)據(jù)挖掘的效率和實用性。
在信息化快速發(fā)展的時代,先進的信息技術在教育領域的應用越來越廣泛、深入,通過分析在線學習平臺積累的各類數(shù)據(jù),可挖掘出更多隱藏其中有價值的信息,這對于提高學習效率、提升教學質量具有重要意義。
參考文獻:
[1] WU X, KUMAR V, QUINLAN J R, et al. Top?10 algorithms in data mining[J]. Knowledge & Information Systems,2007,14:1-37.
[2] 王曉麗,奚克敏,劉占波,等. 基于Apriori算法的關聯(lián)規(guī)則分析[J]. 軟件,2019,40(2):23-26.
[3] AGRAWAL R. Mining association rules between sets of items in large databases[C]. Proceedings of the ACM SIGMOD Conference on Management of Data,1993.
[4] CZIBULA G, MARIAN Z, CZIBULA I G. Detecting software design defects using relational association rule mining[J]. Knowledge & Information Systems, 2015, 42:545-577.
[5] LIU Z, HU L, WU C, et al. A novel process-based association rule approach through maximal frequent itemsets for big data processing[J]. Future Generation Computer Systems, 2017 ,81:414-424.
[6] RACHBUREE N,ARUNRERK J,PUNLUMJEAK W. Failure part mining using an association rules mining by FP-growth and apriori algorithms: case of ATM maintenance in Thailand[C].? International Conference on IT Convergence and Security, 2017.
[7] 李學明,劉勇國,彭軍,等. 擴展型關聯(lián)規(guī)則和原關聯(lián)規(guī)則及其若干性質[J]. 計算機研究與發(fā)展,2002(12):1740-1750.
[8] 董俊,王鎖萍,熊范綸,等. 基于多維關聯(lián)規(guī)則的本體規(guī)則擴展方法[J]. 模式識別與人工智能,2009,22(5):756-762.
[9] ABBACHE A, MEZIANE F, BELALEM G, et al. Arabic query expansion using WordNet and association rules[J]. International Journal of Intelligent Information Technologies, 2016,12:51-64.
[10] 代紅,吳文凱,任玲,等. 網(wǎng)絡學習行為分析與預測的研究[J]. 通訊世界,2019,26(10):28-29.
[11] 劉培艷. 從資源共享視角探究開放大學數(shù)字化教育資源應用現(xiàn)狀[J]. 天津職業(yè)院校聯(lián)合學報,2018,20(6):100-105.
[12] 陳可嘉,趙政. 用戶交易數(shù)據(jù)不足情況下的商品關聯(lián)規(guī)則擴展與應用[J]. 福州大學學報(哲學社會科學版),2019,33(1):42-47.
[13] 尹遠,朱璐偉,文凱. 基于差異點集的頻繁項集挖掘算法[J]. 計算機工程與設計,2020,41(3):716-720.
[14] 謝修娟,莫凌飛,朱林. 基于關聯(lián)規(guī)則的濫用入侵檢測系統(tǒng)的研究與實現(xiàn)[J]. 現(xiàn)代電子技術,2017,40(2):43-47.
(責任編輯:黃 ?。?/p>