[摘 要] 機器學習可幫助教師挖掘試卷中知識點之間的關(guān)系,檢測學生知識點掌握情況,為評價反饋提供支持。使用深度學習Apriori算法,通過模擬研究和實證研究,針對具有不同知識點結(jié)構(gòu)的試卷進行挖掘分析。模擬研究發(fā)現(xiàn):Apriori算法能針對知識點屬性復雜的試題進行知識點間關(guān)聯(lián)規(guī)則的挖掘,準確率較高;隨著樣本量的增加,挖掘的準確率增加。實證研究發(fā)現(xiàn):Apriori算法可對中小學的語文、數(shù)學、小學科學、中學物理等學科的試卷進行知識點間關(guān)聯(lián)規(guī)則挖掘,但學科間挖掘結(jié)果有差異。經(jīng)過粒度優(yōu)化、刪除基礎(chǔ)知識點后,Apriori算法可較好挖掘中小學語文、數(shù)學剩余知識點間的關(guān)聯(lián)關(guān)系,但對跨學科的知識點關(guān)系挖掘有待提升。
[關(guān)鍵詞] 知識關(guān)聯(lián)規(guī)則;Apriori算法;學科;跨學科;不同知識點結(jié)構(gòu)
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)05—009—015
一、問題緣起
測試有助于評價學生對學科的某一單元、某個學期、某個學年知識點的掌握情況。教師結(jié)合測試結(jié)果判斷學生知識點缺失情況,針對學生欠缺的知識點進行專題彌補,能夠有效提升教學效率。
已有研究利用數(shù)據(jù)挖掘的方式對試卷內(nèi)在知識結(jié)構(gòu)進行挖掘,常見算法包括決策樹、Apriori算法、聚類算法等。Bello等人通過分類算法和聚類算法(NB、KNN、C4.5、SVM、K-means)分析試卷,從海量的學習數(shù)據(jù)里面挖掘出潛藏在成績背后的知識結(jié)構(gòu)、學生學習結(jié)果產(chǎn)出的原因,從而對教學提出建議[1]。Kahya采用新的K-means算法分析學生測試數(shù)據(jù),找出學生某門科目學習的內(nèi)在知識點關(guān)聯(lián)[2]。Tsytsarau M.等人則引入Bayesian 理論,提升學生成績挖掘的準確度[3]。
在我國,有研究者利用機器學習的算法對試卷中的內(nèi)在知識關(guān)聯(lián)進行挖掘,并將得到的結(jié)果投入到教學應用中。如2016年,劉愛萍采用KNN算法,訓練預測因子,提高了數(shù)據(jù)挖掘的準確度和預測速度[4]。馬瑩等人基于知識關(guān)聯(lián)規(guī)則和聚類算法,挖掘影響學生成績的真實原因[5]。
在知識點關(guān)聯(lián)的挖掘研究中,Apriori算法是一種常見的算法,用來建立知識點間的關(guān)聯(lián)規(guī)則。早期,學者們基于分而治之的思想,采用蟻群算法,對Apriori算法結(jié)構(gòu)進行優(yōu)化[6]。2010年,有學者使用Apriori算法挖掘網(wǎng)絡平臺的學習成績[7]。2012年,白彥輝使用Apriori算法,對試題上的重點知識點、難點知識點進行了數(shù)據(jù)劃分,將每個知識點下的分數(shù)都劃分為三或四個等級,拓寬了知識點粒度,挖掘到學生的薄弱知識點[8]。2014年,黃藝坤使用MI-Apriori算法構(gòu)建高頻集,進行學生群體劃分,通過矩陣壓縮建立項集索引表,挖掘出教學重難點,解決了自動組卷中的教學評價問題[9]。李志軍等人利用Apriori算法分析學生成績,找出了課程之間的隱含的聯(lián)系[10]。2018年,李毅使用Apriori算法,依據(jù)學生答題數(shù)據(jù),分析出試卷中各題目對應知識點間的關(guān)聯(lián)性[11]。又有研究者針對2017年常州市某中學七年級的6套題目,根據(jù)知識點掌握程度,通過學生作答,挖掘兩者之間的深層次的關(guān)聯(lián)[12]。2017年,袁路妍、李鋒利用改進的關(guān)聯(lián)規(guī)則 Apriori 算法,減少無效比較的次數(shù)[13]。2018年,李毅在細致劃分數(shù)學試卷考查知識點的基礎(chǔ)上,運用Apriori算法分析了試卷中各知識點間的隱含關(guān)聯(lián)關(guān)系[11]。已有研究的算法均基于頻繁項集的查找,每運行一次算法就要遍歷一次數(shù)據(jù),生成所有的項集集合,增加了計算的功耗,計算效率較低。自2020年,有學者通過對算法進行性能分析,在生成的集合中剔除非頻繁集合項,改善挖掘效率,提升Apriori算法的支持度和可信度[14]。
前人的學術(shù)成果為后續(xù)研究打下了堅實的基礎(chǔ)。但是,已有研究只針對單一學科,且沒有比較不同類型的知識結(jié)構(gòu)情況的挖掘效果,缺乏大數(shù)據(jù)集的實證檢驗。因此,本研究開展模擬研究和實證研究,試圖探究Apriori算法對擁有不同知識點關(guān)聯(lián)的試卷挖掘的適用性。
二、Apriori算法在試卷知識點關(guān)聯(lián)中的應用研究
Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法。20世紀60年代,學者Hájek、Havel和Chytil提出了算法思想[15]。20世紀90年代,Agrawal 等人改善了算法。學者們對單層、多層、基于圖等關(guān)聯(lián)規(guī)則進行挖掘,實現(xiàn)了算法的具體操作。Apriori算法從大數(shù)據(jù)集中挖掘頻繁項集,找出關(guān)聯(lián)規(guī)則。
(一)Apriori算法的指標
Apriori算法有三個重要的判斷指標:支持度、置信度、提升度。
支持度(support)是一個用來表明頻繁項在整個項集中(D)出現(xiàn)的頻繁程度的指標。計算公式為:
Support(X)=count(X)/count(D) (1)
關(guān)聯(lián)規(guī)則支持度指的是X=gt;Y的支持度,等于集合X∪Y的支持度。表示集合X和集合Y中的項在全部的數(shù)據(jù)集中出現(xiàn)的概率。計算公式為:
Support(X=gt;Y)=Support(X∪Y)=count(X∪Y)count(D)" " " " " " (2)
關(guān)聯(lián)規(guī)則置信度(confidence)表明在X集合出現(xiàn)的情況下,Y集合出現(xiàn)的概率的大小,等于集合X∪Y的支持度和集合X的支持度的比例,從概率論的意義來說就是P(X|Y)=P(XY)/P(Y)。計算公式為:
Confidence(X=gt;Y)=Support(X∪Y)/Support(X)" " " (3)
關(guān)聯(lián)規(guī)則提升度(lift)可以用來判斷一個題項對另一個題項提升的程度。主要有兩個數(shù)值需要注意,一個是liftgt;1,表明這樣的關(guān)聯(lián)是存在意義的,也就是說一個題項跟另一個題項之間是存在正相關(guān)關(guān)系的。但如果要尋找有用的關(guān)聯(lián),則需要liftgt;3。用概率論的思想來解釋lift,為P(X|Y)/P(Y)=(P(XY)/P(Y))/P(Y)。計算公式為:
lift(X=gt;Y)=confidence(X=gt;Y)/Support(X)" (4)
一般而言,支持度和置信度的值越大,關(guān)聯(lián)規(guī)則的可靠性越高。而提升度越大,表明兩者關(guān)聯(lián)關(guān)系越緊密。
(二)Apriori算法的運行
Apriori算法運行過程如圖1所示:
三、研究思路
(一)研究問題
第一,基于模擬研究,Apriori算法在不同樣本量條件下,針對擁有不同類型的知識點關(guān)聯(lián)規(guī)則的試卷的適用性如何?
第二,基于實證數(shù)據(jù),Apriori算法在對擁有不同知識點關(guān)聯(lián)規(guī)則的語文、數(shù)學、小學科學、中學物理等試卷的適用性如何?
(二)研究步驟
研究一:基于認知診斷理論下的DINA模型,模擬在不同的樣本量、知識點屬性結(jié)構(gòu)及個數(shù)條件下學生的作答反應,使用Apriori算法對知識點關(guān)聯(lián)規(guī)則及知識點間屬性層次結(jié)構(gòu)進行驗證,判斷Apriori算法的準確度。
研究二:基于實證研究的數(shù)據(jù),針對知識點關(guān)聯(lián)程度不同的語文、數(shù)學和科學試卷,Apriori算法推斷的知識關(guān)聯(lián)關(guān)系存在的差異,再針對“科學”學科在不同年級間的差異,進行詳細分析和比較。
本研究使用R軟件中的arules包對數(shù)據(jù)進行分析與挖掘。
首先需要對數(shù)據(jù)運行和清理,并將其轉(zhuǎn)化為Apriori算法可識別和運行的數(shù)據(jù)形式,生成試卷內(nèi)知識點間關(guān)聯(lián)關(guān)系,并進行可視化處理。挖掘過程如圖2所示:
第一步:異常數(shù)據(jù)或特殊作答模式清理。查看數(shù)據(jù)集相關(guān)的統(tǒng)計匯總信息,通過計算項目答對率并繪制各題答對率分布圖,使用arules包中的sample函數(shù)對異常數(shù)據(jù)或特殊模式進行識別和清理,獲得可進一步分析關(guān)聯(lián)規(guī)則的挖掘庫。
第二步:對數(shù)據(jù)庫進行知識點關(guān)聯(lián)規(guī)則的挖掘。Apriori算法arules包中的apriori()函數(shù)默認參數(shù)值設定為支持度(support)=0.1,置信度(confidence)=0.8。為了避免參數(shù)設置不當而產(chǎn)生大量不可靠的規(guī)則,在實際數(shù)據(jù)分析中對支持度和置信度的參數(shù)進行適當調(diào)整,以便能夠挖掘到合理數(shù)量并且有意義的關(guān)聯(lián)規(guī)則。經(jīng)上述過程可得到知識點的關(guān)聯(lián)規(guī)則,通常將規(guī)則劃分為三大類:
第一種有效規(guī)則(actionable),是指規(guī)則鮮明清晰、有價值;
第二種基本規(guī)則(trivial),是指規(guī)則是顯而易見的,直觀明確但價值不大;
第三種難以解釋規(guī)則(inexplicable),是指一些難以解釋的規(guī)則,需要進行額外的研究來判定。
同時,這種關(guān)聯(lián)規(guī)則可以實現(xiàn)可視化。如圖3所示,x軸代表的是支持度,y軸代表的是置信度。其中每一個關(guān)聯(lián)規(guī)則顏色的深淺,是由支持度和置信度這兩個度量值所對應的參數(shù)值和提升度lift的值來決定的。顏色越深表明提升度比較高,越淺表明有相關(guān)但并非強有效的規(guī)則。當知識點屬性過多的時候,支持度會比較低,關(guān)聯(lián)規(guī)則的挖掘是交互式的,需要不斷地檢查、優(yōu)化。
第三步:進一步優(yōu)化知識點關(guān)聯(lián)規(guī)則的挖掘。如果知識點關(guān)聯(lián)規(guī)則挖掘得不夠好,可以從知識點粒度屬性上進行優(yōu)化,刪除一些簡單的知識點,重新挖掘關(guān)聯(lián)規(guī)則,得到有意義的關(guān)聯(lián)信息。
四、研究結(jié)果
(一)模擬研究
1. 研究問題
基于模擬研究,對比Apriori算法針對不同樣本量、不同知識點關(guān)聯(lián)規(guī)則的試卷的適用性如何?
研究方法如下:
第一步,模擬數(shù)據(jù)。根據(jù)認知診斷理論DINA模型(Deterministic Inputs,Noisy“and”Gate Model)(JunKer amp; Sijtsma,2001),構(gòu)建單一知識點和復雜知識點的Q矩陣,使用R package使CDM中的DINA模型生成學生作答反應。
根據(jù)DINA模型的項目反應函數(shù)如下:
P(Yij=1|αk)=(1?si)[ηij]gi[1-ηij] (5)
其中,[ηij=k=1Kαqjkik]" (6)
研究重點關(guān)注兩個條件下,Apriori算法對試卷中知識規(guī)則挖掘的適用性。第一是知識點關(guān)聯(lián)的復雜程度,包括了一個單一知識點和兩個復雜知識點類型。第二是學生樣本數(shù)的多少,樣本數(shù)設置為50、500、1000、5000、10000等人數(shù)的條件。題目數(shù)設定為5道題和5個屬性,樣本參數(shù)中的猜測參數(shù)和失誤參數(shù)范圍為(0.1,0.3)。
具體說來:
(1)單一知識點是指知識點之間相互獨立,且知識點間為平行關(guān)系,也就是每個知識點的掌握與否并不影響其他知識點的掌握。那么,在驗證之前預先判定,知識點間無關(guān)聯(lián),或者關(guān)聯(lián)強度不大,知識點關(guān)聯(lián)規(guī)則可能會出現(xiàn)無序狀態(tài)。圖4為第一種情況下的知識點屬性Q矩陣列表。
(2)復雜知識點的Q矩陣
復雜知識點有兩種子類。
第一種復雜知識點的Q矩陣見圖5?;趫D5,可能挖掘出來的知識點關(guān)聯(lián)規(guī)則包括:A4—gt;A1、A2;A5—gt;A4、A2、A1、A3。例如若要掌握知識點A4,需要先掌握知識點A1和A2,即不同知識點之間存在層級關(guān)系。
第二種復雜知識點屬性Q矩陣見圖6?;趫D6,可能挖掘出來的知識點關(guān)聯(lián)規(guī)則包括:A4—gt;A1、A2、A3;A5—gt;A4、A1、A2、A3。
基于上述知識點結(jié)構(gòu),分析在不同的樣本量下知識點關(guān)聯(lián)規(guī)則的規(guī)律。
第二步,利用Apriori算法進行探索,分析其生成的知識點關(guān)聯(lián)規(guī)則與假設是否一致,從而判斷算法的適用性。
2.研究結(jié)果
(1)單一知識點和復雜知識點條件下,知識關(guān)聯(lián)規(guī)則散點圖對比
研究對比了不同樣本量情況下Apriori算法在單一知識點和復雜知識點條件下的挖掘效果,通過散點圖可以直接觀察到知識點間的關(guān)聯(lián)關(guān)系。
由表1可知:
第一,對于單一知識點來說,單一知識點的散點分布較多,Apriori算法所生成的知識點關(guān)聯(lián)沒有規(guī)律;且隨著樣本數(shù)的增加,單一知識點的知識點之內(nèi)產(chǎn)生了許多虛假的關(guān)聯(lián)。
第二,對于復雜知識點來說,隨著樣本量的增加,Apriori算法所估計出來的知識點間關(guān)聯(lián)規(guī)則越來越具有規(guī)律性。其中提升度(lift)值大于1的關(guān)聯(lián)規(guī)則較多。
(2)單一知識點和復雜知識點條件下知識關(guān)聯(lián)規(guī)則對比
研究發(fā)現(xiàn),隨著樣本量的變化,單一知識點間沒有出現(xiàn)固定的關(guān)聯(lián)規(guī)則,表明知識點間不存在有意義的關(guān)聯(lián);而隨著樣本量增加,復雜知識點的關(guān)聯(lián)規(guī)則呈現(xiàn)出穩(wěn)定性和規(guī)律性。表2是不同模擬條件下,算法生成的知識關(guān)聯(lián)規(guī)則。
第一,在單一知識點條件下,知識關(guān)聯(lián)規(guī)則產(chǎn)生于support=0.2,confidence=0.6的參數(shù)條件。無論樣本量多少,Apriori算法所挖掘出來的知識點關(guān)聯(lián)規(guī)則均未呈現(xiàn)固定的結(jié)構(gòu)。這表明,Apriori算法無法針對存在平行關(guān)系的知識點間挖掘出穩(wěn)定的關(guān)聯(lián)結(jié)構(gòu)。
第二,在復雜知識點條件下,知識關(guān)聯(lián)規(guī)則產(chǎn)生于support=0.1,confidence=0.4的參數(shù)條件下。如對于復雜知識點屬性結(jié)構(gòu)一來說,知識關(guān)聯(lián)規(guī)則包括item5=gt;item1,item2,item3,item4=gt;item1,item2,item3。即若學生掌握了題目4或題目5的知識點,則大概率是已掌握了題目1、2、3所考查的知識點。這符合在數(shù)據(jù)模擬的時候?qū)τ陬}目之間關(guān)系的架構(gòu)。同時,隨著樣本量的增多,Apriori算法進行知識點關(guān)聯(lián)規(guī)則挖掘的準確度也會增加。
(3)單一知識點和復雜知識點條件下知識關(guān)聯(lián)規(guī)則可視化對比
根據(jù)以上規(guī)則進行規(guī)則的可視化。以下是不同類型知識點生成的強關(guān)聯(lián)規(guī)則可視化:
在單一知識點條件下,不同樣本量下規(guī)則出現(xiàn)了無序的變化。而在復雜知識點條件下,屬性層級結(jié)構(gòu)一和二的關(guān)聯(lián)規(guī)則可視化圖顯示,隨著樣本量增加,規(guī)則趨于穩(wěn)定結(jié)構(gòu)。
關(guān)于圓圈顏色深淺lift和圓圈support大?。侯伾缴?,說前因子集對后因子的提升力越強,影響程度越大;圓圈越大,表明前因子集和后因子集共同出現(xiàn)概率越高,關(guān)聯(lián)越強。基于模擬數(shù)據(jù),屬性層級結(jié)構(gòu)一和二結(jié)論是相同的,同樣item4和item5之間的關(guān)聯(lián)性較弱,但相較知識點層級結(jié)構(gòu)一,層級結(jié)構(gòu)二生成的關(guān)聯(lián)規(guī)則會有細微差別,代表知識點屬性層級結(jié)構(gòu)的差別會帶來知識點關(guān)聯(lián)規(guī)則的差別。兩項研究均表明,Apriori算法可以驗證知識點關(guān)聯(lián)結(jié)構(gòu)。
(二)實證研究
1. 研究問題
基于實證數(shù)據(jù),對比Apriori算法對擁有不同知識點關(guān)聯(lián)規(guī)則的不同年級、不同學科(語文、數(shù)學、小學科學和中學物理等)的試卷的適用性如何?
2. 研究方法
第一步,利用算法對試卷進行知識關(guān)聯(lián)分析。
第二步,為了判斷知識關(guān)聯(lián)的準確性,經(jīng)過與學科專家及一線教師的討論,對試題的層級結(jié)構(gòu)和知識點屬性進行標定。
對某市六年級和九年級共計14600余名學生的教育質(zhì)量監(jiān)測評價試卷作答數(shù)據(jù)進行知識點關(guān)聯(lián)關(guān)系的研究。包括每個年級的語文、數(shù)學、科學(或物理)。其中,試題僅保留了客觀題,刪除了主觀題。并且對客觀題得分進行了二級計分轉(zhuǎn)換處理,以保證算法的可實施,提高結(jié)果的準確度。
3. 研究結(jié)果
(1)不同學科題目的掌握程度的描述性分析
圖7為該批學生對各部分知識點的掌握情況,即每道題目的正確作答概率。
可以發(fā)現(xiàn),得分率較高的普遍是基礎(chǔ)知識點,知識點難度較低;得分率中等或較低的則是屬于同一層次類型的復雜知識點,知識點屬性層級較高,難度較大。
(2)不同學科知識點關(guān)聯(lián)規(guī)則的可視化展示
針對上述結(jié)果,采用可視化方式進行展示,可以更加直觀地得到學科知識點間的關(guān)聯(lián)關(guān)系。
散點圖顯示:
第一,不同學科的知識關(guān)聯(lián)規(guī)則存在差異。語文和數(shù)學學科所生成的知識關(guān)聯(lián)規(guī)則比較緊密,科學相對來說則比較分散。語文學科大部分規(guī)則的支持度在0.6以上,置信度在0.8以上;數(shù)學學科大部分規(guī)則的支持度在0.4以上;科學學科大部分規(guī)則的支持度在0.2以上。語文學科知識點間關(guān)聯(lián)性最強,數(shù)學次之,科學最低。
第二,不同年級的知識關(guān)聯(lián)規(guī)則存在差異。如小學科學和中學物理相比,在相似的支持度和置信度的條件下,中學物理的提升度大于1.6,而小學科學的提升度lift在1.04左右,說明中學物理知識點間生成了強有效的關(guān)聯(lián)規(guī)則。這是由于小學科學傾向于描述知識點,知識點偏基礎(chǔ)性,結(jié)構(gòu)單一,知識點間呈平行結(jié)構(gòu);中學物理則要求較多定量分析、技能掌握、邏輯判別,知識點間環(huán)環(huán)相扣,緊密相連。
(3)知識點關(guān)聯(lián)規(guī)則挖掘優(yōu)化分析
① 基于粒度優(yōu)化分析的知識點關(guān)聯(lián)規(guī)則挖掘
為了深入挖掘知識關(guān)聯(lián)規(guī)則,基于粒度優(yōu)化再次分析,通過刪除基礎(chǔ)知識點,找尋更加有意義的知識點關(guān)聯(lián)規(guī)則。研究發(fā)現(xiàn),在高粒度的情況下,不同學科之間剩余知識點間的關(guān)聯(lián)狀況有所變化。
第一,在高粒度情況下,語文和數(shù)學學科的知識點關(guān)聯(lián)規(guī)則挖掘比較符合客觀認知,但是科學和物理的知識點關(guān)聯(lián)沒有語文和數(shù)學的強。
對小學語文學科來說,有一條知識規(guī)則,始終會影響其他知識點間的關(guān)聯(lián),例如小學語文的第19個知識點。通過分析試卷發(fā)現(xiàn),這個知識點需要學生調(diào)動日常生活背景進行推論。由表4可見,在沒有任何知識點與它產(chǎn)生關(guān)聯(lián)的情況下,support=0.9,confidence=0.9,lift=1;所以這是一條沒有意義的關(guān)聯(lián)項,應當將之刪除。與之關(guān)聯(lián)度較高的第9、27、24、28知識點均是基礎(chǔ)知識點。對于中學語文知識點結(jié)構(gòu),13、21、12、14、25知識點均為基礎(chǔ)知識點;對于數(shù)學學科來說,小學數(shù)學試卷中1、4、5、6知識點偏基礎(chǔ)內(nèi)容,中學數(shù)學試卷1(1)、1(2)、2(7)題目涵蓋知識點難度較低??梢?,Apriori算法能夠?qū)Σ煌y度層級的知識點進行明顯區(qū)分。中小學的語文、數(shù)學學科具有相似的知識點粒度分布狀況。但是,科學試卷刪除了基礎(chǔ)知識之后,其關(guān)聯(lián)規(guī)則變得非常奇怪。
第二,在高粒度情況下,不同年級的知識點關(guān)聯(lián)也存在明顯的差異。
科學在小學段和中學段的關(guān)聯(lián)有所不同。對小學科學試卷知識點進行分析發(fā)現(xiàn),題目1(1)、1(2)、1(6)屬于基礎(chǔ)知識點,分別考查小學科學三年級下冊“動物的生命周期”、五年級上冊“種子發(fā)芽”、四年級下冊“食物”單元的科學概念,而食物的加熱這一科學概念又與我們的日常生活息息相關(guān),所以體現(xiàn)了很高的支持度和關(guān)聯(lián)性?;谶@一特性,它與其他知識點間頻繁產(chǎn)生關(guān)聯(lián)關(guān)系不能直接認定為與之相關(guān)的知識點間的關(guān)聯(lián)價值。同樣的,對中學物理來說,1(1)和2(1)分別考查沸騰現(xiàn)象和大氣壓強,沸騰現(xiàn)象雖然對于大氣、密度計算有知識規(guī)則高相關(guān),但是,這個現(xiàn)象經(jīng)過深入分析發(fā)現(xiàn),沸騰、大氣壓強的答對率很高,因此它對所有題目都會有貢獻;除此之外,這個沸騰現(xiàn)象與大氣壓一樣,都是需要記憶的。
② 在細粒度條件下優(yōu)化知識點關(guān)聯(lián)挖掘
為了找尋有意義的知識點關(guān)聯(lián)規(guī)則,在細粒度情況下研究不同學科知識點屬性的關(guān)聯(lián)。這里采用了關(guān)聯(lián)規(guī)則的可視化圖,其內(nèi)容是與上圖的關(guān)聯(lián)規(guī)則對應的。
第一,細粒度優(yōu)化后,科學學科出現(xiàn)了更多知識規(guī)則,但對語文、數(shù)學學科無太大改善。
在細粒度情況下,科學知識點關(guān)聯(lián)規(guī)則挖掘得到了優(yōu)化,這可能是因為科學——單一知識點的結(jié)構(gòu)居多,而物理作為一門相對成熟的學科,知識點結(jié)構(gòu)具有較強的屬性層級關(guān)系,所以對科學學科來講是有一定程度的改善的。
第二,在細粒度情況下,不同年級的科學學科也存在很大差異。
通過降低支持度,除去頻繁出現(xiàn)的知識點,可以觀察到剩余知識點結(jié)構(gòu)間有價值的信息。在細粒度下,科學學科間差異性依舊顯著。圓圈顏色深淺,即提升度(lift),以及圓圈大小,即支持度(support),體現(xiàn)了關(guān)系差異。顏色越深,說前因子集對后因子的提升力越強,影響程度越大;圓圈越大,表明前因子集和后因子集共同出現(xiàn)概率越高,關(guān)聯(lián)越強。而除去基礎(chǔ)知識后,中學物理知識點關(guān)聯(lián)強度明顯高于小學科學。
具體舉例來看,1(5)題考查了血液流動知識點,1(8)考查了沉和浮知識點,1(14)考查空氣壓縮這一知識點,與1(15)題考查的地球的運動知識點間形成了正相關(guān),Lift=1.3。但是單從知識點字面意思來看,這些知識點間并不能構(gòu)成理論意義上的強相關(guān),小學科學知識點分布結(jié)構(gòu)松散,這些關(guān)聯(lián)其實是偶然的。而中學物理則可發(fā)現(xiàn)知識點屬性可解釋的相關(guān)。例如,3(5)考查密度計算,3(4)考查物體質(zhì)量的觀測,在物理學科中,密度計算就等于質(zhì)量除以體積。相較于小學科學,中學階段知識點前后繼承性更強。這種關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),能夠為教師編制試卷,提升學生知識點掌握情況提供新的思路??茖W知識點相較于其他兩門學科,學生知識點掌握分布差異性較大。
③ 基于提升度參數(shù)開展優(yōu)化知識點關(guān)聯(lián)挖掘
為了進一步區(qū)分有用關(guān)聯(lián)規(guī)則和無用關(guān)聯(lián)規(guī)則,針對兩個年級三門學科形成的知識點關(guān)聯(lián)規(guī)則中l(wèi)iftgt;3的有用關(guān)聯(lián)規(guī)則進行挖掘。
想找出有用關(guān)聯(lián)規(guī)則,需要降低支持度和置信度,挖掘出不頻繁出現(xiàn)的知識點中所隱藏的、不易發(fā)現(xiàn),但強有效的關(guān)聯(lián)規(guī)則。
從表7可見:語文學科和數(shù)學學科知識點提升度(lift)沒有科學學科高,但語文和數(shù)學知識點間關(guān)聯(lián)程度高,整張試卷知識點間的共線性很強。兩門學科存在許多知識點間得分的關(guān)聯(lián),知識點掌握頻度也很高,所以強規(guī)則下的強有效關(guān)聯(lián)規(guī)則較少。而小學科學很多知識點間存在割裂現(xiàn)象,所以知識點掌握概率有高有低,低頻度知識點與其他知識點間可以發(fā)現(xiàn)一些平時發(fā)現(xiàn)不到的規(guī)則。中學物理知識點相對于小學科學知識點強度更高、范圍更廣,存在更有效的關(guān)聯(lián)。中學知識點強有效關(guān)聯(lián)規(guī)則生成參數(shù)中l(wèi)ift均大于3,而小學科學的均大于2,但是科學學科比語文和數(shù)學的lift參數(shù)值均高,從參數(shù)上體現(xiàn)了知識點關(guān)聯(lián)結(jié)構(gòu)的分布。
五、結(jié)論
基于Apriori算法,開展模擬和實證研究,探索Apriori算法在挖掘試卷知識關(guān)聯(lián)規(guī)則的可行性。研究發(fā)現(xiàn):
第一,在模擬研究中,Apriori算法能夠很好地驗證復雜知識的關(guān)聯(lián)關(guān)系。而單一知識點關(guān)聯(lián)規(guī)則的判斷,隨著樣本量增加,規(guī)則越來越呈現(xiàn)出不規(guī)律性。這說明,Apriori算法無法甄別出單一知識點所具有的點狀的知識規(guī)則。
第二,在實證研究中,Apriori算法可以得到不同學科間的知識點關(guān)聯(lián)規(guī)則,但科學學科的知識點關(guān)聯(lián)規(guī)則與語文、數(shù)學學科之間的規(guī)則具有比較明顯差異。語文和數(shù)學的關(guān)聯(lián)比較多,說明兩科試卷內(nèi)部的知識點關(guān)聯(lián)的邏輯性和整合性較強;而小學科學知識點間結(jié)構(gòu)性不強,更多考查基礎(chǔ)知識點,類似于單一知識點的結(jié)構(gòu),為此,Apriori算法無法很好地實現(xiàn)小學科學的知識點關(guān)聯(lián)規(guī)則的挖掘。
第三,通過粒度優(yōu)化、更新提升度參數(shù)之后,Apriori算法可得到更加有意義的關(guān)聯(lián),但對不同學科而言,優(yōu)化算法的效果不同。對于知識關(guān)聯(lián)較強的語文、數(shù)學學科而言,優(yōu)化無太大改善,但對科學學科而言,其知識點關(guān)聯(lián)規(guī)則的挖掘結(jié)果改善較大。
本研究還有很多不足。例如,模擬研究尚未考慮到更多復雜的知識點關(guān)聯(lián)的狀態(tài),也沒有針對有關(guān)題目的答對率情況進行設置。又如,實證研究尚未能考慮到更多的學科,只能關(guān)注到每學科一套試卷,尚未能考慮到更多的學科范疇。未來,可以在答對率、樣本量等方面做出更多的嘗試。
參考文獻:
[1] Bello-Orgaz G,Menendez H,Okazaki S,et al. Combining Social-Based Data Mining Techniques to Extract Collective Trends from Twitter [J]. Malaysian Journal of Computer Science,2014,27(2):95-111.
[2] Yilmaz C A,Kahya Y P. Multi-channel Classification of Respiratory Sounds [C] // International Conference of the IEEE Engineering in Medicine amp; Biology Society. IEEE,2016.
[3] Tsytsarau M,Palpanas T. Survey on Mining Subjective Data on the Web [J]. Data Mining and Knowledge Discovery,2012,24(3):478-514.
[4] 劉愛萍.數(shù)據(jù)挖掘技術(shù)在高職院校學生成績分析中的應用[D].華僑大學,2016.
[5] 馬瑩,趙輝,崔巖.基于Hadoop平臺的改進KNN分類算法并行化處理[J].長春工業(yè)大學學報(自然科學版),2018,39(5):6.
[6] 宋潔,劉華,譚慶,等.蟻群算法在最大頻繁項集挖掘問題中的應用[J].計算機工程與設計,2008,(20):5290-5292.DOI:10.16208/j.issn1000-7024.2008.20.031.
[7] 朱艷麗,高國紅.Apriori算法研究及其在學生成績分析中的應用[J].福建電腦,2010,(1):147.
[8] 白彥輝.關(guān)聯(lián)規(guī)則挖掘在試卷分析系統(tǒng)中的應用[J].內(nèi)蒙古民族大學學報(自然科學版),2012,27(2):159-161.
[9] 黃藝坤.改進的APRIORI算法在試卷系統(tǒng)數(shù)據(jù)挖掘中的應用[J].網(wǎng)絡安全技術(shù)與應用,2014,(09):37+40.
[10] 李志軍.Apriori算法在學生成績分析中的應用——以中職學生的考試成績?yōu)槔齕J].福建電腦,2016,32(008):148-149.
[11] 李毅.基于Apriori算法的試卷知識點關(guān)聯(lián)分析[J].新校園(上旬),2018,(07):52-53.
[12] 王小越,吳筱萌.基于知識點決策樹的學生學習成績預測研究——以七年級數(shù)學為例[J].數(shù)字教育,2020,6(05):70-74.
[13] 袁路妍,李鋒.改進的關(guān)聯(lián)規(guī)則Apriori算法在課程成績分析中的應用[J].中國教育信息化,2017,(17):62-65.
[14] 郝林倩.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分析[J].太原學院學報(自然科學版),2020,38(03):42-45.DOI:10.14152/j.cnki.2096-191X.2020.03.009.
[15] Hájek P,Havel I,Chytil M. The GUHA Method of Automatic Hypotheses Determination [J]. Computing,1966,1(4):293-308.
Study on the Association Structure of Knowledge in Test Paper Based on Apriori Algorithm
Zhao Ningning1" Ye Nan2" Chen Xiaohan3" Wang Di4" Wen Hongbo3
1 School of Chinese Language and Literature of Beijing Normal University,Beijing,100875
2 Shenzhen Longgang Tongxin Experimental School,Shenzhen,Guangdong,518116
3 China Basic Education Quality Monitoring Collaborative Innovation Center,Beijing Normal University,Beijing,100875
4 Chaoyang District Educatioanl Science Academy,Beijing,100028
Abstract:In recent years,some researchers have used machine learning to mine the relationship among the items knowledge and provide support for teachers' feedback. This study is based on Apriori algorithm,through simulation and empirical research,mining and analyzing test papers with different knowledge point structures. The simulation study shows that Apriori algorithm can mine the association rules among knowledge points for the test questions with complex attributes of knowledge points,and has a high accuracy. With the increase of samples,the accuracy of Apriori algorithm in mining test papers with complex knowledge points increases. The empirical study finds that Apriori algorithm can mine the association rules among knowledge points in the test papers of Chinese,mathematics,primary school science,middle school physics in primary and secondary schools. And the mining results of association rules among disciplines are different. After optimizing the granularity and deleting the basic knowledge points,Apriori algorithm can mine the association relationship between Chinese and mathematics residual knowledge points in primary and secondary schools,and the mining of interdisciplinary knowledge points in primary schools needs to be improved.
Key words:Knowledge Association Rules,Apriori Algorithm,Disciplin,Interdisciplin,Differences in Knowledge Point Structure
(責任編輯:陳暢)