潘婷婷,詹國華,李志華
(杭州師范大學 信息科學與工程學院,杭州 311121)
“Internet+智慧教育”是當今教育界的主流,且成果斐然.比如網(wǎng)易云課堂、微課網(wǎng)、滬江網(wǎng)、學而思網(wǎng)校等,它們主要通過記錄用戶在線參加的課程培訓、考試競賽、試題練習、調(diào)查問卷和培訓交流等情況,實現(xiàn)對用戶學習情況的全程跟蹤管理和對用戶學習需求的全面掌握,通過大數(shù)據(jù)分析,實現(xiàn)個性化推薦課程,本文在基于這樣一個大數(shù)據(jù)時代背景下,也對個性化學習中的一個分支——個性化試卷進行了研究,致力于研究出適用于每個學生的個性化模擬試卷,提高學生對知識點的掌握水平.
智能組卷策略是各校、各大型學習網(wǎng)站研究的重點,本文將從模擬練習入手進行研究.模擬練習的組織除了要關(guān)注題目的組織需符合考試大綱、知識點均勻分布、難易度符合約束條件、題型分布合理等外,還需依據(jù)平時學習者的學習過程以及做題的錯誤率.文獻[1]提出了一種帶權(quán)重的樹形知識點管理策略,該方法可以較好地解決智能組卷過程中知識點的選擇問題[1],但沒有加入知識點錯誤率元素,因此對知識點的深化學習需要進一步研究.
目前有許多抽題算法的研究,如隨機抽取法[2],回溯試探法[3],遺傳算法[4],蟻群算法[5]及魚群算法[6],大部分算法都能實現(xiàn)章節(jié)比例合理分配,題型分值符合大綱要求等要求,但也有各自的局限性.
比如,隨機抽取是由用戶定義一些抽取條件即約束參數(shù),由計算機不斷地隨機從試題庫中抽取個體,直至滿足抽取要求并不斷循環(huán)往復的一個簡單的過程,此算法過程比較簡單、易實現(xiàn),但較為呆板,無法滿足現(xiàn)如今多變的題庫要求[7].
回溯試探法改進了隨機抽取法,它以深度優(yōu)先的方式進行問題的搜索[8].此算法根據(jù)約束條件優(yōu)先在試題庫中隨機抽取題目,在題目組織時根據(jù)約束條件對選取的題目進行取舍,如果該題不滿足約束條件,就廢除最近的一次操作,從某個回溯點重新往下搜索[9].回溯法很容易陷入死循環(huán),且極不穩(wěn)定.
基于遺傳算法的組卷是目前應用最廣且效率較高的一種多約束條件優(yōu)化算法.主要采用復制、交換和突變?nèi)N操作來求解問題的最優(yōu)解,具有魯棒性、全局尋優(yōu)、智能搜索等特點,因此廣泛應用于大型題庫的自動組卷[10,11].但由于遺傳算法易出現(xiàn)早熟的現(xiàn)象[12],另外遺傳算法中參數(shù)的確定沒有普適的方法,所以需要大量的實驗研究來提升搜索性能[13].
綜上,本文根據(jù)知識點的考核要求需全面覆蓋及在此基礎(chǔ)上根據(jù)知識點的薄弱及掌握情況來智能抽題進行深入探討,并加入個性化因素,結(jié)合優(yōu)化的遺傳算法實現(xiàn)知識點與錯誤率關(guān)聯(lián)的個性化智能組卷策略.
本文個性化抽題模型的流程從數(shù)據(jù)準備開始,量化題目難易度,量化題目知識點權(quán)重,知識點權(quán)重包括基本權(quán)重以及錯誤率,然后進行抽題,并通過約束條件進行抽題限制,最后實現(xiàn)即符合大綱又滿足用戶個人學習特點的練習.
為了保證抽題難易度適中,不至于太難或太簡單,本模型通過計算公式(1)和計算公式(2)計算出題目難易度,將難易度分為5個等級,并通過區(qū)間分層將難易度進行量化,量化值為 1,2,3,4,5,表示為不同的難易度.
為了保證知識點均勻分布,本模型采用樹形結(jié)構(gòu)管理知識點,首先定義葉子權(quán)重,通過計算公式(3)完成父級權(quán)重量化過程,為了提高錯提率高的知識點選取概率,通過計算公式(4)增加權(quán)重,這樣通過知識點權(quán)重的判斷可以在實現(xiàn)知識點均勻分布的基礎(chǔ)上提高抽題概率.
通過難易度值以及知識點權(quán)重值控制抽題的概率,然后根據(jù)約束條件,進行題目抽取的約束,并最終抽取符合約束條件的題目組合,最后進行個性化訓練或大規(guī)??荚?將最終的考試結(jié)果進行分析來進一步優(yōu)化題庫,優(yōu)化題目難易度、以及知識點錯誤率,為接下去的組卷信息提供實時更新,組卷流程如圖1所示.
圖1 大數(shù)據(jù)環(huán)境下個性化組卷流程
如今已邁入大數(shù)據(jù)時代,大數(shù)據(jù)與傳統(tǒng)教育數(shù)據(jù)的本質(zhì)區(qū)別體現(xiàn)在采集來源和應用方向兩個方面.傳統(tǒng)教育數(shù)據(jù)注重體現(xiàn)學習者整體的學業(yè)水平,而大數(shù)據(jù)則更關(guān)注每一位學習者個體的微觀表現(xiàn),大數(shù)據(jù)時代的在線教學能夠?qū)崿F(xiàn)實時跟蹤教學,全面記錄及分析掌握數(shù)據(jù),和可視化學生的不同學習特點、學習需求和學習行為[14].大數(shù)據(jù)在教育領(lǐng)域中應用深廣,可以為不同的學生建立屬于自己的學習模型和適合他的個性化學習路徑.
數(shù)據(jù)收集是一切結(jié)果的來源,個性化學習的研究需要從收集到的海量數(shù)據(jù)中,分析出學習者學情變化的規(guī)律,依靠學生的學習行為分析出這些行為隱含的關(guān)聯(lián),并預測出學習者接下去的學習行為及其學情發(fā)展趨勢.如表1所示是C語言程序結(jié)構(gòu)部分知識點,在系統(tǒng)的題庫中每道題目都綁定了所屬知識點,每個學生都會有自己的做題數(shù)據(jù)信息,通過分析每個學生所做的題目中的知識點錯誤情況,即可得到該學生的知識點掌握情況,如表2所示是某一位學生的知識點錯誤率表.
表1 C 語言程序結(jié)構(gòu)部分知識點
表2 知識點錯誤率表
一般難度高的題目得分率會比較低,難度低的題目得分率會比較高,而客觀題的得分情況會比較集中,主觀題的得分會比較分散,通過下面的公式來計算不同題型的難易度值.
對于其中客觀題目的難度等級計算公式為:
其中,L為這題正確的正確次數(shù),N為答此題的總次數(shù).
主觀題目的難度等級計算公式設為:
其中,為該題得分的平均分數(shù),S表示該題的分數(shù)值.
根據(jù)題目難易度計算公式可得知,題目難易值Degree∈[0,1],值越大則該題越難,答對的人數(shù)越少,本文將試題的難易度分為5個等級并進行量化,如表3所示.
表3 難易度值
個性化組卷是基于用戶行為分析和挖掘而提出來的,目前大多數(shù)的個性化組卷都是通過分析錯題庫,算出每道題的錯誤率,對于錯誤率高的題目進行強化訓練,將易錯題比例加入到組卷約束條件中,從而實現(xiàn)個性化智能組卷.但以上方法卻忽略了一點,知識點的掌握是決定學生學習好壞的一個重要指標,光進行錯題強化訓練并不能使學生完全了解所學內(nèi)容,只有掌握了知識點才能說學生學得好,因此本文將每道題都關(guān)聯(lián)知識點,一道題可以關(guān)聯(lián)多個知識點,且會有交叉知識點,文章就是從知識點出發(fā),錯的越多的知識點才是學生所不理解的地方,在智能抽題時要針對錯誤率高的知識點做強化處理.
在教學大綱中會要求考核的知識點的掌握程度,一般有以下等級: 精通、熟練、掌握、了解.在本文中將這幾個等級量化為 1,2,3,4 權(quán)重,用樹形結(jié)構(gòu)表示知識點關(guān)系圖,樹形結(jié)構(gòu)的知識點管理如圖2所示.
該樹形結(jié)構(gòu)管理的知識點可以有效地解決知識點分布均勻的問題,首先按照大類分為若干個一級知識點,在每個一級知識點下定義分類更細的二級知識點、三級知識點,在選擇知識點時可以優(yōu)先一級,再選二級、三級.父級權(quán)重需根據(jù)子級知識點的權(quán)重來設定.本文計算父級知識點綜合權(quán)重的計算方法:
其中,Wj表示第j個知識點,wi表示子級知識點中第i個知識點的權(quán)重,pi表示該權(quán)重在此子級知識點分支上出現(xiàn)的頻率.
以上方法是計算知識點的權(quán)重,當用戶還沒有做過練習時可以根據(jù)初始化的權(quán)重來抽題,抽出的練習題目每個用戶的相差不會太大,因為沒有更多的數(shù)據(jù)來顯示學生對于知識點的個性化信息,并約束抽題,當數(shù)據(jù)多了之后,收集用戶每次的數(shù)據(jù),分析錯題并根據(jù)錯題挖掘出學生對每個知識點的掌握情況,提取個性化信息,這顯而易見的非常簡單的.本文中將錯誤率引入抽題之中,來體現(xiàn)學生的對于知識點掌握的個性化信息,在基于權(quán)重的樹形知識點管理結(jié)構(gòu)樹上加入知識點錯誤率元素,根據(jù)樹形知識點管理結(jié)構(gòu),計算新的知識點權(quán)重,既在抽題時對錯誤率高的知識點,選擇適當?shù)奶岣咂浔戎?從而提高抽取率,如公式(4)所示:
其中是新的權(quán)重,yj表示第j個知識點的錯誤率,通過公式(4)得到新的權(quán)重.在抽題中,錯誤率高的知識點,就是對這些知識點提高了優(yōu)先級,重點關(guān)注這些錯誤率高的知識點,能自動優(yōu)先選擇盲點易錯點.
圖2 基于知識點權(quán)重與錯誤率關(guān)聯(lián)的樹形知識點管理結(jié)構(gòu)
個性化抽題原則除了有大綱考核的約束條件,還有通過錯題庫展開問題和薄弱知識點分析,最后結(jié)合起來進行個性訓練,抽題的約束條件有: 習題總分、答題總時間、知識點約束、題型分布、試卷難度分布,如表4所示.
表4 約束條件表
根據(jù)這五個約束條件,可以建立一個P=N*7目標矩陣,其中N為一套練習的題目數(shù),如下面公式所示:
該矩陣中每一行代表一道選題,每道選題有6個屬性由目標矩陣列代表: 題目在數(shù)據(jù)庫中所屬ID編號=ai1、題目所屬題型=ai2、題目分值=ai3、關(guān)聯(lián)知識點=ai4、題目難度等級=ai5、題目最佳答題時間=ai6、題目所屬章節(jié)=ai7.
當目標矩陣符合約束條件,才能完成選題,否則要不斷回溯繼續(xù)優(yōu)化,直到所有的約束條件都滿足為止,試卷的約束條件計算表示如下所示.
約束1.習題總分約束:為習題總分,是所有題目的單個分支的總和,每道題目的分值都是題庫事先給定的.
約束2.答題總時間約束:為答題總時間,和總分一樣,由題庫給出每道題的最佳答題時間,這個值是一個大概范圍,只要在規(guī)定值的±10之內(nèi)即可.
約束 3.知識點約束:總知識點數(shù),表示第j個知識點的出現(xiàn)概率,如果第i題屬于該知識點則取值為1,表示出現(xiàn)了該知識點,否則為 0,
約束 4.題型分布約束:表示第j個題型的分數(shù)占比{,如果第i題屬于該題型則t取值為 1,否則為 0,
約束 5.試卷難度約束:(n為總題數(shù)),表示整體難度,值越高則難度越大,值越小則難度越小[15].
此模型通過優(yōu)化遺傳算法來實現(xiàn),改進后的遺傳算法將題目的屬性分為習題總分、答題總時間、知識點約束、題型分布、試卷難度分布5個維度.
步驟1: 將題庫的題目進行預處理,首先將題目按照題型進行分類,并按照不同題型對題目進行編碼.
步驟 2: 初始化試題,用Q={Q1,Q2,…,Qn}T表示題庫中的試題,試題總數(shù)為N,選出的目標題數(shù)設為M,每個試題Qi的都是維數(shù)為v的向量,即表示有v個屬性.
步驟3: 確定練習結(jié)構(gòu),包括練習時長、練習總分值、練習難度、練習中每個題型的數(shù)目,對于每種題型都有分數(shù)約束,通過分數(shù)約束計算出每種題型所需的題目數(shù)量,從而保證每個題型的總和分數(shù)滿足練習總分約束條件.
步驟4: 根據(jù)圖2建立的分級樹形知識點管理鏈表,根據(jù)考核的要求指定三級知識點的權(quán)重,根據(jù)式(3)分別計算出二級知識點和一級知識點的綜合權(quán)重Wi,初始化知識點錯題率為yi=0,并通過公式(4)計算新的權(quán)重
步驟5: 每類題型中依照章節(jié)進行二次分類,每章的知識點依照權(quán)重降序排序,對每個一級知識點下的二級知識點按權(quán)重降序排序,對每個二級知識點下的三級知識點按權(quán)重降序排序.
步驟6: 根據(jù)每種題型待選的題目數(shù)D,隨機抽選選擇1.5D個知識點加入到待選試題中,最后組成M道目標題目數(shù).
為了驗證本文所提出的模型,實驗選取了某校iStudy通用實踐評價平臺上的《C語言程序設計》選修課程與學習本課程的120名學生為研究對象,其中569道題庫數(shù)據(jù)集,首先將這些數(shù)據(jù)集應用于基于知識點權(quán)重與錯誤率關(guān)聯(lián)的抽題模型和基于遺傳算法的組卷模型[8],對生成的知識點分布進行對比分析.經(jīng)多次試驗,最終選取種群規(guī)模為60,交叉概率Pc=0.6、變異概率Pm=0.05,進化代數(shù)為 100,圖3 是根據(jù)學生學習兩個月和學習四個月的成績數(shù)據(jù)生成的知識點分布圖,其中(a)、(b)是根據(jù)本文提出的方法生成練習知識點分布圖,(c)、(d)是基于遺傳算法生成練習的知識點分布圖.實驗發(fā)現(xiàn)本文的模型生成的試卷在知識點分布上差異性比較大,且知識點分布比較聚集,這是因為根據(jù)學生知識點掌握程度來選擇的,而后者的模型在知識點分布上基本相同,且比較分散沒有強化性,因此本文的模型能夠針對學生的個性化差異提供不同的個性化練習.
圖3 最終知識點分布
由此可見本文模型更能根據(jù)學生的特點生成適合于不同學生的個性化練習.在此研究下,我們將本文模型應用于該門課程的選修學生中,首先進行一次測驗,根據(jù)測驗結(jié)果將學生平均分為兩組,這兩組的學生測驗的平均分相同,然后用非本論文的基于遺傳算法的普通組卷模型生成給一組的學生進行練習,另一部分學生則用該模型進行練習,經(jīng)過八個月的測驗后,發(fā)現(xiàn)運用本模型進行練習的那部分學生的平均成績的變化率自第五個月開始有較明顯的提升,直至第八個月他們的平均成績已經(jīng)達到超過十分之差,實驗結(jié)果如圖4所示.
圖4 學生練習平均成績變化圖
由實驗結(jié)果可知,將大數(shù)據(jù)環(huán)境下基于知識點權(quán)重與錯誤率關(guān)聯(lián)的個性化學習模型從知識點和知識點錯誤率著手,對題庫中的題目進行篩選組織,從而實現(xiàn)了針對不同學習者的個性化練習,提高了學生的學習成績,對提升學習效率有顯著幫助.
智能組卷是教學系統(tǒng)中重要的輔助學習工具,提供一個針對用戶學習特點不同的練習系統(tǒng),為用戶最終的優(yōu)異成績打下堅實的基礎(chǔ)是本模型的出發(fā)點.在本模型中通過知識點權(quán)重與錯誤率關(guān)聯(lián)構(gòu)建了基于知識點的個性化智能抽題練習策略,測試結(jié)果表明,相較于傳統(tǒng)的策略,此策略更能凸顯學生的薄弱知識點范圍,并實現(xiàn)有針對性的訓練.如何將學生的各種學習行為與本策略相結(jié)合,從而完成更好的用戶體驗并提高抽題質(zhì)量,有待于進一步研究.
參考文獻
1魯萍,何宏璧,王玉英.智能組卷中分級帶權(quán)重知識點選取策略.計算機應用與軟件,2014,31(3): 67–69.
2周文勝,潘中柱.一種實用的隨機組卷算法的設計思想.湖南科技學院學報,2005,26(11): 299.[doi: 10.3969/j.issn.1673-2219.2005.11.111]
3李大輝.基于廣度優(yōu)先回溯算法的試題搜索算法.大慶石油學院學報,2006,30(3): 100–101,110.
4全惠云,范國闖.基于遺傳算法的試題庫智能組卷系統(tǒng)研究.武漢大學學報 (自然科學版),1999,45(5): 758–760.
5李東,王虎強.基于動態(tài)蟻群遺傳算法的士兵個性化學習.計算機系統(tǒng)應用,2015,24(11): 204–208.[doi: 10.3969/j.issn.1003-3254.2015.11.034]
6任劍,卞燦,全惠云.基于層次分析方法與人工魚群算法的智能組卷.計算機應用研究,2010,27(4): 1293–1296,1300.
7胡泊,劉欣.基于改進隨機選取法的自動組卷方法研究.海軍工程大學學報 (綜合版),2013,10(3): 78–81.
8孟祥娟,王俊峰,曹錦梅.利用遺傳算法實現(xiàn)試題庫自動組卷問題.計算機系統(tǒng)應用,2010,19(1): 180–184.
9孫蓓蕾,陳高云.基于多策略的個性化智能組卷的研究.成都信息工程大學學報,2016,31(3): 261–264.
10呂健.試論計算機自動組卷的常用算法.電腦知識與技術(shù),2011,7(8): 1802–1803.
11唐啟濤.基于改進的遺傳算法的智能組卷算法研究.計算機技術(shù)與發(fā)展,2014,24(12): 241–244.
12Yuan XH,Cao L,Xia LZ.Adaptive genetic algorithm with the criterion of premature convergence.Journal of Southeast University,2003,19(1): 40–43.
13Li Y,Li SH,Li XR.Test paper generating method based on genetic algorithm.AASRI Procedia,2012,(1): 549 –553.[doi: 10.1016/j.aasri.2012.06.086]
14楊雪,姜強,趙蔚.大數(shù)據(jù)學習分析支持個性化學習研究——技術(shù)回歸教育本質(zhì).現(xiàn)代遠距離教育,2016,(4): 71–78.
15魯萍,王玉英.多約束分級尋優(yōu)結(jié)合預測計算的智能組卷策略.計算機應用,2013,33(2): 342–345.