亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的數(shù)學(xué)試題難易度分類研究

        2020-05-25 02:30:57梁瓊芳莎仁
        軟件導(dǎo)刊 2020年2期
        關(guān)鍵詞:隨機(jī)森林決策樹高中數(shù)學(xué)

        梁瓊芳 莎仁

        摘 要:為了實(shí)現(xiàn)教育領(lǐng)域的“個性化”,無論是自由組卷的個性化,還是試題推薦的個性化,都首先需要確定試題難易度。研究目標(biāo)為尋找新的方法解決基于試題難易度的分類問題,提高分類準(zhǔn)確率。以高中數(shù)學(xué)為例,采用2018年多套高考數(shù)學(xué)試題作為實(shí)驗(yàn)數(shù)據(jù),對原始數(shù)據(jù)各個特征進(jìn)行相關(guān)性分析,剔除影響較小的特征,再采用隨機(jī)森林算法探索試題難易度分類問題,對參數(shù)進(jìn)行改進(jìn)優(yōu)化,并與其它分類方法進(jìn)行對比。實(shí)驗(yàn)結(jié)果證明,采用隨機(jī)森林的高中數(shù)學(xué)試題分類準(zhǔn)確率高達(dá)90%,而其它3種分類算法準(zhǔn)確率分別為72%、74%、74%。因此得出結(jié)論,隨機(jī)森林算法在高中數(shù)學(xué)試題難易度分類上有較好表現(xiàn),能夠大幅提高分類準(zhǔn)確率。

        關(guān)鍵詞:高中數(shù)學(xué);試題難易度;分類算法;決策樹;隨機(jī)森林

        DOI:10. 11907/rjdk. 191358 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):

        中圖分類號:TP301文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)002-0122-05

        英標(biāo):Classification of Mathematics Testability Difficulty Based on Random Forest

        英作:LIANG Qiong-fang, SHA Ren

        英單:(School of Information Science & Technology, Northeast Normal University, Changchun 130117,China)

        Abstract: In order to realize individualization in the field of education, whether it is the individualization of the free test papers or the personalization of the test questions, the difficulty of the test questions must firstly be determined. Therefore, the research goal of this paper is to find new ways to solve the test questions. The classification problem of difficulty is easy, and the accuracy of classification is improved. Taking high school mathematics as an example, in this paper, the mathematics test questions of the college entrance examination in 2018 are used as experimental data, and the correlation analysis of each feature of the original data is carried out to eliminate the features with less influence. Then the random forest algorithm is used to explore the difficulty classification of the test questions, and the parameters are improved and optimized and compared with other classification methods. Experiments show that the accuracy rate of random forests for high school mathematics test classification is as high as 90%, while the accuracy of other classification algorithms is 72% and 74%. Therefore, it is concluded that the random forest algorithm has excellent performance in the classification of high school mathematics questions and can greatly improve the classification accuracy.

        Key Words: high school mathematics; test difficulty; classification algorithm; decision tree; random forest

        0 引言

        近年來,個性化推薦技術(shù)正在各個領(lǐng)域迅速興起,而教育領(lǐng)域作為當(dāng)今社會必不可少且不容忽視的一部分,越來越需要“個性化”的引入。如今網(wǎng)絡(luò)試題題庫、組卷系統(tǒng)層出不窮,都是為了實(shí)現(xiàn)學(xué)生的高效練習(xí),而確定試題難易程度是題庫構(gòu)建,以及自由組卷與試題個性化推薦的基礎(chǔ)。

        在數(shù)學(xué)試題難易度研究方面,國外Pollitt等[1]在1985年提出難度的3個來源,1996年劍橋考試委員會研究者[2]從權(quán)威角度提出影響數(shù)學(xué)試題難易度的因素,1999年Ahmed等[3]研究了試題認(rèn)知要求程度對問題難度的影響,直至2006年Leong[4]歸納了影響試卷難度的4個因素,分別為內(nèi)容、材料、主體因素與命題者決策。在國內(nèi),1994年任子朝等[5]提出可從多個客觀角度評估試題難度;2002年李紅松等[6]提出試題難易度與學(xué)生成績分布有關(guān),并采用主觀模糊評價方法結(jié)合成績分布確定試題難易度;2008年,教育部考試中心[7]歸納總結(jié)了影響試題難易度的因素,包括知識點(diǎn)個數(shù)、運(yùn)算過程步驟數(shù)、推理轉(zhuǎn)折數(shù)、設(shè)陷數(shù)、創(chuàng)新度、繁瑣度、啟發(fā)度、猜測度等;2016年,候飛飛[8]根據(jù)試題自身特點(diǎn),結(jié)合C4.5決策樹方法,對物理試題進(jìn)行難易程度分類研究,驗(yàn)證了決策樹分類算法的可行性;2018年,陳薈慧等[9]進(jìn)行基于在線測評系統(tǒng)的編程題目難度研究,但仍然依賴于被試的作答通過率;同年曹開奉等[10]總結(jié)歸納了我國高考理科試題難度影響因素,為本文研究打下了基礎(chǔ)。本文致力于實(shí)現(xiàn)高中數(shù)學(xué)試題的客觀難易度分類,以避免通過人為主觀判斷或過分依賴于被試作答通過率進(jìn)行難易度分類造成的偏差。

        常用分類算法如下:典型的樸素貝葉斯方法,針對大量數(shù)據(jù)訓(xùn)練速度較快,并支持增量式訓(xùn)練,對結(jié)果的解釋便于理解,但在大數(shù)據(jù)集下才能獲得較為準(zhǔn)確的分類結(jié)果,且忽略了數(shù)據(jù)各屬性值之間的關(guān)聯(lián)性[11];K-最近鄰分類算法比較簡單,訓(xùn)練過程迅速,抗噪聲能力強(qiáng),新數(shù)據(jù)可以直接加入訓(xùn)練集而不必重新進(jìn)行訓(xùn)練,但在樣本不平衡時結(jié)果偏差較大,且每次分類都需要重新進(jìn)行一次全局運(yùn)算[12];決策樹分類算法易于理解與解釋,可進(jìn)行可視化分析,運(yùn)行速度較快,可擴(kuò)展應(yīng)用于大型數(shù)據(jù)庫中,但容易出現(xiàn)過擬合問題,且易忽略數(shù)據(jù)屬性間的關(guān)聯(lián)性[13]。

        自2000年以來,深度學(xué)習(xí)等人工智能技術(shù)得到了迅速發(fā)展,在很多領(lǐng)域都取得了較好的應(yīng)用效果。其中隨機(jī)森林算法在分類方面表現(xiàn)突出,其避免了決策樹分類算法中容易出現(xiàn)的過擬合問題,并在運(yùn)算量未顯著增加的前提下,提高了分類準(zhǔn)確率[14]。因此,本文旨在利用隨機(jī)森林算法實(shí)現(xiàn)一種更精確、客觀的試題難易度分類方法,既能節(jié)省人力,又可提升分類準(zhǔn)確率與客觀性。

        1 隨機(jī)森林

        1.1 決策樹——隨機(jī)森林的基分類器

        決策樹作為隨機(jī)森林的基分類器,是一種單分類器的分類技術(shù),也是一種無參有監(jiān)督的機(jī)器學(xué)習(xí)算法[15]。決策樹可視為一個樹狀模型,由節(jié)點(diǎn)與有向邊組成,其中包括3種節(jié)點(diǎn):根節(jié)點(diǎn)、中間節(jié)點(diǎn)和葉子節(jié)點(diǎn)。決策樹構(gòu)建不需要先驗(yàn)知識,并且比諸如神經(jīng)網(wǎng)絡(luò)的方法更容易解釋。決策樹分類思想實(shí)際上是一個數(shù)據(jù)挖掘過程,其通過產(chǎn)生一系列規(guī)則,然后基于這些規(guī)則進(jìn)行數(shù)據(jù)分析。構(gòu)建決策樹的一個關(guān)鍵問題是節(jié)點(diǎn)分裂特征選擇,由于不同分裂標(biāo)準(zhǔn)對決策樹的泛化誤差有很大影響,因此根據(jù)不同劃分標(biāo)準(zhǔn),學(xué)者們提出了大量決策樹算法[16]。

        其中Hunt等[17]提出的CLS算法隨機(jī)選擇分裂節(jié)點(diǎn),Quinlan等[18]提出的ID3算法基于信息嫡,C4.5算法基于信息增益率[19],Breiman等[20]提出的CART算法基于Gini指標(biāo),然而沒有一種算法在各種數(shù)據(jù)集上都能得到最好結(jié)果。決策樹采用單一決策方式,因此具有以下缺點(diǎn):一是包含復(fù)雜的分類規(guī)則,一般需要決策樹事前剪枝或事后剪枝;二是收斂過程中容易出現(xiàn)局部最優(yōu)解;三是因決策樹過于復(fù)雜,容易出現(xiàn)過擬合問題。

        1.2 隨機(jī)森林構(gòu)建

        為了克服以上所述決策樹算法的不足,結(jié)合集成學(xué)習(xí)思想[21],研究者們提出了“森林”的概念。森林中的決策樹按照一定精度進(jìn)行分類,最后所有決策樹參與投票決定最終分類結(jié)果,這是隨機(jī)森林的核心概念。隨機(jī)森林構(gòu)建主要包括以下3個步驟:

        (1)為N棵決策樹抽樣產(chǎn)生N個訓(xùn)練集。 每一棵決策樹都對應(yīng)一個訓(xùn)練集,主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個訓(xùn)練子集。Bagging抽樣方法是無權(quán)重的隨機(jī)有放回抽樣,在每次抽取樣本時,原數(shù)據(jù)集大小不變,但在提取的樣本集中會有一些重復(fù),以避免隨機(jī)森林決策樹中出現(xiàn)局部最優(yōu)解問題[22]。

        (2)決策樹構(gòu)建。該算法為每個訓(xùn)練子集構(gòu)造單獨(dú)的決策樹,最終形成N棵決策樹以形成“森林”。節(jié)點(diǎn)分裂原則一般采用CART算法或C4. 5算法,在隨機(jī)森林算法中,并非所有屬性都參與節(jié)點(diǎn)分裂指標(biāo)計算,而是在所有屬性中隨機(jī)選擇某幾個屬性,選中的屬性個數(shù)稱為隨機(jī)特征變量。隨機(jī)特征變量的引入是為了使每棵決策樹相互獨(dú)立,減少彼此之間的關(guān)聯(lián)性,同時提升每棵決策樹的分類準(zhǔn)確性,從而提高整個森林的性能。

        (3)森林形成及算法執(zhí)行。重復(fù)步驟(1)、(2),構(gòu)建大量決策樹,形成隨機(jī)森林。算法最終輸出由多數(shù)投票方法實(shí)現(xiàn)。將測試集樣本輸入隨機(jī)構(gòu)建的N棵決策子樹進(jìn)行分類,總結(jié)每棵決策樹分類結(jié)果,并將具有最大投票數(shù)的分類結(jié)果作為算法最終輸出結(jié)果。

        隨機(jī)森林算法原理如圖1所示。

        2 基于隨機(jī)森林的試題難易度分類模型構(gòu)建及優(yōu)化

        2.1 數(shù)據(jù)特征分析與選擇

        本文采用的試題數(shù)據(jù)為2018年全國各省高考數(shù)學(xué)試題,部分試題特征來源于組卷網(wǎng),但其涵蓋的試題特征不夠全面,故其它影響難易度的試題特征可通過對答案的解析加以確定,并自主進(jìn)行數(shù)據(jù)標(biāo)記,主要字段說明見表1。

        (1)無關(guān)數(shù)據(jù)剔除。表1中序1、2、3、5特征對試題難易度分類沒有價值,不作為訓(xùn)練特性,故刪除該字段。

        (2)對連續(xù)性變量,采用Pearson(皮爾森)相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[23],屬性中連續(xù)變量有textLength和guessMeasure,其與難度值的Pearson相關(guān)性系數(shù)分別為0.325 031和-0.095 424,故保留textLength,刪除guessMeasure。

        (3)對于二分類變量,采用點(diǎn)二列相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[24],特征中二分變量與難易度的點(diǎn)二列相關(guān)系數(shù)分別為type0.295 424、knowledgePos-0.149 294、conditionSatisfact-0.442 642、expressionWay-0.011 241和inspireMeasure0.011 241,故只保留type與conditionSatisfact特征,刪除其它特征。

        (4)對于等級變量,采用Spearman(斯皮爾曼)等級相關(guān)系數(shù)方法驗(yàn)證與試題難易度值相關(guān)關(guān)系是否顯著[25],特征中等級變量與難易度Spearman相關(guān)系數(shù)分別為knowledgeNum0.460 722、backgroundLevel0.266 939、solveStep 0.580 002、physicalLevel0.587 000、mathLevel0.514 686、moduleNum0.406 973、thinkingWay0.066 568和novelMeasure0.130 309,刪除thinkingWay與novelMeasure特征,保留其它特征。

        綜上,最終選擇影響試題難易度的9個特征。采用隨機(jī)森林算法作特征選擇,可以很好地解決過擬合問題,同時也能過濾掉重要性很低的特征,提高模型分類準(zhǔn)確率。

        2.2 模型構(gòu)建與優(yōu)化

        采用CART 算法作為隨機(jī)森林構(gòu)建決策樹的方法,采用Gini系數(shù)最小準(zhǔn)則進(jìn)行節(jié)點(diǎn)分裂。CART 算法在訓(xùn)練過程中需要計算每個屬性的Gini指標(biāo),并選擇一個具有最小Gini指標(biāo)的變量對當(dāng)前節(jié)點(diǎn)進(jìn)行分裂,通過遞歸形式構(gòu)建決策樹,直至達(dá)到停止條件。Gini系數(shù)計算公式如下:

        式(1)中K表示有K個類別,[pmk]表示節(jié)點(diǎn)m中類別k所占比例,當(dāng)Gini取最小值0時,此時數(shù)據(jù)類別最純;當(dāng)Gini取最大值1時,則表示當(dāng)前節(jié)點(diǎn)的數(shù)據(jù)類別不同。根據(jù)式(1)計算特征的Gini系數(shù),將Gini值最小的點(diǎn)作為該層分裂節(jié)點(diǎn),遞歸地構(gòu)建決策樹。重復(fù)上述步驟,形成隨機(jī)森林。構(gòu)建過程中各特征重要性見表2。

        對隨機(jī)森林的minimal node size與mtry進(jìn)行參數(shù)尋優(yōu),最終確定構(gòu)建的最優(yōu)隨機(jī)森林node size為33,mtry為4。其中minimal node size尋優(yōu)過程中測試集分類準(zhǔn)確率變化見圖2。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)設(shè)計

        實(shí)驗(yàn)分為兩個階段:模型訓(xùn)練階段與測試階段。將數(shù)據(jù)集按7∶3的比例劃分為訓(xùn)練集和測試集,分別利用樸素貝葉斯分類、KNN分類、決策樹分類以及本文構(gòu)建的隨機(jī)森林方法進(jìn)行分類預(yù)測實(shí)驗(yàn),并將不同算法的混淆矩陣指標(biāo)及準(zhǔn)確率Accuracy進(jìn)行對比[26]。

        3.2 實(shí)驗(yàn)結(jié)果

        KNN分類算法中,neighbors值變化與最終分類準(zhǔn)確率關(guān)系變化見圖3,故最終選用5-nearest neighbor model模型。

        4種分類算法實(shí)驗(yàn)結(jié)果見表3、表4。

        將樸素貝葉斯、KNN、決策樹和隨機(jī)森林分類算法的實(shí)驗(yàn)結(jié)果召回率Sensitivity、特異度Secificity與準(zhǔn)確率Accuracy進(jìn)行對比,結(jié)果如圖4-圖6所示。

        由上圖可以看出,隨機(jī)森林的召回率和特異度優(yōu)于其它3種分類算法,且分類準(zhǔn)確率明顯高于其它3種分類算法,故驗(yàn)證了本文方法的正確性及有效性。

        4 結(jié)語

        本文將隨機(jī)森林分類方法應(yīng)用于高考數(shù)學(xué)試題客觀難易度分類,大幅提高了分類準(zhǔn)確率,為試題個性化推薦與自由組卷系統(tǒng)奠定了基礎(chǔ)。但由于網(wǎng)上開源的教育數(shù)據(jù)較少,故應(yīng)用的實(shí)驗(yàn)數(shù)據(jù)集較小,使用大數(shù)據(jù)集應(yīng)能進(jìn)一步提高分類準(zhǔn)確率,但有待后續(xù)進(jìn)一步驗(yàn)證。另外,本文只分析了影響數(shù)學(xué)學(xué)科試題難易度的因素,對于英語、語文、生物等學(xué)科試題,其難易度影響因素還有待進(jìn)一步分析與探索,這也將是未來的研究方向。

        參考文獻(xiàn):

        [1] ALASTAIR P, CAROLYN M, et al. Language, contextual and cultural constraints on examination performance[C]. Jerusalem:the International Association for Educational Assessment,2000.

        [2] HANNAH F H, SARAH H. What makes mathematics exam questions difficult[R].? Research and Evaluation University of? Cambridge Local Examinations Syndicate,2006.

        [3] AYESHA A,ALASTAIR P. Curriculum demands and question difficulty [C]. Slovenia:IAEA Conference,1999.

        [4] CHENG L S. On varying the difficulty of test items[C].? Annual Conference of theInternational Association for Educational Assessment, Singapore, 2006.

        [5] 任子朝. 高考數(shù)學(xué)命題研究[J]. 中學(xué)數(shù)學(xué)教學(xué)參考,1994(5):1-4.

        [6] 李紅松,田益祥. 試題難易程度的判斷及其集對分析測定方法研究[J]. 武漢科技大學(xué)學(xué)報:自然科學(xué)版,2002, 25(2):216-217.

        [7] 教育部考試中心. 2008年普通高等學(xué)校招生全國統(tǒng)一考試大綱:理科[M]. 北京:高等教育出版社,2008.

        [8] 候飛飛. 基于C4.5決策樹的試題難易程度分類研究[D]. 新鄉(xiāng):河南師范大學(xué),2016.

        [9] 陳薈慧,熊楊帆, 蔣滔滔,等. 基于在線測評系統(tǒng)的編程題目難度研究[J]. 現(xiàn)代計算機(jī):專業(yè)版,2018(13):28-32,36.

        [10] 曹開奉,王偉群,劉芳. 我國高考理科試題難度影響因素的文獻(xiàn)分析[J]. 考試研究,2018 (3): 40-46.

        [11] LEWIS D D. Naive (Bayes) at forty: the independence assumption in information retrieval[C]. European Conference on Machine Learning,1998.

        [12] TANG Q Y, ZHANG C X. Data Processing System (DPS) software with experimental design, statistical analysis and data mining developed for use in entomological research [J]. 中國昆蟲科學(xué):英文版, 2013, 20(2):254-260.

        [13] ROMERO C, VENTURA S. Educational data mining: a survey from 1995 to 2005[J].? Expert Systems with Applications, 2007, 33(1):135-146.

        [14] SVETNIK V, LIAW A, TONG C, et al. Random forest: a classification and regression tool for compound classification and QSAR modeling[J].? Journal of Chemical Information & Computer Sciences, 2003, 43(6):1947.

        [15] 張琳,陳燕,李桃迎,等.? 決策樹分類算法研究[J]. 計算機(jī)工程, 2011,37(13):66-67.

        [16] 王奕森,夏樹濤. 集成學(xué)習(xí)之隨機(jī)森林算法綜述[J]. 信息通信技術(shù),2018,12(1):49-55.

        [17] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué), 2014.

        [18] UTGOFF P E. ID: an incremental ID3[M]. Massachusetts:University of Massachusetts,1987.

        [19] QUINLAN J R. C4.5: programs for machine learning [M]. San Mateo:Morgan Kaufmann Publishers Inc,1992.

        [20] DEATH G, FABRICIUS K E. Classification and regression trees:a powerful yet simple technique for ecological data analysis [J].? Ecology, 2000, 81(11):3178-3192.

        [21] 孔英會.? 基于混淆矩陣和集成學(xué)習(xí)的分類方法研究[J].? 計算機(jī)工程與科學(xué), 2012, 34(6):111-117.

        [22] 沈?qū)W華,周志華,吳建鑫,等.? Boosting和Bagging綜述[J]. 計算機(jī)工程與應(yīng)用,2000, 36(12):31-32.

        [23] HUBER P J, STRASSEN V. Minimax tests and the neyman-pearson lemma for capacities[J]. Annals of Statistics, 1973 (2):251-263.

        [24] 陳冠民, 張選群, 陳華. 多序列相關(guān)系數(shù)及其估計[J]. 數(shù)理醫(yī)藥學(xué)雜志, 1999, 12(2):101-102.

        [25] ZAR J H. Significance testing of the Spearman rank correlation coefficient[J]. Publications of the American Statistical Association, 1972,67(339):578-580.

        [26] 宋亞飛,王曉丹,雷蕾. 基于混淆矩陣的證據(jù)可靠性評估[J]. 系統(tǒng)工程與電子技術(shù),2015,37(4):974-978.

        (責(zé)任編輯:黃 健)

        猜你喜歡
        隨機(jī)森林決策樹高中數(shù)學(xué)
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
        高中數(shù)學(xué)數(shù)列教學(xué)中的策略選取研究
        考試周刊(2016年77期)2016-10-09 10:58:31
        調(diào)查分析高中數(shù)學(xué)課程算法教學(xué)現(xiàn)狀及策略
        考試周刊(2016年76期)2016-10-09 08:54:54
        基于新課程改革的高中數(shù)學(xué)課程有效提問研究
        考試周刊(2016年76期)2016-10-09 08:20:33
        數(shù)學(xué)歸納法在高中數(shù)學(xué)教學(xué)中的應(yīng)用研究
        成才之路(2016年25期)2016-10-08 10:15:46
        国产动作大片中文字幕| 日韩av在线不卡一区二区三区 | 精品国产一区二区三区2021| 一区二区三区乱码在线 | 欧洲| 吃奶摸下的激烈视频| 日本少妇按摩高潮玩弄| 人妻熟女妇av北条麻记三级| 人妻精品人妻一区二区三区四五| 国产成人亚洲精品91专区高清 | 久久99国产精品久久99果冻传媒 | 亚洲av综合色区无码一区| 免费看黄a级毛片| 女人与牲口性恔配视频免费| 亚洲免费不卡av网站| 国产自拍一区在线视频| 日韩在线 | 中文| 久久久久亚洲av片无码下载蜜桃| 国产免费久久精品国产传媒| av网站影片在线观看| 九九精品国产亚洲av日韩| 国产免码va在线观看免费| 曰批免费视频播放免费直播| 国产精品黄色片在线观看| 日本超骚少妇熟妇视频| 在线观看亚洲第一黄片| 韩日午夜在线资源一区二区| 亚洲男同志gay 片可播放| 亚洲伊人免费综合网站| 成人性生交大片免费5| 麻豆网神马久久人鬼片| 国模少妇一区二区三区| 国产精品女同久久免费观看| 暴露的熟女好爽好爽好爽| 久久国产精品一国产精品金尊| 午夜无码国产理论在线| 国产成人cao在线| 亚洲一区在线二区三区| 国色天香社区视频在线| 中文字幕亚洲情99在线| 国产成人丝袜在线无码| 日韩美女av一区二区三区四区|