馬天昊 夏靜 楊婧雅 唐銘
[摘 ? ? ? ? ? 要] ?“數(shù)學(xué)成績(jī)好的學(xué)生一般物理成績(jī)也好”的論斷可信嗎?如果可信,那可信度有多高呢?為了回答該疑問(wèn),以某中學(xué)2016級(jí)698名學(xué)生某學(xué)期的成績(jī)?yōu)闃颖緮?shù)據(jù),使用經(jīng)典的Apriori算法,對(duì)各科目成績(jī)間潛在的關(guān)聯(lián)關(guān)系進(jìn)行挖掘,得到了一系列的關(guān)聯(lián)規(guī)則,如數(shù)學(xué)、物理、生物成績(jī)都為A等級(jí)的學(xué)生,其化學(xué)成績(jī)有70%左右的可能性也為A等級(jí)?;谶@些結(jié)論可對(duì)學(xué)生如何提高學(xué)習(xí)成績(jī)給出針對(duì)性的建議。
[關(guān) ? ?鍵 ? 詞] ?數(shù)據(jù)挖掘;Apriori算法;關(guān)聯(lián)規(guī)則;成績(jī)分析;科目推薦
[中圖分類(lèi)號(hào)] ?D920.4 ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ?[文章編號(hào)] ?2096-0603(2019)27-0092-03
學(xué)生成績(jī)作為學(xué)生學(xué)業(yè)水平的直接體現(xiàn),備受學(xué)生、家長(zhǎng)、老師及學(xué)校的關(guān)注。然而學(xué)生的成績(jī)各有差異,如何結(jié)合學(xué)生自身的成績(jī)分布特點(diǎn),基于現(xiàn)有成績(jī)有效提高整體成績(jī),一直是大家關(guān)心的問(wèn)題。
近年來(lái),數(shù)據(jù)挖掘技術(shù)應(yīng)用廣泛,不僅可用于對(duì)學(xué)生成績(jī)的分析研究[1],也可進(jìn)行學(xué)生綜合素質(zhì)的評(píng)估[2]。當(dāng)前,全國(guó)各省市正面臨高考改革,如江蘇、浙江等地都將采用高考等級(jí)賦分制度[3],而本文的關(guān)聯(lián)規(guī)則挖掘正與成績(jī)等級(jí)緊密相關(guān)。在實(shí)際生活中,各學(xué)校對(duì)學(xué)生成績(jī)的利用僅限于最普通的描述統(tǒng)計(jì),如平均分、最高分、增長(zhǎng)率等較為粗淺的層次,并沒(méi)有很好地利用成績(jī)數(shù)據(jù)進(jìn)行更深層次的分析和挖掘,很少思考和研究諸如“各科目成績(jī)間是否存在某種潛在關(guān)聯(lián)關(guān)系”等問(wèn)題。
本文旨在利用數(shù)據(jù)挖掘中的Apriori算法[4],從大量的歷史成績(jī)中發(fā)現(xiàn)學(xué)生成績(jī)的發(fā)展規(guī)律,找到學(xué)生各科成績(jī)間的關(guān)聯(lián)規(guī)則,該方法易實(shí)現(xiàn),且結(jié)論易于理解。教育工作者可據(jù)此向?qū)W生提供有針對(duì)性的學(xué)習(xí)建議,進(jìn)而達(dá)到快速有效提升學(xué)生成績(jī)的目的。
一、數(shù)據(jù)來(lái)源與管理
(一)數(shù)據(jù)來(lái)源與處理
數(shù)據(jù)的質(zhì)量在數(shù)據(jù)挖掘中起著決定性作用,一份準(zhǔn)確、標(biāo)準(zhǔn)的數(shù)據(jù)是進(jìn)行數(shù)據(jù)挖掘工作的基礎(chǔ)。本文采用的數(shù)據(jù)來(lái)源于高考改革省份浙江省某市2016級(jí)學(xué)生的成績(jī)分?jǐn)?shù)。刪除部分對(duì)成績(jī)數(shù)據(jù)挖掘沒(méi)有用處的信息,隨后進(jìn)行類(lèi)型轉(zhuǎn)換、缺失數(shù)據(jù)刪除、四舍五入等數(shù)據(jù)預(yù)處理操作,最終得到685條完整的成績(jī)信息,并將其作為挖掘過(guò)程中的數(shù)據(jù)集。
(二)等級(jí)賦分
由于每次考試難度不同,單純用分?jǐn)?shù)高低難以進(jìn)行成績(jī)好壞的衡量。事實(shí)上,在中、高考等升學(xué)考試的錄取過(guò)程中,也并不是依據(jù)分?jǐn)?shù)的高低來(lái)進(jìn)行錄取,而是關(guān)注其相對(duì)排名?;诖?,依照浙江省高考改革方案中對(duì)成績(jī)分級(jí)的方案[5],本文采用如下方法將排名后的成績(jī)劃分為5個(gè)等級(jí):取各科目成績(jī)排名前15%的成績(jī)?yōu)锳等級(jí);排名為15%到45%的成績(jī)?yōu)锽等級(jí);排名為45%到75%成績(jī)?yōu)镃等級(jí);排名為75%到95%的成績(jī)?yōu)镈等級(jí);排名在最后5%的成績(jī)?yōu)镋等級(jí)。以某次考試成績(jī)?yōu)槔?,其各科目各等?jí)對(duì)應(yīng)分?jǐn)?shù)范圍如表1所示。
然后,對(duì)本次考試中每位學(xué)生的各科目成績(jī)依照表1的標(biāo)準(zhǔn)進(jìn)行等級(jí)賦分。表2展示了部分樣本的原始成績(jī)數(shù)據(jù)及其對(duì)應(yīng)等級(jí)。
? 如,對(duì)樣本1,表示某學(xué)生在本次考試中,語(yǔ)文得分82分,其位于85至93之間,故根據(jù)表1,該學(xué)生的語(yǔ)文成績(jī)被劃分為C等級(jí)。同理,對(duì)其他樣本數(shù)據(jù)進(jìn)行類(lèi)似的等級(jí)賦分。
二、基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則最早出現(xiàn)在購(gòu)物籃問(wèn)題的研究中[4],如經(jīng)典的“啤酒與尿布”案例。關(guān)聯(lián)規(guī)則挖掘旨在快速有效地發(fā)現(xiàn)隱藏于大型事務(wù)或關(guān)系數(shù)據(jù)集中的有趣模式,在各個(gè)領(lǐng)域尤其是互聯(lián)網(wǎng)領(lǐng)域備受關(guān)注。經(jīng)典的關(guān)聯(lián)規(guī)則挖掘算法有很多,本文采用經(jīng)典的Apriori算法對(duì)等級(jí)賦分后的樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘[4],旨在尋找各科目成績(jī)間的潛在關(guān)聯(lián)關(guān)系。
(一)Apriori算法
Apriori算法是一種最為常用的通過(guò)頻繁項(xiàng)集挖掘關(guān)聯(lián)規(guī)則的算法,它能夠發(fā)現(xiàn)事物數(shù)據(jù)庫(kù)中頻繁出現(xiàn)的數(shù)據(jù)集,從而構(gòu)造數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,這些聯(lián)系構(gòu)成的規(guī)則可幫助用戶(hù)找出某些行為特征,以便進(jìn)行決策。它主要由頻繁項(xiàng)集挖掘和確定強(qiáng)關(guān)聯(lián)規(guī)則兩個(gè)子任務(wù)組成。
(二)通過(guò)Apriori算法挖掘關(guān)聯(lián)規(guī)則
以Apriori算法為基礎(chǔ)尋找關(guān)聯(lián)規(guī)則的方法主要有以下幾個(gè)步驟組成:
Step 1設(shè)定最小支持度和最小置信度;
Step 2掃描成績(jī)數(shù)據(jù)表,進(jìn)行各科目等級(jí)計(jì)數(shù);
Step 3尋找滿(mǎn)足最小支持度的項(xiàng),構(gòu)成頻繁1-項(xiàng)集,以此類(lèi)推,找到頻繁2-項(xiàng)集,頻繁3-項(xiàng)集,直到無(wú)頻繁k-項(xiàng)集為止;
Step 4根據(jù)最小置信度找到符合條件的強(qiáng)關(guān)聯(lián)規(guī)則;
Step 5強(qiáng)關(guān)聯(lián)規(guī)則輸出。
三、結(jié)果與分析
設(shè)定最小支持度為10%,最小置信度為50%,運(yùn)用Apriori算法尋找得到21條符合條件的關(guān)聯(lián)規(guī)則,部分關(guān)聯(lián)規(guī)則及其對(duì)應(yīng)的支持度與置信度如表3所示。
根據(jù)關(guān)聯(lián)規(guī)則的定義對(duì)成績(jī)間的關(guān)聯(lián)規(guī)則作如下理解:當(dāng)某科或某幾科成績(jī)達(dá)到一定等級(jí)時(shí),有另一科目的成績(jī)以與置信度相等的可能性取得某個(gè)確定等級(jí)。即通過(guò)找到的關(guān)聯(lián)關(guān)系,可以判斷出某一科目的成績(jī)等級(jí)受其他科目成績(jī)的影響程度。
本文以表3陳列的(4)(7)兩條關(guān)聯(lián)規(guī)則為例進(jìn)行說(shuō)明:
(4)化學(xué)、地理成績(jī)均取得A等級(jí)的學(xué)生,生物成績(jī)有70.1%左右的可能性為A等級(jí);
(7)語(yǔ)文、政治、歷史成績(jī)分別取得B、B、C等級(jí)的同學(xué),地理成績(jī)有50%左右的可能性為C等級(jí)。
四、結(jié)論與討論
本文以某校2016級(jí)學(xué)生成績(jī)數(shù)據(jù)樣本進(jìn)行了科目成績(jī)間關(guān)聯(lián)規(guī)則的挖掘,舉例說(shuō)明了關(guān)聯(lián)規(guī)則在成績(jī)數(shù)據(jù)分析中的實(shí)際意義。從685條數(shù)據(jù)中,挖掘出了以下關(guān)聯(lián)規(guī)則:{mathlevel=mathA}=>{phylevel=phyA},支持度為0.114827,置信度為0.691754。此條關(guān)聯(lián)規(guī)則為“數(shù)學(xué)好的同學(xué)一般物理也好”這一說(shuō)法提供了很好的理論依據(jù),置信度這一標(biāo)準(zhǔn)為其中的“一般”二字給出了充足的量化參考。
根據(jù)Apriori算法挖掘出的關(guān)聯(lián)規(guī)則,可以有針對(duì)性地對(duì)不同學(xué)習(xí)情況的學(xué)生就提升成績(jī)提供建議。以表3中第(7)條關(guān)聯(lián)規(guī)則為例,若某位學(xué)生語(yǔ)文、政治、歷史成績(jī)分別取得B、B、C等級(jí),但地理為D等級(jí),并未達(dá)到推薦的C等級(jí),則可向該位同學(xué)提出將學(xué)習(xí)重心向地理學(xué)科傾斜的建議。
眾所周知,高考模式改革勢(shì)在必行,高一學(xué)生如何進(jìn)行恰當(dāng)?shù)目颇窟x擇是一大頭疼問(wèn)題所在。此時(shí),考慮基于高考分?jǐn)?shù)等級(jí)劃分進(jìn)行關(guān)聯(lián)規(guī)則挖掘,以避免考試難度而引起的分?jǐn)?shù)差異,進(jìn)而可對(duì)學(xué)生各科成績(jī)進(jìn)行準(zhǔn)確有效的分析,為學(xué)生提供實(shí)際且有效的幫助。
參考文獻(xiàn):
[1]趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的研究及應(yīng)用[D].大連:大連海事大學(xué),2007.
[2]林國(guó)全,梁月汝,徐英虎.關(guān)聯(lián)規(guī)則挖掘在大學(xué)畢業(yè)生綜合素質(zhì)評(píng)估中的應(yīng)用[J].巢湖學(xué)院學(xué)報(bào),2009,11(6):33-36.
[3]譚小莉,彭文波,李祚山.新一輪高考綜合改革背景下選考科目分?jǐn)?shù)轉(zhuǎn)換與合成方法初探[J].中國(guó)考試,2018(11):30-40.
[4]徐華.數(shù)據(jù)挖掘:方法與應(yīng)用:應(yīng)用案例[M].北京:清華大學(xué)出版社,2018.
編輯 張 慧