全同貴
摘要:隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,數(shù)據(jù)挖掘輔助教育決策成為了熱門的研究課題。全國(guó)計(jì)算機(jī)等級(jí)考試,積累了大量報(bào)名、學(xué)習(xí)、考試相關(guān)數(shù)據(jù)。該文基于湖南省某高校2247個(gè)學(xué)生真實(shí)的數(shù)據(jù),采用Clementine數(shù)據(jù)挖掘工具中的Apriori模型,進(jìn)行學(xué)生成績(jī)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘;研究結(jié)果表明,學(xué)生參加考前操作考試訓(xùn)練、課前觀看視頻預(yù)習(xí)對(duì)提高計(jì)算機(jī)過(guò)級(jí)成績(jī)至關(guān)重要。研究進(jìn)一步發(fā)現(xiàn)學(xué)生程序?qū)W習(xí)興趣度對(duì)過(guò)級(jí)成績(jī)有較弱的影響。本來(lái)興趣應(yīng)該是強(qiáng)關(guān)聯(lián)項(xiàng),可是在應(yīng)試教育下,目標(biāo)才是學(xué)生學(xué)習(xí)的壓力,動(dòng)力來(lái)自壓力。這為深化素質(zhì)教育改革提供了參考依據(jù)。
關(guān)鍵詞: 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;NCRE;數(shù)據(jù)倉(cāng)庫(kù)
中圖分類號(hào):G642 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)30-0041-03
Research on Mining Computer Rank Examination Score of College Students Based on Apriori Model
QUAN Tong-gui
(Hunan University of Medicine, Huaihua 418000, China)
Abstract: With the rapid development of the era of big data, data mining has become a hot research topic in the decision-making of supplementary education. National computer level examination, accumulated a large number of registration, study, examination-related data. Based on the real data of 2247 students in a university in Hunan Province, this paper uses the Apriori model in the Clementine data mining tool to do data mining on the rules of student achievement association. The study further found that students' interest in program learning had a weak effect on grade achievement. Originally, interest should be a strong correlation, but in test-based education, the goal is the pressure of students to learn, motivation from pressure. This provides a reference for deepening the reform of quality education..
Key words: data mining; association rules; NCRE; the data warehouse
1 引言
數(shù)據(jù)在當(dāng)今信息化時(shí)代以幾何級(jí)數(shù)爆炸增長(zhǎng),面對(duì)海量積累的歷史數(shù)據(jù)[1],如何發(fā)現(xiàn)隱藏其中的有用的規(guī)律、規(guī)則、模式、約束等知識(shí),以服務(wù)于決策,數(shù)據(jù)挖掘 (Data Mining, DM) 因運(yùn)而生,它是通過(guò)一定算法從海量數(shù)據(jù)中發(fā)現(xiàn)隱藏的模式和知識(shí)的過(guò)程[2], 自誕生以來(lái),在國(guó)內(nèi)外迅速發(fā)展,方興未艾,正逐步解決從海量的歷史數(shù)據(jù)中挖掘知識(shí)為科學(xué)決策服務(wù),在銀行、醫(yī)療、教育等領(lǐng)域已得到了廣泛的應(yīng)用[3]。
全國(guó)計(jì)算機(jī)等級(jí)考試,積累了大量報(bào)名、學(xué)習(xí)、考試相關(guān)數(shù)據(jù)。如何利用這些數(shù)據(jù)分析出影響學(xué)習(xí)效果的主要因素,以期幫助學(xué)校管理者調(diào)整決策、老師改進(jìn)教學(xué)、學(xué)生明確不足是一個(gè)非常有意義的研究問(wèn)題。數(shù)據(jù)挖掘運(yùn)行在數(shù)據(jù)倉(cāng)庫(kù)的平臺(tái)上[4]。本研究首先建立學(xué)生成績(jī)數(shù)據(jù)倉(cāng)庫(kù)結(jié)合高校教務(wù)管理系統(tǒng)學(xué)生成績(jī)相關(guān)數(shù)據(jù)庫(kù)、調(diào)查問(wèn)卷、拷貝相關(guān)文件、整理歷史資料等多個(gè)異構(gòu)數(shù)據(jù)源,補(bǔ)全數(shù)據(jù)。在已有數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,基于湖南省某高校2247個(gè)學(xué)生真實(shí)的數(shù)據(jù),采用Clementine數(shù)據(jù)挖掘工具中的Apriori模型[5],進(jìn)行學(xué)生成績(jī)關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘,實(shí)驗(yàn)表明:⑴全體學(xué)生中48.865%的學(xué)生觀看了視頻預(yù)習(xí)、參加考前操作考試訓(xùn)練且通過(guò)了過(guò)級(jí)考試。觀看了視頻預(yù)習(xí)且參加考前操作考試訓(xùn)練的學(xué)生99.636%通過(guò)了過(guò)級(jí)考試。⑵全體學(xué)生中58.879%的學(xué)生參加了考前操作考試訓(xùn)練且通過(guò)了過(guò)級(jí)考試。參加考前操作考試訓(xùn)練的學(xué)生96.145%通過(guò)了過(guò)級(jí)考試。⑶全體學(xué)生中57.677%的學(xué)生觀看了視頻預(yù)習(xí)且通過(guò)了過(guò)級(jí)考試。觀看了視頻預(yù)習(xí)的學(xué)生92.901%通過(guò)了過(guò)級(jí)考試。是否參加考前操作考試訓(xùn)練、是否課前觀看視頻預(yù)習(xí)對(duì)提高計(jì)算機(jī)過(guò)級(jí)成績(jī)至關(guān)重要。在全國(guó)高校促進(jìn)大學(xué)生自主學(xué)習(xí)具有很好的推廣意義
2 學(xué)生成績(jī)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建
2.1 數(shù)據(jù)采集
猶如巧婦難為無(wú)米之炊,沒有數(shù)據(jù)采集就不能做數(shù)據(jù)預(yù)處理。本文中,學(xué)生基本信息:學(xué)號(hào),教師號(hào),課程號(hào),姓名,身份證號(hào)、平時(shí)成績(jī)、應(yīng)用基礎(chǔ)成績(jī)直接來(lái)源于教務(wù)管理系統(tǒng)。VB過(guò)級(jí)成績(jī)由省教育廳考試中心下發(fā)。諸如算法初步高考題是否得分、是否課前觀看教學(xué)視頻預(yù)習(xí)、程序?qū)W習(xí)興趣度、是否參加題庫(kù)訓(xùn)練、是否購(gòu)買資料等等,通過(guò)調(diào)查問(wèn)卷獲得,并及時(shí)輸入電腦。課外上機(jī)時(shí)間,每個(gè)學(xué)生都有一個(gè)賬號(hào),在多媒體閱覽室復(fù)制每個(gè)學(xué)期末的匯總數(shù)據(jù)。教師基本信息:教師號(hào),課程號(hào),教師姓名,職稱,學(xué)歷,授課班級(jí)號(hào)等,來(lái)源于教務(wù)系統(tǒng)。課程基本信息:課程號(hào),教師號(hào),課程名稱,課程類型,學(xué)分等,同樣來(lái)自教務(wù)系統(tǒng)。關(guān)于調(diào)查問(wèn)卷的統(tǒng)計(jì)工作,為了節(jié)約時(shí)間,使表格填寫規(guī)范,盡量減少缺失值與噪聲數(shù)據(jù),用Excel編制調(diào)查問(wèn)卷表,由任課老師利用上計(jì)算機(jī)實(shí)驗(yàn)課時(shí)間在學(xué)校機(jī)房的局域網(wǎng)上組織學(xué)生填寫。為了避免學(xué)生隨心所欲填寫調(diào)查問(wèn)卷,利用Excel數(shù)據(jù)有效性檢查,將Salgorithm、Sview、Strain、Sbuy設(shè)置成選擇序列“是/否”,Sxqd設(shè)置為選擇序列“愛好/一般/反感”,這樣可以有效地避免了無(wú)效數(shù)據(jù)的產(chǎn)生。
2.2數(shù)據(jù)清洗
教務(wù)管理系統(tǒng)積累的數(shù)據(jù)以及外界補(bǔ)充的數(shù)據(jù),來(lái)源不同,具有不完整性和不一致性,可能有缺失值,或者含有噪音,不能直接進(jìn)行數(shù)據(jù)挖掘。數(shù)據(jù)清洗是獲得高質(zhì)量數(shù)據(jù)的必經(jīng)之路,是數(shù)據(jù)挖掘的前奏[6]。以數(shù)據(jù)缺失處理為例處理具有大量缺失值的列的方法是直接刪除。通過(guò)Clementine的Filter節(jié)點(diǎn)把具有大量缺失值的字段Salgorithm過(guò)濾掉。操作界面如圖1所示,運(yùn)行結(jié)果如圖2所示。
2.3 數(shù)據(jù)集成
使用Clementine對(duì)數(shù)據(jù)庫(kù)中學(xué)生成績(jī)做數(shù)據(jù)集成。以集成具有相同結(jié)構(gòu)的兩個(gè)表的記錄合并為例,把全校以班為單位的工作表文件合并成一個(gè)總文件。Clementine操作節(jié)點(diǎn)設(shè)計(jì)界面如圖3所示,運(yùn)行結(jié)果如圖4所示,此時(shí)記錄數(shù)為60,字段數(shù)不變。
3 學(xué)生計(jì)算機(jī)等級(jí)考試成績(jī)挖掘
3.1 提出問(wèn)題
制約學(xué)習(xí)成績(jī)好壞的因素有哪些?
1)興趣是學(xué)習(xí)的動(dòng)力,對(duì)程序設(shè)計(jì)感興趣,是否意味著計(jì)算機(jī)等級(jí)考試穩(wěn)操勝券呢?
2)是否購(gòu)買教育部考試中心指定的教材、資料,影響學(xué)生過(guò)級(jí)嗎?
3)是否在課前觀看計(jì)算機(jī)新課教學(xué)視頻預(yù)習(xí),影響過(guò)級(jí)嗎?
4)是否參加考前操作考試訓(xùn)練,影響過(guò)級(jí)嗎?
5)女生編程學(xué)習(xí)不如男生,所以女生考試通過(guò)率低,對(duì)嗎?
想要回答這些與學(xué)生成績(jī)相關(guān)的問(wèn)題,僅僅靠統(tǒng)計(jì)手段是很難回答問(wèn)題的,必須借助于數(shù)據(jù)挖掘技術(shù)。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘?qū)Υ罅繕颖具M(jìn)行關(guān)聯(lián)分析后得到的強(qiáng)關(guān)聯(lián)規(guī)則可以探討性地回答上述問(wèn)題。
3.2 學(xué)生成績(jī)挖掘方案與步驟
大學(xué)生計(jì)算機(jī)等級(jí)考試成績(jī)挖掘的方案以教務(wù)系統(tǒng)數(shù)據(jù)庫(kù)為基礎(chǔ),通過(guò)調(diào)查問(wèn)卷、復(fù)制相關(guān)數(shù)據(jù)文件等措施,補(bǔ)充完善數(shù)據(jù),建立健全學(xué)生成績(jī)數(shù)據(jù)庫(kù)。以學(xué)生成績(jī)數(shù)據(jù)庫(kù)為對(duì)象,應(yīng)用SPSS Clementine 12.0 中的Apriori模型作為數(shù)據(jù)挖掘工具[7],對(duì)影響成績(jī)的幾個(gè)可能的因素進(jìn)行關(guān)聯(lián)分析,找出強(qiáng)關(guān)聯(lián)規(guī)則,指導(dǎo)教學(xué)活動(dòng)。
1)確定分析對(duì)象與目標(biāo)。本實(shí)驗(yàn)確定討論“算法初步高考題是否得分字段Salgorithm”“程序?qū)W習(xí)興趣度字段Sxqd”“是否購(gòu)買教材資料字段Sbuy”“是否在課前觀看教學(xué)視頻預(yù)習(xí)字段Sview”“是否參加考前操作考試訓(xùn)練字段Strain”“性別字段Ssex”共五個(gè)因素對(duì)“是否過(guò)級(jí)字段Spass”有沒有強(qiáng)關(guān)聯(lián)關(guān)系。
2)數(shù)據(jù)準(zhǔn)備。經(jīng)過(guò)數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理建立學(xué)生成績(jī)數(shù)據(jù)倉(cāng)庫(kù)。選擇湖南省某高校2247個(gè)學(xué)生的統(tǒng)考成績(jī),數(shù)據(jù)預(yù)處理后得到供關(guān)聯(lián)分析的文件2012ncreA.xls。
3)選定模型。從Clementine提供數(shù)據(jù)挖掘模型中選擇Apriori模型。
4)建立模型。
3.3 模型評(píng)估與挖掘結(jié)果分析
根據(jù)建立好的模型,把Salgorithm、Sxqd、Sbuy、Sview、Strain、Ssex六個(gè)字段的方向設(shè)為In,把Spass字段設(shè)為Out,其余無(wú)關(guān)字段設(shè)為None。設(shè)置Apriori結(jié)點(diǎn)模型參數(shù)Min_sup=40%、Min_conf=75%如圖5所示,執(zhí)行數(shù)據(jù)流,得到可視化結(jié)果。如圖6所示。
從圖6可視化挖掘結(jié)果輸出關(guān)聯(lián)規(guī)則可以得出如下結(jié)論:
結(jié)論1:全體學(xué)生中48.865%的學(xué)生觀看了視頻預(yù)習(xí)、參加考前操作考試訓(xùn)練且通過(guò)了過(guò)級(jí)考試。觀看了視頻預(yù)習(xí)且參加考前操作考試訓(xùn)練的學(xué)生99.636%通過(guò)了過(guò)級(jí)考試。
結(jié)論2:全體學(xué)生中58.879%的學(xué)生參加考前操作考試訓(xùn)練且通過(guò)了過(guò)級(jí)考試。參加考前操作考試訓(xùn)練的學(xué)生96.145%通過(guò)了過(guò)級(jí)考試。
結(jié)論3:全體學(xué)生中57.677%的學(xué)生觀看了視頻預(yù)習(xí)且通過(guò)了過(guò)級(jí)考試。觀看了視頻預(yù)習(xí)的學(xué)生92.901%通過(guò)了過(guò)級(jí)考試。
調(diào)整Apriori結(jié)點(diǎn)模型選項(xiàng)設(shè)置,將Min_sup降低到32%,Min_conf不變,執(zhí)行數(shù)據(jù)流,得到一個(gè)新的關(guān)聯(lián)規(guī)則,Salgorithm^Strain Spass,Support=33.912%,Confidence=96.457%如圖7所示,可得出如下結(jié)論:
結(jié)論4:全體學(xué)生中33.912%的學(xué)生算法高考題得分、參加考前操作考試訓(xùn)練且通過(guò)了過(guò)級(jí)考試。算法高考題得分且參加考前操作考試訓(xùn)練的學(xué)生99.636%通過(guò)了過(guò)級(jí)考試。
調(diào)整Apriori結(jié)點(diǎn)模型選項(xiàng)設(shè)置,將Min_sup降低到28%和10%,Min_conf不變。執(zhí)行數(shù)據(jù)流,得到一個(gè)新的關(guān)聯(lián)規(guī)則,如圖8所示,可得出如下結(jié)論:
結(jié)論5:“程序?qū)W習(xí)興趣度”對(duì)過(guò)級(jí)成績(jī)有較弱的影響。
結(jié)論6:性別和“是否購(gòu)買資料”是不會(huì)影響過(guò)級(jí)的。
3.4 挖掘結(jié)論
結(jié)論1~3充分說(shuō)明:是否參加考前操作考試訓(xùn)練、是否課前觀看視頻預(yù)習(xí)對(duì)提高計(jì)算機(jī)過(guò)級(jí)成績(jī)至關(guān)重要。對(duì)于操作考試訓(xùn)練,很多同學(xué)臨考前,重理論,輕操作,是考試掛科的一個(gè)重要原因。紙上得來(lái)終覺淺,要知此事須躬行。應(yīng)讓學(xué)生在學(xué)習(xí)過(guò)程中充分認(rèn)識(shí)到程序設(shè)計(jì)是一門理論和實(shí)踐并重的學(xué)科。同時(shí),要注意循序漸進(jìn)。平時(shí)只聽課,不參加操作考試訓(xùn)練,臨考前匆匆忙忙做幾套卷,是不會(huì)僥幸過(guò)關(guān)的。
結(jié)論4:“算法高考題是否得分”對(duì)過(guò)級(jí)成績(jī)有一定的影響。由于大學(xué)程序設(shè)計(jì)教學(xué)實(shí)行的是零起點(diǎn)教學(xué),“算法高考題是否得分” 對(duì)過(guò)級(jí)成績(jī)影響應(yīng)該不大。結(jié)論有一定偏差。究其原因,“算法高考題是否得分”很可能是間接反映了學(xué)生的學(xué)習(xí)能力,從而對(duì)過(guò)級(jí)成績(jī)有一定影響。或者,數(shù)據(jù)在調(diào)查問(wèn)卷填寫時(shí),出現(xiàn)偏差。通過(guò)這個(gè)問(wèn)題,拓寬來(lái)看中國(guó)的計(jì)算機(jī)教育,小學(xué)信息技術(shù)課與中學(xué)脫節(jié),中學(xué)計(jì)算機(jī)教學(xué)與大學(xué)不接軌,浪費(fèi)了中國(guó)青少年多少寶貴的青春年華。能否在大學(xué)程序設(shè)計(jì)課的教學(xué)計(jì)劃里,安排幾個(gè)課時(shí),先復(fù)習(xí)中學(xué)所學(xué)的算法初步,教學(xué)承前啟后,不再做沒有意義的重復(fù)教學(xué),留出時(shí)間多訓(xùn)練一下學(xué)生的編程技能。
結(jié)論5:“程序?qū)W習(xí)興趣度”對(duì)過(guò)級(jí)成績(jī)有較弱的影響。本來(lái),興趣是學(xué)習(xí)成績(jī)的強(qiáng)關(guān)聯(lián)項(xiàng),可是在應(yīng)試教育下,目標(biāo)才是學(xué)生學(xué)習(xí)的壓力,壓力轉(zhuǎn)化為動(dòng)力。這個(gè)結(jié)論說(shuō)明:我們的大學(xué)計(jì)算機(jī)教學(xué)及過(guò)級(jí)考試仍然是典型的應(yīng)試教育模式。這個(gè)研究結(jié)論為深化中國(guó)素質(zhì)教育改革提供了理論參考依據(jù)。
結(jié)論6:性別和“是否購(gòu)買資料”是不會(huì)影響過(guò)級(jí)的。這很好地回答了兩個(gè)問(wèn)題:⑴女生不用擔(dān)心性別差異影響計(jì)算機(jī)學(xué)習(xí),造成不必要的心理恐慌。⑵在多媒體學(xué)習(xí)的時(shí)代,應(yīng)當(dāng)盡量少用紙質(zhì)教材、資料,多建設(shè)共享的電子教材,逐步取消紙質(zhì)書籍,允許學(xué)生自主選擇購(gòu)買教材,把高年級(jí)學(xué)生的教材回收再利用。
4 總結(jié)
本文以教務(wù)管理系統(tǒng)為基礎(chǔ),采用調(diào)查問(wèn)卷、從學(xué)生檔案管理系統(tǒng)轉(zhuǎn)錄、復(fù)制學(xué)生課外上機(jī)記錄數(shù)據(jù)庫(kù)、收集省教育廳考試中心轉(zhuǎn)發(fā)的歷屆NCRE考試成績(jī)表文件等形式建立健全學(xué)生成績(jī)數(shù)據(jù)庫(kù),經(jīng)數(shù)據(jù)清理和集成后,創(chuàng)建學(xué)生成績(jī)分析數(shù)據(jù)倉(cāng)庫(kù)。然后根據(jù)數(shù)據(jù)倉(cāng)庫(kù)中的相關(guān)數(shù)據(jù)選擇可能影響學(xué)習(xí)成績(jī)的因素六個(gè):課前是否看視頻預(yù)習(xí)、是否參加考前操作卷的訓(xùn)練、算法初步高考題是否得分、性別、興趣度、是否購(gòu)買資料,以基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法對(duì)2247名學(xué)生的計(jì)算機(jī)等級(jí)考試成績(jī)進(jìn)行挖掘,探討了影響學(xué)生成績(jī)的因素。實(shí)驗(yàn)分析結(jié)果可以作為教師教學(xué)過(guò)程的指導(dǎo)和學(xué)生學(xué)習(xí)過(guò)程的建議?;跀?shù)據(jù)挖掘的影響學(xué)生成績(jī)因素的分析研究還存在很多問(wèn)題。在今后的研究中,進(jìn)一步完善學(xué)校成績(jī)數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),?為每個(gè)學(xué)習(xí)者建立畫像,嘗試更多的數(shù)據(jù)挖掘方法以達(dá)到能更好的為教師提供教學(xué)反饋,為學(xué)習(xí)者提供學(xué)習(xí)反思。
參考文獻(xiàn):
[1] 米允龍, 米春橋, 劉文奇. 海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(6):641-659.
[2] 王麗珍, 周麗華, 陳紅梅. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘原理及應(yīng)用[M]. 北京:科學(xué)出版社,2009.
[3] 毛曉菊. 基于模糊關(guān)聯(lián)規(guī)則的海量數(shù)據(jù)挖掘方法研究[J]. 微電子學(xué)與計(jì)算機(jī), 2018,35(2):89-93.
[4] 李雯娟, 曾照芳, 陳睿. 基于醫(yī)學(xué)信息數(shù)據(jù)倉(cāng)庫(kù)模型的數(shù)據(jù)挖掘[J]. 生物信息學(xué), 2009,7(2):146-149.
[5] 朱晴. 融合關(guān)聯(lián)規(guī)則挖掘算法的信息化教學(xué)管理系統(tǒng)設(shè)計(jì)[J]. 現(xiàn)代電子技術(shù), 2020,43(23):159-163.
[6] 張婷婷. 基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)在音樂(lè)分類中應(yīng)用[J]. 現(xiàn)代電子技術(shù), 2020,43(1):99-101,106.
[7] 張靜端. 基于Clementine的數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)科隱形關(guān)聯(lián)的研究——以東華大學(xué)紡織學(xué)科為例[J]. 現(xiàn)代情報(bào), 2013,33(9):145-149.
【通聯(lián)編輯:王力】