翟青
摘 要 本文主要研究數(shù)據(jù)挖掘技術(shù)在留學(xué)生教學(xué)管理中的應(yīng)用。隨著我國高校留學(xué)生規(guī)模的擴大,對現(xiàn)有的高校教學(xué)管理也提出了更高的要求。為了合理利用高校多年來在教學(xué)和管理工作中積累的大量數(shù)據(jù),本文把數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù)與教務(wù)管理系統(tǒng)相結(jié)合。采用數(shù)據(jù)挖掘技術(shù)理性地分析學(xué)校教學(xué)方面的成效與得失,多角度研究影響留學(xué)生發(fā)展的各方面因素,深入分析影響留學(xué)生成績的主次因子,獲得隱藏的輔助決策知識,指導(dǎo)教學(xué)工作,使得教學(xué)管理有的放矢,從而進一步提高教學(xué)質(zhì)量。
關(guān)鍵詞 留學(xué)生 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 教學(xué)管理 教學(xué)計劃
中圖分類號:G642 文獻標(biāo)識碼:A DOI:10.16400/j.cnki.kjdkz.2016.05.012
Abstract This thesis mainly studies on the application of data mining technology in teaching. As the number of students abroad in China grows, we need to find a better way to make Chinese teaching management more efficiency. It combines the technology of data warehouse and data mining with educational management system to rationally utilize the mass data accumulated in the work of teaching and management. Then, in order to acquire the potential decision-support knowledge to guide the work of teaching and enable teaching management to operate with a definite object and thus further improve the quality of teaching, this paper makes research from the following areas. Firstly, it applies the technique of data mining to analyzing the effect and gain and loss in the teaching reasonably, then, it studies a variety of factors which influence the well development of students from multi-angle. Finally, with regard to the primary and secondary factors affecting students' performance, it carries out deep analysis.
Key words data mining; association rules; teaching management; teaching plan
0 引言
近幾年來華留學(xué)生教育進入快速發(fā)展時期,我國已經(jīng)成為國際學(xué)生流動的重要目的地國家之一。隨著我校留學(xué)生規(guī)模的不斷擴大,如何更有效地對來華留學(xué)生進行教學(xué)管理已成為一個重要的研究課題。而運用數(shù)據(jù)挖掘技術(shù),從大量的留學(xué)生相關(guān)數(shù)據(jù)中挖掘出一些有價值的信息,將更有利于構(gòu)建切合我校留學(xué)生實際的培養(yǎng)體系,更好地保證培養(yǎng)質(zhì)量。
一方面,從招生角度上來講。目前我校留學(xué)生的生源渠道主要分為三類:第一類是由中國國家留學(xué)基金委直接分配至我校學(xué)習(xí)的獲中國政府獎學(xué)金的學(xué)生。第二類是學(xué)生自己通過網(wǎng)上申請,我校根據(jù)學(xué)生提供的材料進行審核錄取。第三類是由國外大學(xué)或中介機構(gòu)根據(jù)協(xié)議推薦來我校學(xué)習(xí)的學(xué)生。由于外國留學(xué)生來自不同的國家,之前在各自不同的教育體系中接受高中教育,文化課背景差異很大,這就導(dǎo)致生源的質(zhì)量參差不齊。運用數(shù)據(jù)挖掘技術(shù)可以找到其中有價值的信息,如哪個國家的教育水平相對較高,來自哪個國家的學(xué)生平均申請成績較好,使用何種母語更容易融入中國高校教學(xué)等。這為招生工作提供了參考,從招生源頭提高留學(xué)生質(zhì)量。
另一方面,從教學(xué)管理角度來講。目前,我校留學(xué)生數(shù)據(jù)庫中存放著歷屆學(xué)生的各科考試成績,海量的數(shù)據(jù)只是單純地記載了數(shù)據(jù)信息,對學(xué)生信息、成績等數(shù)據(jù)的處理一般還停留在簡單的數(shù)據(jù)備份和查詢階段,如傳統(tǒng)數(shù)據(jù)庫技術(shù)可以查詢最高分最低分和平均分等表層信息,但卻無法發(fā)現(xiàn)隱藏數(shù)據(jù)之間的規(guī)律或者說有指導(dǎo)意義的知識。大量有價值的信息被淹沒在海量數(shù)據(jù)中。事實上不論是課程與課程之間,還是課程的設(shè)置之間,與學(xué)生成績都存在著千絲萬縷的聯(lián)系,現(xiàn)階段已有的數(shù)據(jù)并沒有發(fā)揮其真正的價值,而運用數(shù)據(jù)挖掘技術(shù)則可能更好地發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的豐富信息。通過對學(xué)生成績數(shù)據(jù)庫中所包含的各種類型數(shù)據(jù)進行相應(yīng)的處理,如:抽取、轉(zhuǎn)換、分析和模型化處理,從中尋找影響學(xué)生學(xué)習(xí)成績的眾多因素,以及這些因素所涉及到的相關(guān)問題。應(yīng)用數(shù)據(jù)挖掘技術(shù)分析學(xué)生的成績水平,使學(xué)生深入了解其在學(xué)生整體中的相對位置,由此來調(diào)整個人學(xué)習(xí)計劃。同時,幫助教師和學(xué)校決策者洞悉教學(xué)過程中存在的問題,進而反思教學(xué)質(zhì)量。還可以根據(jù)關(guān)聯(lián)規(guī)則挖掘得到的一系列有價值的規(guī)則,分析檢查課程體系的合理性,比如:相關(guān)課程之間的銜接與先后順序是否恰當(dāng)?shù)?,根?jù)分析結(jié)果最大限度地優(yōu)化培養(yǎng)計劃和決策。此外,利用數(shù)據(jù)挖掘技術(shù)還可以發(fā)現(xiàn)數(shù)據(jù)中存在的潛在關(guān)系與規(guī)則,比如:根據(jù)學(xué)生的出勤次數(shù)和作業(yè)的上交情況預(yù)測學(xué)生成績發(fā)展趨勢等。為教師的教學(xué)環(huán)節(jié)提供建設(shè)性的意見和建議,為學(xué)生管理工作提供有價值的決策支持,從而幫助學(xué)校做出實時適時的決策調(diào)整,使得學(xué)生管理工作有的放矢。
1 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘
1.1 數(shù)據(jù)倉庫
傳統(tǒng)數(shù)據(jù)庫在聯(lián)機事務(wù)處理(OLTP)中獲得了較大的成功,而傳統(tǒng)數(shù)據(jù)庫中只保留當(dāng)前的管理信息,缺乏決策分析所需要的大量歷史信息,故不能滿足管理人員的決策分析要求。為了解決這一問題,進行相關(guān)決策分析,數(shù)據(jù)倉庫應(yīng)運而生。簡而言之,數(shù)據(jù)倉庫就是能夠滿足決策分析所需要的數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫的概念,由“數(shù)據(jù)倉庫之父”W.H.Inmom博士提出:數(shù)據(jù)倉庫是一個面向主題的,集成的、與時間有關(guān)的,非易失的數(shù)據(jù)集合,為管理部門提供決策支持。它實際上是一個特殊的數(shù)據(jù)庫,這種系統(tǒng)稱為OLAP系統(tǒng)。本文中我們就利用留學(xué)生成績數(shù)據(jù)庫中的各種類型的數(shù)據(jù)建立相應(yīng)的數(shù)據(jù)倉庫,為數(shù)據(jù)挖掘提供數(shù)據(jù)平臺。
1.2 數(shù)據(jù)挖掘
近年來隨著信息技術(shù)的迅猛發(fā)展,人們所擁有的數(shù)據(jù)信息急劇增大。如何從大量隨機的數(shù)據(jù)中挖掘出一些有價值的信息,成為一個重要的研究課題,由此帶動了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和飛速發(fā)展。數(shù)據(jù)挖掘就是從大量的,不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又有潛在的有用信息和知識的過程,是數(shù)據(jù)庫中的知識發(fā)現(xiàn)的核心??梢哉f,有數(shù)據(jù)積累的地方,就有數(shù)據(jù)挖掘技術(shù)的用武之地。
數(shù)據(jù)挖掘的分析方法分為:聚類分析,關(guān)聯(lián)分析,時序模式分析和分類分析。其中聚類分析是指通過數(shù)據(jù)本身具有的相似特點把海量數(shù)據(jù)集歸納為若干個簇,即“物以類聚”。同一簇中的數(shù)據(jù)之間相距小,相似度高;不同簇中的數(shù)據(jù)之間相距較大,數(shù)據(jù)相異度高。關(guān)聯(lián)分析是指利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘,其主要評價標(biāo)準(zhǔn)有:支持度、置信度、興趣度等。本文中我們將數(shù)據(jù)挖掘技術(shù)與留學(xué)生教學(xué)管理相結(jié)合,挖掘在留學(xué)生教學(xué)管理中隱藏的有價值的信息,為留學(xué)生管理提供決策指導(dǎo)與決策支持。
2 數(shù)據(jù)挖掘在教學(xué)領(lǐng)域中的應(yīng)用
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫相結(jié)合,是完成決策分析的關(guān)鍵因素。教務(wù)數(shù)據(jù)主要存儲在關(guān)系型數(shù)據(jù)庫中,其主要任務(wù)是執(zhí)行聯(lián)機事務(wù)和查詢處理,對其中大量的教學(xué)信息及數(shù)據(jù)的應(yīng)用僅限于某些單方面的分析,而缺乏相關(guān)的綜合分析,大部分數(shù)據(jù)難以再次利用,不能滿足決策分析的要求,為此需要對各種類型的數(shù)據(jù)進行抽取,轉(zhuǎn)換、匯總加載到留學(xué)生成績數(shù)據(jù)倉庫中,借助數(shù)據(jù)挖掘技術(shù),為教學(xué)提供決策支持服務(wù)。
在留學(xué)生成績數(shù)據(jù)庫中,包含著多種類型的數(shù)據(jù),它們既相互獨立又相互聯(lián)系。運用數(shù)據(jù)倉庫的理論和方法,對這些數(shù)據(jù)進行適當(dāng)?shù)念A(yù)處理,即可產(chǎn)生支持教學(xué)決策所需要的信息。留學(xué)生成績倉庫的應(yīng)用模型如圖1所示。
根據(jù)留學(xué)生成績的特點,以學(xué)生成績分析為主題建立星型結(jié)構(gòu)的留學(xué)生成績倉庫。星型結(jié)構(gòu)主要由事實表與維度表兩部分構(gòu)成。事實表是星型模型的核心,維度表是事實表的附屬表,一個事實表一般擁有一組維度表,每個維度表都通過主鍵與事實表相連,維度表之間通過事實表的中介相互建立聯(lián)系。該數(shù)據(jù)倉庫主要涉及到的信息有:留學(xué)生基本信息,教師信息,課程信息,試卷信息,知識點信息及專業(yè)信息等。星型結(jié)構(gòu)的留學(xué)生成績數(shù)據(jù)倉庫的具體構(gòu)建情況如圖2所示。
2.1 數(shù)據(jù)挖掘在成績分析中的應(yīng)用
定性評價在生活中有著廣泛的應(yīng)用,我們往往把學(xué)生成績硬性地劃分為:優(yōu)、良、中、差四個等級。而這種傳統(tǒng)的硬性區(qū)間劃分法,存在著眾多弊端。例如將成績90分定為“優(yōu)”,而成績79分確定為“良”,這往往只是根據(jù)經(jīng)驗但卻缺乏理論指導(dǎo),而實際上二者之間并沒有那么明顯的差距。如果我們利用數(shù)據(jù)挖掘中的聚類分析法對學(xué)生成績進行適當(dāng)處理,就可以有效地對學(xué)生成績進行等級劃分,為學(xué)生學(xué)習(xí)和教師的教學(xué)提供更合理的參考標(biāo)準(zhǔn)。在合理的等級劃分基礎(chǔ)上,我們就可以利用關(guān)聯(lián)規(guī)則挖掘技術(shù)對學(xué)生成績進行多角度、多方向的深入分析,獲得可以為教學(xué)工作提供決策支持的有價值的隱藏規(guī)則。比如:學(xué)生成績的好壞跟作業(yè)上交情況有著明顯的關(guān)系,該規(guī)則說明教師可以通過及時督促學(xué)生上交作業(yè)來提高學(xué)生成績。此外,我們也可以采用決策樹挖掘技術(shù)來分析影響學(xué)生某門課程成績的主要因素。比如:針對學(xué)生出勤率,作業(yè)上交情況,國籍,學(xué)生中英文水平四個因素對學(xué)生成績的影響程度進行決策樹挖掘分析,我們發(fā)現(xiàn)學(xué)生出勤率、作業(yè)上交情況以及學(xué)生的中英文水平是影響學(xué)生成績的主要因素,而國籍則是次要因素。由此說明較高的出勤率、良好的作業(yè)上交情況以及較好的中英文水平是學(xué)生取得良好成績的重要保障。
2.2 數(shù)據(jù)挖掘在培養(yǎng)計劃制定中的應(yīng)用
培養(yǎng)計劃對一個專業(yè)的學(xué)習(xí)至關(guān)重要,一個好的培養(yǎng)計劃將會獲得事半功倍的效果,反之,將會產(chǎn)生事倍功半的結(jié)果。目前我校對于本科留學(xué)生雖然部分課程有全英文授課模式,但是就培養(yǎng)方案、教學(xué)計劃來講,大部分課程與本專業(yè)國內(nèi)學(xué)生的幾乎一樣。而我國大學(xué)課程大綱的起點都是按照和國內(nèi)高中畢業(yè)的程度銜接制定的,特別是數(shù)理化這樣銜接性很強,對基礎(chǔ)和選修課程要求很高的課程,大部分留學(xué)生不能跟上學(xué)習(xí)進度,教學(xué)效果較差,學(xué)習(xí)困難較大。
傳統(tǒng)的教務(wù)系統(tǒng)無法為留學(xué)生的培養(yǎng)計劃的制定提供建設(shè)性的決策支持。然而,利用數(shù)據(jù)挖掘技術(shù)對留學(xué)生信息維表,課程維表和學(xué)生成績維表進行關(guān)聯(lián)規(guī)則挖掘,則可以找出不同課程之間的關(guān)聯(lián),從而為留學(xué)生單獨制定一套行之有效的特殊培養(yǎng)方案,適當(dāng)調(diào)整外國留學(xué)生的必修和選修課程,提高教學(xué)效果和質(zhì)量。如對石油工程專業(yè)留學(xué)生課程成績進行關(guān)聯(lián)規(guī)則挖掘,獲得等級為“優(yōu)”的課程之間存在的有價值的規(guī)則,如表1所示。
相應(yīng)的規(guī)則解釋有:(1)規(guī)則2 表明,“高等數(shù)學(xué)(Ⅱ)I”與“高等數(shù)學(xué)(Ⅱ)II”作為“理論力學(xué)”的先行課程的信任度為88.3%,因此“高等數(shù)學(xué)(Ⅱ)I”與“高等數(shù)學(xué)(Ⅱ)II”作為“理論力學(xué)”的先行課程比較合理。(2)規(guī)則3表明,“理論力學(xué)”作為“材料力學(xué)”先行課的信任度為90.6%,所以“理論力學(xué)”作為“材料力學(xué)”的先行課程比較合理。(3)規(guī)則4表明,“理論力學(xué)”和“材料力學(xué)”作為“油田開發(fā)地質(zhì)”的先行課程的信任度為86.0%,所以“理論力學(xué)”和“材料力學(xué)”作為“油田開發(fā)地質(zhì)”的先行課程比較合理。綜合(1)(2)(3)可知,高等數(shù)學(xué)(Ⅱ)(I ,II),理論力學(xué),材料力學(xué),油田開發(fā)地質(zhì)這四門課程的合理開課順序應(yīng)該是:(1)高等數(shù)學(xué)(Ⅱ)(I ,II)(2)理論力學(xué)(3)材料力學(xué)(4)油田開發(fā)地質(zhì)。如果對上面列出的規(guī)則進行多次推導(dǎo),可以得出“石油工程”這個專業(yè)大致合理的開課順序:(1)高等數(shù)學(xué)(Ⅱ)I、高等數(shù)學(xué)(Ⅱ)II;(2)高等數(shù)學(xué)(Ⅱ)(I ,II),理論力學(xué),材料力學(xué),油田開發(fā)地質(zhì);(3)測井綜合解釋,鉆井工程、油藏工程、氣藏工程,石油工程的全面設(shè)計;(4)環(huán)境保護在石油和天然氣領(lǐng)域,強化開采理論。
由上述的關(guān)聯(lián)規(guī)則及相應(yīng)的結(jié)果解釋,我們可以清楚地看到,相關(guān)課程成績之間存在較高的關(guān)聯(lián)程度,先行課程的學(xué)習(xí)情況將直接影響其后續(xù)課程的學(xué)習(xí)。我校即可根據(jù)上述結(jié)論為學(xué)習(xí)“石油工程專業(yè)”的本科留學(xué)生合理安排課程順序,使其獲得良好的學(xué)習(xí)效果。
2.3 數(shù)據(jù)挖掘在留學(xué)生選課方面的應(yīng)用
高校愈來愈注重個性化人才培養(yǎng),學(xué)校教育方式越來越人性化、多樣化,學(xué)生自主選課就成為課程改革的必然產(chǎn)物。但由于留學(xué)生初到中國對環(huán)境的不熟悉,包括一開始的語言障礙、溝通障礙,顯然對中國高校的課程設(shè)置了解有限,這樣有可能致使他們選課僅僅是憑表面感覺來進行。如:學(xué)生在選擇“中國概況”這門課的時候,可能僅僅是因為對中國歷史文化的好奇,而并不了解應(yīng)如何合理選擇其他相關(guān)課程來加深對這門課程的理解。“中國概況”這門課程需要有一定中文語言基礎(chǔ),盲目選課將導(dǎo)致留學(xué)生對中國概況的學(xué)習(xí)僅限于皮毛,而不能深入了解中國歷史文化。
現(xiàn)有的選課系統(tǒng)不能為學(xué)生選課提供建設(shè)性意見,但如果利用數(shù)據(jù)挖掘技術(shù)對學(xué)生漢語成績進行關(guān)聯(lián)規(guī)則挖掘,找出課程之間的關(guān)聯(lián),就可以在學(xué)生選擇某門課時為其推薦相關(guān)課程,完善學(xué)生在該領(lǐng)域的學(xué)習(xí)體系。若獲得如下規(guī)則:“中級漢語”和“中國概況”成績等級為“優(yōu)”;該規(guī)則說明漢語水平高低與中國概況的了解程度有較強的關(guān)聯(lián)程度,所以我們在學(xué)生選擇“中國概況”這門課程的時候,就應(yīng)當(dāng)向其推薦“中級漢語”,從而加強學(xué)生對該課程的學(xué)習(xí)。
2.4 數(shù)據(jù)挖掘在教學(xué)中其他方面的應(yīng)用
通過對學(xué)生基本信息,學(xué)生成績與留級或退學(xué)情況進行關(guān)聯(lián)規(guī)則分析,從中分析導(dǎo)致學(xué)生留級或退學(xué)的因素,從而可由學(xué)生的現(xiàn)有情況預(yù)測其被留級或退學(xué)的可能性,及時對有退學(xué)或留級危險的學(xué)生進行適時指導(dǎo),避免退學(xué)或留級情況的出現(xiàn),使每個學(xué)生都能享有充實圓滿的大學(xué)生活。另外,采用關(guān)聯(lián)規(guī)則與決策樹挖掘技術(shù)對學(xué)生基本信息,學(xué)生成績與就業(yè)情況進行深入分析,比較國籍,專業(yè)方向,性別,專業(yè)課成績,英語水平,參賽(參加科技比賽)情況,從中可以獲得相關(guān)信息,對學(xué)校的招生工作提供參考。如:來自巴基斯坦國家的學(xué)生普遍成績不錯,就業(yè)情況較好,這樣對招生部門來講,可以提高對該國的學(xué)生的招收比例,從而提升整個高校的留學(xué)生質(zhì)量。
3結(jié)論
數(shù)據(jù)挖掘技術(shù)作為一種新興的數(shù)據(jù)分析技術(shù),被充分應(yīng)用到留學(xué)生的教學(xué)管理中。從招生管理方面來講,通過數(shù)據(jù)挖掘技術(shù),可以了解不同國家的生源質(zhì)量,從而為學(xué)校的擇優(yōu)錄取提供理論參考。從教學(xué)方面來講,采用數(shù)據(jù)挖掘技術(shù)可以理性地分析在留學(xué)生教學(xué)方面的成效與得失,使留學(xué)生在學(xué)習(xí)過程中,更好地掌握理論基礎(chǔ)和專業(yè)知識,并且可以把獲得的基本的中文聽、說、讀、寫能力運用到所學(xué)專業(yè)領(lǐng)域中。在教育信息化的大趨勢下,數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域內(nèi)必然有十分廣闊的應(yīng)用前景,而隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,它也必將會在留學(xué)生教學(xué)管理中起到越來越重要的作用。
參考文獻
[1] 嚴華,陳文菁.關(guān)聯(lián)規(guī)則在學(xué)生成績分析中的應(yīng)用.福建醫(yī)科大學(xué)學(xué)報(社會學(xué)版),2008.9(1):46-49.
[2] 呂爽,陳高云.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)評估中的應(yīng)用[J].廣東廣播電視大學(xué)學(xué)報,2006.3(15):24-28.
[3] J.Brachman,T.Anand. The Process of Knowledge Discovery in Databases.A Human-centered Approach,1996:37-58.
[4] 趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的研究與應(yīng)用.大連:大連海事大學(xué),2007:6-10.
[5] 張莉.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中應(yīng)用的研究.青島:中國石油大學(xué)(華東),2009:6-10,56-57.
[6] 潘鋒.教務(wù)管理系統(tǒng)中的數(shù)據(jù)挖掘.重慶:重慶大學(xué),2008:36-38.
[7] 彭玉青,張紅梅,何華等.數(shù)據(jù)挖掘技術(shù)及其在教學(xué)中的應(yīng)用.河北科技大學(xué)學(xué)報,2001.22(4):21-24.
[8] 王利.數(shù)據(jù)挖掘技術(shù)在高效管理中的應(yīng)用[J].福建電腦,2005.6:45-48.
[9] 盧正中.淺談我校本科留學(xué)生教育質(zhì)量保障體系建設(shè).南昌教育學(xué)院學(xué)報,2012:62-63.