陳小年
摘要:中職學(xué)校教育管理工作涉及面廣,會(huì)產(chǎn)生大量的數(shù)據(jù)。如何有效利用這些數(shù)據(jù)是一個(gè)十分有趣而又重要的課題。采用數(shù)據(jù)挖掘技術(shù),在這些數(shù)據(jù)中進(jìn)行挖掘,會(huì)得到一些有意義的信息,幫助中職學(xué)校的教書育人,完善自身管理建設(shè),提升有效決策水平和能力。該文研究了一所中職學(xué)校的管理工作數(shù)據(jù)及其挖掘意義,并結(jié)合學(xué)生資助這項(xiàng)具體工作的數(shù)據(jù)進(jìn)行實(shí)例挖掘,分析其挖掘結(jié)果,并在此基礎(chǔ)上做進(jìn)一步推廣做簡單分析。
關(guān)鍵詞:數(shù)據(jù)挖掘;中職學(xué)校;管理
中圖分類號:TP311 ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號:1009-3044(2019)15-0010-03
Abstract: Educational administration in secondary vocational schools involves considerable data from comprehensive ways. How to effectively utilize these data is a topic of interest and importance. With data mining technology, significant information can be dig out from massive data, then benefit the teaching and studying in secondary vocational schools, and help to improve the management and administration of the schools and the efficiency of decision making. This paper is based on research of the data management and data mining in a secondary vocational school, takes financial aid for students as an example to mine the data therein, study the outcome, and makes a preliminary analysis on the possibility and feasibility of promotion.
Key words: Data Mining; Secondary Vocational Schools; management
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)是一項(xiàng)非常重要的數(shù)據(jù)透視技術(shù),從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中有噪聲的、不完全的、模糊的大量隨機(jī)表層數(shù)據(jù)分析提取出其背后隱含著的難以發(fā)現(xiàn)的、不為人知的有用信息,可能給人們的生產(chǎn)、生活、學(xué)習(xí)、研究帶來意想不到的結(jié)果。數(shù)據(jù)挖掘涉及數(shù)據(jù)庫和數(shù)據(jù)倉庫技術(shù)、機(jī)器學(xué)習(xí)、高性能計(jì)算、統(tǒng)計(jì)學(xué)、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、圖像與信號處理、數(shù)據(jù)可視化以及空間或時(shí)間數(shù)據(jù)分析,可謂信息技術(shù)中最有發(fā)展空間、潛力無限的交叉學(xué)科之一。
數(shù)據(jù)挖掘技術(shù)的發(fā)展主要有電子郵件階段、信息發(fā)布階段、電子商務(wù)階段以及全程電子商務(wù)階段等四個(gè)階段。
數(shù)據(jù)挖掘常用的方法有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)方法、Web 數(shù)據(jù)挖掘等。這些方法可以從不同的角度對數(shù)據(jù)進(jìn)行挖掘。
1.1 數(shù)據(jù)挖掘的特點(diǎn)
數(shù)據(jù)挖掘技術(shù)主要有以下幾個(gè)特點(diǎn):
1)基于大量數(shù)據(jù)。小數(shù)據(jù)量當(dāng)然也可以挖掘,而且很多數(shù)據(jù)挖掘的算法也能夠運(yùn)行在小數(shù)量上并得到結(jié)果。其實(shí),過小的數(shù)據(jù)量人工分析就能總結(jié)出潛在的規(guī)律,而且小數(shù)據(jù)量對真實(shí)世界的特性也反映不出來。
2)隱含性。數(shù)據(jù)挖掘得到的結(jié)果不是數(shù)據(jù)表面上的,一眼能看出來的信息,而是深藏在數(shù)據(jù)內(nèi)部及數(shù)據(jù)之間的信息。
3)價(jià)值性。數(shù)據(jù)挖掘得到的結(jié)果能夠給挖掘者直接或間接地帶來經(jīng)濟(jì)或社會(huì)效益。大量成功的挖掘案例證明,數(shù)據(jù)挖掘技術(shù)是提升效益的一大法寶。
4)新奇性。挖掘出來的知識(shí)是前所未知的,只有全新知識(shí),才可以幫助挖掘者獲得新的洞察力,否則只是對現(xiàn)有經(jīng)驗(yàn)知識(shí)的一個(gè)驗(yàn)證。
2 中職學(xué)校管理工作數(shù)據(jù)
2.1 數(shù)據(jù)來源
中職學(xué)校日常管理工作中會(huì)產(chǎn)生大量的數(shù)據(jù),主要包括:學(xué)生基本信息數(shù)據(jù)之姓名、性別、身份證號、家庭住址、聯(lián)系電話;學(xué)生家庭數(shù)據(jù)的父母姓名、職業(yè)、年齡、收入水平、人口、兄弟姐妹人數(shù)、是否單親、是否貧困、資助需求;學(xué)生校園生活數(shù)據(jù)之住宿房號、水電費(fèi)、食堂消費(fèi);學(xué)生校園學(xué)習(xí)數(shù)據(jù)之在讀專業(yè)、選修課程、成績、出勤情況、對任課教師評價(jià)、實(shí)習(xí)、獎(jiǎng)學(xué)金情況等;學(xué)生就業(yè)數(shù)據(jù)之實(shí)習(xí)公司、就業(yè)單位、崗位、行業(yè)、薪酬等;學(xué)生校園活動(dòng)數(shù)據(jù)之校運(yùn)會(huì)、文娛演出、社團(tuán)、團(tuán)組織活動(dòng)、學(xué)生會(huì)團(tuán)委任職。教師人事信息之基礎(chǔ)人事數(shù)據(jù)、工資、出勤、科研、培訓(xùn)、考核等數(shù)據(jù),學(xué)校教務(wù)活動(dòng)中各種師資、課室、實(shí)驗(yàn)室、儀器等教學(xué)資源分配安排等數(shù)據(jù),財(cái)務(wù)數(shù)據(jù)之項(xiàng)目資金、學(xué)費(fèi)、住宿費(fèi)、水電費(fèi)、保險(xiǎn)費(fèi)、課本費(fèi)等收支數(shù)據(jù)。
2.2 中職學(xué)校管理數(shù)據(jù)挖掘的意義
當(dāng)前中職學(xué)校管理工作中產(chǎn)生的大量數(shù)據(jù),存儲(chǔ)在各種業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中,為著某些管理工作服務(wù),但是并沒有得到充分利用。對這些大批量的數(shù)據(jù),進(jìn)行有效的挖掘,可以提取一些非常有用的信息,可以幫助指導(dǎo)學(xué)校制定、優(yōu)化人才培養(yǎng)體系、招生計(jì)劃、師資建設(shè)、完善后勤服務(wù)體系、為專業(yè)設(shè)置、課程建設(shè)、校園文化建設(shè)、人才培養(yǎng)等工作,具有重要的指導(dǎo)意義。
1)在學(xué)生資助工作中,分析受資助對象的生源地、修讀專業(yè)類型、年齡、家庭結(jié)構(gòu)、經(jīng)濟(jì)狀況等數(shù)據(jù),充分掌握受資助學(xué)生各種結(jié)構(gòu)性關(guān)系,合理分配資助名額,協(xié)調(diào)開展資助工作。
2)在學(xué)校教學(xué)資源網(wǎng)站上,通過學(xué)生訪問課程教學(xué)視頻、微課的播放、下載、停頓等,分析學(xué)生學(xué)習(xí)的興趣點(diǎn)、難點(diǎn),促進(jìn)教學(xué)改革,優(yōu)化調(diào)整課程開設(shè)情況。
3)對師資數(shù)據(jù)進(jìn)行挖掘分析,探索教師的性別、年齡、專業(yè)、職稱、專長、獎(jiǎng)勵(lì)、科研、繼續(xù)教育、進(jìn)修提高、學(xué)生評教等情況,幫助合理引進(jìn)師資、優(yōu)化師資隊(duì)伍。
4)在學(xué)校招生工作中,收集招生網(wǎng)站訪問者注冊登記、專業(yè)咨詢、網(wǎng)上報(bào)名、實(shí)際繳費(fèi)等數(shù)據(jù)情況,挖掘分析出學(xué)生對學(xué)校聲譽(yù)、師資、校園、專業(yè)、學(xué)費(fèi)、就業(yè)等情況的關(guān)注,有效調(diào)整招生宣傳,突出重點(diǎn),提高吸引力。分析往年招生錄取情況,挖掘各出生源地招生情況、生源質(zhì)量、家庭條件及資助情況,有利于招生工作力量的合理分配。
5)通過財(cái)務(wù)系統(tǒng)數(shù)據(jù),及時(shí)發(fā)現(xiàn)學(xué)生拖欠學(xué)雜費(fèi)用,及時(shí)控制各項(xiàng)目資金使用情況,加強(qiáng)對學(xué)校財(cái)務(wù)風(fēng)險(xiǎn)監(jiān)控。
6)通過校園一卡通數(shù)據(jù),分析出學(xué)生在校期間,在飯?zhí)?、商店消費(fèi)情況,發(fā)現(xiàn)學(xué)生家庭經(jīng)濟(jì)收入水平與實(shí)際消費(fèi)情況是否一致,發(fā)現(xiàn)學(xué)生對飯?zhí)貌藘r(jià)、菜式的接受程度,有效提高后勤服務(wù)水平。
7)在學(xué)生日常校園管理工作中,分析學(xué)生出勤、出操、文體活動(dòng)、社團(tuán)活動(dòng)、違紀(jì)記錄等日常操行情況,對改進(jìn)學(xué)生管理工作方法手段、優(yōu)化調(diào)整第二課堂開設(shè)等問題提供重要信息。
8)通過圖書館圖書借閱情況,來分析學(xué)生對專業(yè)課程的關(guān)注程度,對那些非專業(yè)知識(shí)的興趣度,有利于圖書館優(yōu)化圖書采購計(jì)劃,選擇專題活動(dòng)方向。
3 中職學(xué)校管理數(shù)據(jù)挖掘應(yīng)用實(shí)例
3.1 確定挖掘?qū)ο?/p>
我們可以從學(xué)籍系統(tǒng)、資助系統(tǒng)、教學(xué)系統(tǒng)等業(yè)務(wù)系統(tǒng)中來提取學(xué)生學(xué)籍基礎(chǔ)數(shù)據(jù)、校園生活、專業(yè)學(xué)習(xí)數(shù)據(jù)、校園活動(dòng)數(shù)據(jù)、就業(yè)數(shù)據(jù)、設(shè)計(jì)一個(gè)挖掘系統(tǒng),來挖掘數(shù)據(jù)之間的內(nèi)在聯(lián)系。本文案例在中職學(xué)校日常管理工作中的眾多數(shù)據(jù)中,選擇學(xué)生資助工作這個(gè)主題作為挖掘?qū)ο螅M麖拇罅抠Y助數(shù)據(jù)中挖掘出一些有用的信息,指導(dǎo)將來的學(xué)生資助工作。
3.2 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘成功與否的一項(xiàng)重要的基礎(chǔ)工作,我們得到的數(shù)據(jù)往往可能具有不完整、含噪聲和不一致等問題,這就需要對數(shù)據(jù)作預(yù)處理。
3.3 數(shù)據(jù)預(yù)處理
1)數(shù)據(jù)采集。數(shù)據(jù)可以來自現(xiàn)有的各種管理信息系統(tǒng),比如學(xué)籍系統(tǒng)、教務(wù)系統(tǒng)、資助系統(tǒng)等,提取所需相關(guān)的最原始數(shù)據(jù),并做一定的整合處理。
2)數(shù)據(jù)清洗。將數(shù)據(jù)庫中重復(fù)的記錄進(jìn)行刪除,只保留一條記錄,避免重復(fù)。如學(xué)生退學(xué)了,該記錄就要從學(xué)生表中刪除。對于數(shù)據(jù)不準(zhǔn)確不一致的,人工可以進(jìn)行糾正清理,如班級名稱不一致,電子商務(wù)1801班和電商1801其實(shí)是同一個(gè)班級,需要人工手動(dòng)統(tǒng)一名稱。
3)數(shù)據(jù)集成。數(shù)據(jù)可能來自多張表,需要通過一個(gè)關(guān)鍵字將多表連接成一張新表。例如在校學(xué)生都使用學(xué)號作為唯一身份標(biāo)識(shí),通過學(xué)號將學(xué)生的其他屬性合并成一張表,包括學(xué)號、姓名、性別、身份證號碼、是否困難家庭、銀行卡賬號等等信息。
4)數(shù)據(jù)轉(zhuǎn)換。將數(shù)據(jù)集合轉(zhuǎn)換成另一個(gè)描述形式,以便適合開展挖掘。在本實(shí)例中,對數(shù)據(jù)進(jìn)行泛化處理,將生源地地市為汕頭、汕尾、揭陽、潮州標(biāo)記為粵東,將生源地為茂名、云浮、湛江、陽江標(biāo)記為粵西,將清遠(yuǎn)、韶關(guān)、云浮、梅州、河源標(biāo)記為粵北,將廣州、佛山、珠海、中山、肇慶、江門、深圳、惠州等地標(biāo)記為珠三角,將湖南、廣西、江西等非廣東籍生源標(biāo)記為外省。
5)數(shù)據(jù)降維。數(shù)據(jù)基礎(chǔ)屬性繁多,只有一部分才是我們挖掘目的所關(guān)注的,其他無關(guān)的屬性可以刪除不用,這種相關(guān)性分析即為降維。降維的目的是通過降低挖掘?qū)ο笠?guī)模來降低挖掘工作的復(fù)雜度,其前提要保證最終挖掘結(jié)果不受影響。比如,學(xué)生姓名、電話號碼等屬性對結(jié)果不會(huì)有任何影響,可以直接從表中剔除。
3.4 模型構(gòu)建及挖掘
3.4.1 數(shù)據(jù)模型構(gòu)建
本實(shí)例采用星型模式來設(shè)計(jì)數(shù)據(jù)立方體,包括一個(gè)大的包含大量數(shù)據(jù)和冗余度極低的事實(shí)表,還有一系列小的維表,每維一個(gè),存儲(chǔ)各立方體的具體信息。本案例的學(xué)生資助明細(xì)表和各個(gè)維表的結(jié)構(gòu)如圖1所示。
3.4.2 關(guān)聯(lián)規(guī)則挖掘
本實(shí)例采用Apriori算法來挖掘關(guān)聯(lián)規(guī)則。該算法是一種關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集挖掘算法,核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個(gè)階段來挖掘頻繁項(xiàng)集。本實(shí)例針對學(xué)生國家助學(xué)金管理數(shù)據(jù)進(jìn)行挖掘,挖掘出來的關(guān)聯(lián)規(guī)則可以有效地指導(dǎo)學(xué)校管理部門有針對性的開展貧困助學(xué)工作。
Apriori算法偽代碼如下:
輸入:數(shù)據(jù)立方體D[A1,A2,...,An];最小支持度閾值sup_min
輸出:頻繁項(xiàng)集L
Count_min=totalcount*sup_min;
L1=find_frequent_1-itemsets(D,count_min);
//通過OLAP引擎得到滿足count_min的頻繁一項(xiàng)集
For (k=2;Lk-1≠?;k++){
Ck=apriori_gen(Lk-1,); ?//Lk-1經(jīng)自連接得到候選集Ck
For each I=(i1,i2,...,ik)∈Ck {
I.count=count_gen(I,D); ?//對每個(gè)候選集,通過OLAP引擎獲取記數(shù)
If I.count >=count_min
Lk=Lk∪I;
}
}
Return L=UkLk
經(jīng)過多次試驗(yàn),盡量做到既保證不會(huì)產(chǎn)生大量無用規(guī)則,也不會(huì)漏掉重要規(guī)則,最終設(shè)置最小支持度為15%,最小置信度為30%,得到部分關(guān)聯(lián)規(guī)則如表1和表2所示:
3.4.3 挖掘結(jié)果分析
由挖掘結(jié)果表1來看,生源地是粵東的學(xué)生,農(nóng)村以及縣鎮(zhèn)非農(nóng)的學(xué)生獲得資助資格的數(shù)量很大。在很多人的印象中,粵東地區(qū)經(jīng)濟(jì)發(fā)展水平明顯高于粵西,因此粵東地區(qū)困難家庭應(yīng)該比粵西少。這跟大家的直觀印象恰恰相反,一方面粵東地區(qū)經(jīng)濟(jì)收入較低的家庭依然很多,另一方面,筆者所在學(xué)校的粵東生源也多于粵西。因此,這給我們的資助工作帶來了重要的情報(bào),資助名額要適當(dāng)?shù)囟嗫紤]粵東生源。同時(shí),也引導(dǎo)招生工作者在粵東招生宣傳時(shí)要更多地突出國家助學(xué)金的利好政策,有助于在粵東招錄更多的生源。
由表2來看,外省生源獲得資助并非因?yàn)檫x擇涉農(nóng)專業(yè),則說明家庭困難的很多;外省生源因讀涉農(nóng)專業(yè)而受資助沒有出現(xiàn)在挖掘結(jié)果的強(qiáng)規(guī)則中,則是因?yàn)檫_(dá)不到15%的支持度,則說明外省生源對學(xué)校開設(shè)的涉農(nóng)專業(yè)興趣不大,在面向外省招生宣傳時(shí)要注意多突出非涉農(nóng)專業(yè)。同時(shí),粵東粵西生源量大,能獲國家助學(xué)金的并不多,對涉農(nóng)專業(yè)興趣不大。
4 結(jié)束語
存儲(chǔ)著海量數(shù)據(jù)的數(shù)據(jù)倉庫就是一座龐大的“信息金礦”,科學(xué)使用數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘探索,可以獲取得到更多有趣、有用的信息。在以我們中職教育為代表的教育管理工作中積累起來的數(shù)據(jù)礦藏中包含著各種豐富的數(shù)據(jù),合理地挖掘開發(fā)出來,在學(xué)校工作中的招生、教學(xué)、科研、就業(yè)、日常管理、后勤服務(wù)等教書育人活動(dòng)中都可以發(fā)揮出重要作用,有效提升管理水平和科學(xué)決策能力,這應(yīng)該是一個(gè)值得我們繼續(xù)努力的方向!
參考文獻(xiàn):
[1] 張晶. 數(shù)據(jù)挖掘技術(shù)在藝術(shù)院校計(jì)算機(jī)能力考核成績分析中的應(yīng)用研究[J]. 電腦知識(shí)與技術(shù), 2017(7): 197-199.
[2] 郭琪瑤. 數(shù)據(jù)挖掘技術(shù)在職業(yè)學(xué)校德育管理中的應(yīng)用[J]. 電腦知識(shí)與技術(shù), 2010, 9(26): 7303-7305.
[3] 謝琦, 張振興. 基于Apriori算法和OLAP的關(guān)聯(lián)規(guī)則挖掘模型設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用, 2007(6): 4-5
[4] 殷文俊. 數(shù)據(jù)挖掘在高職計(jì)算機(jī)一級考試成績中的分析研究[J]. 福建電腦, 2017(1): 50-51.
【通聯(lián)編輯:謝媛媛】