李平榮
?
Apriori算法在義務(wù)教育流失兒童信息監(jiān)測中的應(yīng)用
李平榮
(隴南師范高等??茖W(xué)校,甘肅成縣 742500)
文章利用數(shù)據(jù)挖掘關(guān)聯(lián)分析Apriori算法對流失兒童數(shù)據(jù)挖掘做了技術(shù)分析,利用關(guān)聯(lián)分析Apriori算法對樣本數(shù)據(jù)做了數(shù)據(jù)挖掘,并得出了流失兒童與地域、民族、貧困等相關(guān)因素的相關(guān)關(guān)聯(lián)及聯(lián)系,為教育督導(dǎo)部門的教育決策提供了科學(xué)的數(shù)據(jù)依據(jù).
Apriori算法;義務(wù)教育;教育督導(dǎo);數(shù)據(jù)挖掘;流失兒童
九年制義務(wù)教育是國家強(qiáng)制執(zhí)行,適齡兒童必須接受的,由國家、社會、家庭予以保證的基本國民教育[1].義務(wù)教育具有免費(fèi)性、強(qiáng)制性、普及性特點.《義務(wù)教育法》規(guī)定,適齡兒童必須接受義務(wù)教育,不能以任何理由拒絕,做到“一個都不能少”,國家的各級行政部門必須監(jiān)督,保障義務(wù)教育的正常進(jìn)行[2].但由于某些原因,部分少年兒童沒有接受九年義務(wù)教育.國家以及各級督導(dǎo)部門應(yīng)監(jiān)測統(tǒng)計流失兒童信息,并找出兒童流失問題的根源,然后進(jìn)行相關(guān)的行政干預(yù).
數(shù)據(jù)挖掘關(guān)聯(lián)分析算法就是利用數(shù)據(jù)間隱藏的某種關(guān)聯(lián)來得出相關(guān)的令人感興趣的結(jié)論,本文利用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析Apriori算法對流失兒童的信息進(jìn)行了挖掘分析,找出造成兒童流失的原因,為政府相關(guān)部門的決策提供理論依據(jù).
1 流失兒童監(jiān)測的概念
義務(wù)教育具有強(qiáng)制性,《義務(wù)教育法》規(guī)定適齡兒童必須接受義務(wù)教育,但是由于種種原因,適齡入學(xué)兒童依然有流失的現(xiàn)象[3],如家庭經(jīng)濟(jì)困難、身體殘疾、家庭觀念及學(xué)生個人因素等.義務(wù)教育兒童流失情況包括:
1)輟學(xué)有回執(zhí)的:這是一種明確的流失情況,知道學(xué)生已經(jīng)退學(xué),這也是重點數(shù)據(jù)挖掘的對象,通過數(shù)據(jù)挖掘找出其中的緣由.
2)注冊但不在學(xué)校:指學(xué)生在學(xué)校已經(jīng)注冊,但沒有到校上學(xué),也沒有說明情況,這種情況存在流失的可能.
3)到了上學(xué)年齡但沒有上學(xué):指已經(jīng)到了上學(xué)年齡,但沒有到校上學(xué),存在流失可能,按流失計算,屬于數(shù)據(jù)挖掘?qū)ο螅?/p>
4)死亡等其它原因:由死亡等意外因素引起的流失,這種情況屬于正常流失,一般情況下是無法控制或不好控制的,這種現(xiàn)象不屬于數(shù)據(jù)挖掘?qū)ο螅?/p>
本項目設(shè)計了流失學(xué)生監(jiān)測模塊,通過每學(xué)期的注冊數(shù)據(jù)來獲取學(xué)生是否流失的信息.
2 義務(wù)教育流失兒童數(shù)據(jù)挖掘的意義
教育督導(dǎo)部門必須對流失學(xué)生做跟蹤,然后進(jìn)行行政干預(yù),勸回學(xué)習(xí).但簡單的行政手段并不能長久解決問題,也不是一個長期有效的方法.而通過義務(wù)教育監(jiān)測項目,教育督導(dǎo)部門就可找出流失學(xué)生的真正原因,即學(xué)生流失與家庭,經(jīng)濟(jì),民族,社會等方面的聯(lián)系,找出問題的根源,為將來教育資源的配置、行政政策的制定及教育管理的調(diào)控提供科學(xué)依據(jù).
3 義務(wù)教育流失兒童數(shù)據(jù)挖掘過程
流失學(xué)生監(jiān)測最核心的任務(wù)就是找出流失兒童失學(xué)的原因及影響因素.關(guān)聯(lián)分析可以利用事物之間存在的依賴或關(guān)聯(lián)知識來發(fā)現(xiàn)事物之間存在的規(guī)律性,通過關(guān)聯(lián)分析方法可以找出義務(wù)教育流失學(xué)生的相關(guān)因素.在本項目中對流失學(xué)生的分析選擇了關(guān)聯(lián)分析Apriori算法[4][5].Apriori算法的基本思想就是采用迭代逐層搜索的方法,通過對數(shù)據(jù)庫多次掃描,使用候選項集來尋找頻繁項集.基本算法是:首先根據(jù)設(shè)定的最小支持度閾值,找到所有頻繁1-項集的集合Ll,再用L1生成頻繁2-項集的集合L2,同理再用L2尋找L3,如此反復(fù),直到不能找出頻繁k-項集.在每次篩選中將小于最小支持度的候選項集刪除,再進(jìn)行下一次的合并生成該層的頻繁項集[6].義務(wù)教育流失兒童數(shù)據(jù)挖掘流程如圖1所示.
圖1 義務(wù)教育流失學(xué)生數(shù)據(jù)挖掘流程
3.1 數(shù)據(jù)選擇
義務(wù)教育監(jiān)測數(shù)據(jù)庫使用SQL Server進(jìn)行管理,在數(shù)據(jù)庫中主要有三個基本數(shù)據(jù)表:學(xué)生基本信息表,學(xué)生家庭信息表,學(xué)生注冊信息表.學(xué)生基本信息表主要記錄學(xué)生的基本信息,如出生日期、性別、民族、戶籍類別、健康狀況、照顧類別等;學(xué)生家庭信息表主要記錄家庭人口、家庭地址、經(jīng)濟(jì)狀況、父母信息等;學(xué)生注冊信息表主要為學(xué)生的上學(xué)信息,包括所在學(xué)校、班級、寄宿信息、“兩免一補(bǔ)”情況等.另外,通過義務(wù)教育流失檢測后生成一個流失學(xué)生信息表,主要記錄流失學(xué)生的基本信息.通過流失學(xué)生信息表與三個基本表相連接,可生成流失學(xué)生詳細(xì)信息表.根據(jù)流失學(xué)生數(shù)據(jù)挖掘的基本情況,提取可能因素,組成數(shù)據(jù)挖掘庫,字段如表1所示.通過數(shù)據(jù)選擇將形成新的數(shù)據(jù)挖掘數(shù)據(jù)表.
表1 義務(wù)教育流失數(shù)據(jù)挖掘表
3.2 數(shù)據(jù)清理
由于原始數(shù)據(jù)庫存在噪聲、數(shù)據(jù)冗余、空缺等問題,所以要對數(shù)據(jù)進(jìn)行清理,主要有以下兩種情況.
1)對于空缺值較多的記錄進(jìn)行刪除.空缺值較多時,數(shù)據(jù)沒有太大的現(xiàn)實意義.
2)對于第4種流失學(xué)生進(jìn)行清除,即由于死亡等意外原因流失的學(xué)生,這種流失屬于正常流失,對于數(shù)據(jù)挖掘沒有多大意義,反而影響數(shù)據(jù)挖掘的有效性.
圖2 數(shù)據(jù)轉(zhuǎn)化過程圖
3.3 數(shù)據(jù)轉(zhuǎn)換
將流失兒童信息表與學(xué)生基本信息表、學(xué)生家庭信息表和學(xué)生注冊信息表相連接,形成流失學(xué)生詳細(xì)信息表,然后抽取數(shù)據(jù)挖掘相關(guān)字段形成流失學(xué)生挖掘數(shù)據(jù)表.通過流失學(xué)生挖掘數(shù)據(jù)表,挖掘?qū)W生流失情況.?dāng)?shù)據(jù)轉(zhuǎn)化過程如圖2.通過轉(zhuǎn)化后的流失學(xué)生挖掘信息表(WJ_liushiqk)如表2.
表2 轉(zhuǎn)換后的流失學(xué)生信息表
3.4 數(shù)據(jù)概化
由于Apriori算法是布爾型的關(guān)聯(lián)規(guī)則算法,所以必須要將各種信息離散化,如果滿足條件則為1(TRUE),不滿足條件則為0(FALSE)[7].不同因素的編碼如表3所示.
表3 字段編碼規(guī)則含義表
轉(zhuǎn)換后的數(shù)據(jù)編碼表如表4所示.
表4 轉(zhuǎn)換后的數(shù)據(jù)挖掘表
3.5 數(shù)據(jù)挖掘
表2數(shù)據(jù)為實際數(shù)據(jù)的一部分,在實際挖掘中,選取涉及29個縣的數(shù)據(jù)進(jìn)行了數(shù)據(jù)挖掘.
最小支持度閾值選擇:最小支持度閾值的選擇直接決定發(fā)現(xiàn)包含項目的規(guī)則,如果支持度設(shè)置得太高,就不能發(fā)現(xiàn)包含稀有項目的規(guī)則,這些稀有項目可能帶來更大的價值.但如果設(shè)得很低,就會導(dǎo)致組合爆炸.可能產(chǎn)生很多沒有意義的規(guī)則.當(dāng)然也可以選擇最小支持度下的關(guān)聯(lián)規(guī)則研究[8].根據(jù)本項目實際情況,多次進(jìn)行數(shù)據(jù)挖掘分析測試,在最小支持度閾值為40%時最為適合.所以最小支持度選擇為40%(即不大于40%項目將被剪枝).
Apriori算法過程:通過數(shù)據(jù)庫取得的第一階段的數(shù)據(jù),設(shè)置最小支持度閾值為40%.
第1次數(shù)據(jù)挖掘找符合條件進(jìn)入下一階段的頻繁集.第1次數(shù)據(jù)挖掘頻繁集如表5所示.
d,f不符合最低支持度閾值40%要求,因此進(jìn)行裁剪.挖掘過程省略.
總結(jié)有意義的數(shù)據(jù)挖掘因素.最終選取數(shù)據(jù)挖掘表如表6所示.
3.6 數(shù)據(jù)分析
根據(jù)上表挖掘數(shù)據(jù),分析結(jié)果如下.
1)96%的為農(nóng)村戶口,說明幾乎所有流失兒童主要集中在農(nóng)村地區(qū),加強(qiáng)農(nóng)村地區(qū)教育管理是非常迫切的.
2)91%的所在縣為貧困縣,說明流失兒童主要集中在國家級貧困縣.
3)72%的流失兒童為貧困縣農(nóng)村的貧困家庭,流失兒童的大部分是農(nóng)村的貧困家庭.
4)貧困縣農(nóng)村少數(shù)民族貧困家庭的流失兒童為37%.
5)流失兒童中25%的為“留守兒童”及“務(wù)工子女”,說明“留守兒童”不是流失兒童的主要因素.這個統(tǒng)計結(jié)果出乎我們的意料.“留守兒童”和“務(wù)工子女”并不是兒童流失的主要群體,這可能與農(nóng)民工的背景有很大的關(guān)系,他們期望子女受到更多的教育,或許有更多其它因素,這需要我們進(jìn)一步進(jìn)行調(diào)查研究.
6)殘疾兒童占流失兒童的1%.殘疾兒童不是兒童流失的主要原因.
綜上所述,流失兒童主要集中在貧困的農(nóng)村地區(qū),特別是貧困家庭,達(dá)到了72%,在今后的教育資源配置及項目扶持上,最好偏向貧困家庭,這樣有利于義務(wù)教育的實施.另外,還要加強(qiáng)少數(shù)民族地區(qū)的教育,甘肅是一個少數(shù)民族雜居的地區(qū),少數(shù)民族地區(qū)的人口占總?cè)丝诘谋壤容^大,加強(qiáng)少數(shù)民族地區(qū)的教育是全省教育水平提高的基礎(chǔ).
4 總 結(jié)
通過Apriori算法對流失兒童信息做了數(shù)據(jù)挖掘,找出了構(gòu)成少年兒童流失的主要因素.相關(guān)數(shù)據(jù)可為今后的教育督導(dǎo)工作提供科學(xué)的數(shù)據(jù)依據(jù).
[1] 國務(wù)院.中華人民共和國義務(wù)教育法.1986.
[2] 仲福林.農(nóng)村義務(wù)教育與“一個都不能少”[J].蘭州教育學(xué)院學(xué)報,2005(12):1-3.
[3] 馮雪紅.寧夏回族女童教育現(xiàn)狀分析及對策研究[J].福建師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2005(11):1-3.
[4] 劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計算機(jī)應(yīng)用與軟件,2009(5):1-2.
[5] 曲春錦.Aproiri一TIDS算法設(shè)計及其在教育決策信息挖掘中的應(yīng)用[D].上海:上海海事大學(xué),2005:30-50.
[6] 王偉.關(guān)聯(lián)規(guī)則中的Apriori算法的研究與改進(jìn)[D].青島:中國海洋大學(xué),2012:4-20.
[7] 黎剛.面向?qū)傩詺w納的數(shù)據(jù)概化方法的應(yīng)用研究[D].沈陽:東北大學(xué),2004:4-22.
[8] 王瑄.多最小支持度下的關(guān)聯(lián)規(guī)則研究[D].長春:長春理工大學(xué),2008:13-20.
(責(zé)任編輯:張新玲)
The Application of Apriori Algorithm in Churn Information Mentoring of Compulsory Education Children
LI Pingrong
()
The paper analyzes children churn data mining with Apriori algorithem. It concludes that children churn is correlated with complex relevant factors, such as region, nationality and poverty. It provides the educational supervision bureaus with scientific data, in order to make appropriate educational decision.
Apriori algorithm; compulsory education; educational supervision; data mining; children churn
TP311
A
1009-8135(2016)03-0047-04
2015-10-12
李平榮(1979-),男,甘肅天水人,隴南師范高等??茖W(xué)校講師,碩士,主要研究計算機(jī)硬件教學(xué).
甘肅省教育廳2011年甘肅省研究生導(dǎo)師科研項目“甘肅省義務(wù)教育監(jiān)測與評價工程軟件系統(tǒng)的研究與開發(fā)”(甘教技[2011]44號)階段性成果