陳璐宇
摘要:隨著高校招生系統(tǒng)的廣泛使用,系統(tǒng)中積累近年來大量的生源信息和招生信息,如何使得這些看似垃圾的數(shù)據(jù)成為對高校招生決策的重要信息,該文應(yīng)用數(shù)據(jù)挖掘技術(shù)中管理規(guī)則的Apriori算法,以招生系統(tǒng)中的信息為研究對象,挖掘影響學生報到的內(nèi)在因素,發(fā)現(xiàn)與報到率關(guān)聯(lián)的有用信息,從而降低招生宣傳的成本,為高校的招生決策者提供指導和有效的數(shù)據(jù)支持。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;招生決策;應(yīng)用分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)12-2702-02
1 概述
自教育部提出高等教育要從精英式教育轉(zhuǎn)向大眾教育以來,高等學校都在擴大辦學規(guī)模,招生規(guī)模也呈不斷上升的趨勢,但近幾年生源量卻在逐年減少,很多學校的很多專業(yè)的報到率逐漸降低,這使得院校之間出現(xiàn)了前所未有的生源競爭。很多高校都在做盲目的招生宣傳,這種無的放矢的做法不但浪費資源還不見成效。我們可以利用數(shù)據(jù)挖掘算法中的關(guān)聯(lián)規(guī)則從近幾年招生系統(tǒng)中的歷史數(shù)據(jù)中挖掘出有用的信息,給高校決策者在招生宣傳和錄取工作中提供良好的決策依據(jù)。
2 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘技術(shù)是隨著信息技術(shù)的廣泛使用的產(chǎn)物,信息技術(shù)中產(chǎn)生的數(shù)據(jù)雖多信息卻很匱乏,如何從大量的數(shù)據(jù)中歸納總結(jié)提取出有效的信息就是數(shù)據(jù)挖掘技術(shù)的任務(wù)。數(shù)據(jù)挖掘(Data Mining),常被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database—KDD)。是指從海量的、隨機的、有噪聲的大型數(shù)據(jù)中提取隱涵的、事先未知的、具有一定價值意義的知識的過程[1]。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種挖掘信息的技術(shù),是從海量的數(shù)據(jù)中區(qū)找到項與項之間有用的關(guān)聯(lián)關(guān)系[1]。最早始于對購物籃的分析,通過對顧客的交易信息進行挖掘分析,找出顧客經(jīng)常一起買的商品有哪些。
關(guān)聯(lián)規(guī)則有數(shù)據(jù)項I={i1,i2,…,ix},數(shù)據(jù)項集A[?]I,事務(wù)T=(TID,A),TID是唯一標識一個事務(wù)的事務(wù)號。假設(shè)事務(wù)T中有數(shù)據(jù)項集M、N,且M[?]T。關(guān)聯(lián)規(guī)則就可以表示為形如M[?]N的蘊涵式。
Apriori算法是關(guān)聯(lián)規(guī)則中應(yīng)用最廣泛的一種方法,是基于關(guān)聯(lián)規(guī)則的基礎(chǔ),首先找到頻繁集,再由頻繁集推出關(guān)聯(lián)的規(guī)則。它采用的搜索策略是廣度優(yōu)先,也就是先一層一層搜索,再用迭代的方法來對項集之間的關(guān)聯(lián)關(guān)系進行探索,也就是k-項集是被(k-1)-項集探索得到。
Apriori算法的基本過程分為兩大步:第一步,對數(shù)據(jù)庫進行依次掃描,第一次掃描,搜索頻繁1-項集Ll,即所有支持度數(shù)滿足最小支持度閾值的項集,掃描得到的候選1-項集記作C1。就這樣,依次搜索迭代,一直到不再有新的候選集產(chǎn)生為止,k次掃描后,得到的候選k-項集記作Ck。。第二步,修剪掉候選項集Ck中不頻繁的項集,得到頻繁項集Lk。第三步,由找到的頻繁項集中推出關(guān)聯(lián)的規(guī)則。
3 學生報到信息的關(guān)聯(lián)規(guī)則分析
根據(jù)關(guān)聯(lián)規(guī)則,可以將學生報到的數(shù)據(jù)設(shè)置為這樣的項目集:I={生源種類,生源地地區(qū),成績分數(shù)段,錄取專業(yè)是否如意,是否報到}。其中,生源種類為:城市應(yīng)屆,城市往屆,農(nóng)村應(yīng)屆,農(nóng)村往屆;生源地地區(qū)分為:東部沿海發(fā)達地區(qū),中部發(fā)展地區(qū),西部欠發(fā)達地區(qū);成績分數(shù)段分為五段,用羅馬數(shù)字表示各項目的分類:Ⅰ、重點線上10-30分,Ⅱ、重點線上30-50分,Ⅲ、重點線上50-70分,Ⅳ、重點線上70-90分,Ⅴ、重點線上90分以上。事務(wù)T是是項目集I的一個子集,T[?]I,考生號用來區(qū)分每個事務(wù)。每次掃描得到的頻繁項集用Lk表示。報到與否是要分析的屬性。
選取近兩年學生錄取情況和報到情況作為分析樣本,事務(wù)數(shù)180000條。第一次掃描樣本數(shù)據(jù),得到頻繁1-項集Ll,如下表。由于“報到”是我們要分析的目標,所以我們只分析關(guān)于報到的頻繁集,為了便于求得信任度,在支出數(shù)的后面添加了條件數(shù)。18000的樣本事務(wù)中,報到人數(shù)為17248,報到率為95.82%。所以分析時,Ll的最小支持度設(shè)為97%。
連接Ll得到C2,掃描C2項目集,由于本樣本數(shù)據(jù)不是很多,不進行剪枝,將所有數(shù)據(jù)聯(lián)接得到L2,設(shè)L2的最小支持度為96%下表為滿足最小支持的幾項。
上圖所示的項集都是通過L2可以推出的規(guī)則。
聯(lián)接L2后得到C3,掃描C3得到L3。設(shè)L3的最小支持度為96%下表為滿足最小支持的幾項。
4 結(jié)束語
本文通過對高校招生錄取數(shù)據(jù)庫的分析,利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則,選取招生錄取數(shù)據(jù)庫中的歷史信息作為樣本進行分析,找到了新生入學報到與生源種類、生源所在地區(qū)、考生成績和對專業(yè)的滿意與否的關(guān)系。這有助于學校對招生計劃、專業(yè)設(shè)置以及招生宣傳的定位與改進,為學校的招生工作提供決策依據(jù),減少招生成本,提高學生報到率。endprint
摘要:隨著高校招生系統(tǒng)的廣泛使用,系統(tǒng)中積累近年來大量的生源信息和招生信息,如何使得這些看似垃圾的數(shù)據(jù)成為對高校招生決策的重要信息,該文應(yīng)用數(shù)據(jù)挖掘技術(shù)中管理規(guī)則的Apriori算法,以招生系統(tǒng)中的信息為研究對象,挖掘影響學生報到的內(nèi)在因素,發(fā)現(xiàn)與報到率關(guān)聯(lián)的有用信息,從而降低招生宣傳的成本,為高校的招生決策者提供指導和有效的數(shù)據(jù)支持。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;招生決策;應(yīng)用分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)12-2702-02
1 概述
自教育部提出高等教育要從精英式教育轉(zhuǎn)向大眾教育以來,高等學校都在擴大辦學規(guī)模,招生規(guī)模也呈不斷上升的趨勢,但近幾年生源量卻在逐年減少,很多學校的很多專業(yè)的報到率逐漸降低,這使得院校之間出現(xiàn)了前所未有的生源競爭。很多高校都在做盲目的招生宣傳,這種無的放矢的做法不但浪費資源還不見成效。我們可以利用數(shù)據(jù)挖掘算法中的關(guān)聯(lián)規(guī)則從近幾年招生系統(tǒng)中的歷史數(shù)據(jù)中挖掘出有用的信息,給高校決策者在招生宣傳和錄取工作中提供良好的決策依據(jù)。
2 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘技術(shù)是隨著信息技術(shù)的廣泛使用的產(chǎn)物,信息技術(shù)中產(chǎn)生的數(shù)據(jù)雖多信息卻很匱乏,如何從大量的數(shù)據(jù)中歸納總結(jié)提取出有效的信息就是數(shù)據(jù)挖掘技術(shù)的任務(wù)。數(shù)據(jù)挖掘(Data Mining),常被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database—KDD)。是指從海量的、隨機的、有噪聲的大型數(shù)據(jù)中提取隱涵的、事先未知的、具有一定價值意義的知識的過程[1]。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種挖掘信息的技術(shù),是從海量的數(shù)據(jù)中區(qū)找到項與項之間有用的關(guān)聯(lián)關(guān)系[1]。最早始于對購物籃的分析,通過對顧客的交易信息進行挖掘分析,找出顧客經(jīng)常一起買的商品有哪些。
關(guān)聯(lián)規(guī)則有數(shù)據(jù)項I={i1,i2,…,ix},數(shù)據(jù)項集A[?]I,事務(wù)T=(TID,A),TID是唯一標識一個事務(wù)的事務(wù)號。假設(shè)事務(wù)T中有數(shù)據(jù)項集M、N,且M[?]T。關(guān)聯(lián)規(guī)則就可以表示為形如M[?]N的蘊涵式。
Apriori算法是關(guān)聯(lián)規(guī)則中應(yīng)用最廣泛的一種方法,是基于關(guān)聯(lián)規(guī)則的基礎(chǔ),首先找到頻繁集,再由頻繁集推出關(guān)聯(lián)的規(guī)則。它采用的搜索策略是廣度優(yōu)先,也就是先一層一層搜索,再用迭代的方法來對項集之間的關(guān)聯(lián)關(guān)系進行探索,也就是k-項集是被(k-1)-項集探索得到。
Apriori算法的基本過程分為兩大步:第一步,對數(shù)據(jù)庫進行依次掃描,第一次掃描,搜索頻繁1-項集Ll,即所有支持度數(shù)滿足最小支持度閾值的項集,掃描得到的候選1-項集記作C1。就這樣,依次搜索迭代,一直到不再有新的候選集產(chǎn)生為止,k次掃描后,得到的候選k-項集記作Ck。。第二步,修剪掉候選項集Ck中不頻繁的項集,得到頻繁項集Lk。第三步,由找到的頻繁項集中推出關(guān)聯(lián)的規(guī)則。
3 學生報到信息的關(guān)聯(lián)規(guī)則分析
根據(jù)關(guān)聯(lián)規(guī)則,可以將學生報到的數(shù)據(jù)設(shè)置為這樣的項目集:I={生源種類,生源地地區(qū),成績分數(shù)段,錄取專業(yè)是否如意,是否報到}。其中,生源種類為:城市應(yīng)屆,城市往屆,農(nóng)村應(yīng)屆,農(nóng)村往屆;生源地地區(qū)分為:東部沿海發(fā)達地區(qū),中部發(fā)展地區(qū),西部欠發(fā)達地區(qū);成績分數(shù)段分為五段,用羅馬數(shù)字表示各項目的分類:Ⅰ、重點線上10-30分,Ⅱ、重點線上30-50分,Ⅲ、重點線上50-70分,Ⅳ、重點線上70-90分,Ⅴ、重點線上90分以上。事務(wù)T是是項目集I的一個子集,T[?]I,考生號用來區(qū)分每個事務(wù)。每次掃描得到的頻繁項集用Lk表示。報到與否是要分析的屬性。
選取近兩年學生錄取情況和報到情況作為分析樣本,事務(wù)數(shù)180000條。第一次掃描樣本數(shù)據(jù),得到頻繁1-項集Ll,如下表。由于“報到”是我們要分析的目標,所以我們只分析關(guān)于報到的頻繁集,為了便于求得信任度,在支出數(shù)的后面添加了條件數(shù)。18000的樣本事務(wù)中,報到人數(shù)為17248,報到率為95.82%。所以分析時,Ll的最小支持度設(shè)為97%。
連接Ll得到C2,掃描C2項目集,由于本樣本數(shù)據(jù)不是很多,不進行剪枝,將所有數(shù)據(jù)聯(lián)接得到L2,設(shè)L2的最小支持度為96%下表為滿足最小支持的幾項。
上圖所示的項集都是通過L2可以推出的規(guī)則。
聯(lián)接L2后得到C3,掃描C3得到L3。設(shè)L3的最小支持度為96%下表為滿足最小支持的幾項。
4 結(jié)束語
本文通過對高校招生錄取數(shù)據(jù)庫的分析,利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則,選取招生錄取數(shù)據(jù)庫中的歷史信息作為樣本進行分析,找到了新生入學報到與生源種類、生源所在地區(qū)、考生成績和對專業(yè)的滿意與否的關(guān)系。這有助于學校對招生計劃、專業(yè)設(shè)置以及招生宣傳的定位與改進,為學校的招生工作提供決策依據(jù),減少招生成本,提高學生報到率。endprint
摘要:隨著高校招生系統(tǒng)的廣泛使用,系統(tǒng)中積累近年來大量的生源信息和招生信息,如何使得這些看似垃圾的數(shù)據(jù)成為對高校招生決策的重要信息,該文應(yīng)用數(shù)據(jù)挖掘技術(shù)中管理規(guī)則的Apriori算法,以招生系統(tǒng)中的信息為研究對象,挖掘影響學生報到的內(nèi)在因素,發(fā)現(xiàn)與報到率關(guān)聯(lián)的有用信息,從而降低招生宣傳的成本,為高校的招生決策者提供指導和有效的數(shù)據(jù)支持。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;招生決策;應(yīng)用分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)12-2702-02
1 概述
自教育部提出高等教育要從精英式教育轉(zhuǎn)向大眾教育以來,高等學校都在擴大辦學規(guī)模,招生規(guī)模也呈不斷上升的趨勢,但近幾年生源量卻在逐年減少,很多學校的很多專業(yè)的報到率逐漸降低,這使得院校之間出現(xiàn)了前所未有的生源競爭。很多高校都在做盲目的招生宣傳,這種無的放矢的做法不但浪費資源還不見成效。我們可以利用數(shù)據(jù)挖掘算法中的關(guān)聯(lián)規(guī)則從近幾年招生系統(tǒng)中的歷史數(shù)據(jù)中挖掘出有用的信息,給高校決策者在招生宣傳和錄取工作中提供良好的決策依據(jù)。
2 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘技術(shù)是隨著信息技術(shù)的廣泛使用的產(chǎn)物,信息技術(shù)中產(chǎn)生的數(shù)據(jù)雖多信息卻很匱乏,如何從大量的數(shù)據(jù)中歸納總結(jié)提取出有效的信息就是數(shù)據(jù)挖掘技術(shù)的任務(wù)。數(shù)據(jù)挖掘(Data Mining),常被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database—KDD)。是指從海量的、隨機的、有噪聲的大型數(shù)據(jù)中提取隱涵的、事先未知的、具有一定價值意義的知識的過程[1]。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的一種挖掘信息的技術(shù),是從海量的數(shù)據(jù)中區(qū)找到項與項之間有用的關(guān)聯(lián)關(guān)系[1]。最早始于對購物籃的分析,通過對顧客的交易信息進行挖掘分析,找出顧客經(jīng)常一起買的商品有哪些。
關(guān)聯(lián)規(guī)則有數(shù)據(jù)項I={i1,i2,…,ix},數(shù)據(jù)項集A[?]I,事務(wù)T=(TID,A),TID是唯一標識一個事務(wù)的事務(wù)號。假設(shè)事務(wù)T中有數(shù)據(jù)項集M、N,且M[?]T。關(guān)聯(lián)規(guī)則就可以表示為形如M[?]N的蘊涵式。
Apriori算法是關(guān)聯(lián)規(guī)則中應(yīng)用最廣泛的一種方法,是基于關(guān)聯(lián)規(guī)則的基礎(chǔ),首先找到頻繁集,再由頻繁集推出關(guān)聯(lián)的規(guī)則。它采用的搜索策略是廣度優(yōu)先,也就是先一層一層搜索,再用迭代的方法來對項集之間的關(guān)聯(lián)關(guān)系進行探索,也就是k-項集是被(k-1)-項集探索得到。
Apriori算法的基本過程分為兩大步:第一步,對數(shù)據(jù)庫進行依次掃描,第一次掃描,搜索頻繁1-項集Ll,即所有支持度數(shù)滿足最小支持度閾值的項集,掃描得到的候選1-項集記作C1。就這樣,依次搜索迭代,一直到不再有新的候選集產(chǎn)生為止,k次掃描后,得到的候選k-項集記作Ck。。第二步,修剪掉候選項集Ck中不頻繁的項集,得到頻繁項集Lk。第三步,由找到的頻繁項集中推出關(guān)聯(lián)的規(guī)則。
3 學生報到信息的關(guān)聯(lián)規(guī)則分析
根據(jù)關(guān)聯(lián)規(guī)則,可以將學生報到的數(shù)據(jù)設(shè)置為這樣的項目集:I={生源種類,生源地地區(qū),成績分數(shù)段,錄取專業(yè)是否如意,是否報到}。其中,生源種類為:城市應(yīng)屆,城市往屆,農(nóng)村應(yīng)屆,農(nóng)村往屆;生源地地區(qū)分為:東部沿海發(fā)達地區(qū),中部發(fā)展地區(qū),西部欠發(fā)達地區(qū);成績分數(shù)段分為五段,用羅馬數(shù)字表示各項目的分類:Ⅰ、重點線上10-30分,Ⅱ、重點線上30-50分,Ⅲ、重點線上50-70分,Ⅳ、重點線上70-90分,Ⅴ、重點線上90分以上。事務(wù)T是是項目集I的一個子集,T[?]I,考生號用來區(qū)分每個事務(wù)。每次掃描得到的頻繁項集用Lk表示。報到與否是要分析的屬性。
選取近兩年學生錄取情況和報到情況作為分析樣本,事務(wù)數(shù)180000條。第一次掃描樣本數(shù)據(jù),得到頻繁1-項集Ll,如下表。由于“報到”是我們要分析的目標,所以我們只分析關(guān)于報到的頻繁集,為了便于求得信任度,在支出數(shù)的后面添加了條件數(shù)。18000的樣本事務(wù)中,報到人數(shù)為17248,報到率為95.82%。所以分析時,Ll的最小支持度設(shè)為97%。
連接Ll得到C2,掃描C2項目集,由于本樣本數(shù)據(jù)不是很多,不進行剪枝,將所有數(shù)據(jù)聯(lián)接得到L2,設(shè)L2的最小支持度為96%下表為滿足最小支持的幾項。
上圖所示的項集都是通過L2可以推出的規(guī)則。
聯(lián)接L2后得到C3,掃描C3得到L3。設(shè)L3的最小支持度為96%下表為滿足最小支持的幾項。
4 結(jié)束語
本文通過對高校招生錄取數(shù)據(jù)庫的分析,利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則,選取招生錄取數(shù)據(jù)庫中的歷史信息作為樣本進行分析,找到了新生入學報到與生源種類、生源所在地區(qū)、考生成績和對專業(yè)的滿意與否的關(guān)系。這有助于學校對招生計劃、專業(yè)設(shè)置以及招生宣傳的定位與改進,為學校的招生工作提供決策依據(jù),減少招生成本,提高學生報到率。endprint