傅振南
(福建教育學(xué)院,福建 福州 350025)
近年來(lái)隨著我國(guó)高等教育改革的不斷深化,高校招生規(guī)模不斷的擴(kuò)大,招生政策也發(fā)生了很大的變化,特別是政策取消了對(duì)已錄考生不報(bào)到但不要求其承擔(dān)任何責(zé)任且可參加下次高考基本不作任何限制,隨之而來(lái)的問(wèn)題是已錄取新生報(bào)到率顯著降低,特別是對(duì)于高職高專院校。這不僅會(huì)浪費(fèi)國(guó)家教育資源且浪費(fèi)學(xué)校的招生計(jì)劃,增加學(xué)校招生成本甚至嚴(yán)重影響學(xué)校正常教學(xué)秩序。有效分析學(xué)生未報(bào)到原因并采取針對(duì)性措施,提高新生的報(bào)到率已成為高職高專院校迫切需要研究和解決的問(wèn)題,下面利用決策樹(shù)工具對(duì)學(xué)生未報(bào)到原因進(jìn)行分析。
決策樹(shù)和決策規(guī)則是解決實(shí)際應(yīng)用中分類問(wèn)題的成熟數(shù)據(jù)挖掘方法。決策樹(shù)工具能夠創(chuàng)建一個(gè)模型用于預(yù)測(cè)一個(gè)離散的字段(類),可以用一個(gè)樹(shù)型結(jié)構(gòu)描述產(chǎn)生的模型,同時(shí)可以從模型中提取重要的規(guī)則,分析對(duì)分析領(lǐng)域產(chǎn)生影響的重要原因。
圖1 決策樹(shù)數(shù)據(jù)挖掘過(guò)程
圖1顯示了決策樹(shù)數(shù)據(jù)挖掘的完整過(guò)程。研究表明在整個(gè)數(shù)據(jù)挖掘項(xiàng)目中,數(shù)據(jù)預(yù)處理步驟約占整個(gè)項(xiàng)目時(shí)間預(yù)算的60%到80%,因?yàn)楝F(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無(wú)法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,在預(yù)處理階段,必須根據(jù)分析的實(shí)際情況選擇高質(zhì)量的數(shù)據(jù)才能夠進(jìn)行有效的數(shù)據(jù)挖掘,以便得到有用的信息。此過(guò)程采用數(shù)據(jù)挖掘中的 ID3決策樹(shù)算法對(duì)錄取學(xué)生的未報(bào)到原因進(jìn)行建模,以找出學(xué)生被錄取但未報(bào)到的原因,以采取相應(yīng)的措施降低未報(bào)到率,提高學(xué)校的辦學(xué)競(jìng)爭(zhēng)力。
根據(jù)決策樹(shù)分析的需求,從作者所在高校的近年普通高職錄取數(shù)據(jù)庫(kù)中抽取相關(guān)的數(shù)據(jù),包括錄取考生的投檔單表、專業(yè)計(jì)劃代碼表、名稱表等。另外整理了作者所在高校自己的招生統(tǒng)計(jì)數(shù)據(jù)(以學(xué)生為實(shí)驗(yàn)單元的數(shù)據(jù)集)。從錄取學(xué)生的數(shù)據(jù)集中抽取一下字段的數(shù)據(jù):考生類別名稱、地區(qū)名稱、考生獎(jiǎng)勵(lì)或處分、成績(jī)、錄取專業(yè)名稱、第一志愿專業(yè)名稱等6個(gè)字段。另外根據(jù)招生統(tǒng)計(jì)數(shù)據(jù)中的各個(gè)專業(yè)投檔計(jì)劃人數(shù)和計(jì)劃招生人數(shù)的比例來(lái)粗略衡量該專業(yè)的熱度,產(chǎn)生專業(yè)熱度代碼表。同時(shí)清除地區(qū)名稱中三條值為NULL的記錄。
根據(jù)分析目的的需要,本方案從選擇的6個(gè)字段衍生出新的符合分析的字段。最終的衍生字段為所在地區(qū)、綜合素質(zhì)、是否第一志愿錄取、成績(jī)、應(yīng)屆還是往屆、農(nóng)村還是城鎮(zhèn)、錄取志愿的相對(duì)熱門(mén)度、是否報(bào)到等8個(gè)字段。具體的衍生過(guò)程如下:將地區(qū)名稱離散成具有本地和外地兩個(gè)屬性值的所在地區(qū)字段;由于收集數(shù)據(jù)的欠缺,粗略地通過(guò)考生獎(jiǎng)勵(lì)或處分字段(都是保存獎(jiǎng)勵(lì)的情況)評(píng)估綜合素質(zhì);對(duì)成績(jī)連續(xù)型屬性值進(jìn)行離散成高,中,低三個(gè)屬性值;從考生類別衍生應(yīng)屆還是往屆、農(nóng)村還是城鎮(zhèn)兩個(gè)字段;通過(guò)比較錄取專業(yè)名稱和第一志愿專業(yè)名稱來(lái)衍生是否第一志愿錄取字段;從(一)中專業(yè)熱度代碼表中獲取專業(yè)的熱度,并將其離散化。以上的幾個(gè)字段都是非類別屬性,由于決策樹(shù)等分類算法必須具有一個(gè)類別屬性,在本方案中采用是否報(bào)到屬性作為類別屬性,來(lái)評(píng)估考生是否報(bào)到的情況,主要從未報(bào)到的學(xué)生考生號(hào)來(lái)確定學(xué)生的報(bào)到情況。
具體的操作,可以通過(guò)SQL存儲(chǔ)過(guò)程來(lái)完成,代碼如下,文字部分為注釋:
CREATE PROCEDURE stu AS
--聲明衍生字段變量名
DECLARE @kslb_yw VARCHAR(50)--應(yīng)屆還是往屆
DECLARE @kslb_nc VARCHAR(50)--農(nóng)村還是城鎮(zhèn)
DECLARE @dq VARCHAR(50)--所在地區(qū)
DECLARE @zhsz VARCHAR(50)--綜合素質(zhì)
DECLARE @sfdizylq VARCHAR(50)--是否第一志愿錄取
DECLARE @lqzyrd VARCHAR(50)--錄取志愿的相對(duì)熱門(mén)度
DECLARE @cj_l VARCHAR(50)--成績(jī)
DECLARE @sfbaodao VARCHAR(50)--是否報(bào)到
--聲明中間變量名
DECLARE @ksh VARCHAR(50)
DECLARE @kslbmc VARCHAR(50)
DECLARE @cj FLOAT
DECLARE @dqmc VARCHAR(50)
DECLARE @ksjlhcf VARCHAR(50)
DECLARE @pcmc VARCHAR(50)
DECLARE @klmc VARCHAR(50)
DECLARE @lqzy VARCHAR(50)
DECLARE @zy1 VARCHAR(50)
DECLARE @baodao INT
--聲明訓(xùn)練集的數(shù)據(jù)表
DECLARE @stu TABLE
(
kslb_yw VARCHAR(50),
kslb_nc VARCHAR(50),
dq VARCHAR(50),
zhsz VARCHAR(50),
sfdizylq VARCHAR(50),
lqzyrd FLOAT,
cj VARCHAR(50),
sfbaodao VARCHAR(50)
)
--聲明獲取基本學(xué)生數(shù)據(jù)的游標(biāo),shsj為學(xué)生數(shù)據(jù)表
DECLARE cursor_shsj CURSOR FOR SELECT ksh,kslbmc, dqmc, cj, ksjlhcf, pcmc, klmc, lqzy, zy1 FROM shsj
--打開(kāi)游標(biāo)
OPEN cursor_shsj
--獲取每條記錄的各個(gè)屬性值
FETCH NEXT FROM cursor_shsj INTO @ksh,@kslbmc,@dqmc,@cj,@ksjlhcf,@pcmc,@klmc,@lqzy,@zy1
WHILE (@@FETCH_STATUS=0)
BEGIN
--應(yīng)屆還是往屆/農(nóng)村還是城鎮(zhèn)
SET @kslb_yw = RIGHT(@kslbmc,2)
SET @kslb_nc = LEFT(@kslbmc,2)
--離散地區(qū)字段
IF LEFT(@dqmc,2)=’福州’
BEGIN
--生成專業(yè)熱度
DECLARE @lqzyrd_l FLOAT
SELECT @lqzyrd_l= tdlq FROM ZYRD WHERE zymc=@lqzy and pcmc=@pcmc and klmc=@klmc
--生成類別屬性:是否報(bào)到字段,ksh表保存的是未報(bào)到考生的考生號(hào)
INSERT INTO @STU VALUES (@kslb_yw,@kslb_nc, @dq, @zhsz, @sfdizylq, @lqzyrd, @cj_l,@sfbaodao)
--獲取下一條記錄
FETCH NEXT FROM cursor_shsj INTO @ksh,@kslbmc,@dqmc,@cj,@ksjlhcf ,@pcmc ,@klmc ,@lq zy ,@zy1
END
CLOSE cursor_shsj
DEALLOCATE cursor_shsj
--生成訓(xùn)練集表
SELECT * INTO stu FROM @stu
GO
經(jīng)過(guò)數(shù)據(jù)預(yù)處理步驟后產(chǎn)生適合決策樹(shù) ID3算法的帶有標(biāo)簽訓(xùn)練集合,部分訓(xùn)練集合數(shù)據(jù)見(jiàn)表1。
表1 部分的訓(xùn)練集數(shù)據(jù)
運(yùn)用決策樹(shù)算法 ID3對(duì)產(chǎn)生的訓(xùn)練集進(jìn)行訓(xùn)練產(chǎn)生決策樹(shù),即檢查所有屬性的信息增益,選擇信息增益最大的屬性產(chǎn)生決策樹(shù)節(jié)點(diǎn),使決策樹(shù)節(jié)點(diǎn)數(shù)最小,識(shí)別例子準(zhǔn)確率最高,由該屬性的不同屬性值建立分枝,不斷地對(duì)這些分枝的實(shí)例子集遞歸,并用該方法建立決策樹(shù)的節(jié)點(diǎn)和分枝,直到某一個(gè)子集中例子屬于同一類。
生成的決策樹(shù)如圖2:
圖2 決策樹(shù)可視化
根據(jù)ID3算法可生成如圖2所示的決策樹(shù),從決策樹(shù)的根節(jié)點(diǎn)到葉子的每條路徑可以提取為一條規(guī)則,可以用IF…THEN條件語(yǔ)句來(lái)表示。從圖2可以發(fā)現(xiàn)幾個(gè)重要的知識(shí)規(guī)則:
(1)IF往屆THEN報(bào)到
(2)IF應(yīng)屆AND成績(jī)高THEN報(bào)到
(3)IF應(yīng)屆AND成績(jī)低AND農(nóng)村THEN未報(bào)到
(4)IF應(yīng)屆AND成績(jī)低AND城鎮(zhèn)AND第一志愿錄取THEN報(bào)到
(5)IF應(yīng)屆AND成績(jī)低AND城鎮(zhèn)AND非第一志愿錄取THEN未報(bào)到
(6)IF應(yīng)屆AND成績(jī)中AND非第一志愿錄取THEN未報(bào)到
(7)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND本地THEN未報(bào)到
(8)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND外地AND志愿熱度高THEN報(bào)到
(9)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND外地AND志愿熱度低THEN未報(bào)到
(10)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND城鎮(zhèn)THEN報(bào)到
從上面的規(guī)則可以看出,未報(bào)到的學(xué)生都是應(yīng)屆生,往屆生如果被錄取都會(huì)來(lái)報(bào)到,制定策略的時(shí)候可以重點(diǎn)放在應(yīng)屆生;從規(guī)則(3)可以看出如果是農(nóng)村并且成績(jī)低的考生未報(bào)到的可能性很大,主要原因是高職高專院校收費(fèi)高,農(nóng)村學(xué)生無(wú)力承擔(dān),另外農(nóng)村考生由于就業(yè)壓力的影響,使得考生在經(jīng)濟(jì)困難的情況下,寧愿復(fù)讀也不愿報(bào)到,學(xué)校可以采取相應(yīng)的扶貧助學(xué)的活動(dòng),在發(fā)送錄取通知書(shū)的時(shí)候可以宣傳針對(duì)貧困生的政府貸款制度以及學(xué)校的獎(jiǎng)、助、補(bǔ)、減等多元化的資助體系,也可以加強(qiáng)宣傳學(xué)校具體實(shí)際的就業(yè)優(yōu)勢(shì);規(guī)則(7)可以發(fā)現(xiàn)成績(jī)中等的且第一志愿錄取的農(nóng)村福州本地學(xué)生一般都是未來(lái)報(bào)到,這在一定程度上反映了學(xué)校忽略了在本地區(qū)宣傳的力度,通常本地宣傳更加有效經(jīng)濟(jì),需要注意這些事項(xiàng);學(xué)生是否自己第一志愿錄取對(duì)于是否報(bào)到有一定的影響,可能對(duì)于錄取專業(yè)不是很了解,或者不喜歡這個(gè)專業(yè),但是通常學(xué)生對(duì)于一個(gè)專業(yè)的認(rèn)識(shí)并不是很清楚,只是隨大眾,可以在宣傳專業(yè)上加大力度;規(guī)則(8)表明成績(jī)中等農(nóng)村外地的學(xué)生第一志愿錄取的專業(yè)不好,可能不來(lái)報(bào)到,學(xué)??梢栽谡猩麄髦袑?duì)專業(yè)的優(yōu)勢(shì)特別是在就業(yè)上的好處包括承諾突出強(qiáng)調(diào)。
本方案只是利用決策樹(shù)技術(shù)對(duì)學(xué)生未報(bào)到的原因進(jìn)行初步的分析,屬于解釋型的數(shù)據(jù)挖掘。當(dāng)然也可以用決策樹(shù)作為一個(gè)模型來(lái)判斷一個(gè)學(xué)生是否來(lái)報(bào)到,但是可能要收集更加詳細(xì)的數(shù)據(jù)。
[1]汪素南.智能技術(shù)在金融市場(chǎng)溢出效應(yīng)和反洗錢(qián)中的應(yīng)用研究[D].杭州:浙江大學(xué),2007.
[2]沈鶯鶯,陳福生.數(shù)據(jù)挖掘在信用卡一級(jí)代理中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2006(3).