亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹(shù)技術(shù)對(duì)學(xué)生未報(bào)到原因的分析

        2015-12-06 08:13:06傅振南
        關(guān)鍵詞:字段決策樹(shù)數(shù)據(jù)挖掘

        傅振南

        (福建教育學(xué)院,福建 福州 350025)

        近年來(lái)隨著我國(guó)高等教育改革的不斷深化,高校招生規(guī)模不斷的擴(kuò)大,招生政策也發(fā)生了很大的變化,特別是政策取消了對(duì)已錄考生不報(bào)到但不要求其承擔(dān)任何責(zé)任且可參加下次高考基本不作任何限制,隨之而來(lái)的問(wèn)題是已錄取新生報(bào)到率顯著降低,特別是對(duì)于高職高專院校。這不僅會(huì)浪費(fèi)國(guó)家教育資源且浪費(fèi)學(xué)校的招生計(jì)劃,增加學(xué)校招生成本甚至嚴(yán)重影響學(xué)校正常教學(xué)秩序。有效分析學(xué)生未報(bào)到原因并采取針對(duì)性措施,提高新生的報(bào)到率已成為高職高專院校迫切需要研究和解決的問(wèn)題,下面利用決策樹(shù)工具對(duì)學(xué)生未報(bào)到原因進(jìn)行分析。

        決策樹(shù)和決策規(guī)則是解決實(shí)際應(yīng)用中分類問(wèn)題的成熟數(shù)據(jù)挖掘方法。決策樹(shù)工具能夠創(chuàng)建一個(gè)模型用于預(yù)測(cè)一個(gè)離散的字段(類),可以用一個(gè)樹(shù)型結(jié)構(gòu)描述產(chǎn)生的模型,同時(shí)可以從模型中提取重要的規(guī)則,分析對(duì)分析領(lǐng)域產(chǎn)生影響的重要原因。

        圖1 決策樹(shù)數(shù)據(jù)挖掘過(guò)程

        一、決策樹(shù)數(shù)據(jù)挖掘過(guò)程

        圖1顯示了決策樹(shù)數(shù)據(jù)挖掘的完整過(guò)程。研究表明在整個(gè)數(shù)據(jù)挖掘項(xiàng)目中,數(shù)據(jù)預(yù)處理步驟約占整個(gè)項(xiàng)目時(shí)間預(yù)算的60%到80%,因?yàn)楝F(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無(wú)法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意,在預(yù)處理階段,必須根據(jù)分析的實(shí)際情況選擇高質(zhì)量的數(shù)據(jù)才能夠進(jìn)行有效的數(shù)據(jù)挖掘,以便得到有用的信息。此過(guò)程采用數(shù)據(jù)挖掘中的 ID3決策樹(shù)算法對(duì)錄取學(xué)生的未報(bào)到原因進(jìn)行建模,以找出學(xué)生被錄取但未報(bào)到的原因,以采取相應(yīng)的措施降低未報(bào)到率,提高學(xué)校的辦學(xué)競(jìng)爭(zhēng)力。

        二、ETL(Extract-Transform-Load)過(guò)程

        (一)選擇相關(guān)的字段

        根據(jù)決策樹(shù)分析的需求,從作者所在高校的近年普通高職錄取數(shù)據(jù)庫(kù)中抽取相關(guān)的數(shù)據(jù),包括錄取考生的投檔單表、專業(yè)計(jì)劃代碼表、名稱表等。另外整理了作者所在高校自己的招生統(tǒng)計(jì)數(shù)據(jù)(以學(xué)生為實(shí)驗(yàn)單元的數(shù)據(jù)集)。從錄取學(xué)生的數(shù)據(jù)集中抽取一下字段的數(shù)據(jù):考生類別名稱、地區(qū)名稱、考生獎(jiǎng)勵(lì)或處分、成績(jī)、錄取專業(yè)名稱、第一志愿專業(yè)名稱等6個(gè)字段。另外根據(jù)招生統(tǒng)計(jì)數(shù)據(jù)中的各個(gè)專業(yè)投檔計(jì)劃人數(shù)和計(jì)劃招生人數(shù)的比例來(lái)粗略衡量該專業(yè)的熱度,產(chǎn)生專業(yè)熱度代碼表。同時(shí)清除地區(qū)名稱中三條值為NULL的記錄。

        (二)產(chǎn)生衍生字段

        根據(jù)分析目的的需要,本方案從選擇的6個(gè)字段衍生出新的符合分析的字段。最終的衍生字段為所在地區(qū)、綜合素質(zhì)、是否第一志愿錄取、成績(jī)、應(yīng)屆還是往屆、農(nóng)村還是城鎮(zhèn)、錄取志愿的相對(duì)熱門(mén)度、是否報(bào)到等8個(gè)字段。具體的衍生過(guò)程如下:將地區(qū)名稱離散成具有本地和外地兩個(gè)屬性值的所在地區(qū)字段;由于收集數(shù)據(jù)的欠缺,粗略地通過(guò)考生獎(jiǎng)勵(lì)或處分字段(都是保存獎(jiǎng)勵(lì)的情況)評(píng)估綜合素質(zhì);對(duì)成績(jī)連續(xù)型屬性值進(jìn)行離散成高,中,低三個(gè)屬性值;從考生類別衍生應(yīng)屆還是往屆、農(nóng)村還是城鎮(zhèn)兩個(gè)字段;通過(guò)比較錄取專業(yè)名稱和第一志愿專業(yè)名稱來(lái)衍生是否第一志愿錄取字段;從(一)中專業(yè)熱度代碼表中獲取專業(yè)的熱度,并將其離散化。以上的幾個(gè)字段都是非類別屬性,由于決策樹(shù)等分類算法必須具有一個(gè)類別屬性,在本方案中采用是否報(bào)到屬性作為類別屬性,來(lái)評(píng)估考生是否報(bào)到的情況,主要從未報(bào)到的學(xué)生考生號(hào)來(lái)確定學(xué)生的報(bào)到情況。

        具體的操作,可以通過(guò)SQL存儲(chǔ)過(guò)程來(lái)完成,代碼如下,文字部分為注釋:

        CREATE PROCEDURE stu AS

        --聲明衍生字段變量名

        DECLARE @kslb_yw VARCHAR(50)--應(yīng)屆還是往屆

        DECLARE @kslb_nc VARCHAR(50)--農(nóng)村還是城鎮(zhèn)

        DECLARE @dq VARCHAR(50)--所在地區(qū)

        DECLARE @zhsz VARCHAR(50)--綜合素質(zhì)

        DECLARE @sfdizylq VARCHAR(50)--是否第一志愿錄取

        DECLARE @lqzyrd VARCHAR(50)--錄取志愿的相對(duì)熱門(mén)度

        DECLARE @cj_l VARCHAR(50)--成績(jī)

        DECLARE @sfbaodao VARCHAR(50)--是否報(bào)到

        --聲明中間變量名

        DECLARE @ksh VARCHAR(50)

        DECLARE @kslbmc VARCHAR(50)

        DECLARE @cj FLOAT

        DECLARE @dqmc VARCHAR(50)

        DECLARE @ksjlhcf VARCHAR(50)

        DECLARE @pcmc VARCHAR(50)

        DECLARE @klmc VARCHAR(50)

        DECLARE @lqzy VARCHAR(50)

        DECLARE @zy1 VARCHAR(50)

        DECLARE @baodao INT

        --聲明訓(xùn)練集的數(shù)據(jù)表

        DECLARE @stu TABLE

        (

        kslb_yw VARCHAR(50),

        kslb_nc VARCHAR(50),

        dq VARCHAR(50),

        zhsz VARCHAR(50),

        sfdizylq VARCHAR(50),

        lqzyrd FLOAT,

        cj VARCHAR(50),

        sfbaodao VARCHAR(50)

        )

        --聲明獲取基本學(xué)生數(shù)據(jù)的游標(biāo),shsj為學(xué)生數(shù)據(jù)表

        DECLARE cursor_shsj CURSOR FOR SELECT ksh,kslbmc, dqmc, cj, ksjlhcf, pcmc, klmc, lqzy, zy1 FROM shsj

        --打開(kāi)游標(biāo)

        OPEN cursor_shsj

        --獲取每條記錄的各個(gè)屬性值

        FETCH NEXT FROM cursor_shsj INTO @ksh,@kslbmc,@dqmc,@cj,@ksjlhcf,@pcmc,@klmc,@lqzy,@zy1

        WHILE (@@FETCH_STATUS=0)

        BEGIN

        --應(yīng)屆還是往屆/農(nóng)村還是城鎮(zhèn)

        SET @kslb_yw = RIGHT(@kslbmc,2)

        SET @kslb_nc = LEFT(@kslbmc,2)

        --離散地區(qū)字段

        IF LEFT(@dqmc,2)=’福州’

        BEGIN

        --生成專業(yè)熱度

        DECLARE @lqzyrd_l FLOAT

        SELECT @lqzyrd_l= tdlq FROM ZYRD WHERE zymc=@lqzy and pcmc=@pcmc and klmc=@klmc

        --生成類別屬性:是否報(bào)到字段,ksh表保存的是未報(bào)到考生的考生號(hào)

        INSERT INTO @STU VALUES (@kslb_yw,@kslb_nc, @dq, @zhsz, @sfdizylq, @lqzyrd, @cj_l,@sfbaodao)

        --獲取下一條記錄

        FETCH NEXT FROM cursor_shsj INTO @ksh,@kslbmc,@dqmc,@cj,@ksjlhcf ,@pcmc ,@klmc ,@lq zy ,@zy1

        END

        CLOSE cursor_shsj

        DEALLOCATE cursor_shsj

        --生成訓(xùn)練集表

        SELECT * INTO stu FROM @stu

        GO

        (三)ID3數(shù)據(jù)挖掘

        經(jīng)過(guò)數(shù)據(jù)預(yù)處理步驟后產(chǎn)生適合決策樹(shù) ID3算法的帶有標(biāo)簽訓(xùn)練集合,部分訓(xùn)練集合數(shù)據(jù)見(jiàn)表1。

        表1 部分的訓(xùn)練集數(shù)據(jù)

        運(yùn)用決策樹(shù)算法 ID3對(duì)產(chǎn)生的訓(xùn)練集進(jìn)行訓(xùn)練產(chǎn)生決策樹(shù),即檢查所有屬性的信息增益,選擇信息增益最大的屬性產(chǎn)生決策樹(shù)節(jié)點(diǎn),使決策樹(shù)節(jié)點(diǎn)數(shù)最小,識(shí)別例子準(zhǔn)確率最高,由該屬性的不同屬性值建立分枝,不斷地對(duì)這些分枝的實(shí)例子集遞歸,并用該方法建立決策樹(shù)的節(jié)點(diǎn)和分枝,直到某一個(gè)子集中例子屬于同一類。

        生成的決策樹(shù)如圖2:

        圖2 決策樹(shù)可視化

        三、結(jié)果分析與應(yīng)用

        根據(jù)ID3算法可生成如圖2所示的決策樹(shù),從決策樹(shù)的根節(jié)點(diǎn)到葉子的每條路徑可以提取為一條規(guī)則,可以用IF…THEN條件語(yǔ)句來(lái)表示。從圖2可以發(fā)現(xiàn)幾個(gè)重要的知識(shí)規(guī)則:

        (1)IF往屆THEN報(bào)到

        (2)IF應(yīng)屆AND成績(jī)高THEN報(bào)到

        (3)IF應(yīng)屆AND成績(jī)低AND農(nóng)村THEN未報(bào)到

        (4)IF應(yīng)屆AND成績(jī)低AND城鎮(zhèn)AND第一志愿錄取THEN報(bào)到

        (5)IF應(yīng)屆AND成績(jī)低AND城鎮(zhèn)AND非第一志愿錄取THEN未報(bào)到

        (6)IF應(yīng)屆AND成績(jī)中AND非第一志愿錄取THEN未報(bào)到

        (7)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND本地THEN未報(bào)到

        (8)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND外地AND志愿熱度高THEN報(bào)到

        (9)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND農(nóng)村AND外地AND志愿熱度低THEN未報(bào)到

        (10)IF應(yīng)屆AND成績(jī)中AND第一志愿錄取AND城鎮(zhèn)THEN報(bào)到

        從上面的規(guī)則可以看出,未報(bào)到的學(xué)生都是應(yīng)屆生,往屆生如果被錄取都會(huì)來(lái)報(bào)到,制定策略的時(shí)候可以重點(diǎn)放在應(yīng)屆生;從規(guī)則(3)可以看出如果是農(nóng)村并且成績(jī)低的考生未報(bào)到的可能性很大,主要原因是高職高專院校收費(fèi)高,農(nóng)村學(xué)生無(wú)力承擔(dān),另外農(nóng)村考生由于就業(yè)壓力的影響,使得考生在經(jīng)濟(jì)困難的情況下,寧愿復(fù)讀也不愿報(bào)到,學(xué)校可以采取相應(yīng)的扶貧助學(xué)的活動(dòng),在發(fā)送錄取通知書(shū)的時(shí)候可以宣傳針對(duì)貧困生的政府貸款制度以及學(xué)校的獎(jiǎng)、助、補(bǔ)、減等多元化的資助體系,也可以加強(qiáng)宣傳學(xué)校具體實(shí)際的就業(yè)優(yōu)勢(shì);規(guī)則(7)可以發(fā)現(xiàn)成績(jī)中等的且第一志愿錄取的農(nóng)村福州本地學(xué)生一般都是未來(lái)報(bào)到,這在一定程度上反映了學(xué)校忽略了在本地區(qū)宣傳的力度,通常本地宣傳更加有效經(jīng)濟(jì),需要注意這些事項(xiàng);學(xué)生是否自己第一志愿錄取對(duì)于是否報(bào)到有一定的影響,可能對(duì)于錄取專業(yè)不是很了解,或者不喜歡這個(gè)專業(yè),但是通常學(xué)生對(duì)于一個(gè)專業(yè)的認(rèn)識(shí)并不是很清楚,只是隨大眾,可以在宣傳專業(yè)上加大力度;規(guī)則(8)表明成績(jī)中等農(nóng)村外地的學(xué)生第一志愿錄取的專業(yè)不好,可能不來(lái)報(bào)到,學(xué)??梢栽谡猩麄髦袑?duì)專業(yè)的優(yōu)勢(shì)特別是在就業(yè)上的好處包括承諾突出強(qiáng)調(diào)。

        本方案只是利用決策樹(shù)技術(shù)對(duì)學(xué)生未報(bào)到的原因進(jìn)行初步的分析,屬于解釋型的數(shù)據(jù)挖掘。當(dāng)然也可以用決策樹(shù)作為一個(gè)模型來(lái)判斷一個(gè)學(xué)生是否來(lái)報(bào)到,但是可能要收集更加詳細(xì)的數(shù)據(jù)。

        [1]汪素南.智能技術(shù)在金融市場(chǎng)溢出效應(yīng)和反洗錢(qián)中的應(yīng)用研究[D].杭州:浙江大學(xué),2007.

        [2]沈鶯鶯,陳福生.數(shù)據(jù)挖掘在信用卡一級(jí)代理中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用與軟件,2006(3).

        猜你喜歡
        字段決策樹(shù)數(shù)據(jù)挖掘
        圖書(shū)館中文圖書(shū)編目外包數(shù)據(jù)質(zhì)量控制分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        CNMARC304字段和314字段責(zé)任附注方式解析
        無(wú)正題名文獻(xiàn)著錄方法評(píng)述
        澳门毛片精品一区二区三区| 人妻少妇看a偷人无码| 国产av无码专区亚洲av毛网站| 免费a级毛片18以上观看精品| 中国农村妇女hdxxxx| 中文字幕不卡在线播放| 性一交一乱一乱一视频亚洲熟妇| 一区二区亚洲熟女偷拍| 中文字幕一区二区三区视频| 水蜜桃精品一二三| 在线人妻无码一区二区| 一区二区三区日本在线| 无套无码孕妇啪啪| 国产色秀视频在线播放| 亚洲一区二区自拍偷拍| 91国产熟女自拍视频| 天堂中文а√在线| 无码国产激情在线观看| 东京热加勒比日韩精品| 国产丝袜长腿美臀在线观看| 成人午夜视频精品一区| 日本午夜福利| av天堂在线免费播放| 亚洲av无码偷拍在线观看| 国产精品高潮呻吟av久久4虎| 激情五月天伊人久久| 国产精品二区三区在线观看| 久久精品夜色噜噜亚洲a∨| 国产人妻久久精品二区三区| 国产未成女年一区二区| 手机在线免费观看av不卡网站| 邻居少妇张开腿让我爽了一夜| 夜鲁很鲁在线视频| 一本无码人妻在中文字幕| 亚洲男人的天堂色偷偷| 俺去啦最新地址| 狠狠躁夜夜躁人人爽超碰97香蕉| 最新永久无码AV网址亚洲| 校园春色日韩高清一区二区| 伊人久久大香线蕉av网禁呦| 精品中文字幕久久久久久|