亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在新疆高職院校招生決策中的應(yīng)用研究

        2009-12-31 00:00:00蘆海燕
        中國科技財富 2009年20期

        摘要:本文以研究高職院校新生報到率為目的。以伊犁職業(yè)技術(shù)學(xué)院為例,通過關(guān)聯(lián)規(guī)則對高校學(xué)生的信息庫進(jìn)行數(shù)據(jù)挖掘,挖掘出影響學(xué)生報到率的有效信息。為學(xué)院的招生決策提供有價值的信息。

        關(guān)鍵詞: 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;招生參考系統(tǒng)

        引言

        從2002年開始,國家教育部在全國實(shí)現(xiàn)高校招生網(wǎng)上遠(yuǎn)程錄取,高校招生手段發(fā)生了革命性變化,同時也給招生工作帶來了變革的契機(jī),計算機(jī)管理著大量的招生信息,使得采用信息領(lǐng)域的新技術(shù)、新成果為招生工作服務(wù)成為可能。利用數(shù)據(jù)挖掘技術(shù)在招生數(shù)據(jù)上的應(yīng)用,為有效利用招生信息進(jìn)行快速、準(zhǔn)確和方便的決策支持提供了新的思路。

        2、數(shù)據(jù)挖掘

        2.1數(shù)據(jù)挖掘的概念

        數(shù)據(jù)挖掘(DateMining)就是從眾多的、有噪聲的、不完全的、模糊的、隨機(jī)的大量數(shù)據(jù)中,提取隱含在其中人們事先不知道但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘要經(jīng)過數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表示等一系列過程,最后將分析結(jié)果呈現(xiàn)在用戶面前。

        2.2數(shù)據(jù)挖掘的功能

        數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,作為前瞻的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識。具體的功能主要有以下4個方面。

        1、概念描述

        概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括其主要特征。

        2、關(guān)聯(lián)分析

        數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)中存在的一類重要的可被發(fā)現(xiàn)的知識,若兩個或多個變量間存農(nóng)著某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。

        3、自動預(yù)測趨勢和行為

        挖掘技術(shù)會自動在大量數(shù)據(jù)中尋找出預(yù)側(cè)性的信息,以往需要使用大量人工手動分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論??梢詾闆Q策者們提供一種比較塊捷的方式。

        4、聚類分析

        聚類分析其目的在于客觀地按被處理對象的特征分類,將同特征的對象歸為一類。

        2.3數(shù)據(jù)挖掘常用算法

        一般說來,可以有多種算法用于數(shù)據(jù)挖掘,但不存在一個普通適用的算法。一個算法在某個領(lǐng)域可能很有效,但在另一領(lǐng)域可能就不太適用。因此,在實(shí)際應(yīng)用中,應(yīng)結(jié)合實(shí)際,選擇合適的挖掘算法。

        我們可以把數(shù)據(jù)挖掘算法分為以下幾種。

        1.人工神經(jīng)網(wǎng)絡(luò)

        2.決策樹方法

        3.遺傳算法

        4.模糊論方法

        5.粗糙集方法

        6.關(guān)聯(lián)規(guī)則

        7.覆蓋正例排斥反例方法

        8.樸素貝葉斯模型

        9.可視化技術(shù)

        3、關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中的應(yīng)用

        3. 1關(guān)聯(lián)規(guī)則挖掘的基本概念

        關(guān)聯(lián)規(guī)則是一種重要的數(shù)據(jù)挖掘方法,也是最活躍的一研究個分支。關(guān)聯(lián)規(guī)則挖掘主要是通過特定的搜索算法,挖掘出數(shù)據(jù)集中項(xiàng)集之間有價值的關(guān)聯(lián)關(guān)系,從而給出數(shù)據(jù)集的關(guān)聯(lián)特征描述。關(guān)聯(lián)規(guī)則最大的優(yōu)點(diǎn)就是能夠發(fā)現(xiàn)被大量日常操作行為所掩蓋的,蘊(yùn)藏于大童業(yè)務(wù)數(shù)據(jù)下的事務(wù)之間的關(guān)聯(lián)關(guān)系。具體來說,關(guān)聯(lián)規(guī)則就是形如“A→B(support,confidence)”的蘊(yùn)涵式,其中support是該規(guī)則的支持度,confidence是該規(guī)則的一可信度。

        3.2關(guān)聯(lián)規(guī)則的應(yīng)用

        對于伊犁職業(yè)技術(shù)學(xué)院來說,針對新生報到率不高的現(xiàn)狀,我們希望能在學(xué)院新生錄取、報到信息庫中的學(xué)生信息中找到影響學(xué)生不來報到的規(guī)則,以此制定出有效的招生決策,用以指導(dǎo)今后的招生工作。例如,我們發(fā)現(xiàn)扭內(nèi)學(xué)生的報到率要明顯高于疆外學(xué)生,那么在今后制定招生計劃時,我們可以適當(dāng)減少疆外計劃。

        為了簡單的說明使用關(guān)聯(lián)規(guī)則算法對學(xué)生信息庫進(jìn)行挖掘的過程,我們在此權(quán)討論單維關(guān)聯(lián)規(guī)則((single-dimensional associarion rule),也就是在學(xué)生信息庫中挖掘出的與學(xué)生報到情況有關(guān)的關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩?,這些項(xiàng)或?qū)傩悦總€只涉及一個維。

        我們僅考慮錄取時學(xué)生的某些因素(性別、考生類別、高考成績、考生生源地)和學(xué)生報到情況的關(guān)系,假設(shè)我們己在學(xué)生信息庫中找出頻繁項(xiàng)集,那么由它們所產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則是直接了當(dāng)?shù)?強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)。置信度可以用下式表示:

        confidence(A=>B)=P(A|B)=support_count(A∪B)/support_count(A)

        其中,support_count (A ∪B)是包含項(xiàng)集A∪B的事務(wù)數(shù),support_count (A)是包含項(xiàng)集A。

        根據(jù)該式,關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:

        ①對于每個頻繁頂集1,產(chǎn)生1的所有非空子集:

        ②對于1的每個非空子集s,如果support_count (A∪B)/support_count(A)min conf,則輸出規(guī)則“s=>(l-s)。其中min_canf是最小置閾值。

        下面我們利用伊犁職業(yè)技術(shù)學(xué)院05級新生報到情況的樣本數(shù)據(jù)集為例,討論以下因素(性別、考生類別、高考成績、考生生源地)與學(xué)生報到情況的關(guān)系.05年錄取的學(xué)生總數(shù)為486人、而報到的學(xué)生只有248人。

        1.討論性別與學(xué)生報到的關(guān)系。在錄取總?cè)藬?shù)甲有233名男生,報到總?cè)藬?shù)中有148個男生:

        男=>報到[support=47.9%,

        confidence==3 5%]

        由此可以看出,男生的報到的置信度與女生比起來較高,而且支持度也比較高,所以這個關(guān)聯(lián)規(guī)則應(yīng)該成立,即男生=>報報到為強(qiáng)關(guān)聯(lián)規(guī)則。我們可以得出的結(jié)論是男生報到的可能性大于女生

        2.討論考生類別與學(xué)生是否報到的關(guān)系。在錄取人數(shù)中考生類別為農(nóng)村往屆的學(xué)生有72人,來報到的有51人;城鎮(zhèn)應(yīng)屆考生錄取了112人,報到了51人;城鎮(zhèn)應(yīng)屆錄取了138人,報到了62人,農(nóng)村應(yīng)屆考生錄取了213人,報到了80人。根據(jù)關(guān)聯(lián)規(guī)則算法可以得出:

        農(nóng)村往屆學(xué)生=>報到[support=13.81%, confidence=70. 83%]

        城鎮(zhèn)往屆學(xué)生=>報到[support=13.96%, confidence=80. 95%]

        農(nóng)村應(yīng)屆學(xué)生二>報到[support=13.81%,Confidence=70. 83%]

        城鎮(zhèn)應(yīng)屆學(xué)生=>報到[support=43.82%, cnnfidexlce=37.55%]

        由此可以看出,農(nóng)村往屆的學(xué)生、農(nóng)村應(yīng)屆的學(xué)生、城鎮(zhèn)往屆的學(xué)生的置信度基本相差不大,但支持度非常高,所以前面三類的關(guān)聯(lián)規(guī)則是應(yīng)該存在的。城市應(yīng)屆考生來報到的置信度較高,但支持度很低。在錄取時應(yīng)該考慮他們有可能不來報到,可以通過給這些考生打電話,來確認(rèn)他們是否來報到。從分析中我們還可以看出,城鎮(zhèn)往屆學(xué)生他們來報到的支持度是最高的,這與我們的實(shí)際情況甚至一致。

        3.討論高考總分與學(xué)生是否報到的關(guān)系。我們根據(jù)學(xué)生的高考分?jǐn)?shù)劃分了5個本分?jǐn)?shù)段。即大于400分的,介于350與400分間的,介于300與350分之間的,介于200分與300分之間的,和小于200分的。分?jǐn)?shù)在300以下的學(xué)生都為“三校生”。在學(xué)院05年的錄取數(shù)據(jù)中,分?jǐn)?shù)在400分以上的有11人,前來報到的有7人;分?jǐn)?shù)在300-350分的有30人,來報到的有4人;分?jǐn)?shù)在300-350分的有134人,來報到的有44人:分?jǐn)?shù)200-300分的有235人,來報到的有109人;分?jǐn)?shù)在200以下的有80人,來報到的有80人。通過分析我們得到:

        高考總分(gkzf<200)=>報到[support=16.46%, confidence=93.5%]

        高考總分(200報到[support=48.35%,confidence=46.38%]

        高考總分(300報到[support=27.75%,confidence=33.83%]

        高考總分(350報到[support=6.17%,confidence=13.33%]

        高考總分(400報到[support=3.26%,confidence=63.63%]

        由以上結(jié)果可以看出,高考成績低于200分的同學(xué)報到的可能性是最大的,高考成績在200-300分之間的同學(xué)報到率次之。這符合我院的實(shí)際情況。因?yàn)椤叭I贝蟛糠譃槲以旱闹新殞W(xué)生,畢業(yè)后通過自冶區(qū)的“三校生”考試又重新考入高職院校就讀。一些成績較好的中職考生,選擇了烏魯木齊的一些學(xué)校繼續(xù)學(xué)習(xí)。成績較低的學(xué)生,就考入我院繼續(xù)學(xué)習(xí)。高考成績在3O0-350分的置信度與支持度均高于高考成績在350-400分的。這說明,分?jǐn)?shù)較低的學(xué)生的報到率要高。雖然從分析結(jié)果看,高考總分高于400的同學(xué)報到的支持度也很高,但是由于人數(shù)不多,所以也并不能說明考分高于400分的同學(xué)的報到率就高。這一規(guī)則可以刪去。

        4、討論高考考生生源對學(xué)生是否報到的影響。在2005年,伊犁職業(yè)技術(shù)學(xué)院在疆外錄取了36人,報到了15人,在疆內(nèi)錄取了450人,報到了233人。

        生源地為疆外考生補(bǔ)報到[support=7.04%,confidence=41.66%]

        生源地為疆內(nèi)考生公報到[support=93.56%,confidence=51.77%]

        由此結(jié)果可以觀察出,疆內(nèi)學(xué)生的報到率要高。

        通對以上四類屬性、十二個因素的逐項(xiàng)分析,可以作出這樣的判斷:性別為女生、考生類別為城鎮(zhèn)應(yīng)屆、高考總分在350到400分之間、生源地為疆外,這些因素都是影響學(xué)生報到的主要原因。所以,為了保證該學(xué)院有一個較高的報到率,招生人員應(yīng)該在同等情況下,盡夏避開選擇具有這些因素的學(xué)生。

        在此要說明一下,為了說明間題,以上數(shù)據(jù)大部分是手工計算的。而且如果要想更精確的說明問題,還應(yīng)該計算出報關(guān)度來。

        4、結(jié)論

        通過以上對學(xué)生信碑息庫的單維關(guān)聯(lián)規(guī)則的研究可以看出,挖掘結(jié)果對學(xué)院實(shí)際的招生工作是具有一定的指導(dǎo)作用的,但比較簡單。如果我們希望挖掘出更深層次的關(guān)聯(lián)規(guī)則,就需要合理的選擇最小置信度(minsup)或最小支持度(Minsupport)的值。這就需要根據(jù)具體實(shí)踐情況井和學(xué)降招生辦的工作人員進(jìn)行反復(fù)討論。只有聚焦到真正感興趣的關(guān)聯(lián)上,得出具有實(shí)踐意義的關(guān)聯(lián)規(guī)則,才能為學(xué)院的招生工作更供強(qiáng)有力的指導(dǎo),為學(xué)院的招生決策提供有價值的信息,

        亚洲女av中文字幕一区二区| 亚洲福利第一页在线观看| 曰本无码人妻丰满熟妇5g影院| 少妇人妻偷人精品无码视频| 日本成人一区二区三区| 精品九九视频| 无码人妻专区一区二区三区| 国产精品久久久精品三级18| 亚洲av无吗国产精品| 久久免费亚洲免费视频| 日本阿v片在线播放免费| 午夜无码国产理论在线| 亚洲成a人片在线观看天堂无码| 国产最新地址| 一本一道AⅤ无码中文字幕| 国产精品成人久久一区二区| 国产亚洲精品一区二区在线观看| 国产成人精品人人做人人爽97| 夜夜高潮夜夜爽夜夜爱爱一区| 免费无码高潮流白浆视频| 国产福利酱国产一区二区 | 少妇高潮久久蜜柚av| 国产欧美日韩一区二区三区| 人人狠狠综合久久亚洲| 熟女人妻丰满熟妇啪啪| 久久伊人中文字幕有码久久国产| 中文字幕女优av在线| 香港aa三级久久三级| 免费观看激色视频网站| 精品推荐国产精品店| 亚洲ⅤA中文字幕无码| 亚洲天堂一区二区三区| 深夜福利啪啪片| 国产精品igao视频网| 国产在视频线精品视频www666| 亚洲国产日韩在线精品频道| 国产免费一区二区三区在线观看| 精品人妻av一区二区三区麻豆| 成人国产一区二区三区| 99在线精品免费视频九九视| 国产午夜成人久久无码一区二区|