亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于數(shù)據(jù)挖掘的高職學(xué)生專業(yè)傾向性分析

2014-01-01 03:04:42吳梨梨

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2014年9期

吳梨梨

（1.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院福建 350000；2.福州英華職業(yè)學(xué)院計算機系福建 350018）

0 引言

從20世紀80年代高職教育起步開始，高職教育在將近三十年的時間中慢慢的普及開來，成為了高等教育結(jié)構(gòu)體系中不可缺少的一部分，對增進高等教育的普及起到了不可忽略的作用，也對社會培養(yǎng)高素質(zhì)的技能型人才發(fā)揮了重要作用。但是在高職學(xué)生畢業(yè)后跟蹤調(diào)查中，會發(fā)現(xiàn)有很大一部分的學(xué)生在畢業(yè)之后并沒有從事跟本專業(yè)相關(guān)的職業(yè)。這里面的原因是多方面的，但是有一個原因需要我們的關(guān)注，那就是學(xué)生對所就讀的專業(yè)不滿意。部分高職學(xué)生由于對專業(yè)陌生而削弱了對專業(yè)的認識與學(xué)習(xí)；更多學(xué)生在選擇專業(yè)的時候完全是隨機或隨大流；還有一部分學(xué)生是缺乏學(xué)習(xí)某個專業(yè)所必須的某種技能，導(dǎo)致專業(yè)學(xué)習(xí)能力差，這些因素直接影響了對專業(yè)的學(xué)習(xí)，影響了后續(xù)就業(yè)的職業(yè)發(fā)展。在這種情況下，合理地引導(dǎo)學(xué)生認識專業(yè)、喜愛專業(yè)，是大學(xué)里教書育人的重要前提。同時我們也可以采用一些技術(shù)手段，對學(xué)生的專業(yè)傾向性進行分析，找出影響專業(yè)學(xué)習(xí)的因素，這樣就可以最大程度地避免在專業(yè)選擇上走彎路。

1 數(shù)據(jù)挖掘技術(shù)概述

數(shù)據(jù)挖掘（Data Mining）就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程[1]。

數(shù)據(jù)挖掘最根本的任務(wù)就是從海量的原始數(shù)據(jù)之中對數(shù)據(jù)進行采集選擇，經(jīng)過預(yù)處理后對目標數(shù)據(jù)作出數(shù)據(jù)挖掘，并解釋評價所得出的知識、模式。圖1展示了數(shù)據(jù)挖掘的一般過程。

圖1 數(shù)據(jù)挖掘的一般過程

數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來，結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法及可視化技術(shù)，以數(shù)據(jù)庫為研究對象，形成了數(shù)據(jù)挖掘的方法和技術(shù)[2]。包括：關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集理論方法、遺傳算法、可視化技術(shù)等。

2 生源質(zhì)量分析中的數(shù)據(jù)挖掘方法

在本文中進行數(shù)據(jù)挖掘主要采用的是決策樹方法。決策樹具有分類直觀的優(yōu)點，它分類速度快、分類精度高，具有可靠性，容易讀懂的特點，很適合對大型數(shù)據(jù)集進行分類。決策樹的分析結(jié)果既可以顯示為樹形結(jié)構(gòu)的圖表形式，也可以被解讀為“IF→THEN”形式的規(guī)則，即使沒有算法基礎(chǔ)的使用者也可以很快理解它。

決策樹是由測試節(jié)點和終端節(jié)點組合成的集合。從圖形上看，決策樹首先是一個向下分支的樹形結(jié)構(gòu)，在樹發(fā)起的頂端是整個用以分類的數(shù)據(jù)集，每一個分支出去的葉節(jié)點都對應(yīng)著某一類，或者是某一個劃分，它們是父節(jié)點按某種條件分類、劃分后形成的子集，也就是說每一個節(jié)點都對應(yīng)著某一個子集。決策樹的分枝是自上而下進行的，它尤其適合解決問題的分類或者對應(yīng)某些條件導(dǎo)出的規(guī)則等。每一個分支節(jié)點都能體現(xiàn)出在它之上進行的屬性測試，按測試結(jié)果繼續(xù)分枝，直到達到葉節(jié)點位置。

決策樹分類的過程是一個不斷重復(fù)并向下移動的過程，它包含分裂與剪枝兩個階段。

首先，決策樹根據(jù)訓(xùn)練數(shù)據(jù)集判定頂端根節(jié)點集合的存在，根據(jù)決策樹算法將節(jié)點中的數(shù)據(jù)元組經(jīng)由屬性測試劃分為該節(jié)點上個體類的最好方法與策略。在這其中，每一個內(nèi)部節(jié)點都有一個被標記的屬性，每一個葉節(jié)點都被表示為某一個類，同時每一個分支的弧都記錄一個相對于父節(jié)點的屬性值。分支過程是一個在N節(jié)點上不斷重復(fù)、不斷遞歸的過程。直到被分析數(shù)據(jù)集中的每個子集的記錄數(shù)據(jù)都屬于某一個類別或某一個類起壓倒性多數(shù)優(yōu)勢，決策樹的分類算法才算停止?；蛘?，當事先設(shè)定好決策樹的分類準則，當生成的決策樹能滿足中國分類準則時，決策樹的算法也會停止。最終，形成宛如樹形結(jié)構(gòu)的決策樹規(guī)則模型。

當決策樹生成后，可能因分類條件太多，而形成龐大的樹形結(jié)構(gòu)，使用者一眼望去，觸目都是樹枝樹葉，難以分清主次、重要性。所以，當決策樹的分類完成后，要進行剪枝處理，把不明顯的、不能回答使用者問題的、由于噪聲而形成的分枝等枝葉剪出，得到清晰簡潔的樹形結(jié)構(gòu)。決策樹剪枝時，應(yīng)選擇分裂條件和修剪規(guī)則，以及控制參數(shù)——比如最小節(jié)點的大小，或最大輸?shù)纳疃鹊取獊硐拗茮Q策樹。這里應(yīng)注意的是，剪枝應(yīng)該適度，某些“噪聲點”反而有可能是被忽略的規(guī)則，剪枝應(yīng)慎重。

3 基于ID3算法的C5.0專業(yè)傾向性分析

本文采用SPSS Clementine工具對某高職院校07-09級會計電算化專業(yè)的相關(guān)數(shù)據(jù)進行分析，得到影響學(xué)生的專業(yè)傾向性的因素。

3.1 ID3算法

SPSS Clementine工具軟件中的C5.0組件是基于ID3算法為內(nèi)核的。

ID3算法是由 Quinlan首先提出的一種經(jīng)典的決策樹分類算法對決策樹的其他算法有啟發(fā)意義與深遠的影響，有很多后來發(fā)展的決策樹算法就是在ID3算法的基礎(chǔ)上做的改進。

ID3算法以信息論為基礎(chǔ)，在決策樹中引入了一個很重要的概念——熵。在決策樹的分枝時，劃分后的子集的熵越小越好。

決策樹的基本功能是能夠從數(shù)據(jù)中歸類出分類模型，是一種自頂向下的，基于貪心算法進行搜索訓(xùn)練的解法。另一個ID3算法的衡量標準是信息的增益度。決策樹在分枝時，在任意一個節(jié)點都評估各個屬性的信息增益。信息增益用以衡量熵的期望減少值。信息增益越大，熵的減少量也越大。以最大信息增益的那個屬性作為分枝屬性，以此來構(gòu)造決策樹。

一個ID3算法的定義如下：

（2）：假如同時有n個互相獨立的可能結(jié)果存在，它們存在的概率相同，其概率分布為則有：

記為由該分布傳遞的信息量稱為P的熵。

同時，該事物所具有的不確定量H(X) 為：

該公式記為香農(nóng)信息量公式。一個等概率的二選一事件具有1比特的不確定性。任何一個事件能夠被分解為n個可能的二選一事件，因此它的信息量就是n比特。

（3）一顆決策樹能對一個例子做出正確類別判斷所需要的信息量記為：

（4）一個以屬性 A為根的決策樹中，A具有 v個值{v1,v2,…,vv}，它將A分為v個子集{e1,e2,… ,ev}，假設(shè)ei中含有pi個正例和ni各反例，那么子集di所需的信息期望是I(pi,ni)，即以屬性A為根的信息增益公式為：

3.2 C5.0以專業(yè)傾向為目標建模

這一階段利用Clementine 用C5.0組件以專業(yè)傾向為目標進行建模。圖2展示對07-09級會計電算化專業(yè)學(xué)生的高考信息、分課程專業(yè)課成績等數(shù)據(jù)使用C5.0決策樹建模的結(jié)果。其中成績字段使用的是百分等級成績。

圖2 使用C5.0決策樹對07-09級會計電算化專業(yè)學(xué)生的信息建模的結(jié)果

總共生成4個有效的規(guī)則：

圖3 C5.0專業(yè)傾向規(guī)則集

生成的決策樹極其龐大，經(jīng)由75%剪枝后，得到?jīng)Q策樹如下：

圖4 c5.0經(jīng)由75%剪枝生成的決策樹

3.3 結(jié)果評估

使用評估工具分析其正確性，得到的結(jié)果如圖5所示：

圖5 C5.0的正確性評估

模型的正確性在91.74%，結(jié)果較正確。

從C5.0的建模結(jié)果看到，有三門專業(yè)課對專業(yè)傾向性有極大影響，分別是財務(wù)管理、財務(wù)會計和會計電算化課程。相形之下高考分數(shù)、籍貫、科類、性別等入學(xué)信息并不占主導(dǎo)地位。

4 結(jié)束語

數(shù)據(jù)挖掘得到的知識并不是絕對，一般情況下是針對特定的領(lǐng)域的。本文通過某高職院校07-09級會計電算化專業(yè)的學(xué)生相關(guān)數(shù)據(jù)進行數(shù)據(jù)挖掘，得到了影響專業(yè)傾向性的相關(guān)因素。但是這個影響因素還不具備有廣泛的意義，想要得到對所有高職院校都有影響意義的結(jié)論，則加大參與數(shù)據(jù)挖掘的數(shù)據(jù)，并且參與數(shù)據(jù)挖掘的方法也要多選用幾種。

[1]李云松，羅斌.基于數(shù)據(jù)挖掘的高職高專生源分析系統(tǒng)設(shè)計與實現(xiàn)[J].滁州職業(yè)技術(shù)學(xué)院學(xué)報，2011，（01），12-14.

[2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].第 1版.北京：北京工業(yè)大學(xué)出版社，2002.