亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的高職學(xué)生專業(yè)傾向性分析

        2014-01-01 03:04:42吳梨梨
        關(guān)鍵詞:數(shù)據(jù)挖掘分類高職

        吳梨梨

        (1.福州大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院 福建 350000;2.福州英華職業(yè)學(xué)院計算機系 福建 350018)

        0 引言

        從20世紀80年代高職教育起步開始,高職教育在將近三十年的時間中慢慢的普及開來,成為了高等教育結(jié)構(gòu)體系中不可缺少的一部分,對增進高等教育的普及起到了不可忽略的作用,也對社會培養(yǎng)高素質(zhì)的技能型人才發(fā)揮了重要作用。但是在高職學(xué)生畢業(yè)后跟蹤調(diào)查中,會發(fā)現(xiàn)有很大一部分的學(xué)生在畢業(yè)之后并沒有從事跟本專業(yè)相關(guān)的職業(yè)。這里面的原因是多方面的,但是有一個原因需要我們的關(guān)注,那就是學(xué)生對所就讀的專業(yè)不滿意。部分高職學(xué)生由于對專業(yè)陌生而削弱了對專業(yè)的認識與學(xué)習(xí);更多學(xué)生在選擇專業(yè)的時候完全是隨機或隨大流;還有一部分學(xué)生是缺乏學(xué)習(xí)某個專業(yè)所必須的某種技能,導(dǎo)致專業(yè)學(xué)習(xí)能力差,這些因素直接影響了對專業(yè)的學(xué)習(xí),影響了后續(xù)就業(yè)的職業(yè)發(fā)展。在這種情況下,合理地引導(dǎo)學(xué)生認識專業(yè)、喜愛專業(yè),是大學(xué)里教書育人的重要前提。同時我們也可以采用一些技術(shù)手段,對學(xué)生的專業(yè)傾向性進行分析,找出影響專業(yè)學(xué)習(xí)的因素,這樣就可以最大程度地避免在專業(yè)選擇上走彎路。

        1 數(shù)據(jù)挖掘技術(shù)概述

        數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識的過程[1]。

        數(shù)據(jù)挖掘最根本的任務(wù)就是從海量的原始數(shù)據(jù)之中對數(shù)據(jù)進行采集選擇,經(jīng)過預(yù)處理后對目標數(shù)據(jù)作出數(shù)據(jù)挖掘,并解釋評價所得出的知識、模式。圖1展示了數(shù)據(jù)挖掘的一般過程。

        圖1 數(shù)據(jù)挖掘的一般過程

        數(shù)據(jù)挖掘方法是由人工智能、機器學(xué)習(xí)的方法發(fā)展而來,結(jié)合傳統(tǒng)的統(tǒng)計分析方法、模糊數(shù)學(xué)方法及可視化技術(shù),以數(shù)據(jù)庫為研究對象,形成了數(shù)據(jù)挖掘的方法和技術(shù)[2]。包括:關(guān)聯(lián)規(guī)則方法、決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、粗糙集理論方法、遺傳算法、可視化技術(shù)等。

        2 生源質(zhì)量分析中的數(shù)據(jù)挖掘方法

        在本文中進行數(shù)據(jù)挖掘主要采用的是決策樹方法。決策樹具有分類直觀的優(yōu)點,它分類速度快、分類精度高,具有可靠性,容易讀懂的特點,很適合對大型數(shù)據(jù)集進行分類。決策樹的分析結(jié)果既可以顯示為樹形結(jié)構(gòu)的圖表形式,也可以被解讀為“IF→THEN”形式的規(guī)則,即使沒有算法基礎(chǔ)的使用者也可以很快理解它。

        決策樹是由測試節(jié)點和終端節(jié)點組合成的集合。從圖形上看,決策樹首先是一個向下分支的樹形結(jié)構(gòu),在樹發(fā)起的頂端是整個用以分類的數(shù)據(jù)集,每一個分支出去的葉節(jié)點都對應(yīng)著某一類,或者是某一個劃分,它們是父節(jié)點按某種條件分類、劃分后形成的子集,也就是說每一個節(jié)點都對應(yīng)著某一個子集。決策樹的分枝是自上而下進行的,它尤其適合解決問題的分類或者對應(yīng)某些條件導(dǎo)出的規(guī)則等。每一個分支節(jié)點都能體現(xiàn)出在它之上進行的屬性測試,按測試結(jié)果繼續(xù)分枝,直到達到葉節(jié)點位置。

        決策樹分類的過程是一個不斷重復(fù)并向下移動的過程,它包含分裂與剪枝兩個階段。

        首先,決策樹根據(jù)訓(xùn)練數(shù)據(jù)集判定頂端根節(jié)點集合的存在,根據(jù)決策樹算法將節(jié)點中的數(shù)據(jù)元組經(jīng)由屬性測試劃分為該節(jié)點上個體類的最好方法與策略。在這其中,每一個內(nèi)部節(jié)點都有一個被標記的屬性,每一個葉節(jié)點都被表示為某一個類,同時每一個分支的弧都記錄一個相對于父節(jié)點的屬性值。分支過程是一個在N節(jié)點上不斷重復(fù)、不斷遞歸的過程。直到被分析數(shù)據(jù)集中的每個子集的記錄數(shù)據(jù)都屬于某一個類別或某一個類起壓倒性多數(shù)優(yōu)勢,決策樹的分類算法才算停止?;蛘?,當事先設(shè)定好決策樹的分類準則,當生成的決策樹能滿足中國分類準則時,決策樹的算法也會停止。最終,形成宛如樹形結(jié)構(gòu)的決策樹規(guī)則模型。

        當決策樹生成后,可能因分類條件太多,而形成龐大的樹形結(jié)構(gòu),使用者一眼望去,觸目都是樹枝樹葉,難以分清主次、重要性。所以,當決策樹的分類完成后,要進行剪枝處理,把不明顯的、不能回答使用者問題的、由于噪聲而形成的分枝等枝葉剪出,得到清晰簡潔的樹形結(jié)構(gòu)。決策樹剪枝時,應(yīng)選擇分裂條件和修剪規(guī)則,以及控制參數(shù)——比如最小節(jié)點的大小,或最大輸?shù)纳疃鹊取獊硐拗茮Q策樹。這里應(yīng)注意的是,剪枝應(yīng)該適度,某些“噪聲點”反而有可能是被忽略的規(guī)則,剪枝應(yīng)慎重。

        3 基于ID3算法的C5.0專業(yè)傾向性分析

        本文采用SPSS Clementine工具對某高職院校07-09級會計電算化專業(yè)的相關(guān)數(shù)據(jù)進行分析,得到影響學(xué)生的專業(yè)傾向性的因素。

        3.1 ID3算法

        SPSS Clementine工具軟件中的C5.0組件是基于ID3算法為內(nèi)核的。

        ID3算法是由 Quinlan首先提出的一種經(jīng)典的決策樹分類算法對決策樹的其他算法有啟發(fā)意義與深遠的影響,有很多后來發(fā)展的決策樹算法就是在ID3算法的基礎(chǔ)上做的改進。

        ID3算法以信息論為基礎(chǔ),在決策樹中引入了一個很重要的概念——熵。在決策樹的分枝時,劃分后的子集的熵越小越好。

        決策樹的基本功能是能夠從數(shù)據(jù)中歸類出分類模型,是一種自頂向下的,基于貪心算法進行搜索訓(xùn)練的解法。另一個ID3算法的衡量標準是信息的增益度。決策樹在分枝時,在任意一個節(jié)點都評估各個屬性的信息增益。信息增益用以衡量熵的期望減少值。信息增益越大,熵的減少量也越大。以最大信息增益的那個屬性作為分枝屬性,以此來構(gòu)造決策樹。

        一個ID3算法的定義如下:

        (2):假如同時有n個互相獨立的可能結(jié)果存在,它們存在的概率相同,其概率分布為則有:

        記為由該分布傳遞的信息量稱為P的熵。

        同時,該事物所具有的不確定量H(X) 為:

        該公式記為香農(nóng)信息量公式。一個等概率的二選一事件具有1比特的不確定性。任何一個事件能夠被分解為n個可能的二選一事件,因此它的信息量就是n比特。

        (3)一顆決策樹能對一個例子做出正確類別判斷所需要的信息量記為:

        (4)一個以屬性 A為根的決策樹中,A具有 v個值{v1,v2,…,vv},它將A分為v個子集{e1,e2,… ,ev},假設(shè)ei中含有pi個正例和ni各反例,那么子集di所需的信息期望是I(pi,ni),即以屬性A為根的信息增益公式為:

        3.2 C5.0以專業(yè)傾向為目標建模

        這一階段利用Clementine 用C5.0組件以專業(yè)傾向為目標進行建模。圖2展示對07-09級會計電算化專業(yè)學(xué)生的高考信息、分課程專業(yè)課成績等數(shù)據(jù)使用C5.0決策樹建模的結(jié)果。其中成績字段使用的是百分等級成績。

        圖2 使用C5.0決策樹對07-09級會計電算化專業(yè)學(xué)生的信息建模的結(jié)果

        總共生成4個有效的規(guī)則:

        圖3 C5.0專業(yè)傾向規(guī)則集

        生成的決策樹極其龐大,經(jīng)由75%剪枝后,得到?jīng)Q策樹如下:

        圖4 c5.0經(jīng)由75%剪枝生成的決策樹

        3.3 結(jié)果評估

        使用評估工具分析其正確性,得到的結(jié)果如圖5所示:

        圖5 C5.0的正確性評估

        模型的正確性在91.74%,結(jié)果較正確。

        從C5.0的建模結(jié)果看到,有三門專業(yè)課對專業(yè)傾向性有極大影響,分別是財務(wù)管理、財務(wù)會計和會計電算化課程。相形之下高考分數(shù)、籍貫、科類、性別等入學(xué)信息并不占主導(dǎo)地位。

        4 結(jié)束語

        數(shù)據(jù)挖掘得到的知識并不是絕對,一般情況下是針對特定的領(lǐng)域的。本文通過某高職院校07-09級會計電算化專業(yè)的學(xué)生相關(guān)數(shù)據(jù)進行數(shù)據(jù)挖掘,得到了影響專業(yè)傾向性的相關(guān)因素。但是這個影響因素還不具備有廣泛的意義,想要得到對所有高職院校都有影響意義的結(jié)論,則加大參與數(shù)據(jù)挖掘的數(shù)據(jù),并且參與數(shù)據(jù)挖掘的方法也要多選用幾種。

        [1]李云松,羅斌.基于數(shù)據(jù)挖掘的高職高專生源分析系統(tǒng)設(shè)計與實現(xiàn)[J].滁州職業(yè)技術(shù)學(xué)院學(xué)報,2011,(01),12-14.

        [2]陳文偉.數(shù)據(jù)挖掘技術(shù)[M].第 1版.北京:北京工業(yè)大學(xué)出版社,2002.

        猜你喜歡
        數(shù)據(jù)挖掘分類高職
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        高職應(yīng)用文寫作教學(xué)改革與創(chuàng)新
        活力(2019年21期)2019-04-01 12:18:24
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        高職人才培養(yǎng)模式創(chuàng)新探討
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        夜夜躁狠狠躁日日躁视频 | 国产av电影区二区三区曰曰骚网| 国产免费专区| 亚洲av无码av吞精久久| 特级黄色毛片视频| 黑丝美女被内射在线观看| 蜜桃视频一区二区三区四| 亚洲av无码成人精品区狼人影院| 免费夜色污私人影院在线观看| 国产亚洲精品hd网站| 中文字幕乱码亚洲美女精品一区| 亚洲肥婆一区二区三区| 亚洲av无码专区国产不卡顿| 老熟妻内射精品一区| 国产久视频| 区三区久久精品水蜜桃av| av在线播放中文专区| 中文字幕人妻无码视频| 香蕉视频在线精品视频| 国产亚洲欧美精品一区| 国产成人一区二区三区| 亚洲午夜精品一区二区| 国产尤物av尤物在线观看 | 99精品国产闺蜜国产在线闺蜜| 亚洲成在人线天堂网站| 国产精品h片在线播放| 欧美亚洲国产精品久久高清| 午夜短无码| 久久国产精品免费一区二区三区| 亚洲一区二区三区日本久久九| 一本一道av无码中文字幕﹣百度| 国产99久久无码精品| 粗大挺进孕妇人妻在线| aaa日本高清在线播放免费观看| 国产精品久久毛片av大全日韩| 天堂69亚洲精品中文字幕| 美女与黑人巨大进入免费观看 | 国产真人无遮挡作爱免费视频 | 成年人视频在线观看麻豆| 草草地址线路①屁屁影院成人| 一级免费毛片|