亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        聚類分析數(shù)據(jù)挖掘技術(shù)在成人招生中的應(yīng)用

        2018-11-17 07:10:18傅振南
        關(guān)鍵詞:字段類別數(shù)據(jù)挖掘

        傅振南

        (福建教育學(xué)院,福建 福州 350025)

        大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘被廣泛應(yīng)用于新零售、金融商業(yè)、科學(xué)研究、數(shù)據(jù)云服務(wù)、高校管理等領(lǐng)域。隨著教育改革的進(jìn)一步深化,成人高等教育面臨著諸多挑戰(zhàn),在普通高等教育擴(kuò)招的沖擊下,生源萎縮相當(dāng)嚴(yán)重,競(jìng)爭(zhēng)日趨白熱化,在招生高校數(shù)量不變而生源急劇減少的情況下,拿出更管用更精準(zhǔn)的招生宣傳方法是制勝的關(guān)鍵點(diǎn)。文章以F院校成人招生錄取數(shù)據(jù)為例,通過(guò)聚類分析數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘分析,為招生宣傳工作提供有力決策支持。

        一、聚類分析數(shù)據(jù)挖掘技術(shù)概述

        1.聚類分析數(shù)據(jù)挖掘技術(shù)

        常用的數(shù)據(jù)挖掘技術(shù)包括:神經(jīng)網(wǎng)絡(luò)、決策樹、聚類分析、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、粗糙集方法、支持向量機(jī)、遺傳算法等。數(shù)據(jù)挖掘?qū)嶋H上是挖掘算法的選擇、執(zhí)行階段。文章首先根據(jù)挖掘任務(wù),從常用的技術(shù)中選擇適合數(shù)據(jù)分析提取的聚類分析技術(shù)算法。聚類分析被廣泛應(yīng)用于模式識(shí)別、市場(chǎng)研究、數(shù)據(jù)分析等眾多應(yīng)用領(lǐng)域,是數(shù)據(jù)挖掘研究領(lǐng)域一個(gè)重要分支。它適合探討樣本數(shù)據(jù)的內(nèi)部關(guān)系,因?yàn)槊總€(gè)樣本數(shù)據(jù)的類別都是未知的,它是用一定的關(guān)聯(lián)標(biāo)準(zhǔn)將所提供的樣本數(shù)據(jù)劃分成不同的族,同一族內(nèi)的樣本數(shù)據(jù)相似度較高,相似度用距離作為度量方式,根據(jù)對(duì)象的屬性值來(lái)進(jìn)行分析評(píng)估。K-Means是典型的基于劃分的一種聚類算法。其中K表示類別數(shù),Means表示均值,因此K-Means不難理解是一種通過(guò)均值對(duì)數(shù)據(jù)單元進(jìn)行聚類的算法。下面利用K-means 聚類算法的特性,去分析招生宣傳對(duì)象所在單位類型存在不同的特征,并加以分析應(yīng)用。

        2.使用聚類分析數(shù)據(jù)挖掘技術(shù)的主要流程

        做任何工作首先都要確定它的目的任務(wù),數(shù)據(jù)挖掘也不例外,確定任務(wù)后再細(xì)分選擇數(shù)據(jù),清洗一些屬性缺失、錯(cuò)誤數(shù)據(jù)值、違反完整約束規(guī)則的數(shù)據(jù),并搜集遺漏數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整合,整合完有重復(fù)記錄須清洗去除。接著做數(shù)據(jù)預(yù)處理分析,進(jìn)一步考證數(shù)據(jù)質(zhì)量,為進(jìn)一步分析做好準(zhǔn)備,根據(jù)事先確定的分析任務(wù),從準(zhǔn)備好的數(shù)據(jù)中提取與任務(wù)相關(guān)的數(shù)據(jù),并選擇挖掘操作類型。最后將數(shù)據(jù)轉(zhuǎn)換成針對(duì)挖掘算法建立的分析模型,這也是數(shù)據(jù)挖掘成功與否的關(guān)鍵。

        二、聚類分析數(shù)據(jù)挖掘過(guò)程和分析——以F院校2017年錄取數(shù)據(jù)為例

        1.收集樣本數(shù)據(jù)

        從成人高校招生系統(tǒng)導(dǎo)出F院校2017年19張錄取數(shù)據(jù)表,主要包括考生投檔單表、專業(yè)代碼表、職業(yè)類別表、性別代碼表等。

        2.?dāng)?shù)據(jù)預(yù)處理

        (1)數(shù)據(jù)提取。根據(jù)原先確定的分析目標(biāo)提取出樣本數(shù)據(jù)字段,主要從主表——考生的投檔單表(T_TDD.DBF)中提取分析目標(biāo)相關(guān)的樣本數(shù)據(jù)字段,主要是考生的畢業(yè)學(xué)校、所在單位、從業(yè)類別、性別等。由于數(shù)據(jù)庫(kù)設(shè)計(jì)的原因,T_TDD.DBF表中有些字段是用代碼表示,無(wú)法直接讀取它的真正表達(dá)意思,如性別用“0”和“1”代碼表示,民族、政治面貌、招生類別、招生層次、招生專業(yè)等字段也均用數(shù)字代碼標(biāo)記,因此需要先做好這些代碼的轉(zhuǎn)換工作,將其整理成一目了然的標(biāo)識(shí),表達(dá)出它的實(shí)際意思。轉(zhuǎn)換好相關(guān)樣本數(shù)據(jù)表的格式,將其用SQL Server 2000或ACCESS 2003以及更高版本的數(shù)據(jù)庫(kù)操作軟件進(jìn)行表間的數(shù)據(jù)關(guān)聯(lián)操作,然后通過(guò)菜單操作或SQL語(yǔ)句進(jìn)行連接。

        (2)數(shù)據(jù)清洗。連接整合處理后的考生投檔單表(T_TDD.DBF)由68個(gè)字段組成,要進(jìn)行有效的邏輯轉(zhuǎn)換前需要根據(jù)分析目標(biāo)所需的相關(guān)樣本數(shù)據(jù)字段,可使用可視化分析技術(shù)工具如分布圖、條形圖、直方圖去除對(duì)目標(biāo)分析不存在任何意義的字段。比如招生類別字段,99.6%的字段值都為“統(tǒng)一考試”,對(duì)目標(biāo)分析結(jié)果無(wú)任何意義,如圖1,另如果一個(gè)表內(nèi)的字段值超過(guò)97%都為“NULL”,該字段對(duì)目標(biāo)分析結(jié)果也毫無(wú)意義,將這些字段及跟分析結(jié)果不相關(guān)的考生號(hào)、準(zhǔn)考證號(hào)、政治面貌等字段去除,經(jīng)前后對(duì)照考慮,選取考生投檔單表(T_TDD.DBF)中的與任務(wù)挖掘高度關(guān)聯(lián)的教學(xué)站點(diǎn)、畢業(yè)學(xué)校、錄取專業(yè)、職業(yè)類別、性別、成績(jī)等6個(gè)字段。

        圖1 招生類別字段分布圖

        (3)數(shù)據(jù)邏輯轉(zhuǎn)換。通過(guò)這個(gè)步驟,將考生投檔單表(T_TDD.DBF)的考生數(shù)據(jù)按歸屬教學(xué)站點(diǎn)進(jìn)行聚合,根據(jù)以往錄取直觀經(jīng)驗(yàn)考慮,不同教學(xué)站點(diǎn)分布的專業(yè)不同,增加專業(yè)錄取人數(shù)、錄取平均分等字段信息,整合轉(zhuǎn)換后的探索性數(shù)據(jù)集字段如下:教學(xué)站點(diǎn)、錄取人數(shù)、錄取平均分、人力資源管理人數(shù)、行政管理人數(shù)、學(xué)前教育人數(shù)、會(huì)計(jì)人數(shù)、工商企業(yè)管理人數(shù)、小學(xué)教育人數(shù)、電子商務(wù)人數(shù)、市場(chǎng)營(yíng)銷人數(shù)、工程造價(jià)人數(shù)、機(jī)電一體化技術(shù)人數(shù)、建筑工程技術(shù)人數(shù)、計(jì)算機(jī)應(yīng)用技術(shù)人數(shù)、電氣自動(dòng)化技術(shù)人數(shù)、電子信息工程技術(shù)人數(shù)、數(shù)控技術(shù)人數(shù)、各畢業(yè)學(xué)校人數(shù)、各職業(yè)類別人數(shù)。

        (4)數(shù)據(jù)規(guī)范化。不同教學(xué)站點(diǎn)樣本數(shù)據(jù)屬性的度量單位不致相同,特別是職業(yè)類別、投檔成績(jī)和專業(yè)人數(shù),采用Max-MAX規(guī)范化方式對(duì)此類樣本數(shù)據(jù)集進(jìn)行線性變換標(biāo)準(zhǔn)化操作,可防止初始值域的屬性權(quán)重兩極化。。

        3.結(jié)果可視化

        K-means聚類算法產(chǎn)生教學(xué)站點(diǎn)探索性數(shù)據(jù)集時(shí),重點(diǎn)要將學(xué)生所在教學(xué)站點(diǎn)分成幾個(gè)簇,因?yàn)樗鞬-means算法中k的確定。本方案采用探索性方法,分別創(chuàng)建了包含4,5,6,7,8,9,10個(gè)簇的聚類模型,對(duì)結(jié)果進(jìn)行分析比較,綜合可用性、可解釋性原則,發(fā)現(xiàn)6個(gè)簇聚類模型信息提供最多,也相對(duì)容易將結(jié)果進(jìn)行展示。

        為便于對(duì)聚類挖掘結(jié)果進(jìn)行解釋和分析,采用可視化技術(shù)工具條形圖,找出各簇所表示的獨(dú)特性質(zhì),比較各簇在不同字段上的分布情況,以便提取有用的信息,共生成10幅條形圖,因?yàn)槠拗?,文章只選取圖2展示聚類1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類的顯著特性,表1顯示了各個(gè)聚類簇的特征。

        圖2 聚類1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類的顯著特性展示

        表1 各簇的特征匯總

        三、結(jié)果研究與應(yīng)用

        通過(guò)聚類結(jié)果分析得出1-6簇的特征匯總,結(jié)合筆者日常招生宣傳的經(jīng)驗(yàn)總結(jié)、實(shí)際情況,可在以下幾方面進(jìn)行精準(zhǔn)招生宣傳工作:1.族1可以看出職業(yè)中專學(xué)校對(duì)這兩個(gè)專業(yè)提升學(xué)歷有需求,此類專業(yè)重點(diǎn)宣傳對(duì)象為職業(yè)中專學(xué)校學(xué)生。2.族2可以看出技工類學(xué)校對(duì)理工類專業(yè)提升學(xué)歷有需求,此類專業(yè)重點(diǎn)宣傳對(duì)象為技工類學(xué)?;蚬た祁悓W(xué)校學(xué)生。3.族3可以看出這些教學(xué)站點(diǎn)生源主要是在城鄉(xiāng)結(jié)合部或農(nóng)村的男性打工或務(wù)農(nóng)人員,文化水平不高,可重點(diǎn)在這些區(qū)域的地方媒介進(jìn)行宣傳,為這類人群進(jìn)行考前輔導(dǎo),避免想學(xué)沒(méi)考上的問(wèn)題出現(xiàn)。4.族4可以看出負(fù)責(zé)電子商務(wù)、工程造價(jià)的教學(xué)站點(diǎn)對(duì)這兩個(gè)專業(yè)招生宣傳不夠,沒(méi)針對(duì)性在行業(yè)里進(jìn)行招生宣傳,須加強(qiáng)。5.族5可以看出這個(gè)教學(xué)站點(diǎn)報(bào)考專業(yè)很集中,考生的職業(yè)類別大部分為“辦事人員”,對(duì)專業(yè)要求不高,招生宣傳時(shí)統(tǒng)一引導(dǎo)到一個(gè)專業(yè),以便更好教學(xué)管理,節(jié)省人力物力。

        綜上,通過(guò)對(duì)成人招生錄取數(shù)據(jù)的挖掘分析,為招生宣傳決策提供了一定的參考。但未對(duì)分析結(jié)果適用高校的范圍進(jìn)行挖掘,通用性值得進(jìn)一步研究。

        猜你喜歡
        字段類別數(shù)據(jù)挖掘
        圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        服務(wù)類別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        CNMARC304字段和314字段責(zé)任附注方式解析
        無(wú)正題名文獻(xiàn)著錄方法評(píng)述
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        我想看久久久一级黄片| 亚洲av鲁丝一区二区三区| 亚洲天堂av三区四区不卡| 午夜福利影院成人影院| 中文字幕一区二区中出后入| 中文字幕日韩人妻少妇毛片| 国产精品亚洲专区无码不卡| 亚洲最新无码中文字幕久久| 日本边添边摸边做边爱喷水| 超碰色偷偷男人的天堂| 不卡av电影在线| 国产精品永久免费| 欧美日韩国产码高清综合人成| 亚洲中文字幕久久精品无码喷水| 久久久国产精品免费a片3d| 久久久久香蕉国产线看观看伊| 亚洲av成人无码网站…| 五月天激情婷婷婷久久| 国产人澡人澡澡澡人碰视频| 中文在线天堂网www| 欧美乱人伦中文字幕在线不卡| 国产一起色一起爱| 国产精品国产三级国产an| 日本av在线精品视频| 国产精品女人一区二区三区| 午夜麻豆视频在线观看| 高清中文字幕一区二区三区| 亚洲av日韩一卡二卡| 亚洲天堂一区av在线| 日本高清在线一区二区三区| 国产精品亚洲专区无码不卡| 亚洲av色香蕉一区二区三区蜜桃 | 伊人久久亚洲精品中文字幕| 亚洲av老熟女一区二区三区 | 97久久草草超级碰碰碰| 欧美做受视频播放| 一区二区三区岛国av毛片| 好看的中文字幕中文在线| 日韩精品免费在线视频一区| 黄色av亚洲在线观看| 亚洲精品久久久久中文字幕|