亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園中的應(yīng)用研究

        2007-01-01 00:00:00張治斌王艷萍
        計算機教育 2007年6期

        摘要:本文在討論數(shù)據(jù)挖掘技術(shù)的基本概念、決策樹方法的基礎(chǔ)上,提出了決策樹算法在數(shù)字化校園中的應(yīng)用,以高校學(xué)生等級的劃分為例介紹了該算法的實施過程,并對結(jié)果進行了分析,得出供高校管理者決策的結(jié)論。

        關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;數(shù)字化校園;學(xué)生等級

        中圖分類號:G64文獻(xiàn)標(biāo)識碼:B

        文章編號:1672-5913(2007)06-0040-04

        1 引言

        數(shù)字化校園是以數(shù)字化信息為依托,利用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通訊技術(shù)支持學(xué)校教學(xué)和管理信息流,實現(xiàn)教育、教學(xué)、科研、管理、技術(shù)服務(wù)等信息收集、處理、整合、存儲、傳輸、應(yīng)用,使教學(xué)資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。數(shù)字化校園建設(shè)已經(jīng)成為現(xiàn)代高校建設(shè)的重要組成部分,如何更好地利用數(shù)字化校園信息,提高高校教學(xué)效率,從而為社會培養(yǎng)出更多高素質(zhì)人才,是一個值得研究的問題。數(shù)字化校園是面向教師和學(xué)生的,并為教師和學(xué)生服務(wù)。利用數(shù)據(jù)挖掘技術(shù),在了解學(xué)生的各個方面信息的基礎(chǔ)上,通過決策樹算法得到學(xué)生學(xué)習(xí)成績的總體發(fā)展趨勢,為高校教學(xué)提供決策支持作用。

        2 數(shù)據(jù)挖掘技術(shù)

        2.1 數(shù)據(jù)挖掘的基本概念

        數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識的過程[2]。目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎方式來總結(jié)數(shù)據(jù),進而預(yù)測未來可能發(fā)生的行為,從而為決策行為提供有利的支持。

        2.2 決策樹方法

        決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)算法之一,通過大量數(shù)據(jù)有目的地分類,從中找出一些潛在的、對決策有價值的信息,常用于預(yù)測模型中。目前,國際上最有影響力的決策樹方法是ID3決策樹生成算法,C4.5算法是ID3算法的改進,該算法主要采用信息增益比來確定被測試的屬性[3]。

        決策樹(Decision Tree)是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點代表類或類分布。樹的最頂層節(jié)點是根節(jié)點。通常情況下,采用自頂向下遞歸的各個擊破的方式構(gòu)造決策樹,在此過程中,選擇合適的屬性作為測試屬性;采用剪枝方法控制生成的決策樹的大?。皇莾蓚€關(guān)鍵的問題。

        決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構(gòu)造決策樹,算法Generate_ decision_tree生成一棵決策樹的基本步驟。

        輸入:訓(xùn)練樣本samples,由決策屬性表示,候選屬性的集合attribute_list。

        輸出:一棵決策樹。

        (1)創(chuàng)建節(jié)點N;

        (2)if samples 都在同一個類C then;

        (3)返回N作為葉節(jié)點,以類C標(biāo)記;

        (4)if attribute_list為空,以類C標(biāo)記;

        (5)返回N作為葉節(jié)點,標(biāo)記為samples中最普通的類,//多數(shù)表決;

        (6)選擇attribute_list中具有最高信息增益的屬性test_attribute;

        (7) 標(biāo)記節(jié)點N為test_attribute;

        (8)for each test_attribute中的已知值ai //劃分samples;

        (9)由節(jié)點N長出一個條件為test_attribute= ai的分支;

        (10)設(shè)si是samples中test_attribute= ai的樣本的集合,//一個劃分;

        (11)if si為空then;

        (12)加上一個樹葉,標(biāo)記為samples中最普通的類;

        (13)else加上一個由Generate_decision_tree返回的節(jié)點。

        以上遞歸步驟當(dāng)下列條件成立時停止:

        (1)給定節(jié)點的所有樣本屬于同一類;

        (2)沒有剩余屬性可以用來進一步劃分樣本,在此情況下,使用多數(shù)表決;

        (3)分支test_attribute= ai沒有樣本,在這種情況下,以samples中的多數(shù)類創(chuàng)建一個樹葉。

        3 數(shù)字化校園整體框架

        基于當(dāng)前高等院校校園網(wǎng)的基本設(shè)施和已有的各種應(yīng)用服務(wù),一個基于通用的統(tǒng)一身份認(rèn)證和統(tǒng)一信息展示的數(shù)字化校園解決方案的總體框架。這個框架能夠集成各種校園網(wǎng)中的應(yīng)用。各個子系統(tǒng)在數(shù)字化校園中的位置如圖1所示。

        在這個數(shù)字化校園框架中,利用PKI體系結(jié)構(gòu)作為統(tǒng)一身份認(rèn)證系統(tǒng)的基礎(chǔ),以LDAP目錄作為校園網(wǎng)內(nèi)各種身份和信息數(shù)據(jù)的存儲媒體,從而實現(xiàn)Portal信息展示平臺,為校園網(wǎng)內(nèi)各種應(yīng)用服務(wù)的集成與展現(xiàn)提供了途徑。

        4 數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園中應(yīng)用

        數(shù)據(jù)挖掘過程主要經(jīng)歷以下階段:確定數(shù)據(jù)挖掘?qū)ο?、?shù)據(jù)準(zhǔn)備等。下面將結(jié)合數(shù)字化校園介紹數(shù)據(jù)挖掘關(guān)鍵過程的應(yīng)用。

        圖1數(shù)字化校園的整體框架

        4.1 確定數(shù)據(jù)挖掘?qū)ο?/p>

        定義清晰的挖掘?qū)ο?,認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是數(shù)據(jù)挖掘的第一步。在數(shù)字化校園信息庫中,主要的信息就是教師和學(xué)生,如何更好地協(xié)調(diào)教師和學(xué)生的關(guān)系,更好地促進教育事業(yè)的發(fā)展,本文先從本科生著手,來研究本科生在校的基本情況,從而確定以學(xué)生為主體。

        4.2 數(shù)據(jù)準(zhǔn)備

        收集和描述數(shù)據(jù)是整個數(shù)據(jù)挖掘工作中相當(dāng)重要的一部分。數(shù)據(jù)準(zhǔn)備一般包括兩個步驟:數(shù)據(jù)的選擇和數(shù)據(jù)的預(yù)處理。這里主要是在校本科生的家庭出身、學(xué)習(xí)、每月消費、每月借書、社會工作等情況。例如從校園一卡通系統(tǒng)中可以找到某個學(xué)生這個月的消費情況。下面的挖掘方法并未對學(xué)生信息的各個子庫中所有數(shù)據(jù)進行直接挖掘,而是以學(xué)生的數(shù)字化校園中的基本信息作為基礎(chǔ)信息,通過對學(xué)校的各個子庫的個人信息進行加工處理,運用簡單的統(tǒng)計方法對每個子庫信息進行聚合,從而得到進行數(shù)據(jù)挖掘的基本信息。

        把從各個子庫中得到想要的數(shù)據(jù)必須經(jīng)過處理才能應(yīng)用到數(shù)據(jù)挖掘技術(shù)中去。例如我們把學(xué)生通過文字所表現(xiàn)的不同屬性進行量化,以便于算法分析。我們把學(xué)生分為:A、B、C、D、E五個等級,即各個方面都表現(xiàn)優(yōu)秀的學(xué)生為A、中等靠上但次于優(yōu)秀的為B、中等生為C、中等靠下為D、各個方面都很差的為E。

        依據(jù)以上量化標(biāo)準(zhǔn),我們把統(tǒng)計得到用于數(shù)據(jù)樣本的一個6維向量進行初步量化。

        (1)學(xué)生每月消費:超過500元的為高、300~500元的為中、低于300的低。

        (2)圖書館平均每月借書(每月按圖書館開放25天計算):每月光顧圖書館4次以上為優(yōu),2~4次為良,少于2次的為中。

        (3)專業(yè)課平均成績:高于85分的為優(yōu),75~85之間的為良,60~75之間的為中。

        (4)參加社會活動情況:1表示經(jīng)常參加社會活動,0.5表示參加社會活動適度,0表示基本上不參加社會活動。

        (5)家庭出身:“農(nóng)”表示出身農(nóng)民,“工”表示出身工人,“干”表示出身干部。

        (6)學(xué)生等級:各個方面都表現(xiàn)優(yōu)秀的學(xué)生為A,中等靠上但次于優(yōu)秀的為B,中等生為C,中等靠下為D,各個方面都很差的為E。

        下面介紹一個訓(xùn)練樣本,該數(shù)據(jù)樣本選自2003級計算機專業(yè)某個班學(xué)號的前15名,如表1所示。

        4.3 構(gòu)造決策樹

        根據(jù)選取訓(xùn)練樣本數(shù)據(jù)集,取屬性“學(xué)生等級”作為類別標(biāo)識屬性,屬性“家庭出身”、“每月平均消費水平”、“專業(yè)課平均成績”、“圖書館借書”、“參加社會活動”作為屬性集。訓(xùn)練樣本集類A、B、C、D、E所對應(yīng)的樣本個數(shù)記為s1、s2、s3、s4、s5。其中s1=2,s2=4,s3=4,s4=3,s5=2。

        首先,對給定的樣本分類所需的期望信息:

        類似地,我們可以計算Gain(每月平均消費水平)=0.4076,Gain(專業(yè)課平均成績)=1.2668, Gain(圖書館借書)=0.6963, Gain(參加社會活動)=0.266,由于專業(yè)課平均成績在屬性中具有最高信息增益,它被選作測試屬性。創(chuàng)建一個節(jié)點,用專業(yè)課平均成績標(biāo)記,并對于每個屬性值,引出一個分支。樣本據(jù)此劃分,重復(fù)上述步驟,最后返回的最終判定樹如圖2所示。

        4.4 結(jié)果分析

        比較以上5個屬性的信息增益,得到學(xué)生等級決策樹,從而得到以下結(jié)論:

        (1) 可以看出專業(yè)課水平的高低是決定學(xué)生等級的關(guān)鍵因素。

        (2) 圖書館借書次數(shù)較多,可以看出學(xué)生比較重視學(xué)習(xí)。

        (3) 參加社會活動積極的學(xué)生,也是相對較好的學(xué)生。

        (4) 每月消費較高的部分同學(xué)比較側(cè)重于學(xué)習(xí)之外的別的方面,所以這些學(xué)生是較差的。

        (5) 并不是來自家庭貧困的學(xué)生都是好學(xué)生,也不是來自家庭富裕的學(xué)生都是差學(xué)生,雖說大學(xué)生關(guān)鍵是靠個人的努力,學(xué)校的管理和督促對那一部分消費比較高的學(xué)生來說還是能起到一定的作用的。

        5 結(jié)論

        本文根據(jù)數(shù)字化校園系統(tǒng)中所存儲的學(xué)生信息,利用數(shù)據(jù)挖掘技術(shù)的決策樹方法分析了影響學(xué)生等級的重要因素,這只是數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園系統(tǒng)中一個簡單的應(yīng)用。如何充分地利用高校資源,把數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園更好地結(jié)合起來是當(dāng)前高校面臨的一個很重要的現(xiàn)實問題,從而達(dá)到提高教學(xué)質(zhì)量和大學(xué)生素質(zhì)的目的。

        參考文獻(xiàn):

        [1] 陸炯.數(shù)字化校園的總體框架與若干關(guān)鍵技術(shù)的研究[D].南京大學(xué):南京大學(xué)出版社,2004.

        [2] Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.

        [3] 陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004.

        收稿日期:2006-10-08

        作者簡介:張治斌(1953-),男,河南洛陽人,高級工程師,主要研究方向為計算機應(yīng)用。

        国偷自拍av一区二区三区| 尤物精品国产亚洲亚洲av麻豆 | 无码h黄动漫在线播放网站| 中文字幕免费观看视频| 曰欧一片内射vα在线影院| 精品国模一区二区三区| 国产成人无码区免费网站| 国产精品区一区二区三在线播放| www.久久av.com| 亚洲国产成人精品久久成人| 国产乱人伦偷精品视频还看的| 亚洲av不卡免费在线| 亚洲综合av永久无码精品一区二区| 日本久久高清一区二区三区毛片| 欧洲日本一线二线三线区本庄铃 | 特级a欧美做爰片第一次| 日日碰狠狠丁香久燥| 中文人成影院| 国产高清黄色在线观看91 | 日本在线一区二区三区视频| 91久久综合精品久久久综合| 无码专区亚洲综合另类| 国产在线精品一区二区在线看| 日本动态120秒免费| 久久婷婷国产精品香蕉| 伊人婷婷综合缴情亚洲五月| 亚洲夫妻性生活免费视频| 亚洲精品久久一区二区三区777 | 亚洲日韩精品一区二区三区无码 | 吸咬奶头狂揉60分钟视频| 人妻无码中文专区久久AV| 久久久亚洲一区二区三区| 亚洲最大在线视频一区二区| 亚洲国产精彩中文乱码av| 日本亚洲色大成网站www久久| 国产在线不卡视频| 精品一区二区三区女同免费| 久久日日躁夜夜躁狠狠躁| 国产美女露脸口爆吞精| 国产在线不卡AV观看| 国产在线精品亚洲视频在线 |