亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術在數(shù)字化校園中的應用研究

2007-01-01 00:00:00張治斌王艷萍

計算機教育 2007年6期

摘要：本文在討論數(shù)據(jù)挖掘技術的基本概念、決策樹方法的基礎上，提出了決策樹算法在數(shù)字化校園中的應用，以高校學生等級的劃分為例介紹了該算法的實施過程，并對結果進行了分析，得出供高校管理者決策的結論。

關鍵詞：數(shù)據(jù)挖掘；決策樹算法；數(shù)字化校園；學生等級

中圖分類號：G64文獻標識碼：B

文章編號：1672-5913（2007）06-0040-04

1 引言

數(shù)字化校園是以數(shù)字化信息為依托，利用計算機技術、網(wǎng)絡技術、通訊技術支持學校教學和管理信息流，實現(xiàn)教育、教學、科研、管理、技術服務等信息收集、處理、整合、存儲、傳輸、應用，使教學資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。數(shù)字化校園建設已經(jīng)成為現(xiàn)代高校建設的重要組成部分，如何更好地利用數(shù)字化校園信息，提高高校教學效率，從而為社會培養(yǎng)出更多高素質人才，是一個值得研究的問題。數(shù)字化校園是面向教師和學生的，并為教師和學生服務。利用數(shù)據(jù)挖掘技術，在了解學生的各個方面信息的基礎上，通過決策樹算法得到學生學習成績的總體發(fā)展趨勢，為高校教學提供決策支持作用。

2 數(shù)據(jù)挖掘技術

2.1 數(shù)據(jù)挖掘的基本概念

數(shù)據(jù)挖掘（Data Mining，DM）是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中，提取隱含在其中的、人們不知道的，但又是潛在有用的信息和知識的過程[2]。目的是發(fā)現(xiàn)未知的關系和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎方式來總結數(shù)據(jù)，進而預測未來可能發(fā)生的行為，從而為決策行為提供有利的支持。

2.2 決策樹方法

決策樹方法是數(shù)據(jù)挖掘的核心技術算法之一，通過大量數(shù)據(jù)有目的地分類，從中找出一些潛在的、對決策有價值的信息，常用于預測模型中。目前，國際上最有影響力的決策樹方法是ID3決策樹生成算法，C4.5算法是ID3算法的改進，該算法主要采用信息增益比來確定被測試的屬性[3]。

決策樹（Decision Tree）是一個類似于流程圖的樹結構，其中每個內(nèi)部節(jié)點表示在一個屬性上的測試，每個分支代表一個測試輸出，而每個樹葉節(jié)點代表類或類分布。樹的最頂層節(jié)點是根節(jié)點。通常情況下，采用自頂向下遞歸的各個擊破的方式構造決策樹，在此過程中，選擇合適的屬性作為測試屬性；采用剪枝方法控制生成的決策樹的大小；是兩個關鍵的問題。

決策樹的基本算法是貪心算法，它以自頂向下遞歸的各個擊破方式構造決策樹，算法Generate_ decision_tree生成一棵決策樹的基本步驟。

輸入：訓練樣本samples，由決策屬性表示，候選屬性的集合attribute_list。

輸出：一棵決策樹。

（1）創(chuàng)建節(jié)點N；

（2）if samples 都在同一個類C then；

（3）返回N作為葉節(jié)點，以類C標記；

（4）if attribute_list為空，以類C標記；

（5）返回N作為葉節(jié)點，標記為samples中最普通的類，//多數(shù)表決；

（6）選擇attribute_list中具有最高信息增益的屬性test_attribute;

(7) 標記節(jié)點N為test_attribute;

（8）for each test_attribute中的已知值ai //劃分samples；

（9）由節(jié)點N長出一個條件為test_attribute= ai的分支；

（10）設si是samples中test_attribute= ai的樣本的集合，//一個劃分；

（11）if si為空then；

（12）加上一個樹葉，標記為samples中最普通的類；

（13）else加上一個由Generate_decision_tree返回的節(jié)點。

以上遞歸步驟當下列條件成立時停止：

（1）給定節(jié)點的所有樣本屬于同一類；

（2）沒有剩余屬性可以用來進一步劃分樣本，在此情況下，使用多數(shù)表決；

（3）分支test_attribute= ai沒有樣本，在這種情況下，以samples中的多數(shù)類創(chuàng)建一個樹葉。

3 數(shù)字化校園整體框架

基于當前高等院校校園網(wǎng)的基本設施和已有的各種應用服務，一個基于通用的統(tǒng)一身份認證和統(tǒng)一信息展示的數(shù)字化校園解決方案的總體框架。這個框架能夠集成各種校園網(wǎng)中的應用。各個子系統(tǒng)在數(shù)字化校園中的位置如圖1所示。

在這個數(shù)字化校園框架中，利用PKI體系結構作為統(tǒng)一身份認證系統(tǒng)的基礎，以LDAP目錄作為校園網(wǎng)內(nèi)各種身份和信息數(shù)據(jù)的存儲媒體，從而實現(xiàn)Portal信息展示平臺，為校園網(wǎng)內(nèi)各種應用服務的集成與展現(xiàn)提供了途徑。

4 數(shù)據(jù)挖掘技術在數(shù)字化校園中應用

數(shù)據(jù)挖掘過程主要經(jīng)歷以下階段：確定數(shù)據(jù)挖掘對象、數(shù)據(jù)準備等。下面將結合數(shù)字化校園介紹數(shù)據(jù)挖掘關鍵過程的應用。

圖1數(shù)字化校園的整體框架

4.1 確定數(shù)據(jù)挖掘對象

定義清晰的挖掘對象，認清數(shù)據(jù)挖掘的目標是數(shù)據(jù)挖掘的第一步。在數(shù)字化校園信息庫中，主要的信息就是教師和學生，如何更好地協(xié)調教師和學生的關系，更好地促進教育事業(yè)的發(fā)展，本文先從本科生著手，來研究本科生在校的基本情況，從而確定以學生為主體。

4.2 數(shù)據(jù)準備

收集和描述數(shù)據(jù)是整個數(shù)據(jù)挖掘工作中相當重要的一部分。數(shù)據(jù)準備一般包括兩個步驟：數(shù)據(jù)的選擇和數(shù)據(jù)的預處理。這里主要是在校本科生的家庭出身、學習、每月消費、每月借書、社會工作等情況。例如從校園一卡通系統(tǒng)中可以找到某個學生這個月的消費情況。下面的挖掘方法并未對學生信息的各個子庫中所有數(shù)據(jù)進行直接挖掘，而是以學生的數(shù)字化校園中的基本信息作為基礎信息，通過對學校的各個子庫的個人信息進行加工處理，運用簡單的統(tǒng)計方法對每個子庫信息進行聚合，從而得到進行數(shù)據(jù)挖掘的基本信息。

把從各個子庫中得到想要的數(shù)據(jù)必須經(jīng)過處理才能應用到數(shù)據(jù)挖掘技術中去。例如我們把學生通過文字所表現(xiàn)的不同屬性進行量化，以便于算法分析。我們把學生分為：A、B、C、D、E五個等級，即各個方面都表現(xiàn)優(yōu)秀的學生為A、中等靠上但次于優(yōu)秀的為B、中等生為C、中等靠下為D、各個方面都很差的為E。

依據(jù)以上量化標準，我們把統(tǒng)計得到用于數(shù)據(jù)樣本的一個6維向量進行初步量化。

（1）學生每月消費：超過500元的為高、300~500元的為中、低于300的低。

（2）圖書館平均每月借書（每月按圖書館開放25天計算）：每月光顧圖書館4次以上為優(yōu)，2~4次為良，少于2次的為中。

（3）專業(yè)課平均成績：高于85分的為優(yōu)，75~85之間的為良，60~75之間的為中。

（4）參加社會活動情況：1表示經(jīng)常參加社會活動，0.5表示參加社會活動適度，0表示基本上不參加社會活動。

（5）家庭出身：“農(nóng)”表示出身農(nóng)民，“工”表示出身工人，“干”表示出身干部。

（6）學生等級：各個方面都表現(xiàn)優(yōu)秀的學生為A，中等靠上但次于優(yōu)秀的為B，中等生為C，中等靠下為D，各個方面都很差的為E。

下面介紹一個訓練樣本，該數(shù)據(jù)樣本選自2003級計算機專業(yè)某個班學號的前15名，如表1所示。

4.3 構造決策樹

根據(jù)選取訓練樣本數(shù)據(jù)集，取屬性“學生等級”作為類別標識屬性，屬性“家庭出身”、“每月平均消費水平”、“專業(yè)課平均成績”、“圖書館借書”、“參加社會活動”作為屬性集。訓練樣本集類A、B、C、D、E所對應的樣本個數(shù)記為s₁、s₂、s₃、s₄、s₅。其中s₁=2，s₂=4，s₃=4，s₄=3，s₅=2。

首先，對給定的樣本分類所需的期望信息：

類似地，我們可以計算Gain（每月平均消費水平）＝０.4076，Gain（專業(yè)課平均成績）＝1.2668， Gain（圖書館借書）＝0.6963， Gain（參加社會活動）＝0.266，由于專業(yè)課平均成績在屬性中具有最高信息增益，它被選作測試屬性。創(chuàng)建一個節(jié)點，用專業(yè)課平均成績標記，并對于每個屬性值，引出一個分支。樣本據(jù)此劃分，重復上述步驟，最后返回的最終判定樹如圖2所示。

4.4 結果分析

比較以上5個屬性的信息增益，得到學生等級決策樹，從而得到以下結論：

(1) 可以看出專業(yè)課水平的高低是決定學生等級的關鍵因素。

(2) 圖書館借書次數(shù)較多，可以看出學生比較重視學習。

(3) 參加社會活動積極的學生，也是相對較好的學生。

(4) 每月消費較高的部分同學比較側重于學習之外的別的方面，所以這些學生是較差的。

(5) 并不是來自家庭貧困的學生都是好學生，也不是來自家庭富裕的學生都是差學生，雖說大學生關鍵是靠個人的努力，學校的管理和督促對那一部分消費比較高的學生來說還是能起到一定的作用的。

5 結論

本文根據(jù)數(shù)字化校園系統(tǒng)中所存儲的學生信息，利用數(shù)據(jù)挖掘技術的決策樹方法分析了影響學生等級的重要因素，這只是數(shù)據(jù)挖掘技術在數(shù)字化校園系統(tǒng)中一個簡單的應用。如何充分地利用高校資源，把數(shù)據(jù)挖掘技術和數(shù)字化校園更好地結合起來是當前高校面臨的一個很重要的現(xiàn)實問題，從而達到提高教學質量和大學生素質的目的。

參考文獻：

[1] 陸炯.數(shù)字化校園的總體框架與若干關鍵技術的研究[D].南京大學:南京大學出版社，2004.

[2] Jiawei Han， Micheline Kamber.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社，2001.

[3] 陳文偉，黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社，2004.

收稿日期：2006-10-08

作者簡介：張治斌（1953-），男，河南洛陽人，高級工程師，主要研究方向為計算機應用。

計算機教育2007年6期

計算機教育的其它文章: 教育系統(tǒng)模型與過程模型的研究及應用; 計算機基礎教學改革與創(chuàng)新型人才培養(yǎng)的研究; 談“計算機圖像處理”課程實例教學法; 用生活中的管理思想去講操作系統(tǒng); 關于Ｃ語言教學方法和程序設計的探討; 計算機基礎教學全過程貼近不同藝術類專業(yè)需求的研究