徐 麗 徐志明 陳 峰
(景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333000;2、景德鎮(zhèn)市財(cái)政局,江西 景德鎮(zhèn) 333000)
現(xiàn)代遠(yuǎn)程教育系統(tǒng)是對傳統(tǒng)教學(xué)模式的一次革命,它突破了傳統(tǒng)“面授”教學(xué)的局限,為網(wǎng)絡(luò)學(xué)員提供了自由的學(xué)習(xí)時(shí)間、優(yōu)秀學(xué)習(xí)資源共享、不受空間限制、動(dòng)態(tài)交互式的全新教學(xué)模式。其設(shè)計(jì)大多基于XML標(biāo)準(zhǔn)和大型分布式數(shù)據(jù)庫等新一代設(shè)計(jì)環(huán)境。在遠(yuǎn)程教育平臺系統(tǒng)上開展數(shù)據(jù)挖掘可以整合XML和OLAP等技術(shù)優(yōu)勢,使遠(yuǎn)程學(xué)習(xí)系統(tǒng)的設(shè)計(jì)以用戶為中心,各類教學(xué)資源都適應(yīng)網(wǎng)站學(xué)習(xí)用戶需求進(jìn)行差異化排列組合。
當(dāng)前流行的遠(yuǎn)程教學(xué)系統(tǒng)組織框架一般包括個(gè)性化的組合課程模塊、分階段的考試系統(tǒng)、遠(yuǎn)程教育數(shù)據(jù)流控制動(dòng)態(tài)調(diào)配模塊、作業(yè)答疑等子系統(tǒng)。結(jié)合WEB數(shù)據(jù)挖掘技術(shù),可以針對當(dāng)前遠(yuǎn)程教育平臺體系中的一些不足,充分發(fā)揮數(shù)據(jù)挖掘在互聯(lián)網(wǎng)大數(shù)據(jù)處理中的優(yōu)勢,為網(wǎng)絡(luò)學(xué)員提供可定制化的學(xué)習(xí)進(jìn)度安排,提高網(wǎng)絡(luò)教育的質(zhì)量。
在一些熱門的遠(yuǎn)程教育系統(tǒng)中,比如新東方網(wǎng)校、中華會計(jì)網(wǎng)校以及國內(nèi)外一些著名高校的遠(yuǎn)程教育網(wǎng)站。教師和學(xué)員在教學(xué)互動(dòng)中處于不同的空間、時(shí)間,網(wǎng)站通過動(dòng)態(tài)交互頁面從注冊招生、教學(xué)管理、學(xué)員信息維護(hù)等多方位對整個(gè)教學(xué)過程進(jìn)行管理。對遠(yuǎn)程教育網(wǎng)站的各種用戶行為(如瀏覽空間、模塊點(diǎn)擊頻度)進(jìn)行數(shù)據(jù)挖掘,獲取有用的知識,并隨之更新網(wǎng)站搜索引擎和web頁面設(shè)計(jì),提供有針對性的服務(wù)內(nèi)容,使遠(yuǎn)程教學(xué)平臺的各類資源圍繞學(xué)生的個(gè)性化需求配置。
近年來,數(shù)據(jù)挖掘技術(shù)的應(yīng)用引起了人們的極大關(guān)注。在這關(guān)注的背后是自上世紀(jì)九十年代以來各種大型的商業(yè)數(shù)據(jù)庫廣泛應(yīng)用,產(chǎn)生了大量的歷史數(shù)據(jù),而各種商業(yè)目的迫切需要從這些不斷產(chǎn)生的數(shù)據(jù)中挖掘出有用的知識,這些獲取的信息和知識已被證明有著廣泛的價(jià)值和應(yīng)用。
作為一種較新的信息分析處理技術(shù),數(shù)據(jù)挖掘(Data Mining)的核心步驟是對數(shù)據(jù)倉庫中的大量留存的歷史業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換和分類模型化處理,進(jìn)而實(shí)現(xiàn)輔助設(shè)計(jì)、事務(wù)決策、全局分析等高價(jià)值商業(yè)目的。挖掘數(shù)據(jù)倉庫是一個(gè)多步驟的分析過程,包括問題定義、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、調(diào)整數(shù)據(jù)、模型化、評價(jià)和解釋等。知識提取往往需要反復(fù)對相關(guān)數(shù)據(jù)再處理以及對知識學(xué)習(xí)算法不斷優(yōu)化。發(fā)現(xiàn)的知識必須經(jīng)過實(shí)踐的檢驗(yàn),在應(yīng)用中根據(jù)實(shí)際環(huán)境修改策略重新學(xué)習(xí)使得獲取的知識更精確化,新發(fā)現(xiàn)的知識對已有的知識進(jìn)行拓展變得全面從而更符合現(xiàn)實(shí)情況。
數(shù)據(jù)挖掘是一個(gè)以數(shù)據(jù)庫、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、模糊論等幾個(gè)支柱技術(shù)為基礎(chǔ)。數(shù)據(jù)挖掘算法的輸入是通過轉(zhuǎn)換接口導(dǎo)入的領(lǐng)域知識、元數(shù)據(jù);輸出是新發(fā)現(xiàn)的規(guī)律或模式;中間的處理過程由知識發(fā)現(xiàn)系統(tǒng)管理器智能化引導(dǎo)。數(shù)據(jù)挖掘主要涉及挖掘內(nèi)容、挖掘引擎構(gòu)造、挖掘任務(wù)三個(gè)方面。其中的挖掘內(nèi)容包括關(guān)系數(shù)據(jù)庫、文本數(shù)據(jù)庫、對象數(shù)據(jù)庫、空間數(shù)據(jù)庫、多媒體數(shù)據(jù)庫及ODS(操作數(shù)據(jù)存儲)等。常用的挖掘方法大致分為:關(guān)聯(lián)規(guī)則算法、分類構(gòu)造法、遺傳算法、人工智能法,針對大型分布式WEB數(shù)據(jù)庫主要有多維數(shù)據(jù)分析方法、基于網(wǎng)格的聚類方法、貝葉斯分類算法和決策樹分類算法。
流行的數(shù)據(jù)挖掘工具有:基于粗糙集的工具、基于規(guī)則和決策樹的工具、基于公式發(fā)現(xiàn)的工具以及綜合以上多種方法的工具。數(shù)據(jù)挖掘工具主要可分為特定領(lǐng)域使用的和通用的。著名的如SKICAT系統(tǒng)、Advanced Scout系統(tǒng)均是特定領(lǐng)域的數(shù)據(jù)挖掘工具,Advanced Scout系統(tǒng)由IBM公司開發(fā),針對NBA的數(shù)據(jù),幫助球隊(duì)優(yōu)化戰(zhàn)術(shù)組合;SKICAT系統(tǒng)由CIT設(shè)計(jì),幫助人們發(fā)現(xiàn)遙遠(yuǎn)的類星體。特定領(lǐng)域的數(shù)據(jù)挖掘工具針對性強(qiáng),采用獨(dú)特的算法實(shí)現(xiàn)特殊的目的。通用的數(shù)據(jù)挖掘工具,采用通用的挖掘算法處理常見的數(shù)據(jù)類型,用戶可以自己定義挖掘的范圍和模式。投入初步商業(yè)化應(yīng)用的如:加拿大西蒙菲莎大學(xué)研發(fā)的DB Miner軟件,SGI公司設(shè)計(jì)的Mine Set系統(tǒng)。
對于遠(yuǎn)程教育網(wǎng)站平臺而言,對網(wǎng)頁的瀏覽量、點(diǎn)擊率等數(shù)據(jù)進(jìn)行專門的收集存儲,建立DW并展開挖掘分析,可以提供有針對性的服務(wù)引導(dǎo),及時(shí)優(yōu)化搜索引擎算法路徑和Web頁面框架設(shè)計(jì)。
通過對網(wǎng)站系統(tǒng)架構(gòu)改進(jìn)重組,可以幫助系統(tǒng)管理人員創(chuàng)建一個(gè)高效的技術(shù)體系,優(yōu)化服務(wù)器的通信:比如采用自動(dòng)歸類技術(shù)實(shí)現(xiàn)網(wǎng)站信息的層次性組織,結(jié)合對用戶訪問日志的挖掘,把握用戶的興趣,開展個(gè)人信息的定制和推送;通過Web頁面數(shù)據(jù)提取,挖掘?yàn)g覽歷史信息,提高網(wǎng)絡(luò)利用率,從而加快網(wǎng)站響應(yīng)時(shí)間。
由于Web信息呈現(xiàn)半結(jié)構(gòu)和無結(jié)構(gòu)的特征,傳統(tǒng)的搜索引擎功能設(shè)計(jì)已不能夠滿足互聯(lián)網(wǎng)知識搜索的需求,更別提WEB上的知識發(fā)現(xiàn)。因此,針對Web信息的數(shù)據(jù)挖掘可以使遠(yuǎn)程教育平臺的信息檢索水平得到較大的提升。Web數(shù)據(jù)挖掘一般分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web日志挖掘,為提高對Web挖掘結(jié)果的興趣性,可以將上述三類挖掘方法一并使用。
隨著WEB應(yīng)用的深入,XML的優(yōu)點(diǎn)愈發(fā)明顯。首先,作為半結(jié)構(gòu)化的XML規(guī)范,XML將顯示與數(shù)據(jù)內(nèi)容分離并徹底把標(biāo)示的概念與顯示分開,處理者能夠嵌套程序化的描述顯示數(shù)據(jù);其次,XML解決了數(shù)據(jù)的統(tǒng)一接口問題并且XML能增加結(jié)構(gòu)和語義信息,使得統(tǒng)一數(shù)據(jù)以不同面貌展現(xiàn)給不同用戶;除此以外,XML應(yīng)用于網(wǎng)絡(luò)代理的所取得的信息編輯可以很好地適應(yīng)個(gè)人用戶需要。利用XML的上述優(yōu)勢,遠(yuǎn)程教育平臺在實(shí)現(xiàn)智能交互時(shí),搜索部件就不必了解每個(gè)數(shù)據(jù)庫是如何構(gòu)建的。
OLAP是共享多維信息的、針對特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析的快速軟件技術(shù)。它具有靈活的分析功能、直觀的數(shù)據(jù)操作和分析結(jié)果可視化表示等突出優(yōu)點(diǎn),從而使管理方對大量的遠(yuǎn)程網(wǎng)絡(luò)教學(xué)數(shù)據(jù)的挖掘分析變得輕松而高效。
要在遠(yuǎn)程教育系統(tǒng)中構(gòu)建二級個(gè)性化教學(xué)子平臺,必須先對網(wǎng)絡(luò)學(xué)員各階段的學(xué)習(xí)情況給出較全面的評估,之后再匹配相關(guān)的教學(xué)方案。我們可以建立如下的多維數(shù)據(jù)模型獲取對學(xué)員的評估:
⑴事實(shí)數(shù)據(jù)表。事實(shí)數(shù)據(jù)表是數(shù)據(jù)倉庫結(jié)構(gòu)中的中央表,它包含聯(lián)系事實(shí)與維度表的度量值和鍵,事實(shí)數(shù)據(jù)表包含描述業(yè)務(wù)特定事件的數(shù)據(jù)。遠(yuǎn)程教育平臺系統(tǒng)的中心主題是對學(xué)員的學(xué)習(xí)事實(shí)做出多維度的評價(jià),對網(wǎng)站學(xué)員的評價(jià)維度我們可以提取為簡單直觀的數(shù)值表示,對每個(gè)維度分別給出數(shù)字的度量值,然后進(jìn)行綜合加權(quán)出最后的結(jié)果。
⑵項(xiàng)目評價(jià)維度表。學(xué)員是整個(gè)遠(yuǎn)程教育網(wǎng)站服務(wù)的中心對象,要實(shí)現(xiàn)平臺真正的個(gè)性化教學(xué)功能,必須利用數(shù)據(jù)捕獲技術(shù)動(dòng)態(tài)地跟蹤學(xué)員的學(xué)習(xí)活動(dòng),并及時(shí)對其學(xué)習(xí)進(jìn)度、成效做出評價(jià),反饋相關(guān)建議信息。評價(jià)的項(xiàng)目維度有四個(gè)方面:作業(yè)答疑情況、網(wǎng)站資源利用率、測試結(jié)果、交互程度。
⑶知識維度表。知識維度表存放課件中重要知識點(diǎn)的組織架構(gòu)。在傳統(tǒng)文本形式的課件中,知識維度表架構(gòu)呈現(xiàn)的是樹狀形式。其不僅可以從多重粒度上了解學(xué)員的學(xué)習(xí)效果,而且更便于掌握學(xué)員學(xué)習(xí)進(jìn)度。我們在學(xué)習(xí)進(jìn)程中是從上到下依次遍歷各知識節(jié)點(diǎn),不會遺漏。其缺點(diǎn)是在分析難點(diǎn)和重點(diǎn)時(shí),通常是愛莫能助的。要實(shí)現(xiàn)個(gè)性化教學(xué),我們須另外構(gòu)造一種知識結(jié)構(gòu)圖,其基于有序矢量路徑的拓?fù)浣Y(jié)構(gòu)并假設(shè)新的知識點(diǎn)由一個(gè)或一個(gè)以上的已被掌握的知識積累形成,這種繼承關(guān)系組織知識架構(gòu)去除了章、節(jié)等傳統(tǒng)結(jié)構(gòu),只留下要學(xué)習(xí)的知識點(diǎn)依照先后關(guān)系建構(gòu)出有序可追溯的知識結(jié)構(gòu)圖。對于學(xué)員碰到的重點(diǎn)、難點(diǎn)可以結(jié)合互動(dòng)測試,根據(jù)相關(guān)結(jié)果重新進(jìn)入相應(yīng)知識結(jié)構(gòu)圖的節(jié)點(diǎn)重新學(xué)習(xí),從而針對性的突破學(xué)員遇到的課程重難點(diǎn)。
在網(wǎng)絡(luò)平臺教學(xué)資源建設(shè)上,為了更具備針對性,按如下步驟進(jìn)行:首先對網(wǎng)站學(xué)員選擇的課程聚類并建立關(guān)注度模型,建立關(guān)注度和課件間關(guān)聯(lián),調(diào)整課件制作方案,通過聚類算法標(biāo)記每門課程;其次,根據(jù)關(guān)聯(lián)規(guī)則估計(jì)出若干組同類課程課件,根據(jù)類別標(biāo)記輸入訓(xùn)練集,構(gòu)造分類器;最后計(jì)算關(guān)鍵字段使用頻度的平均值、方差值等統(tǒng)計(jì)數(shù)據(jù),利用OLAP對數(shù)據(jù)倉庫進(jìn)行多維分析,引導(dǎo)序列模式預(yù)測出學(xué)員感興趣的課件,根據(jù)學(xué)員需求配置相關(guān)教學(xué)資源。
要實(shí)現(xiàn)遠(yuǎn)程網(wǎng)絡(luò)教育平臺的個(gè)性化教學(xué),很重要的一點(diǎn)是要對學(xué)習(xí)者個(gè)體數(shù)據(jù)進(jìn)行差異化分析處理。利用數(shù)據(jù)挖掘中分類和聚類分析的方法,依照學(xué)生的興趣愛好為其推薦相關(guān)知識點(diǎn),并在學(xué)習(xí)過程中不斷調(diào)整,因材施教;根據(jù)學(xué)員的測試成績挖掘知識點(diǎn)和問題間的關(guān)聯(lián),補(bǔ)充沒有掌握的學(xué)習(xí)點(diǎn)并給出相關(guān)學(xué)習(xí)建議;教師根據(jù)學(xué)員的學(xué)習(xí)行為和反饋情況,及時(shí)調(diào)整教學(xué)方案,制定專門化的教學(xué)內(nèi)容。數(shù)據(jù)挖掘技術(shù)的應(yīng)用使遠(yuǎn)程教育方案能夠個(gè)性化實(shí)施、極大地提高遠(yuǎn)程教育的作用和效率。
遠(yuǎn)程教育系統(tǒng)的架構(gòu)師可以結(jié)合WEB數(shù)據(jù)挖掘出的信息指導(dǎo)遠(yuǎn)程教育網(wǎng)站建設(shè),持續(xù)優(yōu)化系統(tǒng)性能以提高廣大網(wǎng)絡(luò)學(xué)員的學(xué)習(xí)體驗(yàn)。通過對注冊學(xué)員學(xué)習(xí)活動(dòng)行為過程的挖掘,掌握學(xué)習(xí)者的訪問特點(diǎn),預(yù)測學(xué)員學(xué)習(xí)訪問情況,重構(gòu)頁面的底層鏈接。對需求強(qiáng)烈的頁面提供優(yōu)化,預(yù)先緩存頻繁被訪問的頁面,改善信息通信瓶頸節(jié)點(diǎn)的流通速度,及時(shí)把學(xué)習(xí)者想要的信息以更有效的方式呈現(xiàn)給他,從而提高用戶的滿意度。除此以外,遠(yuǎn)程教育網(wǎng)站系統(tǒng)的安全和穩(wěn)定性能也是十分重要的,平臺的技術(shù)管理人員可以根據(jù)系統(tǒng)數(shù)據(jù)庫中間件被請求的資源,負(fù)載緩存的進(jìn)出平衡和整個(gè)后臺流控突發(fā)情況等信息,找到影響系統(tǒng)性能的瓶頸,及時(shí)發(fā)現(xiàn)平臺的安全漏洞。
本文主要探討了現(xiàn)階段WEB數(shù)據(jù)挖掘在遠(yuǎn)程網(wǎng)絡(luò)教學(xué)中的應(yīng)用,數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)遠(yuǎn)程教學(xué)中還存在許多待研究的領(lǐng)域。隨著數(shù)據(jù)挖掘前沿技術(shù)領(lǐng)域不斷收獲豐碩的成果,Data Mining也呈現(xiàn)出可視化、精確化、更加智能化等新的特性。同時(shí)伴隨近兩三年來移動(dòng)互聯(lián)技術(shù)、普適計(jì)算、云計(jì)算等數(shù)據(jù)應(yīng)用大環(huán)境的迅速革新,作為核心數(shù)據(jù)處理技術(shù)之一的數(shù)據(jù)挖掘在遠(yuǎn)程教育領(lǐng)域擁有廣闊的應(yīng)用前景。
[1]Magaret H.Dunham.數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2005.
[2]張林.數(shù)據(jù)挖掘技術(shù)及其在高等教育教學(xué)中的應(yīng)用[J].宿州學(xué)院學(xué)報(bào),2011.
[3]黃勇,李玉華.面向知識發(fā)現(xiàn)的數(shù)據(jù)分類技術(shù)在網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究[J].南華大學(xué)學(xué)報(bào),2006,(6):32-35.
[4]基于web的數(shù)據(jù)挖掘在遠(yuǎn)程教育中的應(yīng)用[EB/OL].<http://wenku.baidu.com/view/2967f91ca76e58fafa b003a4.html>