趙乘源
摘 要 本文通過對(duì)現(xiàn)有可獲取學(xué)習(xí)信息的系統(tǒng)和網(wǎng)絡(luò)狀況的分析,提出了一個(gè)針對(duì)所有學(xué)習(xí)者的開放的學(xué)習(xí)信息平臺(tái)模型。使用計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)手段將各類學(xué)習(xí)信息聚合和共享,并且嵌入數(shù)據(jù)挖掘功能。旨在方便學(xué)習(xí)者的交流和合作,提高獲取學(xué)習(xí)信息的效率,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn),減少教育資源分配的地域差異。
關(guān)鍵詞 Xml 數(shù)據(jù)挖掘 學(xué)習(xí)信息平臺(tái)
中圖分類號(hào):G424 文獻(xiàn)標(biāo)識(shí)碼:A
1 研究緣起
本文將探討建立一個(gè)開放的學(xué)習(xí)平臺(tái),試圖通過搭建一個(gè)開放的信息平臺(tái)來進(jìn)行學(xué)習(xí)信息資源的交流和積累,并試探在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)挖掘來實(shí)現(xiàn)將數(shù)據(jù)開發(fā)為知識(shí),提供二次信息,使數(shù)據(jù)變得有意義和更加具有參考、使用價(jià)值。特別是對(duì)地處偏遠(yuǎn)的地方的學(xué)習(xí)者更加有意義,可以通過遠(yuǎn)程網(wǎng)絡(luò)參考到相關(guān)的資料輔助學(xué)業(yè)。
以現(xiàn)在信息技術(shù)和網(wǎng)絡(luò)的發(fā)展,在BBS或很多機(jī)構(gòu)網(wǎng)站上都可以得到很多學(xué)習(xí)信息。但是內(nèi)容往往多而繁雜,BBS參與討論的用戶不全是專業(yè)人士,所提供的內(nèi)容不一定準(zhǔn)確。因此,本文擬探討建設(shè)一個(gè)專業(yè)的、開放的學(xué)習(xí)信息平臺(tái),審核和整合各種學(xué)習(xí)資源,實(shí)現(xiàn)對(duì)學(xué)習(xí)數(shù)據(jù)之間的統(tǒng)一管理、能夠交流,被進(jìn)一步開發(fā)和廣泛利用。這樣包括學(xué)者、教學(xué)人員、研究人員、學(xué)習(xí)者都可以共享平臺(tái)的資源,并且平臺(tái)要向已經(jīng)投入使用的學(xué)習(xí)資源系統(tǒng)開放,提供相關(guān)接口聚合已有的電子學(xué)習(xí)資源。
2 信息平臺(tái)建設(shè)
2.1 設(shè)計(jì)理念
(1)采用分布式應(yīng)用和客戶機(jī)/服務(wù)器模型作為學(xué)習(xí)信息平臺(tái)整體架構(gòu)。分布式應(yīng)用通過在多層服務(wù)器上中心化處理業(yè)務(wù)邏輯,可以減少客戶的工作負(fù)載,提高網(wǎng)絡(luò)數(shù)據(jù)的安全性。在分布式應(yīng)用中,客戶端處理同用戶的所有交互,而中間層服務(wù)器則提供客戶的后臺(tái)服務(wù)。WEB應(yīng)用是分布式體系結(jié)構(gòu)的一個(gè)應(yīng)用模型,客戶位于WEB瀏覽器中;各種構(gòu)件位于服務(wù)器上的中間層,向下提供訪問數(shù)據(jù)庫(kù)的接口,向上提供客戶端訪問接口。使用分布式應(yīng)用可以整合異構(gòu)系統(tǒng)資源,提供統(tǒng)一的用戶服務(wù)。
(2)使用XML進(jìn)行文檔的瀏覽和操作。XML有一個(gè)很顯著的特點(diǎn),就是將信息內(nèi)容與表達(dá)形式完全分離開了。XML文檔本身不描述數(shù)據(jù)的顯示方式,而只是表示數(shù)據(jù)的本身。體現(xiàn)在它允許文檔的編寫者制定基于信息描述、體現(xiàn)數(shù)據(jù)之間邏輯關(guān)系的自定義標(biāo)記,確保文檔具有較強(qiáng)的易讀性、清晰的語(yǔ)義和易檢索性。這種特點(diǎn)使得XML能專心進(jìn)行數(shù)據(jù)的處理和結(jié)構(gòu)的描述,而不必考慮向客戶傳遞信息表達(dá)方式。使用XML可以表達(dá)復(fù)雜的信息。
(3)嵌入數(shù)據(jù)挖掘模塊,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘是指按照既定業(yè)務(wù)目標(biāo),對(duì)大量的數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。數(shù)據(jù)挖掘是一種知識(shí)發(fā)現(xiàn)的過程,同時(shí)又是一種決策支持過程。決策支持是對(duì)信息系統(tǒng)的功能要求最高的系統(tǒng),它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度智能化地分析原有數(shù)據(jù),做出歸納性推理,從中挖掘出潛在的模式和規(guī)律。在學(xué)習(xí)信息平臺(tái)中嵌入綜合使用多種數(shù)據(jù)挖掘方法的模塊有利于信息綜合分析、自定義分析和知識(shí)發(fā)現(xiàn)。
2.2 建模
模型的框架結(jié)構(gòu)如圖1所示。結(jié)構(gòu)上分為三層;客戶端、中間層、服務(wù)器。采用瘦客戶機(jī)模型,客戶端的服務(wù)僅僅限于XML數(shù)據(jù)的顯示和操作;中間層服務(wù),主要的業(yè)務(wù)處理過程都在中間層實(shí)現(xiàn),在物理上和邏輯上往往不只是由單一的設(shè)備或模塊來實(shí)現(xiàn),分模塊來實(shí)現(xiàn)系統(tǒng)的功能。但是這種結(jié)構(gòu)使得系統(tǒng)功能的維護(hù)和改善變得更簡(jiǎn)易和方便。數(shù)據(jù)源作為三層結(jié)構(gòu)的底層,必須對(duì)中間層提供強(qiáng)有力的支持。平衡數(shù)據(jù)源和中間層的負(fù)載也是不容忽視的一個(gè)方面。
(1)客戶端功能描述??蛻舳耸怯脩羰褂觅Y源的接口,因此它的設(shè)計(jì)不僅要做到界面的美觀、實(shí)用,更重要的是用戶使用數(shù)據(jù)的安全、快捷和方便。還要具備易維護(hù)性、為平臺(tái)上所有軟件開發(fā)預(yù)留升級(jí)接口。
客戶端的最重要實(shí)現(xiàn)方式是基于網(wǎng)絡(luò)瀏覽器的方式(Web Browser)。采用這種方式可以支持XML文檔的瀏覽和操作。XML充當(dāng)客戶端和中間層之間傳遞數(shù)據(jù)的承載者。采用XML表達(dá)信息的優(yōu)點(diǎn)如下:a、XML結(jié)構(gòu)化的組織方式適合表達(dá)復(fù)雜的信息資料,方便用戶的使用;b、在中間層以XML文檔方式返回檢索結(jié)果集之后,XML文檔本身可以作為一個(gè)臨時(shí)數(shù)據(jù)源支持常用的數(shù)據(jù)操作,減少了遠(yuǎn)程網(wǎng)絡(luò)的數(shù)據(jù)流動(dòng);c、XML的Internet應(yīng)用環(huán)境提供了一些解決數(shù)據(jù)安全的手段;d、XML是一種標(biāo)準(zhǔn)的規(guī)范,實(shí)現(xiàn)了數(shù)據(jù)的結(jié)構(gòu)和顯示分開,數(shù)據(jù)不僅能夠用來顯示,還能為其他的應(yīng)用程序提供數(shù)據(jù)源,與其他信息系統(tǒng)交換數(shù)據(jù);e、XML有擴(kuò)展性,和預(yù)留的升級(jí)接口便于系統(tǒng)以后的擴(kuò)展;f、采用瘦客戶機(jī)模型,客戶端的功能簡(jiǎn)潔,易于系統(tǒng)維護(hù)。
客戶端另外的一個(gè)實(shí)現(xiàn)方式就是傳統(tǒng)的應(yīng)用程序服務(wù)方式(Client Application)。這種服務(wù)方式主要用來彌補(bǔ)瀏覽器服務(wù)方式的不足。
(2)中間層。中間層是系統(tǒng)實(shí)現(xiàn)的核心,系統(tǒng)大部分工作都在中間層完成。信息服務(wù)器(Information Server)提供對(duì)瀏覽器方式的服務(wù),接收來自瀏覽器的命令,與數(shù)據(jù)源或數(shù)據(jù)服務(wù)器(Database Server)交互(使用Vbscript或其他腳本語(yǔ)言),然后將結(jié)果封裝為XML文檔或HTML文檔發(fā)送給客戶端。應(yīng)用程序服務(wù)器(Application Server)提供對(duì)應(yīng)用程序服務(wù)方式的服務(wù),一般以結(jié)果集(Recordset)方式接收或發(fā)送數(shù)據(jù)。應(yīng)用程序服務(wù)器具有大量的服務(wù)組件,因此信息服務(wù)器中的Script同樣也可以分享這些組件的服務(wù)。
中間層有一個(gè)進(jìn)行數(shù)據(jù)挖掘的模塊(Data Mining)。由于數(shù)據(jù)挖掘模式的復(fù)雜性和多樣性,系統(tǒng)并不能提供所有的挖掘方法,但是可以提供一些面向信息、成熟的挖掘方案提供給客戶端選擇。
(3)數(shù)據(jù)源。數(shù)據(jù)源作為整個(gè)系統(tǒng)的底層,承擔(dān)著數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)檢索的任務(wù)。從系統(tǒng)結(jié)構(gòu)上來看,數(shù)據(jù)源支持中間層,中間層也要有效的使用數(shù)據(jù)源服務(wù),并且有以下服務(wù)原則:a、合理使用數(shù)據(jù)源提供的服務(wù);b、中間層要盡量減少數(shù)據(jù)檢索的重復(fù)次數(shù),提高一次檢索成功率;c、提高中間層自動(dòng)優(yōu)化數(shù)據(jù)庫(kù)服務(wù)器資源分配的能力。
3 學(xué)習(xí)平臺(tái)資源建設(shè)
學(xué)習(xí)信息平臺(tái)資源的建設(shè)主要包括整合參與機(jī)構(gòu)已有的學(xué)習(xí)資源和及時(shí)獲取自由發(fā)布的資源進(jìn)行質(zhì)量審查,合格后加入平臺(tái)資源庫(kù)兩個(gè)方面。前者保障學(xué)習(xí)平臺(tái)資源的基本積累和資源數(shù)量,后者保障學(xué)習(xí)平臺(tái)資源的及時(shí)更新和時(shí)效性。
(1)來自整合的資源。整合參與機(jī)構(gòu)已有的學(xué)習(xí)資源,通過開發(fā)接口將不同機(jī)構(gòu)的不同類型的學(xué)習(xí)資源整合在一起,實(shí)現(xiàn)統(tǒng)一檢索,這是學(xué)習(xí)平臺(tái)資源的基本保障和重要來源。
(2)自由發(fā)布的資源。自由發(fā)布資源的獲取可以使用網(wǎng)絡(luò)爬蟲,采取類似搜索引擎的工作原理,定義抓取原則,及時(shí)抓取網(wǎng)絡(luò)上符合抓取原則的資源。抓取后進(jìn)行質(zhì)量分析,對(duì)分析合格的資源進(jìn)行描述,提供指向鏈接,采用這種學(xué)科導(dǎo)航的方式幫助學(xué)習(xí)者及時(shí)準(zhǔn)確獲取可靠的學(xué)習(xí)資源,減少個(gè)人整合分析的時(shí)間,提高學(xué)習(xí)研究的效率。
4 總結(jié)
本文就現(xiàn)有的網(wǎng)絡(luò)和信息技術(shù)狀況提出了一個(gè)幫助匯總和利用的開放性平臺(tái),試圖最大可能的為所有對(duì)共享學(xué)習(xí)信息資源有興趣的人員,提供最開放的服務(wù)。目的旨在為學(xué)習(xí)者和研究者提供一個(gè)交互的平臺(tái),提高獲取學(xué)習(xí)信息的效率,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn),減少教育資源分配的地域差異。此系統(tǒng)的開發(fā)還存在一些需要探討的問題:a、誰(shuí)來實(shí)施這個(gè)開放學(xué)習(xí)信息平臺(tái)? b、誰(shuí)來組織資源整合?c、誰(shuí)來進(jìn)行內(nèi)容審核?d、誰(shuí)來進(jìn)行日常管理?是政府、還是教育相關(guān)的單位聯(lián)盟或其他機(jī)構(gòu),都是值得繼續(xù)探討的問題。
參考文獻(xiàn)
[1] 張維明.語(yǔ)義信息模型及應(yīng)用[M].北京:電子工業(yè)出版社,2002.
[2] 黃如花.數(shù)字圖書館原理與技術(shù)[M].武漢:武漢大學(xué)出版社,2005.