摘 要:Internet蘊(yùn)含了大量的教育資源,但因?yàn)槿狈π兄行У臋z索工具,造成了大量Web多媒體教育資源利用率低下的問(wèn)題。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源的檢索系統(tǒng),用于搜索Internet上與基礎(chǔ)教育有關(guān)的多媒體教育資源,并按資源的格式存儲(chǔ)為不同的類型。
關(guān)鍵詞: 多媒體資源;搜索策略;PageRank
中圖分類號(hào): G 434文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào):1673-8454(2008)02-0070-04
隨著Internet的快速發(fā)展,Web中蘊(yùn)含了大量的多媒體教育資源。多媒體資源(包括圖像、聲音、視頻、動(dòng)畫等)作為Web中信息存在的主要形式,對(duì)教育領(lǐng)域有著越來(lái)越重要的作用。Web多媒體資源以其信息的開(kāi)放性、資源的豐富性、時(shí)間空間的靈活性、形式的新穎性成為教育資源的重要組成部分,同時(shí)對(duì)建構(gòu)主義學(xué)習(xí)環(huán)境的創(chuàng)建和學(xué)習(xí)者的學(xué)習(xí)具有非常重要的作用。但目前Web多媒體資源存在著資源分布不集中、學(xué)科界限模糊、存儲(chǔ)格式多種多樣、資源利用率低等問(wèn)題。本文結(jié)合作者開(kāi)發(fā)的主題搜索引擎系統(tǒng)的實(shí)際應(yīng)用,對(duì)搜索條件進(jìn)行限制,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)(EMS,Education Media Searching),介紹了如何檢索和獲取互聯(lián)網(wǎng)上的多媒體基礎(chǔ)教育資源。
一、多媒體資源
按照多媒體的類型可以將多媒體資源分為四大類:圖形/圖像類、音頻類、視頻類、動(dòng)畫類。[1]這些多媒體資源在Internet上以各種形式嵌入到網(wǎng)頁(yè)當(dāng)中,以不同的表現(xiàn)形式反映教育信息,成為教育資源的重要組成部分。Web多媒體教育資源是指以多媒體形式在網(wǎng)頁(yè)上呈現(xiàn)的教育資源。在我國(guó)基礎(chǔ)教育指:幼兒教育、義務(wù)教育和普通高中教育。[2]通過(guò)分析國(guó)家基礎(chǔ)教育資源網(wǎng)(http://www.cbern.gov.cn),將四類多媒體資源按格式分類(見(jiàn)表1)。[3]
二、多媒體資源在網(wǎng)頁(yè)中的存在形式
多媒體資源在網(wǎng)頁(yè)中的存在形式不外乎兩種,一種是可以在線瀏覽的多媒體素材,即網(wǎng)頁(yè)嵌入式;另一種是需要通過(guò)下載獲得的多媒體素材,即超鏈接形式。[4]不同類型的多媒體素材在網(wǎng)頁(yè)中存在的方式也不同,統(tǒng)計(jì)結(jié)果見(jiàn)表2。
網(wǎng)頁(yè)作為信息的載體,格式有很多種,包括html, asp, php, jsp, xml等,但現(xiàn)在大多數(shù)采用超文本標(biāo)記語(yǔ)言(HTML)編寫,其內(nèi)部表現(xiàn)為由離散文本條與標(biāo)記組成的字符串序列。其中標(biāo)記控制瀏覽器如何顯示定義的信息、決定了嵌入的多媒體資源的類型以及呈現(xiàn)形式。
HTML文檔標(biāo)簽大致分為兩類:一類是傳輸數(shù)據(jù)的標(biāo)簽,如paragraph,table等,它們顯示W(wǎng)eb站點(diǎn)包含的信息;第二類是基礎(chǔ)結(jié)構(gòu)標(biāo)簽(infrastructuretags),這類標(biāo)簽指示瀏覽器如何從當(dāng)前頁(yè)面跳轉(zhuǎn)到其他頁(yè)面,常見(jiàn)的有<A>、<Area>和<Form>,這類標(biāo)簽需要提取。
由于最終要提取出包含多媒體素材(音頻、圖像、視頻和動(dòng)畫)的頁(yè)面,因此還需要提取包含這些多媒體素材的標(biāo)簽。在Web頁(yè)面中,以超鏈接形式出現(xiàn)的多媒體素材包含在標(biāo)簽<A>中;嵌入到web頁(yè)面中的多媒體素材包含在標(biāo)簽<o(jì)bject>和<embed>中,除此之外還要提取標(biāo)簽<Base>和<Frame>;各標(biāo)簽的作用如表3。
通過(guò)HTML解析器的分析,可以將多媒體標(biāo)簽中的多媒體信息提取出來(lái),同時(shí)獲取這些多媒的路徑(相對(duì)路徑或決定路徑)。通過(guò)分析多媒體的擴(kuò)展名,將多媒體按照不同的格式分到相應(yīng)的類別中,如:image.jpg 屬于圖形/圖像類、main.mov屬于視頻、bkpgztp.wmv屬于音頻、physic.swf屬于動(dòng)畫。
三、多媒體教育資源檢索系統(tǒng)(EMS)的實(shí)現(xiàn)過(guò)程
筆者將主題搜索引擎系統(tǒng)進(jìn)行改進(jìn),設(shè)計(jì)并開(kāi)發(fā)一個(gè)多媒體基礎(chǔ)教育資源系統(tǒng)(EMS),用于提取網(wǎng)頁(yè)中嵌入的與教育有關(guān)的多媒體資源。整個(gè)系統(tǒng)包括:搜索器、HTML解析器、素材分類器、存儲(chǔ)器。
EMS系統(tǒng)融合了網(wǎng)絡(luò)搜索引擎和多媒體教育資源網(wǎng)頁(yè)的識(shí)別與提取技術(shù)。用戶通過(guò)用戶界面向搜索引擎發(fā)號(hào)搜索指令,搜索引擎以種子網(wǎng)頁(yè)為起點(diǎn),根據(jù)寬度優(yōu)先的搜索策略,爬行種子網(wǎng)頁(yè)所鏈接的所有網(wǎng)頁(yè);爬行過(guò)的網(wǎng)頁(yè)通過(guò)HTML解析器提取網(wǎng)頁(yè)中所嵌入的多媒體素材的路徑信息,同時(shí)獲取描述此網(wǎng)頁(yè)的相關(guān)文本。為了確定采集到的多媒體屬于教育資源的范疇,在素材分類器中,加入教育資源詞典,用于分析采集的多媒體資源與教育信息的相關(guān)度;相關(guān)度的計(jì)算主要采用關(guān)鍵詞加權(quán)求值方式進(jìn)行;對(duì)于相關(guān)度大于一定閾值的網(wǎng)頁(yè),說(shuō)明此網(wǎng)頁(yè)中嵌入的多媒體屬于教育資源,存儲(chǔ)器按照相關(guān)度的高低將多媒體路徑信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。
四、Web多媒體教育資源檢索的關(guān)鍵技術(shù)
EMS系統(tǒng)獲取教學(xué)素材的來(lái)源是因特網(wǎng),搜索器(Spider)首先爬行因特網(wǎng)上大量網(wǎng)頁(yè),然后分析網(wǎng)頁(yè)、提取多媒體素材、分析多媒體資源與教育資源的相關(guān)性、存儲(chǔ)相關(guān)多媒體教育資源的路徑信息。在這個(gè)系統(tǒng)的實(shí)現(xiàn)過(guò)程中,決定其性能的主要關(guān)鍵技術(shù)如下。
1.搜索器(Spider)搜索策略
搜索器(Spider)主要作用是發(fā)現(xiàn)并收集網(wǎng)絡(luò)資源。它通常從一個(gè)“種子集”(如用戶查詢種子鏈接或種子頁(yè)面)出發(fā),通過(guò) HTTP 等網(wǎng)絡(luò)協(xié)議請(qǐng)求下載網(wǎng)絡(luò)資源,分析資源并提取鏈接,然后再以一定的搜索策略通過(guò)循環(huán)迭代的方式訪問(wèn)網(wǎng)絡(luò)。Spider搜索策略直接決定了多媒體資源的召回率。
搜索策略需要考慮兩個(gè)因素:一方面,待搜索的網(wǎng)頁(yè)要盡可能多的包含多媒體素材;另一方面,此網(wǎng)頁(yè)嵌入的多媒體資源要盡可能屬于教育資源的范疇。
為了解決這個(gè)問(wèn)題,首先“種子集”選擇比較權(quán)威的站點(diǎn),其次對(duì)搜索策略進(jìn)行改進(jìn)。EMS系統(tǒng)利用基于內(nèi)容分析和鏈接結(jié)構(gòu)相結(jié)合的主題搜索策略,既保證了搜索網(wǎng)頁(yè)與主題相關(guān)性,同時(shí)也解決了網(wǎng)頁(yè)搜索的權(quán)威性和覆蓋率的問(wèn)題。基于內(nèi)容分析的搜索策略,是分析網(wǎng)頁(yè)相關(guān)文本和教育資源詞典的主題相關(guān)度。鏈接結(jié)構(gòu)分析策略,采用改進(jìn)的PageRank算法,[5]將網(wǎng)頁(yè)點(diǎn)擊的概率和網(wǎng)頁(yè)包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過(guò)程中。改進(jìn)的PageRank算法如公式(1)。
PR(p)代表網(wǎng)頁(yè)p的PageRank值;PR(Ti)代表網(wǎng)頁(yè)Ti的PageRank值,其中網(wǎng)頁(yè)Ti指向網(wǎng)頁(yè)p;d為阻尼系數(shù),實(shí)際取值為0.85;P(Ti,p)為從頁(yè)面Ti,到達(dá)頁(yè)面p的概率,計(jì)算方法(略);N為已經(jīng)下載到待爬行隊(duì)列中,并與主題相關(guān)的網(wǎng)頁(yè)數(shù)量;n為鏈接到P網(wǎng)頁(yè)p的網(wǎng)頁(yè)數(shù)量。W(Ti)代表網(wǎng)頁(yè)Ti嵌入多媒體的數(shù)量。
2.關(guān)鍵詞集及權(quán)值的配置
關(guān)鍵詞集是指教育詞典中對(duì)某一教學(xué)主題所有可能出現(xiàn)詞語(yǔ)的集合。它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面檢索到課程相關(guān)的全面的信息。EMS系統(tǒng)中建立的教育詞典只是包含與基礎(chǔ)教育的關(guān)鍵詞集,其中詞條為17672條。每一個(gè)網(wǎng)頁(yè)其權(quán)值的確定要考慮三個(gè)方面。
網(wǎng)頁(yè)的URL地址翻譯后的文本內(nèi)容同關(guān)鍵詞集的相關(guān)度。網(wǎng)頁(yè)的URL地址一般是用英文或者拼音表示的,其URL的設(shè)定往往根據(jù)網(wǎng)頁(yè)內(nèi)容而確定,所以網(wǎng)頁(yè)的URL在一定程度上能代表一個(gè)網(wǎng)頁(yè)的內(nèi)容。采用機(jī)械匹配的算法翻譯網(wǎng)頁(yè)URL,其中翻譯詞典(172688條目)、拼音詞典(20775條目)。用①URLFanyi來(lái)表示網(wǎng)頁(yè)URL翻譯后的文本內(nèi)容。
網(wǎng)頁(yè)②<title>標(biāo)簽、③Metadata標(biāo)簽、④Anchor錨文本的文本內(nèi)容也能夠標(biāo)識(shí)此網(wǎng)頁(yè)的主題。<title>標(biāo)簽是對(duì)網(wǎng)頁(yè)主題的高度概括;Metadata 標(biāo)簽是對(duì)網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞描述;Anchor錨文本是父網(wǎng)頁(yè)鏈接到此網(wǎng)頁(yè)的文本鏈接。這些文本內(nèi)容在一定程度上能夠很好地表示出網(wǎng)頁(yè)的內(nèi)容。
對(duì)①②③④文本內(nèi)容進(jìn)行中文分詞,分詞方法采用MM(正向最大匹配)和RMM(逆向最大匹配)相結(jié)合的方法。對(duì)于詞典中未出現(xiàn)的詞串,將整個(gè)詞串看成專有名詞整體輸出。分詞后的文本字串⑤采用布爾模型判斷其與關(guān)鍵詞集的相關(guān)度。
網(wǎng)頁(yè)計(jì)算的PR值。PR值反應(yīng)的是在Web Community中某個(gè)網(wǎng)頁(yè)通過(guò)超鏈接分析確定的此網(wǎng)頁(yè)的重要程度。將網(wǎng)頁(yè)點(diǎn)擊的概率和網(wǎng)頁(yè)中包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過(guò)程中??梢员WC搜索網(wǎng)頁(yè)的主題相關(guān)性,同時(shí)在一定程度上避免了網(wǎng)頁(yè)爬行的“主題漂移”現(xiàn)象。
基礎(chǔ)教育詞典中的關(guān)鍵詞集及權(quán)值,主要是根據(jù)專家和教育工作者的經(jīng)驗(yàn)來(lái)選取和設(shè)置,同時(shí)在保證不產(chǎn)生歧義的基礎(chǔ)上,采用通用語(yǔ)言對(duì)教學(xué)主題進(jìn)行描述并賦予不同的權(quán)值。從而保證教學(xué)資源的查全率。這種方法簡(jiǎn)單,容易實(shí)現(xiàn)。以查尋初中物理有關(guān)電路的多媒體教育資源為例,其部分關(guān)鍵詞組及權(quán)值的配置如表4。
3.數(shù)據(jù)庫(kù)設(shè)計(jì)
系統(tǒng)采用兩個(gè)數(shù)據(jù)庫(kù):InterLink 數(shù)據(jù)庫(kù)用于存儲(chǔ)網(wǎng)絡(luò)蜘蛛爬行過(guò)的網(wǎng)頁(yè);Media數(shù)據(jù)庫(kù)用于存儲(chǔ)包含多媒體素材的網(wǎng)頁(yè)。由于本系統(tǒng)建立的目的下載多媒體素材,這里詳細(xì)介紹Media數(shù)據(jù)庫(kù)如表5。
主題:每一個(gè)資源都有一個(gè)主題,標(biāo)識(shí)了該資源的主體內(nèi)容與涉及領(lǐng)域。我們用嵌套多媒體素材的網(wǎng)頁(yè)內(nèi)容來(lái)表示此素材的主題內(nèi)容。如網(wǎng)頁(yè)的<title>標(biāo)簽文本內(nèi)容為:重力 教案,根據(jù)教育詞典中關(guān)鍵詞集匹配,此多媒體素材屬于“初中物理力學(xué)”的內(nèi)容。
格式:資源的格式,如bmp(圖片)、avi(動(dòng)畫/視頻)、rmvb(視頻)、mp3(音頻)等。
網(wǎng)頁(yè)代碼:素材嵌入網(wǎng)頁(yè)的HTML代碼,在EMS系統(tǒng)中,不能將多媒體素材下載到本地磁盤中。EMS系統(tǒng)最后獲取的是與基礎(chǔ)教育有關(guān)、并且包含多媒體素材的網(wǎng)頁(yè)。多媒體素材的下載,由本實(shí)驗(yàn)室開(kāi)發(fā)的MultiMediaSearchAndAnalysis(Web多媒體搜索分析系統(tǒng))完成。
五、實(shí)驗(yàn)結(jié)果
本系統(tǒng)運(yùn)行環(huán)境為: Windows XP操作系統(tǒng),PIII CPU,128M內(nèi)存,系統(tǒng)開(kāi)啟10個(gè)線程。在此實(shí)驗(yàn)中人工選取20個(gè)基礎(chǔ)教育資源網(wǎng)作為種子網(wǎng)站,提取出這些網(wǎng)站的所有內(nèi)部網(wǎng)頁(yè)鏈接,并根據(jù)鏈接的后綴名把其中包含音頻、視頻、Flash動(dòng)畫的網(wǎng)頁(yè)提出來(lái)(不包含圖形/圖像類),最后統(tǒng)計(jì)出音頻文件、視頻文件和Flash動(dòng)畫的總數(shù),實(shí)驗(yàn)結(jié)果表6所示。
在本實(shí)驗(yàn)中,造成查全率較低的原因有以下幾點(diǎn)。
網(wǎng)頁(yè)大多以文本、圖像的形式出現(xiàn),包含多媒體(音頻、視頻、動(dòng)畫)的網(wǎng)頁(yè)所占的比重比較小。
基礎(chǔ)教育詞典中關(guān)鍵詞集,還不能囊括基礎(chǔ)教育中某一主題的所有關(guān)鍵詞。
對(duì)于網(wǎng)頁(yè)中需要注冊(cè)以后才能訪問(wèn)的多媒體教育資源,本系統(tǒng)無(wú)能為力。
六、結(jié)束語(yǔ)
本文詳細(xì)介紹了Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)的設(shè)計(jì)方法及關(guān)鍵技術(shù)的實(shí)現(xiàn)。該系統(tǒng)能夠在浩瀚的Internet上搜索與基礎(chǔ)教育有關(guān)的多媒體資源,大大方便了學(xué)生和教育工作者有效利用網(wǎng)絡(luò)收集教育資源,對(duì)教育資源庫(kù)的建設(shè)也有著重要的作用。
參考文獻(xiàn):
[1]教育部.現(xiàn)代遠(yuǎn)程教育資源建設(shè)技術(shù)規(guī)范[S].http://sf.edude.net/henei/hbgcxy/peixun-/met/zcwj/guifan/xdycjy/,2005.12.10.
[3] 國(guó)家基礎(chǔ)教育資源網(wǎng).http://www.cbern.org.cn/index.jsp.
[4] 徐云燕,譚金波,孟祥增.基礎(chǔ)教育網(wǎng)絡(luò)多媒體資源現(xiàn)狀的調(diào)查研究[J].中國(guó)教育信息化,2007,(8).
[5]Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[R].Standfrd Digital Libraries SIDL-W P-1999-0120,1999.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。