亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)的設(shè)計(jì)

        2008-04-29 00:00:00楊仁廣孟祥增

        摘 要:Internet蘊(yùn)含了大量的教育資源,但因?yàn)槿狈π兄行У臋z索工具,造成了大量Web多媒體教育資源利用率低下的問(wèn)題。本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源的檢索系統(tǒng),用于搜索Internet上與基礎(chǔ)教育有關(guān)的多媒體教育資源,并按資源的格式存儲(chǔ)為不同的類型。

        關(guān)鍵詞: 多媒體資源;搜索策略;PageRank

        中圖分類號(hào): G 434文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào):1673-8454(2008)02-0070-04

        隨著Internet的快速發(fā)展,Web中蘊(yùn)含了大量的多媒體教育資源。多媒體資源(包括圖像、聲音、視頻、動(dòng)畫等)作為Web中信息存在的主要形式,對(duì)教育領(lǐng)域有著越來(lái)越重要的作用。Web多媒體資源以其信息的開(kāi)放性、資源的豐富性、時(shí)間空間的靈活性、形式的新穎性成為教育資源的重要組成部分,同時(shí)對(duì)建構(gòu)主義學(xué)習(xí)環(huán)境的創(chuàng)建和學(xué)習(xí)者的學(xué)習(xí)具有非常重要的作用。但目前Web多媒體資源存在著資源分布不集中、學(xué)科界限模糊、存儲(chǔ)格式多種多樣、資源利用率低等問(wèn)題。本文結(jié)合作者開(kāi)發(fā)的主題搜索引擎系統(tǒng)的實(shí)際應(yīng)用,對(duì)搜索條件進(jìn)行限制,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)(EMS,Education Media Searching),介紹了如何檢索和獲取互聯(lián)網(wǎng)上的多媒體基礎(chǔ)教育資源。

        一、多媒體資源

        按照多媒體的類型可以將多媒體資源分為四大類:圖形/圖像類、音頻類、視頻類、動(dòng)畫類。[1]這些多媒體資源在Internet上以各種形式嵌入到網(wǎng)頁(yè)當(dāng)中,以不同的表現(xiàn)形式反映教育信息,成為教育資源的重要組成部分。Web多媒體教育資源是指以多媒體形式在網(wǎng)頁(yè)上呈現(xiàn)的教育資源。在我國(guó)基礎(chǔ)教育指:幼兒教育、義務(wù)教育和普通高中教育。[2]通過(guò)分析國(guó)家基礎(chǔ)教育資源網(wǎng)(http://www.cbern.gov.cn),將四類多媒體資源按格式分類(見(jiàn)表1)。[3]

        二、多媒體資源在網(wǎng)頁(yè)中的存在形式

        多媒體資源在網(wǎng)頁(yè)中的存在形式不外乎兩種,一種是可以在線瀏覽的多媒體素材,即網(wǎng)頁(yè)嵌入式;另一種是需要通過(guò)下載獲得的多媒體素材,即超鏈接形式。[4]不同類型的多媒體素材在網(wǎng)頁(yè)中存在的方式也不同,統(tǒng)計(jì)結(jié)果見(jiàn)表2。

        網(wǎng)頁(yè)作為信息的載體,格式有很多種,包括html, asp, php, jsp, xml等,但現(xiàn)在大多數(shù)采用超文本標(biāo)記語(yǔ)言(HTML)編寫,其內(nèi)部表現(xiàn)為由離散文本條與標(biāo)記組成的字符串序列。其中標(biāo)記控制瀏覽器如何顯示定義的信息、決定了嵌入的多媒體資源的類型以及呈現(xiàn)形式。

        HTML文檔標(biāo)簽大致分為兩類:一類是傳輸數(shù)據(jù)的標(biāo)簽,如paragraph,table等,它們顯示W(wǎng)eb站點(diǎn)包含的信息;第二類是基礎(chǔ)結(jié)構(gòu)標(biāo)簽(infrastructuretags),這類標(biāo)簽指示瀏覽器如何從當(dāng)前頁(yè)面跳轉(zhuǎn)到其他頁(yè)面,常見(jiàn)的有<A>、<Area>和<Form>,這類標(biāo)簽需要提取。

        由于最終要提取出包含多媒體素材(音頻、圖像、視頻和動(dòng)畫)的頁(yè)面,因此還需要提取包含這些多媒體素材的標(biāo)簽。在Web頁(yè)面中,以超鏈接形式出現(xiàn)的多媒體素材包含在標(biāo)簽<A>中;嵌入到web頁(yè)面中的多媒體素材包含在標(biāo)簽<o(jì)bject>和<embed>中,除此之外還要提取標(biāo)簽<Base>和<Frame>;各標(biāo)簽的作用如表3。

        通過(guò)HTML解析器的分析,可以將多媒體標(biāo)簽中的多媒體信息提取出來(lái),同時(shí)獲取這些多媒的路徑(相對(duì)路徑或決定路徑)。通過(guò)分析多媒體的擴(kuò)展名,將多媒體按照不同的格式分到相應(yīng)的類別中,如:image.jpg 屬于圖形/圖像類、main.mov屬于視頻、bkpgztp.wmv屬于音頻、physic.swf屬于動(dòng)畫。

        三、多媒體教育資源檢索系統(tǒng)(EMS)的實(shí)現(xiàn)過(guò)程

        筆者將主題搜索引擎系統(tǒng)進(jìn)行改進(jìn),設(shè)計(jì)并開(kāi)發(fā)一個(gè)多媒體基礎(chǔ)教育資源系統(tǒng)(EMS),用于提取網(wǎng)頁(yè)中嵌入的與教育有關(guān)的多媒體資源。整個(gè)系統(tǒng)包括:搜索器、HTML解析器、素材分類器、存儲(chǔ)器。

        EMS系統(tǒng)融合了網(wǎng)絡(luò)搜索引擎和多媒體教育資源網(wǎng)頁(yè)的識(shí)別與提取技術(shù)。用戶通過(guò)用戶界面向搜索引擎發(fā)號(hào)搜索指令,搜索引擎以種子網(wǎng)頁(yè)為起點(diǎn),根據(jù)寬度優(yōu)先的搜索策略,爬行種子網(wǎng)頁(yè)所鏈接的所有網(wǎng)頁(yè);爬行過(guò)的網(wǎng)頁(yè)通過(guò)HTML解析器提取網(wǎng)頁(yè)中所嵌入的多媒體素材的路徑信息,同時(shí)獲取描述此網(wǎng)頁(yè)的相關(guān)文本。為了確定采集到的多媒體屬于教育資源的范疇,在素材分類器中,加入教育資源詞典,用于分析采集的多媒體資源與教育信息的相關(guān)度;相關(guān)度的計(jì)算主要采用關(guān)鍵詞加權(quán)求值方式進(jìn)行;對(duì)于相關(guān)度大于一定閾值的網(wǎng)頁(yè),說(shuō)明此網(wǎng)頁(yè)中嵌入的多媒體屬于教育資源,存儲(chǔ)器按照相關(guān)度的高低將多媒體路徑信息存儲(chǔ)到數(shù)據(jù)庫(kù)中。

        四、Web多媒體教育資源檢索的關(guān)鍵技術(shù)

        EMS系統(tǒng)獲取教學(xué)素材的來(lái)源是因特網(wǎng),搜索器(Spider)首先爬行因特網(wǎng)上大量網(wǎng)頁(yè),然后分析網(wǎng)頁(yè)、提取多媒體素材、分析多媒體資源與教育資源的相關(guān)性、存儲(chǔ)相關(guān)多媒體教育資源的路徑信息。在這個(gè)系統(tǒng)的實(shí)現(xiàn)過(guò)程中,決定其性能的主要關(guān)鍵技術(shù)如下。

        1.搜索器(Spider)搜索策略

        搜索器(Spider)主要作用是發(fā)現(xiàn)并收集網(wǎng)絡(luò)資源。它通常從一個(gè)“種子集”(如用戶查詢種子鏈接或種子頁(yè)面)出發(fā),通過(guò) HTTP 等網(wǎng)絡(luò)協(xié)議請(qǐng)求下載網(wǎng)絡(luò)資源,分析資源并提取鏈接,然后再以一定的搜索策略通過(guò)循環(huán)迭代的方式訪問(wèn)網(wǎng)絡(luò)。Spider搜索策略直接決定了多媒體資源的召回率。

        搜索策略需要考慮兩個(gè)因素:一方面,待搜索的網(wǎng)頁(yè)要盡可能多的包含多媒體素材;另一方面,此網(wǎng)頁(yè)嵌入的多媒體資源要盡可能屬于教育資源的范疇。

        為了解決這個(gè)問(wèn)題,首先“種子集”選擇比較權(quán)威的站點(diǎn),其次對(duì)搜索策略進(jìn)行改進(jìn)。EMS系統(tǒng)利用基于內(nèi)容分析和鏈接結(jié)構(gòu)相結(jié)合的主題搜索策略,既保證了搜索網(wǎng)頁(yè)與主題相關(guān)性,同時(shí)也解決了網(wǎng)頁(yè)搜索的權(quán)威性和覆蓋率的問(wèn)題。基于內(nèi)容分析的搜索策略,是分析網(wǎng)頁(yè)相關(guān)文本和教育資源詞典的主題相關(guān)度。鏈接結(jié)構(gòu)分析策略,采用改進(jìn)的PageRank算法,[5]將網(wǎng)頁(yè)點(diǎn)擊的概率和網(wǎng)頁(yè)包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過(guò)程中。改進(jìn)的PageRank算法如公式(1)。

        PR(p)代表網(wǎng)頁(yè)p的PageRank值;PR(Ti)代表網(wǎng)頁(yè)Ti的PageRank值,其中網(wǎng)頁(yè)Ti指向網(wǎng)頁(yè)p;d為阻尼系數(shù),實(shí)際取值為0.85;P(Ti,p)為從頁(yè)面Ti,到達(dá)頁(yè)面p的概率,計(jì)算方法(略);N為已經(jīng)下載到待爬行隊(duì)列中,并與主題相關(guān)的網(wǎng)頁(yè)數(shù)量;n為鏈接到P網(wǎng)頁(yè)p的網(wǎng)頁(yè)數(shù)量。W(Ti)代表網(wǎng)頁(yè)Ti嵌入多媒體的數(shù)量。

        2.關(guān)鍵詞集及權(quán)值的配置

        關(guān)鍵詞集是指教育詞典中對(duì)某一教學(xué)主題所有可能出現(xiàn)詞語(yǔ)的集合。它們會(huì)引導(dǎo)搜索器按照一定順序搜索整個(gè)網(wǎng)絡(luò),使得搜索引擎可以在最短的時(shí)間里面檢索到課程相關(guān)的全面的信息。EMS系統(tǒng)中建立的教育詞典只是包含與基礎(chǔ)教育的關(guān)鍵詞集,其中詞條為17672條。每一個(gè)網(wǎng)頁(yè)其權(quán)值的確定要考慮三個(gè)方面。

        網(wǎng)頁(yè)的URL地址翻譯后的文本內(nèi)容同關(guān)鍵詞集的相關(guān)度。網(wǎng)頁(yè)的URL地址一般是用英文或者拼音表示的,其URL的設(shè)定往往根據(jù)網(wǎng)頁(yè)內(nèi)容而確定,所以網(wǎng)頁(yè)的URL在一定程度上能代表一個(gè)網(wǎng)頁(yè)的內(nèi)容。采用機(jī)械匹配的算法翻譯網(wǎng)頁(yè)URL,其中翻譯詞典(172688條目)、拼音詞典(20775條目)。用①URLFanyi來(lái)表示網(wǎng)頁(yè)URL翻譯后的文本內(nèi)容。

        網(wǎng)頁(yè)②<title>標(biāo)簽、③Metadata標(biāo)簽、④Anchor錨文本的文本內(nèi)容也能夠標(biāo)識(shí)此網(wǎng)頁(yè)的主題。<title>標(biāo)簽是對(duì)網(wǎng)頁(yè)主題的高度概括;Metadata 標(biāo)簽是對(duì)網(wǎng)頁(yè)內(nèi)容的關(guān)鍵詞描述;Anchor錨文本是父網(wǎng)頁(yè)鏈接到此網(wǎng)頁(yè)的文本鏈接。這些文本內(nèi)容在一定程度上能夠很好地表示出網(wǎng)頁(yè)的內(nèi)容。

        對(duì)①②③④文本內(nèi)容進(jìn)行中文分詞,分詞方法采用MM(正向最大匹配)和RMM(逆向最大匹配)相結(jié)合的方法。對(duì)于詞典中未出現(xiàn)的詞串,將整個(gè)詞串看成專有名詞整體輸出。分詞后的文本字串⑤采用布爾模型判斷其與關(guān)鍵詞集的相關(guān)度。

        網(wǎng)頁(yè)計(jì)算的PR值。PR值反應(yīng)的是在Web Community中某個(gè)網(wǎng)頁(yè)通過(guò)超鏈接分析確定的此網(wǎng)頁(yè)的重要程度。將網(wǎng)頁(yè)點(diǎn)擊的概率和網(wǎng)頁(yè)中包含多媒體的數(shù)量信息加入PageRank算法計(jì)算過(guò)程中??梢员WC搜索網(wǎng)頁(yè)的主題相關(guān)性,同時(shí)在一定程度上避免了網(wǎng)頁(yè)爬行的“主題漂移”現(xiàn)象。

        基礎(chǔ)教育詞典中的關(guān)鍵詞集及權(quán)值,主要是根據(jù)專家和教育工作者的經(jīng)驗(yàn)來(lái)選取和設(shè)置,同時(shí)在保證不產(chǎn)生歧義的基礎(chǔ)上,采用通用語(yǔ)言對(duì)教學(xué)主題進(jìn)行描述并賦予不同的權(quán)值。從而保證教學(xué)資源的查全率。這種方法簡(jiǎn)單,容易實(shí)現(xiàn)。以查尋初中物理有關(guān)電路的多媒體教育資源為例,其部分關(guān)鍵詞組及權(quán)值的配置如表4。

        3.數(shù)據(jù)庫(kù)設(shè)計(jì)

        系統(tǒng)采用兩個(gè)數(shù)據(jù)庫(kù):InterLink 數(shù)據(jù)庫(kù)用于存儲(chǔ)網(wǎng)絡(luò)蜘蛛爬行過(guò)的網(wǎng)頁(yè);Media數(shù)據(jù)庫(kù)用于存儲(chǔ)包含多媒體素材的網(wǎng)頁(yè)。由于本系統(tǒng)建立的目的下載多媒體素材,這里詳細(xì)介紹Media數(shù)據(jù)庫(kù)如表5。

        主題:每一個(gè)資源都有一個(gè)主題,標(biāo)識(shí)了該資源的主體內(nèi)容與涉及領(lǐng)域。我們用嵌套多媒體素材的網(wǎng)頁(yè)內(nèi)容來(lái)表示此素材的主題內(nèi)容。如網(wǎng)頁(yè)的<title>標(biāo)簽文本內(nèi)容為:重力 教案,根據(jù)教育詞典中關(guān)鍵詞集匹配,此多媒體素材屬于“初中物理力學(xué)”的內(nèi)容。

        格式:資源的格式,如bmp(圖片)、avi(動(dòng)畫/視頻)、rmvb(視頻)、mp3(音頻)等。

        網(wǎng)頁(yè)代碼:素材嵌入網(wǎng)頁(yè)的HTML代碼,在EMS系統(tǒng)中,不能將多媒體素材下載到本地磁盤中。EMS系統(tǒng)最后獲取的是與基礎(chǔ)教育有關(guān)、并且包含多媒體素材的網(wǎng)頁(yè)。多媒體素材的下載,由本實(shí)驗(yàn)室開(kāi)發(fā)的MultiMediaSearchAndAnalysis(Web多媒體搜索分析系統(tǒng))完成。

        五、實(shí)驗(yàn)結(jié)果

        本系統(tǒng)運(yùn)行環(huán)境為: Windows XP操作系統(tǒng),PIII CPU,128M內(nèi)存,系統(tǒng)開(kāi)啟10個(gè)線程。在此實(shí)驗(yàn)中人工選取20個(gè)基礎(chǔ)教育資源網(wǎng)作為種子網(wǎng)站,提取出這些網(wǎng)站的所有內(nèi)部網(wǎng)頁(yè)鏈接,并根據(jù)鏈接的后綴名把其中包含音頻、視頻、Flash動(dòng)畫的網(wǎng)頁(yè)提出來(lái)(不包含圖形/圖像類),最后統(tǒng)計(jì)出音頻文件、視頻文件和Flash動(dòng)畫的總數(shù),實(shí)驗(yàn)結(jié)果表6所示。

        在本實(shí)驗(yàn)中,造成查全率較低的原因有以下幾點(diǎn)。

        網(wǎng)頁(yè)大多以文本、圖像的形式出現(xiàn),包含多媒體(音頻、視頻、動(dòng)畫)的網(wǎng)頁(yè)所占的比重比較小。

        基礎(chǔ)教育詞典中關(guān)鍵詞集,還不能囊括基礎(chǔ)教育中某一主題的所有關(guān)鍵詞。

        對(duì)于網(wǎng)頁(yè)中需要注冊(cè)以后才能訪問(wèn)的多媒體教育資源,本系統(tǒng)無(wú)能為力。

        六、結(jié)束語(yǔ)

        本文詳細(xì)介紹了Web多媒體基礎(chǔ)教育資源檢索系統(tǒng)的設(shè)計(jì)方法及關(guān)鍵技術(shù)的實(shí)現(xiàn)。該系統(tǒng)能夠在浩瀚的Internet上搜索與基礎(chǔ)教育有關(guān)的多媒體資源,大大方便了學(xué)生和教育工作者有效利用網(wǎng)絡(luò)收集教育資源,對(duì)教育資源庫(kù)的建設(shè)也有著重要的作用。

        參考文獻(xiàn):

        [1]教育部.現(xiàn)代遠(yuǎn)程教育資源建設(shè)技術(shù)規(guī)范[S].http://sf.edude.net/henei/hbgcxy/peixun-/met/zcwj/guifan/xdycjy/,2005.12.10.

        [3] 國(guó)家基礎(chǔ)教育資源網(wǎng).http://www.cbern.org.cn/index.jsp.

        [4] 徐云燕,譚金波,孟祥增.基礎(chǔ)教育網(wǎng)絡(luò)多媒體資源現(xiàn)狀的調(diào)查研究[J].中國(guó)教育信息化,2007,(8).

        [5]Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[R].Standfrd Digital Libraries SIDL-W P-1999-0120,1999.

        注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。

        亚洲av区一区二区三区| 久久精品夜夜夜夜夜久久| 无码av在线a∨天堂毛片| 青青草手机成人自拍视频| 国产流白浆视频在线观看| 男女做爰高清免费视频网站| 国产999精品久久久久久| 国产永久免费高清在线观看视频| 99久久精品人妻一区| 国产成人亚洲综合| 日韩人妻精品无码一区二区三区| 国产91在线精品福利| 美腿丝袜视频在线观看| 色综合久久无码五十路人妻| 国产一区二区三区在线观看免费| 久久久久成人精品免费播放网站| 日本高清视频一区二区| 真实国产乱子伦精品视频| 无码国产精品一区二区vr老人| 亚洲第一免费播放区| 日韩精品极品系列在线免费视频 | 久久九九国产精品怡红院| 亚洲a级片在线观看| 亚洲女人天堂成人av在线| 男女性杂交内射女bbwxz| 妓院一钑片免看黄大片| 鲁丝一区鲁丝二区鲁丝三区| 高清不卡av一区二区| 日韩一区国产二区欧美三区 | 色欲av一区二区久久精品| 天天综合色中文字幕在线视频| 女人被狂躁的高潮免费视频 | 国产精品亚洲专区无码web| 久久久精品久久久国产| 欧美伦费免费全部午夜最新| 久久精品国产自清天天线 | av无码一区二区三区| 亚洲男同志gay 片可播放| 日本一区不卡高清在线观看| 亚洲乱码中文字幕在线| 无套内射蜜桃小视频|