楊仁廣,張 艷
網(wǎng)絡(luò)多媒體教學(xué)資源是指存在于Internet中的多媒體教學(xué)資源,其中包括圖像、聲音、視頻、動(dòng)畫(huà)等。網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索系統(tǒng)是專(zhuān)門(mén)為搜索Web中存在的多媒體教學(xué)資源設(shè)計(jì)的。主題搜索器在構(gòu)造上和常規(guī)的主題搜索器相同,主題蜘蛛是整個(gè)主題搜索器的核心,圖1是該主題搜索器的體系結(jié)構(gòu)圖,各個(gè)組成部分相互交錯(cuò)、相互依賴(lài)。
圖1 網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索器體系結(jié)構(gòu)
“主題蜘蛛”從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè),提取網(wǎng)頁(yè)的兩部分信息,一是網(wǎng)頁(yè)內(nèi)容,以此來(lái)確定此網(wǎng)頁(yè)與查詢(xún)多媒體主題的相關(guān)度;二是網(wǎng)頁(yè)鏈接,確定主題蜘蛛的即將爬行頁(yè)面。“主題蜘蛛”通過(guò)“HTML解析器”獲取此網(wǎng)頁(yè)的文本信息,并將其和網(wǎng)頁(yè)鏈接存入“網(wǎng)頁(yè)數(shù)據(jù)庫(kù)”中?!熬W(wǎng)頁(yè)內(nèi)容相似度計(jì)算”用于判斷此網(wǎng)頁(yè)和查詢(xún)多媒體主題的相關(guān)度;“主題蜘蛛”同時(shí)提取出網(wǎng)頁(yè)的URL,然后判斷此網(wǎng)頁(yè)是否包含多媒體,如果包含則進(jìn)行“URL規(guī)則訓(xùn)練”,將其用于“鏈接相似度計(jì)算”,經(jīng)過(guò)內(nèi)容和鏈接相似度計(jì)算后的網(wǎng)頁(yè)鏈接與“URL數(shù)據(jù)庫(kù)”中的網(wǎng)頁(yè)鏈接進(jìn)行“網(wǎng)頁(yè)鏈接加權(quán)”,從而確定下一步要爬行的網(wǎng)頁(yè),經(jīng)過(guò)“URL鏈接過(guò)濾”確定“網(wǎng)絡(luò)蜘蛛”的爬行方向;如果不包含多媒體,則直接將提取的網(wǎng)頁(yè)鏈接存入“URL數(shù)據(jù)庫(kù)”中,等待“網(wǎng)頁(yè)鏈接加權(quán)”對(duì)其進(jìn)行權(quán)值的分配。最終搜索得到的多媒體鏈接經(jīng)過(guò)“媒體屬性信息提取”后和表征多媒體內(nèi)容的信息一起存入“多媒體數(shù)據(jù)庫(kù)”中,同時(shí)也要將其存入“URL數(shù)據(jù)庫(kù)”中用于指示“主題蜘蛛”下一步爬行的方向。
1.網(wǎng)絡(luò)多媒體信息的內(nèi)容表征與提取
網(wǎng)頁(yè)一般是由超文本標(biāo)記語(yǔ)言HTML(hypertext markup language)編寫(xiě)的,筆者提取以下信息用來(lái)表征多媒體的主題:(1)網(wǎng)頁(yè)的URL;(2)網(wǎng)頁(yè)
(1) 該文本的字號(hào)比周?chē)谋镜拇螅?/p>
(2) 該文本與周?chē)谋镜念伾煌?/p>
(3) 該文本字?jǐn)?shù)很少(一般少于10個(gè));
(4) 該文本獨(dú)立成段。
2.網(wǎng)絡(luò)多媒體主題搜索策略
筆者基于網(wǎng)絡(luò)多媒體資源在Web中分布的特點(diǎn),對(duì)傳統(tǒng)的Shark-Search[2]主題搜索算法進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果表明搜索效率有顯著提高。搜索算法的改進(jìn)主要體現(xiàn)在2個(gè)方面:第一,內(nèi)容相似度的計(jì)算方法;第二,鏈接相似度的計(jì)算方法。本系統(tǒng)使用的改進(jìn)Shark-Search的搜索策略具體為:
(1)內(nèi)容相似度的計(jì)算
在計(jì)算多媒體內(nèi)容相似度的時(shí)候,筆者把“主題團(tuán)”標(biāo)題加入到計(jì)算過(guò)程中,具體為:
Content_score(ui)
=Score(block_title)[β×Score(anchor)
+(1-β)×Score(url)]
(1)
其中,Score(block_title)是鏈接ui所在“主題團(tuán)”標(biāo)題與主題的相關(guān)度,計(jì)算時(shí)采用向量空間模型VSM,Score(anchor)和Score(url)分別表示鏈接ui的錨文本和URL地址與主題的相關(guān)度,采用布爾模型進(jìn)行計(jì)算;β為相關(guān)因子,用以調(diào)節(jié)鏈接的錨文本和URL地址所占的比重。
(2)鏈接相似度計(jì)算
在鏈接相似度計(jì)算方面,首先將網(wǎng)頁(yè)按照“主題團(tuán)”進(jìn)行網(wǎng)頁(yè)分塊,然后用網(wǎng)頁(yè)的父鏈接和兄弟鏈接的相關(guān)度來(lái)揭示鏈接結(jié)構(gòu)對(duì)一個(gè)URL鏈接相關(guān)度的影響,同時(shí)將“主題團(tuán)”標(biāo)題與主題的相似性加入到算法的計(jì)算過(guò)程中,算法的具體公式為:
(2)
其中,ui是正在爬行的鏈接,t是父鏈接的總數(shù),λ(dj)是動(dòng)態(tài)因子,P(dj)表示從父鏈接繼承來(lái)的鏈接相關(guān)度和已爬行過(guò)兄弟鏈接的平均鏈接相關(guān)度。它來(lái)衡量通過(guò)父鏈接能爬行到多少主題相關(guān)頁(yè)面的能力,其計(jì)算公式為:
(3)
(3)內(nèi)容相似度和鏈接相似度的歸一化
為了提高整個(gè)網(wǎng)頁(yè)的主題相關(guān)性和權(quán)威性,筆者采用內(nèi)容相似度和鏈接相似度按不同權(quán)值相加所得結(jié)果來(lái)標(biāo)識(shí)。在這里將二者歸一化,計(jì)算得到的值作為“網(wǎng)絡(luò)蜘蛛”即將爬行鏈接的依據(jù)。計(jì)算公式為:
S(i)=λ×Content_score(ui)
+(1-λ)×Structure_score(ui)
(4)
3.基礎(chǔ)教育網(wǎng)絡(luò)多媒體教學(xué)資源主題詞集的建立
為了確定在Web中搜索的多媒體資源的主題,筆者從人教版中小學(xué)課本中提取了與多媒體資源可能有關(guān)的主題詞[3],按學(xué)科、學(xué)段分類(lèi),建立了高中語(yǔ)文、數(shù)學(xué)、物理、化學(xué)、生物,初中語(yǔ)文、數(shù)學(xué)、物理、化學(xué)、生物,小學(xué)語(yǔ)文、數(shù)學(xué)、科學(xué)、社會(huì)、思想品德與生活等15個(gè)主題詞集[4],同時(shí)每個(gè)詞集下面又分為:視頻詞集、音頻詞集、動(dòng)畫(huà)詞集3個(gè)子詞集。
為了更好地驗(yàn)證網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索系統(tǒng)對(duì)Web中包含的多媒體資源的搜索效果,筆者做了以下實(shí)驗(yàn):首先將網(wǎng)絡(luò)多媒體教育資源主題詞集中初中物理和高中物理主題詞集合并為一個(gè)的物理詞集(192個(gè)詞條)。先用通用搜索系統(tǒng)進(jìn)行多媒體搜索,然后使用網(wǎng)絡(luò)多媒體主題搜索系統(tǒng)進(jìn)行搜索,實(shí)驗(yàn)對(duì)比結(jié)果如表1。
表1 對(duì)比實(shí)驗(yàn)結(jié)果
由表1可以看出,多媒體主題搜索將查詢(xún)主題加入到搜索過(guò)程中,搜索結(jié)果的主題相關(guān)度遠(yuǎn)遠(yuǎn)高于通用搜索系統(tǒng)的主題相關(guān)度,由于在搜索策略中加入了很多信息的計(jì)算,所以多媒體主題搜索的平均爬行速度要低于通用搜索,但運(yùn)行時(shí)間卻遠(yuǎn)遠(yuǎn)小于通用搜索。
本文詳細(xì)介紹了整個(gè)網(wǎng)絡(luò)多媒體教學(xué)資源主題搜索系統(tǒng)的各個(gè)環(huán)節(jié),實(shí)驗(yàn)效果良好。但系統(tǒng)的性能仍需在以下方面加以完善:第一,擴(kuò)展基礎(chǔ)教育主題詞集,擴(kuò)大搜索的范圍,即時(shí)更新“多媒體數(shù)據(jù)庫(kù)”中的記錄。第二,繼續(xù)提高多媒體主題搜索算法的效率,著重優(yōu)化實(shí)驗(yàn)算法中各個(gè)參數(shù)。第三,考慮對(duì)存在于多媒體網(wǎng)絡(luò)的數(shù)據(jù)庫(kù)(動(dòng)態(tài)網(wǎng)頁(yè))中多媒體資源的獲取。
[1] 宋宇,孟祥增.基于改進(jìn)Fish-search算法的多媒體檢索[J].計(jì)算機(jī)工程,2008(11):189-193.
[2] 楊仁廣,孟祥增.一種基于網(wǎng)頁(yè)內(nèi)容和鏈接分析的主題搜索算法[J].情報(bào)雜志,2008(6):64-66.
[3] 張鷹.基于CRP理念的學(xué)習(xí)化社區(qū)網(wǎng)絡(luò)建構(gòu)[J].江蘇廣播電視大學(xué)學(xué)報(bào),2010(1):32-34.
[4] 孟祥增.多媒體網(wǎng)絡(luò)教學(xué)資源的內(nèi)容特征提取與搜索研究[J].電化教育研究,2007(12):33-37.