李又玲
(成都師范學(xué)院,四川 成都 611130)
在我國(guó)高校加快教育信息化發(fā)展的過(guò)程中,建設(shè)數(shù)字化學(xué)習(xí)資源中心是十分重要的改革措施。教育部發(fā)布的《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》第十二章“優(yōu)質(zhì)數(shù)字教育資源建設(shè)與共享行動(dòng)”中明確提出:“實(shí)施優(yōu)質(zhì)數(shù)字教育資源建設(shè)與共享是推進(jìn)教育信息化的基礎(chǔ)工程和關(guān)鍵環(huán)節(jié)。到2015年,基本建成以網(wǎng)絡(luò)資源為核心的教育資源與公共服務(wù)體系,為學(xué)習(xí)者可享有優(yōu)質(zhì)數(shù)字教育資源提供方便快捷服務(wù)?!?/p>
對(duì)于高校數(shù)字化學(xué)習(xí)資源中心的建設(shè),有研究者指出,首先要實(shí)現(xiàn)校園內(nèi)部的教育教學(xué)資源的積累與共享,其次要為教師教學(xué)、科研和學(xué)生學(xué)習(xí)提供良好的資源支撐和環(huán)境支撐,最后要為實(shí)現(xiàn)校際、區(qū)域、全國(guó)甚至全球范圍內(nèi)的資源共享打下基礎(chǔ)。[1]
分析我國(guó)高校數(shù)字化學(xué)習(xí)資源中心的建設(shè)現(xiàn)狀發(fā)現(xiàn),目前高校已建成了很多學(xué)習(xí)資源庫(kù),例如精品課程網(wǎng)站、課程學(xué)習(xí)網(wǎng)站等,可供用戶(hù)瀏覽或下載。然而,從資源共享的角度分析,這些資源庫(kù)卻無(wú)法互聯(lián)、交流,原因在于:①各高校的資源庫(kù)整體架構(gòu)能滿(mǎn)足內(nèi)部的學(xué)習(xí)需求,但未對(duì)外提供程序訪(fǎng)問(wèn)資源庫(kù)的專(zhuān)有接口,造成“資源孤島”現(xiàn)象嚴(yán)重;②資源庫(kù)中現(xiàn)存的都是非結(jié)構(gòu)化、半結(jié)構(gòu)化的資源,并且元數(shù)據(jù)未標(biāo)準(zhǔn)化,這些資源難以實(shí)現(xiàn)機(jī)器自動(dòng)化檢索,重用性很差。
對(duì)此,有研究者嘗試使用語(yǔ)義網(wǎng)技術(shù)解決上述問(wèn)題,尋求建設(shè)優(yōu)質(zhì)共享的數(shù)字教育資源的可行途徑。語(yǔ)義網(wǎng)的核心思想是通過(guò)使用元數(shù)據(jù)將Web資源以機(jī)器可理解的方式描述和組織,提供數(shù)據(jù)的語(yǔ)義關(guān)系表達(dá)方式,實(shí)現(xiàn)網(wǎng)絡(luò)資源在語(yǔ)義層上的全方位互聯(lián),滿(mǎn)足Web應(yīng)用對(duì)數(shù)據(jù)互操作性的要求,從而實(shí)現(xiàn)網(wǎng)絡(luò)資源在最大范圍內(nèi)的共享。[2]例如,位傳海等人就提出了學(xué)習(xí)資源語(yǔ)義檢索系統(tǒng)。[3]
然而,這些基于語(yǔ)義網(wǎng)技術(shù)的學(xué)習(xí)資源檢索系統(tǒng)都不支持對(duì)高校已建成的“舊”資源庫(kù)的檢索,并且目前也無(wú)研究者提出較好的資源對(duì)外共享方案。針對(duì)這兩點(diǎn),本文提出一種新的高校多媒體學(xué)習(xí)資源查詢(xún)系統(tǒng),解決思路如下:
(1)構(gòu)建學(xué)習(xí)資源本體,并對(duì)其使用元數(shù)據(jù)標(biāo)準(zhǔn)描述,提高學(xué)習(xí)資源的可重用性和互操作性,實(shí)現(xiàn)資源庫(kù)的語(yǔ)義化,為用戶(hù)提供語(yǔ)義檢索途徑;
(2)充分利用已有基礎(chǔ),即現(xiàn)存的多源、異構(gòu)的資源庫(kù),例如精品課程網(wǎng)站系統(tǒng)等,學(xué)習(xí)者能方便快捷地通過(guò)統(tǒng)一的接口進(jìn)行新、舊資源的查詢(xún);
(3)由于學(xué)習(xí)資源文件存在多種格式(如圖片、視頻、音頻、FLASH動(dòng)畫(huà)、Word文檔、PPT課件等),單純地使用關(guān)鍵字進(jìn)行多媒體資源檢索效率很低,系統(tǒng)還應(yīng)支持對(duì)多媒體資源基于內(nèi)容的查詢(xún);
(4)學(xué)習(xí)資源在語(yǔ)義層面上對(duì)外開(kāi)放,方便機(jī)器的檢索,以實(shí)現(xiàn)資源在更大范圍的共享和互操作。
這樣的設(shè)計(jì)充分考慮利用高校遺留的資源庫(kù),以期達(dá)到各種類(lèi)型學(xué)習(xí)資源“新舊并存”、在校內(nèi)外都能便捷地共享,本文的第三部分重點(diǎn)闡述該系統(tǒng)的總體設(shè)計(jì)和核心技術(shù)。
目前我國(guó)高校普遍已存在的學(xué)習(xí)資源庫(kù)一般都以RDBMS管理和存儲(chǔ)資源,用戶(hù)查詢(xún)資源時(shí)需要輸入關(guān)鍵字,由系統(tǒng)根據(jù)關(guān)鍵字構(gòu)造SQL語(yǔ)句在數(shù)據(jù)庫(kù)中檢索與之匹配的內(nèi)容。與之相對(duì)照,語(yǔ)義檢索則主要是基于概念匹配,將傳統(tǒng)方法中從用戶(hù)查詢(xún)和文檔抽取出來(lái)的關(guān)鍵詞替換為含有語(yǔ)義的概念,其更強(qiáng)調(diào)基于知識(shí)的、語(yǔ)義上的匹配,因此有更好的查準(zhǔn)率和查全率。[4]
本系統(tǒng)則針對(duì)資源“新舊并存”的情況,為了更好地整合新舊學(xué)習(xí)資源,采取“混合查詢(xún)”的解決方案:一方面,為“新”的學(xué)習(xí)資源構(gòu)建學(xué)習(xí)資源本體,在查詢(xún)中結(jié)合語(yǔ)義推理機(jī)(如Jena等)實(shí)現(xiàn)概念級(jí)的語(yǔ)義檢索;另一方面,通過(guò)關(guān)鍵字匹配對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行SQL查詢(xún),即可獲得“舊”的學(xué)習(xí)資源。
高校多媒體學(xué)習(xí)資源查詢(xún)系統(tǒng)主要由學(xué)習(xí)資源語(yǔ)義化模塊、混合查詢(xún)模塊、資源對(duì)外開(kāi)放模塊構(gòu)成,以下三小節(jié)重點(diǎn)闡述這三個(gè)模塊的具體設(shè)計(jì)。
構(gòu)建學(xué)習(xí)資源本體、語(yǔ)義化學(xué)習(xí)資源是進(jìn)行語(yǔ)義檢索的基礎(chǔ)。DraganGasevic認(rèn)為,學(xué)習(xí)資源是由學(xué)習(xí)資源元數(shù)據(jù)和學(xué)習(xí)資源內(nèi)容構(gòu)成,[5]因此將學(xué)習(xí)資源元數(shù)據(jù)標(biāo)準(zhǔn)IEEELOM[6]與具體學(xué)科的領(lǐng)域本體結(jié)合,即可形成某一具體學(xué)科的學(xué)習(xí)資源本體。然而,如果僅利用LOM標(biāo)準(zhǔn)構(gòu)建學(xué)習(xí)資源本體則面臨一個(gè)問(wèn)題——無(wú)法對(duì)多媒體學(xué)習(xí)資源進(jìn)行基于內(nèi)容的檢索,例如學(xué)習(xí)者搜索主要顏色為“綠色”的圖片素材,僅依靠IEEELOM就無(wú)法描述。
因此,本文采用兩種元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建多媒體學(xué)習(xí)資源本體,即多媒體元數(shù)據(jù)標(biāo)準(zhǔn)MPEG-7[7]和學(xué)習(xí)對(duì)象元數(shù)據(jù)標(biāo)準(zhǔn)IEEELOM。利用MPEG-7標(biāo)準(zhǔn)中的TextAnnotation對(duì)多媒體學(xué)習(xí)資源進(jìn)行內(nèi)容的關(guān)鍵字標(biāo)注,即可將圖片顏色、關(guān)鍵視頻、音調(diào)等多媒體特征以關(guān)鍵字的形式存儲(chǔ)于本體中,從而實(shí)現(xiàn)基于內(nèi)容的查詢(xún)。
本模塊(見(jiàn)圖1)的具體設(shè)計(jì)分為下列幾部分:
(1)構(gòu)建本體
由于MPEG-7基于XML而非RDF,因此就需通過(guò)XSD2OWL將MPEG-7標(biāo)準(zhǔn)的XMLSchema轉(zhuǎn)換成本體,這樣就能與其它本體集成,以增強(qiáng)其互操作性。[8]本文中將MPEG-7本體與LOM本體融合構(gòu)成一個(gè)“多媒體學(xué)習(xí)資源本體”。[9]
(2)元數(shù)據(jù)生成
對(duì)于多媒體學(xué)習(xí)資源,用戶(hù)需要通過(guò)各種元數(shù)據(jù)提取工具、元數(shù)據(jù)編輯工具等分別生成符合LOM標(biāo)準(zhǔn)、MPEG-7標(biāo)準(zhǔn)的XML格式的元數(shù)據(jù)。用戶(hù)可以使用LOMEditor[10]生成支持LOM標(biāo)準(zhǔn)的元數(shù)據(jù),但由于LOMEditor生成的元數(shù)據(jù)不支持MPEG-7,因此必須通過(guò)一些支持MPEG-7的多媒體標(biāo)注工具來(lái)實(shí)現(xiàn)元數(shù)據(jù)的生成。例如,使用Caliph[11]、Mpeg-7AudioDB[12]等工具就能將JPEG圖片、音頻中的元數(shù)據(jù)提取并轉(zhuǎn)換成符合MPEG-7標(biāo)準(zhǔn)的RDF輸出。
(3)元數(shù)據(jù)集成
將上一步驟生成的兩種元數(shù)據(jù)通過(guò)“元數(shù)據(jù)集成器”集成,“元數(shù)據(jù)集成器”利用一系列自定義的映射規(guī)則將不同的XMLSchema集成。
(4)本體實(shí)例化
需要通過(guò)XML2RDF將XML格式的元數(shù)據(jù)實(shí)例轉(zhuǎn)換為RDF格式,并以三元組的形式存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)中,另外在數(shù)據(jù)庫(kù)中設(shè)計(jì)資源引用表,用于存儲(chǔ)學(xué)習(xí)資源與其對(duì)應(yīng)元數(shù)據(jù)的鏈接。
(5)元數(shù)據(jù)存儲(chǔ)
將元數(shù)據(jù)以三元組的形式存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)中供混合查詢(xún)引擎查詢(xún)。為提高系統(tǒng)性能,將多媒體學(xué)習(xí)資源與其元數(shù)據(jù)分別存儲(chǔ),學(xué)習(xí)資源以鏈接的形式存于數(shù)據(jù)庫(kù)中,查詢(xún)時(shí)通過(guò)元數(shù)據(jù)表查詢(xún)匹配的資源,然后在資源引用表中找到多媒體資源的引用并查詢(xún)到真實(shí)的存儲(chǔ)位置。
例如,下列代碼就使用MPEG-7標(biāo)準(zhǔn)中的鏈接標(biāo)記MediaUri表示了一張JPG圖片的地址,該地址存放于數(shù)據(jù)庫(kù)的資源引用表中。
圖1 元數(shù)據(jù)集成與本體融合模塊
該模塊是實(shí)現(xiàn)多源、異構(gòu)學(xué)習(xí)資源查詢(xún)的核心,通過(guò)在用戶(hù)接口處將查詢(xún)分解以支持幾種不同方式的查詢(xún)。主要流程如下:
(1)查詢(xún)解析
查詢(xún)?cè)谟脩?hù)接口處被解析成不同的組件,包括關(guān)鍵字匹配查詢(xún)、元數(shù)據(jù)查詢(xún)、基于關(guān)鍵字?jǐn)U展的語(yǔ)義查詢(xún)以及基于內(nèi)容關(guān)鍵字的查詢(xún)。
(2)關(guān)鍵字匹配查詢(xún)
利用映射把語(yǔ)義查詢(xún)轉(zhuǎn)換為SQL查詢(xún),將SQL語(yǔ)句分配到遺留關(guān)系數(shù)據(jù)庫(kù)上查詢(xún)。
(3)元數(shù)據(jù)查詢(xún)
使用SPARQL語(yǔ)句,在存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)中的元數(shù)據(jù)三元組上進(jìn)行查詢(xún)。
(4)基于關(guān)鍵字?jǐn)U展的語(yǔ)義查詢(xún)
將“新”的學(xué)習(xí)資源本體化后以三元組的形式存儲(chǔ)于數(shù)據(jù)庫(kù)中,使用SPARQL進(jìn)行查詢(xún)——對(duì)接口處獲取的查詢(xún)請(qǐng)求,查詢(xún)轉(zhuǎn)換器按照多媒體學(xué)習(xí)資源本體把查詢(xún)請(qǐng)求轉(zhuǎn)換成規(guī)定的格式,在本體的幫助下從元數(shù)據(jù)庫(kù)中匹配出符合條件的數(shù)據(jù)集合,將檢索結(jié)果按本體論概念表現(xiàn)形式呈現(xiàn)給用戶(hù),供用戶(hù)選擇并查看。
(5)基于內(nèi)容關(guān)鍵字的查詢(xún)
首先將多媒體學(xué)習(xí)資源進(jìn)行“內(nèi)容標(biāo)注”,即人為地將能表示該資源內(nèi)容的關(guān)鍵字以標(biāo)注的形式嵌入資源文檔中,查詢(xún)時(shí)以查詢(xún)關(guān)鍵字去匹配內(nèi)容關(guān)鍵字而得到結(jié)果。
例如,下面的代碼是采用MPEG-7標(biāo)準(zhǔn)描述的一幅圖片,其中使用TextAnnotation標(biāo)注了圖片的內(nèi)容,并將圖片分成幾個(gè)子結(jié)構(gòu)fflt;Whoffgt;、fflt;WhatObjectffgt;等,便于對(duì)圖片進(jìn)行基于內(nèi)容的檢索。
(6)混合查詢(xún)的結(jié)果合并、排序和顯示
本系統(tǒng)為支持使用不同學(xué)習(xí)終端設(shè)備(例如平板電腦、智能手機(jī)等移動(dòng)設(shè)備)的用戶(hù),采用XML文件保存查詢(xún)結(jié)果,通過(guò)系統(tǒng)與用戶(hù)終端交互獲得終端的型號(hào)等特征信息,再經(jīng)過(guò)XSLT轉(zhuǎn)換成特定終端類(lèi)型的標(biāo)記語(yǔ)言并顯示查詢(xún)結(jié)果,界面具有良好的自適應(yīng)性。
根據(jù)學(xué)習(xí)資源的來(lái)源,系統(tǒng)提供兩種不同的資源對(duì)外開(kāi)放方式:
(1)移動(dòng)Agent方式
對(duì)于“新”的學(xué)習(xí)資源,由于這部分資源已標(biāo)準(zhǔn)化、語(yǔ)義化,共享性和可重用性很高,因此采用傳統(tǒng)的分布式搜索技術(shù)與移動(dòng)Agent技術(shù)進(jìn)行集成,通過(guò)移動(dòng)Agent將用戶(hù)提交的查詢(xún)動(dòng)態(tài)地送往參與互操作的數(shù)字資源庫(kù)服務(wù)器端執(zhí)行,外部Agent可以搜索到資源并根據(jù)其元數(shù)據(jù)“理解”學(xué)習(xí)資源,從而方便地引用學(xué)習(xí)資源。這種方式可以大大減輕網(wǎng)絡(luò)負(fù)載,消除網(wǎng)絡(luò)延遲。
(2)關(guān)聯(lián)數(shù)據(jù)(Linked Data)方式
由Tim Berners Lee提出的關(guān)聯(lián)數(shù)據(jù),給網(wǎng)絡(luò)信息資源集成提供了一種有效的解決方案。[13]關(guān)聯(lián)數(shù)據(jù)采用RDF數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實(shí)體,來(lái)發(fā)布和部署實(shí)例數(shù)據(jù)及其他各類(lèi)數(shù)據(jù),從而可以通過(guò)HTTP協(xié)議揭示并獲取這些數(shù)據(jù),同時(shí)強(qiáng)調(diào)數(shù)據(jù)的相互關(guān)聯(lián)、相互聯(lián)系以及有益于人機(jī)理解的語(yǔ)境信息。
本系統(tǒng)采用Bizer C等人提到的方法,利用D2R[14]工具將存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù)中的“舊”資源發(fā)布為關(guān)聯(lián)數(shù)據(jù)。D2R主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語(yǔ)言。D2RQ Engine使用一個(gè)可定制的D2RQ Mapping文件將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射成虛擬的RDF格式。這樣,外部Agent在訪(fǎng)問(wèn)關(guān)系型數(shù)據(jù)時(shí)將RDF數(shù)據(jù)的查詢(xún)語(yǔ)言SPARQL轉(zhuǎn)換為SQL,并將SQL查詢(xún)結(jié)果轉(zhuǎn)換為RDF三元組形式的查詢(xún)結(jié)果。
在本文中,將語(yǔ)義網(wǎng)技術(shù)應(yīng)用于建設(shè)高校的學(xué)習(xí)資源中心,實(shí)現(xiàn)了學(xué)習(xí)資源在語(yǔ)義層面上的互聯(lián),為學(xué)習(xí)資源庫(kù)提供了統(tǒng)一的查詢(xún)接口,既方便了新舊資源的檢索,也對(duì)外提供了便捷的共享方式。該方案能完善地解決目前面臨的遺留資源問(wèn)題,也為實(shí)現(xiàn)高校之間甚至更大范圍內(nèi)的優(yōu)質(zhì)數(shù)字教育資源的共建共享提供了一種可行途徑。
[1]楊娟,韓錫斌,何良春.構(gòu)建大學(xué)網(wǎng)絡(luò)教學(xué)資源中心[J].中國(guó)遠(yuǎn)程教育,2005(12):52-53.
[2]Berners-Lee T,Hendler J,Lassila O.The semantic web[J].Scientific American,2001,284(5):28-37.
[3]位傳海,范太華.基于本體的學(xué)習(xí)資源語(yǔ)義檢索系統(tǒng)研究與設(shè)計(jì)[J].電化教育研究,2012(2):70-74.
[4]李勇,張志剛.基于本體語(yǔ)義檢索技術(shù)研究[J].計(jì)算機(jī)工程與科學(xué),2008(4):17-19.
[5]Ga?evi c'D,Hatala M.Ontology mappings to improve learning resourcesearch[J].British JournalofEducational Technology,2006,37(3):375-389.
[6]IEEE LTSC,IEEE Standard for Learning Object M etadata.[EB/OL].http://ltsc.ieee.org/wg12/par1484-12-1.htm l.
[7]MPEG-7[EB/OL].http://mpeg.chiariglione.org/standards/mpeg-7/mpeg-7.htm,2012-12-31.
[8]GarcíaR,Celmaò.Semanticintegrationand retrieval ofmultimediametadata[C].5th InternationalW orkshop on Know ledgeMarkup and Semantic Annotation.2005:69-80.
[9]Choe H.Interoperability between MPEG-7 and LOM using Ontology[J].Asian JournalofComputer Science and Information Technology,2012,2(11).
[10]Sarasa A,Piquer J,Arriola R,et al.LOMEditor:Composition and Classification of Learning Objects[M].Computersand Education.SpringerLondon,2008:241-249.
[11]Lux M.Caliphffamp;Em ir:MPEG-7 photo annotation and retrieval[C].Proceedingsof the17th ACM international conference on Multimedia.ACM,2009:925-926.
[12]G.Tummarello,C.M orbidoni,F.Piazza,MPEG-7 Audio Db[DB/OL].http://www.sourceforge.net/projects/mpeg7audiodb.
[13]T.Berners-Lee,"Linked Data",In TED 2009 Conference,Long Beach,CA.USA,February 2009[DB/OL].http://www.w3.org/2009/Talks/0204-ted-tbl/#(1),2011-1-13.
[14]Bizer C,Cyganiak R.D2r server-publishing relational databaseson the semantic web[C].5th international Semantic W eb conference,2006:26.