□ 徐朝軍
基于主題搜索的通用教學(xué)資源共享平臺(tái)設(shè)計(jì)*
□ 徐朝軍
本文提出利用主題搜索技術(shù)從互聯(lián)網(wǎng)搜集分散教學(xué)資源的共享平臺(tái)的設(shè)計(jì)思想,并借助于Lucene索引和檢索技術(shù)為用戶提供高效的教學(xué)資源服務(wù),避免了資源庫(kù)建設(shè)過(guò)程中出現(xiàn)的以開(kāi)發(fā)為主、來(lái)源單一、更新動(dòng)力不足、維護(hù)工作量大等問(wèn)題。提高了現(xiàn)有互聯(lián)網(wǎng)閑散資源的利用率,從而減少資源重復(fù)開(kāi)發(fā)所導(dǎo)致的人、財(cái)、物的浪費(fèi)及時(shí)間上的低效,從技術(shù)上為教學(xué)資源建設(shè)和共享提供了新的思路和方法。
主題搜索;教學(xué)資源共享
在教育信息化大背景下,教學(xué)資源建設(shè)是各級(jí)、各類教育主管部門(mén)、機(jī)構(gòu)、培訓(xùn)部門(mén)教育、教學(xué)改革的重要內(nèi)容。從上世紀(jì)90年代初的CAI課件開(kāi)發(fā)、資源庫(kù)建設(shè),到本世紀(jì)初提出、現(xiàn)已全國(guó)遍地開(kāi)花的網(wǎng)絡(luò)課程資源建設(shè),以及突破部門(mén)、地區(qū)等區(qū)域限制的教學(xué)資源聯(lián)盟,其資源來(lái)源不外乎兩種渠道:一是自行開(kāi)發(fā),二是引進(jìn)共享。
本著集約、共享原則,本文提出通用教學(xué)資源共享平臺(tái)的設(shè)計(jì)思想,期望借力于主題蜘蛛技術(shù)搜集分散在互聯(lián)網(wǎng)各個(gè)節(jié)點(diǎn)的教學(xué)資源,根據(jù)用戶的需求進(jìn)行分類索引,提供統(tǒng)一的教學(xué)資源服務(wù)。該平臺(tái)具有低成本、通用性強(qiáng)、資源更新快等特點(diǎn)。實(shí)驗(yàn)數(shù)據(jù)表明,該方案具有較高的可行性。
隨著教育信息化的推進(jìn),教學(xué)資源的應(yīng)用需求日益旺盛,為滿足此需求,從教師個(gè)體到學(xué)校、區(qū)縣教育局,乃至市、省、國(guó)家級(jí)的教育主管部門(mén)都開(kāi)始了聲勢(shì)浩大、形式多樣的教學(xué)資源開(kāi)發(fā)、建設(shè)工作,課件、資源庫(kù)、主題網(wǎng)站、網(wǎng)絡(luò)課程等不一而足[1]。
網(wǎng)絡(luò)使用成本的下降及“校校通”工程等政策的推動(dòng),為資源表達(dá)和交流提供了網(wǎng)絡(luò)平臺(tái)和空間,Web2.0理念及技術(shù)的深入,更是激發(fā)了教師資源發(fā)布和交流的欲望,互聯(lián)網(wǎng)上個(gè)人教學(xué)網(wǎng)站、博客、空間比比皆是,以“教學(xué)資源網(wǎng)”為主題的網(wǎng)站更是數(shù)不勝數(shù)。
在這些網(wǎng)站中除了部分商業(yè)資源外,很大一部分是免費(fèi)的,可以共享使用。如果能充分利用這些分散在各個(gè)網(wǎng)絡(luò)空間站點(diǎn)的教學(xué)資源,可以極大地節(jié)約資源開(kāi)發(fā)建設(shè)所需的人、財(cái)、物,避免了自主開(kāi)發(fā)在時(shí)間上的低效,還可以保證教學(xué)資源的持續(xù)更新。
基于上述想法,結(jié)合已有工作,本文提出以主題搜索技術(shù)為核心的通用教學(xué)資源共享平臺(tái)。
首先,采用主題蜘蛛技術(shù)[3][4][5],從給定的種子網(wǎng)站開(kāi)始,下載存儲(chǔ)來(lái)源于種子網(wǎng)站的所有鏈接資源,并根據(jù)網(wǎng)頁(yè)Title、URL錨文本、URL鏈接字符串等信息,按主題資源目錄樹(shù)進(jìn)行規(guī)則分類[6];對(duì)于種子網(wǎng)站外的鏈接,則隨機(jī)從這些網(wǎng)站下載10個(gè)網(wǎng)頁(yè),抽取這些網(wǎng)頁(yè)的文本信息,計(jì)算這些網(wǎng)頁(yè)與主題的相關(guān)度,如果達(dá)到設(shè)定的閾值,則該外部網(wǎng)站作為候選種子網(wǎng)站,在人工確認(rèn)后加入種子網(wǎng)站。
為便于用戶資源使用,平臺(tái)除了提供主題目錄檢索外,還提供按文字全文檢索。開(kāi)源軟件Lucene提供了便捷的全文索引和檢索功能,平臺(tái)可以根據(jù)網(wǎng)頁(yè)Title、網(wǎng)頁(yè)正文、URL錨文本、URL鏈接字符串進(jìn)行資源檢索。
為減少自動(dòng)系統(tǒng)可能存在的信息抽取的不準(zhǔn)確,保證資源描述信息的規(guī)范性,系統(tǒng)采用Web2.0技術(shù),向注冊(cè)用戶開(kāi)放資源描述信息修正接口,以資源描述信息修正積分、最新資源推送服務(wù)激勵(lì)注冊(cè)用戶共同努力,維護(hù)資源信息的規(guī)范性。
筆者研究小組設(shè)計(jì)了如圖1所示教學(xué)資源共享平臺(tái),其核心模塊包括:主題蜘蛛、主題規(guī)則庫(kù)、主題網(wǎng)站識(shí)別三個(gè)部分。
為充分展示平臺(tái)的工作原理和特點(diǎn),下面對(duì)平臺(tái)中設(shè)計(jì)的核心技術(shù)作詳細(xì)介紹。
(1)教學(xué)資源表示
式1是多媒體資源在共享平臺(tái)中的表示方法,其中部分冗余類別信息是為了提高資源分類精度。
(2)主題數(shù)與主題庫(kù)
圖2是基礎(chǔ)教育資源主題樹(shù)與分類目錄。主題樹(shù)是系統(tǒng)的靈魂,它是整個(gè)基礎(chǔ)教育資源體系的代表,也是資源分類依據(jù)和資源檢索目錄樹(shù)的組成部分,它的構(gòu)建應(yīng)在基礎(chǔ)教育專家和互聯(lián)網(wǎng)專家共同合作下完成。在每個(gè)子目錄(非終端節(jié)點(diǎn))下都有若干專業(yè)主題詞條ti(ti∈T,T是主題詞庫(kù)),即每一個(gè)主題詞條都屬于一定的類別,ti為葉子節(jié)點(diǎn)。樹(shù)中每個(gè)節(jié)點(diǎn)的詞條都作為主題詞納入主題詞庫(kù)T。
(3)資源分類過(guò)程
平臺(tái)采用規(guī)則分類算法進(jìn)行資源分類。錨文本是對(duì)它所指向資源的描述,而網(wǎng)頁(yè)標(biāo)題則是對(duì)本網(wǎng)頁(yè)或網(wǎng)站主題的概括,所以根據(jù)網(wǎng)頁(yè)錨文本和標(biāo)題進(jìn)行分類可以取得較高的精度,而規(guī)則分類算法比較適合于短文本分類。具體分類步驟如下:
① 下載網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行解析,提取出網(wǎng)頁(yè)標(biāo)題、所有超級(jí)鏈接等信息;
② 分析網(wǎng)頁(yè)中的每一個(gè)超級(jí)鏈接,如果超級(jí)鏈接的錨文本、ALT說(shuō)明文本中包括主題詞ti,則根據(jù)其在主題分類樹(shù)中的節(jié)點(diǎn)位置,結(jié)合模糊規(guī)則理論,綜合判斷其所屬學(xué)段、學(xué)科等類別屬性,如:“高二物理(靜電場(chǎng)部分)測(cè)試題”是來(lái)源于中國(guó)基礎(chǔ)教育網(wǎng)物理欄首頁(yè)(http://www.cbe21.com/subject/physics/index.php)的一個(gè)鏈接,根據(jù)錨文本的關(guān)鍵詞條“高二”、“物理”、“靜電場(chǎng)”、“測(cè)試題”,可以得出式2所示信息:
③ 根據(jù)網(wǎng)頁(yè)間的鏈接關(guān)系、超級(jí)鏈接信息、網(wǎng)頁(yè)正文,抽取資源的描述、簡(jiǎn)介、文件類型等其它屬性;
④ 保存上述資源信息至教學(xué)資源庫(kù)。
(4)主題網(wǎng)站識(shí)別
識(shí)別新的主題網(wǎng)站是為了在已有種子網(wǎng)站的基礎(chǔ)上,進(jìn)一步充實(shí)種子網(wǎng)站庫(kù)。過(guò)程如下:
① 從每個(gè)初始種子網(wǎng)站下載10個(gè)網(wǎng)頁(yè),并抽取其文本,以主題詞庫(kù)T為分詞詞典,采用TF/IDF算法(見(jiàn)式3)[7]進(jìn)行文檔訓(xùn)練;
② 隨機(jī)抽取外部網(wǎng)站的10個(gè)網(wǎng)頁(yè)文本,根據(jù)VSM算法(見(jiàn)式4)[8],計(jì)算其與初始主題的相關(guān)度,將高于預(yù)設(shè)值(本文實(shí)驗(yàn)值為0.8)的網(wǎng)站列入候選種子網(wǎng)站,供進(jìn)一步手工確認(rèn),在豐富資源來(lái)源的同時(shí),保證種子網(wǎng)站的權(quán)威性。
實(shí)踐中,開(kāi)發(fā)小組以Windows 2003 Server/IIS6.0/SQL Server 2003/.net 2003為開(kāi)發(fā)運(yùn)行平臺(tái),實(shí)現(xiàn)了基礎(chǔ)教育資源服務(wù)平臺(tái),主題蜘蛛運(yùn)行于普通PC平臺(tái),并對(duì)相關(guān)數(shù)據(jù)進(jìn)行了統(tǒng)計(jì)。
基礎(chǔ)教育資源初始種子網(wǎng)站為20個(gè),主題樹(shù)如圖2所示,其下主題詞共為32729條。系統(tǒng)在連續(xù)運(yùn)行15天后,共得到URL鏈接23717個(gè),其中有效資源為205394,新發(fā)現(xiàn)種子網(wǎng)站53個(gè),對(duì)有效的資源,研究按表1、表2進(jìn)行了統(tǒng)計(jì),從數(shù)據(jù)來(lái)看主題搜索技術(shù)可以從互聯(lián)網(wǎng)發(fā)現(xiàn)多種文件類型的教學(xué)資源,為教學(xué)資源建設(shè)提供新的思路。
表1 按文件類型進(jìn)行資源分類的統(tǒng)計(jì)結(jié)果
表2 按媒體類型進(jìn)行資源分類的統(tǒng)計(jì)結(jié)果(不包含網(wǎng)頁(yè)類資源)
本研究構(gòu)建的平臺(tái)避免了資源庫(kù)建設(shè)過(guò)程中出現(xiàn)的以自主開(kāi)發(fā)為主、來(lái)源單一、更新動(dòng)力不足、維護(hù)工作量大等問(wèn)題,而是著眼于提高現(xiàn)有互聯(lián)網(wǎng)資源的利用率,減少資源重復(fù)開(kāi)發(fā),在技術(shù)上通用性較強(qiáng)。
資源平臺(tái)通過(guò)主題搜索技術(shù),發(fā)掘互聯(lián)網(wǎng)現(xiàn)有閑散資源,提高現(xiàn)有資源的利用率,而不是重新開(kāi)發(fā)。因此,資源服務(wù)所需人、財(cái)、物及時(shí)間成本較低。
如果根據(jù)新的主題資源服務(wù)需求,更換平臺(tái)中新主題相關(guān)種子初始網(wǎng)站庫(kù)(20個(gè)左右) 和主題庫(kù),該平臺(tái)就可以適用于新的主題資源服務(wù)。在實(shí)踐中,我們以該平臺(tái)為核心,先后用于基礎(chǔ)教育資源、中學(xué)物理教育資源、學(xué)前教育資源、職業(yè)教育資源等系統(tǒng)服務(wù)項(xiàng)目的開(kāi)發(fā),并得到用戶的認(rèn)可。
主題蜘蛛是不斷連續(xù)運(yùn)行的程序,它周期性地掃描種子網(wǎng)站,發(fā)現(xiàn)新的資源,更新、刪除死的資源鏈接,持續(xù)動(dòng)態(tài)的提供資源服務(wù),對(duì)個(gè)人興趣愛(ài)好、行政政策、經(jīng)濟(jì)利益等依賴很小。主題蜘蛛遍歷種子網(wǎng)站的周期即為資源更新周期,在一般情況下,一個(gè)月即可對(duì)所有資源遍歷一次,一個(gè)星期內(nèi)即可發(fā)現(xiàn)網(wǎng)站上95%的最新資源。
[1]徐恩芹,劉美鳳.中小學(xué)教學(xué)資源現(xiàn)存問(wèn)題透析[J].中小學(xué)信息技術(shù)教育,2006,(11).
[2]羅志勇.知識(shí)共享機(jī)制研究[M].北京:北京圖書(shū)館出版社,2003.
[3]徐根寶.搜索引擎與信息獲取技術(shù)[M].北京:清華大學(xué)出版社,2003.
[4]ALTING(O)VDE IS,ULUSOY(O).Exploiting interclass rules for focused crawling[J].IEEE Intelligent Systems,2004,19(6):66-73.
[5]Jun Li,Kazutaka Furuse,Kazunori Yamaguchi:Focused crawling by exploiting anchor text using decision tree[J].WWW(Special interest tracks and posters)2005:1190-1191
[6]李渝勤,孫麗華.基于規(guī)則的自動(dòng)分類在文本分類中的應(yīng)用[J].中文信息學(xué)報(bào),2004,18(4):9-14.
[7]錢(qián)愛(ài)兵,江嵐.基于改進(jìn)TF-IDF的中文網(wǎng)頁(yè)關(guān)鍵詞抽取-以新聞網(wǎng)頁(yè)為例[J].情報(bào)理論與實(shí)踐:2008,31(6):945-950.
[8]郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(11):3256-3258.
2009-09-30
徐朝軍,講師,在讀博士,南京師范大學(xué)教育技術(shù)系(210097)。
責(zé)任編輯 鄭 重
Developing educational resources is an integral component of educational reform in the information age.This article puts forward the design concept of using Lucene's indexing and retrieval technology to effectively provide educational resources for users.The platform designed in this way can overcome deficiencies in the construction of resources banks.For example,resources banks tend to focus on the development of resources so that the resources are from a single source.Moreover,resources are not timely updated and maintenance represents a huge workload.In contrast,the new platform aims to increase the availability of resources distributed over the Internet,hence avoiding repetition in resources development and providing a new way of developing and sharing educational resources.Experiment results show that this design concept is feasible.
Designing an Educational Resources Sharing Platform Supported by Theme-based Retrieval Technology
Xu Chaojun
theme-based retrieval;educational resources sharing
G40-057
B
1009—458x(2010)03—0064—03
*全國(guó)教育科學(xué)“十一五”規(guī)劃2009年度教育部青年專項(xiàng)課題“網(wǎng)絡(luò)課程使用現(xiàn)狀自動(dòng)量化評(píng)價(jià)系統(tǒng)研究”(課題編號(hào):ECA090441)的研究成果之一。