〔摘 要〕互聯(lián)網(wǎng)和信息數(shù)字化的高度發(fā)展為信息查詢帶來了新的挑戰(zhàn),如何改善查詢模式使用戶從海量的數(shù)據(jù)中快速找到真正需要的信息成為了當(dāng)前業(yè)界亟待解決的課題。本文描述了一種個(gè)性化信息服務(wù)模型,使用Deep Web數(shù)據(jù)集成技術(shù)設(shè)計(jì)了一個(gè)圖書館數(shù)字資源個(gè)性化信息服務(wù)系統(tǒng),實(shí)現(xiàn)了以用戶為中心的圖書館信息服務(wù)。
〔關(guān)鍵詞〕Deep Web;個(gè)性化服務(wù);數(shù)據(jù)集成
DOI:10.3969/j.issn.1008-0821.2010.10.020
〔中圖分類號(hào)〕G252 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2010)10-0074-03
Application of the Deep Web Integration in the Personalized Information ServiceZhang Yunkun
(Library,Soochow University,Suzhou 215006,China)
〔Abstract〕The highly developed Internet and digital information has brought information retrieval a new challenge and how to improve search model so that users can quickly retrieve the exact information they need from mass of data,has become the urgent and major issue in the information retrieval domain.The article described a customized information service model by utilizing Deep Web data Integration technology and implemented a customized information service system for digital library resource and thus achieved user centric library information services.
〔Keywords〕Deep Web;personalized service;data integration
目前,國(guó)內(nèi)高校圖書館的個(gè)性化信息服務(wù)主要是從圖書館自身的角度進(jìn)行資源組織和信息服務(wù),針對(duì)用戶提出的申請(qǐng),到有關(guān)的數(shù)據(jù)庫里單個(gè)的進(jìn)行檢索,然后人工合并重復(fù)信息后發(fā)送給用戶。作為信息傳播門戶的圖書館,不應(yīng)該再繼續(xù)傳統(tǒng)的被動(dòng)式服務(wù),應(yīng)轉(zhuǎn)變?yōu)椤耙杂脩魹橹行摹?,及時(shí)主動(dòng)地提供個(gè)性化信息服務(wù)[2]。主動(dòng)推送的信息必須符合用戶需求并且基本涵蓋所有的網(wǎng)絡(luò)資源和數(shù)據(jù)庫資源,Deep Web數(shù)據(jù)集成技術(shù)可以滿足這個(gè)需求,從看似雜亂無序的浩瀚信息中提取其內(nèi)在聯(lián)系,高效率抓取出高質(zhì)量的信息提供給用戶。
1 個(gè)性化信息服務(wù)模型
Deep Web的概念最初由Dr.Jil E lsworth在1994年提出,指的是常規(guī)搜索引擎不能索引到的網(wǎng)絡(luò)資源[3]。常規(guī)搜索引擎可以索引的網(wǎng)絡(luò)資源,或者通過靜態(tài)URL可以直接訪問到的頁面稱之為Surface Web,而嵌入數(shù)據(jù)庫信息的網(wǎng)頁不具有靜態(tài)URL,因此普通搜索引擎無法直接索引到這部分頁面信息,使得這部分信息對(duì)于用戶來說是隱藏的,稱之為Deep Web,比如高校訂購的數(shù)據(jù)庫資源以及眾多的網(wǎng)絡(luò)中可以查詢的在線數(shù)據(jù)庫資源都屬于Deep Web的范疇。在內(nèi)容上,Deep Web站點(diǎn)比Surface Web站點(diǎn)更專業(yè);Deep Web內(nèi)容的全部?jī)r(jià)值是Surface Web的1 000~2 000倍[4]。
Deep Web數(shù)據(jù)源具有很強(qiáng)的領(lǐng)域特性,在Deep Web數(shù)據(jù)源中進(jìn)行查詢得到的結(jié)果更加專業(yè)和準(zhǔn)確,但是Deep Web數(shù)據(jù)具有異構(gòu)性和動(dòng)態(tài)性,為了獲得Deep Web中大量有價(jià)值的隱藏信息,在同一領(lǐng)域內(nèi)比較某一事物的大量相關(guān)信息,需要把眾多的Deep Web數(shù)據(jù)源進(jìn)行整合集成。
在高校的范圍內(nèi),可以充分發(fā)揮Deep Web數(shù)據(jù)源的優(yōu)勢(shì),從廣泛的云數(shù)據(jù)里采集相關(guān)領(lǐng)域的Web數(shù)據(jù)源,并根據(jù)用戶的個(gè)性化需求提煉信息展示給用戶,個(gè)性化信息服務(wù)模型如圖1所示。
圖1 個(gè)性化信息服務(wù)模型
基于此模型,針對(duì)高校學(xué)科發(fā)展,系統(tǒng)可以智能搜集某一領(lǐng)域的學(xué)科發(fā)展動(dòng)態(tài)、前沿研究、研究熱點(diǎn)等信息,圍繞這些信息做相關(guān)的技術(shù)分析報(bào)告發(fā)送給學(xué)科帶頭人,積極參與到學(xué)校的學(xué)科建設(shè)中,為學(xué)校重點(diǎn)學(xué)科建設(shè)做好信息服務(wù)工作。促進(jìn)學(xué)校在一個(gè)更高起點(diǎn)上建設(shè)新的優(yōu)勢(shì)學(xué)科,不斷擴(kuò)大優(yōu)勢(shì)學(xué)科群和優(yōu)勢(shì)學(xué)科覆蓋面,大幅提高學(xué)校的核心競(jìng)爭(zhēng)力;針對(duì)企業(yè)服務(wù),系統(tǒng)可以智能搜集企業(yè)發(fā)展需要的信息,合資企業(yè)需要市場(chǎng)信息和決策信息,國(guó)營(yíng)企業(yè)需要的科技信息,小型企業(yè)需要的商業(yè)信息以及行業(yè)的其他信息。充分發(fā)揮Deep Web專注于某一領(lǐng)域的優(yōu)勢(shì),進(jìn)行校企合作,提高學(xué)校在社會(huì)中的影響力和輻射能力;針對(duì)閱讀節(jié),系統(tǒng)可以通過分析用戶的個(gè)性化需求,智能搜集相關(guān)的圖書資料并提供給采購人員圖書清單,集中大多數(shù)人的共同需求點(diǎn)來選擇展示圖書,給師生提供一個(gè)愛上閱讀的平臺(tái);針對(duì)敘詞表,系統(tǒng)可以智能搜集相關(guān)網(wǎng)頁,設(shè)定不同的權(quán)值,比如敘詞出現(xiàn)在標(biāo)題中權(quán)值最高設(shè)為1,敘詞出現(xiàn)在關(guān)鍵詞中,權(quán)值設(shè)為2,敘詞出現(xiàn)在摘要中,權(quán)值設(shè)為3,依次類推,通過不同權(quán)值的設(shè)置加上詞頻的限制,可以更完善的整理敘詞表并進(jìn)一步提高檢準(zhǔn)率。
2 個(gè)性化信息服務(wù)系統(tǒng)
本文設(shè)計(jì)了一個(gè)基于Deep Web數(shù)據(jù)集成的個(gè)性化信息服務(wù)系統(tǒng),該系統(tǒng)首先根據(jù)高校圖書館數(shù)字化資源的特點(diǎn),利用現(xiàn)有Deep Web數(shù)據(jù)集成技術(shù)集成相關(guān)數(shù)字資源,然后在集成系統(tǒng)的基礎(chǔ)上通過統(tǒng)一的查詢接口為用戶提供個(gè)性化服務(wù)。系統(tǒng)主要包含以下三模塊:數(shù)據(jù)源獲取模塊、數(shù)據(jù)源集成模塊和用戶個(gè)性化信息模塊。
2.1 數(shù)據(jù)源獲取模塊
數(shù)據(jù)源發(fā)現(xiàn)主要是指在Web中發(fā)現(xiàn)可以訪問的某一領(lǐng)域的Web數(shù)據(jù)庫,通過對(duì)爬蟲的設(shè)計(jì),利用目錄搜索引擎提供的分類目錄作為查詢的起點(diǎn),通過查詢擴(kuò)展來改進(jìn)查詢關(guān)鍵詞,從而盡可能多的發(fā)現(xiàn)那些含有Web數(shù)據(jù)庫的站點(diǎn)。找到Web數(shù)據(jù)庫所在的網(wǎng)站,并從網(wǎng)站中發(fā)現(xiàn)能夠?qū)?shù)據(jù)庫進(jìn)行查詢的接口,再加上圖書館已有資源的優(yōu)勢(shì),如此數(shù)據(jù)源包括由圖書館購買的數(shù)據(jù)庫和館外眾多的屬于同一個(gè)領(lǐng)域的Web數(shù)據(jù)庫和OA資源組成,豐富的數(shù)據(jù)源可以看作一塊“數(shù)據(jù)云”充分滿足用戶的需求。發(fā)現(xiàn)某一領(lǐng)域的Web數(shù)據(jù)庫是使用搜索引擎進(jìn)行搜索,雖然它不能直接獲取Web數(shù)據(jù)庫內(nèi)容,但可以找到Web數(shù)據(jù)庫所在網(wǎng)站,比遍歷Web中所有的IP要有效的多。
針對(duì)圖書館個(gè)性化服務(wù)系統(tǒng)主要是為學(xué)校廣大師生服務(wù),因此集成的資源可從兩個(gè)方面獲取:圖書館現(xiàn)有數(shù)字化資源和網(wǎng)絡(luò)上的開放資源。以師生最常見的論文查詢?yōu)槔齺砻枋鲑Y源的獲取。圖書館現(xiàn)有數(shù)字化資源:綜合資源選用中國(guó)期刊網(wǎng)、重慶維普、萬方資源、Elsevier Science Direct、Ebsco、Wiley和Springer,根據(jù)個(gè)性需求專業(yè)的不同再選擇專業(yè)數(shù)據(jù)庫,比如醫(yī)學(xué)就可以在綜合資源的基礎(chǔ)上加上Ovid、Medline和Biosis;使用數(shù)據(jù)源發(fā)現(xiàn)方法,發(fā)現(xiàn)開放的數(shù)據(jù)源,比如Open Science Directory、Social Science Research Network、Open J-Gate、Bentham Open等都是爬蟲爬取到的開放的優(yōu)秀期刊論文。
2.2 數(shù)據(jù)源集成模塊
數(shù)據(jù)源集成模塊主要功能是把抓取到的各種數(shù)據(jù)源進(jìn)行集成,形成統(tǒng)一的查詢接口,包括查詢接口模式抽取、查詢接口集成和構(gòu)建統(tǒng)一的查詢接口。
把采集到的所有數(shù)據(jù)源根據(jù)站點(diǎn)的接口特征進(jìn)行分類,整合相同領(lǐng)域內(nèi)的所有Deep Web站點(diǎn)的查詢接口,對(duì)這些接口所包含的屬性分析和抽取,獲取查詢接口的模式信息,比如要查找圖書,接口的模式信息就包含了書名、作者、價(jià)格等。然后把屬于某一領(lǐng)域的接口集成形成一個(gè)統(tǒng)一的集成查詢接口,得到一個(gè)全局的查詢接口。用戶在統(tǒng)一查詢接口上填寫需求并提交查詢后,系統(tǒng)會(huì)把查詢的關(guān)鍵詞轉(zhuǎn)換為在具體的Deep Web數(shù)據(jù)源查詢接口上查詢的關(guān)鍵詞,再將自動(dòng)轉(zhuǎn)換后的查詢進(jìn)行提交。在對(duì)查詢接口的判定問題上,采用樸素貝葉斯分類算法對(duì)HTML網(wǎng)頁表單進(jìn)行自動(dòng)分類[5]。Deep Web數(shù)據(jù)源集成框架圖如圖2所示。圖2 Deep Web數(shù)據(jù)源集成框架圖3 未使用數(shù)據(jù)集成信息服務(wù)系統(tǒng)的檢索框架
與圖3未使用數(shù)據(jù)集成信息服務(wù)系統(tǒng)的檢索框架相比,個(gè)性化信息服務(wù)系統(tǒng)可以把用戶輸入的檢索詞近似等價(jià)的轉(zhuǎn)化成在數(shù)據(jù)源的查詢接口上查詢的檢索詞,經(jīng)過一系列的查詢轉(zhuǎn)化、查詢提交,最后把經(jīng)過合并、去重、按照用戶興趣排序后的結(jié)果展現(xiàn)給用戶,結(jié)果的查全率和查準(zhǔn)率都很高,最重要的這些信息完全不需要任何人工干預(yù)且已經(jīng)查重,比傳統(tǒng)個(gè)性化信息服務(wù)的效率要高很多。
2.3 用戶個(gè)性化信息模塊
用戶個(gè)性化信息模塊主要包括收集信息模塊、興趣建模模塊和信息推薦模塊,收集信息模塊收集用戶的基本信息,用戶訪問歷史信息:比如借閱書刊的歷史、已做原文傳遞的內(nèi)容、以往提出的個(gè)性化信息服務(wù)等了解用戶的興趣,用戶的科研信息:發(fā)表的文章、研究的項(xiàng)目、申請(qǐng)的專利等了解用戶的研究領(lǐng)域;通過收集到的各種信息對(duì)用戶興趣建模,生成用戶興趣模型;把用戶興趣模型和整合結(jié)果中的每個(gè)條目進(jìn)行匹配,按匹配分值從高到低把若干條結(jié)果數(shù)據(jù)庫中信息呈現(xiàn)給用戶[6]。
基于Deep Web數(shù)據(jù)集成的個(gè)性化信息服務(wù)具體體現(xiàn)在以下兩個(gè)部分:
2.3.1 基于用戶個(gè)性化模型的查詢數(shù)據(jù)源選擇
集成系統(tǒng)對(duì)于某一個(gè)領(lǐng)域可能集成幾十個(gè),甚至上百個(gè)數(shù)據(jù)源,如果對(duì)于一個(gè)查詢就訪問所有的數(shù)據(jù)源,將是對(duì)網(wǎng)絡(luò)資源和Web數(shù)據(jù)源的巨大消耗,因此,對(duì)于一個(gè)查詢需要選擇最合適的Web數(shù)據(jù)源去查詢。對(duì)于一個(gè)特定用戶給定的查詢,系統(tǒng)根據(jù)用戶以往的查詢歷史記錄和用戶的興趣模型,選擇合適的數(shù)據(jù)源集成后再進(jìn)行查詢。
2.3.2 基于用戶個(gè)性化模型的查詢結(jié)果展示
大量Web數(shù)據(jù)源使用戶有了更多的選擇,也有了更大的可能性來獲得想要的信息。但是,隨之而來的問題就是:對(duì)于用戶的一個(gè)查詢,把各個(gè)Web數(shù)據(jù)源的返回結(jié)果匯總在一起時(shí)通常會(huì)有大量的記錄,而實(shí)際上用戶真正需要的記錄很可能只是少數(shù)幾個(gè),用戶還是需要大海撈針?biāo)频脑诖罅糠祷亟Y(jié)果中去尋找想要的那幾個(gè)記錄。如何尋求有效的方式來幫助用戶在大量的查詢結(jié)果中快速地找到真正需要的記錄是問題的核心,本系統(tǒng)提出通過使用用戶的興趣模型來解決這個(gè)問題。首先從大量返回的記錄中篩選出用戶可能感興趣的結(jié)果集;然后對(duì)結(jié)果集進(jìn)行排序,按照用戶對(duì)結(jié)果記錄感興趣的程度,把用戶最可能感興趣的記錄放在最前面展現(xiàn),使得用戶以最短的時(shí)間找到最需要的信息。
基于Deep Web數(shù)據(jù)集成的個(gè)性化信息服務(wù)系統(tǒng)不僅能夠?qū)崿F(xiàn)用戶自行檢索需要的信息,同時(shí)也能夠?qū)崿F(xiàn)咨詢館員通過分析用戶個(gè)性化信息來了解用戶的需求,進(jìn)而把用戶希望得到的信息推送給用戶,而且能夠?qū)崿F(xiàn)用戶之間組建興趣組,共享查詢到的資源或者進(jìn)行在線的交流。個(gè)性化信息服務(wù)系統(tǒng)框架如圖4所示。圖4 個(gè)性化信息服務(wù)系統(tǒng)框架圖
3 結(jié) 語
將具有領(lǐng)域性的Deep Web數(shù)據(jù)和數(shù)據(jù)集成技術(shù)應(yīng)用到用戶個(gè)性化信息服務(wù)系統(tǒng)具有重要意義和實(shí)際應(yīng)用價(jià)值。基于Deep Web數(shù)據(jù)集成的個(gè)性化信息服務(wù)系統(tǒng)在用戶進(jìn)行個(gè)性化信息推薦時(shí)具有個(gè)性化、智能化、查全率高、查準(zhǔn)率高、數(shù)據(jù)去重效果好、安全等優(yōu)點(diǎn)。但隨著Deep Web數(shù)據(jù)的高速增長(zhǎng),如何對(duì)待Web集成數(shù)據(jù)增量維護(hù)問題,研究云存儲(chǔ)模式下海量Deep Web數(shù)據(jù)的深度挖掘和知識(shí)發(fā)現(xiàn),建立適合于云存儲(chǔ)特征的深度挖掘算法,提高運(yùn)行速度和執(zhí)行效率是今后值得更深入探討和研究的問題。參考文獻(xiàn)
[1]錢強(qiáng),李英.數(shù)據(jù)挖掘技術(shù)在圖書館讀者分析中的應(yīng)用J].圖書情報(bào)工作,2009,(12):121-124.
[2]樓晶.圖書館個(gè)性化信息推送系統(tǒng)[J].圖書館學(xué)研究,2008,(4):49-53.
[3]董,方曙.Deep Web信息抽取研究[J].圖書情報(bào)工作,2007,(10).
[4]Bin He,Mitesh Patel,Zhen Zhang,Kevin Chen-Chuan Chang.Accessing the Deep Web:A Survey.2004.
[5]高嶺,趙朋朋,崔志明.Deep Web查詢接口的自動(dòng)判定[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,(5):148-151.
[6]邵秀麗,乜聚科,田振雷,等.用戶個(gè)性化推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,(20):4681-4683.