靳輝
(哈爾濱金融學(xué)院圖書館哈爾濱150030)
基于RSS技術(shù)的圖書館一站式信息服務(wù)
靳輝
(哈爾濱金融學(xué)院圖書館哈爾濱150030)
為了完善一站式服務(wù)內(nèi)容,提高圖書館信息服務(wù)水平,對RSS技術(shù)原理剖析后提出了基于RSS技術(shù)的一站式信息服務(wù)模型。該模型主要通過用戶興趣庫的構(gòu)建、信息源獲取及RSS源文件的解析、多維權(quán)值排序算法來實現(xiàn)。最后給出了模型的誤差仿真實驗。此模型提高了圖書館信息服務(wù)的個性化程度,將知識、信息和用戶銜接起來,以全新的視角改善了網(wǎng)絡(luò)資源的使用率。
RSS 圖書館 一站式服務(wù) 信息服務(wù)
G202
A
現(xiàn)代信息技術(shù)的成熟加快了圖書館的數(shù)字化、個性化信息服務(wù)的進程。個性化信息服務(wù)就是根據(jù)用戶的信息需求供給不同的信息內(nèi)容,并利用好的信息供給刺激用戶產(chǎn)生更高的信息需求并尋求滿足。[1]為用戶提供豐富、便利、主動、及時、有效的信息服務(wù),充份加強對信息資源的分散性與用戶需求特定性的協(xié)調(diào);對信息服務(wù)的方式與用戶的獲取信息的方便度、滿意度的協(xié)調(diào);對信息供給的全面性、相似性與供給速度的協(xié)調(diào)已成為高校圖書館的觀注重點。本文以RSS技術(shù)為基礎(chǔ)建立雙向協(xié)調(diào)性、學(xué)習(xí)性、互動性完備的一站式服務(wù)模型,為不斷提高圖書館個性化、學(xué)科化、專業(yè)化服務(wù)水平提供技術(shù)平臺。
RSS技術(shù)是基于XML標(biāo)準(zhǔn)建立的內(nèi)容包裝和投遞的協(xié)議,是各站點之間共享內(nèi)容,實現(xiàn)個性化信息服務(wù)的信息聚合技術(shù)。服務(wù)提供者將信息以記錄的形式封裝成RSS文件,直接被其他站點調(diào)用或在其他的終端和服務(wù)中使用。還可根據(jù)用戶的定制項目,由RSS Reader(專用/在線閱讀器、Web瀏覽器)提取信息,以用戶感興趣、習(xí)慣的顯示方式向用戶提供一站式信息服務(wù)。RSS以其特有的高度聯(lián)合性、個性化動態(tài)聚合性讓用戶可以選擇性地過濾、訂閱出自己感興趣的消息,并且獲得的是全綠色無垃圾信息。用戶不必在各網(wǎng)站來回切換查找信息。RSS文件封裝及發(fā)布在技術(shù)實現(xiàn)上是極為簡單的一次性的工作,操作簡單、低成本、強時效性是其他方式所無法比擬的。
……
元素說明:
模型結(jié)構(gòu)如圖1所示,該模型說明如下:
圖1 基于RSS的一站式信息服務(wù)模型
(1)用戶通過Web瀏覽器或RSS閱讀器獲得服務(wù)內(nèi)容。并可以對感興趣的內(nèi)容進行自助式定制。
(2)模型根據(jù)用戶輸入的相關(guān)內(nèi)容對其興趣愛好進行分析建模,從而構(gòu)建用戶興趣庫。
(3)模型提供網(wǎng)絡(luò)信息源有RSS源信息和非RSS源信息。RSS源信息來源于信息發(fā)布者(主要是搜索引擎提供商)將用戶的檢索信息歸類、主題聚合后根據(jù)RSS規(guī)范[3]生成RSS文件并發(fā)布;非RSS源是未進行RSS規(guī)范化的資源(如傳統(tǒng)的網(wǎng)頁信息,以HTML格式為主)和圖書館自建數(shù)據(jù)源,如根據(jù)自我特色而建立的數(shù)據(jù)庫,如特色專題知識庫、本校教師文獻庫等。[4]
(4)對于RSS源信息要進行RSS文件解析,實現(xiàn)信息特征表示,與用戶的興趣特征進行比較,按相似度進行排序后提供給用戶,實現(xiàn)在線瀏覽。對于非RSS源信息用戶可以直接訪問獲取,也可以由信息發(fā)布者規(guī)范化后形成RSS源文件發(fā)布后使用。
(5)模型對RSS文件進行分類管理。及時地將更新后的最新的信息個性化地推送給用戶。
(6)與新型圖書館OPAC[5]系統(tǒng)的結(jié)合,用戶不必再訪問多個網(wǎng)站就可完成所需內(nèi)容的獲取。真正實現(xiàn)一站式信息檢索服務(wù)。
(7)提供自助式交流服務(wù),如虛擬參考咨詢、定題服務(wù)、學(xué)科導(dǎo)航、特色專題知識庫導(dǎo)航。
使用數(shù)據(jù)使用挖掘(Data Usage Ming)技術(shù)構(gòu)建興趣庫,從文檔和服務(wù)中自動發(fā)現(xiàn)和抽取信息,能夠幫助進行信息分析和信息處理,從而改進服務(wù)。[6]數(shù)據(jù)使用挖掘主要包括兩種方法:①利用COM技術(shù),[7]與瀏覽器交互,用ATL(活動模板)實現(xiàn)與IE或Netscape等交互的DLL(動態(tài)鏈接庫)來收集用戶個性化數(shù)據(jù)。②通過對用戶訪問日志的挖掘以發(fā)現(xiàn)用戶訪問模式和預(yù)測用戶瀏覽行為的技術(shù)。
向量空間建模的基本思想是將文檔和個性化需求表示成為所有索引項組成的向量空間中的點,通過向量空間關(guān)系來定義和計算文檔與用戶興趣的相關(guān)度。設(shè)定一個文檔:
其中Tk(1≤k≤n)為文檔的基本組成單位(字、詞、詞組或句子等),稱為項。Wk(1≤k≤n)被賦予對應(yīng)項的權(quán)重,表示其在文檔中的重要程度。常用的計算權(quán)重的方法:
公式(2)中,W(t,d)為項t在文檔d中的權(quán)重,tf(t,d)為項在文檔中出現(xiàn)的頻率,N為訓(xùn)練樣本總數(shù),nt為訓(xùn)練樣本集中出現(xiàn)的文檔數(shù),分母為歸一化因子。
對于非RSS源的獲取本文采用了基于鏈接密度和統(tǒng)計結(jié)合的網(wǎng)頁正文提取方法。該方法首先判斷4個參量:鏈接節(jié)本密度LTD(li.nk text density):某個節(jié)點下所有鏈接的文字的長度與所有文字長度的比值;鏈接個數(shù)LA(Link Amount):該節(jié)點下的所有的子節(jié)點中含有鏈接節(jié)點的個數(shù);鏈接個數(shù)密度LAD(Link AmountDensity):該節(jié)點下所有的子節(jié)點中鏈接節(jié)點個數(shù)和所有節(jié)點個數(shù)的比值;節(jié)點文本長度NTL(Node Text Length):一個節(jié)點下去掉網(wǎng)頁標(biāo)記后的所有文本的長度,根據(jù)4個參量的值判斷文本的位置,然后抽取。
信息按照用戶興趣度高低順序依次推送給用戶是個性化服務(wù)的目的。本文采用多維權(quán)值排序算法(MWRA)實現(xiàn)信息源排序。其數(shù)學(xué)化形式為:
Mw為多維檢索衡量權(quán)值;R為信息本身的客觀重要度權(quán)值,通過超鏈接的引用情況獲得;S為用戶輸入的檢索關(guān)鍵詞與網(wǎng)頁的匹配度;I為用戶自身的檢索習(xí)慣與信息的相似度值;T為信息更新的時間。這個T值由用戶自行指定。對用戶興趣庫的數(shù)據(jù)用R,S和I值得出Mw值進行綜合排序后,再利用T值對于相同的Mw值的頁而按時間先后進行排序,最終的網(wǎng)絡(luò)信息是按符合度遞減的順序反饋給用戶。
利用Matlab對查詢信息數(shù)據(jù)進行模擬分析,對比信息查詢和獲得信息相似度之間的誤差,若是誤差越小,說明信息服務(wù)質(zhì)量越高、供給的信息越準(zhǔn)確,即信息服務(wù)的個性化服務(wù)質(zhì)量越高。設(shè)神經(jīng)元個數(shù)為1000,采用sigmoid函數(shù),a取0.2,誤差測試結(jié)果如圖2所示。通過實驗,隨著樣本量的增加,誤差趨于0。顯然得出本文提出的模型檢索信息誤差較小、準(zhǔn)確率較高。
圖2 模型誤差分析
本文提出了基于RSS技術(shù)的一站式信息服務(wù)模型及相關(guān)技術(shù)算法,通過對知識和信息的過濾,使得隱性知識通過網(wǎng)絡(luò)實現(xiàn)顯性化,把網(wǎng)絡(luò)上的最新信息資源推送給用戶?;赗SS技術(shù)一站式信息服務(wù)模型提高了圖書館信息服務(wù)的個性化程度,將知識、信息和用戶銜接起來,完善了一站式信息服務(wù)內(nèi)容,以全新的視角改善了網(wǎng)絡(luò)資源的使用率。
[1]胡昌平等.信息服務(wù)與用戶[M].武漢:武漢大學(xué)出版社,2008:200-280.
[2]張延偉,RSS技術(shù)及其在數(shù)字圖書館中的應(yīng)用探討[J],圖書情報研究.2009,2(1).
[3]Winer D.RSS2.0 Specification(2.0版規(guī)范,)[EB/OL]http://blogs. law.harvard.edu/tech/rss,2005.05.20
[4]張立彬,楊軍花.基于RSS的搜索引擎技術(shù)及其發(fā)展趨向探析[J].情報科學(xué).2009,27(2).
[5]胡潛,汪會玲.基于RSS的個性化推送服務(wù)[J].情報雜志.2008,10.
[6]HAN J.數(shù)據(jù)挖掘感念與技術(shù)2版[M].范明,譯.北京:機械工業(yè)出版社.2007:100-163
[7]Kelly D,Teevan J.Implicit feedback for inferring user preference:a bibliography[C].ACM SIGIR Forum 37(2)(2003):18-28.
靳輝,女,碩士研究生,哈爾濱金融學(xué)院圖書館技術(shù)部館員。