王崇峻,魏 鵬
?
基于RSS的個性化信息服務(wù)系統(tǒng)研究
王崇峻1,魏 鵬2
(1. 解放軍航天工程大學,北京 101400;2. 家數(shù)字交換系統(tǒng)工程技術(shù)研究中心,河南 鄭州 450002)
針對現(xiàn)有個性化信息服務(wù)在動態(tài)性與時效性上存在一定局限性的問題,本文充分借助RSS信息聚合的能力,將RSS融合進個性化信息服務(wù)系統(tǒng)中,使得眾多與用戶需求相吻合的信息聚合在一起快速、動態(tài)地推送給用戶。本文構(gòu)建了基于RSS的個性化信息服務(wù)系統(tǒng),其功能模塊構(gòu)成主要包括用戶興趣模型構(gòu)建、資源推薦、RSS包裝與信息服務(wù)推送,通過系統(tǒng)測試對本系統(tǒng)與人工操作結(jié)果進行對比,本系統(tǒng)在去重應用中的查準率為82.0%,查全率為92.2%,說明本架構(gòu)與系統(tǒng)的可行性以及系統(tǒng)的有效性。
RSS技術(shù);個性化信息服務(wù)系統(tǒng);推送方式
上世紀中葉以來,隨著科學技術(shù)的快速發(fā)展,以計算機技術(shù)為代表的高新技術(shù)逐漸嶄露頭角,計算機技術(shù)與互聯(lián)網(wǎng)技術(shù)迅速在各行各業(yè)中扎根深入,信息化建設(shè)成為了傳統(tǒng)企業(yè)轉(zhuǎn)型的途徑[1]。技術(shù)的革新打破了人們獲取信息的時間與空間局限性,為信息的表達與傳遞提供了信息化平臺支撐,與此同時,海量的信息不斷生成形成了顯著的“信息爆炸”現(xiàn)象,如何從海量的信息中摒棄無價值或無關(guān)的信息,準確找到與搜索主題切實相關(guān)的信息是現(xiàn)代搜索引擎的研究宗旨。搜索引擎與海量信息搜索技術(shù)的發(fā)展使得信息服務(wù)模式發(fā)生了重大變化,由早期的用戶被動接收有限量信息逐漸轉(zhuǎn)變?yōu)橛脩舾鶕?jù)需求從海量數(shù)據(jù)庫中主動獲取實際有價值的信息,這種信息服務(wù)模式以用戶的需求為核心,依托于個人需求與信息過濾技術(shù)可以將需要的信息從不需要的信息(兜售信息,垃圾郵件等)中分離出來,并向用戶推送符合其專業(yè)特征或使用偏好的信息服務(wù)。然而傳統(tǒng)的個性化信息服務(wù)系統(tǒng)在時效性與動態(tài)性上存在一定的局限,在推送方式上也存在用戶網(wǎng)絡(luò)安全隱患與用戶操作繁瑣等弊端,迫切需要對傳統(tǒng)個性化信息服務(wù)系統(tǒng)加以改進。
個性化信息服務(wù)系統(tǒng)是應對海量信息快速篩選與推送、用戶主動式獲取有價值信息的重要途徑,其工作流程如圖1所示,首先用戶遇到難以解決的問題,根據(jù)這一問題產(chǎn)生圍繞這個問題的信息獲取需求,個性化信息服務(wù)系統(tǒng)根據(jù)的個性化需求采用某種資源搜索與組織策略對信息產(chǎn)品進行生產(chǎn)與優(yōu)化,采用一定的策略將針對用戶個性化信息需求的信息打包成服務(wù)并推送給用戶,以滿足用戶個性化信息需求,幫助其解決問題。
圖1 個性化信息服務(wù)系統(tǒng)工作流程圖
傳統(tǒng)的個性化信息服務(wù)系統(tǒng)中,由于絕大部分的網(wǎng)絡(luò)信息在結(jié)構(gòu)上均是無序的、非結(jié)構(gòu)化的[2],在進行用戶建模時通常需要許多數(shù)據(jù)預處理工序,以使得信息相對結(jié)構(gòu)化與規(guī)律化,數(shù)據(jù)預處理工作會帶來極大的時間消耗,導致個性化信息服務(wù)的時效性較差。同時傳統(tǒng)的個性化服務(wù)系統(tǒng)在推送方式上存在一定的局限性,其主要采用用戶專用網(wǎng)頁、頻道推送、郵件推送等方式進行個性化服務(wù)推送[3],其中用戶專用網(wǎng)頁必須要用戶先進行系統(tǒng)登錄,登錄成功進入相應的網(wǎng)站之后才能對信息進行不同程度的定制,若是用戶所需信息所在的網(wǎng)站眾多,則用戶需要非常頻繁地登錄各個網(wǎng)站以便獲得個性化信息服務(wù),一方面增加了用戶在信息獲取階段的時間消耗與工序繁雜性,另一方面也會影響用戶獲取信息的時效性。頻道推送,顧名思義是將某些網(wǎng)頁設(shè)置為瀏覽器中的頻道,用戶在使用瀏覽器時可以像調(diào)電視頻道一樣地接收感興趣的網(wǎng)頁推送的個性化信息,雖然用戶無需登錄即可獲得個性化信息服務(wù),但是在頻道推送方式下用戶無法屏蔽或取消那些用戶未曾訂閱的網(wǎng)頁內(nèi)容,也無法關(guān)閉那些隨時彈出的網(wǎng)頁窗口小廣告[4]。郵件推送是指向用戶發(fā)送郵件的方式為用戶提供個性化信息服務(wù),這種信息推送方式在安全性方面存在缺陷,推送的郵件中潛伏的病毒會對用戶的電腦帶來或輕或重的安全隱患,此外,在眾多的推送郵件中存在著非貼近用戶個性化需求的垃圾郵件,給用戶開展郵件管理與垃圾郵件管理工作帶來許多不便。
RSS技術(shù)基于XML標準[5],在信息推送方式上具有良好的動態(tài)性與時效性,因此現(xiàn)有的個性化信息服務(wù)大多引入RSS技術(shù)。在個性化信息服務(wù)中RSS技術(shù)的應用方向主要集中在RSS信息聚合技術(shù)以及RSS搜索引擎技術(shù)兩個方面。在信息聚合方面,RSS主要應用于電子商務(wù)平臺與網(wǎng)站中,通過搭建信息傳播技術(shù)平臺,將電子商務(wù)平臺中的用戶均作為信息提供的“潛在志愿者”,發(fā)布RSS文件提供個性化RSS推送服務(wù)。在搜索引擎方面,國內(nèi)外眾多主流搜索引擎,如雅虎、百度、谷歌資訊、人民網(wǎng)、新浪等均采用RSS技術(shù),從海量龐雜的信息中篩選出貼合個性化需求的RSS信息向用戶進行動態(tài)推送,上述搜索引擎或網(wǎng)站采用“用戶專用網(wǎng)頁”的的信息推送方式,用戶輸入個人信息登錄到上述網(wǎng)站中即可享受網(wǎng)站所提供的各類分門別類的新聞與信息資訊服務(wù),但是這種定制化的服務(wù)并不能充分滿足用戶對新聞與資訊的個性化需求,無法真正做到用戶需要什么,對什么感興趣,網(wǎng)站就自動推送什么新聞或資訊,即通過對用戶瀏覽新聞或信息資訊的主題與內(nèi)容進行分析,動態(tài)更新符合用戶感興趣主題的網(wǎng)站新聞與資訊,以便用戶能夠獲得迎合自身興趣與需求的信息服務(wù)。這種缺乏用戶參與的、相對僵化的個性化網(wǎng)站在一定程度上存在被動性,與真正的“所需即所見”仍然存在不小的差距。
基于RSS的個性化信息服務(wù)系統(tǒng)旨在運用RSS技術(shù)實現(xiàn)個性化需求與個性化信息服務(wù)的聯(lián)動、動態(tài)更新,系統(tǒng)從工作流程與功能結(jié)構(gòu)上可以分為用戶興趣模型構(gòu)建、資源推薦、RSS包裝與信息服務(wù)推送,其系統(tǒng)架構(gòu)如圖2所示。
用戶興趣模型是基于RSS的個性化信息服務(wù)系統(tǒng)的眼睛與耳朵,用于對用戶的個性化需求進行搜集獲取,對用戶的個性化需求、興趣點、行為模式等進行綜合化描述,旨在刻畫符合用戶內(nèi)心真實需求的信息服務(wù)類型。用戶興趣模型具有唯一性,每一個用戶均有其對應構(gòu)建的用戶興趣模型,每個用戶均需要在個性化信息服務(wù)系統(tǒng)中進行個人信息注冊,以用戶登錄帳號唯一標識用戶個人,一個用戶登錄帳號對應一個用戶興趣模型,用戶登錄到信息服務(wù)系統(tǒng)后可以瀏覽自己所感興趣的新聞、資訊等信息,系統(tǒng)通過對用戶瀏覽新聞或信息資訊的主題與內(nèi)容進行分析,并追溯用戶瀏覽信息的源頭,采用不同的需求搜集方式對用戶的興趣點與需求點進行信息化建設(shè),形成用于描述與表達用戶個性化需求與興趣的模型庫,作為動態(tài)更新符合用戶感興趣主題的網(wǎng)站新聞與資訊的基礎(chǔ)性模型保障,以便用戶能夠獲得迎合自身興趣與需求的信息服務(wù)。
圖2 基于RSS的個性化信息服務(wù)系統(tǒng)架構(gòu)圖
由于絕大部分的網(wǎng)絡(luò)信息在結(jié)構(gòu)上均是無序的、非結(jié)構(gòu)化的,在進行個性化服務(wù)系統(tǒng)的用戶建模時通常需要許多數(shù)據(jù)預處理工序,以使得信息相對結(jié)構(gòu)化與規(guī)律化,數(shù)據(jù)預處理工作會帶來極大的時間消耗,導致個性化信息服務(wù)的時效性較差?;赗SS技術(shù)的文檔信息格式是一種結(jié)構(gòu)化的描述和同步網(wǎng)站內(nèi)容的格式,結(jié)構(gòu)化的信息特征極大地減少了信息預處理過程中的時耗,同時結(jié)構(gòu)化的信息有利于采用傳統(tǒng)的數(shù)據(jù)查詢與檢索方式進行高效率地信息篩選,是簡化用戶興趣模型構(gòu)建工序的重要內(nèi)容之一。網(wǎng)站中的RSS信息的結(jié)構(gòu)化特性有利于信息的分解與抽取,因此對于使用RSS信息源的用戶,系統(tǒng)可以無需采用顯示的方式,可以采用相對隱性的方式對行為模式、興趣愛好、個人需求、專業(yè)特征等進行跟蹤與記憶,獲取用戶個人信息與用戶需求信息,建立更為完善且全面的用戶興趣模型。例如,用戶啟動瀏覽器搜索瀏覽相關(guān)信息的記錄在短期內(nèi)會保存在用戶訪問日志中,這些瀏覽記錄存儲者用戶與瀏覽器網(wǎng)站的交互信息[6],其中蘊含著用戶的瀏覽行為以及用戶的偏好特征,是用戶興趣模型構(gòu)建的重要參考數(shù)據(jù),在實際進行用戶興趣模型構(gòu)建時通常會運用數(shù)據(jù)挖掘模型如模糊聚類、決策樹等對用戶的瀏覽行為以及所瀏覽網(wǎng)站的信息進行深入挖掘[7],為模型構(gòu)建提供數(shù)據(jù)基礎(chǔ)。網(wǎng)站中的信息除了結(jié)構(gòu)化的RSS信息之外,也存在著非結(jié)構(gòu)化的信息,對于這部分信息可以采用顯示方式全方位地搜集用戶的信息,如用戶的姓名、職業(yè)、年齡、郵箱地址、手機號碼等,以補充用戶個人信息表與用戶需求信息表,更為針對性地為用戶推送符合其專業(yè)特征或使用偏好的信息服務(wù)。本研究中,基于RSS的個性化信息服務(wù)系統(tǒng)的用戶個人信息表與用戶需求信息表結(jié)構(gòu)如表1與表2所示。
基于個性化推薦技術(shù)的資源組織即以用戶興趣模型為參照[8],全網(wǎng)匹配與用戶興趣模型中的用戶興趣點相關(guān)的信息,對篩選出的信息進行信息整合與數(shù)據(jù)組織,運用現(xiàn)有的推薦技術(shù)對組織的數(shù)據(jù)進行計算獲得優(yōu)化結(jié)果集,最終的優(yōu)化結(jié)果集是符合用戶的個性化需求與興趣模式的,以達到個性化信息整合的目的[9]。
表1 用戶個人信息表
Tab.1 Users' personal information
表2 用戶需求信息表
Tab.2 User requirements information
RSS是一種XML,RSS文檔遵循XML 1.0規(guī)范,在W3C網(wǎng)站上發(fā)布了規(guī)范。RSS文檔中,最外層是
基于RSS技術(shù)的資源推送即將優(yōu)化后的資源結(jié)果集按照RSS文檔規(guī)范格式進行標準化處理包裝生成RSS文件,然后將RSS文件部署到Apache、Tomcat等Web服務(wù)器上以便訪問,將RSS在服務(wù)器中的存儲路徑轉(zhuǎn)變?yōu)镽SS文件的訪問網(wǎng)址,將該網(wǎng)址添加到RSS閱讀器中,用戶基于RSS閱讀器可以獲取RSS文件及其中的信息內(nèi)容,從而實現(xiàn)個性化信息服務(wù)向用戶的推送以及RSS文件的聯(lián)動、動態(tài)更新。
在基于RSS的個性化信息服務(wù)系統(tǒng)中,按照傳統(tǒng)方法將個性化信息服務(wù)系統(tǒng)分為信息獲取、信息預處理和按主題聚合三個技術(shù)模塊[10]。
信息獲取部分負責從互聯(lián)網(wǎng)上查找并下載文本信息,本文根據(jù)信息載體的不同將信息獲取方式分為RSS源和抽取網(wǎng)頁正文兩方面,網(wǎng)頁正文提取是web信息處理的基礎(chǔ),網(wǎng)頁正文中包含了眾多非結(jié)構(gòu)化信息,現(xiàn)有網(wǎng)頁正文抽取技術(shù)在非結(jié)構(gòu)化信息獲取效率、獲取準確性與獲取覆蓋度等方面存在的不足,針對上述問題,本文以現(xiàn)有技術(shù)很少涉及的多正文網(wǎng)頁為研究對象,提出一種可以快速、準確識別正文區(qū)域的基于標簽相似度的多正文網(wǎng)頁抽取技術(shù),有效地提高了Web數(shù)據(jù)抽取的準確率和效率。
信息預處理主要包括中文分詞、文本去重等步驟,在文本去重方面,去重的查準率與查全率一直是去重算法普遍關(guān)注的兩項指標,然而現(xiàn)階段的去重算法相比較于人工去重在有效性方面仍然存在較大的差距,本文結(jié)合Simhash技術(shù)設(shè)計制定了本系統(tǒng)中信息的去重方式及存儲格式,有效提高去重算法的應用效果。
按主題聚合部分主要將預處理后的文檔按照所涉及的主題進行聚類聚合,并將結(jié)果存儲,以便用戶在查看瀏覽相關(guān)主題時可以在聚類組合中找到其他關(guān)聯(lián)性主題并將其提供給用戶?,F(xiàn)階段在按主題模塊方面使用角度的技術(shù)為布爾模型、空間向量模型和概率主題模型,以空間向量模型為例,其運用向量之間的距離與夾角等參數(shù)定量刻畫文本間的相似度,但是其不足之處在于,空間向量模型只是對詞項進行分析,并不能挖掘出隱含在詞項之中的語義信息,如“大數(shù)據(jù)”與“Hadoop”、“Spark”兩詞之間應有很強的語義關(guān)系(因為是處理大數(shù)據(jù)的重要工具),但使用向量空間模型無法發(fā)現(xiàn)這類信息,但使用空間向量模型無法發(fā)現(xiàn)這類信息。針對現(xiàn)有按主題聚合技術(shù)方面存在的問題,本文采用LDA主題模型來挖掘潛在語義信息,進行文本的聚合,將語義相同的文本歸為一類,同時對主題模型進行一些改造以適應信息實時性強、主題多變的特點,若用戶想査看與某篇文章主題相同的其他信息,便能方便的通過系統(tǒng)查看[11]。
將本研究提出的個性化信息服務(wù)系統(tǒng)應用到某大學圖書館中文期刊檢索這一的實例中,以驗證本研究系統(tǒng)的可行性。
(1)用戶需求:用戶想查找到主題詞為univ-ersity的相關(guān)信息。
(2)資源組織:借助搜索引擎對圖書館中文期刊元數(shù)據(jù)庫中的所有主題記錄進行逐個匹配,篩選出元數(shù)據(jù)庫中所有主題詞包含university的信息記錄。
(3)RSS包裝:將檢索記錄按照RSS文檔規(guī)范格式進行標準化處理包裝生成RSS文件,部分RSS文件內(nèi)容如下:
(4)資源部署與推送:在Web服務(wù)器上部署RSS文件,并將RSS網(wǎng)絡(luò)地址添加到RSS閱讀器中,便于以RSS閱讀器作為媒介進行訪問,如圖3所示為個性化信息服務(wù)訪問界面。
(5)實驗對比分析
為驗證本文所研發(fā)的基于RSS的個性化信息服務(wù)系統(tǒng)的有效性,本文以2017年某大學圖書館新登記的2320本外文電子書為實驗數(shù)據(jù),運用本系統(tǒng)對其進行university關(guān)鍵詞過濾與去重處理,并以人工過濾與去重作為去重正確率的有效參照,以驗證本系統(tǒng)在信息去重方面的應用效果。實驗結(jié)果如下:采用本系統(tǒng)進行去重的university信息條數(shù)共計648條,其中去重正確的信息條數(shù)共計598條,采用人工手段進行去重的university信息條數(shù)共計729條,通過查全率與查準率對系統(tǒng)在去重方面的有效性進行定量分析,通過對上述實驗數(shù)據(jù)進行計算,本系統(tǒng)的查全率為92.2%,查準率為82.0%,表明本個性化信息服務(wù)系統(tǒng)在去重方面具有較高的準確率與覆蓋率。
圖3 個性化信息服務(wù)訪問
RSS技術(shù)在信息推送方式上具有良好的時效性與動態(tài)性,本文將RSS技術(shù)引入到個性化信息服務(wù)系統(tǒng)中,對基于RSS的個性化信息服務(wù)系統(tǒng)的體系架構(gòu)、功能模塊等進行了詳細闡述,為實現(xiàn)高時效、動態(tài)更新的一站式個性化信息服務(wù)提供了技術(shù)與方法支撐,通過測試實例并將其與人工操作結(jié)果進行對比分析,本文提出的基于RSS的個性化信息服務(wù)系統(tǒng)在去重應用中的查全率92.2%,查準率82.0%,驗證了本系統(tǒng)的有效性與精度。
[1] 左素素. 基于智能過濾的數(shù)字圖書館個性化信息服務(wù)研究[J]. 圖書館學研究, 2016(3): 80-84.
[2] 曹勁. 基于RSS的個性化內(nèi)容推薦服務(wù)系統(tǒng)設(shè)計與實現(xiàn)[D]. 復旦大學, 2010.
[3] 胡晶晶, 鄭志蘊. 基于RSS的個性化信息服務(wù)研究[J]. 計算機應用與軟件, 2009, 26(5): 40-42.
[4] 張立彬, 楊軍花, 翟春紅, 王璐. 基于RSS的搜索引擎技術(shù)及其發(fā)展趨向探析[J]. 情報科學, 2009, 27(2): 183-189.
[5] 黃艷娟. 基于RSS的圖書館個性化信息推送服務(wù)[J]. 情報科學, 2006(7): 1023-1026.
[6] 姜瑞其. RSS在圖書館自助式數(shù)字參考咨詢服務(wù)中的應用[J]. 情報理論與實踐, 2006(1): 78-81.
[7] 劉家瑋, 劉波, 沈岳. 知識圖譜在農(nóng)業(yè)信息服務(wù)中的應用進展[J]. 軟件, 2015, 36(3): 26-30.
[8] 田鵬程, 張莉梅, 楊俊. 就業(yè)信息服務(wù)平臺數(shù)據(jù)隱私保護方案設(shè)計[J]. 軟件, 2015, 36(4): 18-23.
[9] 榮艷冬. 基于云計算的高校就業(yè)信息服務(wù)平臺的應用研究[J]. 軟件, 2015, 36(5): 45-48.
[10] 韓旭, 常青. 社區(qū)警務(wù)信息工作平臺的研究與開發(fā)[J]. 軟件, 2015, 36(6): 163-166.
[11] 林少普, 倪禮豪. 溫州農(nóng)業(yè)科技園信息化管理平臺SaaS 方案設(shè)計[J]. 軟件, 2015, 36(8): 67-70.
Research on Personalized Information Service System Based on RSS
WANG Chong-jun1, WEI Peng2
(1. Wang Chongjun, PLA Aerospace Engineering University, Beijing 101400, China; 2. Wei Peng National Digital Switching System Engineering Technology Research Center, Zhengzhou 450002, China)
In view of the limitations of existing personalized information services in terms of dynamics and timeliness, this paper makes full use of the ability of RSS information aggregation to integrate RSS into personalized information service systems, which makes many match the needs of users. The information is aggregated together and pushed to the user quickly and dynamically. This paper constructs a personalized information service system based on RSS. Its functional modules mainly include user interest model construction, resource recommendation, RSS packaging and information service push. The system is compared with the manual operation results through system testing. The accuracy of the application is 82.0%, and the recall rate is 92.2%, indicating the feasibility of the architecture and system and the effectiveness of the system.
RSS technology; Personalized information service system; Push method
TP391.1
B
10.3969/j.issn.1003-6970.2018.07.023
王崇峻(1993-),男,研究生,主要研究方向:信息網(wǎng)絡(luò)安全;魏鵬(1994-),男,研究生,主要研究方向:新型網(wǎng)絡(luò)體系結(jié)構(gòu)。
本文著錄格式:王崇峻,魏鵬. 基于RSS的個性化信息服務(wù)系統(tǒng)研究[J]. 軟件,2018,39(7):110-115