劉紅芝
(徐州醫(yī)學(xué)院圖書館,江蘇 徐州 221004)
劉紅芝 女,碩士。館員,發(fā)表論文10篇,主持并參與課題多項(xiàng)。研究方向:電子信息咨詢與服務(wù);計(jì)算機(jī)網(wǎng)絡(luò)及數(shù)據(jù)庫(kù)技術(shù)。
目前網(wǎng)絡(luò)正以前所未有的速度快速增長(zhǎng),信息共享日益廣泛。但是網(wǎng)絡(luò)是把“雙刃劍”,它在給人們帶來方便和快捷的同時(shí),也帶來了各種問題。不良網(wǎng)站的泛濫、非法信息的傳播等令人們防不勝防,網(wǎng)絡(luò)信息安全問題越來越引起人們的關(guān)注。采用相應(yīng)過濾技術(shù)過濾不良信息已經(jīng)成為未來網(wǎng)絡(luò)技術(shù)發(fā)展的當(dāng)務(wù)之急。
信息過濾[1](Information Filtering)就是根據(jù)用戶的信息需求,在動(dòng)態(tài)的信息流中,搜索用戶感興趣的信息,屏蔽其他無用和不良的信息。信息過濾技術(shù)是以一種系統(tǒng)化的方法,將用戶需求與動(dòng)態(tài)信息流進(jìn)行匹配計(jì)算,從信息流中抽取出符合用戶個(gè)性化需求的信息,并將其傳送給用戶。
信息過濾系統(tǒng)實(shí)現(xiàn)信息過濾的方法有以下6種:
1987年,Malone及其同事把信息過濾方法分為3類:基于內(nèi)容的過濾(content-based filtering)、協(xié)作過濾(collaborative filtering)和經(jīng)濟(jì)過濾(economic filtering)。其中,基于內(nèi)容的過濾也叫認(rèn)知過濾(cognitive filtering);協(xié)作過濾也叫社會(huì)過濾(social filtering)[2]。而目前使用較多的就是基于內(nèi)容的過濾和基于協(xié)作的過濾。
這種方法按照信息內(nèi)容的特征作出選擇,主要采用自然語(yǔ)言處理、人工智能、概率統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行過濾。過濾系統(tǒng)把每個(gè)用戶的信息需求表示成一個(gè)用戶需求模板,利用關(guān)鍵詞將進(jìn)入的信息流與用戶需求模板進(jìn)行相似度匹配計(jì)算。過濾的結(jié)果作為反饋更新用戶需求模板。內(nèi)容過濾能夠監(jiān)測(cè)現(xiàn)有信息的內(nèi)容特征,為用戶提供與其曾經(jīng)感興趣信息相似的信息,但不能為用戶發(fā)現(xiàn)新的興趣信息。這種方法比較適合于分析文本信息,但對(duì)聲音、圖像、視頻等形式的媒體信息還缺乏有效的自動(dòng)分析方法。
這種方法是“相似”用戶間的相互協(xié)作過程。通過分析用戶興趣,在用戶群體中找到與指定用戶興趣相同或相似的用戶,綜合這些相同或相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。在協(xié)作過濾系統(tǒng)中,用戶的知識(shí)、經(jīng)驗(yàn)、職業(yè)、興趣愛好以及思想觀念對(duì)于過濾任務(wù)是相當(dāng)重要的。由于不依賴于內(nèi)容,這種過濾方法不僅適用于文本信息,也可以推廣到非文本形式的信息。
協(xié)作過濾的局限是活動(dòng)用戶只能獲取具有相同興趣的用戶喜歡的信息,而不能獲取不同興趣的用戶喜歡的信息。
這種方法依賴于成本和用戶獲益的計(jì)算,依賴于價(jià)格機(jī)制。
系統(tǒng)主動(dòng)從Web上為其用戶推送相關(guān)的信息。在有些主動(dòng)信息過濾系統(tǒng)中,預(yù)先對(duì)網(wǎng)絡(luò)信息進(jìn)行處理,例如對(duì)網(wǎng)頁(yè)或者網(wǎng)站預(yù)先分級(jí)、建立允許或禁止訪問的地址列表等,在過濾時(shí)可以根據(jù)分級(jí)標(biāo)記或地址列表決定能否訪問。
系統(tǒng)不對(duì)網(wǎng)絡(luò)信息進(jìn)行預(yù)處理,當(dāng)用戶訪問時(shí)才對(duì)地址、文本或圖像等信息進(jìn)行分析以決定是否過濾及如何過濾。
根據(jù)用戶對(duì)信息的評(píng)價(jià)把信息推薦給合適的接收者,屬于協(xié)作過濾系統(tǒng)的一部分。
通過設(shè)置一定的條件限制用戶獲取某些信息,而其他信息可以利用。
上游過濾[4]又叫代理服務(wù)器過濾。用戶需求模板存放在服務(wù)器端或者代理端。一般說來,為了減少服務(wù)器端和客戶端的負(fù)荷,過濾系統(tǒng)也可能處在信息提供者與用戶“之間”專門的中間服務(wù)器上,這種情況也叫做中間服務(wù)器過濾。中間服務(wù)器如同一個(gè)大型的網(wǎng)絡(luò)緩存器,Internet信息只有經(jīng)過它的過濾才能進(jìn)入本地系統(tǒng)或局域網(wǎng),而本地信息也要經(jīng)過它的中轉(zhuǎn)才能傳遞出去。上游過濾的優(yōu)點(diǎn)是不僅支持基于內(nèi)容的過濾,也支持協(xié)作過濾,缺點(diǎn)是模板不能用于不同的網(wǎng)絡(luò)應(yīng)用中。
下游過濾[5]又叫客戶端過濾[3],用戶需求模板存放在客戶端上,用戶根據(jù)自身需要設(shè)置一定的限定條件,將不感興趣的信息排除在外。優(yōu)點(diǎn)是模板可用于不同的網(wǎng)絡(luò)應(yīng)用,缺點(diǎn)是只能實(shí)現(xiàn)基于內(nèi)容的過濾。
信息源過濾又叫剪輯服務(wù),用戶將需求模板提交給一個(gè)信息提供者,由信息提供者為用戶過濾信息。
信息過濾系統(tǒng)按照其從用戶獲取信息方法的不同可以分為顯式的、隱含式的、混合式的3類。
采用顯式方法獲取用戶信息需求的過濾系統(tǒng)通常要求用戶去填寫一個(gè)描述他們興趣領(lǐng)域需求的表或者要求用戶根據(jù)提供的特征項(xiàng)構(gòu)造自身對(duì)特定領(lǐng)域信息需求的描述模型。通過用戶交互提供的這些顯式信息可以快速、明確描述用戶的信息需求,減少系統(tǒng)學(xué)習(xí)的負(fù)擔(dān)。但是這種顯式的獲取用戶信息需求的方式會(huì)增加用戶的負(fù)擔(dān),加重用戶使用系統(tǒng)的困難。
采用隱含式方法獲取用戶信息需求的過濾系統(tǒng)通過記錄用戶的行為來獲得用戶的信息需求,如用戶在指定頁(yè)面的停留時(shí)間、用戶訪問頁(yè)面的頻率、是否選擇保存數(shù)據(jù)、是否打印、是否轉(zhuǎn)發(fā)數(shù)據(jù)等對(duì)信息項(xiàng)的反應(yīng)都能作為用戶興趣的標(biāo)志。一般來說,這種采用隱含式獲取用戶信息需求的方法容易受到干擾的影響,所以這種方法通常用作顯式方法的補(bǔ)充。
采用混合式[6]方法獲取用戶信息需求的方法介于顯式方法和隱含式方法之間,它要求盡量減少用戶的參與?;旌鲜将@取用戶信息需求的方法通常有兩種,一種方法是通過文檔空間來獲取知識(shí),另一種方法是通過原型參考來獲取知識(shí)。
通過文檔空間來獲取知識(shí)的混合式過濾系統(tǒng)通過提供一個(gè)用戶已判斷為相關(guān)的文檔集,當(dāng)新文檔到來時(shí)計(jì)算新文檔與此文檔集的相似度,如果相似度大于一定的閥值,則新文檔被認(rèn)為是相關(guān)的。用戶不需要定義模板,只需評(píng)價(jià)文檔的相關(guān)性。這種方法的缺點(diǎn)是如果某一興趣領(lǐng)域不在初始文檔空間范圍內(nèi),用戶的興趣可能會(huì)發(fā)生偏移。
通過原型參考來獲取知識(shí)的混合式過濾系統(tǒng)要求用戶提供自身明確的信息,使系統(tǒng)能夠把用戶與用戶原型模型相關(guān)聯(lián)。所謂的原型模型是指一組用戶的默認(rèn)信息,將對(duì)用戶原型模型上的隱含式推測(cè)與用戶提供的明確知識(shí)相結(jié)合,可得到更好的表示用戶信息需求的用戶模板。目前只有少量的過濾系統(tǒng)中使用這種方法。
這是為過濾網(wǎng)絡(luò)信息而專門開發(fā)的軟件,又分為專門過濾軟件和通用過濾軟件兩種。前者只能過濾某種網(wǎng)絡(luò)協(xié)議的信息,或者只能在某種網(wǎng)絡(luò)應(yīng)用中起作用;后者能對(duì)多種網(wǎng)絡(luò)協(xié)議或應(yīng)用起作用。
有些網(wǎng)絡(luò)應(yīng)用程序如Web瀏覽器、搜索引擎、電子郵件、新聞組等附有過濾功能,可以設(shè)置過濾不適宜的信息。
如防火墻、代理服務(wù)器等,可以通過對(duì)源地址、目標(biāo)地址或端口號(hào)的限制,防止子網(wǎng)不適宜信息流出或子網(wǎng)外不適宜信息流入。
此外,還有其他分類方法,如按興趣收集涉及到的用戶分為獨(dú)立過濾和協(xié)同過濾、按信息的表示方法分為統(tǒng)計(jì)概念過濾和知識(shí)概念過濾等。
通過對(duì)常用過濾系統(tǒng)幾種分類方法的分析,我們可以選擇適合的分類方法構(gòu)建信息過濾模型,使之應(yīng)用到各種領(lǐng)域中,從而構(gòu)建功能強(qiáng)大的信息過濾系統(tǒng)。
[1]孫鐵利,王圓,李楊.淺析網(wǎng)絡(luò)信息過濾的關(guān)鍵技術(shù)[J].計(jì)算機(jī)科學(xué)與實(shí)踐,2006(3):9-10.
[2]Yuefeng Li,Ning Zhong.Ontology-Based Web Mining Model:Representations of User Profiles[J].IEEE/WIC International Conference on Web Intelligence,2003(10):96-101.
[3]張敏.信息過濾系統(tǒng)模型的相關(guān)問題研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008(1):85-86.
[4]鄒萍,紀(jì)沙.網(wǎng)絡(luò)信息過濾機(jī)制的研究[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2008(2):66-69,97.
[5]胡建國(guó),文登敏.基于大量文本信息過濾系統(tǒng)的實(shí)現(xiàn)[J].成都信息工程學(xué)院學(xué)報(bào),2008(6):249-253.
[6]Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval.China Machine Press,2004.
[7]李東林.中文信息過濾技術(shù)的研究與應(yīng)用[D].鞍山科技大學(xué),2006.