徐 勇,趙俊杰,沈小玲
(安徽財(cái)經(jīng)大學(xué) 信息工程學(xué)院,安徽 蚌埠 233041)
查詢推薦技術(shù)綜述
徐 勇,趙俊杰,沈小玲
(安徽財(cái)經(jīng)大學(xué) 信息工程學(xué)院,安徽 蚌埠 233041)
文章介紹了用戶搜索中查詢推薦技術(shù)的相關(guān)概念、研究現(xiàn)狀;深入分析了目前常見的推薦算法及推薦系統(tǒng)中的隱私保護(hù)問題;最后,歸納了查詢推薦技術(shù)的研究熱點(diǎn)。
推薦系統(tǒng),協(xié)同過濾,數(shù)據(jù)挖掘
進(jìn)入21世紀(jì)以來,信息網(wǎng)絡(luò)化正在延伸到社會(huì)的每一個(gè)角落,這種全球性的信息化進(jìn)程深刻地改變了人類的生存方式,Internet技術(shù)的應(yīng)用給人們生活和工作的各個(gè)層面帶來了深刻的影響。
由于Internet具有信息交流的雙向性,開放式信息傳輸以及范圍廣泛等特點(diǎn),使得其中的信息量以指數(shù)規(guī)模迅速增長,形成“信息爆炸”,導(dǎo)致用戶在使用網(wǎng)絡(luò)過程中出現(xiàn)“信息過載”和“信息迷航”等問題?!靶畔⑦^載”指由于Internet提供的信息具有復(fù)雜性和廣泛性的特點(diǎn),同時(shí)瀏覽者自身知識(shí)結(jié)構(gòu)和認(rèn)知能力等條件限制,導(dǎo)致瀏覽者無法正確理解和使用信息。信息迷航是瀏覽者在Internet極為復(fù)雜的網(wǎng)絡(luò)信息空間中迷失方向,無法確定自己現(xiàn)在所處信息空間的位置,進(jìn)而無法進(jìn)入目標(biāo)節(jié)點(diǎn),甚至于忘記搜索目標(biāo)的一種現(xiàn)象[1]。
解決這一問題的有效途徑之一是將Internet從被動(dòng)接受瀏覽者的請求轉(zhuǎn)化為主動(dòng)感知瀏覽者的信息需求,實(shí)現(xiàn)網(wǎng)絡(luò)系統(tǒng)對瀏覽者的主動(dòng)信息服務(wù)。“推薦系統(tǒng)”正是在這一背景下應(yīng)運(yùn)而生,成為解決大規(guī)模數(shù)據(jù)中有效信息檢索的重要技術(shù)手段之一,吸引了很多人的研究興趣。
推薦系統(tǒng)可以認(rèn)為是一種基于網(wǎng)絡(luò)環(huán)境的專家系統(tǒng),它能夠從有限信息中學(xué)習(xí)用戶的偏好,進(jìn)而從備選項(xiàng)目中向用戶做出個(gè)性化的推薦。隨著人工智能、數(shù)據(jù)挖掘等相關(guān)領(lǐng)域的發(fā)展,網(wǎng)絡(luò)上的資源信息規(guī)模急劇增長,網(wǎng)絡(luò)上的信息服務(wù)也逐漸向人性化、個(gè)性化、智能化等方向發(fā)展,推薦系統(tǒng)成為其中的一個(gè)研究熱點(diǎn)。
推薦系統(tǒng)的起源可以追溯到其他領(lǐng)域的工作,最早的推薦系統(tǒng)雛形可以認(rèn)為是1979年在認(rèn)知科學(xué)領(lǐng)域中Elaine Rich提出的Grundy系統(tǒng)[2],其中提出了所謂的stereotypes機(jī)制用于建立用戶的模型,并通過模型向用戶推薦相關(guān)書籍。此后,隨著信息檢索和信息過濾研究的發(fā)展,推薦系統(tǒng)成為其中的研究熱點(diǎn)之一,得到了許多著名研究機(jī)構(gòu)和研究者的關(guān)注,出現(xiàn)了較多的研究組織和應(yīng)用實(shí)例:由Xerox Palo Alto研究中心開發(fā)的實(shí)驗(yàn)系統(tǒng)Typestry是目前公認(rèn)的第一個(gè)真正意義上的推薦系統(tǒng),其中提供了電子文檔的存儲(chǔ)、用戶評價(jià)存儲(chǔ)和協(xié)同過濾推薦服務(wù)。但是,Typestry要求每個(gè)用戶自己確定與自己興趣愛好相似的其他用戶,使得用戶之間必須相互了解彼此的興趣愛好,所以,該推薦系統(tǒng)比較適合于用戶群體比較小的場合[3]。由美國Minnesota大學(xué)計(jì)算機(jī)科學(xué)與工程系的John Riedl教授領(lǐng)導(dǎo)的GroupLens研究小組于1996年開發(fā)出了使用自動(dòng)協(xié)同過濾技術(shù)的新聞組信息推薦系統(tǒng),并提供在互聯(lián)網(wǎng)上公測;目前,該小組的研究范圍包括推薦算法設(shè)計(jì)與實(shí)現(xiàn)、協(xié)同過濾方法的應(yīng)用等;部分技術(shù)已進(jìn)入商業(yè)應(yīng)用領(lǐng)域。INDIANA大學(xué)計(jì)算機(jī)科學(xué)系主持開發(fā)的PHOAKS系統(tǒng)項(xiàng)目主要用于幫助用戶在WWW上查找相關(guān)的信息。20世紀(jì)90年代中期,陸續(xù)出現(xiàn)了一些關(guān)于協(xié)同過濾方面的文章[4,5],推薦系統(tǒng)成為獨(dú)立的研究領(lǐng)域,得到廣泛關(guān)注。
1996年召開的協(xié)同工作會(huì)議CSCW’96、1998年召開的第十五屆國際人工智能會(huì)議AAAI-98等開始將電子商務(wù)推薦系統(tǒng)作為重要的會(huì)議主題。2006年9月12日-13日,ACM和SIGCHI在西班牙的Bilbao組織召開了名為“Recommender’06:The Present and Future of Recommender System”的研討會(huì),對推薦系統(tǒng)的技術(shù)方法、應(yīng)用領(lǐng)域、發(fā)展前景進(jìn)行了深入的交流。2007年10月19日-20日ACM在美國的Minnesota組織召開了第一屆推薦系統(tǒng)國際會(huì)議Rec-Sys2007,為推薦系統(tǒng)相關(guān)研究人員提供了一個(gè)良好的交流平臺(tái)。RecSys2008于2008年10月23日-25日在瑞士Lausanne召開。
目前關(guān)于推薦系統(tǒng)方面的理論研究主要集中在以下幾個(gè)方面:
(1)推薦技術(shù)和算法,推薦技術(shù)主要包括基于內(nèi)容過濾、協(xié)同過濾推薦技術(shù)、基于知識(shí)的推薦技術(shù)。
基于內(nèi)容過濾是信息檢索領(lǐng)域的重要研究內(nèi)容[6],通過學(xué)習(xí)用戶已經(jīng)評價(jià)過的項(xiàng)目的特征來獲得對客戶興趣的描述,或者說:基于內(nèi)容過濾的推薦系統(tǒng)分析資源的內(nèi)容信息,根據(jù)用戶以往的興趣建立用戶特征(Profile),然后根據(jù)用戶特征與新的資源內(nèi)容之間的相似性,向用戶提供推薦。在基于內(nèi)容過濾的推薦系統(tǒng)中,Bayes模型、遺傳算法及其它一些機(jī)器學(xué)習(xí)技術(shù)也被用于用戶特征的建立。比較具體代表性的基于內(nèi)容過濾的推薦系統(tǒng)包括:Malone等人提出的電子郵件系統(tǒng)信息過濾系統(tǒng);Stanford大學(xué)提出的信息過濾工具SIFT;音樂過濾系統(tǒng)LyricTime等。
協(xié)同過濾推薦技術(shù)無須建立用戶特征,而是根據(jù)其他類似用戶對項(xiàng)目的喜好向用戶進(jìn)行推薦。由于協(xié)同過濾方法無須分析資源的內(nèi)容信息,因而自誕生之后,就獲得了比基于內(nèi)容過濾方法的推薦技術(shù)更為廣泛的應(yīng)用。目前關(guān)于協(xié)同過濾技術(shù)方面的研究主要集中在算法的改進(jìn)方面。
基于知識(shí)的推薦技術(shù):通過推斷用戶的需求來做出推薦,這種推薦系統(tǒng)具有特定項(xiàng)目滿足特定用戶需要的知識(shí),由此推斷出用戶與推薦項(xiàng)目之間的關(guān)系。
(2)推薦質(zhì)量控制與度量。由于在網(wǎng)絡(luò)環(huán)境下,推薦系統(tǒng)處理的數(shù)據(jù)具有高維、稀疏等特點(diǎn),因此一方面,如何有效地提高推薦質(zhì)量(如:推薦系統(tǒng)的實(shí)時(shí)性,推薦結(jié)果的準(zhǔn)確性等)是目前的一個(gè)研究熱點(diǎn);另一方面,推薦系統(tǒng)評價(jià)指標(biāo)和體系也是重要的研究內(nèi)容。
(3)推薦系統(tǒng)中的隱私保護(hù)及安全問題。由于推薦系統(tǒng)需要分析用戶的偏好及行為特征,所以在提供推薦服務(wù)的同時(shí)如何有效地保護(hù)用戶隱私、如何有效地保障系統(tǒng)安全等問題是值得研究的。
推薦系統(tǒng)最早的應(yīng)用領(lǐng)域是電子商務(wù)系統(tǒng)[7],這也是其最為成功的應(yīng)用領(lǐng)域之一。推薦系統(tǒng)在電子商務(wù)系統(tǒng)中,模擬商家銷售人員向用戶提供商品推薦,提高用戶搜索商品的效率,商家也可以通過推薦系統(tǒng)保持有效客戶。目前幾乎所有的大型電子商務(wù)系統(tǒng),如Amazon.com,eBay等,都不同程度地使用了各種形式的推薦系統(tǒng)。
隨著推薦系統(tǒng)研究的深入,推薦系統(tǒng)的應(yīng)用領(lǐng)域也得到了廣泛拓展[8],如圖書館的聯(lián)機(jī)數(shù)據(jù)檢索、網(wǎng)絡(luò)信息檢索、數(shù)字電視節(jié)目收看等各種信息服務(wù)都開始或已經(jīng)應(yīng)用了相關(guān)推薦算法。
目前推薦系統(tǒng)研究雖然仍然存在一些不足:(1)缺乏個(gè)性化的推薦,很多的推薦結(jié)果是針對所有客房的,是非個(gè)性化的推薦。造成這種現(xiàn)象的原因是在網(wǎng)絡(luò)環(huán)境下沒有描述用戶的興趣偏好及其動(dòng)態(tài)變化情況的有效機(jī)制和模型;(2)推薦系統(tǒng)的自動(dòng)化、智能化程度較低,大多數(shù)的推薦系統(tǒng)都需要用戶與計(jì)算機(jī)的交互,由用戶輸入自己的興趣信息,推薦系統(tǒng)不能通過保存的客戶自動(dòng)推理、學(xué)習(xí)用戶的興趣,從而在面對海量的文獻(xiàn)數(shù)據(jù),推薦系統(tǒng)無法高效、快捷地搜索出用戶真正感興趣的文獻(xiàn)等;(3)電子商務(wù)應(yīng)用領(lǐng)域的推薦技術(shù)和理論研究成果較多,但網(wǎng)絡(luò)環(huán)境下科技文獻(xiàn)共享領(lǐng)域的推薦技術(shù)和理論研究成果尚不多見。本課題擬針對網(wǎng)絡(luò)環(huán)境下的文獻(xiàn)共享這一課題開展用戶偏好描述、文獻(xiàn)協(xié)同推薦等內(nèi)容開展深入的研究,以促進(jìn)網(wǎng)絡(luò)環(huán)境下的文獻(xiàn)快速共享方法進(jìn)一步走向?qū)嶋H。
目前下列幾個(gè)方面的內(nèi)容值得進(jìn)一步開展更多的研究。(1)研究有效的基于數(shù)據(jù)挖掘技術(shù)的協(xié)同過濾推薦策略和方法——源于數(shù)據(jù)的高維、稀疏、海量特性。由于網(wǎng)絡(luò)上資源信息非常龐大、且呈指數(shù)規(guī)模在不斷增長,若采用傳統(tǒng)的協(xié)同過濾推薦方法,在整個(gè)用戶空間、資源信息空間進(jìn)行搜索的話,這是非常耗時(shí)的,是無法滿足在線論文共享需求的。因此,考慮將數(shù)據(jù)挖掘技術(shù)(關(guān)聯(lián)分析、聚類)引入到推薦系統(tǒng)中,實(shí)現(xiàn)對用戶空間、資源信息空間進(jìn)行降維和提高傳統(tǒng)的協(xié)同過濾推薦方法效率的目的,以提高推薦系統(tǒng)的實(shí)時(shí)性、針對性。第一種情況——盡可能準(zhǔn)確,首先從用戶過去的行為數(shù)據(jù)中,提取出用戶行為模式(聚類、分類)、行為特征、偏好信息,然后在推薦過程中通過度量用戶偏好與項(xiàng)目之間的相似度,有針對性地推薦用戶真正感興趣的信息。第二種情況——盡可能完全,首先對用戶指定的搜索關(guān)鍵詞適當(dāng)泛化,然后以泛化后的關(guān)鍵詞進(jìn)行搜索。如:給定關(guān)鍵詞“中科大”,則應(yīng)將“科大/中國科大/中國科技大學(xué)/中國科學(xué)技術(shù)大學(xué)”作為類似關(guān)鍵詞進(jìn)行搜索,還比如關(guān)鍵詞“數(shù)據(jù)挖掘”,則“知識(shí)發(fā)現(xiàn)”也應(yīng)該作為類似關(guān)鍵詞進(jìn)行搜索,搜索結(jié)果同樣也可能是用戶感興趣的內(nèi)容。這種泛化,其本質(zhì)是將類似關(guān)鍵詞的搜索結(jié)果同時(shí)提供給用戶;另一種含義是將關(guān)鍵詞所屬的類作為新的搜索關(guān)鍵詞,如有關(guān)鍵詞“本田”,則可以將所有屬于“轎車”類別的信息提供給用戶。(2)實(shí)現(xiàn)基于語義的信息檢索及基于語義的推薦技術(shù)。(3)用戶隱性偏好挖掘。早期的推薦系統(tǒng)只需通過用戶的直接輸入的關(guān)鍵詞等獲取簡單的用戶信息,隨著推薦系統(tǒng)應(yīng)用領(lǐng)域的不斷擴(kuò)展,需要考慮用戶多興趣、用戶興趣的動(dòng)態(tài)變化、特別是用戶的隱性偏好需求。(4)隱私保護(hù)問題。
[1]A.M.Rashid.Mining Influence in Recommender Systems[M].Minneapolis,Minnesota:University of Minnesota,2007.
[2]E.Rich.User Modeling via Stereotypes[J].Cognitive Science,1979,3(4).
[3]D.Goldberg,D.Nichols,B.M.Oki,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of the ACM,1992,35(12).
[4]W.Hill,L.Stead,M.Rosenstein,et al.Recommending and E-valuating Choices in a Virtual Community of Use[C].In:proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems(CHI95),Denver,Colorado,USA,ACM Press,1995.
[5]U.Shardanand,P.Maes.Social Information Filtering:Algorithms for Automating ‘word of Mouth’[C].In:Proceedings of ACM CHI’95 Conference on Human Factors in Computing Systems,Denver USA,ACM Press,1995.
[6]N.Belkin,B.W.Croft.Information Filtering and Information Retrieval:Two Sides of the Same Coin?[J].Communication of the ACM,1992,35(12).
[7]J.B.Schafer,J.A.Konstan,J.Riedl.E-Commerce Recommendation Applications[J].Data Mining and Knowledge Discovery,2001,5(1).
[8]B.P.S.Murthi,Sumit Sarkar.The Role of the Management Sciences in Research on Personalization.ManagementScience,2003,49(10).
C931.6
A
1002-6487(2011)09-0168-02
國家社會(huì)科學(xué)基金資助項(xiàng)目(09BTQ019);教育部人文社會(huì)科學(xué)研究青年項(xiàng)目基金資助(07JC870006,09YJC870001);安徽高校省級自然科學(xué)研究重大項(xiàng)目資助(KJ2010ZD01)
徐 勇(1978-),男,安徽涇縣人,博士,副教授,研究方向:數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘、信息安全。
(責(zé)任編輯/浩 天)