[摘 要]智能搜索引擎的提出引發(fā)了新一輪搜索引擎革命,然而其實現(xiàn)還有一定的困難。以目前非常成熟的PageRank技術(shù)為基礎(chǔ)進行改進,構(gòu)建基于個人需要的PageRank算法,可以實現(xiàn)智能搜索引擎所需要的多種個性化功能。目前在大型廣域搜索引擎上建立個性化的智能搜索引擎還比較困難,而高校圖書館在信息規(guī)模、用戶基礎(chǔ)和運行條件上都有建立智能搜索引擎的優(yōu)勢。對目前的高校圖書館檢索系統(tǒng)進行一定的改進,可以實現(xiàn)智能搜索引擎的個性化功能。
[關(guān)鍵詞]智能搜索引擎;個性化PageRank;數(shù)字圖書館
DOI:10.3969/j.issn.1008-0821.2010.07.026
[中圖分類號]G250.7 [文獻標識碼]B [文章編號]1008-0821(2010)07-0093-04
Personalized PageRank Algorithm and Its Implementation
in Library Intelligent Search EnginesMeng Ruiling
(Library,Linyi Normal University,Linyi 276005,China)
[Abstract]The concept of intelligent search engines has initiated a new round of revolution in the corresponding field.However,its implementation has met with some difficulties.The construction of a PageRank algorithm based on individual needs,supported by todays mature PageRank technology,will enable the realisation of the multiple personalised functions required by intelligent search engines.At present it is comparatively difficult to build personalised intelligent search engines on the large-scale macrozonality scope,but it can partly be achieved in college libraries,which enjoy an advantage with regard to the information scale,client base and management environment.Therefore the improvement to the existing college library index system in this respect can realise the personalised functions of intelligent search engines.
[Keywords]intelligent search engine;personalized PageRank;digital library
隨著搜索引擎用戶的個性化需求日趨強烈,智能搜索引擎的概念與框架已經(jīng)提出。大型廣域網(wǎng)搜索引擎的智能化、個性化的建立受到很多技術(shù)方面的限制,而數(shù)字化圖書館恰恰是方便建立智能搜索引擎的局部網(wǎng)絡(luò)系統(tǒng)。優(yōu)先在數(shù)字化圖書館中建立起智能搜索引擎,既可以使數(shù)字化圖書館更好地滿足用戶的需要,讓人們提前體驗智能搜索引擎的方便與優(yōu)越,又可以為廣域網(wǎng)智能搜索引擎的建立提供模本和經(jīng)驗,為相關(guān)技術(shù)的突破提供實驗基礎(chǔ)。對較為成功的傳統(tǒng)搜索引擎技術(shù)進行改進,是實現(xiàn)智能搜索引擎的較為快捷的方法。PageRank算法使得Google搜索引擎獲得了巨大的成功,從而引發(fā)了網(wǎng)絡(luò)搜索引擎的革命。選擇Google搜索引擎為基礎(chǔ)進行搜索引擎的改進,實現(xiàn)智能搜索引擎的個性化性能,首先需要解決的問題就是如何建立基于個人需要的PageRank算法。
1 智能搜索引擎的概念與優(yōu)勢
1.1 智能搜索引擎
智能搜索引擎,又稱第三代搜索引擎,是新一代智能技術(shù)應(yīng)用在搜索引擎上所得到的更加高效的搜索引擎技術(shù)。它能夠總結(jié)用戶的操作歷史,更加精確地理解用戶的要求,給出最符合用戶要求的搜索結(jié)果。因此,智能搜索引擎在用戶親和性和一些技術(shù)性能上,都遠遠優(yōu)于傳統(tǒng)搜索引擎。
1.2 智能搜索引擎相對于傳統(tǒng)搜索引擎的優(yōu)點
1.2.1 對用戶的檢索要求進行智能理解
利用多種模糊匹配方法,智能搜索引擎可以準確理解用戶輸入的自然語言,用戶無需自己篩選合適的關(guān)鍵詞,即可得到最優(yōu)化的結(jié)果。用戶輸入的語言可以是中文簡、繁體、拼音和外文,也可以是混合輸入。
1.2.2 提供個性化的服務(wù)
用戶在進行搜索時,可以自行選擇搜索的數(shù)據(jù)范圍。并且在用戶登錄后,智能搜索引擎會給每個用戶建立數(shù)據(jù)庫記錄其搜索的歷史和喜好,并利用用戶個人數(shù)據(jù)庫對搜索出的信息進行篩選和排序。
1.2.3 更加靈活的返回界面
智能搜索引擎使用Web2.0技術(shù),利用給出的網(wǎng)頁模塊模板,用戶可以自行設(shè)計返回頁面。返回的內(nèi)容也不再是基本的條目,而是經(jīng)過分類和排序的詳盡信息,方便用戶選擇。
1.2.4 更加強大的搜索功能
智能搜索引擎不僅僅支持HTTP協(xié)議下的網(wǎng)頁文件,它還支持FTP、SFTP等多種網(wǎng)絡(luò)傳輸協(xié)議,并且能夠解析多種格式文件(Html file、Text file、MS Office file、MS Project file、XML、Adobe Acrobat file等)。當遇到CGI系統(tǒng)時,智能搜索引擎直接利用對方系統(tǒng)的數(shù)據(jù)庫接口進入數(shù)據(jù)庫進行搜索,從而給出最全面的搜索結(jié)果。
1.2.5 提供個人開發(fā)接口
智能搜索引擎不論是在界面上還是在搜索功能上,都給用戶提供自行開發(fā)的程序接口,高級用戶可以通過VB語言或者Java語言等網(wǎng)絡(luò)腳本的輸入來優(yōu)化搜索引擎的個性化功能。
1.3 智能搜索引擎的實現(xiàn)實例
目前,完全實現(xiàn)了智能搜索引擎所有功能的大型搜索引擎還沒有出現(xiàn),但是智能搜索引擎的很多概念已經(jīng)得到了應(yīng)用。
1.3.1 Baidu搜索引擎的語言智能解析
Baidu搜索引擎作為中文搜索的專門引擎,已經(jīng)初步實現(xiàn)了對中文的智能化解析和對拼音、英文混合搜索的能力。但是這還僅限于一些比較常用的搜索詞。
1.3.2 網(wǎng)絡(luò)商城的個性化交流
淘寶網(wǎng)、京東商城等網(wǎng)絡(luò)商城的搜索系統(tǒng)已經(jīng)初步實現(xiàn)了個性化選擇、分類顯示、聯(lián)系記憶等功能。用戶可以利用復(fù)選框的形式對價格區(qū)間、技術(shù)參數(shù)等商品性質(zhì)進行選擇,并且提供“匹配耗材”、“您可能還想看看”、“看過此商品的用戶還瀏覽過”等多種返回結(jié)果。登陸的用戶還可以方便地看到自己的搜索歷史。
1.3.3 Google搜索引擎對多種文件的支持
目前,Google搜索引擎已經(jīng)可以支持MS Word、MS Excel、MS Powerpoint、Adobe PDF等文件格式。
以上的各個實例雖然只實現(xiàn)了智能搜索引擎的部分功能,但是它們已經(jīng)給予了搜索引擎用戶非常人性化的服務(wù),獲得了很大的成功??梢娭悄芩阉饕娴膶崿F(xiàn)對于網(wǎng)絡(luò)搜索環(huán)境的改善,有著非常重要的作用。
2 圖書館建立智能搜索引擎的必要性與優(yōu)勢
2.1 圖書館建立智能搜索引擎的必要性
目前,國內(nèi)高校圖書館一般都有文獻搜索和館藏搜索功能。這些搜索功能一般都非常簡單,只能根據(jù)年份、作者、關(guān)鍵詞、篇名等簡單的搜索方式給出簡單的搜索結(jié)果。然而,校內(nèi)圖書館用戶檢索需求往往具有很強的專業(yè)性和關(guān)聯(lián)性,不僅需要非常專業(yè)的分類搜索結(jié)果,而且需要搜索引擎給出豐富的相關(guān)內(nèi)容。在圖書館中建立智能搜索引擎,實現(xiàn)對圖書館用戶的個性化服務(wù),可以大大減短圖書館用戶查詢資料的時間,提高高校圖書館資源的利用效率,從而提高學(xué)校的科研、辦公效率。
2.2 圖書館建立智能搜索引擎的優(yōu)勢
相對于大型廣域網(wǎng)搜索引擎,圖書館的館藏搜索、電子書搜索和期刊文獻搜索就非常易于建立智能搜索引擎。其一,圖書館的館藏數(shù)據(jù)庫相對較小,進行個性化PageRank計算所需要的空間成本和運算成本都可以承受。其二,與大型搜索引擎利用網(wǎng)絡(luò)蜘蛛自動錄入頁面信息的方法不同,圖書館的館藏數(shù)據(jù)是人工詳盡輸入的。每一個條目的分類性質(zhì)、引用關(guān)系和專業(yè)偏向等信息都可以較為詳盡的獲得。其三,圖書館搜索引擎的使用者要求比較統(tǒng)一,只要給出較少的幾種模塊組合就能滿足大部分用戶的需要。另外,高校圖書館搜索引擎的使用者素質(zhì)相對較高,可以發(fā)揮出智能搜索引擎的優(yōu)勢,并且給出具有建設(shè)性的改進意見。
2.3 在圖書館建立智能搜索引擎對搜索引擎發(fā)展的作用
高校圖書館作為較為專業(yè)的信息處理和查詢機構(gòu),建立智能搜索引擎系統(tǒng),不僅能給校內(nèi)用戶提供更加優(yōu)質(zhì)、更加個性化的服務(wù),而且能為智能搜索引擎理論的完善提供非常好的應(yīng)用實例。高等院校人才集中,圖書館系統(tǒng)的改進,不僅可以驗證已經(jīng)提出的理論,而且可以為信息處理技術(shù)的專業(yè)研究人員提供生成新思想的素材和靈感。目前已經(jīng)有高校圖書館與校內(nèi)信息技術(shù)院系開展合作,在改善圖書館系統(tǒng)的同時,給信息技術(shù)研究人員提供一個開發(fā)、探索的平臺。
3 基于個人需要的PageRank算法
已經(jīng)有的實例說明,智能搜索引擎的相關(guān)概念已經(jīng)在很多網(wǎng)絡(luò)搜索引擎中得到了初步實現(xiàn)。將現(xiàn)有的搜索引擎技術(shù)逐步改進并在使用中進行測試和反饋,應(yīng)當是最經(jīng)濟高效的建立智能搜索引擎的方法。21世紀初最成功的搜索引擎技術(shù)莫過于Google搜索引擎的PageRank技術(shù)。以該技術(shù)為基礎(chǔ)建立智能搜索引擎框架,不失為一種好的嘗試。
3.1 個性化PageRank算法的基本思路
傳統(tǒng)PageRank算法是根據(jù)網(wǎng)頁的相互引用次數(shù)來評價網(wǎng)頁的重要性并以此在搜索結(jié)果中進行排序的關(guān)鍵技術(shù)。其核心算法是,先給所有頁面一個評分初值,然后PageRank值按照被引用次數(shù)在各個頁面之間進行“流動”,最終達到平衡,導(dǎo)致被引用次數(shù)多的網(wǎng)頁得到較高評分。這一技術(shù)初步保證了相對有用的信息會優(yōu)先返回給用戶。然而這種算法缺失了頁面的分類信息和個性化信息。
如果要按照用戶的要求、喜好和歷史瀏覽記錄來進行頁面排序,可以使用和PageRank類似的技術(shù),我們稱之為個性化PageRank評分。該評分用來反映頁面與用戶個性化需求的匹配程度。我們可以參考傳統(tǒng)PageRank的計算方法,以用戶需求為中心,進行有限次PageRank值的流動,從而得到個性化PageRank值。
我們將用戶作為PageRank值的分發(fā)源,例如用戶具有初始PageRank為1,其他網(wǎng)頁為0,根據(jù)網(wǎng)頁在用戶歷史記錄中被瀏覽的時間和次數(shù)給出PageRank的傳遞方向和傳遞阻尼,經(jīng)過有限次的傳遞(不需要達到平衡),得到相關(guān)網(wǎng)頁的個性化PageRank值。這樣,用戶瀏覽次數(shù)較多或著最近瀏覽的網(wǎng)頁及其相關(guān)網(wǎng)頁即可得到較高的評分,從而優(yōu)先顯示給用戶。個性化PageRank的計算需要詳盡的用戶瀏覽記錄,并且進行實時計算,所以要求的系統(tǒng)空間更大。
圖1中,A圖為某一六頁面系統(tǒng),傳統(tǒng)PageRank值在阻尼系數(shù)0.2時達到平衡的狀態(tài)。B圖為在用戶調(diào)用模型中,PageRank值進行3次傳遞后的狀態(tài)。第一次傳遞的阻尼系數(shù)不同是由用戶瀏覽時間的遠近確定的。可以看到,在用戶未瀏覽過的頁面中,與用戶最近調(diào)用的頁面相關(guān)性高的頁面評分較高。
3.2 歷史評價和分類PageRank的計算
歷史評價相對較容易計算,相當于網(wǎng)頁的“人氣值”,根據(jù)所有用戶瀏覽該網(wǎng)頁的次數(shù),給出一個附加的PageRank值。這相當于所有用戶作為源,進行一次PageRank傳遞。
分類PageRank的計算需要相對專業(yè)的分類評價,并使用和個性化PageRank類似的方法。每個網(wǎng)頁都有一個分類性質(zhì),而不同分類性質(zhì)之間的關(guān)系可以用PageRank傳遞阻尼來實現(xiàn)。例如相關(guān)分類的阻尼值很小,而無關(guān)分類的阻尼值很大。同樣,根據(jù)用戶選定的分類特征為源,使得PageRank值在各個分類間進行有限次的傳遞,從而優(yōu)先給出與用戶選擇相匹配或者最相關(guān)的分類內(nèi)容。對于專業(yè)之間的相關(guān)度,可以尋求各個學(xué)科權(quán)威人士的幫助,得到較合理的阻尼值,并且該值可以根據(jù)用戶瀏覽記錄進行優(yōu)化。
3.3 數(shù)組型PageRank的建立
為了實現(xiàn)搜索結(jié)果的智能化、分類化和個性化,單一的PageRank值顯然遠遠不能達到我們的要求。為了達到智能搜索引擎的要求,我們可以將PageRank值優(yōu)化為一個數(shù)組,分別保存著傳統(tǒng)PageRank值、個性化PageRank值、分類性質(zhì)、分類化PageRank值、歷史評價PageRank值等多個評分值。智能搜索引擎可以根據(jù)不同的顯示項目和不同的用戶需求,將上述的各類PageRank值加權(quán)組合起來。而上述的PageRank值所代表的每一類也可以單獨作為一個返回模塊,例如“人氣網(wǎng)頁”返回模塊可以根據(jù)歷史評價PageRank值實現(xiàn),而“相關(guān)分類”模塊可以根據(jù)分類PageRank值實現(xiàn)。
3.4 更多的擴展方法
以上數(shù)組型PageRank的算法作為一個基本框架,有非常大的擴展空間。當用戶需要一個新的模塊的時候,可以建立與該模塊對應(yīng)的PageRank值,并將這一項加入到PageRank數(shù)組當中,然后經(jīng)過加權(quán)的方式進行調(diào)整,即可將這一新加PageRank項充分利用。大部分所需的PageRank值都可以利用人工規(guī)定源和阻尼,并且進行有限次傳遞疊加的方法得到。
4 在圖書館系統(tǒng)中使用智能搜索引擎所需工作
4.1 圖書館數(shù)據(jù)庫所需要的改進
為了建立智能搜索引擎,圖書館系統(tǒng)需要完善已有的數(shù)據(jù)庫資料,并增加多個數(shù)據(jù)庫系統(tǒng)。這包括完善已有的文獻與圖書資料數(shù)據(jù)化信息,將參考文獻、學(xué)科分類、發(fā)表時間和作者單位等信息全部錄入;在傳統(tǒng)資料數(shù)據(jù)庫中增加個性化的文獻的數(shù)據(jù)項,包括傳統(tǒng)PageRank值和歷史評價PageRank值;建立用戶個人數(shù)據(jù)庫,用于存儲用戶資料和用戶的搜索歷史紀錄,便于給出個性化搜索結(jié)果,并且方便用戶查詢;建立資源關(guān)系網(wǎng)絡(luò)數(shù)據(jù)庫,用來存儲專業(yè)分類結(jié)構(gòu)和專業(yè)關(guān)聯(lián)度,以便進行專業(yè)分類篩選。
4.2 圖書館數(shù)據(jù)搜索引擎程序所需要的改進
傳統(tǒng)的圖書館數(shù)據(jù)搜索引擎只能對題名、關(guān)鍵詞、作者和年份等簡單的信息進行機械式的搜索。為了實現(xiàn)智能搜索,需要對其進行多方面的改進,這包括在搜索引擎程序中嵌入語言智能分析程序,從而可以更加準確地理解用戶的檢索詞和檢索需要。該分析程序需要能夠?qū)χ形暮嗴w、中文繁體、拼音和英文單詞進行準確的辨認,并對個性化語句進行解析。還需要在搜索引擎程序中加入個性化PageRank計算的模塊,在用戶給出檢索詞后,搜索引擎程序根據(jù)用戶的個性化需要,分別計算出檢索結(jié)果中每個文獻的PageRank值,提供給顯示模塊進行排序。
4.3 圖書館搜索引擎界面的個性化
圖書館的查詢頁面使用Web2.0系統(tǒng),系統(tǒng)可以給出幾個固定模塊供用戶選擇,例如“個人歷史”模塊優(yōu)先顯示與用戶瀏覽過的文獻關(guān)系最近的模塊,“專業(yè)文獻”模塊優(yōu)先顯示最接近用戶所在專業(yè)的文獻,“人氣文獻”模塊優(yōu)先顯示被瀏覽次數(shù)最多的文獻,“引用關(guān)系”模塊方便用戶查詢某文獻的參考文獻,以及引用它的文獻。某些高級用戶除了選擇已有模塊外,還可以自己定義模塊,只要他能夠給出所需要的個性化元素,就可以設(shè)計出類似的模塊進行使用。
4.4 建立用戶使用的信息反饋系統(tǒng)
傳統(tǒng)的圖書館搜索引擎是單向的信息輸出,沒有用戶需求的反饋和系統(tǒng)的優(yōu)化。而個性化搜索引擎必須要根據(jù)用戶的瀏覽,給出合理的反饋與優(yōu)化,這主要分為兩個層次。第一層是自動反饋,也就是用戶在使用過程中由程序自動反饋的內(nèi)容,主要是將用戶的瀏覽記錄反饋給數(shù)據(jù)庫。第二層是用戶主動的反饋,這包括用戶填寫的個人信息和用戶的模塊選擇,以及用戶提交的意見建議。
圖中實線框和實心箭頭表示傳統(tǒng)搜索引擎的組成和信息流動,虛線框和空心箭頭表示建立智能搜索引擎所加入的模塊和信息流動。
5 結(jié) 語
隨著網(wǎng)絡(luò)信息量的快速增長和網(wǎng)絡(luò)用戶的個性化、專業(yè)化要求日漸增強,傳統(tǒng)搜索引擎暴露出了越來越多的不足。智能搜索引擎的提出,綜合了當前最新的人工智能、計算機網(wǎng)絡(luò)、數(shù)據(jù)庫、數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù),給出了更加優(yōu)越、更加人性化的搜索引擎框架。智能搜索引擎從理論到實踐還有很長的路要走。從現(xiàn)有的較為成功的搜索引擎入手進行改進應(yīng)該是實現(xiàn)智能搜索引擎理論的較好選擇。目前,最為成功的PageRank技術(shù)仍有較大的改進余地,在高校圖書館數(shù)據(jù)庫系統(tǒng)中首先建立智能搜索引擎,可以給圖書館用戶提供更加方便、更加人性化的服務(wù),提高高校的科研辦公效率。
參考文獻
[1]Page L,Brin S,Motwani R,et al.The pagerank citation ranking:Bringing order to the web[EB].http:∥www-db.stanford.edu/~backrub/pageranksub.ps,1998-11-18.
[2]S.Brin L.Page.The Anatomy of a Large-Scale Hypertextual Web Search Engine[EB].http:∥infolab.stanford.edu/~backrub/google.html,2009-10-12.
[3]Brian Amento,Loren Terveen,Will Hill.Does“Authority”mean Quality?Predicting expert quality ratings of web documents[C]∥Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,Athens,Greece,2000:296-303.
[4]Eun-Jin Im,Katherine Yelick.Optimizing sparse matrix vector multiplication on SMPs[C]∥Philadelphia: Proceedings of the 9th SIAM Conference on Parallel Processing for Scientific Computing,2001.
[5]陳建忠.數(shù)字圖書館網(wǎng)絡(luò)個性化服務(wù)分析[J].圖書館學(xué)研究,2004,(10):79-81.
[6]聶鑫.論數(shù)字圖書館個性化信息服務(wù)[J].情報科學(xué),2005,(2):208-212.
[7]劉煒,葛秋妍.從Web2.0到圖書館2.0:服務(wù)因用戶而變[J].現(xiàn)代圖書情報技術(shù),2006,(9):12-16.
[8]王茹.圖書館個性化信息服務(wù)研究述評[J].圖書館雜志,2004,(12):24-27.
[9]李欣.基于概念檢索的智能信息檢索技術(shù)研究[M].武漢,華中師范大學(xué)出版社,2004:2-7,17-18,39-40.
[10]汪肇兵,朱桂林,陳震岳,等.個性化智能信息檢索的設(shè)計與實現(xiàn)[J].計算機工程與應(yīng)用,2001,(11):122-124.
[11]歐潔,林守勛,李錦濤.數(shù)字圖書館中的個性化信息檢索[J].微電子學(xué)與計算機,2002,(7):1-4.
[12]董慧.基于本體論和數(shù)字圖書館的信息檢索[J].情報學(xué)報,2003,(6):648-652.
[13]康微,孫成義.WEB2.0技術(shù)對學(xué)科導(dǎo)航庫建設(shè)在學(xué)術(shù)資源上的貢獻[J].新世紀圖書館,2007,(2):79-81,42.
[14]李四明,陶蘭,王保迎.面向智能Agent的元搜索系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機工程,2004,(5):147-149.
[15]上海圖書館RSS信息聚合中心[EB].http:∥www.library.sh.cn/xml,2008-05-22.
[16]百度搜索引擎網(wǎng)頁搜索特色功能介紹[EB].http:∥www.baidu.com/search/pagefeature.html,2009-10-11.
[17]About Google[EB].http:∥www.google.com/intl/en/about.html,2009-10-11.
[18]京東商城搜索引擎[EB].http:∥search.360buy.com,2009-10-12.
[19]淘寶網(wǎng)[EB].http:∥www.taobao.com,2009-10-12.