姚銀杰
摘 要:本文對搜索引擎的工作原理進行了探討,分析了搜索引擎技術在圖書館智能搜索中的應用及改進措施,希望通過本文的研究,有助于促進搜索引擎技術在圖書館搜索中的應用,為加強對搜索引擎技術的研究起到拋磚引玉的作用。
關鍵詞:搜索引擎;智能搜索引擎;圖書館
一、圖書館建立智能搜索引擎的必要性分析
隨著各個高校規(guī)模的不斷擴大,高校收藏的圖書、文獻資料的量越來越龐大,但是其傳統(tǒng)的搜索引擎所具有的功能是比較簡單的,僅僅只能對書名、作者、年份等信息來進行搜索,讀者往往需要從成千上萬條搜索結果中去挑選自己所想要的結果,搜索體驗較低。因此,運用智能搜索引擎,能夠為讀者提供專業(yè)性強、針對性強的搜索服務,同時還能夠在內容上進行分類,對搜索結果根據檢索的關鍵詞進行相關性排序,能夠大大節(jié)約讀者檢索的時間,提升高校圖書館的利用效率。
二、智能搜索引擎的優(yōu)勢
智能搜索引擎具有很多傳統(tǒng)搜索引擎不具備的優(yōu)勢:其一,與互聯網的網頁數量相比,圖書館的書籍文獻資料要少得多,因此將每一本書當做一個頁面來采取PageRank算法來進行搜索,能夠大大減少檢索的時間。其二,圖書館中的信息一般都是由圖書館的工作人員通過手動錄入的,每一本書的相關信息是比較全面的,因此在搜索結果中不會出現作弊的現象,例如重復關鍵詞。在這種情況下,能夠減少一些不必要的設計,建立起搜索引擎是相對簡單的。其三,圖書館用戶對信息的檢索要求并不復雜,所給出的關鍵詞的集中度比較高,搜索引擎的接受度比較高。
三、搜索引擎技術在現代圖書館智能搜索中的應用
(一)圖書館智能搜索的PageRank算法的設計
1、個性化PageRank算法設計的基本思路
PageRank在互聯網網頁的搜索應用中,是通過蜘蛛(Spider)從互聯網中獲得網頁,再以不同網頁之間相互鏈接的次數作為依據,來對一個網頁的相關性進行評價。PageRank在互聯網網頁搜索中的核心,是先把所有與關鍵詞相關的網頁進行初始化評分,再根據不同網頁間鏈接次數的多少,把整體PageRank值在不同頁面間流動,在經過多次的迭代和多次的反復之后達到一個平衡的位置,再以PageRank值的高低來排序。在這種模式下,與關鍵詞相關性最高的結果一般會呈現在搜索界面上,但是PageRank值在分配的過程中沒有考慮用戶的個人喜愛以及歷史瀏覽。因此,在圖書館搜索引擎的設計中使用PageRank技術,要充分考慮用戶的個人信息、喜好,來進行PageRank評分,這種PageRank評分不僅要和書籍相關聯,還要和用戶的個性化需求相互匹配,在具體的算法設計中可以參考傳統(tǒng)的PageRank算法,再將用戶個性化的要求加入進來,進行PageRank迭代,并對搜索結構進行個性化的排序。
2、歷史評價及分類PageRank的計算
歷史評價和網頁的人氣值具有非常高的相似度,很容易計算出來,一般情況下,只是需要以用戶瀏覽此書籍的次數為依據,就可以給出附加PageRank值。在這種算法下,是將所有的用戶看成了一個整體。而分類PageRank的計算過程是相對復雜的,她需要對專業(yè)書籍專業(yè)分類的情況進行評價,可以采取與上述用戶瀏覽書籍次數的多少來進行給出個性化的PageRank值。由于每一本書都有自己獨特的分類方式,在處理分類中相關分類間的關系,可以通過PageRank值來傳遞。以用戶所選定的分類特征為依據,將其作為PageRank源,再在各個分類之間讓PageRank值迭代,再以用戶的需求選擇來匹配相關性最高的分類圖書,可以聘請學校各個專業(yè)的學科人士來處理,以他們的專業(yè)意見為標準,來分配比較合理的阻尼系數,同時,這些阻尼系數還可以根據用戶的歷史瀏覽記錄來進行一定的優(yōu)化,進而使得所搜索的結果能夠更好地滿足用戶的需求。
3、建立數組型PageRank
不同的用戶有不同的需求,因此,在設計過程中,不能將PageRank值作為一個單一的情況來處理,而要注重搜索引擎的分類化與搜索引擎的個性化。將PageRank值進行優(yōu)化處理,建立一個數組,當然,這個數組是可以設計成一個多維的數組,其中包含有傳統(tǒng)的PageRank值、個性化的PageRank值、歷史評價的PageRank值、分類化的PageRank值等。圖書館智能搜索引擎,需要以用戶的需求為依據,對這一多維數組中的各項PageRank值進行加權組合處理。用戶在進行信息搜索的時候,可以根據自己的需求來進行有優(yōu)先原則的搜索,使得所返回的搜索結果能夠體現用戶的不同特征的需求,進而使得用戶在最短的時間獲得自己所需要的信息。
(二)高校圖書館系統(tǒng)采用智能搜索引擎的改進措施
1、圖書館數據庫的改進措施
目前,各個高校的圖書信息查詢系統(tǒng)還需要對現有的數據庫進行完善。需要增加一些新的數據庫,來保存書籍文獻資料的檢索相關性信息,這里面包含了現代書籍資料的電子化,學科分類、參考文獻、出版社、發(fā)表時間等信息的錄入。另外,還需要在圖書館傳統(tǒng)數據庫中添加一些新的字段來保存相關的PageRank值,建立和用戶相關的數據庫用來保存用戶的個性化需求及用戶的瀏覽歷史記錄,進而為對書籍文獻資料的相關性統(tǒng)計分析奠定基礎,進而得出關鍵詞的相關性結果。
2、圖書館搜索引擎的改進措施
在傳統(tǒng)搜索中,用戶通過書名、作者、發(fā)表時間、出版社等信息來進行檢索,搜索的結果需要SQL語句作為支持,而要實現前文所述的智能搜索,便需要對這種搜索引擎進行改進。首先,搜索引擎要對用戶檢索時所輸入的關鍵詞或關鍵字進行自然語言分析,進而更加準確地理解用戶所需要的信息,甚至,還要對用戶的語言習慣偏好進行深入分析,例如,繁體字以及少數民族的文字等。同時,要加入對PageRank值進行迭代的功能,這樣使得搜索引擎可以根據用戶所提供的關鍵詞來以PageRank值為依據來對返回的搜索結果進行排序,使得搜索結果更加符合使用者的需求。
3、構建用戶信息反饋系統(tǒng)
傳統(tǒng)搜索僅僅是對用戶的信息搜索結果的簡單羅列,即用戶向搜索引擎提供所需要檢索的關鍵詞,搜索引擎在其數據庫中檢索相應的信息,并呈現給用戶。而智能搜索引擎在圖書館的應用,需要對搜索結果頁面的搜索結果進行排序,而要使得這種排序更加滿足用戶的需求,就需要根據用戶的習慣、愛好、知識背景等信息,來重新分配PageRank值,提升用戶檢索的便捷性與有效性。
四、結束語
目前,我國很多高校在數字圖書館的建設還處于起步階段,而智能搜索引擎技術具有人機接口智能化、信息服務功能個性化、跨平臺多文檔處理等諸多傳統(tǒng)搜索不具備的優(yōu)勢。將其應用于數字圖書館的建設,具有重要的現實意義。隨著搜索引擎技術的不斷發(fā)展以及人們對信息檢索的需求的發(fā)展,搜索引擎的更新迭代速度將會更快,有必要加強對搜索引擎技術的研究。
(作者單位:西安思源學院)
參考文獻:
[1] 羅志堯,周群芳.論搜索引擎在現代圖書館中的應用[J].高教與經濟,2014,No.6604:19-21.
[2] 余艷.搜索引擎原理剖析及其技術發(fā)展[J].圖書館學刊,2013,01:58-60.
[3] 張興華.搜索引擎技術及研究[J].現代情報,2014,04:142-145.