關(guān)鍵詞:全文搜索引擎;檢索幫助;改進(jìn);建議
摘 要:針對(duì)目前全文搜索引擎的檢索效率低,引擎提供的檢索幫助不夠完善的實(shí)際情況,結(jié)合并借鑒諸多檢索網(wǎng)站的優(yōu)點(diǎn),提出了將檢索幫助置于顯見位置、普及和改進(jìn)高級(jí)檢索、在全文檢索中引入分類體系、對(duì)搜索引擎的信息來源網(wǎng)站進(jìn)行主題分類、增加同義詞的檢索幫助以及引導(dǎo)用戶參與設(shè)計(jì)檢索幫助等方面的改進(jìn)建議。
中圖分類號(hào):G252.7 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2012)03-0031-03
收稿日期:2012-05-06
作者簡介:冷玥(1990-),北京大學(xué)信息管理系學(xué)生。研究方向:信息管理與信息系統(tǒng)。隨著以百度、Google為代表的全文搜索引擎在人們生活中扮演愈加重要的角色,人們也提出了在使用全文搜索引擎進(jìn)行檢索過程中遇到的一些實(shí)際問題。其中,檢索效率低,需要全文搜索引擎提供更加有效的檢索幫助是一個(gè)突出的問題。
1 全文搜索引擎的工作原理
全文搜索引擎是真正意義上的搜索引擎,全文搜索引擎的數(shù)據(jù)庫是通過一個(gè)叫“網(wǎng)絡(luò)機(jī)器人(英文為Spider)”的軟件,將網(wǎng)絡(luò)上的各種鏈接自動(dòng)獲取大量的網(wǎng)頁信息,并按一定的規(guī)則分析整理而形成的。全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”是一種網(wǎng)絡(luò)上的軟件,遍布Web空間,能夠掃描到一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個(gè)網(wǎng)頁到另一個(gè)網(wǎng)頁,從一個(gè)網(wǎng)站再到另一個(gè)網(wǎng)站去收集網(wǎng)頁資料。全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”為保證收集到的信息資源最新、最全,還會(huì)再回訪已抓取過的網(wǎng)頁。“網(wǎng)絡(luò)機(jī)器人”收集的網(wǎng)頁,還要由其他程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計(jì)算建立起網(wǎng)頁索引,這樣才能添加到索引數(shù)據(jù)庫中。平時(shí)看到的全文搜索引擎,實(shí)際上只是一個(gè)搜索引擎系統(tǒng)的檢索界面,當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),搜索引擎會(huì)從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排列規(guī)則返給用戶。
綜上所述,全文搜索引擎的原理主要分為三個(gè)部分:首先是從Internet上抓取網(wǎng)頁。利用“網(wǎng)絡(luò)機(jī)器人”系統(tǒng)程序從Internet上自動(dòng)收集網(wǎng)頁,自動(dòng)訪問Internet,并沿著任何網(wǎng)頁中所有的統(tǒng)一資源定位符爬到其他網(wǎng)頁,再經(jīng)過多次過程重復(fù),并把爬過的全部網(wǎng)頁收集起來;其次是建立索引數(shù)據(jù)庫。利用分析索引系統(tǒng)程序?qū)κ占饋淼木W(wǎng)頁內(nèi)容進(jìn)行分析,并提取有關(guān)的網(wǎng)頁信息,通過復(fù)雜大量的計(jì)算,算出每一個(gè)網(wǎng)頁針對(duì)頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度,再由這些相關(guān)的信息建立起網(wǎng)頁索引數(shù)據(jù)庫;最后是在索引數(shù)據(jù)庫中搜索排序。當(dāng)用戶輸入關(guān)鍵詞搜索后,利用搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找出符合所輸入關(guān)鍵詞的全部相關(guān)網(wǎng)頁。因?yàn)槿康南嚓P(guān)網(wǎng)頁對(duì)所輸入關(guān)鍵詞的相關(guān)度已經(jīng)計(jì)算出來,并對(duì)結(jié)果進(jìn)行了優(yōu)化,然后再由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容、摘要等有關(guān)內(nèi)容呈現(xiàn)給用戶[1-3]。
2 全文搜索引擎檢索幫助存在的薄弱環(huán)節(jié)
目前,全文搜索引擎得到了快速發(fā)展和廣泛應(yīng)用,其功能也越來越強(qiáng)大,但仍然存在著檢索效率不高的問題,雖然一些搜索引擎和一些具有檢索功能的網(wǎng)站設(shè)置了檢索幫助,但通過分析研究發(fā)現(xiàn),全文搜索引擎檢索幫助也有很多薄弱環(huán)節(jié),主要體現(xiàn)在受控較弱,很難從一個(gè)完整的分類體系的角度為用戶提供有價(jià)值的檢索幫助,也可以理解為很難將用戶的檢索范疇限制在想要檢索的信息存在的范圍內(nèi),用戶需要在返回的海量信息中尋找自己真正需要的信息。整個(gè)網(wǎng)絡(luò)就是一個(gè)超級(jí)大型的信息資源數(shù)據(jù)庫,而且無法用一個(gè)完整的分類體系對(duì)信息資源進(jìn)行分類、分區(qū),用戶依然需要經(jīng)過對(duì)信息資源內(nèi)容進(jìn)行篩選,如果用戶面臨的信息資源來自較大的范圍,就不得不花大量的時(shí)間在浩如煙海的大型信息資源數(shù)據(jù)庫中進(jìn)行信息的篩選。因此可以將思路鎖定于尋找一種可以縮小檢索范圍的檢索幫助之中,從對(duì)全文搜索引擎檢索幫助的分析研究中發(fā)現(xiàn),對(duì)其檢索幫助進(jìn)行改進(jìn)和完善是必要的和可行的[4,5]。
3 全文搜索引擎檢索幫助的改進(jìn)建議
經(jīng)分析研究,針對(duì)全文搜索引擎檢索幫助存在的薄弱環(huán)節(jié),結(jié)合并借鑒諸多檢索網(wǎng)站的優(yōu)點(diǎn),建議從以下幾個(gè)方面對(duì)全文搜索引擎檢索幫助進(jìn)行改進(jìn)。
3.1 將檢索幫助區(qū)域置于易見位置
在分析研究過程中發(fā)現(xiàn),幾家常用的全文搜索引擎的幫助選項(xiàng)都位于頁面的下方而且沒有用顯眼的標(biāo)志進(jìn)行標(biāo)記,用戶一旦遇到了問題,很難發(fā)現(xiàn)可以求助于搜索引擎本身,而幫助中的內(nèi)容,比如說選擇檢索詞的原則,模糊檢索的可能性等等,他是和用戶的檢索工作息息相關(guān)、不可分割的。因此改進(jìn)檢索幫助應(yīng)該包括讓用戶可以很容易地獲得需要的幫助。目前,很多用戶在使用的過程中都不知道搜索引擎存在專門的檢索幫助鏈接,只能憑借經(jīng)驗(yàn)進(jìn)行搜索,這是一個(gè)不應(yīng)該出現(xiàn)的現(xiàn)象,也應(yīng)該是檢索幫助的改進(jìn)方向。
3.2 普及和改進(jìn)高級(jí)搜索
對(duì)于全文檢索來說,合理的限制越多,返回的信息量越少,需要進(jìn)行篩選的時(shí)間花費(fèi)的越少,檢索效率提高的也就越多。但同時(shí)發(fā)現(xiàn),用戶很難全面地想出足夠多的限制詞來修飾自己想要檢索的信息資源,高級(jí)檢索的存在則是從信息資源的形式角度提出限制的可行方法。舉個(gè)例子來說,如果有用戶想檢索軍事坦克的內(nèi)容,若是單純輸入坦克,返回的內(nèi)容可能還包括玩具坦克的介紹,那么利用高級(jí)搜索,他就可以選擇過濾掉玩具坦克有關(guān)內(nèi)容的檢索結(jié)果,減輕自己篩選的負(fù)擔(dān)。同時(shí),也可以對(duì)檢索幫助的功能進(jìn)行完善。比如說從更多的角度提供對(duì)檢索內(nèi)容進(jìn)行限制的條件。目前的檢索限制條件還是比較少的,尤其是無法啟發(fā)用戶從檢索詞表達(dá)的具體內(nèi)容上對(duì)檢索詞進(jìn)行改進(jìn)。
3.3 在全文搜索引擎中對(duì)信息資源進(jìn)行分類
從信息資源進(jìn)行分類的角度來看,建議使用預(yù)先編制的控制詞表來提供全文搜索引擎的檢索幫助。這是由于控制詞表一般根據(jù)資源的整體和使用需要來進(jìn)行設(shè)置,是根據(jù)檢索系統(tǒng)全局使用的需要建立的輔助方式,盡管在形式上與傳統(tǒng)的敘詞表相類似,傳統(tǒng)的敘詞表沒有控制詞表那樣苛刻。在檢索時(shí),檢索系統(tǒng)先將用戶的檢索提問和控制詞表匹配,通過控制詞表中的同義詞控制來進(jìn)行檢索。該方法的優(yōu)點(diǎn)是能夠在一定程度上提供概念檢索,并利用相關(guān)檢索詞的優(yōu)化來選擇幫助,其缺點(diǎn)是該系統(tǒng)目前還沒有真正實(shí)現(xiàn)自動(dòng)化。但同時(shí)可以看到,現(xiàn)在的分類網(wǎng)站采用的分類體系與傳統(tǒng)的分類法是不同的,更加適合于處理網(wǎng)絡(luò)信息資源。以前百度所作的檢索幫助改進(jìn)嘗試,更多的是想用傳統(tǒng)的辦法解決現(xiàn)在的問題,因此建議應(yīng)該基于現(xiàn)在流行的網(wǎng)絡(luò)分類法來整理全文搜索引擎搜集到的大量信息資源,也可以借鑒垂直搜索引擎的做法,先將用戶常用的信息資源集中的領(lǐng)域進(jìn)行重新的組織,對(duì)于表達(dá)同一主題的信息進(jìn)行集中,經(jīng)過處理后,使得用戶輸入的每一個(gè)關(guān)鍵詞都能對(duì)應(yīng)特定的結(jié)構(gòu)化的處理結(jié)果。如果真實(shí)現(xiàn)了這樣一個(gè)檢索幫助體系,用戶可以根據(jù)給定的分類,觀察自己選擇的檢索詞在整個(gè)分類體系中的位置,以及它的上位類、下位類所對(duì)應(yīng)和囊括的概念是否與自己的預(yù)期相同,以便從檢索詞實(shí)際表達(dá)的內(nèi)容角度調(diào)整檢索詞。如果返回結(jié)果偏多,可以從下位類中選擇相應(yīng)的合適詞進(jìn)行再次檢索,如果返回的結(jié)果偏少,沒有得到自己想要的信息,可以適當(dāng)選擇之前關(guān)鍵詞的上位類進(jìn)行檢索。
3.4 對(duì)搜索引擎信息的來源網(wǎng)站進(jìn)行分類
如果用統(tǒng)一的分類體系對(duì)搜索引擎上的信息進(jìn)行分類存在困難,也可以考慮在規(guī)模較大的搜索引擎上對(duì)信息資源的來源網(wǎng)站進(jìn)行分類,分類的依據(jù)是網(wǎng)站的信息主題。比如說,起點(diǎn)網(wǎng)就是提供網(wǎng)絡(luò)小說相關(guān)信息的網(wǎng)站,智聯(lián)招聘網(wǎng)就是招聘信息的網(wǎng)站。這樣,用戶可以考慮直接在這些網(wǎng)站中進(jìn)行站內(nèi)搜索,避免了在搜索引擎中進(jìn)行猶如大海撈針般的信息檢索;同時(shí),這種方式也可以看作從大的集合方面將搜索引擎的信息進(jìn)行分類。用戶在進(jìn)行信息檢索時(shí),這種分類方法會(huì)幫助用戶劃定檢索范疇,提高檢索效率。
3.5 增加基于同義詞的檢索幫助
現(xiàn)在的搜索引擎在同義詞控制方面還比較薄弱,如果不能從技術(shù)上實(shí)現(xiàn)同義詞之間返回結(jié)果的完全相同,可以從檢索幫助的角度,提供基于同義詞的相關(guān)檢索。比如說檢索“手機(jī)”和檢索“移動(dòng)電話”返回的檢索結(jié)果是不同的,而在以“手機(jī)”或者“移動(dòng)電話”作為檢索詞的檢索中,都沒有將其他表示這一概念的詞作為相關(guān)詞條提供給用戶。這種現(xiàn)象可能導(dǎo)致用戶獲得信息的不完全。如果在檢索幫助中加入必要的同義詞作為相關(guān)檢索詞條,很可能會(huì)為用戶提供有用的啟示。比如說,自己選擇的檢索詞是不是已經(jīng)不是表達(dá)這一概念的常用詞?是不是有更好、更專指的詞可以表達(dá)這一概念?基于同義詞的檢索幫助是用來彌補(bǔ)搜索引擎當(dāng)今設(shè)計(jì)中的缺陷,有助于提高用戶檢索的質(zhì)量,保證用戶檢索的效率。
3.6 用戶參與設(shè)計(jì)檢索幫助
3.6.1 收集用戶反饋,為用戶編制某幾個(gè)主題的分類檢索幫助或者類敘詞表檢索幫助
個(gè)性化搜索引擎概念的提出,將搜索引擎應(yīng)切合用戶需求的理念植入了引擎設(shè)計(jì)者的設(shè)計(jì)過程中。因此應(yīng)根據(jù)用戶的使用需要來設(shè)計(jì)引擎,但是用戶的需要千差萬別,很難用一個(gè)通用模式顧及到所有用戶的檢索需求。在設(shè)計(jì)檢索幫助的過程中,可以將有著相同檢索熱點(diǎn)的用戶歸為一類,為這一類用戶編制其經(jīng)常進(jìn)行檢索主題的分類檢索幫助或者類敘詞表檢索幫助,筆者認(rèn)為類敘詞表處理會(huì)更具健壯性和實(shí)用性,因?yàn)樗梢酝瑫r(shí)提供主題和分類檢索,在進(jìn)行網(wǎng)絡(luò)檢索的時(shí)候,主題詞應(yīng)該比分類詞來的更加直接,但是分類主題詞表編制的難度也較大(范圍縮小,實(shí)用性增強(qiáng))。在此類檢索幫助的形式上,可以借鑒百度曾經(jīng)利用過的檢索幫助的形式,在檢索頁面的一側(cè)提供分類體系,也可以借鑒淘寶網(wǎng)的檢索幫助形式,即在檢索下拉列表框之下直接給出分類建議。
3.6.2 用戶參與編制檢索幫助
可以模仿百度百科和百度文庫的方式,由經(jīng)常檢索相同主題的用戶為這一主題提供檢索詞條甚至編排分類檢索幫助(實(shí)際應(yīng)用中,分類詞表的編制可以不嚴(yán)格,分類能有效描述檢索需求即可),也可以實(shí)行檢索詞條共享,用戶將自己檢索時(shí)用得比較有效率的詞條與網(wǎng)友共享,適當(dāng)?shù)臅r(shí)候替代現(xiàn)在廣泛使用的相關(guān)檢索。同時(shí),由專業(yè)人員設(shè)計(jì)的檢索幫助可能無法覆蓋檢索的各個(gè)領(lǐng)域,由用戶參與檢索幫助的編制,一定程度上可以使得檢索幫助分領(lǐng)域深入下去,并能緊跟用戶新的需要進(jìn)行調(diào)整,滿足更多用戶的檢索需求。
3.6.3 協(xié)助用戶形成檢索互助小組,實(shí)現(xiàn)檢索優(yōu)劣勢的互補(bǔ)
在用戶的反饋中,能體現(xiàn)出其對(duì)事物認(rèn)知的特點(diǎn),也可根據(jù)這種特點(diǎn)進(jìn)行檢索幫助,按認(rèn)知類型將用戶分類,互相借鑒檢索詞條,實(shí)現(xiàn)互補(bǔ)。依據(jù)用戶的搜索記錄,針對(duì)用戶進(jìn)行二次甚至多次檢索的檢索方向,根據(jù)用戶的認(rèn)知特點(diǎn)。比如說有些人喜歡從總體上描述一個(gè)概念,而不善于將概念細(xì)化,而有些人恰好相反,只能將概念具體到一定程度,不會(huì)從大的方向上來把握檢索。將這樣的兩個(gè)小組結(jié)為互助小組,用戶可以分享檢索過程中的經(jīng)驗(yàn)和教訓(xùn),彌補(bǔ)自身的不足。可以說,這種形式是檢索幫助由系統(tǒng)設(shè)定算法向人際交流的幫助形式進(jìn)行的過渡。畢竟人與人之間的交流更直接,希望這種方式也能成為一個(gè)檢索幫助可靠的改進(jìn)方向。
4 結(jié)語
從目前的全文搜索引擎檢索幫助的分析研究中發(fā)現(xiàn),檢索幫助確實(shí)能在幫助用戶提高檢索效率方面提供一定的幫助,但是還有提高的余地,尤其是全文搜索引擎在檢索的時(shí)候受控較弱,在檢索幫助中提供一定的受控方向是必要的。在此過程中,可以著重考慮如何才能協(xié)助用戶劃定一個(gè)合理的檢索范疇,很好地解決了這個(gè)問題,就能很好地為用戶提供必要的檢索幫助。在思索檢索幫助的改進(jìn)時(shí),傳統(tǒng)的信息組織理論,包括分類法、主題法等在解決網(wǎng)絡(luò)信息資源組織的種種問題時(shí)依然是可以借鑒的。因此在以后的實(shí)踐中,還要重視傳統(tǒng)信息組織方法的利用,讓信息組織方法與時(shí)俱進(jìn),為人們提供更多的幫助,更多的思考,并在以后的實(shí)踐中不斷的加以完善。
參考文獻(xiàn):
[1] 徐海燕,劉勇.搜索引擎的工作原理及發(fā)展趨勢[J].科技創(chuàng)新導(dǎo)報(bào),2010(11):25.
[2] 趙力.網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用[J].科技信息,2009(11):32-33.
[3] 趙淑梅.全文搜索引擎技術(shù)[J].鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào),2008(3):12-14.
[4] 馬張華.分類搜索引擎類目體系研究[J].圖書情報(bào)工作,2001(2):36-40.
[5] 程琳.網(wǎng)絡(luò)信息檢索策略與檢索途徑探討[J].圖書情報(bào)論壇,2010(3):49-50.