于會弟
摘要:網(wǎng)絡(luò)的發(fā)展日新月異,以網(wǎng)絡(luò)為媒介的網(wǎng)絡(luò)信息檢索也異軍突起,在眾多的傳統(tǒng)和現(xiàn)代檢索方式中脫穎而出,并以其共享性、動態(tài)性和更新迅速等優(yōu)點(diǎn)日益發(fā)展成為占據(jù)主流的檢索方式。文章針對這一發(fā)展趨勢,對網(wǎng)絡(luò)檢索作了較為詳細(xì)和全面的分析闡述,著重從網(wǎng)絡(luò)檢索的概念、網(wǎng)絡(luò)信息資源的特點(diǎn)、網(wǎng)絡(luò)檢索的工具、網(wǎng)絡(luò)檢索存在的一些問題以及網(wǎng)絡(luò)檢索的發(fā)展前景展望等幾個方面展開了論述。
關(guān)鍵詞:信息檢索;網(wǎng)絡(luò)檢索;搜索引擎;Internet
中圖分類號:G354文獻(xiàn)標(biāo)識碼:A
文章編號:1674-1145(2009)12-0139-02
信息檢索是指從文獻(xiàn)集合中查找出所需信息的程序和方法。所謂文獻(xiàn)集合是指有組織的文獻(xiàn)整體。它可以是數(shù)據(jù)庫的全部記錄,也可以是某種檢索工具,還可以是某個文獻(xiàn)收藏單位收藏的全部文獻(xiàn),當(dāng)然也可以是某個單位通過Internet發(fā)布的各類信息集合。信息檢索發(fā)端于19世紀(jì)前期,主要以手工檢索方式為主,其發(fā)展速度較為緩慢,檢索效率普遍不高。到20世紀(jì)50年代,1951年世界上出現(xiàn)了最早的計(jì)算機(jī)系統(tǒng),這可稱得上是信息檢索發(fā)展史上的一個里程碑。隨著計(jì)算機(jī)技術(shù)的不斷進(jìn)步,進(jìn)入20世紀(jì)90年代,網(wǎng)絡(luò)技術(shù)開始進(jìn)入社會生活各個領(lǐng)域,計(jì)算機(jī)檢索也逐步由脫機(jī)檢索、聯(lián)機(jī)檢索發(fā)展到如今的Internet環(huán)境下網(wǎng)絡(luò)檢索。網(wǎng)絡(luò)檢索以其低廉的費(fèi)用、迅速的存取等多種功能對傳統(tǒng)的檢索造成了強(qiáng)力的沖擊,與此同時,一些新的理論、新的課題也應(yīng)運(yùn)而生,加速了現(xiàn)代情報學(xué)和信息學(xué)的發(fā)展。網(wǎng)絡(luò)息檢索是指對利用Internet信息發(fā)布技術(shù),通過 Internet發(fā)布的信息進(jìn)行的檢索,主要利用搜索引擎、網(wǎng)絡(luò)機(jī)器人和門戶站點(diǎn)等來完成。
隨著Internet的迅速發(fā)展,網(wǎng)上信息以爆炸性的速度不斷豐富和擴(kuò)展,其信息數(shù)量之大、類型之多,已經(jīng)給人們的工作、學(xué)習(xí)和生活方式帶來了巨大影響。為了充分發(fā)揮網(wǎng)絡(luò)信息的重要作用,并能迅速在上百萬個網(wǎng)站中快速有效地查找到想要得到的信息,必須對網(wǎng)絡(luò)檢索的特性進(jìn)行研究分析,并掌握網(wǎng)絡(luò)信息資源的特點(diǎn)、基本方法和檢索技巧和檢索工具等重要內(nèi)容。
一、網(wǎng)絡(luò)信息資源的特點(diǎn)
網(wǎng)絡(luò)信息資源的分布主要以網(wǎng)站為單位,數(shù)以千計(jì)的網(wǎng)站在Internet上形成了犬牙交錯的信息資源庫。但總體來講,網(wǎng)絡(luò)信息資源相比其他信息資源具有如下主要特點(diǎn):
1.離散性與共享性。WWW是受TCP/IP支持的應(yīng)用協(xié)議集,它采用HRL,HTM,HTTP和CGI進(jìn)行信息定位、存取和顯示。在靜態(tài)上,WWW是一個全球范圍內(nèi)的的相互鏈接的多媒體信息網(wǎng),同時在邏輯上它也可被看作是用HTML書寫的分布式超文本結(jié)構(gòu)。這種超文本結(jié)構(gòu)使得文檔之間用熱鍵鏈接,這種自由度使得信息交換與分享潛力無窮。也正是由于這種離散性,使得網(wǎng)絡(luò)信息資源能為所有網(wǎng)絡(luò)用戶共享,這一優(yōu)越性是其他信息資源所不具備的。
2.動態(tài)性和及時性。網(wǎng)上信息資源的瞬息萬變,極其豐富,信息的更新也很迅速。
3.不均勻性。有兩重含義,一是網(wǎng)絡(luò)信息的質(zhì)量不均勻,二是網(wǎng)絡(luò)信息分布不均勻。
4.潛在的失控性。任何個人團(tuán)體只需具備上網(wǎng)條件能夠使用HTML,就可以把任何信息放到網(wǎng)上,這種信息經(jīng)過種種檢索工具的標(biāo)引,就可供用戶檢索,中間沒有任何形式的質(zhì)量控制,勢必影響檢索效果的查準(zhǔn)率,從而導(dǎo)致檢索效率的失控。
二、網(wǎng)絡(luò)檢索的基本方法和技巧
網(wǎng)絡(luò)檢索的基本方法有兩種:一是通過分類搜索引擎檢索;二是通過關(guān)鍵詞檢索。
分類搜索引擎可以清晰方便地查找到某一大類信息,比較符合傳統(tǒng)的信息查找方式,尤其適合那些希望了解某一方面(或范圍)信息,并不嚴(yán)格限于查詢關(guān)鍵字的用戶。但目錄式搜索引擎的搜索范圍較全文搜索引擎要小許多,尤其是當(dāng)用戶選擇類型不當(dāng)時,這樣有可能遺漏某些重要的信息源。
分類搜索引擎的分類方法有學(xué)科分類和圖書分類兩種。學(xué)科分類由各搜索引擎將搜集來的信息按照學(xué)科類型分門別類地進(jìn)行排列,大多數(shù)搜索引擎都提供這種檢索方法,只是它們采用的分類標(biāo)準(zhǔn)各不相同。大多分類搜索引擎不提供圖書分類搜索,因?yàn)閳D書分類的分類標(biāo)準(zhǔn)來源于圖書分類法的基本大類,如我國的《中國圖書館圖書分類法》、國際上通用的《國際十進(jìn)分類法》和《杜威十進(jìn)分類法》等,要求相對比較嚴(yán)格。CERNET網(wǎng)絡(luò)中心的網(wǎng)絡(luò)指南針提供圖書分類搜索。關(guān)鍵詞檢索是直接在搜索引擎提供的檢索對話框中輸入要檢索的關(guān)鍵詞進(jìn)行的檢索。輸入的關(guān)鍵詞可以是單個詞匯,也可以是多個詞匯,通過組配的方法進(jìn)行比較復(fù)雜的檢索。
關(guān)鍵詞檢索是網(wǎng)絡(luò)信息檢索的主要方法。下面詳細(xì)說明關(guān)鍵詞檢索的方法和技巧。
關(guān)鍵詞組配檢索是根據(jù)關(guān)鍵詞之間的邏輯關(guān)系,利用邏輯運(yùn)算符把關(guān)鍵詞連接起來,構(gòu)成檢索表達(dá)式進(jìn)行的檢索。正確的掌握和利用此方法是有效提高網(wǎng)上信息資源檢索利用的關(guān)鍵。邏輯運(yùn)算主要有三種:“邏輯與”、“邏輯或”和“邏輯非”。邏輯與(通常用“AND”或“*”表示)檢索式為:A AND B或 A*B。可用來表示其所連接的兩個檢索項(xiàng)的交叉關(guān)系,也即交集部分,表示讓系統(tǒng)檢索同時包合檢索詞A和檢索詞B的信息集合。邏輯或(通常用“OR”或“+”表示)檢索式為:A OR B(或A+B)表示讓系統(tǒng)查找含有檢索詞A、B之一,或同時包括檢索詞A和檢索詞B的信息。邏輯非(通常用“NOT”或“-”表示)。檢索式為:A NOT B(或A-B)。表示檢索含有檢索詞 A而不含檢索詞B的信息。即將包含檢索詞B的信息集合排除掉。
三、網(wǎng)絡(luò)檢索工具
隨著WWW站點(diǎn)的增長,Internet上的信息數(shù)量和種類越來越多,為了解決信息利用的難題,互聯(lián)網(wǎng)建立了許多專門的信息檢索工具——搜索引擎,使用戶可以通過關(guān)鍵詞或分類的方法找到所需信息。
網(wǎng)絡(luò)檢索工具大致可分三大類型:
1.字典型檢索工具。類似字典、電話簿和人名錄的功能,用于檢索網(wǎng)上用戶人名、E- mail、URL、服務(wù)器地址等。這類工具有查地址:White Pages Directory,Internet Yellow Pages,whois,F(xiàn)red,X。50 0,Netfinder,IAF,F(xiàn)our1 1,F(xiàn)inger,Who Where;查用戶組:Deja News,F(xiàn)AQ Archive等;查軟件:shareware.com。
2.索引型檢索工具。為網(wǎng)上信息資源建立索引,這類工具有:FTP資源的索引:Archie等;Gopher資源的索引:Verronica,Jughead等;網(wǎng)上服務(wù)器的索引:Wais等。
3.交互型檢索工具。提供類似商用聯(lián)機(jī)檢索的網(wǎng)絡(luò)信息檢索服務(wù)。這類工具基本可分Gopher和WWW兩大類:Gopher:采用客戶機(jī)/服務(wù)器結(jié)構(gòu),把Internet上分散和各自獨(dú)立的信息源聯(lián)成一體,以簡單的菜單選擇方式提供遍布全球的Gopher信息資源的檢索。Gopher是較早期的網(wǎng)絡(luò)檢索工具,發(fā)展勢頭不如 WWW;WWW(World Wide Web)中文譯名環(huán)球網(wǎng)、全球網(wǎng)或萬維網(wǎng),同樣采用客戶機(jī)/服務(wù)器結(jié)構(gòu),以其聯(lián)網(wǎng)簡單(http)、超文本連接(Hyperlinks)、標(biāo)準(zhǔn)格式、規(guī)模大小可伸縮、多媒體、瀏覽界面(browser)、易用等特點(diǎn),大到美國國會圖書館、小到任何個人都可入網(wǎng),從而構(gòu)成當(dāng)今世界上最大、最普及的網(wǎng)絡(luò)信息檢索系統(tǒng)。
四、網(wǎng)絡(luò)信息檢索中存在的問題
盡管國際互聯(lián)網(wǎng)檢索工具的發(fā)展已具有一定規(guī)模和達(dá)到一定層次,然而,作為一個整體,還存在著準(zhǔn)率差的問題??偟膩碚f,Internet搜索引擎存在如下問題 :
1.缺乏網(wǎng)絡(luò)信息質(zhì)量控制。任何個人團(tuán)體,只要具備上網(wǎng)條件,知道如何使用超文本標(biāo)識語言,就可以把任何信息放到網(wǎng)上。這些信息經(jīng)過種種檢索工具的標(biāo)引,就可供用戶查詢,中間沒有任何形式的質(zhì)量控制。未經(jīng)質(zhì)量控制的信息,必然影響檢索結(jié)果的查準(zhǔn)率。
2.網(wǎng)絡(luò)檢索工具的功能尚待完善。與傳統(tǒng)計(jì)算機(jī)檢索工具相比,網(wǎng)絡(luò)檢索工具尚不能修改原有檢索結(jié)果,每次檢索都是重新開始,不能對原有結(jié)果加以利用。由于網(wǎng)絡(luò)文件的結(jié)構(gòu)特殊(如超文本),且不按傳統(tǒng)意義(如著者或篇名)的字段進(jìn)行檢索。目前還沒有任何一個網(wǎng)絡(luò)檢索工具可在檢索功能上與傳統(tǒng)計(jì)算機(jī)化的檢索工具相媲美。
3.缺乏檢索詞匯控制。幾乎所有的網(wǎng)絡(luò)檢索工具都采用自然語言標(biāo)引和檢索,其必然結(jié)果是同義詞和近義詞得不到控制,詞間相互關(guān)系得不到揭示,最終影響檢索效果。
4.自動標(biāo)引的局限性。自動標(biāo)引雖然省時省力,但不可避免地給檢索帶來一些問題和困難。這些問題和困難最突出地表現(xiàn)在自動標(biāo)引不可能像人工標(biāo)引那樣進(jìn)行智能甄別和選擇,而只能依賴關(guān)鍵詞詞頻等標(biāo)準(zhǔn)判斷網(wǎng)絡(luò)文件的價值。
5.邏輯運(yùn)算無統(tǒng)一標(biāo)準(zhǔn)。搜索引擎中有的用AND、OR、NOT;有的用“+”、“-”號代替AND、NOT,而將邏輯或OR設(shè)為缺省值;有的則是AND、NOT兩種符號都采用。
6.支持功能不統(tǒng)一。有的搜索引擎具備完整的邏輯檢索功能,有的則只支持部分邏輯檢索功能,比如有的檢索工具能與圓括號()結(jié)合進(jìn)行復(fù)雜的課題檢索,而有的檢索工具則不能。
7.使用途徑不統(tǒng)一。有的搜索引擎必須在其高級檢索方式中才能使用(如只能用AND而不能用“+”,只能用NOT而不能用“-”);有的必須在一般檢索方式中才能使用,有的則可在兩種檢索方式中混合使用。為了提高WWW搜索引擎的檢索質(zhì)量,在搜索引擎的開發(fā)中應(yīng)注意完善搜索引擎的功能,增加檢索途徑和限定提高查準(zhǔn)率;同時在信息標(biāo)引時采用詞頻和詞表相結(jié)合的辦法,加強(qiáng)對檢索詞匯的控制,并提高標(biāo)引速度。
五、網(wǎng)絡(luò)檢索前景展望
目前網(wǎng)絡(luò)信息檢索技術(shù)雖然取得了很大進(jìn)展,卻仍面臨以上諸多困難和問題??上驳氖牵?dāng)今出現(xiàn)的一系列新型檢索模式,包括網(wǎng)絡(luò)信息規(guī)范控制標(biāo)準(zhǔn)等為網(wǎng)絡(luò)檢索的未來展現(xiàn)了新希望。
1.多種技術(shù)的整合將使網(wǎng)絡(luò)變得更加豐富多彩。目前,網(wǎng)絡(luò)檢索(Web search)從總體上還停留在對網(wǎng)上全文、索引、目錄等基于關(guān)鍵詞的檢索。對網(wǎng)絡(luò)檢索的概念僅局限于對具獨(dú)立 URL網(wǎng)址的網(wǎng)頁的檢索。實(shí)際上,借助于計(jì)算機(jī)處理能力、存儲能力的大幅度提高以及網(wǎng)上數(shù)據(jù)通訊帶寬的急劇擴(kuò)大,再加上更多新類型信息將由更多的網(wǎng)上用戶通過不同的網(wǎng)絡(luò)設(shè)備提供上網(wǎng),人們對網(wǎng)絡(luò)檢索的概念將發(fā)生戲劇性的變化,將要展現(xiàn)在我們眼前的是網(wǎng)上各種信息載體的“百花齊放”;待檢索的網(wǎng)絡(luò)信息存儲在“動態(tài)”管理的數(shù)據(jù)庫中而非“靜態(tài)”的網(wǎng)頁中。
2.搜索引擎將實(shí)現(xiàn)從檢索“出發(fā)點(diǎn)”向“目的地”的轉(zhuǎn)型。對絕大多數(shù)搜索引擎來說,盡管檢索服務(wù)向用戶提供帶有超文本鏈接的檢索結(jié)果仍是目前服務(wù)的重點(diǎn),但在充滿競爭的現(xiàn)實(shí)中,最成功的應(yīng)該是那些本網(wǎng)頁提供的信息就能使用戶受益匪淺,而不是僅能提供引向其他網(wǎng)頁的鏈接。目前,更多的搜索引擎正致力于通過加強(qiáng)對用戶檢索需求的滿足實(shí)現(xiàn)從檢索“出發(fā)點(diǎn)”到“目的地”的轉(zhuǎn)型。Hot Bot的Truher認(rèn)為:“對絕大多數(shù)用戶來講,并不是為了找尋信息而找尋信息,檢索的最終目的是要真正能解決問題。”未來的網(wǎng)絡(luò)檢索服務(wù)將盡可能地了解用戶的真正需求并據(jù)此將檢索結(jié)果進(jìn)行分門別類的處理,而不是對每一個檢索提問都一古腦兒輸出大量的結(jié)果。
3.智能化的進(jìn)程將會跨上新臺階。Intelli- Seek的執(zhí)行總裁 Mahebdra Vora預(yù)言“未來的網(wǎng)絡(luò)檢索軟件將更智能化,它能理解不同用戶的實(shí)際需求并提供主動服務(wù)”。而Hot Bot的Truher預(yù)測“今后的檢索界面將更具有檢索‘助手功能,這種助手比現(xiàn)有搜索引擎要出色得多”。
4.嶄新的標(biāo)準(zhǔn)將為消除網(wǎng)絡(luò)的混雜局面帶來生機(jī)。網(wǎng)絡(luò)檢索質(zhì)量保證最大阻礙之一是網(wǎng)絡(luò)結(jié)構(gòu)的混亂嘈雜,缺乏統(tǒng)一標(biāo)準(zhǔn)化的描述方法和手段。目前人們正在研究新的統(tǒng)一的標(biāo)準(zhǔn)和描述方法以期能改善這種混亂的局面,也取得了一些階段性成果和進(jìn)步,我們拭目以待新的標(biāo)準(zhǔn)能盡早出現(xiàn)。
參考文獻(xiàn)
[1]湖北省圖書館.湖北省圖書館湖北名勝風(fēng)景數(shù)據(jù)庫
[EB,0L].[2007-06-23].http://www.library.hb.enI 8080/
was40/search?channelid=51986..
[2]Elisa Lanzi,Ann Bmrd Whiteside.CCO Commons[EB/OL].[2007—07—26].hap://www.vraweb.or~eeoweb,co/about.html.
[3]劉佳.基于內(nèi)容的圖像瀏覽與檢索系統(tǒng)研究[D].西安:西安科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,2006.