杜喜
摘 要 浩瀚的互聯網信息為各種各樣的需求提供了難以窮盡的源泉,因而信息的檢索也就成為了重要的環(huán)節(jié)。隨著信息技術的進一步發(fā)展,信息檢索手段也在不斷完善,它為計算機用戶與海洋般的信息之間建起一條更加快捷更加方便的橋梁。本文就互聯網信息檢索作了簡要論述。
關鍵詞 互聯網 信息檢索 技術
中圖分類號:TP393 文獻標識碼:A
計算機技術的發(fā)展與完善,信息檢索便成為了重要的橋梁。早在上世紀六十年代,美國海軍機械試驗中心使用IBM701型機,初步建成了計算機情報檢索系統(tǒng),這也預示著以計算機檢索系統(tǒng)為代表的信息檢索自動化時代的到來。單純的手工檢索和機械檢索都或多或少顯露出各自的缺點,因此,新型的信息檢索方式應運而生。1965年,美國系統(tǒng)發(fā)展公司研制成功ORBIT聯機情報檢索軟件,開啟了聯機情報檢索系統(tǒng)階段。與此同時,美國洛克公司研制成功了著名的Dialog檢索系統(tǒng)。且隨著20世紀70年代衛(wèi)星通信技術、微型計算機以及數據庫產生的同步發(fā)展,用戶得以沖破時間和空間的障礙,實現了國際聯機檢索。聯機檢索是計算機、信息處理技術和現代通信技術三者的有機結合。隨著互聯網的迅速發(fā)展及超文本技術的出現,基于客戶/服務器的檢索軟件的開發(fā),實現了將原來的主機系統(tǒng)轉移到服務器上,使客戶/服務器聯機檢索模式開始取代以往的終端/主機結構,聯機檢索進入了一個嶄新的時期。信息檢索系統(tǒng)類型包括:參考數據庫檢索系統(tǒng),它以二次文獻數據庫為主,提供文獻的題錄、文摘數據或事實數據。全文數據庫檢索系統(tǒng)是近年來隨著數字化技術不斷成熟而發(fā)展起來的,系統(tǒng)能提供文獻的全文數據,包括圖表、圖像等多種形式的媒體。Internet搜索引擎主要提供網上資源的鏈接,某些搜索引擎也提供簡單的網頁介紹或檢索詞的上下文。
從信息檢索方式來說,命令檢索方式,指的是檢索過程中,每一項檢索提問,必須通過具體的命令來完成,這些檢索命令通常需要用戶熟記。這種方式雖然對于初級用戶來說比較麻煩,需要記很多的命令,但是對熟悉系統(tǒng)的用戶來說,命令方式有其步驟簡單的優(yōu)點,尤其是完成一些復雜的檢索算法時,操作步驟簡單。單檢索方式實際上是將各種檢索指令轉化成菜單選項,系統(tǒng)的功能和檢索指令通過菜單和子菜單的選項來實現,用戶通過菜單一目了然,只需根據需要在菜單上選擇某一項,或進行檢索,或顯示命令中的紀錄等。菜單驅動的檢索方式對初級用戶是比較友好的,用戶不需要培訓就可以自行檢索,很容易入門,但對于較復雜的檢索算法,常常需要進入層層菜單才能完成。其次,命令與菜單相結合的方式既保留了指令檢索的方式,又提供了菜單的某些直觀的功能。而主題法和分類法在信息檢索中的原理基本相同。信息儲存是對文獻進行收集、標引及著錄,并加以有序化編排。
信息檢索是從大量的信息中查找出用戶所需的特定信息的過程,而實施檢索的主要方法就是利用各種檢索工具。在主題概念表達上分類語言的一個顯著特點是用碼號(如字母或數字)作為文獻的標識,標引或檢索時都必須使用分類號。主題語言則是直接以自然語言中的話詞作為標引和檢索的標識。在主題概念的組織上主題法與分類法都要將主題概念組織成可迅速查找的檢索工具或檢索系統(tǒng)。分類語言主要是按學科體系或邏輯體系組織的,由于分類體系不是顯而易見、易于掌握的,因此用戶在使用分類檢索工具或檢索系統(tǒng)時,往往難以確定新主題、細小主題以及復雜主題在體系中的準確位置。主題語言按照語調的字順來組織主題概念,因而可以直接依名檢索。在主題內在關系的顯示上分類語言中主題內在關系主要通過上下位類、同位類以及交替類目、參見類目和類目注釋來顯示。尤其在體系分類表中,類目之間的等級關系可以通過類目排列的位置、乃至字體的不同而直接明顯地展示由來。因而分類法系統(tǒng)的系統(tǒng)性、等級性強,便于進行瀏覽性檢索,并可以根據檢索的需要進行擴檢和縮檢。主題語言中,主題內在關系主要通過建立詞間參照系統(tǒng)的方式來顯示。此外也通過輔助索引進行分類顯示。所以,在主題詞表中,相關主題之間的關系難以直接地、一目了然地展示出來,因而在族性檢索、尤其是較大范圍課題的檢索中,不如分類語言。在標引方法上使用分類語言標引時,主題分析的重點是辨別確定文獻主題的學科性質,以便進一步確定所屬類目。
此外,從信息檢索技術角度來說,布爾邏輯檢索技術就是指利用布爾邏輯運算符進行檢索詞語和代碼之間的邏輯組配運算,從而獲得檢索結果的一種檢索方法。這是計算機信息檢索中最基本的也是最常用的技術。對于一般用而言,截詞檢索(Truncation)是一種常用的檢索技術,特別是在西文檢索中,更是廣泛使用。截詞檢索就是對詞的片斷進行比較,檢索者將檢索詞在合適的地方截斷,然后以截出的詞語片斷進行檢索。在檢索系統(tǒng)中,為了提高檢索的準確率,縮小檢索的范圍,通常用一些限制的手段和方法。使用這些方法進行檢索通常稱為限制檢索(Limit Search)。常用的限制方法就是字段限定。此外,全文本檢索技術(Full text Searching)是對數據庫紀錄的全文文本檢索,即紀錄中的每個詞都可以作為檢索入口,且可以限定詞與詞之間的語義關系。全文本檢索也有人把它稱為自由文本檢索。隨著信息技術的進一步發(fā)展,尤其是功能更加強大的搜索軟件的普及,已經為廣大用戶帶來了極大的便捷。