摘要:了解網(wǎng)絡信息資源的特點,掌握網(wǎng)絡檢索工具及其檢索方法是現(xiàn)代圖書館員應當具備的基本技能。本文從網(wǎng)絡信息資源的定義及特點入手,介紹了網(wǎng)絡信息資源檢索工具及其類型,并對“關鍵詞檢索”、“分類檢索”、“鏈接檢索”等三種檢索途徑及其檢索方法與檢索技巧進行了分析與探討。
關鍵詞:網(wǎng)絡信息資源搜索引擎信息檢索檢索工具檢索技巧
信息社會中,網(wǎng)絡信息是重要的社會資源,網(wǎng)絡信息的開發(fā)和利用直接影響著社會的創(chuàng)新能力?,F(xiàn)代圖書館肩負著網(wǎng)絡信息整序和指導網(wǎng)絡信息有效利用的職能,圖書館員必須了解網(wǎng)絡信息的特點,掌握網(wǎng)絡信息檢索工具及其檢索方法,具備網(wǎng)絡信息檢索、評價、整序及其開發(fā)利用的基本技能。
1 網(wǎng)絡信息資源及其特點
網(wǎng)絡信息資源是在INTERNET上存儲和交流的、可被人們開發(fā)和利用的信息和知識的總稱。這些以網(wǎng)絡為載體,以文件為表現(xiàn)形式的信息和知識,可以從內(nèi)容、形式、用途、使用對象等不同角度,劃分為諸如:社會科學信息資源和自然科學信息資源、FTP信息資源和軟件信息資源、公共信息資源和商業(yè)信息資源、成人信息資源和少兒信息資源等等類型,網(wǎng)絡信息資源以網(wǎng)站為單位進行管理,以網(wǎng)頁和文件為單位被人們利用。
網(wǎng)絡信息資源是由無數(shù)的組織、機構(gòu)、團體和個人組織和管理的資源。與其信息資源相比,具有如下特點:(1)就表現(xiàn)形式而言:①數(shù)量龐大,增長迅速;②內(nèi)容豐富、覆蓋面廣;③分布無序,表現(xiàn)形式多樣;④傳輸速度快,共享程度高;⑤交互性強,使用成本低;⑥變化頻繁、難測、質(zhì)量良莠不齊;⑦生滅聚散無定律。(2)就學科內(nèi)容而言:由于研究水平、研究群體、與經(jīng)濟發(fā)展的關系、社會重視程度等等因素的影響,不同學科的信息資源在總量上存在著較大的差異。(3)就使用語言或所屬國家、地區(qū)而言。受語言使用人口、國家或地區(qū)經(jīng)濟發(fā)展水平、信息政策、國民受教育程度、全民信息意識等等因素的影響,不同語言或不同國家、地區(qū)的網(wǎng)絡信息資源發(fā)展極不平衡。
2 網(wǎng)絡信息資源檢索工具及其類型
有效地利用網(wǎng)絡信息資源,首先需要對某一類型或某一主題的網(wǎng)絡信息有一個全面的了解和總體的把握,進而獲取特定的、能夠滿足查詢需求的網(wǎng)絡信息資源。因此,就需要進行網(wǎng)絡信息資源檢索。檢索,是網(wǎng)絡信息資源利用的前提和基礎性工作,目的是了解有關信息資源的數(shù)量、語言或國家分布及資源的權(quán)威性、學術(shù)性、時效性等相關信息,為網(wǎng)絡信息資源的開發(fā)和利用提供咨詢和指引門徑。其次,是要解決好海量信息的無序分散與特定資源的有序利用問題。
目前,網(wǎng)絡信息資源檢索工具大致可分為二種:一是利用程序自動索引,在用戶端提供有序化的匹配信息;二是由人工按一定的標準收錄和標引網(wǎng)站,以第三方身份提供整序平臺,用戶通過整序平臺查找有序化的信息和資源。前者整序方法所使用的工具,是基于程序的關鍵詞搜索引擎(Keyword Search Engine)或稱全文搜索引擎(Full-Text Search Engine),后者則是以分類指南網(wǎng)站為代表的分類搜索引擎(Directory)。
網(wǎng)絡信息資源檢索主要利用上述二種類型的網(wǎng)絡資源整序和檢索工具,而且,信息資源檢索本身也是一種整序的手段,由于其針對性較強,有特定的范圍和明確的質(zhì)量要求,從用戶角度而言,也可稱之為“專題整序”,相對整序工具來說,可以稱之為“二次整序”。
3 網(wǎng)絡信息資源檢索途徑與檢索技巧
網(wǎng)絡信息資源檢索的途徑大致可分為:關鍵詞檢索、分類檢索、鏈接檢索三種。
3.1 關鍵詞檢索
關鍵詞檢索是根據(jù)信息資源的內(nèi)容性質(zhì),提煉出最能概括和體現(xiàn)資源主題的關鍵性詞語,利用關鍵詞搜索引擎查找相關網(wǎng)頁信息。常用于信息資源檢索的關鍵詞搜索引擎主要有Google、Lycos、Altavista、百度、搜狗等。
例如,要了解可用于查找各國錢幣圖案的網(wǎng)絡信息資源,我們可以分別用“錢幣”、“鈔票”、“紙幣”、“硬幣”、“金幣”、“銀幣”、“紀念幣”、“古幣”、“paper money”、“coin(s)”、“banknote(s)”等作為關鍵詞進行網(wǎng)頁檢索,也可以用“國家名+幣種”(如“Burundi coin(s)”、“Francebanknote(s)”、“china coins \"Qing Dynasty\"”等)等多個關鍵詞進行某一國家錢幣圖案搜索,還可以用“site:國家域名后綴+關鍵詞1+關鍵詞2...”(如“site:us Coin banknote”、“site:uk ancient coins”等)等構(gòu)建復合檢索式,對某一國家和地區(qū)范圍內(nèi)的相關信息資源進行檢索,甚至可以利用圖像搜索引擎,從某種錢幣圖案入手,進而查找相關網(wǎng)頁......關鍵詞信息資源檢索的方法多種多樣,檢索效果在很大程度上取決于關鍵詞的選擇和對搜索技巧的掌握。
值得注意的是,關鍵詞信息資源檢索中得到的結(jié)果并非都可以作為“資源”來使用,必須對其進行甄別,篩選出最符合檢索要求和使用價值較大的網(wǎng)頁或各類文檔。
一次檢索往往返回大量的結(jié)果,根據(jù)排序算法(如Google等),級別(PageRank)較高的網(wǎng)頁一定處在結(jié)果列表的較前位置,網(wǎng)頁的位置向后順延,重要性依次降低。根據(jù)這一原理,我們通常只把信息資源檢索的范圍限定在結(jié)果列表的前兩、三個頁面,以保證獲得信息的效率和質(zhì)量。
另外,還可以根據(jù)網(wǎng)頁URL的構(gòu)成,通過對結(jié)果頁面在其網(wǎng)站結(jié)構(gòu)中的物理位置和對其所在網(wǎng)站主題的考察,初步判斷網(wǎng)頁的質(zhì)量和價值。一般情況下,符合檢索要求的網(wǎng)頁處在其網(wǎng)站結(jié)構(gòu)中的較上層位置,與網(wǎng)站主題一致或密切相關,這樣的網(wǎng)頁內(nèi)容一般較為可靠,使用價值也較高。反之,處于較低層次,與網(wǎng)站主題關系不大甚至無關的網(wǎng)頁,其作為“資源”的使用價值就會大打折扣。
由于搜索技術(shù)和搜索引擎自身功能的限制,關鍵詞搜索引擎無法完全索引和全面揭示那些處于網(wǎng)站深層結(jié)構(gòu)(Deep structure)中的網(wǎng)頁、拒絕鏈接或未被鏈接的“孤島網(wǎng)頁”、動態(tài)網(wǎng)頁、數(shù)據(jù)庫等等“看不見的網(wǎng)頁(The Invisible Web)”。據(jù)Bright Planet公司的《Deep Web White Paper》調(diào)查與研究顯示:隱蔽網(wǎng)絡資源(Invisible Web resources)的數(shù)量大約為7,500TB,是WWW的400-550倍;隱蔽網(wǎng)絡擁有5,500億私人文檔,而可見網(wǎng)絡(Visible Web resources)只擁有10億私人文檔;隱蔽網(wǎng)絡站點的月訪問量是可見網(wǎng)絡的150%;隱蔽網(wǎng)絡信息資源是Internet上發(fā)展最快的信息資源,大約一半的隱蔽網(wǎng)絡信息資源存在于主體明確的網(wǎng)絡數(shù)據(jù)庫中;95%的隱蔽網(wǎng)絡信息資源可免費獲取。不言而喻,“看不見的網(wǎng)頁”是一種重要的不可替代網(wǎng)絡信息資源,在資源檢索中必須給予足夠的重視。
關鍵詞檢索只能對網(wǎng)絡信息資源有一個初步、大致的了解,系統(tǒng)掌握、全面揭示和客觀描述某類網(wǎng)絡信息資源還須使用分類檢索的方法。
3.2 分類檢索
分類檢索是以分類搜索引擎為工具,根據(jù)所需信息資源的學科性質(zhì)和主題概念,確定其在分類體系中的類目歸屬,至上而下地層層尋檢,逐級瀏覽,查找相關網(wǎng)站的信息。常用于信息資源檢索的分類搜索引擎主要有Yahoo、Dmoz等。進行Invisible Web資源檢索,尤其不可忽視的是The Invisible Web Directory (http://invisible-web.net/)和Librarians' Index to the Internet(http://www.ipl.org/)。前者是《隱蔽網(wǎng)絡:揭開搜索引擎看不到的信息源》的作者Chris Sherman和 Gary Price創(chuàng)辦的專門用于指導檢索Invisible Web資源的主題分類指南,網(wǎng)站的宗旨是“尋找搜索引擎無法找到的隱藏的網(wǎng)絡信息資源”,后者是著名的圖書館員編制和維護的包括14,000多個網(wǎng)站的主題目錄,常用于查找普通搜索引擎無法索引的數(shù)據(jù)庫資源。
網(wǎng)絡資源分類調(diào)查的效果,取決于對分類搜索引擎的駕馭能力,而熟練地掌握和使用分類搜索引擎,需要對網(wǎng)絡分類體系的構(gòu)建原理及其特點、分類搜索的方法與途徑等有一個較為全面和透徹的了解。
3.3 鏈接檢索
鏈接檢索是利用網(wǎng)頁之間的超級鏈接(Hyperlink)指引路徑,從已知資源查找相關資源的一種便捷的網(wǎng)絡信息資源檢索方法。
網(wǎng)絡最顯著的特征是“聯(lián)系”和“交流”,無論是否自愿,只要身處“網(wǎng)”中,聯(lián)系和交流就不可避免。內(nèi)容相同或相近的信息資源之間,由于仰慕、宣傳、推薦、引用、參考或協(xié)議、共享、網(wǎng)站優(yōu)化等原因,往往以超級鏈接形式表示關聯(lián),單向或互相指引和利用。超級鏈接是現(xiàn)代互聯(lián)網(wǎng)信息資源之間最基本、最常用的聯(lián)系方式。
超級鏈接是指網(wǎng)站內(nèi)不同的頁面之間,網(wǎng)站與WEB之間的鏈接關系,它可以使同一網(wǎng)站內(nèi)的相距較遠的網(wǎng)頁成為有機聯(lián)系的整體,能夠使不同網(wǎng)站之間建立聯(lián)系。超級鏈接由鏈接載體(源端點)和鏈接目標(目標端點)兩部分組成,通常分為顯性鏈接和隱性鏈接。
顯性鏈接,也稱直接鏈接,是在網(wǎng)頁上有“LINK”、“XX連接”字樣和目標端點LOGO指示的可以看得見的、可以直接利用的鏈接。顯性鏈接對源端點資源具有支持和印證的作用,同時也宣傳、推薦了目標端點資源。通常情況下,顯性鏈接的質(zhì)量能夠在很大程度上反映源端點管理者的態(tài)度和信息資源的質(zhì)量,如果鏈接的信息資源網(wǎng)頁級別(PageRank)高,訪問量大、主旨關鍵詞檢索排名靠前,基本上可以認為源端點資源是嚴肅、負責和具備一定的質(zhì)量水準的。反之,如果顯性鏈接多為空鏈、死鏈、錯鏈、與主題無關的鏈接,甚至是無聊或色情網(wǎng)站,那么,源端點信息資源的質(zhì)量和信譽就會大打折扣。
隱性鏈接,也稱反向鏈接,是某一網(wǎng)站由外部主動與其自身的鏈接,即被鏈接。如果單純從鏈接數(shù)量考慮,某一資源被大量的其它相關信息資源鏈接,起碼說明其知名度較高、人氣較旺。然而,為了能夠?qū)δ骋毁Y源作出中肯的評價,還需要從反向鏈接是否為“專家網(wǎng)頁(an expert page)”、是否具有較高的網(wǎng)頁級別(higher PageRank)、是否被著名分類搜索引擎收錄(appears in a famous directory listing)等方面進行考察。
反向鏈接雖然是隱形的,我們可以利用搜索引擎的“l(fā)ink:”語法,或使用專用工具了解反向鏈接的數(shù)量。用“l(fā)ink:”語法查詢反向鏈接:NSSDC Photo是美國國家空間科學數(shù)據(jù)中心 (NSSDC)的空間科學圖片庫,有包括水星、金星、地球、月球、火星、木星、土星、海王星、冥王星、小行星、彗星、太陽系、銀河系、星云等各式各樣的照片萬余件,是查找各種天體圖片的主要和常用的資源,其URL為http://nssdc.gsfc.nasa.gov/photo_gallery/。用Google查詢:“l(fā)ink:nssdc.gsfc.nasa.gov/photo_gallery”,約有575項鏈接到 nssdc.gsfc.nasa.gov/photo_gallery 的查詢結(jié)果。能夠檢測反向鏈接的專用工具很多,有的只提供某一個搜索引擎的查詢結(jié)果,如yahoo反向鏈接檢測器(http://www.webconfs.com/anchor-text-analysis.php),有的可以調(diào)用多個搜索引擎進行反向鏈接查詢,如Marketleap(http://www.marketleap.com/siteindex/),能夠同時顯示Alltheweb、AltaVista、Google/AOL、HotBot/Inktomi、MSN等搜索引擎的反向鏈接查詢結(jié)果。我們在網(wǎng)絡信息資源檢索中使用的反向鏈接檢測工具,實際上是為搜索引擎優(yōu)化(SEO)服務的商業(yè)性專業(yè)工具,不同工具對同一資源的反鏈檢測數(shù)據(jù)多有出入也在情理之中,但它對資源檢索畢竟具有一定的參考價值。
總之,無計劃的信息生產(chǎn)和不可控制的網(wǎng)絡膨脹與人們對網(wǎng)絡信息資源有目的性的特定需求,是互聯(lián)網(wǎng)絡發(fā)展和利用過程中始終存在的主要矛盾。在解決這一矛盾的過程中,網(wǎng)絡自動整序和智能檢索技術(shù)應運而生,并不斷地發(fā)展和完善,人們最終必將能夠完全地駕馭和自在地利用網(wǎng)絡。
參考文獻
[1] 王世民.網(wǎng)絡學術(shù)信息資源的獲取方式[J].情報探索,2008,(10):48-49.
[2] 方錦平.隱形網(wǎng)絡及其信息資源的獲取途徑[J].現(xiàn)代情報,2008,(5):76-78.
[3] 侯集體. 網(wǎng)絡信息資源的搜集與整合[J].現(xiàn)代情報,2005,(2):82-84.
[4] 邢志宇等.實用網(wǎng)絡搜索[M].西安:西安地圖出版社,2005:155-160.