一、隱蔽網(wǎng)絡(luò) 成因復(fù)雜
隱蔽網(wǎng)絡(luò)又稱“深網(wǎng)”或“隱形網(wǎng)絡(luò)”。美國互聯(lián)網(wǎng)專家、圖書館員Chri Sherman和Price將其定義為:“在互聯(lián)網(wǎng)上可獲得的,但常規(guī)搜索引擎由于技術(shù)限制,不能或經(jīng)過慎重考慮后不愿意作索引的那些網(wǎng)頁、文件,或其他高質(zhì)量、權(quán)威的信息?!彼轻槍Ρ韺泳W(wǎng)絡(luò),即常規(guī)搜索引擎能夠檢索到的網(wǎng)絡(luò)資源提出來的。隱蔽網(wǎng)絡(luò)的形成原因復(fù)雜,既有技術(shù)方面的原因(如搜索引擎無法索引動態(tài)網(wǎng)頁、無法訪問網(wǎng)絡(luò)數(shù)據(jù)庫和注冊站點),又有非技術(shù)原因(如知識產(chǎn)權(quán)保護的負(fù)面影響、搜索引擎的成本限制等)。這些因素造成了隱蔽網(wǎng)絡(luò)資源的多樣性,包括網(wǎng)絡(luò)數(shù)據(jù)庫、檔案資料、聯(lián)機書目、交互式工具,如計算器、字典以及實時信息等。
二、隱蔽網(wǎng)絡(luò) 類型稀罕
按照隱蔽網(wǎng)絡(luò)形成原因可以分為不透明網(wǎng)、專有網(wǎng)、私人網(wǎng)和真正的隱蔽網(wǎng)。
第一,不透明網(wǎng)??傮w來說,搜索引擎可以索引,但沒有索引的網(wǎng)頁就是不透明網(wǎng)頁,具體包括spider爬行以外的網(wǎng)頁、鏈接中斷的網(wǎng)頁以及未被鏈接的網(wǎng)頁,因為搜索引擎的搜索范圍是受到一定限制的,這就使常規(guī)搜索引擎無法索引互聯(lián)網(wǎng)上的所有信息,并且有的網(wǎng)頁也沒有接受任何其他網(wǎng)頁的鏈接,搜索引擎無法將其索引,這些網(wǎng)頁就構(gòu)成了不透明網(wǎng)頁。
第二,專有網(wǎng)。現(xiàn)在互聯(lián)網(wǎng)上有大量的網(wǎng)頁需要用戶注冊,再輸入用戶名和密碼才能瀏覽、使用其中的資源。有些網(wǎng)頁更是需要用戶有會員權(quán)限才能訪問,機械式的搜索引擎無法完成輸入用戶名和密碼的操作,當(dāng)然也就無法索引,專有網(wǎng)頁就不可避免地形成了。
第三,私人網(wǎng)。為保護商業(yè)秘密或者個人隱私,有些網(wǎng)頁主人不愿意他們的網(wǎng)頁被搜索引擎索引,他們對網(wǎng)頁加入口令保護或者禁止索引的網(wǎng)站標(biāo)記,因此這些網(wǎng)頁對spider來說也是看不見的,于是形成了大量的私人網(wǎng)頁。
第四,真正的隱蔽網(wǎng)。真正的隱蔽網(wǎng)是隱蔽網(wǎng)絡(luò)的主要組成部分。有三種類型:一是文件格式為PDF、Postscript、ShockWave、Flash、執(zhí)行文件(程序)、壓縮文件、Office文檔(Word、Excel、Powerpoint)等文件格式難以被索引,主要是搜索引擎不愿索引該類文件。二是動態(tài)產(chǎn)生的網(wǎng)頁和實時信息。除了回答搜索提問時自動產(chǎn)生的動態(tài)網(wǎng)頁外,還有實時信息服務(wù)所產(chǎn)生的信息,如不斷更新的新聞、財政信息、天氣信息等。實時信息發(fā)送完畢后,雖然它仍存在,但用戶無法通過常規(guī)手段將其召回(除非在開始發(fā)送時將其存儲到磁盤上)。為了避免網(wǎng)絡(luò)蜘蛛陷阱,搜索引擎通常不去搜索動態(tài)網(wǎng)頁。對于新產(chǎn)生的網(wǎng)頁,spider要在一定的時間之后才能找到它們。三是數(shù)據(jù)庫。數(shù)據(jù)庫在設(shè)計、數(shù)據(jù)結(jié)構(gòu)、檢索工具等方面不盡相同,因為spider不懂?dāng)?shù)據(jù)結(jié)構(gòu)語言,無法獲得數(shù)據(jù)庫中的信息。數(shù)據(jù)庫中的信息是隱蔽網(wǎng)絡(luò)的核心。到目前為止,大部分搜索引擎能夠收集索引的還是HTML等語言編寫的常規(guī)網(wǎng)頁,再就是以數(shù)據(jù)庫為后臺的動態(tài)網(wǎng)頁了。spider一方面不敢陷進無休止的圈子,更主要的是它不能填寫查詢表單,自然也爬不進數(shù)據(jù)庫。
三、隱蔽網(wǎng)絡(luò) 挖掘?qū)I?br/>
互聯(lián)網(wǎng)上的信息早已處于“信息泛濫”、“信息爆炸”的狀態(tài),為什么還重視隱蔽網(wǎng)絡(luò)的開發(fā)? BrightPlanet公司于2000年對隱蔽網(wǎng)絡(luò)所作的一項研究顯示:隱蔽網(wǎng)絡(luò)中的公共信息是表層網(wǎng)的400~550倍;隱蔽網(wǎng)絡(luò)的容量有7500TB,而表層網(wǎng)只有19TB;隱蔽網(wǎng)絡(luò)有近5500億個獨立文件,而表層網(wǎng)只有10億;目前存在的隱蔽網(wǎng)絡(luò)網(wǎng)站已經(jīng)突破20萬個;60個最大的隱蔽網(wǎng)絡(luò)網(wǎng)站共包含750TB的信息,比表層網(wǎng)信息的40倍還多;隱蔽網(wǎng)絡(luò)的月流量通常比表層網(wǎng)要多出50%,并且更容易被鏈接;在內(nèi)容上,隱蔽網(wǎng)絡(luò)網(wǎng)站比表層網(wǎng)站要更專、更深;隱蔽網(wǎng)絡(luò)內(nèi)容的全部價值是表層網(wǎng)的1000~2000倍;隱蔽網(wǎng)絡(luò)的信息內(nèi)容與所有的信息需求、市場和領(lǐng)域高度相關(guān);一半以上的隱蔽網(wǎng)絡(luò)內(nèi)容存貯在專題數(shù)據(jù)庫中;95%的隱蔽網(wǎng)絡(luò)信息可以公共獲取而無需付費或訂閱。因此隱蔽網(wǎng)絡(luò)所具有信息資源不但數(shù)量巨大,而且內(nèi)容質(zhì)量好、價值高(專業(yè)性更強)。它為我們深層次地挖掘網(wǎng)絡(luò)信息資源提供了指引。
四、隱蔽網(wǎng)絡(luò) 獲取特異
隱蔽網(wǎng)絡(luò)不可見是指一般情況下用常規(guī)搜索引擎難以搜索,可以說這些網(wǎng)絡(luò)資源不可見是相對的。隨著相關(guān)學(xué)者對隱蔽網(wǎng)絡(luò)的日益重視,現(xiàn)在已經(jīng)可以通過多種策略獲取其中的資源。
第一,利用專業(yè)搜索引擎。對于隱蔽網(wǎng)絡(luò)資源中的核心內(nèi)容——網(wǎng)上可供查詢的專業(yè)數(shù)據(jù)庫中的珍貴信息資源,不能被常規(guī)引擎標(biāo)識和檢索,但使用專業(yè)的搜索界面卻可以檢索到。我們稱這些搜索界面為專業(yè)搜索引擎,例如scirus(http://www.scirus.com)、Business Research(http://business.exploritnow.com)、Science Research(http://www.scienceresearch.com/search)、LexiBot(由BrightPlant公司開發(fā)的功能強大的專業(yè)搜索軟件)、Profusion(http://www.profusion.com)等。
第二,利用常規(guī)搜索引擎。在一般情況下,存儲在數(shù)據(jù)庫中的信息可能不被常規(guī)搜索引擎所發(fā)現(xiàn),但許多由簡單的HTML頁面構(gòu)成的Web界面,則完全能夠被搜索引擎的spider搜索到。一旦spider發(fā)現(xiàn)了一個入口,就有可能用數(shù)據(jù)庫內(nèi)部提供的檢索服務(wù)技術(shù),全面涉足它里面的豐富內(nèi)容。要發(fā)現(xiàn)這個入口,難度是比較大的,這時可以在常規(guī)搜索引擎中用檢索術(shù)語。在這一方面,Google等已經(jīng)走在了前面,它們可以搜索多種格式的文檔,具體說來Google可以搜索圖片、新聞、地址簿以及pdf、ps、excel、ppt、word等格式的文檔,但是不可以搜索音頻和視頻文件。Altavista則可以搜索圖片、新聞、地址簿、音頻、視頻以及pdf格式的文檔。如在Google中輸入“關(guān)鍵詞+filetype:pdf”便可找出PDF文檔,輸入“education database”就能查到教育學(xué)方面的數(shù)據(jù)庫。
第三,使用專業(yè)搜索目錄。專業(yè)搜索目錄其實也就是主題指南,它提供的是關(guān)于網(wǎng)站地址的分類目錄。隱蔽網(wǎng)絡(luò)資源中比較豐富、權(quán)威的目錄有: Direct Search(http://www.freepint.Com/gary/direct.htm)、The Invisible Web Catalog(http://www.invisibleweb.com)、CompletePlanet(http://www. completeplanet.com)、北大天網(wǎng)(http://e.pku.edu.cn)等。
第四,發(fā)揮人工智力網(wǎng)絡(luò)的功能。互聯(lián)網(wǎng)用戶中有一群人,他們通過特殊的“早期預(yù)報系統(tǒng)”來告示新的隱蔽信息。他們在網(wǎng)上參加談?wù)摍谀?,第一個發(fā)布有趣的或有用的新站點的消息,以便與同行們共享。由他們所構(gòu)成的人工信息網(wǎng),為隱蔽信息的查找提供了入口。這種檢索策略有點像淘金,需要始終保持高度的注意力,不斷發(fā)掘新資源。目前,一般網(wǎng)上沒有關(guān)于隱蔽Web的精華站點,但可以使用一些主題列表,如Directory of Schoolarly and Professional E-Conferences(http://www. n2h2. com/kovas),其最新版允許關(guān)鍵詞查詢和瀏覽查詢;Topica(http://www.topica.com)提供一系列服務(wù),并且提供了預(yù)訂指南和管理工具。同時,一些由圖書館管理員主導(dǎo)的討論區(qū)對于發(fā)現(xiàn)隱蔽信息也很有幫助,如Govdoc-L(Goverment Documents)、Buslib(Bussiness Librarianship)、Newslib(News and Media Librarianship)等。另外,還有一些較好的討論列表。如CARR-L(Computer Assisted Reporting)是一系列以萬維網(wǎng)和隱蔽Web作為研究的基礎(chǔ)資源的報告,其中常包含有新資源的討論,對于隱蔽信息的查找十分有用。
參考文獻
[1]孔為民.超越Google的大學(xué)圖書館無形網(wǎng)站.現(xiàn)代情報[J].2005(5).
[2]喬曉東、王立雙.如何理解看不見的網(wǎng)站.?dāng)?shù)字圖書館論壇[J].2005(6).
[3]劉宏軍、李勝.信息導(dǎo)航系統(tǒng)中隱蔽網(wǎng)絡(luò)資源的采集與整合[J].現(xiàn)代情報,2007(4).
[4]張蕾.隱蔽網(wǎng)絡(luò)資源的檢索工具.中國信息導(dǎo)報[J].2006(12).
[5]http://www.invisibleweb.com.
[6]http://www.completeplanet.com.