亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        隱蔽網(wǎng)絡(luò)資源探析

        2008-12-29 00:00:00
        中小學(xué)信息技術(shù)教育 2008年12期


          一、隱蔽網(wǎng)絡(luò) 成因復(fù)雜
          
          隱蔽網(wǎng)絡(luò)又稱“深網(wǎng)”或“隱形網(wǎng)絡(luò)”。美國互聯(lián)網(wǎng)專家、圖書館員Chri Sherman和Price將其定義為:“在互聯(lián)網(wǎng)上可獲得的,但常規(guī)搜索引擎由于技術(shù)限制,不能或經(jīng)過慎重考慮后不愿意作索引的那些網(wǎng)頁、文件,或其他高質(zhì)量、權(quán)威的信息?!彼轻槍Ρ韺泳W(wǎng)絡(luò),即常規(guī)搜索引擎能夠檢索到的網(wǎng)絡(luò)資源提出來的。隱蔽網(wǎng)絡(luò)的形成原因復(fù)雜,既有技術(shù)方面的原因(如搜索引擎無法索引動態(tài)網(wǎng)頁、無法訪問網(wǎng)絡(luò)數(shù)據(jù)庫和注冊站點),又有非技術(shù)原因(如知識產(chǎn)權(quán)保護的負(fù)面影響、搜索引擎的成本限制等)。這些因素造成了隱蔽網(wǎng)絡(luò)資源的多樣性,包括網(wǎng)絡(luò)數(shù)據(jù)庫、檔案資料、聯(lián)機書目、交互式工具,如計算器、字典以及實時信息等。
          
          二、隱蔽網(wǎng)絡(luò) 類型稀罕
          
          按照隱蔽網(wǎng)絡(luò)形成原因可以分為不透明網(wǎng)、專有網(wǎng)、私人網(wǎng)和真正的隱蔽網(wǎng)。
          第一,不透明網(wǎng)??傮w來說,搜索引擎可以索引,但沒有索引的網(wǎng)頁就是不透明網(wǎng)頁,具體包括spider爬行以外的網(wǎng)頁、鏈接中斷的網(wǎng)頁以及未被鏈接的網(wǎng)頁,因為搜索引擎的搜索范圍是受到一定限制的,這就使常規(guī)搜索引擎無法索引互聯(lián)網(wǎng)上的所有信息,并且有的網(wǎng)頁也沒有接受任何其他網(wǎng)頁的鏈接,搜索引擎無法將其索引,這些網(wǎng)頁就構(gòu)成了不透明網(wǎng)頁。
          第二,專有網(wǎng)。現(xiàn)在互聯(lián)網(wǎng)上有大量的網(wǎng)頁需要用戶注冊,再輸入用戶名和密碼才能瀏覽、使用其中的資源。有些網(wǎng)頁更是需要用戶有會員權(quán)限才能訪問,機械式的搜索引擎無法完成輸入用戶名和密碼的操作,當(dāng)然也就無法索引,專有網(wǎng)頁就不可避免地形成了。
          第三,私人網(wǎng)。為保護商業(yè)秘密或者個人隱私,有些網(wǎng)頁主人不愿意他們的網(wǎng)頁被搜索引擎索引,他們對網(wǎng)頁加入口令保護或者禁止索引的網(wǎng)站標(biāo)記,因此這些網(wǎng)頁對spider來說也是看不見的,于是形成了大量的私人網(wǎng)頁。
          第四,真正的隱蔽網(wǎng)。真正的隱蔽網(wǎng)是隱蔽網(wǎng)絡(luò)的主要組成部分。有三種類型:一是文件格式為PDF、Postscript、ShockWave、Flash、執(zhí)行文件(程序)、壓縮文件、Office文檔(Word、Excel、Powerpoint)等文件格式難以被索引,主要是搜索引擎不愿索引該類文件。二是動態(tài)產(chǎn)生的網(wǎng)頁和實時信息。除了回答搜索提問時自動產(chǎn)生的動態(tài)網(wǎng)頁外,還有實時信息服務(wù)所產(chǎn)生的信息,如不斷更新的新聞、財政信息、天氣信息等。實時信息發(fā)送完畢后,雖然它仍存在,但用戶無法通過常規(guī)手段將其召回(除非在開始發(fā)送時將其存儲到磁盤上)。為了避免網(wǎng)絡(luò)蜘蛛陷阱,搜索引擎通常不去搜索動態(tài)網(wǎng)頁。對于新產(chǎn)生的網(wǎng)頁,spider要在一定的時間之后才能找到它們。三是數(shù)據(jù)庫。數(shù)據(jù)庫在設(shè)計、數(shù)據(jù)結(jié)構(gòu)、檢索工具等方面不盡相同,因為spider不懂?dāng)?shù)據(jù)結(jié)構(gòu)語言,無法獲得數(shù)據(jù)庫中的信息。數(shù)據(jù)庫中的信息是隱蔽網(wǎng)絡(luò)的核心。到目前為止,大部分搜索引擎能夠收集索引的還是HTML等語言編寫的常規(guī)網(wǎng)頁,再就是以數(shù)據(jù)庫為后臺的動態(tài)網(wǎng)頁了。spider一方面不敢陷進無休止的圈子,更主要的是它不能填寫查詢表單,自然也爬不進數(shù)據(jù)庫。
          
          三、隱蔽網(wǎng)絡(luò) 挖掘?qū)I?br/>  
          互聯(lián)網(wǎng)上的信息早已處于“信息泛濫”、“信息爆炸”的狀態(tài),為什么還重視隱蔽網(wǎng)絡(luò)的開發(fā)? BrightPlanet公司于2000年對隱蔽網(wǎng)絡(luò)所作的一項研究顯示:隱蔽網(wǎng)絡(luò)中的公共信息是表層網(wǎng)的400~550倍;隱蔽網(wǎng)絡(luò)的容量有7500TB,而表層網(wǎng)只有19TB;隱蔽網(wǎng)絡(luò)有近5500億個獨立文件,而表層網(wǎng)只有10億;目前存在的隱蔽網(wǎng)絡(luò)網(wǎng)站已經(jīng)突破20萬個;60個最大的隱蔽網(wǎng)絡(luò)網(wǎng)站共包含750TB的信息,比表層網(wǎng)信息的40倍還多;隱蔽網(wǎng)絡(luò)的月流量通常比表層網(wǎng)要多出50%,并且更容易被鏈接;在內(nèi)容上,隱蔽網(wǎng)絡(luò)網(wǎng)站比表層網(wǎng)站要更專、更深;隱蔽網(wǎng)絡(luò)內(nèi)容的全部價值是表層網(wǎng)的1000~2000倍;隱蔽網(wǎng)絡(luò)的信息內(nèi)容與所有的信息需求、市場和領(lǐng)域高度相關(guān);一半以上的隱蔽網(wǎng)絡(luò)內(nèi)容存貯在專題數(shù)據(jù)庫中;95%的隱蔽網(wǎng)絡(luò)信息可以公共獲取而無需付費或訂閱。因此隱蔽網(wǎng)絡(luò)所具有信息資源不但數(shù)量巨大,而且內(nèi)容質(zhì)量好、價值高(專業(yè)性更強)。它為我們深層次地挖掘網(wǎng)絡(luò)信息資源提供了指引。
          四、隱蔽網(wǎng)絡(luò) 獲取特異
          隱蔽網(wǎng)絡(luò)不可見是指一般情況下用常規(guī)搜索引擎難以搜索,可以說這些網(wǎng)絡(luò)資源不可見是相對的。隨著相關(guān)學(xué)者對隱蔽網(wǎng)絡(luò)的日益重視,現(xiàn)在已經(jīng)可以通過多種策略獲取其中的資源。
          第一,利用專業(yè)搜索引擎。對于隱蔽網(wǎng)絡(luò)資源中的核心內(nèi)容——網(wǎng)上可供查詢的專業(yè)數(shù)據(jù)庫中的珍貴信息資源,不能被常規(guī)引擎標(biāo)識和檢索,但使用專業(yè)的搜索界面卻可以檢索到。我們稱這些搜索界面為專業(yè)搜索引擎,例如scirus(http://www.scirus.com)、Business Research(http://business.exploritnow.com)、Science Research(http://www.scienceresearch.com/search)、LexiBot(由BrightPlant公司開發(fā)的功能強大的專業(yè)搜索軟件)、Profusion(http://www.profusion.com)等。
          第二,利用常規(guī)搜索引擎。在一般情況下,存儲在數(shù)據(jù)庫中的信息可能不被常規(guī)搜索引擎所發(fā)現(xiàn),但許多由簡單的HTML頁面構(gòu)成的Web界面,則完全能夠被搜索引擎的spider搜索到。一旦spider發(fā)現(xiàn)了一個入口,就有可能用數(shù)據(jù)庫內(nèi)部提供的檢索服務(wù)技術(shù),全面涉足它里面的豐富內(nèi)容。要發(fā)現(xiàn)這個入口,難度是比較大的,這時可以在常規(guī)搜索引擎中用檢索術(shù)語。在這一方面,Google等已經(jīng)走在了前面,它們可以搜索多種格式的文檔,具體說來Google可以搜索圖片、新聞、地址簿以及pdf、ps、excel、ppt、word等格式的文檔,但是不可以搜索音頻和視頻文件。Altavista則可以搜索圖片、新聞、地址簿、音頻、視頻以及pdf格式的文檔。如在Google中輸入“關(guān)鍵詞+filetype:pdf”便可找出PDF文檔,輸入“education database”就能查到教育學(xué)方面的數(shù)據(jù)庫。
          第三,使用專業(yè)搜索目錄。專業(yè)搜索目錄其實也就是主題指南,它提供的是關(guān)于網(wǎng)站地址的分類目錄。隱蔽網(wǎng)絡(luò)資源中比較豐富、權(quán)威的目錄有: Direct Search(http://www.freepint.Com/gary/direct.htm)、The Invisible Web Catalog(http://www.invisibleweb.com)、CompletePlanet(http://www. completeplanet.com)、北大天網(wǎng)(http://e.pku.edu.cn)等。
          第四,發(fā)揮人工智力網(wǎng)絡(luò)的功能。互聯(lián)網(wǎng)用戶中有一群人,他們通過特殊的“早期預(yù)報系統(tǒng)”來告示新的隱蔽信息。他們在網(wǎng)上參加談?wù)摍谀?,第一個發(fā)布有趣的或有用的新站點的消息,以便與同行們共享。由他們所構(gòu)成的人工信息網(wǎng),為隱蔽信息的查找提供了入口。這種檢索策略有點像淘金,需要始終保持高度的注意力,不斷發(fā)掘新資源。目前,一般網(wǎng)上沒有關(guān)于隱蔽Web的精華站點,但可以使用一些主題列表,如Directory of Schoolarly and Professional E-Conferences(http://www. n2h2. com/kovas),其最新版允許關(guān)鍵詞查詢和瀏覽查詢;Topica(http://www.topica.com)提供一系列服務(wù),并且提供了預(yù)訂指南和管理工具。同時,一些由圖書館管理員主導(dǎo)的討論區(qū)對于發(fā)現(xiàn)隱蔽信息也很有幫助,如Govdoc-L(Goverment Documents)、Buslib(Bussiness Librarianship)、Newslib(News and Media Librarianship)等。另外,還有一些較好的討論列表。如CARR-L(Computer Assisted Reporting)是一系列以萬維網(wǎng)和隱蔽Web作為研究的基礎(chǔ)資源的報告,其中常包含有新資源的討論,對于隱蔽信息的查找十分有用。
          
          參考文獻
          [1]孔為民.超越Google的大學(xué)圖書館無形網(wǎng)站.現(xiàn)代情報[J].2005(5).
          [2]喬曉東、王立雙.如何理解看不見的網(wǎng)站.?dāng)?shù)字圖書館論壇[J].2005(6).
          [3]劉宏軍、李勝.信息導(dǎo)航系統(tǒng)中隱蔽網(wǎng)絡(luò)資源的采集與整合[J].現(xiàn)代情報,2007(4).
          [4]張蕾.隱蔽網(wǎng)絡(luò)資源的檢索工具.中國信息導(dǎo)報[J].2006(12).
          [5]http://www.invisibleweb.com.
          [6]http://www.completeplanet.com.

        亚洲区日韩精品中文字幕| 337p日本欧洲亚洲大胆| 水蜜桃精品一二三| 精品伊人久久香线蕉| 国产目拍亚洲精品区一区| 日韩av一区二区不卡| 国产熟女内射oooo| 久久精品国产亚洲av成人| 最新永久免费AV网站| 中文字幕一区二区三区日日骚| 日本亲近相奷中文字幕| 国产美女自慰在线观看| 亚洲AV永久天堂在线观看| 亚洲伊人伊成久久人综合| 日韩性爱视频| 人妻在线日韩免费视频| 久热爱精品视频在线观看久爱| 精品黑人一区二区三区久久hd| 在线观看特色大片免费视频 | 乱码午夜-极国产极内射| 午夜国产精品视频免费看电影| 三级国产高清在线观看| 波多野结衣爽到高潮大喷| 精品亚洲aⅴ在线观看 | 国产亚洲一区二区毛片| 激情内射亚洲一区二区三区| 亚洲夫妻性生活免费视频 | 亚洲精品无码高潮喷水在线| 国产成年无码久久久久下载| 国产精品久色婷婷不卡| 精品国产一二三产品区别在哪 | 久久亚洲中文字幕精品一区四 | 国产三a级三级日产三级野外| 天天躁日日躁狠狠很躁| 久久频精品99香蕉国产| 少妇精品偷拍高潮少妇在线观看| а天堂8中文最新版在线官网| 丰满少妇被猛烈进入无码| 久草久热这里只有精品| 99久久精品费精品国产一区二| 国产成人无码一区二区三区在线|