張 力
(浙江師范大學圖書館,浙江 金華 321004)
〔作者信息〕張力,男,館員。
擁有豐富表現(xiàn)力的Web信息充斥著Internet,作為互聯(lián)網(wǎng)絡最重要的信息發(fā)布方式,Web信息在急速膨脹。充分、有效地利用網(wǎng)絡信息是艱難的。一方面Web信息量巨大,另一方面Web信息的動態(tài)性、多構性、廣域性也嚴重阻礙了人們對Web信息的管理和使用。為了迎接海量網(wǎng)絡信息給人們提出的巨大挑戰(zhàn),深化網(wǎng)絡信息服務,提高信息利用率,Web信息采集技術成為不斷發(fā)展創(chuàng)新的研究內容。
由于量大面廣,Web信息采集通常利用計算機軟件實現(xiàn) ,例如 spiders、robots、wanderers等。它是依據(jù)某個標準或方法,對互聯(lián)網(wǎng)絡的Web信息進行收集,在此基礎上進行分析處理的過程〔1〕。其最終目的是將分析結果應用到具體理論研究領域或解決實際操作中的問題。
1993年,第一個網(wǎng)絡搜索工具誕生,名稱為“World Wide Web Wanderer”。此款軟件只能收集靜態(tài)網(wǎng)頁,擁有簡單的索引功能。同年,Yahoo的鼻祖AliWeb出現(xiàn),它初步具有對網(wǎng)頁主題、URL、關鍵詞等索引的功能。1994年1月,Einet Galaxy開展了MCC研究,此項研究主要是通過手工管理他人所提交的URL地址并初步開發(fā)出了針對Telnet和Gopher的檢索功能〔2〕。1994年早期,Web信息在采集過程中的信息處理較為簡單,首先是采集范圍較小,其次只是對信息資源進行局部內容索引。1995年后期,Digital Equipment Corporation對采集的Web信息進行全文索引,推出AltaVista搜索引擎。1998年Google誕生,最初采用的是Pagerank信息采集處理技術,到2003年,Google以平均每月更新一次的方式,采集全球50%以上的Web信息,并引入語義處理技術處理采集的Web信息。與此同時,隨著半結構化數(shù)據(jù)庫的發(fā)展、機器學習和自然語言處理等技術的發(fā)展,對Web信息進行簡單采集和索引的方式已不能滿足需要,基于元數(shù)據(jù)的Metacrawlers信息采集〔3〕(1995 年元搜索引擎出現(xiàn))、基于Ontology的Web信息采集技術〔4〕、基于Multi_A-gent的Web信息采集技術〔5〕等進入人們視野,拓展了信息采集思路,開創(chuàng)了Web信息采集技術的新領域。
Web信息采集流程是基于用戶需求,按照需要采集的內容及其對應的采集規(guī)則,采集符合條件的Web站點有效數(shù)據(jù)項和相關媒體信息附件。這僅僅是采集工作的一部分,后期還要完成對所采集的Web信息進行解構、分析、分類、索引等處理工作。就目前流行的工作模型而言,大體可以分成單進程/多線程并行模型、異步/同步模型、分布式模型等,具體案例如下:
Google Crawler采用的是分布式、單進程、異步I/O工作模式,它沒有采用并行工作模式。GOOGLE首先通過HASH函數(shù)計算目標服務器的IP地址,保證來自同一站點的 URL被分配到同一個采集器中。分布式存在的多個采集器共同維護著需要采集URL隊列,當采集器通過異步方式打開300個URL時,每個URL都來自不同的站點服務器〔6〕。這種工作模式執(zhí)行的重點是尋找DNS,由此避免目標站點服務器由于網(wǎng)速過慢而導致的低效率和對目標站點服務器所產生的高負載狀況。
Mercator Crawler采用的則是多線程并行、同步I/O工作模式,每個線程分配一個獨立的協(xié)議模型和不同的處理模塊,保證在進行下載過程中不會發(fā)生擁堵〔7〕。此工作模型在最大程度上簡化了程序構架,線程間的切換工作交給操作系統(tǒng)來控制,較好地保持了內存使用和性能優(yōu)化之間的平衡。
Web信息采集對象分類有多種標準和形式,以采集的信息廣度為依據(jù),對Web信息采集對象做以下劃分:
定題采集是以用戶規(guī)定的信息主題內容為依據(jù),按照對應算法處理,在網(wǎng)絡上搜索相關Web信息,進而向用戶提供個性化服務,它是第三代搜索引擎的發(fā)展方向之一。此處所提到的主題,并不局限于用戶所指定的關鍵詞,它也可能是某些代表性文本〔8〕。
定題采集提高了資源利用率,節(jié)約了采集費用,有利于為用戶提供個性化服務,內容更具有針對性,更能夠準確地滿足用戶需求。
定域采集強調的是地理區(qū)間,較定題采集范圍小,信息分類則更寬泛。定域采集通常在法律法規(guī)的框架范圍內,用于對某區(qū)域的特色信息進行歸檔,形成一種文化財產,并進行保護、保存和后期開發(fā)利用。
定點采集是根據(jù)某個限定準則,指定信息來源并從中挑選出若干具有特色的站點(如門戶網(wǎng)站、專題報導等),進行Web信息采集。定點采集適用范圍較小,通常出于保存易逝信息和達到一定評估標準的網(wǎng)站信息。
網(wǎng)絡信息采集工作是一項長期而又艱巨的任務,有效、穩(wěn)定地完成任務需要配套的算法來支撐。根據(jù)算法的特點,我們將Web信息采集技術算法分為三大類。
Web信息資源時刻處于變化之中,采集系統(tǒng)必須知道如何遍歷整個網(wǎng)絡,何時重新訪問某些網(wǎng)頁,以及用何種頻率訪問以保證采集的信息更新穎、更全面。除此之外,網(wǎng)絡環(huán)境、鏈接層次、硬件讀寫等也是采集系統(tǒng)必須考慮的因素,而這些都是效率型算法所需要解決的問題。Breadthfirst、Depth-first、Hash algorithm、Network proximity algorithm 、shark search algorithm 、fish-worm algorithm等都屬于此類算法。
挖掘是從Web信息中發(fā)現(xiàn)新的有效、有信、可行信息的過程。它可以派生出Web信息中存在的模式和趨勢,而這些是通常數(shù)據(jù)處理過程中所無法實現(xiàn)的。挖掘型采集算法被廣泛應用到主題采集案例〔9〕〔10〕和 Web 頁之間的關聯(lián)強度〔11〕〔12〕評估方面,挖掘算法主要有Apriori算法和FPGrowth算法等。
機器學習概念來自于人工智能,它指的是軟件模擬或實現(xiàn)人類的學習能力,通過獲取外部信息,籍以重新組織自己原有的知識結構,達到改善自身性能的目的。
機器學習可以通過 Metadata〔13〕、Topic-specific〔14〕、Ontology〔15〕等為媒介 ,引入遺傳算法和神經(jīng)網(wǎng)絡等智能計算方法,以前期采集經(jīng)驗為基礎,不斷自我優(yōu)化、自我適應新的網(wǎng)絡環(huán)境,從而得到一個優(yōu)化后的采集結果。
網(wǎng)絡信息呈指數(shù)增長的同時,其消失的速度也同樣令人吃驚。在消逝的Web信息中,很有可能就包含著人類珍貴的“數(shù)字遺產”。為了能夠長期保存人類知識和文化,世界各國已經(jīng)在不懈努力地收集保存那些具有保存價值的網(wǎng)絡信息資源。如果能夠設計配套的采集策略,針對具體目標,實施對應的采集技術,無疑對數(shù)字遺產的保護起著舉足輕重的作用。
Web信息采集伴隨著網(wǎng)絡信息的檢索需求而出現(xiàn)。第一代搜索引擎提高了人類定位所需網(wǎng)絡資源的能力,1995年出現(xiàn)的Lycos搜索引擎在前人基礎上提出了更多服務概念。1998年誕生的Google屬于第二代搜索引擎,其特征是引入了人工智能計算。第三代搜索引擎特色是使沒有使用H TML格式的信息也能被檢索到,而這些則對Web Crawler工作提出了更高的要求。
挖掘技術可以從海量信息中發(fā)現(xiàn)常規(guī)方法下無法看到的信息模式和發(fā)展趨勢,這是目前信息利用層次的發(fā)展方向之一。而無論是信息挖掘還是信息檢索,都是建立在明確的評估體系下,基于某種標準對所采集的信息予以篩選或突出顯示,較為有名的是Google所采納的Page Rank算法、hub-and-authority method〔16〕、美國 OAIS 系統(tǒng)中的信息評價體系、美國俄亥俄州公共圖書館信息采集指標。
Web信息采集是網(wǎng)絡信息研究工作的起點,它解決的問題包括信息采集的全面性、準確性,新信息的及時發(fā)現(xiàn),信息主題關聯(lián),信息評價等。它的進步,不僅為網(wǎng)絡用戶信息共享、信息交互等方面奠定基礎,還深化了網(wǎng)絡信息的利用層次,提高了網(wǎng)絡信息服務質量,促進了搜索引擎的進一步發(fā)展。
〔1〕COTHEY,V.Web-Crawling Reliability〔J〕 .Journal of the American Society for Information Science and Technology,2004,55(14):1228-1238
〔2〕Http ://www.galaxy.com.〔2010-04-25〕
〔3〕Chen,HC;Fan,HY;Chau,M,MetaSpider:Metasearching and categorization on the Web〔J〕.Journal Of The American Society For Information Science And Technology.2001,52:1134-1147
〔4〕Sheng-Yuan Yang.OntoPortal:An ontology-supported portal architecture with linguistically enhanced and focused crawler technologies〔J〕.Expert Systems with Applications,2009,Vol 36:10148-10157
〔5〕XU Zhaocai,C Xianyi.Focused Crawling Algorithm Based on Multi-agent System〔J〕.Computer Engineering,2008,Vol 34:204-206
〔6〕S Brin,L Page.The anatomy of a large-scale hypertextual Web search engine〔J〕 .Computer networks and ISDN systems.1998,Vol 30:107-117
〔7〕A Heydon,M Najork.Mercator:A scalable,extensible Web crawler〔J〕.World Wide Web,1999,2(4):219-229
〔8〕 S Chakrabarti,M Van den Berg,B Dom.Focused crawling:a new approach to topic-specific Web resource discovery〔J〕.Computer Networks,1999,Vol 31:1623-1640
〔9〕 Gautam Pant,Padmini Srinivasan.Topic-driven crawlers Machine learning issues〔 J〕 .ACM Trans.on Internet Technology.2002
〔10〕Yuefeng Li,Ning Zhong.Web mining model and its applications for information gathering〔J〕.Knowledge-Based Systems,2004,Vol 17:207-217
〔11〕Neel Sundaresan,Jeonghee Yi.Mining the Web for relations〔J〕.Computer Networks,2000,Vol 33:699-711
〔12〕Soumen Chakrabarti.Data mining for hypertext:A tutorial survey〔J〕 .ACM SIGKDD Explorations Newsletter,2000,Vol 1:1-11
〔13〕Siegfried Handschuh,Steffen Staab,Fabio Ciravegna.S-CREAM Semi-automatic CREAtion of Metadata〔J〕.Knowledge Engineering and Knowledge Management:Ontologies and the Semantic Web,2002:165-184
〔14〕 Rungsawang,Angkawattanawit.Learnable topicspecific Web crawler〔J〕 .Journal of Network and Computer Applications,2005,Vol 28:97-114
〔15〕Hai-Tao Zheng,Bo-Yeong Kang,Hong-Gee Kim An ontology-based approach to learnable focused crawling〔J〕 .Information Sciences,2008,Vol 178 :4512-4522
〔16〕 J.Kleinberg.Authoritative sources in a hyperlinked environment〔 J〕 .Journal of the ACM,1999,Vol 46 :604-632