亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向主題信息采集系統(tǒng)現(xiàn)狀分析

2014-04-03 02:13:09陳立為

湖南有色金屬 2014年2期

關(guān)鍵詞：采集器頁面信息

陳立為

（民航湖南空管分局，湖南長沙 410007）

面向主題信息采集系統(tǒng)現(xiàn)狀分析

陳立為

（民航湖南空管分局，湖南長沙 410007）

對面向主題的信息采集系統(tǒng)進(jìn)行了分析與研究，主要探討了面向主題信息采集系統(tǒng)的應(yīng)用背景、技術(shù)手段、實(shí)踐意義和具有的優(yōu)勢及面向主題信息采集系統(tǒng)的研究現(xiàn)狀和國外該類系統(tǒng)的一些實(shí)際應(yīng)用情況。這些分析研究工作將對今后的面向主題信息采集系統(tǒng)的實(shí)際應(yīng)用打下基礎(chǔ)。

信息采集；面向主題；現(xiàn)狀分析

近年來，互聯(lián)網(wǎng)上的信息爆炸式增長?；ヂ?lián)網(wǎng)的飛速發(fā)展，已經(jīng)成為人們最重要、快捷的信息發(fā)布和獲取平臺(tái)。然而，互聯(lián)網(wǎng)信息的急速膨脹，在給人們提供豐富信息的同時(shí)，又給人們對信息的有效使用帶來了諸多困難?；谶@樣的背景，如何從海量web信息中迅速、準(zhǔn)確獲取有價(jià)值信息，已經(jīng)成為一個(gè)亟待解決的問題，對互聯(lián)網(wǎng)信息的采集處理工作也日益成為人們關(guān)注的焦點(diǎn)。

1 面向主題信息采集系統(tǒng)的應(yīng)用背景和實(shí)踐意義

傳統(tǒng)互聯(lián)網(wǎng)信息采集的目標(biāo)就是盡可能多地采集信息頁面，甚至是整個(gè)互聯(lián)網(wǎng)上的資源，而在這一過程中它并不是太在意采集的順序和被采集的頁面的主題是什么。這樣做的一個(gè)極大好處是能夠集中精力在采集的速度和數(shù)量上，并且實(shí)現(xiàn)起來也相對簡單，然而有實(shí)驗(yàn)表明，即使大型的信息采集系統(tǒng)，它對互聯(lián)網(wǎng)的覆蓋率也只有30%～40%［1］。

互聯(lián)網(wǎng)信息的分散存儲(chǔ)管理和動(dòng)態(tài)變化也是困擾著信息采集的問題之一。由于信息源隨時(shí)可能處于變化之中，信息采集器必須時(shí)常刷新數(shù)據(jù)，但是仍然無法避免采集到的頁面出現(xiàn)失效的情況。對于傳統(tǒng)信息采集系統(tǒng)來說，待刷新頁面數(shù)量的巨大使得很多采集系統(tǒng)刷新一遍需要數(shù)周到一個(gè)月的時(shí)間，這樣長的刷新時(shí)間使得頁面的失效率非常巨大［2，3］。

另外，面向整個(gè)互聯(lián)網(wǎng)的信息采集需要采集的頁面數(shù)量非常浩大，這也將占用非常多的系統(tǒng)資源和網(wǎng)絡(luò)資源。然而這些信息頁面往往集中在一個(gè)主題或幾個(gè)主題內(nèi)，而采集器的大部分頁面對用戶來說是沒有用的。所以即使許多用戶合起來使用的效率可以提高整個(gè)采集到的頁面的利用率，但仍然顯得利用率偏低，這顯然是是對系統(tǒng)資源和網(wǎng)絡(luò)資源的一個(gè)巨大浪費(fèi)。

2 面向主題信息采集系統(tǒng)的優(yōu)勢

與傳統(tǒng)的基于整個(gè)互聯(lián)網(wǎng)的信息采集相比，新興的面向主題的互聯(lián)網(wǎng)信息采集卻恰好解決了以上的諸多難題，它主要有以下幾個(gè)優(yōu)點(diǎn)：

1.它從很大程度上緩解了因信息采集的開放性所帶來的刷新時(shí)間過長的弊端。由于采用面向主題的信息采集策略，采集頁面數(shù)量的極大降低，頁面的刷新周期極大地變短，因此采集到的頁面失效風(fēng)險(xiǎn)也就極大地減小了。

2.它節(jié)省了資源并提高了資源的利用率。面向主題的互聯(lián)網(wǎng)信息采集因?yàn)樵诓杉^程中對URL根據(jù)需要有所剪枝。這種采集剪枝，不僅使剪枝掉的URL數(shù)目遠(yuǎn)大于被采集的URL數(shù)目，甚至差別是幾個(gè)量級的，還使得剪枝后采集到的頁面有較高的利用率。因此，這極大地節(jié)省了硬件和網(wǎng)絡(luò)等資源以及提高了資源的利用率。

3.它更靈活，更利于為用戶服務(wù)。采集的目的就是為了服務(wù)于用戶，對于每個(gè)用戶來說，他們所關(guān)注的信息只是互聯(lián)網(wǎng)中很小的一部分。面向主題的互聯(lián)網(wǎng)信息采集恰好可以滿足這些用戶的需求，而且，由于采集的頁面數(shù)量少，頁面內(nèi)容頁更有針對性，所以能夠更好地針對需要為用戶提供服務(wù)。也正是由于采集的頁面數(shù)量少，系統(tǒng)更加靈活。

4.通過各個(gè)面向主題的互聯(lián)網(wǎng)信息采集器的協(xié)同和共同努力，它可以提高整個(gè)互聯(lián)網(wǎng)的頁面采集覆蓋率。由于采集到的頁面總數(shù)少，并且對于這個(gè)主題內(nèi)的頁面挖掘能力更強(qiáng)，所以和傳統(tǒng)的面向整個(gè)互聯(lián)網(wǎng)的信息采集器相比，面向主題的信息采集器在它所采集的主題范圍內(nèi)往往能采集到更多更全面質(zhì)量更好的頁面。當(dāng)多個(gè)主題采集器按照主題分類目錄對主題頁面進(jìn)行分類采集和協(xié)同工作后，他們的采集頁面對互聯(lián)網(wǎng)的覆蓋率也就更高了。

綜上可以看出，面向主題的信息采集策略可以很好地解決影響互聯(lián)網(wǎng)信息采集效果的兩大難題，即：采集頁面的數(shù)量過于龐大和采集到頁面內(nèi)容的過于雜亂。

3 常用信息采集系統(tǒng)關(guān)鍵技術(shù)分析

3.1 網(wǎng)絡(luò)爬蟲采集技術(shù)

網(wǎng)絡(luò)爬蟲采集技術(shù)處于面向主題信息采集系統(tǒng)的應(yīng)用底層，常被稱作“網(wǎng)絡(luò)蜘蛛”，主要負(fù)責(zé)專門與具體的Web打交道。它通過各種Web協(xié)議來自動(dòng)采集互聯(lián)網(wǎng)的web站點(diǎn)內(nèi)有效的信息（包括文本、圖象、超鏈接文本、影像、聲音等資源）。網(wǎng)絡(luò)爬蟲常用到的Web協(xié)議有HTTP、FTP以及BBS，一些情況下這些網(wǎng)絡(luò)爬蟲甚至還可以根據(jù)用戶的需要采集網(wǎng)絡(luò)聊天數(shù)據(jù)、網(wǎng)絡(luò)交易信息等特殊情報(bào)。

3.2 頁面分析技術(shù)

在采集到一定數(shù)量的頁面之后，信息采集系統(tǒng)需要從這些頁面中抽取出相應(yīng)的鏈接，之后根據(jù)鏈接與主題的相關(guān)性或者相關(guān)程度來判定和過濾與主題無關(guān)的鏈接，保存與主題相關(guān)的鏈接并進(jìn)行下一步的采集；為有效對鏈接進(jìn)行主題的相關(guān)性的判斷，還需要分析出頁面鏈接中的擴(kuò)展元數(shù)據(jù)。這些工作統(tǒng)稱為頁面分析工作，它包括：提取出頁面中的正文和關(guān)鍵詞、提取頁面內(nèi)容標(biāo)題和摘要、提取鏈接和元數(shù)據(jù)、提取正文和關(guān)鍵詞等。

3.3 URL和主題的相關(guān)性判定

為了有效地提高面向主題的信息采集工作的準(zhǔn)確率和效率，系統(tǒng)需要對“待采集的URL”進(jìn)行URL與主題的相關(guān)性判定，也稱為鏈接過濾或者鏈接預(yù)測。按高預(yù)測值優(yōu)先采集、低預(yù)測值（小于設(shè)定的閾值）拋棄的原則進(jìn)行剪枝處理。這樣就能夠極大地減少采集頁面的數(shù)量，有效地提高主題信息搜索的速度和效率。

3.4 頁面和主題的相關(guān)性判定

為了進(jìn)一步提高采集頁面的準(zhǔn)確率，面向主題的信息采集系統(tǒng)還要對已采集的頁面進(jìn)行主題相關(guān)性評價(jià)，即頁面過濾。通過對評價(jià)值較低的頁面（小于設(shè)定的閾值）刪除，來提高所采集主題頁面的準(zhǔn)確率。這個(gè)問題是檢索領(lǐng)域的一個(gè)經(jīng)典問題，已經(jīng)有許多成熟的基于關(guān)鍵詞的相關(guān)性判定算法。在這個(gè)方面很多面向主題信息采集系統(tǒng)采取的方法一般為基于關(guān)鍵詞的向量空間模型算法。

3.5 數(shù)據(jù)存儲(chǔ)

現(xiàn)在世界主流的面向主題信息采集系統(tǒng)主要有三種數(shù)據(jù)庫需要存儲(chǔ)，包括主題頁面庫、全局URL隊(duì)列和中間信息記錄庫。主題頁面庫是主要用來存放采集器采集過的并經(jīng)過頁面過濾處理后的主題頁面。全局URL隊(duì)列是存放從采集到的頁面中提取出來的URL的地方，這些URL在進(jìn)入U(xiǎn)RL隊(duì)列前必須經(jīng)過URL預(yù)測處理，只有被預(yù)測為指向主題相關(guān)頁面的鏈接才能進(jìn)入全局URL隊(duì)列。在插入隊(duì)列時(shí)，也要根據(jù)URL與主題的預(yù)測相關(guān)性的大小排序，相關(guān)性越高，排序越前。為了有效的進(jìn)行URL與主題的性關(guān)性判定和頁面與主題的相關(guān)性判定流程，顯然需要許多中間處理結(jié)果，比如使用IPageR-ank算法時(shí)每個(gè)頁面所擁有的IPageRank值，所有的這些中間數(shù)據(jù)，保存在中間信息記錄庫中。

4 面向主題信息采集系統(tǒng)國外應(yīng)用研究現(xiàn)狀

面向主題信息采集系統(tǒng)受到越來越多的關(guān)注，人們對此進(jìn)行了大量的研究，國外的科研團(tuán)隊(duì)提出了許多的算法并實(shí)現(xiàn)開發(fā)了不少的系統(tǒng)［4］。

如印度理工大學(xué)（IIT）和IBM研究中心的研究人員開發(fā)了一個(gè)典型的面向主題的互聯(lián)網(wǎng)信息采集器。它的主題集是用樣本文件來描述的。為了達(dá)到采集時(shí)主題引導(dǎo)的目的，設(shè)計(jì)者設(shè)計(jì)了兩個(gè)文本挖掘的部件來指導(dǎo)采集。一個(gè)是分類器（Classifier），用來評價(jià)采集文本是否與主題相關(guān)。另一個(gè)是精煉器（Distiller），用于識(shí)別能夠在較少的鏈接內(nèi)就連接到大量相關(guān)頁面的超文本節(jié)點(diǎn)。采集系統(tǒng)首先保存一個(gè)經(jīng)典的主題分類（例如Yahoo的主題分類），并為每一個(gè)主題分類都保存若干個(gè)內(nèi)容樣本，用于詳細(xì)地刻畫這一類主題。用戶在使用本采集器搜索與主題相關(guān)的頁面時(shí)，必須在系統(tǒng)的主題分類樹中優(yōu)先選擇一個(gè)主題，用于指導(dǎo)采集。由于要選擇和剪枝，采集速度并不太快，在雙333MHz PIICPU，256內(nèi)存SCSI硬盤下，每個(gè)采集器的采樣速度為每小時(shí)6 000頁。

Aggarwal則提出了一種針對兩個(gè)假設(shè)的面向主題的互聯(lián)網(wǎng)信息采集方法。它的兩個(gè)假設(shè)是：Linkage Locality和Sibling Locality。Linkage Locality：和某一主題相關(guān)的頁面，它們鏈接到某一主題的頁面，它所鏈接到的其它頁面也趨向于擁有這個(gè)主題。依據(jù)這樣的假設(shè)，Aggarwal的系統(tǒng)在采集器接到一個(gè)主題采集請求命令后，它就從自己保存的關(guān)于這個(gè)主題的起點(diǎn)出發(fā)，按照兩個(gè)假設(shè)蔓延，并利用指向備選頁面中的URL結(jié)構(gòu)以及其它一些meta信息，使用統(tǒng)計(jì)學(xué)習(xí)的方法進(jìn)行修剪，使采集的頁面很快接近主題。

互聯(lián)網(wǎng)上的內(nèi)容80%是動(dòng)態(tài)產(chǎn)生的，并且呈增長趨勢，而這些內(nèi)容卻沒有被采集下來。美國Stanford大學(xué)的Hidden Web Exposer Project以面向主題的思想建立了一個(gè)采集這些動(dòng)態(tài)頁面的采集器。因?yàn)楹芏嚯[式頁面要通過填寫表單等人工手段才能獲取，所以這個(gè)采集器在采集之前需要人工輔助來事先填好領(lǐng)域信息，然后進(jìn)行面向主題的采集。盡管主題信息的填寫工作比較繁瑣，但同一主題的信息結(jié)構(gòu)較相似，只要用戶填寫一次基本上就實(shí)現(xiàn)了自動(dòng)采集的目標(biāo)，還是相當(dāng)方便的。

Menczer評價(jià)了三種關(guān)于面向主題采集的策略：（1）Best First Crawler（通過計(jì)算鏈接所在頁面與主題的相似度來得到采集優(yōu)先級）；（2）PageRank（通過每25頁計(jì)算一遍PageRank值來得到采集優(yōu)先級）；（3）InfoSpiders（通過鏈接周圍的文字，利用神經(jīng)網(wǎng)絡(luò)和遺傳算法來得到采集優(yōu)先級）。最后通過實(shí)驗(yàn)，作者發(fā)現(xiàn)，Best First Crawler最好，InfoSpiders次之，PageRank最差。意向被給予高度評價(jià)的PageR-ank算法之所以表現(xiàn)不佳，作者認(rèn)為是它選出的高質(zhì)量頁面時(shí)基于廣泛主題的，而對于特定主題來說頁面的質(zhì)量不是很好。

我國的主題信息采集研究也一直在進(jìn)行當(dāng)中，如已有的天羅信息采集系統(tǒng)是國家“863”計(jì)劃下由曙光公司開發(fā)的智能導(dǎo)航系統(tǒng)的子系統(tǒng)。這個(gè)采集系統(tǒng)最初的目標(biāo)是面向整個(gè)Web的信息采集，隨著互聯(lián)網(wǎng)服務(wù)向個(gè)性化主動(dòng)服務(wù)等領(lǐng)域拓展［5］，可以在不久的將來看到它的實(shí)際應(yīng)用成果。

5 結(jié) 語

面向主題的信息采集技術(shù)和系統(tǒng)，雖然都采用面向主題的思想，但在主題采集的范圍和規(guī)模上有所差別。從實(shí)際應(yīng)用來說，有的系統(tǒng)的采集工作是基于廣泛主題的，他們采集到的頁面數(shù)量就相對較多，但這些頁面與主題的平均相關(guān)度也較低。有些系統(tǒng)采用的是基于具體主題的方案，采集到的頁面數(shù)量相對較少但主題相關(guān)度較高。采集器的選擇方面也有所不同，有的系統(tǒng)使用的是基于元搜索的引擎，它采集頁面的范圍較窄，但減少了獨(dú)立采集的時(shí)間，可以顯著提高網(wǎng)絡(luò)和硬件資源的使用效率。有的則采用基于主題爬蟲的采集方法，這樣的系統(tǒng)雖然采集更新的時(shí)間可能較長，但依然具有采集范圍廣的優(yōu)勢。

不論這些算法技術(shù)和系統(tǒng)是采用何種的具體實(shí)現(xiàn)策略，面對一直處于不斷膨脹的網(wǎng)絡(luò)信息世界，面向主題的信息采集概念實(shí)實(shí)在在地化解了用戶信息需求的特定性與網(wǎng)絡(luò)資源龐大無序性之間的巨大矛盾，因此面向主題的信息采集系統(tǒng)才會(huì)從它剛被提出就一直受到人們廣泛和持續(xù)的關(guān)注。雖然今天如Googole和Baidu那樣的面向整個(gè)互聯(lián)網(wǎng)的信息采集系統(tǒng)仍然大行其道，但是可以肯定，在不遠(yuǎn)的將來面向主題的信息采集系統(tǒng)必將以更大的角度進(jìn)入網(wǎng)絡(luò)用戶的日常生活，并極大地改善互聯(lián)網(wǎng)信息知識(shí)的獲取途徑和方式。

［1］ S.Lawrence，C.L.Giles.Searching the world wide web［J］.Science，1998，280：98－100.

［2］ C.Aggarwal，F(xiàn).Al－Garawi，P.Yu.Intelligent crawling on theworld wide webwith arbitrary predicates［R］.Hong Kong：The10th InternationalWWW Conference，2001.

［3］ S.Brin，L.Page.The anatomy of a large-scale hypertextual web search engine［R］.Brisbane，Australia：The 7th International WWW Conference，1998.

［4］李盛韜.基于主題的Web信息采集技術(shù)研究［D］.北京：中國科學(xué)院，2007.

［5］唐箐，張前，陳泓婕，等.基于Web的文本挖掘［J］.計(jì)算機(jī)工程與應(yīng)用，2002，38（21）：198－201.

Analysis and Study of the Theme－based Information Collect System

CHEN Li-wei
（Hunan Air Trafic Control Center，Changsha 410007，China）

This paper analyzes and studies the theme－based information collect system，mainly discussed the theme－based information collect system application background and practical significance，and the advantage of the theme－based information collect system.It also discussed the research status and the application state both at home and abroad.This research will give basic ideas to the later actual application and development.

information collection；theme-based；current situation

F272.7－39

：A

：1003－5540（2014）02－0077－04

2014－03－03

陳立為（1987－），男，助理工程師，主要從事民航空管通信數(shù)據(jù)鏈及網(wǎng)絡(luò)維護(hù)工作。