亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于WEB的智能信息采集及處理系統(tǒng)的關(guān)鍵技術(shù)

2010-07-17 08:41:06譚媛媛

中國新技術(shù)新產(chǎn)品 2010年11期

譚媛媛王偉

（秦皇島廣播電視大學(xué)，河北秦皇島 066000）

1 系統(tǒng)架構(gòu)

系統(tǒng)由三個子系統(tǒng)組成，即Web信息采集子系統(tǒng)、信息智能處理子系統(tǒng)和信息發(fā)布子系統(tǒng)。三個子系統(tǒng)可以單獨(dú)部署和運(yùn)行，也可以通過接口文件實(shí)現(xiàn)整個過程的自動化采集、智能化處理和主動式發(fā)布，整體架構(gòu)如圖1所示。

1.1 系統(tǒng)整體架構(gòu)

該系統(tǒng)架構(gòu)不僅適合較大用戶的分布式部署采集、加工的需要，也可以適應(yīng)單用戶集中部署的需要。當(dāng)用戶只需要某個子系統(tǒng)時，只需對接口文件稍作配置就可以滿足不同的用戶需求。

圖1

圖2

1.2 Web信息采集子系統(tǒng)

Web采集器一般都是從稱為種子的URL出發(fā)，通過協(xié)議向Web上其它所需頁面作擴(kuò)展。經(jīng)研究表明Web上30%的頁面是重復(fù)的，當(dāng)面向特定的主題時，80%以上的URL鏈接是我們不關(guān)心的，因此在采集中如何進(jìn)行URL去重和分析適合主題特征的URL是提高采集子系統(tǒng)效率的重要因素。同時如何獲取有效的Web頁面信息，過濾廣告、導(dǎo)航欄等噪聲，將直接影響后續(xù)的智能處理的性能。該子系統(tǒng)的流程如圖2所示。

有別于通用的Web信息采集器，該子系統(tǒng)最大的特點(diǎn)在于任何用戶的主題采集都是在相應(yīng)的模版的支撐下完成。所謂模版就是關(guān)于要采集的Web對象的特征描述，為了提高下載的有效性和效率，將某一個具體的網(wǎng)站所有的Web頁面劃分為Hub頁和Topic頁，表示為一個三元組。其中M刻畫Web頁共性特征，如：網(wǎng)站名稱、網(wǎng)站URL地址、語言種類等；Hf刻畫該Web資源中的Hub頁面特征，即此類Web中哪些URL地址特征是下載時需要解析的；而Tf則是刻畫某一類具體的Topic頁特征，主要是描述用戶最感興趣的內(nèi)容的訪問路徑，如：正文標(biāo)題、作者、來源等。

為了實(shí)現(xiàn)對下載的Web資源的監(jiān)控，將最新的信息及時地推送給用戶，觸發(fā)器可以為用戶指定適合需要的采集策略，通過設(shè)定一定的間隔時間來激活下載機(jī)器人，“巡視”是否存在最新的信息。

1.3 信息智能處理子系統(tǒng)

該系統(tǒng)預(yù)先通過機(jī)器學(xué)習(xí)建立用戶感興趣的內(nèi)容分類器，當(dāng)用戶某一次下載任務(wù)完成后，發(fā)送消息激活處理子系統(tǒng)，系統(tǒng)將會自動地處理下載的內(nèi)容，主要包括自動分類、自動摘要和元數(shù)據(jù)分析，如創(chuàng)建正文標(biāo)題、關(guān)鍵字、分析作者等。系統(tǒng)流程如圖3所示。

傳統(tǒng)上的Web信息采集不具備對下載信息的深層次加工能力，而本系統(tǒng)不僅實(shí)現(xiàn)機(jī)器的自動分類、摘要和元數(shù)據(jù)分析，還提供人機(jī)交互的機(jī)制，將處理的結(jié)果以便捷預(yù)覽的方式呈現(xiàn)，用戶可以進(jìn)行修改、刪除以及確認(rèn)后入庫存儲等操作，確保發(fā)布信息的正確性和有效性。

1.4 信息發(fā)布子系統(tǒng)

近年來信息的發(fā)布形式越來越備受關(guān)注，作為對外信息服務(wù)的平臺，該子系統(tǒng)主要特點(diǎn)有：多視角、多層次發(fā)布采集信息，即從來源、原始欄目、分類體系多個視角交叉進(jìn)行展示，可以靈活的進(jìn)行信息集合的交、并運(yùn)算；個性化信息發(fā)布，用戶登錄后利用個性化信息定制界面，選擇自己感興趣的信息視角，再次登錄后，推送給用戶的就是完全個性化的信息內(nèi)容；強(qiáng)大的信息檢索能力，不僅提供針對獨(dú)立字段的檢索，還提供快速檢索、高級的表達(dá)式檢索及全文檢索。

2 若干關(guān)鍵技術(shù)

2.1 URL去重

常規(guī)的URL去重有兩種解決思路，一是將所有的URL地址存入數(shù)據(jù)庫，做好索引后，利用數(shù)據(jù)庫的查找來判斷該URL是否被重復(fù)下載；二是利用文件存儲，將URL通過一定轉(zhuǎn)換，也是建立基于文件的查找索引。這兩種方式的弊端是顯而易見的，如中文網(wǎng)頁有4億左右，假設(shè)每一個URL的平均長度為25個字符，那么存儲這些網(wǎng)頁的URL地址需要的空間為8G左右，很顯然面對如此大的文件，這種機(jī)制無法快速的進(jìn)行URL查找，因此不能保證快速的下載和去重。

在本系統(tǒng)中采用了文件目錄尋址機(jī)制來實(shí)現(xiàn)URL的快速去重。基本思想是首先將URL地址做CRC32轉(zhuǎn)換，生成一個唯一的4字節(jié)32位的編碼，如：E8CA0B3F，將4個字節(jié)組成兩級目錄和一級文件，即第一個字節(jié)的首字符作為第一級目錄名，第二、三個字符組合作為二級目錄名，第三、四個字符組合作為文件名存放在二級目錄下，每個文件的大小固定為4K，最后還剩下三個字符一共是12bit，共有4096個二進(jìn)制數(shù)，與4K的文件大小剛好一一對應(yīng)。這種機(jī)制能夠容納的總頁面數(shù)為232，大約43億個，幾乎能包括目前互聯(lián)網(wǎng)上所有URL鏈接。

圖3

2.2 HTML解析

為了提高下載頁面的有效性，需要過濾掉一些無用的噪聲信息。傳統(tǒng)上有兩種解決方案，一是頁面學(xué)習(xí)的方式提取熵值最大的頁面分塊[1]；二是通過定義訪問路徑來提取需要訪問的感興趣的內(nèi)容。無論是哪一種方案都必須有對頁面的HTML的解析能力，即構(gòu)造合適的數(shù)據(jù)結(jié)構(gòu)來解析HTML的標(biāo)簽。解析的難點(diǎn)在于目前的網(wǎng)絡(luò)Web頁面的HTML非常不規(guī)范、不嚴(yán)格，標(biāo)簽之間即使有錯誤或者不嚴(yán)格的匹配，IE也能完美的呈現(xiàn)。但是為了信息的精確提取，必須要構(gòu)造嚴(yán)密的訪問結(jié)構(gòu)。

2.3 自動摘要與元數(shù)據(jù)分析

摘要是指通過對文檔內(nèi)容處理，從中提取出滿足用戶需求的重要信息，經(jīng)過重組修飾后生成比原文更精煉的文摘過程。目前主要自動文摘技術(shù)有三類：基于淺層分析的方法、基于實(shí)體分析的方法、基于話語結(jié)構(gòu)的方法。

本系統(tǒng)采用一種新的使用自然語言處理（NLP）技術(shù)的自動摘要系統(tǒng)，通過融合基于內(nèi)容的方法[Based on Content]和基于主題(Based on Topic)的方法，將主題與內(nèi)容相結(jié)合，生成具有良好連貫性和流暢性的摘要?；舅枷胧鞘紫葘χ黝}詞進(jìn)行分析,動態(tài)地處理具有抽象標(biāo)題和具體標(biāo)題的文檔；然后采用詞匯、語法、語義分析等自然語言處理技術(shù)，對文章的文本內(nèi)容進(jìn)行深入分析；再根據(jù)線性加權(quán)融合兩種分析得到的結(jié)果，生成摘要；最后采用指代消解技術(shù)(Anaphora Resolution Technology)進(jìn)行平滑使生成的摘要更連貫流暢。

在上述摘要生成的算法中，部分元數(shù)據(jù)如對標(biāo)題的分析、作者、主題詞的提取，作為中間結(jié)果也將被輸出和保存，形成完整的符合基本文獻(xiàn)規(guī)范的元數(shù)據(jù)體系。

3 結(jié)束語

基于Web的信息采集和處理技術(shù)，在互聯(lián)網(wǎng)飛速發(fā)展的時代，將扮演者越來越重要的角色。本文設(shè)計和實(shí)施的系統(tǒng)，繼承和發(fā)展了現(xiàn)有的偏平化的信息采集策略，以“信息采集、組織處理和發(fā)布”三項(xiàng)并重為理念，使面向Web的信息采集系統(tǒng)向垂直和智能的方向推進(jìn)，也同時預(yù)示著該系統(tǒng)有廣泛的市場和應(yīng)用前景。

[1]尹存燕.戴新宇.陳家駿.Internet上文本的自動摘要技術(shù).計算機(jī)工程.Vol.32.No.3.Feb..2006.