譚媛媛 王 偉
(秦皇島廣播電視大學(xué),河北 秦皇島 066000)
系統(tǒng)由三個子系統(tǒng)組成,即Web信息采集子系統(tǒng)、信息智能處理子系統(tǒng)和信息發(fā)布子系統(tǒng)。三個子系統(tǒng)可以單獨(dú)部署和運(yùn)行,也可以通過接口文件實(shí)現(xiàn)整個過程的自動化采集、智能化處理和主動式發(fā)布,整體架構(gòu)如圖1所示。
該系統(tǒng)架構(gòu)不僅適合較大用戶的分布式部署采集、加工的需要,也可以適應(yīng)單用戶集中部署的需要。當(dāng)用戶只需要某個子系統(tǒng)時,只需對接口文件稍作配置就可以滿足不同的用戶需求。
圖1
圖2
Web采集器一般都是從稱為種子的URL出發(fā),通過協(xié)議向Web上其它所需頁面作擴(kuò)展。經(jīng)研究表明Web上30%的頁面是重復(fù)的,當(dāng)面向特定的主題時,80%以上的URL鏈接是我們不關(guān)心的,因此在采集中如何進(jìn)行URL去重和分析適合主題特征的URL是提高采集子系統(tǒng)效率的重要因素。同時如何獲取有效的Web頁面信息,過濾廣告、導(dǎo)航欄等噪聲,將直接影響后續(xù)的智能處理的性能。該子系統(tǒng)的流程如圖2所示。
有別于通用的Web信息采集器,該子系統(tǒng)最大的特點(diǎn)在于任何用戶的主題采集都是在相應(yīng)的模版的支撐下完成。所謂模版就是關(guān)于要采集的Web對象的特征描述,為了提高下載的有效性和效率,將某一個具體的網(wǎng)站所有的Web頁面劃分為Hub頁和Topic頁,表示為一個三元組
為了實(shí)現(xiàn)對下載的Web資源的監(jiān)控,將最新的信息及時地推送給用戶,觸發(fā)器可以為用戶指定適合需要的采集策略,通過設(shè)定一定的間隔時間來激活下載機(jī)器人,“巡視”是否存在最新的信息。
該系統(tǒng)預(yù)先通過機(jī)器學(xué)習(xí)建立用戶感興趣的內(nèi)容分類器,當(dāng)用戶某一次下載任務(wù)完成后,發(fā)送消息激活處理子系統(tǒng),系統(tǒng)將會自動地處理下載的內(nèi)容,主要包括自動分類、自動摘要和元數(shù)據(jù)分析,如創(chuàng)建正文標(biāo)題、關(guān)鍵字、分析作者等。系統(tǒng)流程如圖3所示。
傳統(tǒng)上的Web信息采集不具備對下載信息的深層次加工能力,而本系統(tǒng)不僅實(shí)現(xiàn)機(jī)器的自動分類、摘要和元數(shù)據(jù)分析,還提供人機(jī)交互的機(jī)制,將處理的結(jié)果以便捷預(yù)覽的方式呈現(xiàn),用戶可以進(jìn)行修改、刪除以及確認(rèn)后入庫存儲等操作,確保發(fā)布信息的正確性和有效性。
近年來信息的發(fā)布形式越來越備受關(guān)注,作為對外信息服務(wù)的平臺,該子系統(tǒng)主要特點(diǎn)有:多視角、多層次發(fā)布采集信息,即從來源、原始欄目、分類體系多個視角交叉進(jìn)行展示,可以靈活的進(jìn)行信息集合的交、并運(yùn)算;個性化信息發(fā)布,用戶登錄后利用個性化信息定制界面,選擇自己感興趣的信息視角,再次登錄后,推送給用戶的就是完全個性化的信息內(nèi)容;強(qiáng)大的信息檢索能力,不僅提供針對獨(dú)立字段的檢索,還提供快速檢索、高級的表達(dá)式檢索及全文檢索。
常規(guī)的URL去重有兩種解決思路,一是將所有的URL地址存入數(shù)據(jù)庫,做好索引后,利用數(shù)據(jù)庫的查找來判斷該URL是否被重復(fù)下載;二是利用文件存儲,將URL通過一定轉(zhuǎn)換,也是建立基于文件的查找索引。這兩種方式的弊端是顯而易見的,如中文網(wǎng)頁有4億左右,假設(shè)每一個URL的平均長度為25個字符,那么存儲這些網(wǎng)頁的URL地址需要的空間為8G左右,很顯然面對如此大的文件,這種機(jī)制無法快速的進(jìn)行URL查找,因此不能保證快速的下載和去重。
在本系統(tǒng)中采用了文件目錄尋址機(jī)制來實(shí)現(xiàn)URL的快速去重。基本思想是首先將URL地址做CRC32轉(zhuǎn)換,生成一個唯一的4字節(jié)32位的編碼,如:E8CA0B3F,將4個字節(jié)組成兩級目錄和一級文件,即第一個字節(jié)的首字符作為第一級目錄名,第二、三個字符組合作為二級目錄名,第三、四個字符組合作為文件名存放在二級目錄下,每個文件的大小固定為4K,最后還剩下三個字符一共是12bit,共有4096個二進(jìn)制數(shù),與4K的文件大小剛好一一對應(yīng)。這種機(jī)制能夠容納的總頁面數(shù)為232,大約43億個,幾乎能包括目前互聯(lián)網(wǎng)上所有URL鏈接。
圖3
為了提高下載頁面的有效性,需要過濾掉一些無用的噪聲信息。傳統(tǒng)上有兩種解決方案,一是頁面學(xué)習(xí)的方式提取熵值最大的頁面分塊[1];二是通過定義訪問路徑來提取需要訪問的感興趣的內(nèi)容。無論是哪一種方案都必須有對頁面的HTML的解析能力,即構(gòu)造合適的數(shù)據(jù)結(jié)構(gòu)來解析HTML的標(biāo)簽。解析的難點(diǎn)在于目前的網(wǎng)絡(luò)Web頁面的HTML非常不規(guī)范、不嚴(yán)格,標(biāo)簽之間即使有錯誤或者不嚴(yán)格的匹配,IE也能完美的呈現(xiàn)。但是為了信息的精確提取,必須要構(gòu)造嚴(yán)密的訪問結(jié)構(gòu)。
摘要是指通過對文檔內(nèi)容處理,從中提取出滿足用戶需求的重要信息,經(jīng)過重組修飾后生成比原文更精煉的文摘過程。目前主要自動文摘技術(shù)有三類:基于淺層分析的方法、基于實(shí)體分析的方法、基于話語結(jié)構(gòu)的方法。
本系統(tǒng)采用一種新的使用自然語言處理(NLP)技術(shù)的自動摘要系統(tǒng),通過融合基于內(nèi)容的方法[Based on Content]和基于主題(Based on Topic)的方法,將主題與內(nèi)容相結(jié)合,生成具有良好連貫性和流暢性的摘要?;舅枷胧鞘紫葘χ黝}詞進(jìn)行分析,動態(tài)地處理具有抽象標(biāo)題和具體標(biāo)題的文檔;然后采用詞匯、語法、語義分析等自然語言處理技術(shù),對文章的文本內(nèi)容進(jìn)行深入分析;再根據(jù)線性加權(quán)融合兩種分析得到的結(jié)果,生成摘要;最后采用指代消解技術(shù)(Anaphora Resolution Technology)進(jìn)行平滑使生成的摘要更連貫流暢。
在上述摘要生成的算法中,部分元數(shù)據(jù)如對標(biāo)題的分析、作者、主題詞的提取,作為中間結(jié)果也將被輸出和保存,形成完整的符合基本文獻(xiàn)規(guī)范的元數(shù)據(jù)體系。
基于Web的信息采集和處理技術(shù),在互聯(lián)網(wǎng)飛速發(fā)展的時代,將扮演者越來越重要的角色。本文設(shè)計和實(shí)施的系統(tǒng),繼承和發(fā)展了現(xiàn)有的偏平化的信息采集策略,以“信息采集、組織處理和發(fā)布”三項(xiàng)并重為理念,使面向Web的信息采集系統(tǒng)向垂直和智能的方向推進(jìn),也同時預(yù)示著該系統(tǒng)有廣泛的市場和應(yīng)用前景。
[1]尹存燕.戴新宇.陳家駿.Internet上文本的自動摘要技術(shù).計算機(jī)工程.Vol.32.No.3.Feb..2006.