亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于WEB的智能信息采集及處理系統(tǒng)的關(guān)鍵技術(shù)

        2010-07-17 08:41:06譚媛媛
        中國新技術(shù)新產(chǎn)品 2010年11期
        關(guān)鍵詞:頁面子系統(tǒng)解析

        譚媛媛 王 偉

        (秦皇島廣播電視大學(xué),河北 秦皇島 066000)

        1 系統(tǒng)架構(gòu)

        系統(tǒng)由三個子系統(tǒng)組成,即Web信息采集子系統(tǒng)、信息智能處理子系統(tǒng)和信息發(fā)布子系統(tǒng)。三個子系統(tǒng)可以單獨(dú)部署和運(yùn)行,也可以通過接口文件實(shí)現(xiàn)整個過程的自動化采集、智能化處理和主動式發(fā)布,整體架構(gòu)如圖1所示。

        1.1 系統(tǒng)整體架構(gòu)

        該系統(tǒng)架構(gòu)不僅適合較大用戶的分布式部署采集、加工的需要,也可以適應(yīng)單用戶集中部署的需要。當(dāng)用戶只需要某個子系統(tǒng)時,只需對接口文件稍作配置就可以滿足不同的用戶需求。

        圖1

        圖2

        1.2 Web信息采集子系統(tǒng)

        Web采集器一般都是從稱為種子的URL出發(fā),通過協(xié)議向Web上其它所需頁面作擴(kuò)展。經(jīng)研究表明Web上30%的頁面是重復(fù)的,當(dāng)面向特定的主題時,80%以上的URL鏈接是我們不關(guān)心的,因此在采集中如何進(jìn)行URL去重和分析適合主題特征的URL是提高采集子系統(tǒng)效率的重要因素。同時如何獲取有效的Web頁面信息,過濾廣告、導(dǎo)航欄等噪聲,將直接影響后續(xù)的智能處理的性能。該子系統(tǒng)的流程如圖2所示。

        有別于通用的Web信息采集器,該子系統(tǒng)最大的特點(diǎn)在于任何用戶的主題采集都是在相應(yīng)的模版的支撐下完成。所謂模版就是關(guān)于要采集的Web對象的特征描述,為了提高下載的有效性和效率,將某一個具體的網(wǎng)站所有的Web頁面劃分為Hub頁和Topic頁,表示為一個三元組。其中M刻畫Web頁共性特征,如:網(wǎng)站名稱、網(wǎng)站URL地址、語言種類等;Hf刻畫該Web資源中的Hub頁面特征,即此類Web中哪些URL地址特征是下載時需要解析的;而Tf則是刻畫某一類具體的Topic頁特征,主要是描述用戶最感興趣的內(nèi)容的訪問路徑,如:正文標(biāo)題、作者、來源等。

        為了實(shí)現(xiàn)對下載的Web資源的監(jiān)控,將最新的信息及時地推送給用戶,觸發(fā)器可以為用戶指定適合需要的采集策略,通過設(shè)定一定的間隔時間來激活下載機(jī)器人,“巡視”是否存在最新的信息。

        1.3 信息智能處理子系統(tǒng)

        該系統(tǒng)預(yù)先通過機(jī)器學(xué)習(xí)建立用戶感興趣的內(nèi)容分類器,當(dāng)用戶某一次下載任務(wù)完成后,發(fā)送消息激活處理子系統(tǒng),系統(tǒng)將會自動地處理下載的內(nèi)容,主要包括自動分類、自動摘要和元數(shù)據(jù)分析,如創(chuàng)建正文標(biāo)題、關(guān)鍵字、分析作者等。系統(tǒng)流程如圖3所示。

        傳統(tǒng)上的Web信息采集不具備對下載信息的深層次加工能力,而本系統(tǒng)不僅實(shí)現(xiàn)機(jī)器的自動分類、摘要和元數(shù)據(jù)分析,還提供人機(jī)交互的機(jī)制,將處理的結(jié)果以便捷預(yù)覽的方式呈現(xiàn),用戶可以進(jìn)行修改、刪除以及確認(rèn)后入庫存儲等操作,確保發(fā)布信息的正確性和有效性。

        1.4 信息發(fā)布子系統(tǒng)

        近年來信息的發(fā)布形式越來越備受關(guān)注,作為對外信息服務(wù)的平臺,該子系統(tǒng)主要特點(diǎn)有:多視角、多層次發(fā)布采集信息,即從來源、原始欄目、分類體系多個視角交叉進(jìn)行展示,可以靈活的進(jìn)行信息集合的交、并運(yùn)算;個性化信息發(fā)布,用戶登錄后利用個性化信息定制界面,選擇自己感興趣的信息視角,再次登錄后,推送給用戶的就是完全個性化的信息內(nèi)容;強(qiáng)大的信息檢索能力,不僅提供針對獨(dú)立字段的檢索,還提供快速檢索、高級的表達(dá)式檢索及全文檢索。

        2 若干關(guān)鍵技術(shù)

        2.1 URL去重

        常規(guī)的URL去重有兩種解決思路,一是將所有的URL地址存入數(shù)據(jù)庫,做好索引后,利用數(shù)據(jù)庫的查找來判斷該URL是否被重復(fù)下載;二是利用文件存儲,將URL通過一定轉(zhuǎn)換,也是建立基于文件的查找索引。這兩種方式的弊端是顯而易見的,如中文網(wǎng)頁有4億左右,假設(shè)每一個URL的平均長度為25個字符,那么存儲這些網(wǎng)頁的URL地址需要的空間為8G左右,很顯然面對如此大的文件,這種機(jī)制無法快速的進(jìn)行URL查找,因此不能保證快速的下載和去重。

        在本系統(tǒng)中采用了文件目錄尋址機(jī)制來實(shí)現(xiàn)URL的快速去重。基本思想是首先將URL地址做CRC32轉(zhuǎn)換,生成一個唯一的4字節(jié)32位的編碼,如:E8CA0B3F,將4個字節(jié)組成兩級目錄和一級文件,即第一個字節(jié)的首字符作為第一級目錄名,第二、三個字符組合作為二級目錄名,第三、四個字符組合作為文件名存放在二級目錄下,每個文件的大小固定為4K,最后還剩下三個字符一共是12bit,共有4096個二進(jìn)制數(shù),與4K的文件大小剛好一一對應(yīng)。這種機(jī)制能夠容納的總頁面數(shù)為232,大約43億個,幾乎能包括目前互聯(lián)網(wǎng)上所有URL鏈接。

        圖3

        2.2 HTML解析

        為了提高下載頁面的有效性,需要過濾掉一些無用的噪聲信息。傳統(tǒng)上有兩種解決方案,一是頁面學(xué)習(xí)的方式提取熵值最大的頁面分塊[1];二是通過定義訪問路徑來提取需要訪問的感興趣的內(nèi)容。無論是哪一種方案都必須有對頁面的HTML的解析能力,即構(gòu)造合適的數(shù)據(jù)結(jié)構(gòu)來解析HTML的標(biāo)簽。解析的難點(diǎn)在于目前的網(wǎng)絡(luò)Web頁面的HTML非常不規(guī)范、不嚴(yán)格,標(biāo)簽之間即使有錯誤或者不嚴(yán)格的匹配,IE也能完美的呈現(xiàn)。但是為了信息的精確提取,必須要構(gòu)造嚴(yán)密的訪問結(jié)構(gòu)。

        2.3 自動摘要與元數(shù)據(jù)分析

        摘要是指通過對文檔內(nèi)容處理,從中提取出滿足用戶需求的重要信息,經(jīng)過重組修飾后生成比原文更精煉的文摘過程。目前主要自動文摘技術(shù)有三類:基于淺層分析的方法、基于實(shí)體分析的方法、基于話語結(jié)構(gòu)的方法。

        本系統(tǒng)采用一種新的使用自然語言處理(NLP)技術(shù)的自動摘要系統(tǒng),通過融合基于內(nèi)容的方法[Based on Content]和基于主題(Based on Topic)的方法,將主題與內(nèi)容相結(jié)合,生成具有良好連貫性和流暢性的摘要?;舅枷胧鞘紫葘χ黝}詞進(jìn)行分析,動態(tài)地處理具有抽象標(biāo)題和具體標(biāo)題的文檔;然后采用詞匯、語法、語義分析等自然語言處理技術(shù),對文章的文本內(nèi)容進(jìn)行深入分析;再根據(jù)線性加權(quán)融合兩種分析得到的結(jié)果,生成摘要;最后采用指代消解技術(shù)(Anaphora Resolution Technology)進(jìn)行平滑使生成的摘要更連貫流暢。

        在上述摘要生成的算法中,部分元數(shù)據(jù)如對標(biāo)題的分析、作者、主題詞的提取,作為中間結(jié)果也將被輸出和保存,形成完整的符合基本文獻(xiàn)規(guī)范的元數(shù)據(jù)體系。

        3 結(jié)束語

        基于Web的信息采集和處理技術(shù),在互聯(lián)網(wǎng)飛速發(fā)展的時代,將扮演者越來越重要的角色。本文設(shè)計和實(shí)施的系統(tǒng),繼承和發(fā)展了現(xiàn)有的偏平化的信息采集策略,以“信息采集、組織處理和發(fā)布”三項(xiàng)并重為理念,使面向Web的信息采集系統(tǒng)向垂直和智能的方向推進(jìn),也同時預(yù)示著該系統(tǒng)有廣泛的市場和應(yīng)用前景。

        [1]尹存燕.戴新宇.陳家駿.Internet上文本的自動摘要技術(shù).計算機(jī)工程.Vol.32.No.3.Feb..2006.

        猜你喜歡
        頁面子系統(tǒng)解析
        大狗熊在睡覺
        不對中轉(zhuǎn)子系統(tǒng)耦合動力學(xué)特性研究
        刷新生活的頁面
        三角函數(shù)解析式中ω的幾種求法
        GSM-R基站子系統(tǒng)同步方案研究
        駝峰測長設(shè)備在線監(jiān)測子系統(tǒng)的設(shè)計與應(yīng)用
        睡夢解析儀
        電競初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        相機(jī)解析
        車載ATP子系統(tǒng)緊急制動限制速度計算
        日韩精品专区av无码| 免费看黄在线永久观看| 久久麻传媒亚洲av国产| 久久国产成人精品国产成人亚洲 | 国产精品国产自线拍免费| 国产av一区二区三区天美| 全免费a级毛片免费看无码| 看全色黄大色大片免费久久| 麻豆久久五月国产综合| 久久99久久久精品人妻一区二区 | 亚洲熟妇无码久久精品| 精品久久久久久久久久中文字幕| 国产原创精品视频| 国产精品三级在线不卡| 亚洲第一狼人天堂网亚洲av| 成av人片一区二区三区久久| AV无码免费不卡在线观看| 国产丝袜美腿一区二区三区| 亚洲色图片区| 激情欧美日韩一区二区| 精品人妻av区乱码| 亚洲一区二区三区偷拍女| 四虎国产精品永久在线国在线| 91高清国产经典在线观看| 午夜亚洲精品视频网站| 日韩免费视频| 午夜不卡久久精品无码免费| 欧美成人精品福利在线视频| 情av一区二区三区在线观看| 国产精品美女久久久久av超清 | h国产视频| 狠狠综合亚洲综合亚色 | 中文字幕日韩有码国产| 人人妻人人澡人人爽人人精品av| 亚洲精品网站在线观看你懂的| 亚洲国产综合专区在线电影| 成av人大片免费看的网站| 性xxxx18免费观看视频| 无码AV高潮喷水无码专区线| 日韩精品极品免费在线视频| 一本加勒比hezyo无码专区|