亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時間頻率加權DOM的Web信息抽取方法

        2011-02-10 01:56:54馬瑞民東北石油大學計算機與信息技術學院黑龍江大慶163318
        長江大學學報(自科版) 2011年1期
        關鍵詞:頁面定義規(guī)則

        馬瑞民,錢 浩 (東北石油大學計算機與信息技術學院,黑龍江大慶163318)

        當前,Web已經(jīng)成為人們獲取信息的主要渠道。怎樣對Web上大量的數(shù)據(jù)信息進行抽取成了現(xiàn)今數(shù)據(jù)挖掘研究的熱點。Web信息抽取是從網(wǎng)絡中獲得用戶需要的信息的過程[1],目前已有的技術有基于歸納學習的信息抽取、基于DOM的信息抽取、基于Web查詢的信息抽取、基于自然語言處理的信息抽取、基于模型的信息抽取和基于本體的信息抽取[1]等。其中基于DOM的Web信息抽取的特點是,將Web文檔轉換成反映HTML/XML文件層次結構的DOM樹,通過自動或半自動的方式產(chǎn)生抽取規(guī)則。

        以上的方法在技術方面都比較成熟,但均沒有考慮到時間因素。為此,筆者結合DOM的Web信息抽取加上時間因素,提出了一種基于TFW-DOM的Web信息抽取方法。該方法考到多次抽取的情況,通過對頁面DOM樹加權,利用公式計算每次的抽取時間,結合基于DOM的抽取方法完成每次的信息抽取。

        1 基本定義

        圖1 DOM樹

        定義1(抽取項) 抽取項即用戶想在頁面中抽取的文本內容[2]。

        定義2(抽取規(guī)則) 抽取規(guī)則是對抽取項在整個文檔中的定位,表現(xiàn)在DOM樹上就是由根節(jié)點到抽取項路過的節(jié)點序列所表示的路徑信息。假設DOM樹中的節(jié)點用element(i)(i=0,1,2,…)表示,抽取項的路徑信息就是一組element(i)(j)序列 (其中i≠j,i<j)。如圖 1所示,如果要定位Text:“My link”節(jié)點,它的路徑就應該是element(0)element(2)element(4)。

        定義3(T加權) T加權是對DOM樹中每個元素添加時間屬性的過程,這2個屬性分別是最近一次(假設是第n次)抽取該節(jié)點信息的時間e-time和第n次抽取與第n-1次抽取的時間間隔et-interval。

        定義4(F加權) F加權是對DOM樹中每個元素添加頻率的過程,表示調用信息抽取模塊用到該屬性的頻率。

        圖2 TFW-DOM抽取流程

        定義5(TFW-DOM) 經(jīng)過了T、F加權后得到的DOM樹。TFW-DOM樹的每個元素至少有3個屬性:e-time、et-interval、frequcency。

        2 TFW-DOM抽取算法

        基于 TFW-DOM的 Web信息抽取方法(簡稱 TFW-DOM抽取)考慮的是多次抽取的情況,用戶無需手動抽取,系統(tǒng)通過抽取時間計算公式計算出每次的抽取時間,然后按照基于DOM的抽取方法進行抽取。該方法適用于多級管理層,每級管理層對數(shù)據(jù)的實時性要求不一,在時間上具有很大的靈活性?;赥FW-DOM的Web信息抽取方法的處理流程如圖2所示。

        首先根據(jù)用戶的需求,獲得相關Web頁面URL,通過頁面清理把不規(guī)則的源代碼變?yōu)榉蟇3C標準的 HTML/XML文檔;對于規(guī)則庫中沒有現(xiàn)成規(guī)則的URL,進入DOM樹加權,然后在基于DOM的Web信息抽取方法[3]的基礎上,通過抽取時間計算得到抽取規(guī)則,將生成的抽取規(guī)則分別輸入規(guī)則庫和抽取的執(zhí)行模塊,下次再遇到類似的抽取任務就可以直接從規(guī)則庫中調取抽取規(guī)則;根據(jù)抽取規(guī)則在執(zhí)行模塊完成抽取后,結果進入數(shù)據(jù)處理部分,最后生成結構化數(shù)據(jù)。生成的數(shù)據(jù)結構可根據(jù)用戶的實際需要選擇,具有很大的靈活性。

        1)頁面清理模塊 在頁面清理模塊中,利用Tidy庫提供的功能對Web頁面進行標準化處理,得到符合W3C的HTML/XML文檔,部分糾錯過濾代碼如下:

        2)計算抽取時間算法 在這個模塊主要使用一個循環(huán)利用2個計算公式,完成抽取時間的計算,算法步驟如下:

        其中,frequency是原頻率;frequency是新產(chǎn)生的頻率;time為系統(tǒng)當前時間。

        3 試 驗

        選取中國石油化工股份有限公司企業(yè)網(wǎng)站對其化工產(chǎn)品進行實驗,對于抽取方法主要從抽取速度、時間準確性、召回率和準確率4方面來檢驗,試驗數(shù)據(jù)比較結果如表1。

        因為針對專門的領域,所以TFW-DOM抽取法有很好的準確率和召回率;同時試驗結果表明TFW-DOM抽取法對多次抽取的效率明顯高于文獻 [4]的方法;因為受抽取時間計算公式中各計算因子影響,在抽取時間準確率上不能達到100%,但基本能夠滿足用戶各管理級的時間要求。

        表1 試驗比較結果

        4 結 語

        筆者提出的抽取方法在初次抽取后得到的抽取規(guī)則存入規(guī)則庫中,可重復使用,避免了抽取規(guī)則的重用,在整個抽取過程中不需要人工參與,在提高效率的同時也減輕了用戶的操作負擔?;赥FWDOM的Web信息抽取方法通過抽取規(guī)則文件得到抽取任務的相關信息和執(zhí)行抽取的條件,因此,用戶只需改變輸入的頁面URL,完成初次抽取時的抽取規(guī)則文件生成,即可完成全新的抽取任務,并且最終得到的數(shù)據(jù)在數(shù)據(jù)結構上有相應的靈活性,這些使得基于TFW-DOM的Web信息抽取方法具備良好的可用性、易用性和通用性。

        [1]色菲,王佳,潘超.基于XML描述的WEB信息抽取技術研究[J].計算機與信息技術,2007,34(2):403,380.

        [2]陳曉鋒,張凌,董守斌.基XPath比較Web數(shù)據(jù)抽取方法[J].鄭州大學學報,2007,39(2):161-166.

        [3]李效東,顧毓清.基于DOM的Web信息提取 [J].計算機學報,2002,25(5):526-533.

        [4]于靜,李森.基于信息抽取的主動服務技術研究[J].計算機系統(tǒng)應用,2008,(1):54-56,60.

        猜你喜歡
        頁面定義規(guī)則
        大狗熊在睡覺
        刷新生活的頁面
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        TPP反腐敗規(guī)則對我國的啟示
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        山的定義
        公務員文萃(2013年5期)2013-03-11 16:08:37
        同一Word文檔 縱橫頁面并存
        国产精品对白一区二区三区| 国产成人亚洲精品91专区手机| 精品久久久久久久久久久aⅴ| 国产日产精品久久久久久| 免费一级国产大片| 开心五月激动心情五月| 日本在线一区二区三区视频观看| 国产成人综合久久久久久 | 激情第一区仑乱| 91伊人久久| 久久99精品免费国产| 国产精品女主播在线播放| 国产白浆在线免费观看| 成人a级视频在线播放| 无码免费一区二区三区| 久久久久久久女国产乱让韩| 日本不卡视频网站| 国产喷白浆精品一区二区豆腐| 久亚洲精品不子伦一区| 第一次处破女18分钟高清| 久久天天躁狠狠躁夜夜不卡| 性生交大片免费看淑女出招| 偷窥村妇洗澡毛毛多| 春色成人在线一区av| 蜜桃av福利精品小视频| 成人av综合资源在线| 国产精品久久久久一区二区三区| 人妻丰满熟妇av无码区不卡 | 国产精品三级一区二区按摩| 国产精品白浆免费观看| 黄片免费观看视频播放| 少妇被黑人整得嗷嗷叫视频| 亚洲va国产va天堂va久久| 国产熟女高潮视频| 人妻无码中文专区久久AV| 青青草视频在线播放观看| 蜜桃av在线免费网站| 欧美乱人伦人妻中文字幕| 亚洲深深色噜噜狠狠爱网站| 亚洲AV无码国产精品久久l| 亚洲一区亚洲二区中文字幕|