亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計(jì)算機(jī)網(wǎng)絡(luò)中Web 信息智能抽取系統(tǒng)的設(shè)計(jì)及測試分析

        2024-01-16 12:39:56
        關(guān)鍵詞:正文網(wǎng)頁頁面

        任 娟

        (鄆城縣醫(yī)療保障局,山東 菏澤)

        傳統(tǒng)手工信息分類法與新時(shí)代網(wǎng)絡(luò)信息規(guī)模化發(fā)展產(chǎn)生了沖突,因而Web 信息抽取技術(shù)應(yīng)運(yùn)而成。但目前信息抽取技術(shù)主要以網(wǎng)絡(luò)數(shù)據(jù)由無結(jié)構(gòu)化、半結(jié)構(gòu)化向結(jié)構(gòu)化方向轉(zhuǎn)變?yōu)橹?,無法實(shí)現(xiàn)網(wǎng)頁信息的有效提取。而Web 信息抽取技術(shù)可抽取網(wǎng)頁正文信息,并能利用網(wǎng)頁數(shù)據(jù)抽取術(shù)語通用性表達(dá)所抽取信息,可有效擴(kuò)大自然語言技術(shù)的應(yīng)用范圍。

        1 計(jì)算機(jī)網(wǎng)絡(luò)中Web 信息智能抽取系統(tǒng)的設(shè)計(jì)原理

        Web 是以超文本、HTTP 為基礎(chǔ)構(gòu)建的具有跨平臺功能及動(dòng)態(tài)交互功能的分布式圖形信息系統(tǒng),Web信息可以促進(jìn)靜態(tài)類型網(wǎng)頁的動(dòng)態(tài)轉(zhuǎn)化,并能推動(dòng)網(wǎng)頁結(jié)構(gòu)交互式、多元化發(fā)展[1]。Web 信息智能抽取系統(tǒng)是具有精準(zhǔn)、高效、智能、可擴(kuò)展性特征的通用智能信息抽取技術(shù)為支持,分析各類網(wǎng)頁的HTML 標(biāo)簽含義、特性,并歸納文本信息分布特征,整理出啟發(fā)式規(guī)則,利用網(wǎng)頁解析器解析網(wǎng)頁文檔,并構(gòu)建網(wǎng)頁文檔元素層次結(jié)構(gòu),再以啟發(fā)式規(guī)則為基礎(chǔ),結(jié)合用戶實(shí)際需求,設(shè)計(jì)通用性模板,之后利用信息抽取模塊按照模板智能化抽取網(wǎng)頁信息,最后再采用增量處理、多頁處理、去重技術(shù)等多種技術(shù)進(jìn)行信息處理。

        2 Web 信息智能抽取系統(tǒng)框架結(jié)構(gòu)

        Web 信息智能抽取系統(tǒng)由訓(xùn)練模塊、信息提取模塊兩部分框架構(gòu)成(見圖1),訓(xùn)練模塊的作用是分析各站點(diǎn)內(nèi)網(wǎng)頁結(jié)構(gòu)形式,模板生成器以啟發(fā)式規(guī)則庫中的規(guī)則為依據(jù),綜合考慮頁面組織結(jié)構(gòu)完成模板生成。信息抽取模塊以生成的模板為基礎(chǔ),利用多種處理技術(shù)處理站點(diǎn)中的網(wǎng)頁信息。本系統(tǒng)包含管道、過濾器兩類結(jié)構(gòu),二者均可采用數(shù)據(jù)流方式分析與處理信息。各模塊均安裝一個(gè)過濾器組件,過濾器上設(shè)置管道,用于數(shù)據(jù)有效傳送。此種結(jié)構(gòu)設(shè)置方式便于過濾器修改,修改時(shí)不會對其他結(jié)構(gòu)產(chǎn)生影響,通過增設(shè)規(guī)定接口過濾器并完成配置文件關(guān)聯(lián)設(shè)置,還可實(shí)現(xiàn)擴(kuò)展系統(tǒng)功能。Web 信息智能抽取系統(tǒng)的管道由網(wǎng)絡(luò)采集器、解析器、多處理器、消除器、信息提取器五部分構(gòu)成,這些部分擔(dān)負(fù)不同的功能。若需拓展挖掘內(nèi)容,只需更新為新型信息提取器,便可提升系統(tǒng)的信息處理能力。

        圖1 Web 信息智能抽取系統(tǒng)框架

        3 Web 信息智能抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

        3.1 規(guī)則生成器設(shè)計(jì)與實(shí)現(xiàn)

        3.1.1 規(guī)則生成器的設(shè)計(jì)原理

        網(wǎng)頁中分割標(biāo)記數(shù)及對等信息往往塊數(shù)量相同,每個(gè)正文信息塊均有對應(yīng)標(biāo)簽用于分割信息塊及其他信息,如果網(wǎng)頁中同時(shí)存在多個(gè)帖子,將會有與帖子數(shù)量相同的標(biāo)簽對這些帖子進(jìn)行區(qū)分,且分割后所產(chǎn)生的標(biāo)志具有一致性。規(guī)則生成器便是基于這一原理而設(shè)計(jì)的[2]。規(guī)則生成器運(yùn)行時(shí),需要先解析HTML文檔,而后再構(gòu)建網(wǎng)頁文檔元素層次結(jié)構(gòu),在標(biāo)簽的分布規(guī)律分析完成后,從中篩選出部分候選集標(biāo)簽,用于文本內(nèi)容的提取,通過相應(yīng)運(yùn)算后將目標(biāo)信息塊標(biāo)簽從候選集標(biāo)簽中提取出來,得到的提取結(jié)果可作為模板配置基礎(chǔ),并可支持信息抽取操作。規(guī)則生成器處理流程詳見圖2。

        圖2 規(guī)則生成器處理流程

        3.1.2 規(guī)則集生成與實(shí)現(xiàn)

        運(yùn)用HTML Paser 解析HTML 文檔后應(yīng)構(gòu)建元素層次結(jié)構(gòu),之后再對分析結(jié)構(gòu)中的節(jié)點(diǎn)穩(wěn)步情況。分析時(shí),先利用規(guī)則集生成算法定位節(jié)點(diǎn),將最小信息富余子樹的跟節(jié)點(diǎn)提取出來,此過程可濾除與提取信息無關(guān)聯(lián)的廣告、導(dǎo)航等無用信息。然后基于標(biāo)準(zhǔn)漂移式規(guī)則、重復(fù)匹配規(guī)則、可確認(rèn)路徑分隔符標(biāo)記規(guī)則、局部路徑比較規(guī)則、兄弟標(biāo)記規(guī)則,采用聯(lián)合規(guī)則識別標(biāo)記算法再次定位對等目標(biāo)實(shí)體間的各個(gè)分割標(biāo)記,并根據(jù)得到的分割標(biāo)記完成信息提取[3]。對等目標(biāo)實(shí)體是指文檔內(nèi)部處于并列關(guān)系的信息塊,而具有包含關(guān)系的信息塊不在此列。此過程中,最小信息富余子樹查找時(shí),應(yīng)先對網(wǎng)頁文檔元素層次結(jié)構(gòu)中各節(jié)點(diǎn)出度、文本信息大小、標(biāo)簽數(shù)分別進(jìn)行計(jì)算,之后再計(jì)算最小信息富余子樹的根結(jié)點(diǎn)權(quán)重,然后再利用此權(quán)重值計(jì)算網(wǎng)頁文檔元素層次結(jié)構(gòu)根結(jié)點(diǎn)的HTML初始節(jié)點(diǎn)的初始權(quán)重,若計(jì)算結(jié)果不高于0.1,便可將對應(yīng)結(jié)點(diǎn)所處子樹當(dāng)作候選最小信息富余子樹。

        3.2 模板生成器設(shè)計(jì)與實(shí)現(xiàn)

        3.2.1 模板生成器設(shè)計(jì)原理

        模板生成器的設(shè)計(jì),需要利用模板生成算法,在規(guī)則集生成的基礎(chǔ)上,對網(wǎng)頁文檔結(jié)構(gòu)樹的元素層次結(jié)構(gòu)進(jìn)行分割與標(biāo)記,而后再向模板中配置得到的分割標(biāo)記結(jié)果。模板生成時(shí)所采用的是半人工篩選算法,此算法先利用自動(dòng)識別器做好分隔標(biāo)記,再將之向模板評論分隔項(xiàng)中配置,在構(gòu)建評論對應(yīng)的層次結(jié)構(gòu)后,再次對其中的信息進(jìn)行分隔與標(biāo)記,并采用人工輔助方式向數(shù)據(jù)項(xiàng)中標(biāo)注分隔符,如此能夠保障信息提取的準(zhǔn)確性,且可自主設(shè)置過濾信息選項(xiàng)。此方法可以彌補(bǔ)全自動(dòng)機(jī)器配置算法無法實(shí)現(xiàn)所提取的混合信息內(nèi)容有效分離的缺陷。

        3.2.2 模板生成與配置

        通常情況下,網(wǎng)站需要配置兩種模板,分別是線索列表頁面模板及正文頁面信息模板。前者可以按照正常流程,采用最小信息富余子樹查找的方式,通過濾除無用信息完成頁面上鏈接URL 信息的提取。而正文頁面信息配置相對復(fù)雜。首先要對正文頁面信息進(jìn)行提取,再完成分割標(biāo)記符所在位置記錄項(xiàng)的配置,將首次識別得到的對等實(shí)體間分割標(biāo)記配置到適合位置。然后結(jié)合信息提取需求,采取查找最小信息富余子樹、利用規(guī)則集生成器生成分割標(biāo)記,再根據(jù)程序生成的配置信息完成這些分割標(biāo)記在模板中的配置。最后采用人工配置方式將亂碼信息、網(wǎng)站標(biāo)識信息等過濾信息配置到模板之中。

        3.3 信息抽取器設(shè)計(jì)與實(shí)現(xiàn)

        3.3.1 信息抽取器設(shè)計(jì)原理

        信息投取器以生成的模板為基礎(chǔ)完成信息提取,而后再對所提取的信息實(shí)施增量處理、多頁處理、去重處理以及結(jié)構(gòu)化存儲等各項(xiàng)操作。信息抽取器的工作同樣需要分別線索列頁面、正文頁面分別兩個(gè)處理部分。處理線索列表頁面時(shí),需要在頁面中將話題線索的發(fā)表及修改時(shí)間、正文頁面鏈接、標(biāo)題、回復(fù)數(shù)及人氣值等相關(guān)數(shù)據(jù)提取出來。而正文頁面處理時(shí),主要是提取用戶信息、帖子內(nèi)容與帖子標(biāo)題、帖子評論情況等相關(guān)信息[4]。

        3.3.2 信息抽取器的實(shí)現(xiàn)

        3.3.2.1 新線索列表頁面抽取

        新線索列表頁面抽取時(shí),要通過解析器將讀取且保存后的頁面轉(zhuǎn)化成為網(wǎng)頁文檔元素層次結(jié)構(gòu),然后再利用模板生成器讀取相應(yīng)模板,從而生成線索列表頁面模板。之后再以此模板為依據(jù)重復(fù)性提取此頁面上的相關(guān)話題線索信息。文件未處理情況下,回到第一步重新執(zhí)行操作。新線索列表頁面抽取的流程見圖3 所示。

        圖3 線索列表頁面信息提取流程

        3.3.2.2 正文頁面信息抽取

        先對未處理正文頁面進(jìn)行讀取與存儲,然后利用解析器構(gòu)建元素層次結(jié)構(gòu),再依據(jù)輸入的站點(diǎn)名,讀取相應(yīng)正文模板信息,隨后按照模板配置信息對此結(jié)構(gòu)上對應(yīng)的信息進(jìn)行提取,最后再根據(jù)解析后的標(biāo)題信息將話題線索從數(shù)據(jù)庫中排查提取出來,采用話題有效性判斷、增量處理、多頁處理、發(fā)帖者等級處理、貼子額外屬性權(quán)值處理、話題線索權(quán)重處理五個(gè)技術(shù)進(jìn)行信息處理后,再向話題線索中添加[5]。在頁面處理未啟動(dòng)的情況下,可自動(dòng)跳轉(zhuǎn)到第一個(gè)步驟,若處理完成,則將得到的話題線索存儲于數(shù)據(jù)庫中。正文頁面抽取流程詳見圖4。

        圖4 正文頁面信息提取流程

        4 計(jì)算機(jī)網(wǎng)絡(luò)中Web 信息智能抽取系統(tǒng)測試

        4.1 測試環(huán)境及基本功能測試

        為驗(yàn)證Web 信息智能抽取系統(tǒng)的實(shí)用性,對此系統(tǒng)的功能性進(jìn)行了測試。測試以奔騰處理器作為CPU,處理頻率為42.66 GHZ,CPU 內(nèi)存為512 MB。測試所用硬盤容量為56 GB,選用的是WindowsXP SP2 系統(tǒng)。主要對Web 信息智能抽取系統(tǒng)的頁面樣式模板定義、頁面結(jié)構(gòu)分析、頁面內(nèi)容分析與提取、網(wǎng)面增量挖掘、網(wǎng)頁多頁挖掘五個(gè)功能展開了測試,測試結(jié)果表明此系統(tǒng)的功能均符合應(yīng)用要求。

        4.2 與其它系統(tǒng)的功能性能對比

        4.2.1 與全自動(dòng)網(wǎng)頁目標(biāo)實(shí)體信息提取系統(tǒng)功能的對比

        選取新浪、網(wǎng)易、搜狐等8 個(gè)論壇,分別利用Omini 全自動(dòng)網(wǎng)頁目標(biāo)實(shí)體信息提取系統(tǒng)及Web 信息智能抽取系統(tǒng)進(jìn)行功能對比測試,發(fā)現(xiàn)本系統(tǒng)信息抽取準(zhǔn)確率、召回率、信息提取速度均更為優(yōu)異(見表1)。

        表1 Web 信息智能抽取系統(tǒng)與Omini 系統(tǒng)功能對比

        4.2.2 與集中典型信息提取系統(tǒng)在不同結(jié)構(gòu)類型信息提取性能方面的對比

        從目前知名度較高的集中典型信息提取系統(tǒng)中選取五個(gè)系統(tǒng)與Web 信息智能抽取系統(tǒng)分別對單一結(jié)構(gòu)類、多結(jié)構(gòu)類網(wǎng)頁信息提取方面的性能進(jìn)行了對比(見表2),得出的結(jié)論是本系統(tǒng)的各方面性能均更佳,證實(shí)了Web 信息智能提取系統(tǒng)的應(yīng)用優(yōu)勢。

        表2 Web 信息智能抽取系統(tǒng)與集中典型信息提取系統(tǒng)在不同結(jié)構(gòu)類型信息提取方面的性能對比

        5 結(jié)論

        Web 互聯(lián)網(wǎng)上存在多種類型的網(wǎng)頁,這些網(wǎng)頁的布局特點(diǎn)、標(biāo)簽應(yīng)用規(guī)則均不一致。而Web 信息智能抽取系統(tǒng)可結(jié)合這些因素,利用先進(jìn)的Web 信息提取算法,通過規(guī)則生成器、模板生成器完成待提取信息模板的獲取,并可自動(dòng)化完成模板配置過程,可在無需模板配置算法訓(xùn)練的基礎(chǔ)上,按照時(shí)間的不同抽取網(wǎng)站信息。通過線索列表頁面及正文頁面信息的分別抽取,解決了信息重復(fù)性抽取問題,此系統(tǒng)還具有多頁抽取、結(jié)構(gòu)化存儲、網(wǎng)頁去重、易于擴(kuò)展等多重優(yōu)勢,在計(jì)算機(jī)網(wǎng)絡(luò)Web 信息抽取方面具有較高應(yīng)用價(jià)值。

        猜你喜歡
        正文網(wǎng)頁頁面
        大狗熊在睡覺
        刷新生活的頁面
        更正聲明
        傳媒論壇(2022年9期)2022-02-17 19:47:54
        更正啟事
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
        電子制作(2018年10期)2018-08-04 03:24:38
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
        大鼠腦缺血/再灌注后bFGF和GAP-43的表達(dá)與神經(jīng)再生
        同一Word文檔 縱橫頁面并存
        亚洲一区二区三区毛片| 国产色综合天天综合网| 国产一级毛片AV不卡尤物| 免费人人av看| 日本免费久久高清视频| 亚洲av国产av综合av卡| 国产极品美女高潮抽搐免费网站| 91精品91| 久亚洲一线产区二线产区三线麻豆| а天堂中文在线官网在线| 国产亚洲av综合人人澡精品 | 免费观看一区二区三区视频| 五月色丁香婷婷网蜜臀av | 无码a级毛片免费视频内谢5j| 国产伦精品一区二区三区免费| 亚洲国产成人AⅤ片在线观看| 国产自拍精品在线视频| 欧美激欧美啪啪片| 日本边添边摸边做边爱的网站| 久久露脸国产精品WWW| 久久九九精品国产不卡一区| 国产又大又硬又粗| 天堂网www在线资源| 日本护士一区二区三区高清热线| 自由成熟女性性毛茸茸应用特色| 又大又紧又粉嫩18p少妇| h在线国产| 东京热东京道日韩av| 蜜桃av精品一区二区三区| 国产精品久久久| 久久99久久99精品免观看女同 | 黑人巨大av在线播放无码| 久久综合视频网站| 麻豆精品国产免费av影片| 国内精品久久久久久久97牛牛 | 国产av综合一区二区三区最新| 日韩一级137片内射视频播放 | 91精品国产免费久久久久久青草 | 国产成人亚洲综合小说区| 亚洲精品中文字幕导航| 色婷婷综合久久久久中文字幕|