亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)頁信息抽取方法綜述

        2022-03-18 07:45:06王立志
        關(guān)鍵詞:網(wǎng)頁頁面特征

        ◆王立志

        網(wǎng)頁信息抽取方法綜述

        ◆王立志

        (四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 四川 610065)

        隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)中的信息正在爆炸式地增長,網(wǎng)頁作為網(wǎng)絡(luò)中信息表達(dá)的方式之一,其結(jié)構(gòu)也變得越來越復(fù)雜。而如何精確、高效地從網(wǎng)頁中獲取目標(biāo)信息成為一個問題。本文總結(jié)現(xiàn)有的針對網(wǎng)頁的信息抽取方法并加以分類,同時分析其優(yōu)缺點,最后對未來的研究內(nèi)容進(jìn)行展望。

        信息抽?。籛EB網(wǎng)頁;DOM樹

        根據(jù)2021年第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》所發(fā)布的內(nèi)容,截至2021年6月,我國網(wǎng)站數(shù)量達(dá)到422萬個,這些網(wǎng)站構(gòu)成了一個巨大的開源信息庫。人們可以通過數(shù)據(jù)分析的方法,從這些海量的互聯(lián)網(wǎng)數(shù)據(jù)中獲取到具有巨大價值的情報。而網(wǎng)頁作為互聯(lián)網(wǎng)中信息展示與表達(dá)的重要方式之一,成為人們從互聯(lián)網(wǎng)中獲取信息的重要入口之一。通過編寫爬蟲程序訪問網(wǎng)頁,就能獲取到互聯(lián)網(wǎng)中各個網(wǎng)站的頁面信息,作為后續(xù)數(shù)據(jù)挖掘與分析等工作的基礎(chǔ)數(shù)據(jù)。但由于互聯(lián)網(wǎng)中網(wǎng)頁具有數(shù)量龐大、頁面結(jié)構(gòu)差異大,數(shù)據(jù)實時性強(qiáng)等特點,因此從不同類型、不同結(jié)構(gòu)的網(wǎng)頁中自動抽取目標(biāo)信息成為一個巨大的挑戰(zhàn)。

        從頁面結(jié)構(gòu)的角度看,網(wǎng)頁可以分為兩類:

        非結(jié)構(gòu)化網(wǎng)頁,其頁面中包含大量有較高自由度的文本數(shù)據(jù),如新聞網(wǎng)頁,博客網(wǎng)頁等;半結(jié)構(gòu)化網(wǎng)頁,其頁面中包含有結(jié)構(gòu)較為固定的文本或固定的頁面結(jié)構(gòu),如購物網(wǎng)站的商品頁面,新聞網(wǎng)站的導(dǎo)航頁面等。

        信息抽取解決的問題,是如何從非結(jié)構(gòu)化以及半結(jié)構(gòu)化的頁面中,識別并獲取到目標(biāo)信息,即如何將目標(biāo)信息結(jié)構(gòu)化的問題。其目的是實現(xiàn)從網(wǎng)頁中精確地、高效地提取目標(biāo)信息。隨著研究者對該問題的深入研究,出現(xiàn)了許多優(yōu)秀的網(wǎng)頁信息抽取方法,大大推動了網(wǎng)頁信息抽取技術(shù)的發(fā)展。

        1 網(wǎng)頁信息抽取方法的分類

        目前常見的網(wǎng)頁信息抽取方法有:基于手工的抽取方法、基于視覺的抽取方法、基于統(tǒng)計的抽取方法,以及基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的抽取方法。

        1.1 基于手工的網(wǎng)頁信息抽取方法

        早期互聯(lián)網(wǎng)中大多為靜態(tài)頁面,對于獲取網(wǎng)頁中的信息,較為簡單的方法為:利用XPATH、CSS、正則表達(dá)式等方法,手工編寫對應(yīng)的提取規(guī)則來實現(xiàn)對頁面中信息的抽取[1-3]。該方法具有精確度高的特點,能夠根據(jù)需求對網(wǎng)頁中的目標(biāo)信息進(jìn)行精確定位與獲取,但該方法人工參與度高,耗時長,頁面發(fā)生變化后便需要再次對提取規(guī)則進(jìn)行修改,維護(hù)成本大,不適用于大批量目標(biāo)網(wǎng)站信息提取的場景。

        1.2 基于視覺的網(wǎng)頁信息抽取方法

        網(wǎng)頁的視覺結(jié)構(gòu)能夠天然地將信息進(jìn)行分類,以便于瀏覽者輕松地定位到自己想要的信息,通過對其視覺結(jié)構(gòu)特征進(jìn)行分析與處理,能夠很好地從人們視覺瀏覽角度解析頁面,從而提高信息提取的準(zhǔn)確性,因此,出現(xiàn)了對網(wǎng)頁視覺結(jié)構(gòu)上的研究方法。VIPS[4]算法是最早的基于視覺分塊的抽取方法,由微軟公司所提出。該方法通過使用頁面視覺上的分塊特征對頁面的內(nèi)容進(jìn)行抽取與分類。此后,Wei Liu等人提出的VIDE[5]方法、Neil等人[6]所提出的抽取算法以及Narwal等人[7]提出的算法均基于視覺分塊特征?;谝曈X結(jié)構(gòu)的方法對于結(jié)構(gòu)簡單的頁面能夠有較好的提取效果,但隨著網(wǎng)絡(luò)發(fā)展,WEB頁面中的結(jié)構(gòu)變得更加復(fù)雜,信息也變得不再單一,塊與塊之間的界限也變得模糊,提取難度也逐漸增大。近期,王衛(wèi)紅[8]等人對視覺信息進(jìn)行改進(jìn),提出了一種基于啟發(fā)式規(guī)則構(gòu)建可視塊與可視塊樹,然后進(jìn)行噪聲過濾與信息篩選的方法VBIE,該方法對于復(fù)雜網(wǎng)頁進(jìn)行信息抽取有較高的精確度與提取效率。

        1.3 基于統(tǒng)計的網(wǎng)頁信息抽取方法

        DOM(Document Object Model)能將HTML結(jié)構(gòu)轉(zhuǎn)化成樹形結(jié)構(gòu),HTML中的每一個標(biāo)簽便對應(yīng)DOM樹中的一個節(jié)點,通過DOM樹能夠很方便地對HTML中的標(biāo)簽進(jìn)行訪問、修改等操作,同時,網(wǎng)頁中的信息在DOM樹結(jié)構(gòu)上都有相應(yīng)的特點。因此,也有針對DOM樹中信息節(jié)點的統(tǒng)計特征的研究。網(wǎng)頁中常見的統(tǒng)計特征有:文本密度特征[9-10]、文本字符特征[11]、DOM樹結(jié)構(gòu)特征[12]等。Patricia Jiménez等人[13]提出了一種Roller的方法,基于DOM樹,通過動態(tài)搜索來發(fā)現(xiàn)提取信息節(jié)點的上下文,該方法能夠適應(yīng)對新網(wǎng)頁進(jìn)行提取,有較好的擴(kuò)展性;文獻(xiàn)[14]則采用了從已知文本中進(jìn)行推斷的方法來進(jìn)行網(wǎng)頁信息的抽取。Sleiman H A等人[15]提出的TEX方法則不需要將HTML頁面轉(zhuǎn)化為DOM樹,而是采用多字符串對齊的方法對頁面文本進(jìn)行匹配與提取,并通過實驗證明該方法的有效性與高效性。對于特定類型的網(wǎng)頁,其具有不易變化的特征,因此基于統(tǒng)計的方法能夠很好地達(dá)到抽取的目的,但在普適性方面還是會有一定的局限性。

        1.4 基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的信息抽取方法

        隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的快速發(fā)展,也有研究者將其結(jié)合到網(wǎng)頁信息抽取的問題中,通過對DOM樹中的各類特征進(jìn)行分析與處理,然后通過機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法,訓(xùn)練模型來對這些特征進(jìn)行學(xué)習(xí),進(jìn)而達(dá)到信息抽取的目的。文獻(xiàn)[11]的方法便基于SVM模型來對網(wǎng)頁中的信息進(jìn)行分類與提取,而Bill Yuchen Lin[16]等人提出了基于兩階段神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)頁信息提取方法FreeDOM,通過文本與字符信息學(xué)習(xí)頁面中DOM節(jié)點的表示,再使用關(guān)系神經(jīng)網(wǎng)絡(luò)來關(guān)聯(lián)遠(yuǎn)距離的語義相關(guān)性,該方法能經(jīng)少量網(wǎng)站數(shù)據(jù)訓(xùn)練后推廣到更多的新的站點。Wai F K等人[17]提出了CMDR方法,通過學(xué)習(xí)網(wǎng)頁特征構(gòu)建神經(jīng)網(wǎng)絡(luò),并與現(xiàn)有的信息提取方法MDR[18]進(jìn)行結(jié)合。Liu J等人[19]提出VIBS算法則是結(jié)合了CNN來對頁面中的視覺塊進(jìn)行有效地劃分?;跈C(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法能夠在統(tǒng)計特征的基礎(chǔ)上發(fā)現(xiàn)一些更加隱蔽的網(wǎng)頁特征,從而能有更好的抽取效果,但模型訓(xùn)練需要研究者事先對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,并且模型也是在特定類型與場景的網(wǎng)頁下進(jìn)行訓(xùn)練與預(yù)測,因此同樣也可能存在普適性的問題。

        2 評價指標(biāo)

        目前網(wǎng)頁信息抽取常見的評價方法為準(zhǔn)確率(Precision)、召回率(Recall)以及值,其對應(yīng)的計算公式為:

        其中表示所抽取到的信息中為正確的部分,表示所抽取到的信息中為錯誤的部分,表示未被成功抽取的信息中,真實需要抽取的部分。準(zhǔn)確率越高,則說明抽取算法的結(jié)果越精準(zhǔn),召回率越高,則說明抽取算法的結(jié)果越與正確結(jié)果相接近,而值則是對抽取算法的一個綜合評價指標(biāo)。

        3 結(jié)束語

        隨著互聯(lián)網(wǎng)發(fā)展,從各式各樣的WEB頁面中提取目標(biāo)信息成為一個巨大的挑戰(zhàn)。本文總結(jié)了目前常見的網(wǎng)頁信息抽取方法,并對其優(yōu)點與缺點進(jìn)行概括。網(wǎng)頁信息抽取目前已經(jīng)有許多優(yōu)秀的研究方法,并隨著技術(shù)的進(jìn)步在不斷優(yōu)化與創(chuàng)新,但這些方法都為針對特定類型或特征結(jié)構(gòu)的網(wǎng)頁進(jìn)行信息抽取,而對于是否有更加普適性的抽取方法還需要繼續(xù)研究與思考。

        [1]Valter Crescenzi,Giansalvatore Mecca,Grammars have exceptions,Inf. Syst. 23(8)(1998)539–565.

        [2]Joachim Hammer,Jason McHugh,Hector Garcia-Molina, Semistructured data:the TSIMMIS experience,in:Advances in Databases and Information Systems,1997,pp. 1-8.

        [3]Arnaud Sahuguet,F(xiàn)abien Azavant,Building intelligent web applications using lightweight wrappers,Data Knowl. Eng. 36(3)(2001)283–316.

        [4]Deng Cai ,Shipeng Yu ,Ji-Rong Wen ,et al .VIPS :a vi- sion-based page segmentation algorithm[R].USA: Microsoft Technical Report,2003.

        [5]Wei Liu,Xiaofeng Meng,Weiyi Meng.ViDE:a vision- based approach for deep web data extraction[J].IEEE Trans.Knowl.Data Eng.,2009,22(3):447-460.

        [6]Anderson N,Hong J . Visually extracting data records from the deep web[C]// the 22nd International Conference. ACM,2013.

        [7]Narwal N. Improving Web data extraction by noise removal[C]// Communication & Computing. IET,2013.

        [8]王衛(wèi)紅,梁朝凱,閔勇. 基于可視塊的多記錄型復(fù)雜網(wǎng)頁信息提取算法[J]. 計算機(jī)科學(xué),2019.

        [9]王海艷,曹攀.基于節(jié)點屬性與正文內(nèi)容的海量Web信息抽取方法[J].通信學(xué)報,2016,37(10):9-17.

        [10]向菁菁,耿光剛,李曉東.一種新聞網(wǎng)頁關(guān)鍵信息的提取算法[J].計算機(jī)應(yīng)用,2016,36(08):2082-2086+2120.

        [11]周艷平,李金鵬,宋群豹. 一種基于SVM及文本密度特征的網(wǎng)頁信息提取方法[J]. 計算機(jī)應(yīng)用與軟件,2019,036(010):251-255,261

        [12]劉春梅,郭巖,俞曉明,等.針對開源論壇網(wǎng)頁的信息抽取研究[J].計算機(jī)科學(xué)與探索,2017,11(01):114- 123.

        [13]P Jiménez,Corchuelo R . Roller:a novel approach to Web information extraction[J]. Knowledge & Information Systems, 2016,208(1):1-45.

        [14]Raza M,Gulwani S . Web Data Extraction using Hybrid Program Synthesis:A Combination of Top-down and Bottom-up Inference[C]// SIGMOD/PODS '20:International Conference on Management of Data. 2020.

        [15]Sleiman H A,Corchuelo R . TEX:An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based Systems,2013,39(feb.):109-123.

        [16]Lin B Y,Sheng Y,Vo N,et al. FreeDOM:A Transferable Neural Architecture for Structured Information Extraction on Web Documents[C]// KDD '20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. ACM,2020.

        [17]Wai F K,Yong L W,Thing V,et al. CMDR:Classifying nodes for mining data records with different HTML structures[C]// Region 10 Conference. IEEE,2017:1862-1862.

        [18]Yanhong Zhai and Bing Liu. Structured data extraction from the web based on partial tree alignment. IEEE Trans. on Knowl. and Data Eng.,18(12),2006.

        [19]Liu J,Lin L,Cai Z,et al. Deep web data extraction based on visual information processing[J].Journal of Ambient Intelligence and Humanized Computing,2017:1-11.

        猜你喜歡
        網(wǎng)頁頁面特征
        大狗熊在睡覺
        刷新生活的頁面
        如何表達(dá)“特征”
        不忠誠的四個特征
        基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
        電子制作(2018年10期)2018-08-04 03:24:38
        抓住特征巧觀察
        基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
        電子制作(2017年2期)2017-05-17 03:54:56
        網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
        電子測試(2015年18期)2016-01-14 01:22:58
        10個必知的網(wǎng)頁設(shè)計術(shù)語
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产95在线 | 欧美| 国产精品三区四区亚洲av| 亚洲色偷偷偷综合网| 真实国产老熟女粗口对白| 亚洲高潮喷水中文字幕| 日本视频一区二区三区三州| 日韩精品熟妇一区二区三区| 国产顶级熟妇高潮xxxxx| 欧美国产高清| 蜜桃av一区二区三区| 欧美乱妇高清无乱码免费| 亚洲伊人成综合网| 国产亚洲高清不卡在线观看| 国产理论亚洲天堂av| 日韩精品无码一区二区三区四区 | 亚洲91av| 日本丰满熟妇bbxbbxhd| 亚洲爆乳大丰满无码专区| 久久久国产精品三级av| 日本熟妇人妻xxxx| 日日碰狠狠躁久久躁96avv | 日本免费人成视频播放| 青青草99久久精品国产综合| 蜜桃视频一区二区三区四| 久久无码专区国产精品| 久久国产精品二区99| 久久国产精品av在线观看| 草草影院ccyy国产日本欧美 | 无码三级在线看中文字幕完整版| 久久亚洲AV无码一区二区综合| 杨幂一区二区系列在线| 亚洲av中文无码乱人伦在线观看| 天天做天天爱天天爽综合网| 日本在线观看不卡| 日本国产一区二区在线| 久久国产免费观看精品3| 91av小视频| 蜜桃色av一区二区三区麻豆| 精品国产三级a∨在线欧美| 精品香蕉久久久爽爽| 国产人成视频免费在线观看|