亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)頁信息抽取方法綜述

2022-03-18 07:45:06王立志

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2022年3期

關(guān)鍵詞：網(wǎng)頁頁面特征

◆王立志

網(wǎng)頁信息抽取方法綜述

◆王立志

（四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院四川 610065）

隨著互聯(lián)網(wǎng)的快速發(fā)展，網(wǎng)絡(luò)中的信息正在爆炸式地增長，網(wǎng)頁作為網(wǎng)絡(luò)中信息表達(dá)的方式之一，其結(jié)構(gòu)也變得越來越復(fù)雜。而如何精確、高效地從網(wǎng)頁中獲取目標(biāo)信息成為一個問題。本文總結(jié)現(xiàn)有的針對網(wǎng)頁的信息抽取方法并加以分類，同時分析其優(yōu)缺點，最后對未來的研究內(nèi)容進(jìn)行展望。

信息抽?。籛EB網(wǎng)頁；DOM樹

根據(jù)2021年第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》所發(fā)布的內(nèi)容，截至2021年6月，我國網(wǎng)站數(shù)量達(dá)到422萬個，這些網(wǎng)站構(gòu)成了一個巨大的開源信息庫。人們可以通過數(shù)據(jù)分析的方法，從這些海量的互聯(lián)網(wǎng)數(shù)據(jù)中獲取到具有巨大價值的情報。而網(wǎng)頁作為互聯(lián)網(wǎng)中信息展示與表達(dá)的重要方式之一，成為人們從互聯(lián)網(wǎng)中獲取信息的重要入口之一。通過編寫爬蟲程序訪問網(wǎng)頁，就能獲取到互聯(lián)網(wǎng)中各個網(wǎng)站的頁面信息，作為后續(xù)數(shù)據(jù)挖掘與分析等工作的基礎(chǔ)數(shù)據(jù)。但由于互聯(lián)網(wǎng)中網(wǎng)頁具有數(shù)量龐大、頁面結(jié)構(gòu)差異大，數(shù)據(jù)實時性強(qiáng)等特點，因此從不同類型、不同結(jié)構(gòu)的網(wǎng)頁中自動抽取目標(biāo)信息成為一個巨大的挑戰(zhàn)。

從頁面結(jié)構(gòu)的角度看，網(wǎng)頁可以分為兩類：

非結(jié)構(gòu)化網(wǎng)頁，其頁面中包含大量有較高自由度的文本數(shù)據(jù)，如新聞網(wǎng)頁，博客網(wǎng)頁等；半結(jié)構(gòu)化網(wǎng)頁，其頁面中包含有結(jié)構(gòu)較為固定的文本或固定的頁面結(jié)構(gòu)，如購物網(wǎng)站的商品頁面，新聞網(wǎng)站的導(dǎo)航頁面等。

信息抽取解決的問題，是如何從非結(jié)構(gòu)化以及半結(jié)構(gòu)化的頁面中，識別并獲取到目標(biāo)信息，即如何將目標(biāo)信息結(jié)構(gòu)化的問題。其目的是實現(xiàn)從網(wǎng)頁中精確地、高效地提取目標(biāo)信息。隨著研究者對該問題的深入研究，出現(xiàn)了許多優(yōu)秀的網(wǎng)頁信息抽取方法，大大推動了網(wǎng)頁信息抽取技術(shù)的發(fā)展。

1 網(wǎng)頁信息抽取方法的分類

目前常見的網(wǎng)頁信息抽取方法有：基于手工的抽取方法、基于視覺的抽取方法、基于統(tǒng)計的抽取方法，以及基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的抽取方法。

1.1 基于手工的網(wǎng)頁信息抽取方法

早期互聯(lián)網(wǎng)中大多為靜態(tài)頁面，對于獲取網(wǎng)頁中的信息，較為簡單的方法為：利用XPATH、CSS、正則表達(dá)式等方法，手工編寫對應(yīng)的提取規(guī)則來實現(xiàn)對頁面中信息的抽取[1-3]。該方法具有精確度高的特點，能夠根據(jù)需求對網(wǎng)頁中的目標(biāo)信息進(jìn)行精確定位與獲取，但該方法人工參與度高，耗時長，頁面發(fā)生變化后便需要再次對提取規(guī)則進(jìn)行修改，維護(hù)成本大，不適用于大批量目標(biāo)網(wǎng)站信息提取的場景。

1.2 基于視覺的網(wǎng)頁信息抽取方法

網(wǎng)頁的視覺結(jié)構(gòu)能夠天然地將信息進(jìn)行分類，以便于瀏覽者輕松地定位到自己想要的信息，通過對其視覺結(jié)構(gòu)特征進(jìn)行分析與處理，能夠很好地從人們視覺瀏覽角度解析頁面，從而提高信息提取的準(zhǔn)確性，因此，出現(xiàn)了對網(wǎng)頁視覺結(jié)構(gòu)上的研究方法。VIPS[4]算法是最早的基于視覺分塊的抽取方法，由微軟公司所提出。該方法通過使用頁面視覺上的分塊特征對頁面的內(nèi)容進(jìn)行抽取與分類。此后，Wei Liu等人提出的VIDE[5]方法、Neil等人[6]所提出的抽取算法以及Narwal等人[7]提出的算法均基于視覺分塊特征?；谝曈X結(jié)構(gòu)的方法對于結(jié)構(gòu)簡單的頁面能夠有較好的提取效果，但隨著網(wǎng)絡(luò)發(fā)展，WEB頁面中的結(jié)構(gòu)變得更加復(fù)雜，信息也變得不再單一，塊與塊之間的界限也變得模糊，提取難度也逐漸增大。近期，王衛(wèi)紅[8]等人對視覺信息進(jìn)行改進(jìn)，提出了一種基于啟發(fā)式規(guī)則構(gòu)建可視塊與可視塊樹，然后進(jìn)行噪聲過濾與信息篩選的方法VBIE，該方法對于復(fù)雜網(wǎng)頁進(jìn)行信息抽取有較高的精確度與提取效率。

1.3 基于統(tǒng)計的網(wǎng)頁信息抽取方法

DOM（Document Object Model）能將HTML結(jié)構(gòu)轉(zhuǎn)化成樹形結(jié)構(gòu)，HTML中的每一個標(biāo)簽便對應(yīng)DOM樹中的一個節(jié)點，通過DOM樹能夠很方便地對HTML中的標(biāo)簽進(jìn)行訪問、修改等操作，同時，網(wǎng)頁中的信息在DOM樹結(jié)構(gòu)上都有相應(yīng)的特點。因此，也有針對DOM樹中信息節(jié)點的統(tǒng)計特征的研究。網(wǎng)頁中常見的統(tǒng)計特征有：文本密度特征[9-10]、文本字符特征[11]、DOM樹結(jié)構(gòu)特征[12]等。Patricia Jiménez等人[13]提出了一種Roller的方法，基于DOM樹，通過動態(tài)搜索來發(fā)現(xiàn)提取信息節(jié)點的上下文，該方法能夠適應(yīng)對新網(wǎng)頁進(jìn)行提取，有較好的擴(kuò)展性；文獻(xiàn)[14]則采用了從已知文本中進(jìn)行推斷的方法來進(jìn)行網(wǎng)頁信息的抽取。Sleiman H A等人[15]提出的TEX方法則不需要將HTML頁面轉(zhuǎn)化為DOM樹，而是采用多字符串對齊的方法對頁面文本進(jìn)行匹配與提取，并通過實驗證明該方法的有效性與高效性。對于特定類型的網(wǎng)頁，其具有不易變化的特征，因此基于統(tǒng)計的方法能夠很好地達(dá)到抽取的目的，但在普適性方面還是會有一定的局限性。

1.4 基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的信息抽取方法

隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的快速發(fā)展，也有研究者將其結(jié)合到網(wǎng)頁信息抽取的問題中，通過對DOM樹中的各類特征進(jìn)行分析與處理，然后通過機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法，訓(xùn)練模型來對這些特征進(jìn)行學(xué)習(xí)，進(jìn)而達(dá)到信息抽取的目的。文獻(xiàn)[11]的方法便基于SVM模型來對網(wǎng)頁中的信息進(jìn)行分類與提取，而Bill Yuchen Lin[16]等人提出了基于兩階段神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)頁信息提取方法FreeDOM，通過文本與字符信息學(xué)習(xí)頁面中DOM節(jié)點的表示，再使用關(guān)系神經(jīng)網(wǎng)絡(luò)來關(guān)聯(lián)遠(yuǎn)距離的語義相關(guān)性，該方法能經(jīng)少量網(wǎng)站數(shù)據(jù)訓(xùn)練后推廣到更多的新的站點。Wai F K等人[17]提出了CMDR方法，通過學(xué)習(xí)網(wǎng)頁特征構(gòu)建神經(jīng)網(wǎng)絡(luò)，并與現(xiàn)有的信息提取方法MDR[18]進(jìn)行結(jié)合。Liu J等人[19]提出VIBS算法則是結(jié)合了CNN來對頁面中的視覺塊進(jìn)行有效地劃分?；跈C(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法能夠在統(tǒng)計特征的基礎(chǔ)上發(fā)現(xiàn)一些更加隱蔽的網(wǎng)頁特征，從而能有更好的抽取效果，但模型訓(xùn)練需要研究者事先對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注，并且模型也是在特定類型與場景的網(wǎng)頁下進(jìn)行訓(xùn)練與預(yù)測，因此同樣也可能存在普適性的問題。

2 評價指標(biāo)

目前網(wǎng)頁信息抽取常見的評價方法為準(zhǔn)確率（Precision）、召回率（Recall）以及值，其對應(yīng)的計算公式為：

其中表示所抽取到的信息中為正確的部分，表示所抽取到的信息中為錯誤的部分，表示未被成功抽取的信息中，真實需要抽取的部分。準(zhǔn)確率越高，則說明抽取算法的結(jié)果越精準(zhǔn)，召回率越高，則說明抽取算法的結(jié)果越與正確結(jié)果相接近，而值則是對抽取算法的一個綜合評價指標(biāo)。

3 結(jié)束語

隨著互聯(lián)網(wǎng)發(fā)展，從各式各樣的WEB頁面中提取目標(biāo)信息成為一個巨大的挑戰(zhàn)。本文總結(jié)了目前常見的網(wǎng)頁信息抽取方法，并對其優(yōu)點與缺點進(jìn)行概括。網(wǎng)頁信息抽取目前已經(jīng)有許多優(yōu)秀的研究方法，并隨著技術(shù)的進(jìn)步在不斷優(yōu)化與創(chuàng)新，但這些方法都為針對特定類型或特征結(jié)構(gòu)的網(wǎng)頁進(jìn)行信息抽取，而對于是否有更加普適性的抽取方法還需要繼續(xù)研究與思考。

[1]Valter Crescenzi，Giansalvatore Mecca，Grammars have exceptions，Inf. Syst. 23（8）（1998）539–565.

[2]Joachim Hammer，Jason McHugh，Hector Garcia-Molina， Semistructured data：the TSIMMIS experience，in：Advances in Databases and Information Systems，1997，pp. 1-8.

[3]Arnaud Sahuguet，F(xiàn)abien Azavant，Building intelligent web applications using lightweight wrappers，Data Knowl. Eng. 36（3）（2001）283–316.

[4]Deng Cai ，Shipeng Yu ，Ji-Rong Wen ，et al ．VIPS ：a vi- sion-based page segmentation algorithm[R]．USA： Microsoft Technical Report，2003．

[5]Wei Liu，Xiaofeng Meng，Weiyi Meng．ViDE：a vision- based approach for deep web data extraction[J]．IEEE Trans．Knowl．Data Eng．，2009，22（3）：447-460．

[6]Anderson N，Hong J . Visually extracting data records from the deep web[C]// the 22nd International Conference. ACM，2013.

[7]Narwal N. Improving Web data extraction by noise removal[C]// Communication & Computing. IET，2013.

[8]王衛(wèi)紅，梁朝凱，閔勇. 基于可視塊的多記錄型復(fù)雜網(wǎng)頁信息提取算法[J]. 計算機(jī)科學(xué)，2019.

[9]王海艷，曹攀.基于節(jié)點屬性與正文內(nèi)容的海量Web信息抽取方法[J].通信學(xué)報，2016，37（10）：9-17.

[10]向菁菁，耿光剛，李曉東.一種新聞網(wǎng)頁關(guān)鍵信息的提取算法[J].計算機(jī)應(yīng)用，2016，36（08）：2082-2086+2120.

[11]周艷平，李金鵬，宋群豹. 一種基于SVM及文本密度特征的網(wǎng)頁信息提取方法[J]. 計算機(jī)應(yīng)用與軟件，2019，036（010）：251-255，261

[12]劉春梅，郭巖，俞曉明，等.針對開源論壇網(wǎng)頁的信息抽取研究[J].計算機(jī)科學(xué)與探索，2017，11（01）：114- 123.

[13]P Jiménez，Corchuelo R . Roller：a novel approach to Web information extraction[J]. Knowledge & Information Systems， 2016，208（1）：1-45.

[14]Raza M，Gulwani S . Web Data Extraction using Hybrid Program Synthesis：A Combination of Top-down and Bottom-up Inference[C]// SIGMOD/PODS '20：International Conference on Management of Data. 2020.

[15]Sleiman H A，Corchuelo R . TEX：An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based Systems，2013，39（feb.）：109-123.

[16]Lin B Y，Sheng Y，Vo N，et al. FreeDOM：A Transferable Neural Architecture for Structured Information Extraction on Web Documents[C]// KDD '20： The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. ACM，2020.

[17]Wai F K，Yong L W，Thing V，et al. CMDR：Classifying nodes for mining data records with different HTML structures[C]// Region 10 Conference. IEEE，2017：1862-1862.

[18]Yanhong Zhai and Bing Liu. Structured data extraction from the web based on partial tree alignment. IEEE Trans. on Knowl. and Data Eng.，18（12），2006.

[19]Liu J，Lin L，Cai Z，et al. Deep web data extraction based on visual information processing[J].Journal of Ambient Intelligence and Humanized Computing，2017：1-11.