◆王立志
網(wǎng)頁信息抽取方法綜述
◆王立志
(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 四川 610065)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)中的信息正在爆炸式地增長,網(wǎng)頁作為網(wǎng)絡(luò)中信息表達(dá)的方式之一,其結(jié)構(gòu)也變得越來越復(fù)雜。而如何精確、高效地從網(wǎng)頁中獲取目標(biāo)信息成為一個問題。本文總結(jié)現(xiàn)有的針對網(wǎng)頁的信息抽取方法并加以分類,同時分析其優(yōu)缺點,最后對未來的研究內(nèi)容進(jìn)行展望。
信息抽?。籛EB網(wǎng)頁;DOM樹
根據(jù)2021年第48次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》所發(fā)布的內(nèi)容,截至2021年6月,我國網(wǎng)站數(shù)量達(dá)到422萬個,這些網(wǎng)站構(gòu)成了一個巨大的開源信息庫。人們可以通過數(shù)據(jù)分析的方法,從這些海量的互聯(lián)網(wǎng)數(shù)據(jù)中獲取到具有巨大價值的情報。而網(wǎng)頁作為互聯(lián)網(wǎng)中信息展示與表達(dá)的重要方式之一,成為人們從互聯(lián)網(wǎng)中獲取信息的重要入口之一。通過編寫爬蟲程序訪問網(wǎng)頁,就能獲取到互聯(lián)網(wǎng)中各個網(wǎng)站的頁面信息,作為后續(xù)數(shù)據(jù)挖掘與分析等工作的基礎(chǔ)數(shù)據(jù)。但由于互聯(lián)網(wǎng)中網(wǎng)頁具有數(shù)量龐大、頁面結(jié)構(gòu)差異大,數(shù)據(jù)實時性強(qiáng)等特點,因此從不同類型、不同結(jié)構(gòu)的網(wǎng)頁中自動抽取目標(biāo)信息成為一個巨大的挑戰(zhàn)。
從頁面結(jié)構(gòu)的角度看,網(wǎng)頁可以分為兩類:
非結(jié)構(gòu)化網(wǎng)頁,其頁面中包含大量有較高自由度的文本數(shù)據(jù),如新聞網(wǎng)頁,博客網(wǎng)頁等;半結(jié)構(gòu)化網(wǎng)頁,其頁面中包含有結(jié)構(gòu)較為固定的文本或固定的頁面結(jié)構(gòu),如購物網(wǎng)站的商品頁面,新聞網(wǎng)站的導(dǎo)航頁面等。
信息抽取解決的問題,是如何從非結(jié)構(gòu)化以及半結(jié)構(gòu)化的頁面中,識別并獲取到目標(biāo)信息,即如何將目標(biāo)信息結(jié)構(gòu)化的問題。其目的是實現(xiàn)從網(wǎng)頁中精確地、高效地提取目標(biāo)信息。隨著研究者對該問題的深入研究,出現(xiàn)了許多優(yōu)秀的網(wǎng)頁信息抽取方法,大大推動了網(wǎng)頁信息抽取技術(shù)的發(fā)展。
目前常見的網(wǎng)頁信息抽取方法有:基于手工的抽取方法、基于視覺的抽取方法、基于統(tǒng)計的抽取方法,以及基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的抽取方法。
早期互聯(lián)網(wǎng)中大多為靜態(tài)頁面,對于獲取網(wǎng)頁中的信息,較為簡單的方法為:利用XPATH、CSS、正則表達(dá)式等方法,手工編寫對應(yīng)的提取規(guī)則來實現(xiàn)對頁面中信息的抽取[1-3]。該方法具有精確度高的特點,能夠根據(jù)需求對網(wǎng)頁中的目標(biāo)信息進(jìn)行精確定位與獲取,但該方法人工參與度高,耗時長,頁面發(fā)生變化后便需要再次對提取規(guī)則進(jìn)行修改,維護(hù)成本大,不適用于大批量目標(biāo)網(wǎng)站信息提取的場景。
網(wǎng)頁的視覺結(jié)構(gòu)能夠天然地將信息進(jìn)行分類,以便于瀏覽者輕松地定位到自己想要的信息,通過對其視覺結(jié)構(gòu)特征進(jìn)行分析與處理,能夠很好地從人們視覺瀏覽角度解析頁面,從而提高信息提取的準(zhǔn)確性,因此,出現(xiàn)了對網(wǎng)頁視覺結(jié)構(gòu)上的研究方法。VIPS[4]算法是最早的基于視覺分塊的抽取方法,由微軟公司所提出。該方法通過使用頁面視覺上的分塊特征對頁面的內(nèi)容進(jìn)行抽取與分類。此后,Wei Liu等人提出的VIDE[5]方法、Neil等人[6]所提出的抽取算法以及Narwal等人[7]提出的算法均基于視覺分塊特征?;谝曈X結(jié)構(gòu)的方法對于結(jié)構(gòu)簡單的頁面能夠有較好的提取效果,但隨著網(wǎng)絡(luò)發(fā)展,WEB頁面中的結(jié)構(gòu)變得更加復(fù)雜,信息也變得不再單一,塊與塊之間的界限也變得模糊,提取難度也逐漸增大。近期,王衛(wèi)紅[8]等人對視覺信息進(jìn)行改進(jìn),提出了一種基于啟發(fā)式規(guī)則構(gòu)建可視塊與可視塊樹,然后進(jìn)行噪聲過濾與信息篩選的方法VBIE,該方法對于復(fù)雜網(wǎng)頁進(jìn)行信息抽取有較高的精確度與提取效率。
DOM(Document Object Model)能將HTML結(jié)構(gòu)轉(zhuǎn)化成樹形結(jié)構(gòu),HTML中的每一個標(biāo)簽便對應(yīng)DOM樹中的一個節(jié)點,通過DOM樹能夠很方便地對HTML中的標(biāo)簽進(jìn)行訪問、修改等操作,同時,網(wǎng)頁中的信息在DOM樹結(jié)構(gòu)上都有相應(yīng)的特點。因此,也有針對DOM樹中信息節(jié)點的統(tǒng)計特征的研究。網(wǎng)頁中常見的統(tǒng)計特征有:文本密度特征[9-10]、文本字符特征[11]、DOM樹結(jié)構(gòu)特征[12]等。Patricia Jiménez等人[13]提出了一種Roller的方法,基于DOM樹,通過動態(tài)搜索來發(fā)現(xiàn)提取信息節(jié)點的上下文,該方法能夠適應(yīng)對新網(wǎng)頁進(jìn)行提取,有較好的擴(kuò)展性;文獻(xiàn)[14]則采用了從已知文本中進(jìn)行推斷的方法來進(jìn)行網(wǎng)頁信息的抽取。Sleiman H A等人[15]提出的TEX方法則不需要將HTML頁面轉(zhuǎn)化為DOM樹,而是采用多字符串對齊的方法對頁面文本進(jìn)行匹配與提取,并通過實驗證明該方法的有效性與高效性。對于特定類型的網(wǎng)頁,其具有不易變化的特征,因此基于統(tǒng)計的方法能夠很好地達(dá)到抽取的目的,但在普適性方面還是會有一定的局限性。
隨著機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的快速發(fā)展,也有研究者將其結(jié)合到網(wǎng)頁信息抽取的問題中,通過對DOM樹中的各類特征進(jìn)行分析與處理,然后通過機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法,訓(xùn)練模型來對這些特征進(jìn)行學(xué)習(xí),進(jìn)而達(dá)到信息抽取的目的。文獻(xiàn)[11]的方法便基于SVM模型來對網(wǎng)頁中的信息進(jìn)行分類與提取,而Bill Yuchen Lin[16]等人提出了基于兩階段神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)頁信息提取方法FreeDOM,通過文本與字符信息學(xué)習(xí)頁面中DOM節(jié)點的表示,再使用關(guān)系神經(jīng)網(wǎng)絡(luò)來關(guān)聯(lián)遠(yuǎn)距離的語義相關(guān)性,該方法能經(jīng)少量網(wǎng)站數(shù)據(jù)訓(xùn)練后推廣到更多的新的站點。Wai F K等人[17]提出了CMDR方法,通過學(xué)習(xí)網(wǎng)頁特征構(gòu)建神經(jīng)網(wǎng)絡(luò),并與現(xiàn)有的信息提取方法MDR[18]進(jìn)行結(jié)合。Liu J等人[19]提出VIBS算法則是結(jié)合了CNN來對頁面中的視覺塊進(jìn)行有效地劃分?;跈C(jī)器學(xué)習(xí)與深度學(xué)習(xí)的方法能夠在統(tǒng)計特征的基礎(chǔ)上發(fā)現(xiàn)一些更加隱蔽的網(wǎng)頁特征,從而能有更好的抽取效果,但模型訓(xùn)練需要研究者事先對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,并且模型也是在特定類型與場景的網(wǎng)頁下進(jìn)行訓(xùn)練與預(yù)測,因此同樣也可能存在普適性的問題。
目前網(wǎng)頁信息抽取常見的評價方法為準(zhǔn)確率(Precision)、召回率(Recall)以及值,其對應(yīng)的計算公式為:
其中表示所抽取到的信息中為正確的部分,表示所抽取到的信息中為錯誤的部分,表示未被成功抽取的信息中,真實需要抽取的部分。準(zhǔn)確率越高,則說明抽取算法的結(jié)果越精準(zhǔn),召回率越高,則說明抽取算法的結(jié)果越與正確結(jié)果相接近,而值則是對抽取算法的一個綜合評價指標(biāo)。
隨著互聯(lián)網(wǎng)發(fā)展,從各式各樣的WEB頁面中提取目標(biāo)信息成為一個巨大的挑戰(zhàn)。本文總結(jié)了目前常見的網(wǎng)頁信息抽取方法,并對其優(yōu)點與缺點進(jìn)行概括。網(wǎng)頁信息抽取目前已經(jīng)有許多優(yōu)秀的研究方法,并隨著技術(shù)的進(jìn)步在不斷優(yōu)化與創(chuàng)新,但這些方法都為針對特定類型或特征結(jié)構(gòu)的網(wǎng)頁進(jìn)行信息抽取,而對于是否有更加普適性的抽取方法還需要繼續(xù)研究與思考。
[1]Valter Crescenzi,Giansalvatore Mecca,Grammars have exceptions,Inf. Syst. 23(8)(1998)539–565.
[2]Joachim Hammer,Jason McHugh,Hector Garcia-Molina, Semistructured data:the TSIMMIS experience,in:Advances in Databases and Information Systems,1997,pp. 1-8.
[3]Arnaud Sahuguet,F(xiàn)abien Azavant,Building intelligent web applications using lightweight wrappers,Data Knowl. Eng. 36(3)(2001)283–316.
[4]Deng Cai ,Shipeng Yu ,Ji-Rong Wen ,et al .VIPS :a vi- sion-based page segmentation algorithm[R].USA: Microsoft Technical Report,2003.
[5]Wei Liu,Xiaofeng Meng,Weiyi Meng.ViDE:a vision- based approach for deep web data extraction[J].IEEE Trans.Knowl.Data Eng.,2009,22(3):447-460.
[6]Anderson N,Hong J . Visually extracting data records from the deep web[C]// the 22nd International Conference. ACM,2013.
[7]Narwal N. Improving Web data extraction by noise removal[C]// Communication & Computing. IET,2013.
[8]王衛(wèi)紅,梁朝凱,閔勇. 基于可視塊的多記錄型復(fù)雜網(wǎng)頁信息提取算法[J]. 計算機(jī)科學(xué),2019.
[9]王海艷,曹攀.基于節(jié)點屬性與正文內(nèi)容的海量Web信息抽取方法[J].通信學(xué)報,2016,37(10):9-17.
[10]向菁菁,耿光剛,李曉東.一種新聞網(wǎng)頁關(guān)鍵信息的提取算法[J].計算機(jī)應(yīng)用,2016,36(08):2082-2086+2120.
[11]周艷平,李金鵬,宋群豹. 一種基于SVM及文本密度特征的網(wǎng)頁信息提取方法[J]. 計算機(jī)應(yīng)用與軟件,2019,036(010):251-255,261
[12]劉春梅,郭巖,俞曉明,等.針對開源論壇網(wǎng)頁的信息抽取研究[J].計算機(jī)科學(xué)與探索,2017,11(01):114- 123.
[13]P Jiménez,Corchuelo R . Roller:a novel approach to Web information extraction[J]. Knowledge & Information Systems, 2016,208(1):1-45.
[14]Raza M,Gulwani S . Web Data Extraction using Hybrid Program Synthesis:A Combination of Top-down and Bottom-up Inference[C]// SIGMOD/PODS '20:International Conference on Management of Data. 2020.
[15]Sleiman H A,Corchuelo R . TEX:An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based Systems,2013,39(feb.):109-123.
[16]Lin B Y,Sheng Y,Vo N,et al. FreeDOM:A Transferable Neural Architecture for Structured Information Extraction on Web Documents[C]// KDD '20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. ACM,2020.
[17]Wai F K,Yong L W,Thing V,et al. CMDR:Classifying nodes for mining data records with different HTML structures[C]// Region 10 Conference. IEEE,2017:1862-1862.
[18]Yanhong Zhai and Bing Liu. Structured data extraction from the web based on partial tree alignment. IEEE Trans. on Knowl. and Data Eng.,18(12),2006.
[19]Liu J,Lin L,Cai Z,et al. Deep web data extraction based on visual information processing[J].Journal of Ambient Intelligence and Humanized Computing,2017:1-11.