亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DOM樹(shù)與模板的自適應(yīng)網(wǎng)絡(luò)信息抽取方法

        2022-09-06 13:16:56柏志安曾劍平
        關(guān)鍵詞:頁(yè)面文本信息

        柏志安 廖 健 曾劍平

        (上海交通大學(xué)醫(yī)學(xué)院附屬瑞金醫(yī)院信息中心 上海 200025)2(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433)

        0 引 言

        基于HTML Web頁(yè)面的網(wǎng)絡(luò)信息表示方法是當(dāng)前的主流,在微博、論壇、傳統(tǒng)網(wǎng)站、公眾號(hào)等不同類型應(yīng)用中廣泛使用。由于Web頁(yè)面中通常包含大量與真正內(nèi)容無(wú)關(guān)的其他信息,因此,從中抽取有用信息一直是研究和應(yīng)用的重要基礎(chǔ)。Web信息抽取主要用于從網(wǎng)頁(yè)中提取符合要求的信息內(nèi)容,這些信息通常是以一定的HTML標(biāo)簽標(biāo)注的,對(duì)提取出來(lái)的信息內(nèi)容可以以一定的方式進(jìn)行組織和存儲(chǔ),方便后續(xù)的分析或利用。

        論壇型網(wǎng)站頁(yè)面結(jié)構(gòu)復(fù)雜,包含了主帖列表、回帖列表、帖子中的各種用戶信息和帖子內(nèi)容等眾多信息。針對(duì)這些信息的抽取,目前還是傾向于使用基于模版的信息抽取技術(shù)為特定的頁(yè)面結(jié)構(gòu)生成特定抽取規(guī)則。然而這種類型頁(yè)面經(jīng)常進(jìn)行改版,包括結(jié)構(gòu)組織和頁(yè)面內(nèi)容的調(diào)整等,這就導(dǎo)致抽取規(guī)則需要重新設(shè)計(jì)。其原因在于,目前信息抽取技術(shù)缺乏對(duì)網(wǎng)頁(yè)本身特性的利用,整體自動(dòng)化水平不高。因此,對(duì)于Web頁(yè)面信息抽取而言,具有很大的挑戰(zhàn)性,研究具有普適性且能夠應(yīng)對(duì)網(wǎng)頁(yè)結(jié)構(gòu)變化的自適應(yīng)信息抽取算法是非常有必要的。

        1 相關(guān)工作

        Web信息抽取的技術(shù)根據(jù)不同的歸類方法有不同的分類。從自動(dòng)化的程度來(lái)說(shuō),可以分為非自動(dòng)化、半自動(dòng)化和全自動(dòng)化三類。從技術(shù)方法分類,可以分為基于視覺(jué)特征的方法、基于本體的方法、基于機(jī)器學(xué)習(xí)的方法、基于DOM樹(shù)結(jié)構(gòu)的方法和基于模版的方法[1]。

        基于視覺(jué)特征的算法利用視覺(jué)上的距離進(jìn)行分塊來(lái)區(qū)分不同主題的數(shù)據(jù),所使用的視覺(jué)特征有字體的大小和顏色、頁(yè)面背景顏色、間隔距離等。孫璐等[2]提出了一種基于視覺(jué)特征的Deep Web信息抽取方法,利用經(jīng)典的VIPS算法對(duì)頁(yè)面結(jié)構(gòu)進(jìn)行語(yǔ)義分塊,基于基準(zhǔn)視覺(jué)塊進(jìn)行信息抽取。

        基于本體的信息抽取方法通常先對(duì)Web頁(yè)面進(jìn)行預(yù)處理,包括網(wǎng)頁(yè)分塊。然后對(duì)網(wǎng)頁(yè)文本進(jìn)行詞性和語(yǔ)法分析,需要設(shè)計(jì)合理完善的知識(shí)庫(kù)并構(gòu)建領(lǐng)域本體,最后解析文本生成抽取規(guī)則。文獻(xiàn)[3-4]提出了利用本體的方法抽取信息,或通過(guò)建立完整的本體得到抽取規(guī)則或是在Web信息抽取中利用領(lǐng)域本體知識(shí)。劉麗娟等[5]采用向量空間模型結(jié)合特征詞權(quán)值,利用本體思想分析并計(jì)算主題相關(guān)度,從而達(dá)到提高特定主題網(wǎng)頁(yè)信息抽取質(zhì)量的目的。

        基于機(jī)器學(xué)習(xí)的抽取方法中,一類是利用實(shí)現(xiàn)觀察或分析結(jié)果定義若干能夠反映預(yù)期信息與噪聲信息差別的統(tǒng)計(jì)量,然后再進(jìn)行信息抽取。吳共慶等[6]結(jié)合標(biāo)簽路徑特征和文本塊密度的統(tǒng)計(jì)特征,提出了Web新聞信息抽取模型CEDP。李志義等[7]基于一類具有重復(fù)模式的頁(yè)面,提出了新的信息提取新方法,該方法利用聚類算法發(fā)現(xiàn)重復(fù)模式。另一類機(jī)器學(xué)習(xí)方法則引入一定的數(shù)學(xué)模型來(lái)描述抽取對(duì)象,劉志強(qiáng)等[8]將待抽取信息項(xiàng)視作為狀態(tài),將詞匯作為待抽取觀測(cè)項(xiàng),從而提出基于改進(jìn)的隱馬爾可夫模型的網(wǎng)頁(yè)信息抽取方法,對(duì)新聞報(bào)道中的關(guān)鍵信息進(jìn)行抽取。深度學(xué)習(xí)方法也開(kāi)始被用于Web信息抽取,趙朗[9]構(gòu)建了一種基于雙層循環(huán)神經(jīng)網(wǎng)絡(luò)的模型用于Web頁(yè)面信息的抽取。

        基于DOM樹(shù)的信息抽取領(lǐng)域也有較多的算法和成型的系統(tǒng)[10]?;诜种畏椒ǎ岢隽嗽贒OM上進(jìn)行最長(zhǎng)增量式序列的構(gòu)建和模板檢測(cè)算法[11]。馬曉慧等[12]將DOM樹(shù)標(biāo)簽路徑與行塊的分布密度相結(jié)合,利用視覺(jué)屬性剪枝去噪防止正文內(nèi)容誤刪,但對(duì)于短文本過(guò)多的網(wǎng)站,如論壇網(wǎng)頁(yè)缺乏準(zhǔn)確性。王海艷等[13]同樣利用視覺(jué)特征,提出剪枝和融合算法并引入MapReduce計(jì)算框架,實(shí)現(xiàn)并行化抽取目標(biāo)信息的效果。何云鋼等[14]選取DOM樹(shù)中每個(gè)

        節(jié)點(diǎn)及其子節(jié)點(diǎn)進(jìn)行篩選,只保留文字類型的子節(jié)點(diǎn),最后形成獨(dú)立而完整的段落,并將其組成分段的網(wǎng)頁(yè)文本內(nèi)容。

        基于模版的信息抽取針對(duì)的是通過(guò)讀取數(shù)據(jù)庫(kù)數(shù)據(jù)填充到統(tǒng)一模版生成的網(wǎng)頁(yè)。李寶密[15]提出了自動(dòng)生成模板的Web信息抽取方法,并將模板轉(zhuǎn)換成為結(jié)構(gòu)化形式。張方[16]提出了一種基于數(shù)據(jù)分塊的Web數(shù)據(jù)抽取規(guī)則生成算法,自動(dòng)生成基于Xpath和正則表達(dá)式的抽取規(guī)則模板。顧韻華等[17]結(jié)合DIV塊模板和表格模板,在領(lǐng)域本體指導(dǎo)下訓(xùn)練決策樹(shù)模型構(gòu)建DIV塊模板定位數(shù)據(jù)塊。

        綜上所述,這五類Web頁(yè)面信息抽取方法在各自不同的角度上提出了抽取技術(shù),基于視覺(jué)特征的抽取方法并無(wú)法區(qū)分信息塊中的有用信息,例如發(fā)帖人昵稱、發(fā)帖時(shí)間等?;诒倔w的方法則存在構(gòu)造本體的復(fù)雜問(wèn)題,并且抽取質(zhì)量與本體完整性有密切關(guān)系?;谀0宓姆椒ǜ蛴谌斯し治龅幕A(chǔ)上定義模板,在面對(duì)頁(yè)面改版時(shí)也會(huì)遇到很大問(wèn)題?;跈C(jī)器學(xué)習(xí)的方法試圖解決自適應(yīng)的問(wèn)題,但引入了閾值這類難以確定的參數(shù)或需要大量的標(biāo)注樣本?;贒OM樹(shù)具有直觀的方式,是HTML頁(yè)面表示的合適方法。

        本文充分利用了DOM樹(shù)和模板的優(yōu)勢(shì),提出新的方法解決頁(yè)面抽取的自適應(yīng)問(wèn)題。相對(duì)于現(xiàn)有Web信息抽取技術(shù),本文的創(chuàng)新點(diǎn)主要是:

        (1) 針對(duì)論壇型網(wǎng)頁(yè)信息抽取,提出一種基于DOM樹(shù)與模板的自適應(yīng)信息抽取算法。算法以擁有共同父節(jié)點(diǎn)的鄰近結(jié)構(gòu)進(jìn)行子樹(shù)定位,通過(guò)文本長(zhǎng)度、鏈接文本長(zhǎng)度等特征對(duì)子樹(shù)內(nèi)各個(gè)節(jié)點(diǎn)進(jìn)行進(jìn)一步的細(xì)分,從而生成信息抽取規(guī)則。盡管DOM樹(shù)、模板是Web信息抽取的常用方法,但是當(dāng)前的方法不能充分利用這兩者的優(yōu)勢(shì),導(dǎo)致Web頁(yè)面信息抽取時(shí),難以解決頁(yè)面改版帶來(lái)的程序重寫問(wèn)題。

        (2) 算法能夠自動(dòng)適應(yīng)實(shí)際應(yīng)用中的多種典型頁(yè)面改版操作,包括HTML標(biāo)簽類型、屬性和屬性值的增刪和修改,以及整個(gè)頁(yè)面中信息單元的位置移動(dòng)。本文方法能夠很好地針對(duì)這些改版自動(dòng)生成抽取規(guī)則并獲得比現(xiàn)有方法更好的抽取性能。

        2 論壇型網(wǎng)頁(yè)特性

        不同類型的網(wǎng)站由于功能與內(nèi)容偏重不同,頁(yè)面的布局往往相差很大。典型的新聞博客類網(wǎng)頁(yè)的布局通常是標(biāo)題位于上方,正文緊隨其后,這能很清楚地引導(dǎo)用戶關(guān)注標(biāo)題及正文的內(nèi)容。企業(yè)、學(xué)校等組織的官方網(wǎng)站則有導(dǎo)航和網(wǎng)站主體內(nèi)容分成兩個(gè)部分的頁(yè)面布局。本文算法針對(duì)的目標(biāo)是論壇型網(wǎng)頁(yè),不同論壇板塊頁(yè)或稱目錄頁(yè)的布局大同小異,通常來(lái)說(shuō)就是一個(gè)以帖子標(biāo)題為主要元素的列表,而帖子內(nèi)的布局可以分為主帖+回復(fù)樓層和只有回復(fù)樓層兩種,如圖1和圖2所示。

        圖1 主帖+回復(fù)樓層的帖內(nèi)頁(yè)面結(jié)構(gòu)

        圖2 只有回復(fù)樓層的帖內(nèi)頁(yè)面結(jié)構(gòu)

        對(duì)于圖1,不管從外觀還是從DOM樹(shù)的角度看,其主帖和下方的評(píng)論樓層都分屬不同的部分,可以容易地與評(píng)論樓層所在的區(qū)域區(qū)分開(kāi),因此,重點(diǎn)在于定位評(píng)論樓層所在的位置。

        2.1 多變性

        現(xiàn)代網(wǎng)頁(yè)多使用CSS文件來(lái)控制頁(yè)面布局外觀,實(shí)現(xiàn)了與html的分離。在設(shè)計(jì)得當(dāng)?shù)那闆r下,只要修改幾個(gè)CSS文件就可以同時(shí)對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行改版,在對(duì)應(yīng)的html標(biāo)簽的class屬性內(nèi)表明其歸屬類即可。也正是這種易修改性,使得網(wǎng)站設(shè)計(jì)人員進(jìn)行頁(yè)面改版變得更加容易。

        此外,部分網(wǎng)站由于反爬蟲(chóng)的需要,也會(huì)頻繁對(duì)節(jié)點(diǎn)屬性、節(jié)點(diǎn)標(biāo)簽,甚至是頁(yè)面結(jié)構(gòu)進(jìn)行改動(dòng)。對(duì)于通過(guò)xpath、css選擇器等方式定位節(jié)點(diǎn)再抓取信息的爬蟲(chóng)采集方式,這種變動(dòng)會(huì)導(dǎo)致抽取規(guī)則在改版后完全失效,需要根據(jù)變化情況對(duì)規(guī)則進(jìn)行人工調(diào)整,耗時(shí)耗力。另外,通過(guò)嵌入html的JavaScript腳本,可以輕易增加、刪除DOM樹(shù)上的節(jié)點(diǎn),修改已有節(jié)點(diǎn)的屬性、文本等。

        因此,考慮到上述多種原因產(chǎn)生的頁(yè)面多變性,本文不關(guān)注特定節(jié)點(diǎn)本身,而是從DOM樹(shù)整體結(jié)構(gòu)入手。根據(jù)論壇型網(wǎng)頁(yè)的特性,比較DOM樹(shù)子樹(shù)之間的相似性,自動(dòng)化地分析并獲取能夠定位到所需節(jié)點(diǎn)的抽取模板。

        2.2 子樹(shù)結(jié)構(gòu)的相似性

        現(xiàn)代Web網(wǎng)頁(yè)基本上都是采用div+css布局或table布局,前者因?yàn)閾碛懈玫目删S護(hù)性和更佳的性能在近幾年使用更多。然而不管使用什么格式的布局,正常的網(wǎng)頁(yè)設(shè)計(jì)者為了保證網(wǎng)頁(yè)的功能和后續(xù)可維護(hù),對(duì)頁(yè)面做出改版時(shí)都會(huì)遵循相似的原則。

        網(wǎng)頁(yè)中每個(gè)樓層內(nèi)的元素和其排列順序基本一致,主要變化在于用戶ID、用戶評(píng)論、評(píng)論時(shí)間對(duì)應(yīng)節(jié)點(diǎn)的文本。查看網(wǎng)頁(yè)的源代碼,能夠發(fā)現(xiàn)在帖內(nèi)的不同樓層分別屬于擁有相同class屬性的獨(dú)立的div容器,且都聚集在上一層的div容器內(nèi),樓層內(nèi)含有各個(gè)標(biāo)簽在div容器內(nèi)也是以同樣的順序排列。其下出現(xiàn)的標(biāo)簽、標(biāo)簽出現(xiàn)的次序、標(biāo)簽對(duì)應(yīng)的內(nèi)容,都是同樣的。因此從DOM樹(shù)的角度看,它們可以被視為掛在同一個(gè)父節(jié)點(diǎn)下的多棵結(jié)構(gòu)極度相似的子樹(shù)。

        不管各個(gè)節(jié)點(diǎn)的文本內(nèi)容或者DOM樹(shù)整體結(jié)構(gòu)發(fā)生什么樣的改變,為了保證網(wǎng)頁(yè)符合用戶的使用習(xí)慣,用戶評(píng)論或回復(fù)樓層在視覺(jué)上必然集中在一個(gè)區(qū)域內(nèi)。為了實(shí)現(xiàn)這種設(shè)計(jì),在DOM樹(shù)上它們也必然是掛在同一個(gè)上層節(jié)點(diǎn)下。這也就是說(shuō),本文算法中定位有效信息所在子樹(shù)的核心思想是:在DOM樹(shù)上論壇帖內(nèi)各樓層回帖,表現(xiàn)為擁有共同父節(jié)點(diǎn)的鄰近的結(jié)構(gòu)極度相似的子樹(shù)。因此,可以認(rèn)為對(duì)于論壇型網(wǎng)頁(yè)來(lái)說(shuō),通過(guò)識(shí)別相鄰的擁有相似結(jié)構(gòu)的子樹(shù)來(lái)選擇有效信息子樹(shù),即使修改樓層的一些節(jié)點(diǎn),只要它們多次重復(fù)出現(xiàn)且集中在相近區(qū)域內(nèi),就能正確識(shí)別。只要識(shí)別出這些代表樓層的有效信息子樹(shù)的位置,就可以進(jìn)一步地通過(guò)文本長(zhǎng)度、鏈接文本長(zhǎng)度等特征對(duì)子樹(shù)內(nèi)各個(gè)節(jié)點(diǎn)進(jìn)行進(jìn)一步的細(xì)分,判別它們各自的信息類別。

        3 算法流程

        本文算法重點(diǎn)在于定位有效內(nèi)容對(duì)應(yīng)的標(biāo)簽,生成抽取規(guī)則并提取文本,這需要遍歷DOM樹(shù)上所有節(jié)點(diǎn)。算法整體流程如圖3所示,在遍歷過(guò)程中,根據(jù)class屬性對(duì)節(jié)點(diǎn)進(jìn)行第一步的粗篩選生成候選集。因?yàn)閔tml標(biāo)簽的class屬性可以有多個(gè)值,為了方便操作,將其屬性值拼合成以“.”連接的字符串的形式,并將這個(gè)字符串為稱為節(jié)點(diǎn)的class屬性串。接下來(lái),獲取候選集內(nèi)所有class屬性串對(duì)應(yīng)節(jié)點(diǎn)的公共父節(jié)點(diǎn),隨后再根據(jù)候選集內(nèi)的情況做下一步的細(xì)分。下面分階段說(shuō)明算法執(zhí)行過(guò)程和原理。

        圖3 算法的整體結(jié)構(gòu)

        3.1 生成候選集

        要利用DOM樹(shù)進(jìn)行信息抽取,需要將HTML文檔轉(zhuǎn)換為對(duì)應(yīng)的DOM樹(shù),之后,所需的回復(fù)樓層部分的信息變成了多棵結(jié)構(gòu)相似的子樹(shù),且這些子樹(shù)的父節(jié)點(diǎn)擁有相同的標(biāo)簽和屬性。如果能得到這些子樹(shù)在DOM樹(shù)的位置,我們的問(wèn)題就可以轉(zhuǎn)換為對(duì)這些有效信息子樹(shù)的直接處理。

        在根據(jù)html構(gòu)建DOM樹(shù)前需要過(guò)濾掉不存儲(chǔ)有效信息的html標(biāo)簽及其內(nèi)部?jī)?nèi)容,這些標(biāo)簽包括:

        乱码一二三入区口| 欧美牲交a欧美牲交| 亚洲国产天堂久久综合网| 色婷婷日日躁夜夜躁| 综合图区亚洲另类偷窥| 深夜黄色刺激影片在线免费观看 | 女人被狂躁c到高潮视频| 国产人澡人澡澡澡人碰视频| 亚洲图片第二页| 北条麻妃在线中文字幕| 绝顶潮喷绝叫在线观看 | 亚洲欧美在线视频| 丝袜美腿诱惑区在线播放| 在线播放真实国产乱子伦| 成年女人毛片免费观看97| jiZZ国产在线女人水多| 日韩av天堂一区二区| 人妻少妇乱子伦精品无码专区电影 | 国产精品久久久久久久久免费| 久久精品免视看国产明星| 一区二区三区在线乱码| 人妻丰满熟av无码区hd| 正在播放国产对白孕妇作爱| 久久AⅤ无码精品色午麻豆| 中文字幕中文字幕在线中二区 | 日韩a毛片免费观看| 欧美一级鲁丝片免费一区| 那有一级内射黄片可以免费看| 少妇下面好紧好多水真爽播放| 国产真实露脸4p视频| 少妇一区二区三区精选| 一本一道vs无码中文字幕| 少妇内射视频播放舔大片| 日产精品一区二区三区免费| 青青草在线这里只有精品| 免费看黄色电影| 亚洲男人天堂av在线| 国产av丝袜熟女丰满一区二区| 亚洲春色在线视频| 精品亚洲午夜久久久久| 看国产亚洲美女黄色一级片 |