亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        任意網(wǎng)頁的主題信息抽取研究

        2017-11-27 08:58:34張儒清俞曉明程學旗
        中文信息學報 2017年5期
        關(guān)鍵詞:頁面分類實驗

        張儒清,郭 巖,劉 悅,俞曉明,程學旗

        (1. 中國科學院計算技術(shù)研究所 中國科學院網(wǎng)絡數(shù)據(jù)科學與技術(shù)重點實驗室, 北京 100190;2. 中國科學院大學,北京 100190)

        任意網(wǎng)頁的主題信息抽取研究

        張儒清1,2,郭 巖1,劉 悅1,俞曉明1,程學旗1

        (1. 中國科學院計算技術(shù)研究所 中國科學院網(wǎng)絡數(shù)據(jù)科學與技術(shù)重點實驗室, 北京 100190;2. 中國科學院大學,北京 100190)

        目前大部分的網(wǎng)頁信息抽取方法都局限于某一類網(wǎng)頁的提取,并沒有進一步深入到適用于任意網(wǎng)頁的抽取。針對這一問題,該文提出了一種基于融合機制的任意網(wǎng)頁主題信息抽取框架,特點是通過“模板庫匹配—基于模板抽取—網(wǎng)頁分類—全自動抽取”四個步驟實現(xiàn)對模板無關(guān)的全自動抽取算法和基于模板的抽取算法的融合。實驗顯示,這種融合機制能促進抽取準確率的有效提高,從而最終建立起一個適用于任意網(wǎng)頁的、具有實用價值的信息抽取框架。

        任意網(wǎng)頁;主題信息;網(wǎng)頁分類;實用價值

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)頁的主題信息逐漸成為信息檢索(information retrieval)、數(shù)據(jù)挖掘(data mining)和機器翻譯(machine translation)等互聯(lián)網(wǎng)應用的基礎(chǔ)數(shù)據(jù),從網(wǎng)頁中抽取出高質(zhì)量的主題信息對于這些應用來說非常關(guān)鍵。例如,對于信息檢索,主題信息抽取結(jié)果的質(zhì)量會直接影響檢索的準確率。網(wǎng)頁主題信息是指與網(wǎng)頁主題相關(guān)的內(nèi)容,包括正文、作者、來源、標題、發(fā)布時間等。其他與主題無關(guān)的內(nèi)容叫作噪聲內(nèi)容塊,如廣告鏈接、導航條、版權(quán)信息、裝飾信息等。網(wǎng)頁信息抽取的目標就是,去除網(wǎng)頁中的干擾信息,保留和頁面主題相關(guān)的有效信息。從某種角度上講,主題信息的抽取質(zhì)量直接決定了網(wǎng)絡應用服務的效果。因此,網(wǎng)頁信息抽取一直是近年來研究的熱點。

        現(xiàn)有的網(wǎng)頁信息抽取方法都普遍針對某一類的常規(guī)頁面,還沒有一個方法能夠通用于所有類型的網(wǎng)頁。在工程實踐中,處理的是類型多樣、包含大量噪聲、結(jié)構(gòu)復雜且多變的海量網(wǎng)頁數(shù)據(jù)。例如,元搜索引擎,其將用戶的檢索提問同時提交給多個獨立的搜索引擎,并對檢索結(jié)果去重、排序。在這種應用場景下,每天處理的都是上百萬級別的大規(guī)模數(shù)據(jù),傳統(tǒng)的局限于某一類網(wǎng)頁的抽取方法根本無法滿足實際需求。面對互聯(lián)網(wǎng)上網(wǎng)頁規(guī)模的膨脹和信息來源的增加,如何準確、快速地定位并抽取出網(wǎng)頁的主題信息,是一項具有重要意義卻充滿挑戰(zhàn)的工作。

        目前在這個領(lǐng)域已經(jīng)有很多關(guān)于網(wǎng)頁信息抽取的研究成果,主流方法主要分為基于模板的抽取方法和模板無關(guān)的全自動抽取方法?;谀0宓男畔⒊槿》椒◤娨蕾囉贖TML內(nèi)部結(jié)構(gòu)特征,因為同一類數(shù)據(jù)源的HTML結(jié)構(gòu)特征都是類似的。網(wǎng)頁模板是指屬于相同網(wǎng)站的網(wǎng)頁共同包含的一些穩(wěn)定的裝飾結(jié)構(gòu)和功能結(jié)構(gòu)。大多數(shù)傳統(tǒng)的基于模板的方法都利用模板的這個特點,依據(jù)某一類網(wǎng)頁中穩(wěn)定的部分生成該類網(wǎng)頁的公共模板,用來抽取結(jié)構(gòu)相近的網(wǎng)頁中的信息。其優(yōu)點是當模板質(zhì)量高且網(wǎng)頁結(jié)構(gòu)足夠相似時,抽取準確率較高,且抽取速度較快。如果待提取信息的網(wǎng)頁規(guī)模較大且來自很多類數(shù)據(jù)源,就會導致模板制作工作量的增大及維護代價的提高。當某一類頁面的結(jié)構(gòu)發(fā)生變化時,原有的模板就有失效的風險,無法適應網(wǎng)頁結(jié)構(gòu)的變化。模板無關(guān)的全自動信息抽取方法通常利用一些經(jīng)驗規(guī)則處理特定領(lǐng)域或特定格式的網(wǎng)頁,極大地提高了信息抽取的自動化程度。常見的方式有基于文本密度、鏈接文本密度及視覺信息等方式。這種無關(guān)模板的方法特別適用于存在大量異構(gòu)數(shù)據(jù)源的網(wǎng)絡應用中,使得大規(guī)模、多數(shù)據(jù)源的信息抽取成為可能。但該類方法通?;谶^強的假設,當處理不符合相應算法假設的頁面時,會導致抽取精度不佳、效率較低的情況。針對目前面對的挑戰(zhàn),即大規(guī)模真實數(shù)據(jù)的處理,已有的方法根本無法滿足實際需求。

        針對已有方法的缺陷,以及面對的挑戰(zhàn),本文在相關(guān)研究的基礎(chǔ)上,將模板無關(guān)的全自動抽取方法和基于模板的抽取方法巧妙地融合起來,提出了一個適用于任意網(wǎng)頁的主題信息抽取框架。當今互聯(lián)網(wǎng)中頁面種類繁多(網(wǎng)站首頁、版塊頁面、列表頁、專題頁、內(nèi)容頁等),解決所有網(wǎng)頁的主題信息抽取問題具有很強的挑戰(zhàn)性,我們希望能著重解決對后續(xù)應用有價值的常規(guī)網(wǎng)頁的主題信息抽取問題。本文主要關(guān)注內(nèi)容頁,即內(nèi)容所在的最終頁面。內(nèi)容頁通常分為單記錄頁面和多記錄頁面兩類。圖1上半部分為單記錄頁面,通常指新聞、博客等包含一條正文記錄的網(wǎng)頁;圖1下半部分為多記錄網(wǎng)頁,通常指包含跟帖的論壇帖子、 新 聞評論等包含多條正文的

        圖1 兩類內(nèi)容頁面

        圖1 兩類內(nèi)容頁面(續(xù))

        網(wǎng)頁。對于這些頁面,我們采用相應的算法進行抽取。對于非內(nèi)容頁面(版塊頁、網(wǎng)站首頁等),通常是由大量錨文本組成的內(nèi)容頁面索引頁,由于包含的主題信息較少,我們視為其他類,使用較為簡單的抽取方法。

        本文的主要貢獻主要有以下四點。

        首先,提出了一個針對任意網(wǎng)頁的多元主題信息的抽取框架。該框架可處理任意網(wǎng)頁,不限網(wǎng)頁類型,很好地融合了模板無關(guān)的全自動信息抽取方法和基于模板的信息抽取方法,使得兩類算法能夠相輔相成。實驗結(jié)果表明,該框架在結(jié)果準確率方面有很大的提升。

        其次,針對沒有通用于所有類型網(wǎng)頁的抽取方法的問題,我們提出了先分類后處理的策略。具體做法是: 按照網(wǎng)頁的綜合特征對網(wǎng)頁進行分類,通過不同的全自動方法來提取網(wǎng)頁中的主題信息。實驗表明,這種策略能明顯提高信息抽取準確率,擴大抽取范圍。

        然后,該框架具有很好的擴展性,其中一些關(guān)鍵環(huán)節(jié)可根據(jù)實際需求進行替換。

        最后,實際應用中處理的是海量在線網(wǎng)頁,結(jié)構(gòu)復雜多變,噪聲信息眾多。該架構(gòu)為了解決實際問題而生,具有很強的實用性和應用前景。

        2 相關(guān)工作

        我們的目標是抽取出任意網(wǎng)頁中包含的有價值文本信息,為之后的數(shù)據(jù)分析提供優(yōu)質(zhì)的基礎(chǔ)數(shù)據(jù)。目前,基于模板的信息抽取方法和模板無關(guān)的全自動信息抽取方法以其特有的優(yōu)勢占據(jù)了主流位置。

        基于模板的信息抽取方法設定同類網(wǎng)頁有著相似的結(jié)構(gòu)特征。文獻[1]對該方法進行了全面的概述。經(jīng)典方法有文獻[2]提出的包裝器歸納方法Softmealy,文獻[3]提出的無監(jiān)督方法RoadRunner,文獻[4]提出的有監(jiān)督方法STALKER,文獻[5]提出的半監(jiān)督學習方法OLERA。基于模板的網(wǎng)頁信息抽取方法在模板的生成和維護上都是費時費力的,人工難以滿足實際需求。

        模板無關(guān)的全自動信息抽取方法僅根據(jù)網(wǎng)頁自身相關(guān)特征進行抽取,不依賴于模板,極大提高了信息抽取的自動化程度。文獻[6]采用基于網(wǎng)頁正文文本密度最大的假設,但對于正文所在區(qū)間內(nèi)出現(xiàn)比正文更長的噪聲的網(wǎng)頁,該方法會導致正文抽取錯誤。文獻[7]通過計算鏈接文本比確定正文所在區(qū)域,但版權(quán)信息噪聲一般不包含超鏈接,因此無法準確判斷正文位置。文獻[8]利用網(wǎng)頁的視覺化特征將頁面劃分成視覺塊,提取網(wǎng)頁正中間且比較突出的信息作為主題內(nèi)容,但開銷大,無法滿足實際需求。

        目前研究的網(wǎng)頁信息集中在某一類單記錄頁面,且較少看到對除正文以外其他主題信息的研究。本文通過“模板庫匹配—基于模板抽取—網(wǎng)頁分類—全自動抽取”四個步驟實現(xiàn)對模板無關(guān)的全自動抽取方法和基于模板的抽取方法的融合。

        3 對任意網(wǎng)頁的信息抽取框架

        本文框架的思路是先將無法使用基于模板的抽取方法抽取的網(wǎng)頁與抽取成功的網(wǎng)頁區(qū)分開來,對抽取失敗的網(wǎng)頁進行分類,再針對不同類別分別進行抽取。其中,對于其他類網(wǎng)頁,即非內(nèi)容頁面,我們采用較為簡單的抽取算法。在實際應用中,網(wǎng)頁種類繁多,結(jié)構(gòu)復雜,單一的抽取方法根本無法滿足需求,因此該框架對解決實際問題有很大的應用價值,并基本能覆蓋所有的常規(guī)頁面。

        本框架先用速度較快、抽取信息較準確、但抽取范圍較窄的基于模板的抽取方法對網(wǎng)頁進行信息抽取。若模板匹配失敗,則對網(wǎng)頁進行分類,使用全自動抽取方法抽取信息,整體流程如圖2所示。

        圖2 任意網(wǎng)頁的主題信息抽取架構(gòu)圖

        具體抽取步驟如下:

        ① 讀入待抽取信息的網(wǎng)頁HTML文件。

        ② 通過網(wǎng)頁URL匹配過濾可以解析的網(wǎng)頁,從數(shù)據(jù)庫中取出對應模板,采用基于模板的抽取方法將可解析的網(wǎng)頁進行網(wǎng)頁結(jié)構(gòu)化處理,并抽取主題信息。

        ③ 驗證基于模板的抽取信息是否正確,成功,轉(zhuǎn)向第⑥步,失敗,轉(zhuǎn)向第④步。

        ④ 對網(wǎng)頁進行分類,即單記錄網(wǎng)頁、多記錄網(wǎng)頁和其他。其中單記錄網(wǎng)頁具體指新聞、博客,多記錄網(wǎng)頁具體指論壇。

        ⑤ 若為單記錄網(wǎng)頁,則采用單記錄網(wǎng)頁全自動抽取算法抽??;若為多記錄網(wǎng)頁,首先判斷識別其是否為開源軟件生成。若識別成功,則采用基于模板的抽取方法;若失敗,則采用多記錄網(wǎng)頁全自動抽取算法;若為“其他”,則采用其他類網(wǎng)頁的全自動抽取算法。

        ⑥ 獲取抽取結(jié)果,保存信息。

        4 關(guān)鍵技術(shù)

        我們將詳細論述本文提出的框架包含的關(guān)鍵技術(shù)。

        4.1 基于Trie樹的URL匹配

        基于模板的信息抽取方法是網(wǎng)頁信息抽取中的傳統(tǒng)方法。我們采用人工方式,分版塊制作模板,并使用文獻[3]的方法對匹配成功的網(wǎng)頁進行抽取。

        我們逐個使用數(shù)據(jù)庫中的模板對網(wǎng)頁進行匹配,會消耗大量的時間,并且若模板匹配失敗會導致抽取結(jié)果的失敗。因此,如果能直接使用網(wǎng)頁所在版塊的模板,勢必會對系統(tǒng)的運行效率和準確率有很客觀地改善。

        同一版塊的網(wǎng)頁URL具有較高的相似性,不同版塊的網(wǎng)頁URL具有較高的差異性,因此可以根據(jù)網(wǎng)頁的URL識別網(wǎng)頁的所屬版塊。本文使用數(shù)據(jù)庫中的所有版塊URL建立Trie樹來進行網(wǎng)頁URL的過濾分析。Trie樹,即字典樹,是一種樹形結(jié)構(gòu),是一種哈希樹的變種。它的優(yōu)點是最大限度地減少無謂的字符串比較,查詢效率比哈希表高。本文正是利用Trie樹的優(yōu)點對網(wǎng)頁所屬版塊進行篩選。

        Trie樹的前綴匹配是找出一個字符串集合中以相同子字符串開頭的字符串。我們先對數(shù)據(jù)庫中的所有版塊URL去除開頭的“http://”,然后以“/”拆分URL生成多個子字符串,最后用所有的子字符串構(gòu)造Trie樹。當輸入一個網(wǎng)頁URL時,若能搜索到任一葉子節(jié)點且建樹時該路徑只訪問一次,則認為查詢成功,否則查詢失敗。

        4.2 網(wǎng)頁分類

        在眾多網(wǎng)絡輿情載體中,新聞、博客和論壇是三種最強大的網(wǎng)絡輿論載體。本文將網(wǎng)頁分為新聞、博客、論壇及其他四大類。現(xiàn)有的網(wǎng)頁信息抽取方法種類繁多,各有所長,但還沒有一個算法能夠通用于所有類型的網(wǎng)頁。因此,分而治之地對網(wǎng)頁進行信息抽取,能提高抽取準確率和效率。

        根據(jù)不同類型網(wǎng)頁的文本特征、結(jié)構(gòu)特征及超鏈接特征等,我們構(gòu)建了面向內(nèi)容頁面類型識別的特征集,進行特征選擇后,應用SVM[9]對數(shù)據(jù)集進行訓練。但若僅采用上述學習的方法,訓練集的質(zhì)量會直接影響最后模型的預測表現(xiàn),除了很難得到大量訓練集外,還很難得到優(yōu)秀的訓練集。然而實際需求更加傾向于準確率,所以通過較嚴格的規(guī)則挑選出高質(zhì)量的網(wǎng)頁,不僅能更加準確地對網(wǎng)頁進行分類,同時時間開銷較小。針對兩種方法的優(yōu)缺點,本文提出了以規(guī)則分類算法為主、機器學習分類方法為輔的基于網(wǎng)頁綜合特征的分類算法,其框架如圖3所示。

        圖3 網(wǎng)頁類型判斷算法框架

        基于網(wǎng)頁綜合特征的分類算法分為三大步驟:

        ① 基于SVM分類器的網(wǎng)頁分類算法: 根據(jù)訓練數(shù)據(jù)中網(wǎng)頁HTML源碼或DOM樹屬性,得到預先定義的特征,包含文本特征、結(jié)構(gòu)特征、超鏈接特征及標簽特征,對這些特征進行訓練,生成分類器。其中,文本特征為每個預先設定的文本特征詞的頻率;結(jié)構(gòu)特征為DOM樹中h1、h2、h3節(jié)點出現(xiàn)的頻率,以及head子數(shù)中的title和meta節(jié)點中出現(xiàn)預先設定的特征詞出現(xiàn)的頻率;超鏈接特征為所有鏈接里出現(xiàn)預先設定的特征詞的頻率;標簽特征為每個tag節(jié)點數(shù)量占總tag節(jié)點數(shù)量的比率。新進入一個目標網(wǎng)頁時,重復特征提取,使用分類器對網(wǎng)頁分類。

        ② 基于嚴格規(guī)則的網(wǎng)頁分類方法。首先通過嚴格的關(guān)鍵詞識別網(wǎng)頁類型,比如由Discuz!生成的論壇頁面中,帖子頁面中都含有l(wèi)t;divgt;或者lt;tdgt;標簽,包含屬性id=“postmessage_”。如果頁面中含有這個字符串,則可以被判定為是論壇的帖子頁面。然后對網(wǎng)頁是否是內(nèi)容頁面進行判斷,網(wǎng)頁中的噪聲多是成塊的鏈接,移除網(wǎng)頁中成塊的鏈接,然后計算剩余部分的正文長度等,超過一定閾值,則判定為正文頁面,而非垃圾頁面。然后對于正文頁面,確定是否能夠通過網(wǎng)頁URL判斷類型,即積累一個庫,判斷網(wǎng)頁URL所屬板塊域名是否在這個庫里。對于不在庫中的頁面,確定是否能夠通過meta標簽信息來確定網(wǎng)頁類型,大多數(shù)的網(wǎng)頁都會在lt;metagt;標簽的keywords、description 等屬性中寫明網(wǎng)站基本信息。

        ③ 兩種網(wǎng)頁分類方法的結(jié)合。由于我們面向的是實際業(yè)務需求,對準確率和效率有嚴格的限制,因此我們采用以規(guī)則分類算法為主、機器學習分類方法為輔的基于網(wǎng)頁綜合特征的分類算法。我們先使用基于嚴格規(guī)則的網(wǎng)頁分類方法,若劃分為新聞、博客或論壇中的一類,則分類成功;若劃分為“其他”,我們使用基于SVM分類器的網(wǎng)頁分類算法進行網(wǎng)頁分類,若分類為新聞、博客或論壇中的一類,則分類成功,否則輸出類別為其他。

        4.3 全自動抽取方法

        本框架先用抽取較為準確但抽取域較窄的基于模板的方法對網(wǎng)頁進行信息抽取,若數(shù)據(jù)庫中無匹配的網(wǎng)頁模板或者抽取結(jié)果驗證失敗,再使用不同類別下的全自動抽取方法抽取網(wǎng)頁信息。

        4.3.1 單記錄網(wǎng)頁抽取方法

        針對單記錄網(wǎng)頁,即新聞、博客,我們的抽取目標是網(wǎng)頁中的正文和主要的元信息(標題、發(fā)布時間、作者、來源、正文中的圖片和鏈接)。我們基于文獻[6]中的模型,采用標簽密度直接定位正文,并采用標記方法操作DOM樹抽取網(wǎng)頁的來源、作者、時間、標題、正文圖片及超鏈接。觀察單記錄網(wǎng)頁,我們會發(fā)現(xiàn)有短正文和長正文網(wǎng)頁兩類。對于長正文網(wǎng)頁,采用傳統(tǒng)的抽取方式(基于文本密度和)進行處理;對于短正文網(wǎng)頁,我們使用最大文本密度的節(jié)點代替最大文本密度的節(jié)點,即以該節(jié)點為根的子樹上面的文本即為正文。這樣能提高整體的抽取效果,在一定程度解決傳統(tǒng)方法不適用短正文的問題。單記錄網(wǎng)頁的抽取算法描述如下:

        ALGORITHM單記錄網(wǎng)頁抽取算法

        INPUT:

        某個單記錄網(wǎng)頁HTML源文件

        OUTPUT:

        網(wǎng)頁的正文和主題信息

        BEGIN:

        1 讀入文件,清理換行符和首尾的空格,編碼轉(zhuǎn)換為UTF8,建立DOM樹,標記form標簽為非正文節(jié)點,并為每個節(jié)點設置密度權(quán)值

        2 遍歷DOM樹,提取lt;titlegt;標簽里的文本作為候選標題,并將遍歷得到的含有換行標簽,比如lt;td class="title"gt;里的文本與候選標題進行對比計算相似度,最相似的認為是頁面標題。清除標題之前的全部內(nèi)容

        3 截取標題后的一個換行標簽,比如lt;tdgt;lt;/tdgt;,作為副標題。查找副標題中是否有字符串在網(wǎng)站來源詞典中,若有,則作為來源,否則,用來源關(guān)鍵詞和正則定位來源,若依然失敗,則在全文查找符合來源匹配串的字符串

        4 依然在副標題中查找?guī)в小弊髡摺边@類特征或者包含姓氏字的字符串,若找不到,則在全文查找”作者”這類特征

        5 在副標題中使用時間正則找出時間,清理副標題

        6 根據(jù)配置文件中的關(guān)鍵字標記網(wǎng)頁中的噪聲,表示標簽已被排除正文考慮范圍

        7 計算文本數(shù)和標簽數(shù),計算各個節(jié)點及孩子節(jié)點的標簽密度

        8 在一定范圍內(nèi)尋找標簽密度和最大的作為正文統(tǒng)領(lǐng)節(jié)點,并將統(tǒng)領(lǐng)節(jié)點的祖先節(jié)點中最小的密度值作為閾值

        9 標記正文節(jié)點,通過閾值取出一些疑似廣告鏈接

        10 獲取正文節(jié)點的文本,組成正文

        11 從正文開始節(jié)點遍歷DOM樹,抽取lt;imggt;標簽中的src屬性作為正文中的圖片,lt;agt;標簽中的href屬性作為正文中的超鏈接

        END

        4.3.2 多記錄網(wǎng)頁抽取方法

        針對多記錄網(wǎng)頁,即論壇類的內(nèi)容頁,我們主要關(guān)注帖子中每層樓的發(fā)帖人、發(fā)帖時間及發(fā)帖內(nèi)容。在對論壇使用全自動抽取方法之前,我們先判斷論壇內(nèi)容頁是否由開源論壇軟件生成?;ヂ?lián)網(wǎng)上開源軟件生成的網(wǎng)頁占所有論壇網(wǎng)頁的比例高達70%,并且開源軟件生成的論壇網(wǎng)頁在結(jié)構(gòu)上相對穩(wěn)定。由此可見,在使用全自動信息抽取方法之前,對論壇內(nèi)容頁進行一定的預判斷和處理能提高論壇抽取準確率。

        開源網(wǎng)頁論壇的識別和抽取我們采用文獻[10]的方法,其基于數(shù)據(jù)記錄特征的聚類算法,將大規(guī)模開源軟件生成的論壇網(wǎng)頁進行有效地自動劃分,形成可標注類別,對每個聚類中的中心頁面配置模板。最后,針對新網(wǎng)頁,使用與其結(jié)構(gòu)最相似的模板進行基于模板的信息抽取。

        多記錄網(wǎng)頁的全自動抽取,大多借助網(wǎng)頁之間結(jié)構(gòu)的相似性,即網(wǎng)頁內(nèi)部不同塊之間的重復度來找到各條記錄所在的節(jié)點。而在實際數(shù)據(jù)中,有相當一部分論壇類內(nèi)容頁面只包含一樓內(nèi)容,這使得基于結(jié)構(gòu)相似性的算法所依賴的假設失效,因此我們需要將單樓層的頁面區(qū)分出來。本文使用文獻[11]的方法進行抽取。單樓和多樓論壇頁面分類算法流程如圖4所示,單樓層論壇頁面和多樓層論壇頁面的全自動抽取方法分別如圖5、圖6所示。

        圖4 單樓、多樓論壇頁面分類方法

        圖5 單樓層論壇頁面全自動抽取方法

        4.3.3 其他類網(wǎng)頁抽取方法

        對本文定義的其他類網(wǎng)頁,由于該類網(wǎng)頁中含有大量的噪音,所以我們采用較簡單的方法進行主題信息的抽取。對于標題,我們直接提取lt;titlegt;標簽內(nèi)的文本作為標題;對于時間,我們直接從根節(jié)點遍歷DOM樹,使用時間正則串匹配時間信息,選取第一個匹配成功的時間串作為發(fā)布時間;對于正文內(nèi)容,計算各個節(jié)點以及孩子節(jié)點的標簽密度,尋找標簽密度和最大的作為正文統(tǒng)領(lǐng)節(jié)點,并將統(tǒng)領(lǐng)節(jié)點下的所有子節(jié)點包含的文本拼接成正文內(nèi)容;對于正文中的圖片和超鏈接,和單記錄網(wǎng)頁抽取方法一樣。

        5 實驗

        5.1 實驗數(shù)據(jù)

        實驗數(shù)據(jù)來自元搜索引擎返回的20 000個網(wǎng)頁。元搜索引擎是指將多個單一搜索引擎集成在一起,將用戶的檢索提問同時提交給多個獨立的搜索引擎,獲取檢索結(jié)果。元搜索網(wǎng)頁具有主題相關(guān)性高、質(zhì)量優(yōu)良及來源廣泛等特點。本文所使用的搜索引擎包括百度、谷歌、奇虎360、必應和搜狗,以及新浪、騰訊、搜狐、網(wǎng)易、鳳凰這些站內(nèi)搜索引擎。我們根據(jù)多個單一搜索引擎實時的熱點關(guān)鍵詞拼接url,向元搜索引擎中發(fā)送請求,獲得結(jié)果頁面。這20 000個網(wǎng)頁來源廣泛,基本覆蓋了各大主流網(wǎng)站,且網(wǎng)頁結(jié)構(gòu)方面也幾乎覆蓋了各種情況,因此保證了實驗數(shù)據(jù)的多樣性和異構(gòu)性。

        5.2 實驗變量

        現(xiàn)有的網(wǎng)頁信息抽取方法普遍針對某一類或預定義范圍的常規(guī)頁面,并不通用于所有類型的網(wǎng)頁。而本文的研究對象為任意網(wǎng)頁,根據(jù)對已有研究的分析,并未找到可以和本文方法作直接對比的已有算法。但是為了更直觀且客觀地體現(xiàn)該框架的有效性和通用性,我們使用該框架的多個變形進行實驗:

        ① 僅使用單記錄網(wǎng)頁的全自動抽取方法: 所有的20 000個網(wǎng)頁全部視為單記錄網(wǎng)頁。

        ② 僅使用多記錄網(wǎng)頁的全自動抽取方法: 所有的20 000個網(wǎng)頁全部視為多記錄網(wǎng)頁。

        ③ 僅使用其他類網(wǎng)頁的全自動抽取方法: 所有的20 000個網(wǎng)頁全部視為其他類網(wǎng)頁。

        ④ 使用網(wǎng)頁分類器對網(wǎng)頁分類(新聞、博客、論壇和其他),對新聞和博客使用單記錄網(wǎng)頁的全自動抽取方法,對論壇采用多記錄網(wǎng)頁的全自動抽取方法,對其他類網(wǎng)頁采用其他類網(wǎng)頁的全自動抽取方法。

        ⑤ 基于上一個實驗設置,對論壇進行開源軟件生成識別,若識別為開源生成的論壇,則采用基于模板的信息抽取方法,并對抽取結(jié)果進行驗證,得到論壇抽取結(jié)果;若驗證失敗,則采用多記錄網(wǎng)頁的全自動抽取方法。

        ⑥ 基于上一個實驗設置,在對網(wǎng)頁進行分類前,先進行網(wǎng)頁URL的匹配,若匹配成功,則從數(shù)據(jù)庫中取出其所屬版塊的模板,運行基于模板的信息抽取方法,并進行結(jié)果驗證。若匹配未成功或結(jié)果驗證失敗,則進入上一個實驗設置流程。

        5.3 評價方法

        我們從網(wǎng)頁來源和網(wǎng)頁類型對網(wǎng)頁進行了人工篩選。同一搜索引擎返回的結(jié)果中,同一版塊內(nèi)的網(wǎng)頁結(jié)構(gòu)相似。新聞、博客及論壇三種類型的網(wǎng)頁各不相同,但同一類型網(wǎng)頁信息又有相似之處。因此,在保證網(wǎng)頁來源和網(wǎng)頁類型的多樣性和泛化性,以及人工代價較小的前提下,我們選取5 000個網(wǎng)頁數(shù)據(jù)進行人工標注,獲得5 000個網(wǎng)頁的正文、發(fā)布時間、作者三個主題信息作為參考結(jié)果,計算各個主題信息抽取準確率。實際中,我們通過交叉驗證,先使用基于模板的方法進行主題信息抽取,然后使用人工標注的方法進行結(jié)果驗證和完善,從而保證答案集的質(zhì)量。對第i個網(wǎng)頁,假設Di為人工標注的參考結(jié)果,Li為實驗抽取結(jié)果。對于正文,每個網(wǎng)頁的抽取準確率如式(1)所示。

        其中,LcsLength(Di,Li)為字符串Di和字符串Li的最大公共子串長度,Length(Li)為字符串Li的長度。對于5 000個網(wǎng)頁,最終的準確率為式(2)。

        其中,N是網(wǎng)頁總個數(shù),Pi為每個網(wǎng)頁的準確率。

        對于發(fā)布時間和作者,我們采用一致的評價方法。對5 000個網(wǎng)頁,抽取準確率為式(3)。

        其中,N是網(wǎng)頁總個數(shù)。

        5.4 實驗結(jié)果及分析

        實驗結(jié)果如圖7所示。下面對實驗結(jié)果進行相關(guān)分析。

        圖7 六種實驗方案的結(jié)果

        5.4.1 實驗1、實驗2、實驗3與實驗4

        實驗1、實驗2和實驗3,我們認為所有網(wǎng)頁都是一個類型,這種方法實現(xiàn)簡單,且時間開銷和內(nèi)存占用較低。而實驗4對網(wǎng)頁進行了分類,針對不同類別網(wǎng)頁采用不同全自動抽取方法,這樣可以防止單一算法的傾向性,因此較前三個實驗,準確率明顯提高。這樣可以看出,先進行網(wǎng)頁分類,后使用模板無關(guān)的全自動抽取方法的抽取結(jié)果要好于直接使用某單一全自動抽取方法。

        5.4.2 實驗4與實驗5

        實驗5認為部分論壇網(wǎng)頁是由開源軟件生成的,因此在對論壇運行多記錄網(wǎng)頁抽取方法前,先識別論壇網(wǎng)頁是否由開源軟件生成,若是則使用基于模板的抽取方法,否則和實驗4一樣使用多記錄網(wǎng)頁的全自動抽取方法。由實驗結(jié)果可以看出,對論壇網(wǎng)頁進行開源軟件生成的預判斷,準確率有提高。

        5.4.3 實驗5與實驗6

        實驗6基于人工標注的各大網(wǎng)站版塊的模板,在進行分類前,對網(wǎng)頁進行URL匹配,反向查找該網(wǎng)頁所在版塊,若匹配成功,則從數(shù)據(jù)庫中提取模板運行基于模板的抽取方法,否則進入實驗5的實驗步驟。由實驗結(jié)果看出,加入數(shù)據(jù)庫中是否存在已有模板的預判斷,可明顯提高準確率。這也側(cè)面證實了基于模板的信息抽取方法的準確性較高。

        5.4.4 整體實驗結(jié)果對比

        通過上述實驗結(jié)果的分析發(fā)現(xiàn),從僅采用局部方法到使用全部框架流程,任意網(wǎng)頁的信息抽取率有了本質(zhì)的提高。因此,客觀地檢驗了整個框架的有效性和健壯性。

        6 結(jié)論與展望

        本文提出了一個基于融合機制的任意網(wǎng)頁主題信息抽取框架,該框架通過“模板庫匹配—基于模板抽取—網(wǎng)頁分類—全自動抽取”四個步驟將模板無關(guān)的全自動抽取方法和基于模板的抽取方法巧妙地融合起來。實驗結(jié)果表明,本框架能夠在抽取準確率方面有本質(zhì)的提高。同時本文還提出了以規(guī)則分類算法為主、以機器學習分類方法為輔的網(wǎng)頁分類算法,將該算法引入到全自動抽取方法之前,能更準確地定位網(wǎng)頁結(jié)構(gòu)和類型,從而使多個全自動抽取方法之間相輔相成,提高抽取準確率。

        進一步的研究希望針對該框架中的模板庫匹配進行相關(guān)改進。由于現(xiàn)有模板庫中的版塊url會有重疊出現(xiàn)的情況,采用Trie樹匹配時可能會匹配多個,現(xiàn)有的做法是取匹配到的第一個版塊url作為匹配結(jié)果。之后可以對匹配到的多個版塊url進行合理性驗證,選取出最優(yōu)的匹配版塊url,以期待得到更好的抽取效果。

        目前本文提出的架構(gòu)確實為了解決實際問題。我們在提出面向任意網(wǎng)頁抽取架構(gòu)的同時,也考慮了實際應用中的性能和效率問題,所以包含的算法基本都是對傳統(tǒng)方法的改進。我們希望能在未來工作中將最新的前沿技術(shù)應用其中,比如,在網(wǎng)頁分類算法中,我們可以分別使用CNN[11]和RNN[12]對網(wǎng)頁中的圖像和文本進行特征抽取,并將兩個特征向量拼接起來,使用softmax分類器進行分類。

        [1] Chang, C.H., et al., A survey of web information extraction systems. Knowledge and Data Engineering [J], IEEE Transactions on, 2006. 18(10): 1411-1428.

        [2] Chun-Nan Hsu, Ming-Tzung Dung. Generating finite-state transducers for semi-structured data extraction from the web [J]. Information Systems 23(8): 521-538, 1998.

        [3] Valter Crescenzi, Giansalvatore Mecca and Paolo Merialdo. RoadRunner: Towards Automatic Data Extraction from Large Web Sites [C]//Proceedings of the 27th International Conference on Very Large Data Bases, p. 109 - 118 Morgan Kaufmann Publishers Inc. San Francisco, CA, USA 2001.

        [4] Ion Muslea,et al. A hierarchical approach to wrapper induction[C]//Proceedings of AGENTS’99,New York,NY,USA,ACM,1999:190-197.

        [5] Chai-Hui Chang, Shih-Chein Kuo. Olear: semisupervised web-data extraction with visual support [J]. Intelligent Systems,IEEE,2004,19(6):56-64.

        [6] Tim Weninger, William H and Jiawei Han. CETR-Content Extraction via Tag Ratios [C]//Proceedings of the 19th international conference on World wide web, p.971-980, New York, NY, USA 2010.

        [7] Jyotika Prasad, Andreas Paepcke. CoreEx: Content Extraction from Online News Articles [C]//Proceedings of the 17th ACM conference on Information and knowledge management, p. 1391-1392 ACM New York, NY, USA 2008.

        [8] Deng Cai, Shipeng Yu, Jirong Wen and Weiying Ma. Extracting content structure for web pages based on visual representation[C]//Proceedings of the 5th Asia-Pacific web conference on Web technologies and applications, Springer-Verlag Berlin, Heidelberg 2003:406-417.

        [9] Burges CJC. A tutorial on support vector machines for pattern recognition [C]//Proceedings of the Data Mining and Knowledge Discovery ,1998 2(2).

        [10] 劉春梅,郭巖,俞曉明,等.針對開源論壇網(wǎng)頁的信息抽取研究 [J].計算機科學與探索, 2016.

        [11] Yoon Kim. 2014. Convolutional neural net- works for sentence classification [C]//Proceedings of the arXiv preprint arXiv:1408.5882.

        [12] Ilya Sutskever, James Martens, and Geoffrey E Hinton. 2011. Generating text with recurrent neural networks[C]//Proceedings of the 28th International Conference on Machine Learning (ICML-11).

        [13] 郗家貞.一種基于時間串的論壇頁面信息自動抽取方法及系統(tǒng)[J]. 中國,201410429698.9[P].2014-08-29.

        張儒清(1994—),博士,主要研究領(lǐng)域為信息抽取。

        E-mail:zhangruqing@software.ict.ac.cn

        E-mail:guoy@ict.ac.cn

        E-mail:liuyue@ict.ac.cn

        AGeneralThemeInformationExtractionforWebpages

        ZHANG Ruqing1,2,GUO Yan1, LIU Yue1,YU Xiaoming1,CHENG Xueqi1

        (1. CAS Key Laboratory of Newtwork Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;2. Graduate University of Chinese Academy of Sciences, Beijing 100190, China)

        Most of existing information extraction methods are focused on a specific type of webpages, rather than applicable to all webpages. In this paper, we propose a general framework based on fusion mechanism to enable the extraction of the theme information of all webpages. This framework combines the automatic information extraction strategy and the template detection strategy through four steps: template matching, template based extraction, web page classification and automatic extraction. The experiments show that the proposed strategy can lead to an additional performance improvement in the precision of extraction.

        any page; theme information; web page classification; practical value

        1003-0077(2017)05-0127-11

        TP391

        A

        2016-03-16定稿日期2017-04-26

        國家重點基礎(chǔ)研究發(fā)展計劃(“973”計劃)(2014CB340401,2013CB329606);科技部重點研發(fā)計劃(2016QY02D0405);國家自然科學基金(61232010,61472401,61425016,61203298);中國科學院青年創(chuàng)新促進會優(yōu)秀會員項目(20144310,2016102)

        猜你喜歡
        頁面分類實驗
        大狗熊在睡覺
        記一次有趣的實驗
        刷新生活的頁面
        分類算一算
        做個怪怪長實驗
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        NO與NO2相互轉(zhuǎn)化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        91麻豆精品一区二区三区| 国产一区二区内射最近更新| 日韩在线一区二区三区免费视频| 亚洲深深色噜噜狠狠爱网站| 四虎影视国产884a精品亚洲| 美女一区二区三区在线视频| 国产精品久久国产精麻豆99网站| 国产免国产免费| 亚洲日韩精品欧美一区二区三区不卡| 国产啪啪视频在线观看| 国产毛片视频一区二区| 亚洲国产成人片在线观看无码| 日韩在线不卡免费视频| 日韩在线精品视频免费| 中文字幕日韩人妻少妇毛片| 色先锋av资源中文字幕| 午夜a福利| 少妇人妻精品一区二区三区视 | 99riav精品国产| 爱爱免费视频一区二区三区| 亚洲va韩国va欧美va| 日日噜噜夜夜狠狠久久无码区| 欧美亚洲国产丝袜在线| 日本久久精品福利视频| 色天使综合婷婷国产日韩av | 亚洲av片一区二区三区| 亚洲综合免费| 日韩精品成人一区二区三区| 亚无码乱人伦一区二区| 最近中文字幕mv在线资源| 无码视频一区二区三区在线播放| 国产高清一区二区三区三州| 亚洲图片日本视频免费| 澳门精品无码一区二区三区| 久久狠狠髙潮曰十八女人| 亚洲国产精品无码aaa片| 久久久久久久性潮| 视频网站在线观看不卡| 国产91传媒一区二区三区| 成人欧美一区二区三区的电影| 国产成人久久精品亚洲小说|