摘要:提出了一種從模板網(wǎng)站中利用網(wǎng)絡(luò)上的冗余內(nèi)容提取結(jié)構(gòu)化數(shù)據(jù)的方法。該算法從一些原始網(wǎng)站提取記錄來(lái)填充種子數(shù)據(jù)庫(kù)。然后,在每一個(gè)新的站點(diǎn)標(biāo)識(shí)值,為了配合不同跨站點(diǎn)交涉的屬性值,我們進(jìn)行了相似性度量。同時(shí)為了過(guò)濾掉噪聲,我們?cè)谀切┗谀0宓木W(wǎng)站發(fā)現(xiàn)并應(yīng)用了該屬性的實(shí)際值。另外借助SOGOU和NICTCLAS中文分詞等第三方接口來(lái)準(zhǔn)確計(jì)算詞頻,使文字分析更適合人們常用的習(xí)慣。
關(guān)鍵詞:Web信息抽取;內(nèi)容冗余;樣本頁(yè)面;抽取規(guī)則
中圖分類號(hào):TP31文獻(xiàn)標(biāo)識(shí)碼:A
1引言
隨著信息化進(jìn)程的推進(jìn)以及網(wǎng)絡(luò)技術(shù)的發(fā)展,越來(lái)越多的人開始認(rèn)識(shí)到互聯(lián)網(wǎng)作為信息來(lái)源的重要性,同時(shí)互聯(lián)網(wǎng)也已經(jīng)融入到了人們生活的方方面面。據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的《第29次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2011年12月底,中國(guó)網(wǎng)民數(shù)量突破5億,達(dá)到5.13億,互聯(lián)網(wǎng)普及率達(dá)到38.3%。然而在發(fā)展的同時(shí)也帶來(lái)了一些新的問(wèn)題,網(wǎng)頁(yè)噪聲的加重,許多由查詢數(shù)據(jù)庫(kù)自動(dòng)生成的網(wǎng)頁(yè)不能被搜索引擎檢索,從而形成所謂的hidden Web。為解決這些問(wèn)題Web信息抽取技術(shù)就應(yīng)運(yùn)而生。
Web信息抽取屬于網(wǎng)絡(luò)內(nèi)容挖掘(Web content mining)研究的一部分,主要包括結(jié)構(gòu)化數(shù)據(jù)抽取(Structured Data Extraction)、信息集成(Information integration)和觀點(diǎn)挖掘(Opinion mining)等,本文是在結(jié)構(gòu)化數(shù)據(jù)抽取的基礎(chǔ)上提出的一種新的提取方法,利用內(nèi)容跨站點(diǎn)之間模板結(jié)構(gòu)上的內(nèi)容冗余提取所要的web信息。
2相關(guān)信息抽取的研究與分析
目前的網(wǎng)頁(yè)信息抽取技術(shù), 包括基于歸納學(xué)習(xí)的信息抽取、基于HTML結(jié)構(gòu)解析的信息抽取、基于Web查詢的信息抽取、基于自然語(yǔ)言處理的信息抽取。其中基于歸納學(xué)習(xí)的信息抽取一般需要大量的訓(xùn)練樣本, 并且由于目前互聯(lián)網(wǎng)動(dòng)態(tài)頁(yè)面多、更新時(shí)間快, 所訓(xùn)練的樣本經(jīng)常不能滿足要求; 基于HTML結(jié)構(gòu)解析的信息抽取只是對(duì)網(wǎng)頁(yè)的結(jié)構(gòu)進(jìn)行分析, 而網(wǎng)頁(yè)是由結(jié)構(gòu)和文本共同構(gòu)成的, 對(duì)抽取內(nèi)容的準(zhǔn)確度造成一定的影響; 基于Web查詢的信息抽取是對(duì)用戶的查詢行為進(jìn)行分析以抽取用戶感興趣的內(nèi)容, 但是用戶查詢目的是為了解決問(wèn)題, 對(duì)自己所要查詢的內(nèi)容并不確定, 這樣所抽取出的信息并不一定是用戶所需要的。理論上講, 基于自然語(yǔ)言處理的信息抽取能夠?qū)W(wǎng)頁(yè)信息進(jìn)行十分準(zhǔn)確的抽取,它主要是關(guān)注網(wǎng)頁(yè)的內(nèi)容, 但是需要建立巨大的知識(shí)庫(kù), 由于Web更新速度快, 知識(shí)庫(kù)不能及時(shí)更新, 并且由于知識(shí)庫(kù)非常大, 解析一個(gè)頁(yè)面所耗費(fèi)的時(shí)間也比較長(zhǎng), 至今還沒(méi)有見到比較好的基于自然語(yǔ)言處理的Web信息抽取系統(tǒng)。
3 基于內(nèi)容冗余的web信息抽取方法
3.1一般信息抽取流程圖其具體步驟如下:
第一步:確立采集目標(biāo),即由用戶選擇目標(biāo)網(wǎng)站。
第二步:提取特征信息,即根據(jù)目標(biāo)網(wǎng)站的網(wǎng)頁(yè)格式,提取出采集目標(biāo)數(shù)據(jù)的通性。
第三步:信息獲取,即利用工具自動(dòng)的把頁(yè)面中提取的數(shù)據(jù)存到數(shù)據(jù)庫(kù)。
3.2內(nèi)容冗余的web信息抽取方法的設(shè)計(jì)
本方法在提取過(guò)程的開始階段是從最初的幾個(gè)網(wǎng)站(如:京東網(wǎng)和趕集網(wǎng))的記錄里填充種子數(shù)據(jù)庫(kù)Apriori。這些記錄是從網(wǎng)站中提取的,由人工編輯的屬性值標(biāo)注在每個(gè)站點(diǎn)的一些樣本頁(yè),并學(xué)習(xí)網(wǎng)站的包裝。注意:在Apriori的種子,每個(gè)記錄包含一個(gè)從一個(gè)單一的實(shí)體頁(yè)面的屬性值。我們?cè)趻呙杈W(wǎng)絡(luò)的頁(yè)面過(guò)程中,找到相匹配的值在種子記錄中的屬性值。具體方法如下:
(1)利用跨站點(diǎn)之間基于模板的結(jié)構(gòu)上的相似性冗余網(wǎng)頁(yè)提取屬性值。
(2)為了處理掉跨站點(diǎn)的不同屬性的格式規(guī)定,我們定義了一個(gè)相似度度量的功能。利用基于模板的頁(yè)面中的屬性值有一個(gè)模板化的結(jié)構(gòu)這一事實(shí)來(lái)提高匹配的精度。我們所提出的度量從兩個(gè)站點(diǎn)發(fā)現(xiàn)重復(fù)模式之間的匹配屬性值對(duì)部分,并使用此過(guò)濾掉不匹配的部分,進(jìn)而計(jì)算相似性分?jǐn)?shù)之間的屬性值對(duì)。
(3)為了進(jìn)一步過(guò)濾掉有噪聲的匹配,我們用多個(gè)屬性匹配值,并且利用屬性值在同一個(gè)網(wǎng)站頁(yè)面的固定位置的事實(shí)來(lái)進(jìn)行匹配。
3.3 數(shù)據(jù)環(huán)境以及相關(guān)模塊介紹
我們使用了現(xiàn)實(shí)生活中的兩個(gè)數(shù)據(jù)集覆蓋了兩個(gè)垂直面:餐廳和參考書目。每一個(gè)數(shù)據(jù)集由種子記錄的一個(gè)集合組成,并且從一系列測(cè)試的站點(diǎn)中抓取頁(yè)面。我們從屬于每一個(gè)測(cè)試站點(diǎn)的單實(shí)體的頁(yè)面中提取種子記錄,并且報(bào)告準(zhǔn)確性和提取物的覆蓋率。我們把屬性分類成核心與非核心的。核心的屬性代表每一個(gè)頁(yè)面屬于測(cè)試數(shù)據(jù)集,那么非核心的屬性就是自選的。
整個(gè)操作是基于net4.0架構(gòu)下使用winform顯示界面,ado.net entity framework操作MysqL的數(shù)據(jù)庫(kù),分五個(gè)模塊來(lái)實(shí)現(xiàn):
Apriori模塊:實(shí)現(xiàn)NICTCLAS實(shí)現(xiàn)中文分詞,sogou詞庫(kù)分析詞頻,Jaccard系數(shù)方法忽略了不相干的部分的屬性值,提取網(wǎng)絡(luò)信息的冗余內(nèi)容。 Common模塊:管理公共操作對(duì)象。 DataBase模塊:管理數(shù)據(jù)庫(kù)操作,支持MYSQL的操作。 Grab模塊:采集和爬蟲模塊,采集結(jié)構(gòu)化的網(wǎng)站上的內(nèi)容,可以分頁(yè)抓取,或抓取當(dāng)前頁(yè)面里面相關(guān)型鏈接。ShowUI模塊:顯示結(jié)果界面,顯示網(wǎng)絡(luò)抓取的內(nèi)容和比較的結(jié)果。
3.4實(shí)驗(yàn)結(jié)果
配合不同跨站點(diǎn)交涉的屬性值,用度量發(fā)現(xiàn)了兩個(gè)站點(diǎn)之間的相匹配的模式的屬性值,而且在計(jì)算相似度時(shí)忽略了不相干的部分的屬性值,結(jié)果顯示不相干的屬性被過(guò)濾掉,基本符合要求。
結(jié)束語(yǔ)
本系統(tǒng)進(jìn)行基于內(nèi)容冗余的網(wǎng)頁(yè)信息抽取, 雖然在一定程度上提高了抽取準(zhǔn)確度, 但是有可能抽取所需要的時(shí)間相對(duì)增長(zhǎng), 影響了抽取信息的速度。如何進(jìn)一步提高抽取的速度和準(zhǔn)確率, 有待進(jìn)一步研究。
參考文獻(xiàn)
[1]劉遷,焦慧,賈惠波.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究[J].計(jì)算機(jī)應(yīng)用研究,2007,24(7):6-9.
[2]周津.基于XML的網(wǎng)頁(yè)信息抽取[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2004.
[3]G Miao etal.Extracting data records from the web using tag path clustering.In WWW,2009.