詹沐清
摘要:從互聯(lián)網(wǎng)獲取信息的手段中,Web信息抽取技術(shù)是有別于搜索引擎的,它能得到更精確和更具細(xì)粒度的信息,該文在分析了Web信息抽取技術(shù)在國內(nèi)外發(fā)展現(xiàn)狀的基礎(chǔ)上,提出了陶瓷產(chǎn)品信息Web信息抽取的技術(shù)路線,制定了抽取規(guī)則,開發(fā)出了一套抽取系統(tǒng),得到了相關(guān)陶瓷產(chǎn)品信息。
關(guān)鍵詞:Web抽取;陶瓷產(chǎn)品信息
中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2014)24-5799-04
On the Application of Web Extraction System into the Ceramic E-commerce Website
ZHAN Mu-qing
(Modern Education Technology Center, Jingdezhen Ceramic Institute, Jingdezhen 333403,China)
Abstract: Among the ways of information acquisition from the internet, the Web Extraction Technology is different from Search Engine in that it can help people get more precise and more granular information. On the basis of analyzing the developing status of Web information extraction technology at home and abroad, this thesis is first to present the technical route of applying Web information exaction into the acquisition of the information of ceramic products, then to make the extraction rules, and finally to develop a set of extraction system in order to provide an access to the information of the relevant ceramic products.
Key words: Web Information extraction; information of ceramic products
隨著Internet上信息的爆炸式增長,萬維網(wǎng)(World Wide Web)已經(jīng)成為全球最大的、最重要的信息資源庫。如何從海量的Internet上快速準(zhǔn)確地得到用戶想要的信息,大部分人是通過高知名度的Google、百度、Yahoo等搜索引擎工具進(jìn)行查找,根據(jù)查詢請求,可以找到大量相關(guān)網(wǎng)頁信息,這些信息重復(fù)率高,內(nèi)容相互獨(dú)立,搜索引擎的“網(wǎng)絡(luò)爬蟲”收集不到網(wǎng)上數(shù)據(jù)庫里面的信息。因此,想要得到網(wǎng)絡(luò)中更精確更具細(xì)粒度的信息,同時(shí)又能把得到的信息形成數(shù)據(jù)庫,再根據(jù)需要進(jìn)行進(jìn)一步分析,便要運(yùn)用到Web信息抽取技術(shù),該文探討的就是針對陶瓷類網(wǎng)站如何進(jìn)行Web信息抽取。
1 Web信息抽取的國內(nèi)外發(fā)展現(xiàn)狀
信息抽取研究始于上世紀(jì)80年代,當(dāng)時(shí)具有代表性的抽取系統(tǒng)有Linguistic String系統(tǒng)、FRUMP系統(tǒng)和ATRANS系統(tǒng)等。90年代的時(shí)候互聯(lián)網(wǎng)開始蓬勃發(fā)展起來,這時(shí)信息抽取的主流變成了Web信息抽取,知名度較高的項(xiàng)目有卡耐基-梅隆大學(xué)“自動(dòng)學(xué)習(xí)和發(fā)現(xiàn)中心(Center for Automated Learning and Discovery)”的“Web挖掘”項(xiàng)目;美國斯坦福大學(xué)開發(fā)出了一個(gè)從Web上提取半結(jié)構(gòu)化信息的提取工具?,F(xiàn)在Web信息抽取技術(shù)已經(jīng)發(fā)展到了自動(dòng)化階段,但有一個(gè)比較棘手的問題是抽取規(guī)則的適應(yīng)性較差,抽取數(shù)據(jù)的準(zhǔn)確率會(huì)隨著自動(dòng)化程度越高而變得較低,實(shí)用性較差。
國內(nèi)最早涉及Web信息抽取系統(tǒng)研究的文獻(xiàn)資料是2001年4月發(fā)表的“基于結(jié)點(diǎn)語義關(guān)系的信息抽取技術(shù)”一文。距目前最近的有關(guān)文章是2013年12月發(fā)表的“基于互信息度量的Web信息抽取”一文,在該文中,提出基于互信息度量的Web 信息抽取方法,它能夠自動(dòng)識(shí)別噪聲信息并保留關(guān)鍵信息,該方法將網(wǎng)頁解析成DOM 樹,計(jì)算葉子節(jié)點(diǎn)的互信息值;然后按DOM樹結(jié)構(gòu)對葉子節(jié)點(diǎn)進(jìn)行分塊聚集,向上遞歸求得標(biāo)簽
的互信息值,并以此作為閾值區(qū)分噪聲與非噪聲。Web信息抽取系統(tǒng)研究這方面,國內(nèi)比較著名的有中國科學(xué)院的楊少華等人,提出了先生成數(shù)據(jù)模板,再利用檢測出的模板自動(dòng)從網(wǎng)頁中抽取數(shù)據(jù)的新方法;浙江大學(xué)人工智能研究所提出的基于本體論的Web信息抽取等。截止目前為止,國內(nèi)外Web信息抽取系統(tǒng)研究中真正涉及陶瓷產(chǎn)品應(yīng)用這一塊的不多,而本文正是主要針對陶瓷產(chǎn)品信息的Web抽取進(jìn)行一些分析和研究。2 陶瓷產(chǎn)品信息Web抽取的技術(shù)路線
2.1 陶瓷產(chǎn)品信息Web抽取模型的確定
部分網(wǎng)站HTML代碼不規(guī)范,不符合XHTML標(biāo)準(zhǔn),因此不能直接采取XPath來定位結(jié)點(diǎn)抽取信息。該文的設(shè)計(jì)思想是利用XHTML結(jié)構(gòu)化的優(yōu)勢,通過引入PHP開源類庫SimpleDOM來進(jìn)行HTML頁面解析,生成DOM樹結(jié)構(gòu),針對不同網(wǎng)站的DOM樹結(jié)點(diǎn)規(guī)律,解析頁面中的產(chǎn)品信息以及翻頁鏈接等其他信息,以實(shí)現(xiàn)對Web網(wǎng)頁文檔的相關(guān)信息抽取。根據(jù)查詢條件抽取得到的結(jié)果全部存立建立的
2.2 Web文檔的預(yù)處理
Web上的數(shù)據(jù)大部分是通過HTML來描述的,HTML摻雜了數(shù)據(jù)內(nèi)容及表現(xiàn)形式,不利于抽取,因此要進(jìn)行Web文檔的預(yù)處理。這個(gè)處理過程一般分三步:j、將HTML文檔轉(zhuǎn)化為XHTML文檔;k、將XHTML解析為DOM樹;l、對DOM樹用匹配的方法進(jìn)行過濾,去掉DOM樹中無關(guān)的節(jié)點(diǎn)及其內(nèi)容。
2.3 確定產(chǎn)品信息抽取規(guī)則
按站點(diǎn)形成產(chǎn)品信息抽取規(guī)則,如http://www.ccmall.cn/站點(diǎn)規(guī)則示例如下:
1) 找到頁面中ID為TableList的第一個(gè)表格
2) 循環(huán)獲取table中各行tr的第一個(gè)單元格
① [產(chǎn)品圖片鏈接]:第一個(gè)IMG標(biāo)簽的SRC屬性
② [產(chǎn)品名稱]:類名為namelist的DIV中第一個(gè)A標(biāo)簽的鏈接文字
③ [產(chǎn)品詳細(xì)信息鏈接]:類名為namelist的DIV中第一個(gè)A標(biāo)簽的鏈接href
④ [產(chǎn)品廠家]:類名為namelist的DIV中“店鋪名稱:”后的文字
⑤ [發(fā)布時(shí)間]:類名為namelist的DIV中“發(fā)布時(shí)間:”后的文字
⑥ [產(chǎn)地]:類名為arealist的DIV的內(nèi)部文字
⑦[價(jià)格]:類名為price的SPAN的內(nèi)部文字
搭建好與之匹配的websiteextraction數(shù)據(jù)庫,確定信息抽取流程,檢索數(shù)據(jù)模型映射庫,利用該網(wǎng)站對應(yīng)的數(shù)據(jù)模型映射規(guī)則,將XML文檔中的信息導(dǎo)入到websiteextraction數(shù)據(jù)庫。
3 系統(tǒng)前臺(tái)界面制作
3.1 系統(tǒng)登錄界面設(shè)計(jì),效果如圖2所示
site: 站點(diǎn)信息表,用于儲(chǔ)存網(wǎng)頁抽取站點(diǎn)的基本信息
products:產(chǎn)品信息表,用于儲(chǔ)存網(wǎng)頁抽取的產(chǎn)品信息
search_product : 抽取結(jié)果關(guān)系表,用于儲(chǔ)存抽取條件與產(chǎn)品關(guān)聯(lián)系統(tǒng)
searchconditions : 抽取條件表,用于儲(chǔ)存抽取條件
4.2 功能實(shí)現(xiàn)
本系統(tǒng)主要通過搭建五個(gè)功能模塊來實(shí)現(xiàn)系統(tǒng)整個(gè)功能,分別為:登錄功能模塊index.php,信息抽取功能模塊search.php,抽取結(jié)果展示模塊result.php,SiteProductSearch類和MyDb類。
1) 登錄功能模塊index.php:該模塊主要用來實(shí)現(xiàn)登錄和注冊功能。
2) 信息抽取功能模塊search.php:該模塊主要用來輸入信息抽取條件,如把陶瓷按用途來分,可分為日用陶瓷,藝術(shù)(陳列)陶瓷,衛(wèi)生陶瓷,建筑陶瓷,電器陶瓷,電子陶瓷,化工陶瓷,紡織陶瓷,透千(燃?xì)廨敊C(jī))陶瓷等。那我們抽取的時(shí)候就可以根據(jù)用戶需要分類進(jìn)行抽取。
3) 抽取結(jié)果展示模塊result.php:該模塊用來顯示產(chǎn)品信息抽取結(jié)果,并支持EXCEL導(dǎo)出功能。根據(jù)查詢條件抽取得到的產(chǎn)品信息如何展示,這也是抽取系統(tǒng)的重要內(nèi)容。如上面我們根據(jù)“中國紅”這個(gè)條件得到的EXCEL圖,它按站點(diǎn)、產(chǎn)品、價(jià)格、圖片鏈接、產(chǎn)品鏈接、發(fā)布時(shí)間、廠商、產(chǎn)地、介紹等進(jìn)行了分類。
4) SiteProductSearch類:該類按各站點(diǎn)實(shí)現(xiàn)相應(yīng)條件的抽取,并從結(jié)果頁面中解析出產(chǎn)品信息。
部分功能代碼如下:
public function getName(){
return static::$siteInfo['name'];
}
static protected function getPageSimpleHtml($url){
$content = file_get_contents($url);
$charset = static::$siteInfo['encode'];
if($charset != 'utf8'){
$content = mb_convert_encoding($content, 'utf8', $charset);
}
$html = str_get_html($content);
if(!is_a($html, 'simple_html_dom')){
$html = null;
}
return $html;
}
abstract protected function getSerachUrl();
abstract protected function parseProducts($html);
abstract protected function parseNextPageUrl($html);
}
5) MyDb類:該類實(shí)現(xiàn)數(shù)據(jù)庫讀寫功能。
5 小結(jié)與展望
隨著信息化的高速發(fā)展,陶瓷產(chǎn)品信息在陶瓷企業(yè)發(fā)展中起著越來越重要的作用,該文為陶瓷產(chǎn)品信息的獲得提供了一個(gè)新的思路,然而這遠(yuǎn)遠(yuǎn)不夠,我們應(yīng)該深挖客戶的需求,開發(fā)出更合理和實(shí)用的基于陶瓷類電子商務(wù)網(wǎng)站的Web信息抽取系統(tǒng),加強(qiáng)陶瓷產(chǎn)品信息的獲得和整理,規(guī)范陶瓷產(chǎn)品的信息資源,為陶瓷企業(yè)制定產(chǎn)品發(fā)展戰(zhàn)略提供決策依據(jù)。
參考文獻(xiàn):
[1] ARASU Arvind, GARCIA-MOLINA Hector. Extracting structured data from Web pages[C].New York: Proc of the Int Conf on Management of Data,2003.
[2] 胡 睿,張冬茉,杜蓬.基于結(jié)點(diǎn)語義關(guān)系的信息抽取技術(shù)[J].計(jì)算機(jī)工程,2001(4).
[3] 張奇,等.基于互信息度量的Web信息抽取[J].計(jì)算機(jī)應(yīng)用與軟件,2013(12).
[4] 于立艷.基于HTML的Web信息抽取技術(shù)的研究與應(yīng)用[D].哈爾濱:哈爾濱工程大學(xué),2011.