亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于陶瓷類電子商務(wù)網(wǎng)站的Web信息抽取系統(tǒng)的研究

        2014-10-10 21:44:35詹沐清
        電腦知識(shí)與技術(shù) 2014年24期
        關(guān)鍵詞:陶瓷產(chǎn)品互信息功能模塊

        詹沐清

        摘要:從互聯(lián)網(wǎng)獲取信息的手段中,Web信息抽取技術(shù)是有別于搜索引擎的,它能得到更精確和更具細(xì)粒度的信息,該文在分析了Web信息抽取技術(shù)在國內(nèi)外發(fā)展現(xiàn)狀的基礎(chǔ)上,提出了陶瓷產(chǎn)品信息Web信息抽取的技術(shù)路線,制定了抽取規(guī)則,開發(fā)出了一套抽取系統(tǒng),得到了相關(guān)陶瓷產(chǎn)品信息。

        關(guān)鍵詞:Web抽取;陶瓷產(chǎn)品信息

        中圖分類號:TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號:1009-3044(2014)24-5799-04

        On the Application of Web Extraction System into the Ceramic E-commerce Website

        ZHAN Mu-qing

        (Modern Education Technology Center, Jingdezhen Ceramic Institute, Jingdezhen 333403,China)

        Abstract: Among the ways of information acquisition from the internet, the Web Extraction Technology is different from Search Engine in that it can help people get more precise and more granular information. On the basis of analyzing the developing status of Web information extraction technology at home and abroad, this thesis is first to present the technical route of applying Web information exaction into the acquisition of the information of ceramic products, then to make the extraction rules, and finally to develop a set of extraction system in order to provide an access to the information of the relevant ceramic products.

        Key words: Web Information extraction; information of ceramic products

        隨著Internet上信息的爆炸式增長,萬維網(wǎng)(World Wide Web)已經(jīng)成為全球最大的、最重要的信息資源庫。如何從海量的Internet上快速準(zhǔn)確地得到用戶想要的信息,大部分人是通過高知名度的Google、百度、Yahoo等搜索引擎工具進(jìn)行查找,根據(jù)查詢請求,可以找到大量相關(guān)網(wǎng)頁信息,這些信息重復(fù)率高,內(nèi)容相互獨(dú)立,搜索引擎的“網(wǎng)絡(luò)爬蟲”收集不到網(wǎng)上數(shù)據(jù)庫里面的信息。因此,想要得到網(wǎng)絡(luò)中更精確更具細(xì)粒度的信息,同時(shí)又能把得到的信息形成數(shù)據(jù)庫,再根據(jù)需要進(jìn)行進(jìn)一步分析,便要運(yùn)用到Web信息抽取技術(shù),該文探討的就是針對陶瓷類網(wǎng)站如何進(jìn)行Web信息抽取。

        1 Web信息抽取的國內(nèi)外發(fā)展現(xiàn)狀

        信息抽取研究始于上世紀(jì)80年代,當(dāng)時(shí)具有代表性的抽取系統(tǒng)有Linguistic String系統(tǒng)、FRUMP系統(tǒng)和ATRANS系統(tǒng)等。90年代的時(shí)候互聯(lián)網(wǎng)開始蓬勃發(fā)展起來,這時(shí)信息抽取的主流變成了Web信息抽取,知名度較高的項(xiàng)目有卡耐基-梅隆大學(xué)“自動(dòng)學(xué)習(xí)和發(fā)現(xiàn)中心(Center for Automated Learning and Discovery)”的“Web挖掘”項(xiàng)目;美國斯坦福大學(xué)開發(fā)出了一個(gè)從Web上提取半結(jié)構(gòu)化信息的提取工具?,F(xiàn)在Web信息抽取技術(shù)已經(jīng)發(fā)展到了自動(dòng)化階段,但有一個(gè)比較棘手的問題是抽取規(guī)則的適應(yīng)性較差,抽取數(shù)據(jù)的準(zhǔn)確率會(huì)隨著自動(dòng)化程度越高而變得較低,實(shí)用性較差。

        國內(nèi)最早涉及Web信息抽取系統(tǒng)研究的文獻(xiàn)資料是2001年4月發(fā)表的“基于結(jié)點(diǎn)語義關(guān)系的信息抽取技術(shù)”一文。距目前最近的有關(guān)文章是2013年12月發(fā)表的“基于互信息度量的Web信息抽取”一文,在該文中,提出基于互信息度量的Web 信息抽取方法,它能夠自動(dòng)識(shí)別噪聲信息并保留關(guān)鍵信息,該方法將網(wǎng)頁解析成DOM 樹,計(jì)算葉子節(jié)點(diǎn)的互信息值;然后按DOM樹結(jié)構(gòu)對葉子節(jié)點(diǎn)進(jìn)行分塊聚集,向上遞歸求得標(biāo)簽的互信息值,并以此作為閾值區(qū)分噪聲與非噪聲。Web信息抽取系統(tǒng)研究這方面,國內(nèi)比較著名的有中國科學(xué)院的楊少華等人,提出了先生成數(shù)據(jù)模板,再利用檢測出的模板自動(dòng)從網(wǎng)頁中抽取數(shù)據(jù)的新方法;浙江大學(xué)人工智能研究所提出的基于本體論的Web信息抽取等。截止目前為止,國內(nèi)外Web信息抽取系統(tǒng)研究中真正涉及陶瓷產(chǎn)品應(yīng)用這一塊的不多,而本文正是主要針對陶瓷產(chǎn)品信息的Web抽取進(jìn)行一些分析和研究。

        2 陶瓷產(chǎn)品信息Web抽取的技術(shù)路線

        2.1 陶瓷產(chǎn)品信息Web抽取模型的確定

        部分網(wǎng)站HTML代碼不規(guī)范,不符合XHTML標(biāo)準(zhǔn),因此不能直接采取XPath來定位結(jié)點(diǎn)抽取信息。該文的設(shè)計(jì)思想是利用XHTML結(jié)構(gòu)化的優(yōu)勢,通過引入PHP開源類庫SimpleDOM來進(jìn)行HTML頁面解析,生成DOM樹結(jié)構(gòu),針對不同網(wǎng)站的DOM樹結(jié)點(diǎn)規(guī)律,解析頁面中的產(chǎn)品信息以及翻頁鏈接等其他信息,以實(shí)現(xiàn)對Web網(wǎng)頁文檔的相關(guān)信息抽取。根據(jù)查詢條件抽取得到的結(jié)果全部存立建立的

        2.2 Web文檔的預(yù)處理

        Web上的數(shù)據(jù)大部分是通過HTML來描述的,HTML摻雜了數(shù)據(jù)內(nèi)容及表現(xiàn)形式,不利于抽取,因此要進(jìn)行Web文檔的預(yù)處理。這個(gè)處理過程一般分三步:j、將HTML文檔轉(zhuǎn)化為XHTML文檔;k、將XHTML解析為DOM樹;l、對DOM樹用匹配的方法進(jìn)行過濾,去掉DOM樹中無關(guān)的節(jié)點(diǎn)及其內(nèi)容。

        2.3 確定產(chǎn)品信息抽取規(guī)則

        按站點(diǎn)形成產(chǎn)品信息抽取規(guī)則,如http://www.ccmall.cn/站點(diǎn)規(guī)則示例如下:

        1) 找到頁面中ID為TableList的第一個(gè)表格

        2) 循環(huán)獲取table中各行tr的第一個(gè)單元格

        ① [產(chǎn)品圖片鏈接]:第一個(gè)IMG標(biāo)簽的SRC屬性

        ② [產(chǎn)品名稱]:類名為namelist的DIV中第一個(gè)A標(biāo)簽的鏈接文字

        ③ [產(chǎn)品詳細(xì)信息鏈接]:類名為namelist的DIV中第一個(gè)A標(biāo)簽的鏈接href

        ④ [產(chǎn)品廠家]:類名為namelist的DIV中“店鋪名稱:”后的文字

        ⑤ [發(fā)布時(shí)間]:類名為namelist的DIV中“發(fā)布時(shí)間:”后的文字

        ⑥ [產(chǎn)地]:類名為arealist的DIV的內(nèi)部文字

        ⑦[價(jià)格]:類名為price的SPAN的內(nèi)部文字

        搭建好與之匹配的websiteextraction數(shù)據(jù)庫,確定信息抽取流程,檢索數(shù)據(jù)模型映射庫,利用該網(wǎng)站對應(yīng)的數(shù)據(jù)模型映射規(guī)則,將XML文檔中的信息導(dǎo)入到websiteextraction數(shù)據(jù)庫。

        3 系統(tǒng)前臺(tái)界面制作

        3.1 系統(tǒng)登錄界面設(shè)計(jì),效果如圖2所示

        site: 站點(diǎn)信息表,用于儲(chǔ)存網(wǎng)頁抽取站點(diǎn)的基本信息

        products:產(chǎn)品信息表,用于儲(chǔ)存網(wǎng)頁抽取的產(chǎn)品信息

        search_product : 抽取結(jié)果關(guān)系表,用于儲(chǔ)存抽取條件與產(chǎn)品關(guān)聯(lián)系統(tǒng)

        searchconditions : 抽取條件表,用于儲(chǔ)存抽取條件

        4.2 功能實(shí)現(xiàn)

        本系統(tǒng)主要通過搭建五個(gè)功能模塊來實(shí)現(xiàn)系統(tǒng)整個(gè)功能,分別為:登錄功能模塊index.php,信息抽取功能模塊search.php,抽取結(jié)果展示模塊result.php,SiteProductSearch類和MyDb類。

        1) 登錄功能模塊index.php:該模塊主要用來實(shí)現(xiàn)登錄和注冊功能。

        2) 信息抽取功能模塊search.php:該模塊主要用來輸入信息抽取條件,如把陶瓷按用途來分,可分為日用陶瓷,藝術(shù)(陳列)陶瓷,衛(wèi)生陶瓷,建筑陶瓷,電器陶瓷,電子陶瓷,化工陶瓷,紡織陶瓷,透千(燃?xì)廨敊C(jī))陶瓷等。那我們抽取的時(shí)候就可以根據(jù)用戶需要分類進(jìn)行抽取。

        3) 抽取結(jié)果展示模塊result.php:該模塊用來顯示產(chǎn)品信息抽取結(jié)果,并支持EXCEL導(dǎo)出功能。根據(jù)查詢條件抽取得到的產(chǎn)品信息如何展示,這也是抽取系統(tǒng)的重要內(nèi)容。如上面我們根據(jù)“中國紅”這個(gè)條件得到的EXCEL圖,它按站點(diǎn)、產(chǎn)品、價(jià)格、圖片鏈接、產(chǎn)品鏈接、發(fā)布時(shí)間、廠商、產(chǎn)地、介紹等進(jìn)行了分類。

        4) SiteProductSearch類:該類按各站點(diǎn)實(shí)現(xiàn)相應(yīng)條件的抽取,并從結(jié)果頁面中解析出產(chǎn)品信息。

        部分功能代碼如下:

        public function getName(){

        return static::$siteInfo['name'];

        }

        static protected function getPageSimpleHtml($url){

        $content = file_get_contents($url);

        $charset = static::$siteInfo['encode'];

        if($charset != 'utf8'){

        $content = mb_convert_encoding($content, 'utf8', $charset);

        }

        $html = str_get_html($content);

        if(!is_a($html, 'simple_html_dom')){

        $html = null;

        }

        return $html;

        }

        abstract protected function getSerachUrl();

        abstract protected function parseProducts($html);

        abstract protected function parseNextPageUrl($html);

        }

        5) MyDb類:該類實(shí)現(xiàn)數(shù)據(jù)庫讀寫功能。

        5 小結(jié)與展望

        隨著信息化的高速發(fā)展,陶瓷產(chǎn)品信息在陶瓷企業(yè)發(fā)展中起著越來越重要的作用,該文為陶瓷產(chǎn)品信息的獲得提供了一個(gè)新的思路,然而這遠(yuǎn)遠(yuǎn)不夠,我們應(yīng)該深挖客戶的需求,開發(fā)出更合理和實(shí)用的基于陶瓷類電子商務(wù)網(wǎng)站的Web信息抽取系統(tǒng),加強(qiáng)陶瓷產(chǎn)品信息的獲得和整理,規(guī)范陶瓷產(chǎn)品的信息資源,為陶瓷企業(yè)制定產(chǎn)品發(fā)展戰(zhàn)略提供決策依據(jù)。

        參考文獻(xiàn):

        [1] ARASU Arvind, GARCIA-MOLINA Hector. Extracting structured data from Web pages[C].New York: Proc of the Int Conf on Management of Data,2003.

        [2] 胡 睿,張冬茉,杜蓬.基于結(jié)點(diǎn)語義關(guān)系的信息抽取技術(shù)[J].計(jì)算機(jī)工程,2001(4).

        [3] 張奇,等.基于互信息度量的Web信息抽取[J].計(jì)算機(jī)應(yīng)用與軟件,2013(12).

        [4] 于立艷.基于HTML的Web信息抽取技術(shù)的研究與應(yīng)用[D].哈爾濱:哈爾濱工程大學(xué),2011.

        猜你喜歡
        陶瓷產(chǎn)品互信息功能模塊
        數(shù)字媒體技術(shù)在陶瓷產(chǎn)品設(shè)計(jì)中的應(yīng)用
        佛山陶瓷(2022年8期)2022-11-23 20:33:39
        色彩的視覺美感與當(dāng)代陶瓷藝術(shù)設(shè)計(jì)
        佛山陶瓷(2022年11期)2022-03-03 15:26:17
        VR技術(shù)在工業(yè)陶瓷產(chǎn)品展示中的應(yīng)用*
        淺談模塊化設(shè)計(jì)在陶瓷產(chǎn)品設(shè)計(jì)領(lǐng)域的應(yīng)用
        基于ASP.NET標(biāo)準(zhǔn)的采購管理系統(tǒng)研究
        輸電線路附著物測算系統(tǒng)測算功能模塊的研究
        M市石油裝備公服平臺(tái)網(wǎng)站主要功能模塊設(shè)計(jì)與實(shí)現(xiàn)
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        改進(jìn)的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        91青青草免费在线视频| 欧美性巨大╳╳╳╳╳高跟鞋| 怡红院a∨人人爰人人爽| 亚洲片一区二区三区| 亚洲精品白浆高清久久| 国产一区二区三区中出| 日韩少妇人妻中文字幕| 少妇高潮一区二区三区99| 激情久久av一区av二区av三区| 一区二区三区免费视频网站| 久久精品伊人久久精品| 青青草骚视频在线观看| 天堂中文最新版在线中文| 久久精品国产亚洲精品| 久久久久久久久中文字幕| 日本一区二区三区免费| 蜜桃av噜噜一区二区三区策驰 | 国产成人精品2021| 国产啪精品视频网站| 国产亚洲精品不卡在线| 精品一区二区三区牛牛| 狠狠综合久久av一区二区蜜桃| 亚洲国产欧美日韩欧美特级| 国内露脸中年夫妇交换| 激情内射亚洲一区二区| 男男啪啪激烈高潮无遮挡网站网址 | 无码aⅴ在线观看| 精品视频在线观看一区二区有| 日本不卡视频一区二区三区| 无码人妻精品一区二区三区夜夜嗨| 少妇装睡让我滑了进去| a级国产精品片在线观看| 免费观看在线视频播放| 日韩精品 在线 国产 丝袜| 99精品欧美一区二区三区| 久久精品一品道久久精品9| 亚洲中文字幕日本日韩| 手机看片久久第一人妻| 丰满少妇三级全黄| 亚洲一级电影在线观看| 国产精品视频白浆免费看|