亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子商務(wù)中的WEB挖掘技術(shù)應(yīng)用研究

        2012-08-20 06:56:42汪華茂
        關(guān)鍵詞:結(jié)構(gòu)化文檔數(shù)據(jù)挖掘

        汪華茂

        (湖北經(jīng)濟(jì)學(xué)院 網(wǎng)絡(luò)與教育技術(shù)中心,湖北 武漢430205)

        1.引言

        電子商務(wù)作為一種新興的事物,隨著Internet的迅速發(fā)展和應(yīng)用的深入,電子商務(wù)的應(yīng)用也相應(yīng)的迅速崛起起來,這使得商家對(duì)基于Internet的Web數(shù)據(jù)檢索、挖掘等的需求不斷提高。

        傳統(tǒng)的Web站點(diǎn),通常由HTML頁面組成,使得這種Web文檔的結(jié)構(gòu)性有限,要想利用分析工具準(zhǔn)確、高效地進(jìn)行數(shù)據(jù)挖掘和分析還比較困難。XML的出現(xiàn),則對(duì)Web數(shù)據(jù)挖掘帶來了新的挈機(jī)。利用XML作為元標(biāo)記語言的特性,用戶只要在XML的文檔類型定義中定義一系列有意義的標(biāo)記,就可實(shí)現(xiàn)對(duì)Web上大部分非結(jié)構(gòu)化文檔的內(nèi)容進(jìn)行有效的總結(jié)、分類、組織,從而實(shí)現(xiàn)與關(guān)系型數(shù)據(jù)庫中的屬性建立對(duì)應(yīng)關(guān)系,Web上的數(shù)據(jù)挖掘也就變得可行了。

        2.基于XML的Web數(shù)據(jù)挖掘技術(shù)

        2.1 Web數(shù)據(jù)挖掘技術(shù)概述

        Web數(shù)據(jù)挖掘就是從Internet上龐大、復(fù)雜、異構(gòu)的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的東西或者是特定的精確的數(shù)據(jù)。Web挖掘則可以對(duì)大量的文檔、數(shù)據(jù)重新進(jìn)行整理、分析和組織,可以按照用戶特定的要求給出結(jié)果,比單純的信息檢索更進(jìn)一步,是未來技術(shù)發(fā)展的趨勢(shì)。

        WEB挖掘按照處理對(duì)象的不同可分為:內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用記錄挖掘。內(nèi)容挖掘是從Web文檔的內(nèi)容中抽取信息特征,這些文檔包括文本、HTML、圖象、音頻、視頻等形式;結(jié)構(gòu)挖掘是從Web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí),這些結(jié)構(gòu)不僅僅局限于文檔之間的超連接,還包括文檔內(nèi)部的結(jié)構(gòu)、文檔URL中的目錄路徑結(jié)構(gòu)等;使用記錄挖掘則是從Web的訪問記錄中抽取感興趣的模式。

        2.2 XML優(yōu)勢(shì)

        XML出色之處在于它不再是一個(gè)單純的標(biāo)記語言,而是一個(gè)定義語言。XML突破了HTML固定標(biāo)記集合的約束,可以定義無窮無盡的標(biāo)記來描述Web中的任何數(shù)據(jù)元素及其結(jié)構(gòu),從而組成一個(gè)完整的信息體系,使文件的內(nèi)容更豐富更復(fù)雜更結(jié)構(gòu)化。而且,在兼容性方面,HTML規(guī)范的文件可以轉(zhuǎn)換成XML格式文件,普通的SGML文件也可以轉(zhuǎn)換成XML文件。由于XML能針對(duì)特定的應(yīng)用定義自己的標(biāo)記語言,這使得XML可以在電子商務(wù)、政府政務(wù)、企業(yè)及中介組織的信息交換中得到廣泛的應(yīng)用。

        2.3 基于XML的WEB挖掘過程

        在目前多數(shù)的Web站點(diǎn)仍由靜態(tài)的或動(dòng)態(tài)的HTML頁面組成的情況下,雖然每個(gè)站點(diǎn)的開發(fā)自行其是,而且數(shù)據(jù)本身還存在著自我描述性和動(dòng)態(tài)可變性,但由于XML作為可以定義語言的語言,能夠把不同來源的數(shù)據(jù)結(jié)合在一起,從而使得Web上大量非結(jié)構(gòu)化的數(shù)據(jù)變成了進(jìn)行挖掘的寶藏。

        Web挖掘的過程由以下三步組成:

        (1)Web信息數(shù)據(jù)的獲取。進(jìn)行數(shù)據(jù)源搜索,獲取必要的信息。

        (2)Web信息的轉(zhuǎn)換。對(duì)HTML文檔進(jìn)行抽取,轉(zhuǎn)換為結(jié)構(gòu)化的XML文檔,生成相應(yīng)的DTD文檔或者XML Schema,并進(jìn)行分類,選擇合適的數(shù)據(jù)庫進(jìn)行存儲(chǔ)組織。

        (3)Web信息的挖掘。將大量結(jié)構(gòu)化處理的信息文檔進(jìn)行有效的組織與管理,根據(jù)用戶的特定需求進(jìn)行挖掘。

        如果HTML文檔比較規(guī)范,所有元素的首位標(biāo)記都配對(duì),所有元素的嵌套層次結(jié)構(gòu)都正確,所有的屬性值都以“”的形式出現(xiàn),所有的自說明的元素以 “/>”結(jié)束,那么通過對(duì)HTML文檔的處理,可以從頁面中抽取出所需要的屬性,從而進(jìn)一步轉(zhuǎn)換為XML文檔;但一些頁面很少遵循連續(xù)的格式,在抽取屬性時(shí)則比較困難。在轉(zhuǎn)換過程中,主要解決HTML文檔及其集合的表達(dá)模式信息(WEB-SCHEMA)的抽取,即可以通過程序自動(dòng)完成,也可由系統(tǒng)人員手工的對(duì)HTML文本作進(jìn)一步的分析,將遺漏的模式信息補(bǔ)充進(jìn)來,確定對(duì)象的屬性名和對(duì)象之間的語義關(guān)系,形成完整的數(shù)據(jù)模式。

        HTML的模式信息抽取出來后,為了有效地將其用XML文檔表示出來,必須定義XML的合適的文檔類型定義(DTD)。由于XML允許用戶定義自己的標(biāo)記,可能會(huì)出現(xiàn)混亂,影響信息的共享,因此,Dubilin Core workshop提出了一套描述符用以描述文檔的內(nèi)容、表現(xiàn)形式和相關(guān)屬性,目前由15個(gè)組成,即 TITILE、CREATOR、SUBJECT、DESCRIPTION、PUTLISHER、CONTRIBUTION、DATE、TYPE、FORMAT、IDENTIFIER、SOURCE、LANGUAGE、RELATION、COVERAGE、RIGHTS 等,通過這些描述符,就比較容易地將HTML文檔統(tǒng)一為XML文檔。

        3.應(yīng)用研究

        以一個(gè)網(wǎng)絡(luò)產(chǎn)品信息服務(wù)公司為例進(jìn)行web數(shù)據(jù)挖掘應(yīng)用研究。該公司主要業(yè)務(wù)是通過Web提供各類網(wǎng)絡(luò)設(shè)備的代購。目前,該公司的信息渠道來源是從Web上搜索到的有關(guān)的設(shè)備信息。但目前的搜索引擎搜索到的只是包含少量或部分有用信息的Web文檔,無法自動(dòng)的將設(shè)備的型號(hào)、設(shè)備的規(guī)格、設(shè)備的生產(chǎn)廠商、設(shè)備的生產(chǎn)日期、設(shè)備的價(jià)格、設(shè)備的數(shù)量、設(shè)備的簡介等信息分撿出來,對(duì)其進(jìn)行編號(hào)、分類,因此如何從Web上精確地獲得所需要的信息,并將結(jié)果按設(shè)備或者是按提供商進(jìn)行分類,再通過Web發(fā)布出去,也就成了公司急需解決的問題。

        在本實(shí)例中采用了數(shù)據(jù)服務(wù)的形式,實(shí)際上包括抽取、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)合法性檢查等三個(gè)部分,如下圖所示。其中抽取器包含一系列的抽取規(guī)則,主要負(fù)責(zé)從非結(jié)構(gòu)化的數(shù)據(jù)中抽取設(shè)備的型號(hào)、規(guī)格、生產(chǎn)廠商、生產(chǎn)日期、價(jià)格、數(shù)量、簡介等屬性,用XML表示并存儲(chǔ)起來;數(shù)據(jù)轉(zhuǎn)換器將來自不同站點(diǎn)或數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為一種公共的表示方式;而數(shù)據(jù)合法性檢查器則對(duì)一些條件進(jìn)行監(jiān)視,強(qiáng)制在不同級(jí)別(行、列、標(biāo))進(jìn)行約束,它和數(shù)據(jù)轉(zhuǎn)換器共同保證數(shù)據(jù)的完整性。

        4.結(jié)語

        Web數(shù)據(jù)挖掘是一個(gè)較新的研究領(lǐng)域。XML更是給Web挖掘帶來了新的契機(jī),隨著XML技術(shù)的更加成熟,面向Web的挖掘必然會(huì)變得更輕松,在電子商務(wù)上的應(yīng)用也會(huì)更加深入。

        [1]Simon St.Laurent.XML基礎(chǔ)教程[M].康曉林、伊希榮,等譯.電子工業(yè)出版社.

        [2]胡彥.XML技術(shù)與B2B電子商務(wù)發(fā)展[J].電腦開發(fā)與應(yīng)用,13(9).

        [3]李寅,林宣雄.基于WEB的XML數(shù)據(jù)交換技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2000,(11).

        [4]徐振航,劉莉芹.基于XML的數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2001,(1).

        猜你喜歡
        結(jié)構(gòu)化文檔數(shù)據(jù)挖掘
        有人一聲不吭向你扔了個(gè)文檔
        促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
        基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
        亚洲永久精品ww47永久入口| 亚洲无线码一区二区三区| 黄瓜视频在线观看| 日本不卡视频网站| 国产熟女精品一区二区| av免费在线播放视频| 成人做受视频试看60秒| 国产精品11p| 少妇极品熟妇人妻高清| 91精品国产色综合久久 | 国产尤物精品视频| 丰满人妻无奈张开双腿av| 少妇bbwbbw高潮| 日韩一区二区三区熟女| 欧美性猛交xxxx三人| 99久久久无码国产精品9| 亚洲女同一区二区久久| 日本熟女精品一区二区三区| 特级a欧美做爰片第一次| 欧美日韩精品福利在线观看| 亚洲一区二区女优视频| 久久精品第九区免费观看| 少妇高潮尖叫黑人激情在线| 中文字幕亚洲好看有码| 亚洲综合久久中文字幕专区一区 | 精品国产三级a在线观看| 国产精品亚洲av网站| 美女人妻中出日本人妻| 啦啦啦www播放日本观看| 免费一本色道久久一区| 亚洲国产高清一区av| 日本熟妇美熟bbw| 丰满少妇被猛烈进入无码| 国产区高清在线一区二区三区| 中文字幕漂亮人妻在线| 性一交一乱一透一a级| 亚洲中文字幕av天堂| 在线人妻va中文字幕| 97在线观看播放| 一级片麻豆| 亚洲综合一区二区三区久久|