亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        實馳Web數(shù)據(jù)挖掘的問題及解決方法

        2008-01-01 00:00:00陳晴光
        現(xiàn)代企業(yè) 2008年3期

        Web上有海量的數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)分析方法已無法有效地獲取隱藏在海量數(shù)據(jù)中的有用信息或知識,怎樣對這些數(shù)據(jù)進行復雜的應(yīng)用是目前信息處理技術(shù)研究的熱點之一,Web數(shù)據(jù)挖掘技術(shù)以其能在Web環(huán)境下從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題而倍受青睞。對于電子商務(wù)來說,Web數(shù)據(jù)挖掘就是要通過對電子商務(wù)網(wǎng)站上異構(gòu)的海量客戶數(shù)據(jù)進行深層次分析,了解網(wǎng)絡(luò)客戶詳細的商務(wù)行為細節(jié),從中獲取對商業(yè)決策有價值的信息。Web數(shù)據(jù)挖掘常用的技術(shù)有路徑分析、關(guān)聯(lián)規(guī)則、序列模式、聚類與分類技術(shù)等。對電子商務(wù)系統(tǒng)積累的不同來源、不同組織結(jié)構(gòu)的海量數(shù)據(jù)實施Web挖掘的關(guān)鍵問題是:首先必須屏蔽Web數(shù)據(jù)源的異構(gòu)性,其次需要有較完善的半結(jié)構(gòu)化模式抽取技術(shù)支持。

        一、用XML據(jù)模型屏蔽Web數(shù)據(jù)源的異構(gòu)性

        1. 用XML屏蔽Web數(shù)據(jù)源異構(gòu)性的可行性。目前電子商務(wù)系統(tǒng)服務(wù)器端主要是XML、HTML和關(guān)系數(shù)據(jù)等數(shù)據(jù)類型。從信息集成角度來看,關(guān)系數(shù)據(jù)模型過于嚴謹,無法有效地表示半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);HTML對文檔的要求也過于完整,且不能定義數(shù)據(jù)的層次,沒有提供編程接口解析它所攜帶的數(shù)據(jù),無法真正實現(xiàn)各種應(yīng)用程序、數(shù)據(jù)庫及操作系統(tǒng)間的數(shù)據(jù)交互。XML與關(guān)系數(shù)據(jù)模型和HTML相比,可以表示更多樣化的數(shù)據(jù)格式,能夠使不同來源的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)很容易地進行合并。采用XML集成多個不同數(shù)據(jù)源的信息,只需要把來自不同數(shù)據(jù)源的信息先轉(zhuǎn)成XML文檔,然后再處理經(jīng)過解析器解析的數(shù)據(jù)流即可。任何應(yīng)用程序只需要知道兩種格式,即本身的和XML的,就可以通過XML為中介實現(xiàn)與其他應(yīng)用程序的信息交換。

        因此,在Web挖掘的數(shù)據(jù)預處理階段,可以用XML作為異構(gòu)數(shù)據(jù)源集成應(yīng)用的中間數(shù)據(jù)模型來屏蔽Web數(shù)據(jù)源的異構(gòu)性。

        2. HTML文檔向XML文檔轉(zhuǎn)換的實現(xiàn)。目前已有許多由研究機構(gòu)和企業(yè)開發(fā)出的將HTML文檔轉(zhuǎn)換為XML文檔的軟件產(chǎn)品,其中有一些正逐步走向?qū)嵱?。如HTML Tidy就是一個能夠出色地完成HTML代碼清理轉(zhuǎn)換任務(wù)的工具,它由Dave Raggett開發(fā),可以在VisualC++6.0環(huán)境中以HTML文檔名稱為參數(shù)執(zhí)行如下指令被調(diào)用來完成轉(zhuǎn)換:

        WinExec(“TIDY -o output.xhtml -i test.html”, SW ̄HIDE)

        其中output. xhtml為轉(zhuǎn)換結(jié)果文件,test. html為待轉(zhuǎn)換的HTML文檔名稱。

        實際應(yīng)用中,用戶可以采用HTML Tidy先將HTML文檔轉(zhuǎn)換為XHTML文檔。XHTML文檔為XML的子集,它結(jié)合了部分XML的強大功能及大多數(shù)HTML的簡單特性,符合XML規(guī)范,實施Web數(shù)據(jù)挖掘時可以直接從XHTML文檔上進行數(shù)據(jù)抽取。

        3. 關(guān)系數(shù)據(jù)向XML數(shù)據(jù)轉(zhuǎn)換的實現(xiàn)。關(guān)系數(shù)據(jù)是完全結(jié)構(gòu)化數(shù)據(jù),其結(jié)構(gòu)相對較簡單,可以生成具有不同語義的信息視圖,并能很自然地用XML形式的數(shù)據(jù)加以表示。目前很多著名的關(guān)系數(shù)據(jù)庫管理系統(tǒng)如Microsoft SQL Server、 IBM DB2 EXTENDER、 ORACLE 91、 SYBASE等都支持對XML數(shù)據(jù)的存儲管理。因此,實際應(yīng)用中可以利用SQL server 2000 DBMS具有的能從關(guān)系數(shù)據(jù)中產(chǎn)生XML文檔,并在關(guān)系數(shù)據(jù)庫表中存儲XML文檔的功能,在分析數(shù)據(jù)庫所包含的表間及表中列間關(guān)系的基礎(chǔ)上,先建立關(guān)系數(shù)據(jù)庫結(jié)構(gòu)和XML文檔結(jié)構(gòu)之間的映射關(guān)系,再掃描數(shù)據(jù)庫,然后輸出XML文檔。

        二、基于XML的數(shù)據(jù)查詢與抽取的技術(shù)實現(xiàn)

        由于Web數(shù)據(jù)的大量信息都與抽取無關(guān),由HTML文檔和關(guān)系數(shù)據(jù)轉(zhuǎn)換而來的XML文檔以及Web上原有的XML文檔中都包含大量的冗余信息,所以需要過濾清洗掉XML文檔中的無關(guān)數(shù)據(jù),并根據(jù)一定的規(guī)則進行數(shù)據(jù)抽取,以統(tǒng)一的XML數(shù)據(jù)模式描述來自不同數(shù)據(jù)源的數(shù)據(jù),形成XML數(shù)據(jù)集,為下一步數(shù)據(jù)挖掘算法的實施作好準備。

        1. 利用XSL過濾清洗XML文檔中的無關(guān)數(shù)據(jù)。XSL是一種用于以可讀格式呈現(xiàn)XML數(shù)據(jù)的可擴展樣式表語言(Extensible Stylesheet Language),能夠?qū)ML樹進行添加和刪除元素、查找或選擇特定元素等操作。因此,可以利用XSL來處理XML結(jié)構(gòu)的文檔,以檢索抽取適當?shù)臄?shù)據(jù)。這一抽取過程可通過查找XML數(shù)據(jù)內(nèi)的引用點、將數(shù)據(jù)重新映射成XML、合并結(jié)果并處理數(shù)據(jù)等幾個步驟完成。

        2. 基于XML的數(shù)據(jù)查詢。由于采用XML作為中間數(shù)據(jù)模型,因此系統(tǒng)的查詢處理可采用下面的邏輯表示形式:

        Head:一Body

        Head→Unit

        Body→Unitl, …, Unitn(Condition)?

        Unit→<Label Value>

        Label→string|variable

        Value→variable|{Unit+}

        condition→(Predicate)

        Head表示杏詢的結(jié)果,Body表示查詢處理;?表示任選,+表示一個或多個;Predicate是條件表達式;Label對應(yīng)XML的tag,Value對應(yīng)tag中的值;連接操作均隱含在有相同Label的unit之間。這種邏輯表示有利于表示XML的層次和嵌套結(jié)構(gòu)。(本文受浙江萬里學院2007年科研項目“基于Web訪問信息挖掘的商業(yè)智能發(fā)現(xiàn)研究”資助)

        (作者單位:浙江萬里學院商學院)

        欧洲亚洲视频免费| 欧美日本精品一区二区三区| 亚洲香蕉成人av网站在线观看| 风韵饥渴少妇在线观看| 国产精品欧美久久久久老妞| 国产目拍亚洲精品二区| 日本黑人亚洲一区二区| 亚洲成a人无码| 久久亚洲国产精品成人av秋霞| 中文字幕成人精品久久不卡| 最新天堂一区二区三区| 日韩日韩日韩日韩日韩| 破了亲妺妺的处免费视频国产| 美女裸体无遮挡黄污网站| 综合久久精品亚洲天堂| 女人高潮内射99精品| 天天影视色香欲综合久久| 国产成年无码久久久久下载| 一本久道久久丁香狠狠躁| 亚洲无线码一区二区三区| 亚洲第一成人网站| 在线播放中文字幕一区二区三区| 免费av日韩一区二区| 99国产精品人妻噜啊噜| 男女一级毛片免费视频看| 男女啦啦啦视频在线观看| 亚洲精品国产精品乱码在线观看| 国产精品igao视频网| 日韩丝袜亚洲国产欧美一区| 在线小黄片视频免费播放| 国产freesexvideos中国麻豆| 色偷偷av亚洲男人的天堂| 丰满人妻一区二区乱码中文电影网| 沐浴偷拍一区二区视频| 国产在线 | 中文| 在线视频 亚洲精品| 女同另类专区精品女同| 少妇被爽到高潮喷水久久欧美精品| 国产小受呻吟gv视频在线观看| 久久精品有码中文字幕1| 成人av在线久色播放|