亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ＸＭＬ進(jìn)行Ｗｅｂ數(shù)據(jù)挖掘淺析

2009-01-01 00:00:00溫華菁陳紅娟

商場(chǎng)現(xiàn)代化 2009年4期

[摘要] Web數(shù)據(jù)挖掘已經(jīng)成為當(dāng)前廣泛研究的課題。目前許多網(wǎng)站都是用HTML構(gòu)建的，給Web數(shù)據(jù)挖掘帶來了諸多困難，XML的出現(xiàn)為Web數(shù)據(jù)挖掘帶來了便利。本文介紹了Web數(shù)據(jù)挖掘的概念和遇到的困難，分析了XML在Web數(shù)據(jù)挖掘中的應(yīng)用。

[關(guān)鍵詞] Web數(shù)據(jù)挖掘 XML 半結(jié)構(gòu)化數(shù)據(jù)

數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容，解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。Web上有大量的數(shù)據(jù)信息，怎樣對(duì)這些數(shù)據(jù)進(jìn)行挖掘以實(shí)現(xiàn)復(fù)雜的應(yīng)用，已成為現(xiàn)今數(shù)據(jù)庫技術(shù)的研究熱點(diǎn)。

一、Web數(shù)據(jù)挖掘的概念

Web數(shù)據(jù)挖掘是一項(xiàng)涉及Web技術(shù)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語言學(xué)等多學(xué)科的綜合技術(shù)，不同的研究人員從不同的角度出發(fā)，對(duì)Web數(shù)據(jù)挖掘有著不同的理解。研究搜索引擎的人著重于Web頁面的文本數(shù)據(jù)的分析；而設(shè)計(jì)Web站點(diǎn)結(jié)構(gòu)的人，則著重于用戶對(duì)Web站點(diǎn)訪問模式的研究。具體來說，Web數(shù)據(jù)挖掘是指通過一定的算法，從大量的、不完全的隨機(jī)的Web數(shù)據(jù)中抽取模式、提取知識(shí)的過程，其實(shí)質(zhì)是一種從數(shù)據(jù)庫中學(xué)習(xí)的方法，可以彌補(bǔ)數(shù)據(jù)檢索的不足。

二、Web數(shù)據(jù)挖掘面臨的困難

從數(shù)據(jù)準(zhǔn)備階段來看，面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多，主要體現(xiàn)在以下兩個(gè)方面：

1.異構(gòu)數(shù)據(jù)庫環(huán)境。從數(shù)據(jù)庫研究的角度出發(fā)，Web網(wǎng)站上的信息也可以看作一個(gè)大而復(fù)雜的數(shù)據(jù)庫。Web上的每個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源，每個(gè)數(shù)據(jù)源都是異構(gòu)的，而且每個(gè)站點(diǎn)之間的信息和組織都不一樣，這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，首先，要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題，只有將這些站點(diǎn)的數(shù)據(jù)都集成起來，提供給用戶一個(gè)統(tǒng)一的視圖，才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。其次，還要解決web上的數(shù)據(jù)查詢問題，因?yàn)槿绻荒苡行У氐玫剿璧臄?shù)據(jù)，對(duì)這些數(shù)據(jù)進(jìn)行分析、集成，處理就無從談起。

2.半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)。Web上的數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)庫中的不同，傳統(tǒng)的數(shù)據(jù)庫都有一定的數(shù)據(jù)模型，可以根據(jù)模型來描述特定的數(shù)據(jù)。而Web上的數(shù)據(jù)非常復(fù)雜，沒有特定的模型，每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì)，并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而，Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性，但因自述層次的存在，使其成為一種非完全結(jié)構(gòu)化的數(shù)據(jù)，這也被稱為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn) 。

三、XML在Web數(shù)據(jù)挖掘中的應(yīng)用

XML是一種標(biāo)記語言，具有簡(jiǎn)單、開放、高效可擴(kuò)充和標(biāo)準(zhǔn)國際化等特點(diǎn)。它可被看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型，能很容易地與關(guān)系數(shù)據(jù)庫中的屬性一一對(duì)應(yīng)，實(shí)施精確的查詢與模型抽取，方便地實(shí)現(xiàn)數(shù)據(jù)挖掘。XML在Web數(shù)據(jù)挖掘中的應(yīng)用分析如下：

1.實(shí)現(xiàn)異構(gòu)數(shù)據(jù)集成管理。XML是一種半結(jié)構(gòu)化的數(shù)據(jù)模型。用戶可以很容易地將其和關(guān)系數(shù)據(jù)庫中的屬性一一對(duì)應(yīng)，實(shí)施精確地記錄、查詢與模型抽取。因此，XML解決了每一個(gè)站點(diǎn)之間信息和組織都不一樣的問題，使不同站點(diǎn)上的非結(jié)構(gòu)性數(shù)據(jù)可以很容易地規(guī)范到一個(gè)既定數(shù)據(jù)庫上。軟件代理商可以在中間層的服務(wù)器上，對(duì)從后端數(shù)據(jù)庫和其他應(yīng)用獲取的數(shù)據(jù)進(jìn)行集成。

2.將負(fù)載處理從web服務(wù)器轉(zhuǎn)到web客戶端。一般來說，數(shù)據(jù)處理階段是數(shù)據(jù)挖掘的重要環(huán)節(jié)，Web挖掘也不例外，大量的數(shù)據(jù)預(yù)處理工作都需要服務(wù)器端完成。按照傳統(tǒng)的C/S模式來開發(fā)，客戶向服務(wù)器發(fā)出不同的請(qǐng)求，服務(wù)器分別予以響應(yīng)，這不僅加重服務(wù)器本身的負(fù)荷，而且網(wǎng)絡(luò)管理員還需事先調(diào)查各種不同的用戶需求開發(fā)出相應(yīng)的程序。假如用戶的需求繁雜而多變，將所有業(yè)務(wù)邏輯集中在服務(wù)器端顯然不合適。因?yàn)榉?wù)器端編程人員可能來不及滿足眾多的應(yīng)用需求，也無法適應(yīng)需求的變化，雙方都很被動(dòng)。而XML將數(shù)據(jù)處理的主動(dòng)權(quán)交給了客戶，服務(wù)器端所要做的工作只是盡可能準(zhǔn)確、完善地將數(shù)據(jù)封裝成XML文件后發(fā)送給客戶?？蛻舳烁鶕?jù)自己的需求選擇和制作不同的應(yīng)用程序以解析所接收的數(shù)據(jù)，并對(duì)數(shù)據(jù)進(jìn)行編輯和處理。XML自帶的解釋執(zhí)行系統(tǒng)在接收到數(shù)據(jù)的同時(shí)也理解了數(shù)據(jù)的邏輯結(jié)構(gòu)和含義，因而使分布式計(jì)算成為可能。

3.促進(jìn)數(shù)據(jù)交換。在Web數(shù)據(jù)挖掘過程中，用戶經(jīng)常需要在不同結(jié)構(gòu)的數(shù)據(jù)源之間進(jìn)行業(yè)務(wù)數(shù)據(jù)傳遞?；赬ML的數(shù)據(jù)是自我描述的，數(shù)據(jù)不需要內(nèi)部描述就能被交換和處理。利用XML，用戶可以方便地進(jìn)行本地計(jì)算和處理。XML格式的數(shù)據(jù)發(fā)送給客戶后，客戶可以用應(yīng)用軟件方便地解析數(shù)據(jù)，以及對(duì)數(shù)據(jù)進(jìn)行編輯和再處理，使用者可以用不同的方法處理數(shù)據(jù)，而不僅僅是顯示它，XML文檔對(duì)象模式(DOM)允許用腳本或其他編程語言處理Web數(shù)據(jù)，數(shù)據(jù)計(jì)算不需要回到服務(wù)器就能進(jìn)行?？傊谶@類應(yīng)用中XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是，與其他的數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是XML并沒有定義文件中具體數(shù)據(jù)規(guī)范，而是在數(shù)據(jù)中附加標(biāo)志來表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義，這使得XML成為一種程序能自動(dòng)理解的規(guī)范。

4.根據(jù)用戶需求裁減信息內(nèi)容。傳統(tǒng)HTML主要描述數(shù)據(jù)的外觀，而XML可以描述數(shù)據(jù)的類別。由于數(shù)據(jù)顯示與內(nèi)容分開，XML允許為數(shù)據(jù)指定不同顯示方式，使數(shù)據(jù)更合理地表現(xiàn)出來。XML還可以對(duì)所取得的信息進(jìn)行裁減和編輯以適應(yīng)不同的用戶需求：它采用簡(jiǎn)單靈活的格式分離使用者觀察數(shù)據(jù)的界面，將同樣的數(shù)據(jù)以不同瀏覽形式提供給不同用戶。與其他數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是，XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范，而是在數(shù)據(jù)中附加標(biāo)志來表達(dá)數(shù)據(jù)的邏輯結(jié)構(gòu)和含義，這使XML成為一種程序能自動(dòng)理解的規(guī)范。

四、結(jié)束語

由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起，因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能，從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式廣泛普及，Web數(shù)據(jù)挖掘?qū)?huì)變得高效與輕松。

參考文獻(xiàn):

[1]Han Jiawei， Micheline K:數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社，2001，290～294

[2]王澤彬金飛李夏王冠:Web數(shù)據(jù)挖掘技術(shù)及實(shí)現(xiàn). 哈爾濱工業(yè)大學(xué)學(xué)報(bào)，2005.Vol.37.No.10

商場(chǎng)現(xiàn)代化2009年4期

商場(chǎng)現(xiàn)代化的其它文章: β系數(shù)影響因素的實(shí)證研究綜述; 計(jì)算機(jī)公共基礎(chǔ)課教學(xué)模式的改革; 高等數(shù)學(xué)與經(jīng)濟(jì)數(shù)量分析淺議; 軟件安全問題初探; 日本特殊的科技演變; 高職電子商務(wù)專業(yè)實(shí)踐教學(xué)體系研究