摘要:Web中的數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),Web自身的特點(diǎn),決定了Web數(shù)據(jù)挖掘技術(shù)具有更多的特點(diǎn),而且應(yīng)用也非常廣泛,不僅能夠提取頁(yè)面的信息,進(jìn)行站點(diǎn)設(shè)計(jì)分析,而且在電子商務(wù)方面也具有非常廣闊的應(yīng)用前景。本文對(duì)數(shù)據(jù)挖掘技術(shù)在Web中的應(yīng)用進(jìn)行分析。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);Web應(yīng)用;網(wǎng)絡(luò)技術(shù)
中圖分類(lèi)號(hào):TP352 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 18-0000-02
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上數(shù)據(jù)資源的越來(lái)越豐富,人們迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),進(jìn)而促生了數(shù)據(jù)挖掘(Data Mining,DM)和知識(shí)發(fā)現(xiàn)(Knowledge Discovery,KD)領(lǐng)域。信息技術(shù)的發(fā)展,對(duì)Web應(yīng)用提出更高了要求,為了能夠滿足人們對(duì)信息獲取的要求,研究基于Web的數(shù)據(jù)挖掘技術(shù),以便人們能夠更加智能、更加自動(dòng)地抽取數(shù)據(jù)以及信息中的知識(shí)。
1 數(shù)據(jù)挖掘技術(shù)相關(guān)概述
1.1 基本概念
數(shù)據(jù)挖掘技術(shù)主要是指尋找隱藏在大量數(shù)據(jù)中有價(jià)值的信息,從中尋找其規(guī)律,揭示出隱含的、具有潛在價(jià)值的知識(shí),從而為決策支持提供有力依據(jù)的過(guò)程。數(shù)據(jù)挖掘的目標(biāo)主要包括特征、趨勢(shì)以及相關(guān)性等多個(gè)方面的信息。隨著網(wǎng)絡(luò)應(yīng)用的普及,網(wǎng)絡(luò)中信息量迅速增加,傳統(tǒng)的知識(shí)發(fā)現(xiàn)(KDD:Knowledge Discovery in Databases)技術(shù)和方法已經(jīng)不能滿足人們從Web中獲取信息的需要,基于網(wǎng)絡(luò)技術(shù)提供對(duì)各類(lèi)數(shù)據(jù)的深層次實(shí)時(shí)分析,提供決策支持服務(wù),就使得基于Web的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,這種技術(shù)將傳統(tǒng)的數(shù)據(jù)挖掘和web應(yīng)用技術(shù)相互結(jié)合起來(lái),實(shí)現(xiàn)高度自動(dòng)化的分析和歸納性的推理。圖1為Web數(shù)據(jù)挖掘原理流程:
2.3 在購(gòu)物網(wǎng)站的應(yīng)用
Web數(shù)據(jù)技術(shù)采用Web-Dms系統(tǒng)可以構(gòu)建一個(gè)基于Web 的挖掘的購(gòu)物網(wǎng)站和交易環(huán)境,還能夠充分利用站點(diǎn)上積累的信息,從而更好地服務(wù)于企業(yè)和客戶。在購(gòu)物網(wǎng)站中采用Web 數(shù)據(jù)挖掘技術(shù)不僅能夠通過(guò)了解購(gòu)物者的行為習(xí)慣,選擇提供最佳的服務(wù)方式、消費(fèi)習(xí)慣,還能夠分析購(gòu)物者的個(gè)人愛(ài)好[3],從而提供更加貼切的商品推介。應(yīng)用Web數(shù)據(jù)技術(shù)Web設(shè)計(jì)人員能夠不再依靠專(zhuān)家的定性的指導(dǎo)進(jìn)行應(yīng)用網(wǎng)站設(shè)計(jì),而是可以根據(jù)購(gòu)物者的信息積累,進(jìn)行網(wǎng)站的結(jié)構(gòu)和界面設(shè)計(jì),為客戶提供個(gè)性化的服務(wù)。
基于Web數(shù)據(jù)挖掘技術(shù)是一門(mén)綜合學(xué)科,需要利用統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),需要利用人工智能、模式識(shí)別和數(shù)據(jù)建模等技術(shù),需要數(shù)據(jù)庫(kù)系統(tǒng)提供有效的存儲(chǔ)、索引和查詢處理支持,并且還依賴于數(shù)據(jù)的完整性和各行業(yè)專(zhuān)業(yè)人員的支持程度。從當(dāng)前國(guó)內(nèi)Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用情況來(lái)看,國(guó)內(nèi)相關(guān)技術(shù)情況還處于探索階段,還有待我們對(duì)分析技術(shù)、專(zhuān)業(yè)知識(shí)、過(guò)程標(biāo)準(zhǔn)化等方面更加深入的學(xué)習(xí)和研究,發(fā)揮出基于Web應(yīng)用數(shù)據(jù)挖掘真正的效益。
參考文獻(xiàn):
[1] Jaideep Srivastava,Robert Cooley,Mukund Deshpande,Pang-Ring Tan,Web Usage Mining:Discovery and Appl J cations of Usage Patterns From Web Data,Appear in SIGKDD Xepiorations,V01.1,Issue2,2000.
[2]《“數(shù)據(jù)挖掘技術(shù)”成為商業(yè)營(yíng)銷(xiāo)新寵兒》,2010,8,3.http://www.Cheaa.com/News/Yingxiao/2010-8/34603_2.html.
[3] Robert Cooley,Bamshad Mobasher,and jaideep Srivastava,Grouping Web Page Reference into Transactions for Mining World Wide Web Browsing Patterns,in P roeeedjrigs of the 1997 lEEE Rnowledge and Data Engineering Exchange Workshop,November,1999.
計(jì)算機(jī)光盤(pán)軟件與應(yīng)用2012年18期