亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究

        2008-12-31 00:00:00丁勝鋒陳東莉
        商場(chǎng)現(xiàn)代化 2008年10期

        [摘要] 電子商務(wù)是現(xiàn)代商業(yè)模式,數(shù)據(jù)挖掘是先進(jìn)的信息處理技術(shù),因此數(shù)據(jù)挖掘在電子商務(wù)中具有廣闊的應(yīng)用前景。本文主要介紹了Web數(shù)據(jù)挖掘的概念和分類,論述了電子商務(wù)中Web數(shù)據(jù)挖掘的過程和方法,最后闡述了Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用。

        [關(guān)鍵詞] Web 數(shù)據(jù)挖掘 電子商務(wù)

        一、引言

        電子商務(wù)是利用計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和遠(yuǎn)程通信技術(shù),實(shí)現(xiàn)整個(gè)商務(wù)(買賣)過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化。在全球范圍內(nèi),基于Internet的電子商務(wù)迅猛發(fā)展,促使各企業(yè)經(jīng)營(yíng)者必須及時(shí)搜集大量的數(shù)據(jù),并且將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息,為企業(yè)創(chuàng)造更多潛在的利潤(rùn)。利用Web數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),提取出有效信息,進(jìn)而指導(dǎo)企業(yè)調(diào)整營(yíng)銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。

        二、Web數(shù)據(jù)挖掘

        1.Web數(shù)據(jù)挖掘的概念

        數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程。Web數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從Web文檔和Web活動(dòng)中發(fā)現(xiàn)潛在的、有用的模式或信息。它是一項(xiàng)綜合技術(shù),涉及到Internet、人工智能、計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。

        2.Web數(shù)據(jù)挖掘的類型

        電子商務(wù)中Web信息的多樣性決定了挖掘任務(wù)的多樣性。按照Web處理對(duì)象的不同,Web數(shù)據(jù)挖掘可以分為以下三種類型:

        (1)Web內(nèi)容挖掘(Web Content Mining):可分為Web頁(yè)面內(nèi)容挖掘和搜索結(jié)果挖掘。前者指的是對(duì)Web頁(yè)面上的數(shù)據(jù)進(jìn)行挖掘。而后者指的是以某一搜索引擎為基礎(chǔ),對(duì)已搜索結(jié)果的挖掘,以得到更精確有用的信息。Web內(nèi)容挖掘常用的方法有WebOQL和Ahoy。

        (2)Web結(jié)構(gòu)挖掘(Web Structure Mining):可分為超鏈接挖掘、內(nèi)容挖掘和URL挖掘。整個(gè)Web空間里,有用的知識(shí)不僅包含在Web頁(yè)面的內(nèi)容之中,而且包含在頁(yè)面的結(jié)構(gòu)之中。Web結(jié)構(gòu)挖掘是挖掘Web潛在的鏈接結(jié)構(gòu)模式,是對(duì)Web頁(yè)面超鏈接關(guān)系、文檔內(nèi)部結(jié)構(gòu)、文檔URL中的目錄途徑結(jié)構(gòu)的挖掘。Page2Rank方法就是利用文檔間鏈接信息來查找相關(guān)的Web頁(yè)。

        (3)Web使用挖掘(Web Usage Mining):可分為一般訪問模式挖掘和個(gè)性化服務(wù)模式挖掘。它是從Web的訪問記錄中抽取感興趣的模式。WWW 中的每個(gè)服務(wù)器都保留了訪問日志,記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進(jìn)站點(diǎn)的結(jié)構(gòu),或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。

        3.電子商務(wù)中Web數(shù)據(jù)挖掘的數(shù)據(jù)對(duì)象

        (1)服務(wù)器日志數(shù)據(jù)??蛻粼L問站點(diǎn)時(shí)會(huì)在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲(chǔ)在服務(wù)器上,一般包括sever logs、 error logs 、cookie logs等。

        (2)代理服務(wù)器數(shù)據(jù)。網(wǎng)站服務(wù)器日志只記錄用戶對(duì)某個(gè)網(wǎng)站的訪問,而代理服務(wù)器日志記錄用戶對(duì)所有網(wǎng)站的訪問。代理服務(wù)器相當(dāng)于在客戶瀏覽器和Web服務(wù)器之間提供了緩存功能的中介服務(wù)器。它的緩存功能減少了Web服務(wù)器的網(wǎng)絡(luò)流量,加快了網(wǎng)頁(yè)的運(yùn)行速度。同時(shí)將大量的用戶訪問信息通過代理日志的形式保存起來。

        (3)Web頁(yè)面。它主要是指HTLM和XML頁(yè)面的內(nèi)容,包括本文、圖片、語(yǔ)音、圖像等。

        (4)Web頁(yè)面超級(jí)鏈接關(guān)系。它主要是指頁(yè)面之間存在的超級(jí)鏈接關(guān)系。

        (5)客戶登記信息。它是指客戶通過Web頁(yè)輸入的,要提交給服務(wù)器的相關(guān)用戶信息。這些信息通常是關(guān)于用戶的人口特征??蛻舻怯浶畔⑿枰驮L問日志集成,才能提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進(jìn)一步的了解客戶。

        (6)異構(gòu)數(shù)據(jù)源。由于電子商務(wù)交易是在Internet網(wǎng)上進(jìn)行,數(shù)據(jù)庫(kù)的結(jié)構(gòu)各異,但其中涵蓋著許多價(jià)值很高的信息資料,如果用Agent智能手段捕獲這些信息源,對(duì)提高電子商務(wù)挖掘信息價(jià)值是很有益的。

        4.電子商務(wù)中Web數(shù)據(jù)挖掘的過程

        (1)數(shù)據(jù)預(yù)處理。它包括數(shù)據(jù)清理、用戶識(shí)別、用戶會(huì)話識(shí)別、訪問路徑補(bǔ)充和事務(wù)識(shí)別等步驟。

        數(shù)據(jù)清洗的目的是刪除Web日志中與數(shù)據(jù)不相關(guān)的冗余項(xiàng),縮小被挖掘數(shù)據(jù)對(duì)象的范圍。

        在數(shù)據(jù)凈化后就必須確定單一的用戶,用戶識(shí)別的目的就是對(duì)用戶惟一性的識(shí)別。用戶識(shí)別可以借助于cookie技術(shù)、用戶登記技術(shù)和啟發(fā)性規(guī)則來實(shí)現(xiàn)。

        用戶會(huì)話識(shí)別的目的是將每個(gè)用戶的訪問信息劃分成若干個(gè)獨(dú)立的會(huì)話進(jìn)程。最簡(jiǎn)單的方法是采用超時(shí)估計(jì)的辦法,即當(dāng)對(duì)頁(yè)面之間的請(qǐng)求時(shí)間間隔超出所給定值時(shí),即可以認(rèn)為用戶已經(jīng)開始了一次新的會(huì)話。

        因?yàn)轫?yè)面緩存技術(shù)和代理服務(wù)器的廣泛使用,使得Web服務(wù)器訪問日志中所記錄的可能不是用戶完整的訪問路徑。不完整的訪問日志不能準(zhǔn)確地反映用戶的訪問模式,所以有必要進(jìn)行訪問路徑的補(bǔ)充。進(jìn)行路徑補(bǔ)充可以利用Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),對(duì)頁(yè)面進(jìn)行分析。

        事務(wù)識(shí)別是建立在用戶會(huì)話識(shí)別的基礎(chǔ)上的,其目的是依據(jù)數(shù)據(jù)挖掘任務(wù)的需求將事務(wù)做分割或合并處理,使其適合于數(shù)據(jù)挖掘需求的分析。

        (2)模式識(shí)別。對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行處理得到相應(yīng)的事務(wù)數(shù)據(jù)庫(kù)。在事務(wù)數(shù)據(jù)庫(kù)基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,需要進(jìn)行兩個(gè)方面的工作:一是將事務(wù)數(shù)據(jù)庫(kù)整理變換成與一定挖掘技術(shù)相適應(yīng)的數(shù)據(jù)存儲(chǔ)形式;二是利用數(shù)據(jù)挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識(shí)。可用于Web的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等。

        (3)模式分析。該階段的主要任務(wù)是從上一階段收集的數(shù)據(jù)集中過濾掉不感興趣和無(wú)關(guān)聯(lián)的數(shù)據(jù)及模式,發(fā)現(xiàn)有趣模式。最常見的模式分析方法是SQL語(yǔ)言知識(shí)查詢機(jī)制,也可以利用存儲(chǔ)Web使用數(shù)據(jù)的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)導(dǎo)入,再利用OLAP方法發(fā)現(xiàn)數(shù)據(jù)中的特定模式結(jié)果。

        (4)可視化。主要是采用可視化的技術(shù)以圖形界面的方式表示挖掘的成果。

        三、電子商務(wù)中的Web數(shù)據(jù)挖掘技術(shù)

        1.路徑分析(Path Analysis)

        路徑分析是一種找尋頻繁訪問路徑的方法,它通過對(duì)Web服務(wù)器的日志文件中客戶訪問站點(diǎn)的訪問次數(shù)分析,挖掘出頻繁訪問路徑。例如,某客戶從某一站點(diǎn)訪問到某一感興趣的頁(yè)面后就會(huì)經(jīng)常訪問該頁(yè)面,通過路徑分析確定頻繁訪問路徑,可以了解客戶對(duì)哪些頁(yè)面感興趣,從而更好地改進(jìn)設(shè)計(jì),為客戶服務(wù)。

        用路徑分析技術(shù)進(jìn)行Web數(shù)據(jù)挖掘時(shí),最常用的是圖。因?yàn)橐粋€(gè)圖代表了定義在網(wǎng)站上的頁(yè)面之間的聯(lián)系。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖,網(wǎng)站上的頁(yè)面定義成節(jié)點(diǎn),頁(yè)面之間的超鏈接定義成圖中的邊。其他的各式各樣的圖也都是建立在頁(yè)面和頁(yè)面之間聯(lián)系或者是一定數(shù)量的學(xué)習(xí)者瀏覽頁(yè)面順序基礎(chǔ)之上的。那么,基于Web數(shù)據(jù)挖掘,就是從圖中確定最頻繁的路徑訪問模式或大的參引訪問序列。

        2.統(tǒng)計(jì)分析(Statistics Analysis)

        統(tǒng)計(jì)分析是從Web站點(diǎn)中抽取知識(shí)最常用的方法,對(duì)會(huì)話文件中的各個(gè)維度,例如瀏覽時(shí)間、路徑長(zhǎng)度,都可以進(jìn)行頻度、平均值的統(tǒng)計(jì)分析。許多Web瀏覽分析工具會(huì)定時(shí)提交統(tǒng)計(jì)分析報(bào)告,這些報(bào)告的內(nèi)容通常包括最頻繁被訪問的頁(yè)面、頁(yè)面的平均瀏覽時(shí)間和平均路徑長(zhǎng)度,有些統(tǒng)計(jì)報(bào)告還提供了簡(jiǎn)單的錯(cuò)誤分析功能,例如探測(cè)非法訪問的次數(shù)、出錯(cuò)最多的URL。盡管這種分析缺少深度,但仍有助于改進(jìn)系統(tǒng)性能,增強(qiáng)系統(tǒng)安全性,便于站點(diǎn)修改,并能提供決策支持。

        3.關(guān)聯(lián)規(guī)則(Association Regulation)

        關(guān)聯(lián)分析的目的是為了挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。在電子商務(wù)中,關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是找到客戶對(duì)網(wǎng)站上各種文件之間訪問的相互聯(lián)系。聯(lián)系的問題就是得到如下形式的規(guī)則:“”, 其中與均為在數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)特征屬性值的集合。例如,用關(guān)聯(lián)規(guī)則技術(shù),我們可以發(fā)現(xiàn):如果客戶在一次訪問行為中,訪問了頁(yè)面/page1時(shí),一般也會(huì)訪問頁(yè)面/page2。進(jìn)行Web上的數(shù)據(jù)挖掘,構(gòu)建關(guān)聯(lián)模型,我們可以更好地組織站點(diǎn),減少用戶過濾信息的負(fù)擔(dān),實(shí)施有效的市場(chǎng)策略,增加交叉銷售量。

        4.序列模式(Sequential Pattern)

        序列模式分析的目的是為了挖掘出數(shù)據(jù)間的前后或因果關(guān)系,就是在時(shí)間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一個(gè)項(xiàng)”的內(nèi)部事務(wù)模式。例如,在/page1上進(jìn)行過在線訂購(gòu)的顧客,有60%的人在過去10天內(nèi)也在/page2上下過定單。通過序列模式的發(fā)現(xiàn),能夠便于電子商務(wù)的經(jīng)營(yíng)者預(yù)測(cè)客戶的訪問模式,在服務(wù)器方選取有針對(duì)性的頁(yè)面,以滿足訪問者的特定要求;網(wǎng)站的管理員可將訪問者按瀏覽模式分類,在頁(yè)面上只展示具有該瀏覽模式的訪問者經(jīng)常訪問的鏈接,而用一個(gè)“更多內(nèi)容”指向其他未被展示的內(nèi)容。當(dāng)訪問者瀏覽到某頁(yè)面時(shí),檢查他的瀏覽所符合的序列模式,并在顯眼的位置提示“訪問該頁(yè)面的人通常接著訪問”的若干頁(yè)面。

        5.分類規(guī)則(Classification Regulation)

        分類要解決的問題是為一個(gè)事件或?qū)ο髿w類。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫(kù)中的每一個(gè)記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫(kù)稱為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其它數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類。例如,經(jīng)過Web挖掘發(fā)現(xiàn),在/page1進(jìn)行過在線訂購(gòu)的客戶中有60%是20歲~30歲生活在大中城市的年輕人。得到分類后,就可以針對(duì)這一類客戶的特點(diǎn)展開商務(wù)活動(dòng),提供有針對(duì)性的個(gè)性化的信息服務(wù)。用于分類分析的方法有統(tǒng)計(jì)方法的貝葉斯分類、機(jī)器學(xué)習(xí)的判定樹歸納分類、神經(jīng)網(wǎng)絡(luò)的后向傳播分類、K-最臨近分類、mbr、遺傳法、粗糙集和模糊集等。

        6.聚類分析(Clustering Analysis)

        聚類分析不同于分類規(guī)則,其輸入集是一組未標(biāo)定的記錄,也就是說,此時(shí)輸入的記錄還沒有進(jìn)行任何分類。其目的是根據(jù)一定的規(guī)則,合理地劃分記錄集合,并用顯式或隱式的方法描述不同的類別。在電子商務(wù)中,通過聚類具有相似瀏覽行為的客戶,可使經(jīng)營(yíng)者更多地了解客戶,為客戶提供更好的服務(wù)。例如,一些客戶在一個(gè)時(shí)間段內(nèi)經(jīng)常瀏覽“wedding celebration”,經(jīng)過分析可將這些客戶聚類為一組,并可進(jìn)一步得知這是一組即將結(jié)婚的客戶,對(duì)他們的服務(wù)就應(yīng)該有別于其他的聚類客戶,如“經(jīng)理人員階層組”、“學(xué)生階層組”。這樣,Web可自動(dòng)給這個(gè)特定的顧客聚類發(fā)送新產(chǎn)品信息郵件,為這個(gè)顧客聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)。在一定程度上滿足客戶的要求,這對(duì)客戶和銷售商來說更有意義。

        四、Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用

        1.挽留老顧客,挖掘潛在客戶

        通過Web挖掘,電子商務(wù)的經(jīng)營(yíng)者可以獲知每位訪問者的個(gè)人愛好,充分地了解客戶的需要,根據(jù)每一類顧客的獨(dú)特需求提供定制化的產(chǎn)品,并根據(jù)需求動(dòng)態(tài)地向客戶做頁(yè)面推薦,調(diào)整Web頁(yè)面,提高客戶滿意度,延長(zhǎng)客戶駐留的時(shí)間,最終達(dá)到留住客戶的目的。通過挖掘Web日志記錄,可以先對(duì)已經(jīng)存在的訪問者進(jìn)行分類,然后從它的分類判斷出某個(gè)新客戶是否是潛在的客戶。

        2.制定產(chǎn)品營(yíng)銷策略,優(yōu)化促銷活動(dòng)

        通過對(duì)商品訪問情況和銷售情況進(jìn)行挖掘,企業(yè)能夠獲取客戶的訪問規(guī)律,確定顧客消費(fèi)的生命周期,根據(jù)市場(chǎng)的變化,針對(duì)不同的產(chǎn)品制定相應(yīng)的營(yíng)銷策略。

        3.降低運(yùn)營(yíng)成本,提高企業(yè)競(jìng)爭(zhēng)力

        電子商務(wù)的經(jīng)營(yíng)者通過Web數(shù)據(jù)挖掘,可以得到可靠的市場(chǎng)反饋信息,認(rèn)真分析顧客的將來行為,進(jìn)行有針對(duì)性的電子商務(wù)營(yíng)銷活動(dòng);可以根據(jù)關(guān)心某產(chǎn)品的訪問者的瀏覽模式來決定廣告的位置,增加廣告針對(duì)性,提高廣告的投資回報(bào)率,從而降低運(yùn)營(yíng)成本,提高企業(yè)競(jìng)爭(zhēng)力。

        4.提高站點(diǎn)點(diǎn)擊率,完善電子商務(wù)網(wǎng)站設(shè)計(jì)

        通過挖掘客戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù),進(jìn)一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)以提高網(wǎng)站的點(diǎn)擊率。比如利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),可以針對(duì)不同客戶動(dòng)態(tài)調(diào)整站點(diǎn)結(jié)構(gòu),使客戶訪問的有關(guān)聯(lián)的文件間的鏈接更直接,讓客戶容易地訪問到想要的頁(yè)面,就能給客戶留下好的印象,增加下次訪問的機(jī)率。

        同時(shí)對(duì)網(wǎng)站上各種數(shù)據(jù)的統(tǒng)計(jì)分析有助于改進(jìn)系統(tǒng)性能,增強(qiáng)系統(tǒng)安全性,并提供決策支持。

        五、結(jié)束語(yǔ)

        當(dāng)今時(shí)代,電子商務(wù)的發(fā)展勢(shì)頭越來越強(qiáng)勁,面向電子商務(wù)的數(shù)據(jù)挖掘?qū)⑹且粋€(gè)非常有前景的領(lǐng)域。但是,不可否認(rèn),在面向電子商務(wù)的數(shù)據(jù)挖掘中還存在很多急需解決的問題, 比如:怎樣將服務(wù)器的日志數(shù)據(jù)轉(zhuǎn)化成適合某種數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)格式;怎樣解決分布性、異構(gòu)性數(shù)據(jù)源的挖掘問題;如何控制整個(gè)Web上的知識(shí)發(fā)現(xiàn)過程等。

        參考文獻(xiàn):

        [1]Jiawei Han,Micheline Kamber著,范明孟小峰譯:數(shù)據(jù)挖掘概念與技術(shù).機(jī)械工業(yè)出版社,2001,8

        [2]凌傳繁:Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].情報(bào)雜志,2006,(1)

        [3]柳:Web挖掘技術(shù)與電子商務(wù)[J].商場(chǎng)現(xiàn)代化,2007,(03X)

        国产高清一级毛片在线看| 亚洲欧美乱综合图片区小说区| 色婷婷综合久久久久中文| 日本手机在线| 东京热日本道免费高清| 亚洲成av人片一区二区密柚| 中文亚洲欧美日韩无线码| 亚洲欧美色一区二区三区| 亚洲中文字幕无码永久在线| 国产一区二区三区免费在线视频| 精品国产日韩亚洲一区在线| 无码人妻精品一区二区三区蜜桃 | 小池里奈第一部av在线观看| 国产乱码卡二卡三卡老狼| 精品熟女少妇av免费观看| 成人免费丝袜美腿视频| 国产成人自拍视频播放| 久久婷婷人人澡人人喊人人爽 | 18禁黄久久久aaa片| 国产女高清在线看免费观看 | 人妻系列中文字幕av| 性刺激的大陆三级视频| 粗一硬一长一进一爽一a级| 国产精品狼人久久久影院| av网站在线观看亚洲国产| 麻豆69视频在线观看| 国产精品r级最新在线观看| 99热这里有免费国产精品| 国产三级在线观看不卡| 久久婷婷色香五月综合缴缴情| 2019最新国产不卡a| 久久99国产亚洲高清观看首页| 成人自拍一二在线观看| 亚洲色大成网站www久久九九| 狼人国产精品亚洲| 白白色福利视频在线观看| 刺激一区仑乱| 四虎成人精品无码永久在线| 久久综合给合久久97色| 东北女人啪啪对白| 日日躁夜夜躁狠狠躁超碰97|