亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電子商務(wù)的Web數(shù)據(jù)挖掘研究

        2015-09-25 09:14:08張素智曲旭凱張琳
        現(xiàn)代計算機(jī) 2015年9期
        關(guān)鍵詞:復(fù)雜性頁面數(shù)據(jù)挖掘

        張素智,曲旭凱,張琳

        (鄭州輕工業(yè)學(xué)院計算機(jī)與通信工程學(xué)院,鄭州 450002)

        基于電子商務(wù)的Web數(shù)據(jù)挖掘研究

        張素智,曲旭凱,張琳

        (鄭州輕工業(yè)學(xué)院計算機(jī)與通信工程學(xué)院,鄭州450002)

        0 引言

        隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的大面積普及,電子商務(wù)已悄然融入到我們?nèi)粘I钪械姆椒矫婷?,影響人們的消費理念,并逐步取代傳統(tǒng)商務(wù)模式。在商業(yè)領(lǐng)域中,電子商務(wù)是一種新興的商務(wù)貿(mào)易模式[1]。它是一種以互聯(lián)網(wǎng)為主體,信息技術(shù)為核心的現(xiàn)代商業(yè)模式。電子商務(wù)的出現(xiàn)促進(jìn)了傳統(tǒng)商務(wù)模式的網(wǎng)絡(luò)化進(jìn)程,改變了公眾的消費環(huán)境,現(xiàn)實了商務(wù)的活動的數(shù)字化、智能化。

        電子商務(wù)以其方便、快捷等優(yōu)點贏得了廣大用戶的青睞,網(wǎng)上交易數(shù)額逐年上漲,但是伴隨著電子商務(wù)活動的發(fā)展,各種問題的出現(xiàn)引起了人們的重視。如今,電子商務(wù)平臺、購物網(wǎng)站等大量的出現(xiàn),為我們提供各種各樣的商務(wù)信息。我們面對這些數(shù)量巨大、類型不一、結(jié)構(gòu)多樣的信息,并且想從中找到對自己價值或是與我們自身需求相關(guān)的信息困難重重,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)勢在必行。數(shù)據(jù)挖掘技術(shù)是一種從大量的、不完全的、有噪聲的、隨機(jī)的、模糊的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,但又具有潛在價值的信息和知識的技術(shù)[2]。

        1 面向電子商務(wù)的Web數(shù)據(jù)挖掘

        1.1Web數(shù)據(jù)挖掘

        (1)Web數(shù)據(jù)挖掘簡介

        數(shù)據(jù)挖掘是從大量有噪聲或模糊的隨機(jī)數(shù)據(jù)中發(fā)現(xiàn)有效的、可理解的、隱含其中的、潛在有用的知識或模式[4]。數(shù)據(jù)挖掘是一種深層次的數(shù)據(jù)分析方法,結(jié)合當(dāng)前各行各業(yè)自動化的發(fā)展進(jìn)程,數(shù)據(jù)挖掘被運用到越來越多的領(lǐng)域中。如在生物醫(yī)學(xué)中對遺傳信息、DNA數(shù)據(jù)的分析,在GIS系統(tǒng)中對地理位置、地貌特征的挖掘任務(wù)等[5]。數(shù)據(jù)挖掘在經(jīng)濟(jì)領(lǐng)域的應(yīng)用成為目前人們關(guān)注以及學(xué)者研究的熱點。通過對網(wǎng)絡(luò)中產(chǎn)生的巨量數(shù)據(jù)進(jìn)行分析、處理,數(shù)據(jù)挖掘可以為企業(yè)提供客戶群體的分類、產(chǎn)品銷售預(yù)測、企業(yè)發(fā)展規(guī)劃等方面的支持。

        進(jìn)行數(shù)據(jù)挖掘的研究不僅僅是在理論層面上的論證和闡述,關(guān)鍵在于把研究的成果應(yīng)用于實際中。對于在企業(yè)中應(yīng)用數(shù)據(jù)挖掘,最主要的目的是為企業(yè)管理者提供決策支持,為企業(yè)提高效益、獲取利潤提供幫助。在數(shù)據(jù)挖掘過程中面臨著一個棘手的問題就是待處理的數(shù)據(jù)是海量的,而待挖掘與通過處理后發(fā)現(xiàn)的知識模式匱乏[8]。如何使數(shù)據(jù)挖掘在商業(yè)領(lǐng)域發(fā)揮更大的作用是數(shù)據(jù)挖掘待解決的難題。

        (2)Web數(shù)據(jù)挖掘分類

        Web數(shù)據(jù)挖掘根據(jù)Web信息的復(fù)雜性、多樣性可以分為三類,即:Web內(nèi)容挖掘、Web訪問挖掘、Web結(jié)構(gòu)挖掘。內(nèi)容數(shù)據(jù)、訪問數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)三類挖掘?qū)ο蠓謩e與以上挖掘類型對應(yīng)。

        圖1 Web挖掘分類圖

        ①Web內(nèi)容挖掘

        Web內(nèi)容挖掘的主要任務(wù)包括網(wǎng)頁分類、網(wǎng)頁聚類、信息抽取、網(wǎng)頁結(jié)果挖掘網(wǎng)頁摘要等。Web內(nèi)容挖掘需要從Web頁面及后臺數(shù)據(jù)庫中開展挖掘任務(wù),從大量的元數(shù)據(jù)、文本、視頻、音頻等網(wǎng)絡(luò)數(shù)據(jù)集中找到特定的信息[9]。Web內(nèi)容挖掘重點研究網(wǎng)頁的分類和聚類。Web頁面分類是將目標(biāo)數(shù)據(jù)源按照預(yù)先定義的主題、類別,按照其不同的屬性特征構(gòu)建分類模型。Web頁面聚類是將Web中的頁面聚集成不同的類別,且同一類別中的頁面內(nèi)容有極高的相似度。Web內(nèi)容挖掘用戶發(fā)現(xiàn)相關(guān)頁面間的連接結(jié)構(gòu),權(quán)威頁面查找等[10]。

        ②Web訪問挖掘

        Web訪問挖掘也稱為Web應(yīng)用挖掘或者Web日志挖掘[11]。Web訪問挖掘主要是根據(jù)Web中的訪問日志或用戶的登記文件數(shù)據(jù)發(fā)現(xiàn)用戶的訪問模式。與Web內(nèi)容挖掘和結(jié)構(gòu)挖掘使用Web原始數(shù)據(jù)不同的是訪問挖掘任務(wù)使用的是從網(wǎng)絡(luò)交互中抽取的二手?jǐn)?shù)據(jù)。Web訪問挖掘在實際應(yīng)用較為普遍,它主要提供對客戶行為的分析。Web訪問挖掘根據(jù)數(shù)據(jù)源的不同處理方式可以分為兩種[12]。第一種是將數(shù)據(jù)直接進(jìn)行預(yù)處理后進(jìn)行挖掘任務(wù),第二種是將數(shù)據(jù)轉(zhuǎn)化后存入關(guān)系表中,然后對關(guān)系表中的數(shù)據(jù)進(jìn)行挖掘分析。通過訪問挖掘能發(fā)現(xiàn)序列模式和關(guān)聯(lián)規(guī)則、提高站點效率、抽取訪問信息特點、發(fā)現(xiàn)導(dǎo)航模式等。

        ③Web結(jié)構(gòu)挖掘

        Web結(jié)構(gòu)挖掘的任務(wù)是從Web頁面中發(fā)現(xiàn)它們之間的組織結(jié)構(gòu)。Web結(jié)構(gòu)挖掘主要面對是的網(wǎng)頁間的鏈接結(jié)構(gòu)、內(nèi)頁內(nèi)結(jié)構(gòu)以及URL路徑結(jié)構(gòu)等,Web頁面結(jié)構(gòu)復(fù)雜,根據(jù)不同的用戶需求有其獨特的設(shè)計[13]。通過對Web頁面結(jié)構(gòu)的分析、判斷,將頁面之間的連接關(guān)系分類,發(fā)現(xiàn)除內(nèi)容以外的信息,再結(jié)合挖掘模型獲取網(wǎng)頁相似度和關(guān)聯(lián)信息。

        (3)Web數(shù)據(jù)挖掘過程

        數(shù)據(jù)挖掘過程一共要經(jīng)歷7個步驟,這7個步驟根據(jù)挖掘結(jié)果反復(fù)迭代,從而得到更加準(zhǔn)確的知識,每一個步驟都是必不可少的[14]。過程示意圖如下:

        圖2 數(shù)據(jù)挖掘過程圖

        從圖中可以看出,數(shù)據(jù)挖掘主要包括:

        ①定義問題

        數(shù)據(jù)挖掘任務(wù)進(jìn)行的必要條件是明確挖掘所針對的業(yè)務(wù)任務(wù)。在挖掘任務(wù)開始之前對挖掘任務(wù)的成果無法進(jìn)行預(yù)測,但對于多數(shù)問題來說,在實際應(yīng)用中還是可以在一定程度上有一些預(yù)見性的趨勢判斷的[15]。在Web中進(jìn)行數(shù)據(jù)挖掘,把握清晰、明確的挖掘定義問題是非常必要的,如果只是盲目地為了挖掘而開展挖掘任務(wù),一般來說挖掘任務(wù)都不會成功。

        ②數(shù)據(jù)收集和抽取

        數(shù)據(jù)收集就是對數(shù)據(jù)的搜索、取樣或是對數(shù)據(jù)特征的探究。電子商務(wù)網(wǎng)站每天都會產(chǎn)生巨量的交易數(shù)據(jù)和用戶瀏覽記錄,數(shù)據(jù)收集需要把這些相關(guān)數(shù)據(jù)存放到數(shù)據(jù)倉庫或是數(shù)據(jù)集市,然后利用數(shù)據(jù)分析技術(shù)進(jìn)行處理。對于Web數(shù)據(jù)的收集,需要從Web服務(wù)器中下載日志文件,從代理服務(wù)器端收集信息以及從Web頁面中提取數(shù)據(jù)[16]。如果數(shù)據(jù)倉庫中數(shù)據(jù)貧乏、不足以支撐數(shù)據(jù)挖掘任務(wù),還需要從外部系統(tǒng)收集信息。必要時還需另外購買數(shù)據(jù)進(jìn)行數(shù)據(jù)填充。除了數(shù)據(jù)的收集之外,還需要對收集到的數(shù)據(jù)進(jìn)行抽取。進(jìn)行數(shù)據(jù)抽取的主要目的是對集合中海量數(shù)據(jù)進(jìn)行篩選、分類,為后續(xù)的挖掘工作提取高質(zhì)量的數(shù)據(jù)源。

        ③數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘任務(wù)中最為關(guān)鍵的一個階段,也是最為消耗數(shù)據(jù)的一步。數(shù)據(jù)預(yù)處理包括對數(shù)據(jù)的分析、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)的清洗、技術(shù)選擇等,主要是為了降低數(shù)據(jù)中的“噪聲”,解決數(shù)據(jù)缺省、冗余、和數(shù)據(jù)不一致的問題[17]。Web中數(shù)據(jù)挖掘任務(wù)面對的是巨量的復(fù)雜數(shù)據(jù),需要運用多種技術(shù)對數(shù)據(jù)進(jìn)行預(yù)處理,為挖掘工作做好準(zhǔn)備。所以,數(shù)據(jù)預(yù)處理階段是數(shù)據(jù)挖掘成敗的關(guān)鍵[18]。

        ④挖掘模型構(gòu)建與評估

        構(gòu)建模型主要是將數(shù)據(jù)進(jìn)行規(guī)格化的處理,使用不同的算法、調(diào)整參數(shù)來優(yōu)化挖掘任務(wù)。全面考慮影響建模的各種相關(guān)因素,從模型的可用性、準(zhǔn)確性、普適性等方面進(jìn)行全面的考察。在確定模型構(gòu)建方式并完成模式構(gòu)建任務(wù)后需要對模型進(jìn)行評估。模型的評估不單單是利用工具軟件對構(gòu)建的模型的效率、精確度進(jìn)行測試和驗證,需要分析方法的輔助來衡量所發(fā)現(xiàn)模式的意義和提高其在實際業(yè)務(wù)的應(yīng)用[19]。模型評估是一個重復(fù)的過程,模型中的個別數(shù)據(jù)或一組變量不能適合實際業(yè)務(wù)應(yīng)用的所有需求。模型評估需要有持續(xù)的數(shù)據(jù)選擇,必要時需要對第一步的問題進(jìn)行重新的定義才能得到更加有價值的評估結(jié)果[20]。數(shù)據(jù)挖掘技術(shù)本身就是一個不斷往復(fù)、不斷迭代的過程,通過多次的循環(huán)構(gòu)造處理才能得出更好的評估模型。

        ⑤數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘階段需要選擇合適的算法對數(shù)據(jù)進(jìn)行挖掘,從海量的數(shù)據(jù)中發(fā)現(xiàn)有效的、可理解的、隱含其中的、潛在有用的知識或模式。電子商務(wù)中常見的數(shù)據(jù)挖掘方式主要有關(guān)聯(lián)規(guī)則、分類、聚類、序列模式[21]。

        ⑥結(jié)果分析和預(yù)測

        數(shù)據(jù)挖掘階段完成后需要對挖掘的結(jié)果進(jìn)行必要的解釋說明和評估。在挖掘結(jié)果的表達(dá)方式上可以對數(shù)據(jù)進(jìn)行可視化的處理,實現(xiàn)對稀疏或復(fù)雜數(shù)據(jù)集的深入洞察。實踐是檢驗真理的唯一標(biāo)準(zhǔn),挖掘結(jié)果也需要在實踐中進(jìn)行檢驗和論證[22]。在論證過程中,如果挖掘結(jié)果準(zhǔn)確度不高或者與預(yù)期偏差較大就需要對問題進(jìn)行重新的定義,然后再次收集數(shù)據(jù),進(jìn)行數(shù)據(jù)的預(yù)處理、構(gòu)件模型并重新進(jìn)行數(shù)據(jù)挖掘。預(yù)測是基于對挖掘結(jié)果的分析,電商網(wǎng)站每天都有成千上萬的業(yè)務(wù)產(chǎn)生,可以利用風(fēng)險預(yù)測來預(yù)測每一筆成交業(yè)務(wù)潛在的風(fēng)險。

        ⑦模型管理

        數(shù)據(jù)挖掘任務(wù)通過使用數(shù)據(jù)挖掘的技術(shù)得到知識應(yīng)用規(guī)模小、數(shù)據(jù)模式管理困難,但在少數(shù)情況下是相對比較穩(wěn)定的。在一個挖掘任務(wù)中構(gòu)建的模型生命周期有限,并不是一勞永逸的。在實際應(yīng)用中,需要不斷地迭代和反復(fù),從不同的數(shù)據(jù)集中進(jìn)行挖掘,調(diào)整算法和參數(shù)進(jìn)行反復(fù)的訓(xùn)練,結(jié)合實際業(yè)務(wù)需求動態(tài)地修正構(gòu)建的模型[20]。通過數(shù)據(jù)挖掘構(gòu)建的模式是重要文件集合,包含重要的商業(yè)數(shù)據(jù)和企業(yè)信息。在進(jìn)行數(shù)據(jù)挖掘過程中應(yīng)格外重視挖掘結(jié)果、挖掘模型等數(shù)據(jù)的存儲,數(shù)據(jù)庫管理員需要根據(jù)實際情況分配用戶訪問權(quán)限,避免不必要的損失出現(xiàn)。

        1.2電子商務(wù)中Web數(shù)據(jù)挖掘問題

        電子商務(wù)中產(chǎn)生的Web巨量數(shù)據(jù)種類多、格式復(fù)雜,與傳統(tǒng)格式化數(shù)據(jù)倉庫存儲的數(shù)據(jù)相比較其最大的特點就是半結(jié)構(gòu)化。Web中的數(shù)據(jù)在站點中以HTML文本的形式存儲,數(shù)據(jù)格式各異。在進(jìn)行挖掘任務(wù)時,對圖像、視頻、音頻等數(shù)據(jù)進(jìn)行處理時,主要有以下兩個方面的問題。

        ①數(shù)據(jù)庫異構(gòu)

        從數(shù)據(jù)存儲方面出發(fā),電子商務(wù)中進(jìn)行Web數(shù)據(jù)挖掘的數(shù)據(jù)集即為一個大型的數(shù)據(jù)庫,網(wǎng)絡(luò)中的各節(jié)點看成是獨立的數(shù)據(jù)源。由于用戶在網(wǎng)絡(luò)中的動作隨機(jī)性較強(qiáng),網(wǎng)絡(luò)數(shù)據(jù)格式?jīng)]有固定的結(jié)構(gòu),在數(shù)據(jù)挖掘的任務(wù)開始之前需要對數(shù)據(jù)進(jìn)行預(yù)處理,為用戶提供統(tǒng)一的視圖以便于進(jìn)行挖掘工作。另外,數(shù)據(jù)的獲取工作是進(jìn)行數(shù)據(jù)挖掘任務(wù)的前提條件。如果在數(shù)據(jù)收集階段出現(xiàn)問題,那么后續(xù)對數(shù)據(jù)的分析、集成、建模等工作就無法進(jìn)行。

        ②數(shù)據(jù)的半結(jié)構(gòu)化

        Web中的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中存儲的數(shù)據(jù)在結(jié)構(gòu)上存在很大的區(qū)別,其最大的特點就是半結(jié)構(gòu)化[23]。傳統(tǒng)的數(shù)據(jù)庫有固定的模型構(gòu)造標(biāo)準(zhǔn),用不同的格式描述所存儲的數(shù)據(jù),而Web中的數(shù)據(jù)由于格式靈活多變,無法按照既定的模型進(jìn)行描述[24]。目前,電子商務(wù)網(wǎng)站中數(shù)據(jù)呈動態(tài)分布、流動性高,大多數(shù)的網(wǎng)站由企業(yè)按其發(fā)展思路進(jìn)行設(shè)計,網(wǎng)站格式不一,數(shù)據(jù)種類多樣。

        通過上述分析可以看出,Web數(shù)據(jù)挖掘中最主要的問題是解決數(shù)據(jù)結(jié)構(gòu)半結(jié)構(gòu)化和構(gòu)建半結(jié)構(gòu)化的集成模型。在實際應(yīng)用中,大多數(shù)的網(wǎng)站開發(fā)都是基于XML技術(shù)的,XML數(shù)據(jù)是自描述的半結(jié)構(gòu)化類型的數(shù)據(jù),XML技術(shù)可以實現(xiàn)將數(shù)據(jù)源不同結(jié)構(gòu)的數(shù)據(jù)整合起來,使搜索不兼容的數(shù)據(jù)庫成為可能。XML的靈活性和可擴(kuò)展性決定了其描述被搜索的Web頁面中數(shù)據(jù)的特點,適用于描述不同應(yīng)用平臺中的數(shù)據(jù)。XML技術(shù)在網(wǎng)站中的廣泛應(yīng)用推動了Web數(shù)據(jù)挖掘的發(fā)展。

        1.3電子商務(wù)中Web數(shù)據(jù)挖掘應(yīng)用

        目前,在Web中進(jìn)行商務(wù)活動成為電子商務(wù)發(fā)展的關(guān)鍵因素,龐大的客戶群體與驚人的交易速度是它主要的特點。在跟蹤用戶Web瀏覽痕跡、行為習(xí)慣、構(gòu)建分析模型的前提下開展電子商務(wù)活動,可以使得企業(yè)更加直接發(fā)現(xiàn)客戶的需求,有針對性地調(diào)整企業(yè)發(fā)展策略。

        Web服務(wù)器日志文件是網(wǎng)絡(luò)用戶登錄在線市場服務(wù)器、瀏覽信息等動作的“痕跡”。通過對客戶端在訪問時產(chǎn)生的瀏覽痕跡進(jìn)行Web數(shù)據(jù)挖掘,對客戶的行為、訪問內(nèi)容、停留時間等動作的分析、判斷,可以得到普適的客戶行為知識,為網(wǎng)絡(luò)服務(wù)端的改進(jìn)提供幫助。在這些數(shù)據(jù)的分析中使用Web數(shù)據(jù)挖掘技術(shù),服務(wù)端有目的地改進(jìn)服務(wù),動態(tài)地調(diào)整頁面內(nèi)容與結(jié)構(gòu),為用戶的不同需求提供個性化的服務(wù),提升電子商務(wù)服務(wù)的效率。在這樣的前提下,電子商務(wù)和Web數(shù)據(jù)挖掘技術(shù)牢牢地結(jié)合在一起[23]。在商務(wù)領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)將最大限度地提高企業(yè)分析、處理資源的能力,使企業(yè)在行業(yè)中的競爭力得到充分的體現(xiàn)[25]。這不僅為企業(yè)客戶關(guān)系管理、產(chǎn)品數(shù)據(jù)管理、企業(yè)資源計劃提供有效的技術(shù)支持,還有利于優(yōu)化企業(yè)資源,提高企業(yè)經(jīng)營效率及管理水平。

        在電子商務(wù)中,電商網(wǎng)站都有其獨特的設(shè)計思路和構(gòu)建模式。雖然網(wǎng)絡(luò)環(huán)境復(fù)雜多變,用戶根據(jù)自己的喜好在站點駐留時間、瀏覽行為不盡相同,但是用戶瀏覽習(xí)慣從長遠(yuǎn)分析是穩(wěn)定的。通過使用Web數(shù)據(jù)挖掘技術(shù)對站點用戶歷史數(shù)據(jù)的分析,就可以得到對用群體的分類、聚類客戶和潛在的商業(yè)目標(biāo)等。以下是Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[26]:

        ①發(fā)現(xiàn)具有潛在價值客戶

        在挖掘技術(shù)的幫助下,電商網(wǎng)站可以對其用戶及瀏覽網(wǎng)站的游客進(jìn)行相關(guān)分類,劃分客戶群體、發(fā)現(xiàn)潛在的客戶[27]。通過對客戶類型劃分,描述用戶特征等過程將潛在的客戶轉(zhuǎn)化成為在冊客戶。最后,依據(jù)客戶類別針對其特點提供用戶感興趣的內(nèi)容。

        ②提供優(yōu)質(zhì)服務(wù),延長客戶的駐留站點時間

        對消費者來說,電商網(wǎng)站每天都能為其提供海量的購物信息,互聯(lián)網(wǎng)的普及拉近了客戶與銷售商之間傳統(tǒng)消費模式的距離。如何使用戶增加駐留在自己網(wǎng)站上的時間、增加用戶對自己網(wǎng)站的訪問次數(shù)成為電商企業(yè)成敗的關(guān)鍵。電商企業(yè)需要了解客戶的需求、瀏覽行為,劃分用戶類別、興趣,結(jié)合數(shù)據(jù)挖掘中的序列模式發(fā)現(xiàn)技術(shù)動態(tài)的調(diào)整Web頁面內(nèi)容,有目的地為用戶提供信息和服務(wù),以此延長客戶在網(wǎng)站上的駐留時間[28]。

        (3)改進(jìn)站點設(shè)計

        對Web站點的結(jié)構(gòu)優(yōu)化可從以下兩方面來考慮[4]:

        ①通過對Web日志文件的挖掘,發(fā)現(xiàn)客戶訪問網(wǎng)站頁面間的潛在關(guān)聯(lián)關(guān)系,在關(guān)聯(lián)頻度高的Web頁面之間增加鏈接,提高用戶交叉訪問量,增加用戶使用頻度。

        ②在Web頁面設(shè)計時運用路徑分析技術(shù)判定Web站點中訪問頻度高的路徑,把具有關(guān)聯(lián)性且一定支持度、信任度的信息或鏈接調(diào)整到相近的結(jié)構(gòu)中。由此改進(jìn)站點和Web頁面的設(shè)計,提高商品銷售量。

        ③聚類客戶分析

        將客戶聚類分析應(yīng)用于電子商務(wù)中是其重要的應(yīng)用方向[29]。對客戶進(jìn)行分組、聚類,分析具有相似動作和瀏覽行為的用戶特征,可以幫助企業(yè)發(fā)現(xiàn)用戶需要什么樣的服務(wù),是否為用戶提供服務(wù)。如果一些用戶高頻度瀏覽、訪問“Java技術(shù)”、“軟件開發(fā)”頁面,通過分析,可以將這些用戶聚類為一個組群。這樣站點就可以通過調(diào)整為這類用戶提供更加細(xì)致的信息,而不會為訪問了“數(shù)碼產(chǎn)品”、“三星手機(jī)”的用戶提供相似的信息。聚類分析技術(shù)的應(yīng)用使得企業(yè)更加了解客戶的需求,從而為客戶提供合適的服務(wù)。

        2 電子商務(wù)中Web數(shù)據(jù)挖掘的挑戰(zhàn)

        2.1數(shù)據(jù)復(fù)雜性帶來的挑戰(zhàn)

        電商“大數(shù)據(jù)”的產(chǎn)生為人們帶來了海量的數(shù)據(jù),與此同時,我們在對數(shù)據(jù)對象進(jìn)行分析、處理時也不得不面對復(fù)雜多變的數(shù)據(jù)環(huán)境。電子商務(wù)“大數(shù)據(jù)”環(huán)境下,數(shù)據(jù)的典型特征就是類型不一、質(zhì)量參差不齊、關(guān)聯(lián)關(guān)系復(fù)雜。數(shù)據(jù)自身的復(fù)雜性體現(xiàn)在其類型的復(fù)雜性、結(jié)構(gòu)的復(fù)雜性、模式的復(fù)雜性三個方面[30]。由于數(shù)據(jù)復(fù)雜性帶來的問題不僅使得數(shù)據(jù)計算維度上的增大,而且使得傳統(tǒng)的數(shù)據(jù)處理方法對語義分析、情感識別、主題發(fā)現(xiàn)等挖掘任務(wù)的分析面臨著巨大的困難與挑戰(zhàn)[31]。然而現(xiàn)在,我們對大數(shù)據(jù)分布與其復(fù)雜性的內(nèi)在聯(lián)系缺乏認(rèn)識,對大數(shù)據(jù)自身的數(shù)據(jù)復(fù)雜性、計算復(fù)雜性之間的內(nèi)在原理和其背后的物理意義缺乏理解,加上缺少面向領(lǐng)域的大數(shù)據(jù)處理知識,極大地制約了人們對大數(shù)據(jù)高效計算模型和方法的設(shè)計能力 (以及面向商務(wù)領(lǐng)域的數(shù)據(jù)處理知識的匱乏,在很大程度上限制了人們對高效數(shù)據(jù)計算模式的探索、構(gòu)建和核心算法設(shè)計的能力)[32]。

        通過對電子商務(wù)巨量數(shù)據(jù)進(jìn)行模式分析和規(guī)律探究、精簡數(shù)據(jù)維度、知識抽取、構(gòu)建模型、設(shè)計算法等任務(wù),有助于對數(shù)據(jù)復(fù)雜性及數(shù)據(jù)本質(zhì)特征進(jìn)行描述和量化。描述和量化數(shù)據(jù)復(fù)雜性和本質(zhì)特征是深入研究電商巨量數(shù)據(jù)內(nèi)在機(jī)制度量指標(biāo)的前提。在研究過程中需要降低數(shù)據(jù)維度,空間計算復(fù)雜度以及二者之間的內(nèi)在聯(lián)系,結(jié)合數(shù)據(jù)分布理論模型和多模關(guān)聯(lián)關(guān)系,對電商“大數(shù)據(jù)”需要降低復(fù)雜度以及按需約簡的原理進(jìn)行解釋,使對電子商務(wù)巨量數(shù)據(jù)復(fù)雜性的研究成為其數(shù)據(jù)計算的研究基礎(chǔ)。

        2.2計算復(fù)雜性帶來的挑戰(zhàn)

        電子商務(wù)“大數(shù)據(jù)”規(guī)模巨大、結(jié)構(gòu)異化、高流動性等特點使得傳統(tǒng)的模式分析、數(shù)據(jù)挖掘、信息匹配、檢索等數(shù)據(jù)處理方法不能充分地對大數(shù)據(jù)進(jìn)行有效的處理和分析[33]。而且大數(shù)據(jù)的計算需要我們突破傳統(tǒng)計算方式、數(shù)據(jù)分析、處理方法中對全局?jǐn)?shù)據(jù)統(tǒng)計分析和迭代計算的依賴。在我們解決有關(guān)大數(shù)據(jù)的問題時,需要反復(fù)地研究和分析其計算的可行性、求解的可行性以及其計算的復(fù)雜度[34]。研究針對大數(shù)據(jù)的高效算法,提供處理、分析大數(shù)據(jù)問題的基礎(chǔ)框架,提高人們對大數(shù)據(jù)的認(rèn)識,引領(lǐng)、支持特定領(lǐng)域應(yīng)用發(fā)展,是如今數(shù)據(jù)挖掘任務(wù)的主要問題。電商“大數(shù)據(jù)”體積巨大,數(shù)據(jù)間相互關(guān)聯(lián)復(fù)雜,價值密度低、分布失衡等特性對研究電商“大數(shù)據(jù)”的計算可行性、計算復(fù)雜度以及構(gòu)建新的算法模型提出了挑戰(zhàn),同時也為我們進(jìn)行創(chuàng)造性的研究提供了機(jī)遇。

        計算復(fù)雜性探究的是理解不同數(shù)據(jù)的難度以及處理數(shù)據(jù)的困難性、量化指標(biāo)[35]。研究以數(shù)據(jù)為中心的電商“大數(shù)據(jù)”的計算模式,需要結(jié)合平均復(fù)雜性理論、光滑分析理論、推送式系統(tǒng)模型,設(shè)計有效的分布式算法幫助對數(shù)據(jù)計算復(fù)雜性進(jìn)行理解。

        2.3系統(tǒng)復(fù)雜性帶來的挑戰(zhàn)

        針對電子商務(wù)巨量數(shù)據(jù)類型不一、應(yīng)用繁多的特點構(gòu)建的數(shù)據(jù)挖掘處理系統(tǒng)是目前行業(yè)內(nèi)研究的基礎(chǔ)設(shè)施。電子商務(wù)驚人的業(yè)務(wù)量為我們提供了數(shù)據(jù)體積巨大、格式多樣、價值密度分散的大規(guī)模數(shù)據(jù),其處理過程中計算可行性任務(wù)復(fù)雜多變、計算任務(wù)的時空維度高及其對實時性的過高要求都是研究面臨的難題[36]。電子商務(wù)巨量數(shù)據(jù)本身以及在處理中遇到的難點是對研究大數(shù)據(jù)所設(shè)計的處理系統(tǒng)、算法模型的考驗,更是對大數(shù)據(jù)處理平臺的效率、算法的優(yōu)化度以及處理過程中的能耗提出了要求,要求大數(shù)據(jù)處理系統(tǒng)具有高效處理事務(wù)的特點。電商“大數(shù)據(jù)”處理系統(tǒng)的平臺搭建、框架設(shè)計、計算可行性架構(gòu)、計算復(fù)雜性維度測試的設(shè)計研究都是以電商“大數(shù)據(jù)”處理系統(tǒng)的并行高效處理、優(yōu)化為目標(biāo)的而進(jìn)行研究。因此大數(shù)據(jù)分析、處理應(yīng)解決的首要問題是構(gòu)建高效優(yōu)化的分布式處理系統(tǒng)及其軟硬件系統(tǒng)的架構(gòu),這為大數(shù)據(jù)處理系統(tǒng)的架構(gòu)、實施、測試與維護(hù)提供了準(zhǔn)則,是處理復(fù)雜的動態(tài)多維大數(shù)據(jù)的重要依據(jù)[37]。

        在研究電商“大數(shù)據(jù)”處理系統(tǒng)的復(fù)雜性、計算精度、系統(tǒng)效率與耗能間的關(guān)系、并行處理能力等多項任務(wù)的過程中,系統(tǒng)的優(yōu)化問題與績效評價成為最富挑戰(zhàn)性的工作[38]。在實際處理過程中需要根據(jù)資源分配和系統(tǒng)負(fù)載情況,結(jié)合數(shù)據(jù)流動速度快、價值密度低的特點對電子商務(wù)巨量數(shù)據(jù)的分布式存儲、處理工作進(jìn)行優(yōu)化,解決系統(tǒng)復(fù)雜性帶來的挑戰(zhàn)。

        3 結(jié)語

        近年來,隨著電子商務(wù)的高速發(fā)展產(chǎn)生了Web大數(shù)據(jù),本文由此引出了Web數(shù)據(jù)挖掘的基本概念,詳細(xì)分析電商數(shù)據(jù)挖掘的研究熱點,Web數(shù)據(jù)挖掘分類及應(yīng)用,最后強(qiáng)調(diào)了Web數(shù)據(jù)挖掘數(shù)據(jù)面臨的一些挑戰(zhàn)。對電子商務(wù)Web數(shù)據(jù)挖掘的研究將會持續(xù)深入,隨著研究的深入將會給Web挖掘技術(shù)提出新的要求和挑戰(zhàn)。

        [1]杜芳芳.淺析基于Web數(shù)據(jù)挖掘的電子商務(wù)網(wǎng)站架構(gòu)[J].電子商務(wù),2010(02):69~70

        [2]孫學(xué)軍.面向電子商務(wù)的Web數(shù)據(jù)挖掘應(yīng)用研究:山東大學(xué),2011

        [3]曹麗君,劉西印,魏宇清.基于電子商務(wù)的數(shù)據(jù)挖掘探究[J].商場現(xiàn)代化,2008(05):157

        [4]王化鵬.基于XML的Web日志挖掘技術(shù)研究:華北電力大學(xué)(河北),2007

        [5]石文卓.改變未來的大數(shù)據(jù)[J].時事報告(大學(xué)生版),2012(02):102-3

        [6]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013(01):146-69

        [7]張瑩.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用[J].商場現(xiàn)代化,2007(01):108

        [8]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013(S1):142-6

        [9]王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究[J].計算機(jī)研究與發(fā)展,2000(05):513-20

        [10]周緒倩.基于電子商務(wù)的Web數(shù)據(jù)挖掘系統(tǒng)架構(gòu)研究:河北工程大學(xué),2010

        [11]任新.Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究:貴州大學(xué),2008

        [12]左丹.基于Web日志的用戶訪問序列模式研究:東北師范大學(xué),2009

        [13]鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計算機(jī)工程與設(shè)計,2005,(09):2304-7

        [14]鄒依依.自適應(yīng)網(wǎng)站的Web挖掘技術(shù)的研究:電子科技大學(xué),2008

        [15]寧海霞.一種基于XML的Web訪問模式發(fā)現(xiàn)模型研究:華中科技大學(xué),2006

        [16]孔祥洪,翁梅.基于Web的數(shù)據(jù)挖掘分類技術(shù)[J].中國科技信息,2005(20):52

        [17]許韋.基于容差關(guān)系的多粒度粗糙集在電子商務(wù)Web挖掘中的研究:江蘇科技大學(xué),2013

        [18]張素智,李寶燕,樊得強(qiáng),editors.面向用戶和領(lǐng)域本體的Web信息采集系統(tǒng).河南省計算機(jī)學(xué)會2010年學(xué)術(shù)年會,2010

        [19]岳惠娜.商務(wù)智能中營銷預(yù)測模型及算法研究:沈陽工業(yè)大學(xué),2014

        [20]馬凌,邢蕓,陳昊天.我國社會化電子商務(wù)發(fā)展現(xiàn)狀與趨勢分析[J].現(xiàn)代商貿(mào)工業(yè),2014(05):167-8.

        [21]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J].計算機(jī)研究與發(fā)展,2011(01):45~54

        [22]劉姝.應(yīng)用Web數(shù)據(jù)挖掘技術(shù)進(jìn)行電子商務(wù)的分析[J].電子技術(shù)與軟件工程,2014(07):216-7

        [23]黃玲.在電子商務(wù)中應(yīng)用Web數(shù)據(jù)挖掘的研究:湖南大學(xué),2014

        [24]周朕.面向電子商務(wù)的WEB數(shù)據(jù)挖掘研究:中南大學(xué),2011

        [25]李爭艷.Web數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[J].科技資訊,2007(14):95

        [26]朱紅祥.基于web日志數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)實現(xiàn):山東大學(xué),2008

        [27]婁迎紅.面向電子商務(wù)的數(shù)據(jù)挖掘研究與應(yīng)用:山東師范大學(xué),2009

        [28]王濤.一種基于Web日志挖掘聚類算法的研究:西安電子科技大學(xué),2012

        [29]朱林,雷景生,畢忠勤,楊杰.一種基于數(shù)據(jù)流的軟子空間聚類算法[J].軟件學(xué)報,2013,(11):2610-27

        [30]王明星.數(shù)據(jù)挖掘算法優(yōu)化研究與應(yīng)用:安徽大學(xué),2014

        [31]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究:江蘇大學(xué),2013

        [32]孟小峰,李勇,祝建華.社會計算:大數(shù)據(jù)時代的機(jī)遇與挑戰(zhàn)[J].計算機(jī)研究與發(fā)展,2013,(12):2483-91

        [33]徐莉.基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)的研究:北京郵電大學(xué),2013

        [34]常凱.基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類算法比較和分析研究:安徽大學(xué),2014

        [35]陳秀娟.數(shù)據(jù)挖掘在電子商務(wù)中的研究[J].信息與電腦(理論版),2014(05):135

        [36]孫二娟.基于隱私保護(hù)的數(shù)據(jù)挖掘技術(shù)與研究:浙江理工大學(xué),2014

        [37]周昊明.銷量數(shù)據(jù)挖掘技術(shù)及電子商務(wù)應(yīng)用研究:廣東工業(yè)大學(xué),2014

        [38]王衛(wèi)鋒.電子商務(wù)中基于web的數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].河南科技,2014(17):28-9

        Electronic Commerce;Big Data;Web Data Mining

        Research on the Web Data Mining Based on Electronic-Commerce

        ZHANG Su-zhi,QU Xu-kai,ZHANG Lin
        (College of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450002)

        國家自然基金項目(No.61201447)

        1007-1423(2015)09-0012-07

        10.3969/j.issn.1007-1423.2015.09.003

        張素智(1965-),男,博士,教授,研究方向為Web數(shù)據(jù)庫、分布式計算和異構(gòu)系統(tǒng)集成

        曲旭凱(1990-),男,河南洛陽人,碩士研究生,研究方向為數(shù)據(jù)挖掘與集成

        張琳(1993-),女,河南焦作人,碩士研究生,研究方向為數(shù)據(jù)挖掘與集成

        2015-01-04修改日期:2015-03-23

        隨著電子商務(wù)的高速發(fā)展,互聯(lián)網(wǎng)、無線網(wǎng)絡(luò)、移動網(wǎng)絡(luò)的大面積覆蓋,電子商務(wù)不僅潛移默化地影響著傳統(tǒng)的商業(yè)模式,而且產(chǎn)生海量的Web數(shù)據(jù),成為目前新的研究熱點。電子商務(wù)“大數(shù)據(jù)”中隱藏的巨大的價值與Web數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)分析方面的作用使得二者自然的結(jié)合在一起。Web數(shù)據(jù)挖掘在電商巨量數(shù)據(jù)的分類、聚類、數(shù)據(jù)解釋等方面發(fā)展迅速,與此同時,Web數(shù)據(jù)挖掘仍面臨數(shù)據(jù)復(fù)雜性、計算復(fù)雜性、系統(tǒng)復(fù)雜性等方面的挑戰(zhàn)。

        電子商務(wù);大數(shù)據(jù);Web數(shù)據(jù)挖掘

        With the rapid development of electronic commerce,and the large coverage of Internet,wireless network and mobile network,electronic commerce becomes the new research hotpots,which not only influences subtly by environment of the traditional business model but also produces an enormous amount of Web data.The huge value under the big data of electronic commerce and the effect of data mining technology in the data analysis makes them get together naturally.With the rapid development of the data mining technology in the classification,cluster,data interpretation of electronic commerce massive data.It still faces some challenges as complexity of data,computation and system at the same time.

        猜你喜歡
        復(fù)雜性頁面數(shù)據(jù)挖掘
        大狗熊在睡覺
        刷新生活的頁面
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        PFNA與DHS治療股骨近端復(fù)雜性骨折的效果對比
        簡單性與復(fù)雜性的統(tǒng)一
        科學(xué)(2020年1期)2020-08-24 08:07:56
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        應(yīng)充分考慮醫(yī)院管理的復(fù)雜性
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        直腸腔內(nèi)超聲和MRI在復(fù)雜性肛瘺診斷中的對比分析
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        少妇太爽了在线观看免费视频| 亚洲无人区一码二码国产内射 | 亚洲最好看的中文字幕| 中国女人内谢69xxxx免费视频| 杨幂AV污网站在线一区二区| 成人特黄特色毛片免费看| 亚洲精品女同一区二区三区| 色诱视频在线观看| 大地资源网最新在线播放 | 中文字幕有码手机视频| 蜜桃视频一区二区在线观看| 综合无码一区二区三区| 国产高清国内精品福利99久久| 精品日本免费观看一区二区三区| 成人大片免费在线观看视频| 国产成人综合日韩精品无码| 亚洲av永久无码一区| 国产激情一区二区三区成人免费| 亚洲女同一区二区三区| 高h喷水荡肉爽文np肉色学校| 又黄又爽又色又刺激的视频| 国产欧美久久久精品影院| 精品一区二区三区亚洲综合| 欧美性猛交xxxx三人| 成人区人妻精品一区二区不卡网站| 国产一区二区三区免费主播| 国产亚洲精品97在线视频一| 无码人妻精品一区二区在线视频 | 国产精品日韩中文字幕| 日韩精品一区二区免费| 波多野结衣久久精品99e| 蜜桃av噜噜一区二区三区| 久久久国产精品ⅤA麻豆百度| 全部亚洲国产一区二区| 中文字幕人妻伦伦| 国产午夜无码视频免费网站| 国产亚洲三级在线视频| 亚洲免费国产中文字幕久久久| 特级做a爰片毛片免费看无码| 蜜桃在线播放免费一区二区三区| 色婷婷精品午夜在线播放|