單亞軍 樂勇 周磊 中國電子科技集團公司第二十八研究所
電子商務(wù)在近十年內(nèi)中實現(xiàn)了良好的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也更加普遍,只有實現(xiàn)有效的數(shù)據(jù)挖掘,電子商務(wù)才可以滿足更多客戶的需求,提高企業(yè)競爭優(yōu)勢。如何實現(xiàn)數(shù)據(jù)挖掘技術(shù)的提升,成為很多企業(yè)關(guān)注的話題,針對電子商務(wù)平臺中的數(shù)據(jù)挖掘技術(shù)展開探究,其意義深遠。
數(shù)據(jù)挖掘基礎(chǔ)理論為數(shù)據(jù)庫中的知識發(fā)現(xiàn),指的是在各種數(shù)據(jù)庫中搜集那些內(nèi)在的、隱形的以及未知的能夠給企業(yè)帶來利益的信息和模式,從中發(fā)現(xiàn)內(nèi)在的規(guī)律和模式,為企業(yè)的生產(chǎn)經(jīng)營方案編制和執(zhí)行上提供有效參考。因此需要精通技術(shù)的專業(yè)人員通過技術(shù)進行搜集和識別,整理成有效的信息,從而為企業(yè)內(nèi)部各個部門的決策上帶去參考。
電子商務(wù)指的是一種現(xiàn)代化商業(yè)運轉(zhuǎn)模式,在這種模式中,參與者包括個人、企業(yè)和國家,通過電子數(shù)據(jù)交換和電子資金轉(zhuǎn)賬等信息的交換,這些信息主要包括商品信息、訂購信息、支付信息、資金信息和安全認證信息等,來實現(xiàn)商品從生產(chǎn)者到消費者的轉(zhuǎn)移,借助于各種先進的信息技術(shù)實現(xiàn)更高的經(jīng)濟效益。電子商務(wù)應(yīng)用系統(tǒng)中隨著參與者的數(shù)量增多,尤其是大量消費者的涌入,企業(yè)所面臨的數(shù)據(jù)信息更加龐雜,這就需要通過數(shù)據(jù)挖掘技術(shù),從中搜集有效的信息,讓商家更好的了解消費者的消費傾向和需求。
數(shù)據(jù)挖掘所設(shè)計的理論知識與技術(shù)比較廣泛,主要包括人工智能、數(shù)據(jù)庫、機器學(xué)習(xí)、統(tǒng)計學(xué)等。站在商業(yè)的立場上進行分析,數(shù)據(jù)挖掘?qū)儆谌碌纳虡I(yè)信息處理模式,重點是針對海量的商業(yè)信息進行識別、搜集、整理、轉(zhuǎn)換與分析等,為企業(yè)決策提供科學(xué)的信息數(shù)據(jù)。常見的數(shù)據(jù)挖掘方式包括關(guān)聯(lián)分析、分類分析、概括分析和聚類分析,現(xiàn)在我們對這四種方法及進行逐步闡述:
①分類分析:進行分類規(guī)則的設(shè)置,將每個事務(wù)或者實體根據(jù)其特征和本質(zhì)進行類別劃分,將每種類型的數(shù)據(jù)歸集到一起,然后進行分類模型的構(gòu)建。所謂分類,指的是相同性質(zhì)的事務(wù)或者實體歸集到一起,分類是對于某種數(shù)據(jù)的整體內(nèi)涵概述,常用于規(guī)則以及決策樹模式。②關(guān)聯(lián)分析:對于看似沒有關(guān)聯(lián)性的數(shù)據(jù)進行分析,找出內(nèi)部的聯(lián)系,闡述各種事物內(nèi)在的相關(guān)性和依賴性,重點是對簡單關(guān)聯(lián)和因果關(guān)聯(lián)的數(shù)據(jù)信息進行分析。就電子商務(wù)而言,關(guān)聯(lián)分析主要是通過數(shù)據(jù)挖掘技術(shù)搜集那些內(nèi)在的關(guān)聯(lián)規(guī)則,在客戶進行某種產(chǎn)品瀏覽的時候,可以在當(dāng)時頁面中記性相關(guān)產(chǎn)品的推薦。③聚類分析:對兩個或者更多實體的不同點和相同點進行分析,將那些特征相似的實體匯集在一起,成為一個聚類,同時用某種規(guī)則對這種聚類的屬性進行描述,設(shè)置成聚類規(guī)則。④孤立點分析。數(shù)據(jù)庫中有些數(shù)據(jù)和普通數(shù)據(jù)不一樣,這些數(shù)據(jù)我們將其稱之為孤立點,但是這些數(shù)據(jù)并不是無效的,一般會含有各種特殊的信息,常見于分類中的反常實例、觀測記過和模型預(yù)測值的偏差、不符合規(guī)律的特例等。
當(dāng)下我國銀行、電信、零售和交通以及保險業(yè)等均實現(xiàn)了數(shù)據(jù)挖掘技術(shù)的采用,數(shù)據(jù)挖掘可以解決很多商業(yè)性質(zhì)的問題,比如可以為數(shù)據(jù)庫營銷提供大量可供參考的信息、進行背景分析、解決交叉銷售問題以及進行客戶群體的分類,明確客戶群體流失的原因,對客戶信用進行評價,及時發(fā)現(xiàn)欺詐行為等。
零售業(yè)通過數(shù)據(jù)挖掘能夠?qū)οM者的購買傾向和需求進行分析,根據(jù)消費者的消費習(xí)慣和需求,對所提供的產(chǎn)品與服務(wù)進行完善,保證所銷售的產(chǎn)品適銷對路,不斷提高服務(wù)質(zhì)量,贏得更多消費者的認可和信賴,減少營銷成本,提高營銷量和銷售業(yè)績。
數(shù)據(jù)挖掘所涉及到的知識、技術(shù)和因素等非常多,不同的挖掘技術(shù)對應(yīng)不同的流程,有著不同的特點,在具體的方法上,結(jié)構(gòu)、輸入和輸出的數(shù)據(jù)形式、參數(shù)設(shè)置、測試以及模型評價等都有著各自的標(biāo)準(zhǔn),算法應(yīng)用領(lǐng)域和具體的水平也各有差異。按照理論和慣用模式,我們將數(shù)據(jù)挖掘分成定義問題、準(zhǔn)備數(shù)據(jù)、實施挖掘、評價與表示等若干流程,這些流程都需要工作人員的參與和規(guī)劃。
4.1 面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計。商務(wù)平臺數(shù)據(jù)挖掘系統(tǒng)建設(shè)上,系統(tǒng)的結(jié)構(gòu)為三層體系,服務(wù)端選擇的是最先進的J2EE平臺構(gòu)架,系統(tǒng)框架比較完善,擴展性、維護性和互聯(lián)性都非常理想。電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)構(gòu)成中,主要包括三部分,分別是客戶端、應(yīng)用服務(wù)器和數(shù)據(jù)庫服務(wù)器,體系結(jié)構(gòu)中,J2EE 企業(yè)級的構(gòu)建技術(shù)是基礎(chǔ)部分。在數(shù)據(jù)挖掘中形成的新數(shù)據(jù)保存上,系統(tǒng)設(shè)置了單獨的數(shù)據(jù)挖掘庫表,這樣不會給之前的數(shù)據(jù)庫運行產(chǎn)生影響。應(yīng)用服務(wù)器結(jié)合客戶端設(shè)置模式,對一切數(shù)據(jù)展開搜集、轉(zhuǎn)換和挖掘。通過EJB模式對數(shù)據(jù)挖掘系統(tǒng)中所有功能模塊進行封裝,達到分布式核算和負載式平衡等標(biāo)準(zhǔn),將大量的核算工作模塊與用戶交互模塊進行分割。客戶端主要給出數(shù)據(jù)挖掘模塊,給出一切功能模塊參數(shù),將可視化處理后的數(shù)據(jù)進行展示等。用戶結(jié)合自身需求可以創(chuàng)建挖掘模式,執(zhí)行挖掘模式,獲取到經(jīng)過系統(tǒng)處理的可視化搜索結(jié)果,具體內(nèi)容可以參考圖1:
圖1 面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖
電子商務(wù)平臺中數(shù)據(jù)挖掘技術(shù)的升級和更好的采用,還需要相關(guān)人員繼續(xù)努力,促使這門技術(shù)在經(jīng)濟發(fā)展上發(fā)揮出更高的價值,為企業(yè)和社會帶來更多的效益。企業(yè)通過數(shù)據(jù)挖掘可以將那些內(nèi)部的、隱藏的、對企業(yè)發(fā)展有所幫助的數(shù)據(jù)挖掘出來,或者對現(xiàn)有的規(guī)律進行檢驗,還可以進行規(guī)模的優(yōu)化完善等,因此對于企業(yè)的長遠穩(wěn)健發(fā)展意義深遠。相信在不久的將來,我國電子商務(wù)企業(yè)會通過數(shù)據(jù)挖掘技術(shù)獲取到更多科學(xué)的數(shù)據(jù),來提高經(jīng)營業(yè)績,形成更強的競爭力,通過自身成熟的發(fā)展模式贏得更廣闊的發(fā)展空間。