徐杰
摘要:本文基于電子商務(wù)系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù),研究在電子商務(wù)中數(shù)據(jù)挖掘問題。根據(jù)電子商務(wù)系統(tǒng)中數(shù)據(jù)挖掘的特性,闡述了電子商務(wù)中數(shù)據(jù)源、數(shù)據(jù)的具體挖掘過程、常用數(shù)據(jù)挖掘技術(shù)和應(yīng)用。
關(guān)鍵詞:電子商務(wù);數(shù)據(jù)挖掘;數(shù)據(jù)挖掘技術(shù);應(yīng)用
一、引言
基于Internet的電子商務(wù)迅猛發(fā)展,要實現(xiàn)整個電子商務(wù)(買賣)過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化,各企業(yè)經(jīng)營者在電子商務(wù)活動要大量的收集數(shù)據(jù),然后把這些商務(wù)數(shù)據(jù)轉(zhuǎn)換成有效的信息,增加企業(yè)潛在的價值。數(shù)據(jù)挖掘技術(shù)是一種新的商業(yè)信息處理技術(shù),在電子商務(wù)系統(tǒng)中利用數(shù)據(jù)挖掘技術(shù)為企業(yè)收集大量的信息,分析并提取有用的數(shù)據(jù)信息,便于企業(yè)營銷策略有針對性地調(diào)整,提高企業(yè)管理和創(chuàng)新能力,提升客戶服務(wù)效率。
二、電子商務(wù)中數(shù)據(jù)源
1、服務(wù)器日志數(shù)據(jù)。當(dāng)客戶訪問電子商務(wù)站點(diǎn)時,與訪問相關(guān)的日志數(shù)據(jù)會在服務(wù)器上自動產(chǎn)生然后以文本文件的形式在服務(wù)器上存儲起來。例如客戶瀏覽過的頁面和關(guān)注的商品等生成日志數(shù)據(jù)。
2、搜索數(shù)據(jù)。指客戶在電子商務(wù)站點(diǎn)上搜索信息時,在服務(wù)器上生成的一種搜索信息數(shù)據(jù)。例如,客戶在線搜索某些產(chǎn)品或某些商務(wù)活動信息時,就會在服務(wù)器的訪問日志上存儲這些搜索信息。
3、在線市場數(shù)據(jù)。指客戶購買物品信息、電子商務(wù)站點(diǎn)信息、商品信息等主要的數(shù)據(jù)存儲于傳統(tǒng)的關(guān)系數(shù)據(jù)庫中,便于數(shù)據(jù)的關(guān)聯(lián)分析。
4、站點(diǎn)頁面數(shù)據(jù)。在電子商務(wù)站點(diǎn)上,客戶訪問頁面上的圖片、文本、圖像等內(nèi)容以及頁面之間超級鏈接關(guān)系而形成的信息。
5、客戶注冊數(shù)據(jù)。指客戶在電子商務(wù)站點(diǎn)頁面上注冊會員時,通過頁面輸入、提交給服務(wù)器的用戶信息。在數(shù)據(jù)挖掘的過程中,將客戶注冊信息與訪問日志集成,可以讓數(shù)據(jù)挖掘的準(zhǔn)確度大大提高,更進(jìn)一步對客戶進(jìn)行了解。
三、電子商務(wù)中數(shù)據(jù)挖掘的具體過程
1、準(zhǔn)備階段。首先,根據(jù)數(shù)據(jù)挖掘的目標(biāo)選擇相應(yīng)的目標(biāo)數(shù)據(jù),依據(jù)客戶的需求從原始數(shù)據(jù)庫中提取一組有用的數(shù)據(jù)。其次,對該數(shù)據(jù)進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換、冗余記錄消除等操作,最后,有針對性地對數(shù)據(jù)進(jìn)行處理。
2、數(shù)據(jù)挖掘階段。根據(jù)定義的問題對數(shù)據(jù)挖掘的任務(wù)和目標(biāo)加以確定。分三步完成:第一步,選擇最契合的數(shù)據(jù)挖掘方法,如分類分析、關(guān)聯(lián)規(guī)則等;第二步,建立數(shù)據(jù)模型和參數(shù),利用現(xiàn)有數(shù)據(jù)測試模型;第三步,應(yīng)用該模型得到挖掘的結(jié)果。即數(shù)據(jù)的挖掘過程是根據(jù)人們預(yù)先設(shè)計好的“模型”來對分析、處理和預(yù)測數(shù)據(jù)的過程。
3、解釋和評價階段。根據(jù)上述階段所得到的數(shù)據(jù)信息,經(jīng)過仔細(xì)的分析和評估,剔除冗余和無關(guān)的信息,不滿足用戶要求的需要重復(fù)上述挖掘過程。然后對所挖掘的知識進(jìn)行解釋,便于用戶理解和使用。
四、電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)與方法
1、關(guān)聯(lián)規(guī)則。在電子商務(wù)系統(tǒng)中,利用關(guān)聯(lián)規(guī)則分析并挖掘出各數(shù)據(jù)之間的相互關(guān)系。例如,采用關(guān)聯(lián)規(guī)則技術(shù)在商品推薦子系統(tǒng)中發(fā)現(xiàn)算法,根據(jù)用戶當(dāng)前的購買習(xí)慣向該用戶進(jìn)行商品推薦。關(guān)聯(lián)規(guī)則推薦算法分為關(guān)聯(lián)規(guī)則形成和推薦形成二個階段。商品推薦子系統(tǒng)先根據(jù)關(guān)聯(lián)規(guī)則對當(dāng)前客戶沒有瀏覽的商品進(jìn)行推薦度計算,再根據(jù)推薦度的大小,推薦未瀏覽的商品給當(dāng)前客戶。
2、神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)是模擬人腦神經(jīng)元結(jié)構(gòu)構(gòu)建的非線性預(yù)測模型,對數(shù)據(jù)進(jìn)行模式識別。在電子商務(wù)中,利用神經(jīng)網(wǎng)絡(luò)來解決商務(wù)數(shù)據(jù)復(fù)雜度的問題,建立在自學(xué)習(xí)數(shù)據(jù)模型的基礎(chǔ)之上,對商務(wù)活動數(shù)據(jù)進(jìn)行分類和回歸處理。它以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),形成具有信息分布存儲和非線性映射特性的模型,建立多種神經(jīng)元網(wǎng)絡(luò),處理電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)問題。
3、聚類分析。聚類分析是運(yùn)用樣本中各事物之間性質(zhì)進(jìn)行比較,將性質(zhì)相近的歸在一類中,性質(zhì)差別較大的分在不同的類中。電子商務(wù)中市場細(xì)分經(jīng)常會用到聚類分析法,這樣就可以根據(jù)已知的客戶信息數(shù)據(jù),將消費(fèi)模式相似的客戶分為一類,從而有針對性的進(jìn)行調(diào)整營銷策略,為客戶提供更加適合更加滿意的個性化服務(wù)。
4、分類分析。在電子商務(wù)中經(jīng)常對挖掘的數(shù)據(jù)進(jìn)行分類處理,即將數(shù)據(jù)性質(zhì)相近的歸在一類中,性質(zhì)差別較大的歸入不同的類中。利用已知類別事物的數(shù)據(jù)性質(zhì)建立相應(yīng)的函數(shù)式,對未知類別的新事物進(jìn)行判別將其歸入已知的類中。通過分析已知分類信息的歷史數(shù)據(jù),建立一個預(yù)測模型,預(yù)測哪些人可能會對哪些商品感興趣,針對這類客戶的特點(diǎn)開展商務(wù)活動,提供針對性的服務(wù)。
5、序列模式。序列模式挖掘是指挖掘相對時間或其他模式出現(xiàn)頻率高的模式,電子商務(wù)活動中交易產(chǎn)生數(shù)據(jù)存放到相應(yīng)事務(wù)數(shù)據(jù)庫的表中,每一條記錄包括用戶的用戶號、發(fā)生的時間、商品等項目信息。利用事務(wù)數(shù)據(jù)庫來挖掘出涉及事務(wù)間關(guān)聯(lián)的模式,分析用戶幾次購買行為間的聯(lián)系,采取有針對性的營銷措施。
五、電子商務(wù)中數(shù)據(jù)挖掘的應(yīng)用
1、商品零售業(yè)。數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域在商品零售業(yè)中。隨著信息化和電子商務(wù)的加速發(fā)展,商務(wù)數(shù)據(jù)量的不斷增加,儲存了顧客購買歷史記錄、物流、消費(fèi)與服務(wù)記錄等大量的銷售數(shù)據(jù)。利用關(guān)聯(lián)規(guī)則技術(shù)進(jìn)行數(shù)據(jù)挖掘,有助于客戶購買行為的分析,發(fā)現(xiàn)顧客的購買模式和趨勢,從而設(shè)計出更好的商品運(yùn)輸與分銷策略來使商品成本降低,改進(jìn)服務(wù)質(zhì)量,提高客戶購買體驗和滿意度,最終實現(xiàn)商品銷量比率和利潤的提高。
2、金融投資業(yè)。各銀行和金融機(jī)構(gòu)均提供各種各樣的銀行服務(wù)、信用服務(wù)和投資服務(wù)等。在服務(wù)過程中會有比較完善、可靠和高質(zhì)量的數(shù)據(jù)產(chǎn)生,便于金融投資業(yè)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘。采用數(shù)據(jù)挖掘技術(shù)處理已有數(shù)據(jù),根據(jù)挖掘到的模式做市場預(yù)測分析,作出最佳的投資方向選擇,從而讓金融投資的風(fēng)險降低。例如在銀行貸款業(yè)務(wù)過程中,銀行可以根據(jù)客戶的收入、學(xué)歷、償還與收入比率等來分析客戶貸款償還能力,這樣有利于降低銀行的貸款風(fēng)險率。同時,還可以根據(jù)客戶的信用度進(jìn)行貸款發(fā)放政策的調(diào)整。
3、其它電商業(yè)中優(yōu)化企業(yè)資源。基于電子商務(wù)平臺數(shù)據(jù)挖掘技術(shù)能實時、全面、準(zhǔn)確地掌握企業(yè)資源和銷售信息,通過分析以往的財務(wù)數(shù)據(jù)、商品庫存數(shù)據(jù)和銷售數(shù)據(jù),判斷企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要商務(wù)活動的投入產(chǎn)出比例,為企業(yè)資源優(yōu)化配置提供決策依據(jù),例如加大促銷、提高資金使用率等。通過對電子商務(wù)活動數(shù)據(jù)挖掘,提取大量有價值的商業(yè)信息,為企業(yè)準(zhǔn)確地把握市場動態(tài),提高企業(yè)應(yīng)對市場變化的規(guī)律和管理能力,合理協(xié)調(diào)內(nèi)外部資源的關(guān)系,高效地利用好人力、物質(zhì)和信息資源,使企業(yè)產(chǎn)生最佳的經(jīng)濟(jì)效益,促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。
六、結(jié)論
基于Internet的電子商務(wù)快速發(fā)展,要實現(xiàn)整個電子商務(wù)活動過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化,它是現(xiàn)代信息時代發(fā)展的必然成果,也是未來商業(yè)運(yùn)作模式的必然選擇,基于電子商務(wù)的數(shù)據(jù)挖掘技術(shù)將是一個非常有前景的領(lǐng)域。利用數(shù)據(jù)挖掘技術(shù)能幫助企業(yè)分析從網(wǎng)上獲取的大量商業(yè)數(shù)據(jù),提取有用數(shù)據(jù)信息,挖掘出商品的消費(fèi)規(guī)律與客戶的訪問模式,針對性地幫助企業(yè)調(diào)整營銷策略,優(yōu)化企業(yè)資源,促進(jìn)企業(yè)技術(shù)上創(chuàng)新和管理上創(chuàng)新,提高企業(yè)競爭實力。隨著信息處理技術(shù)的發(fā)展,對數(shù)據(jù)挖掘技術(shù)的進(jìn)一步的研究和經(jīng)驗的不斷積累,電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用必將取得長足的發(fā)展。(作者單位:貴州廣播電視大學(xué))
參考文獻(xiàn):
[1]石麗,李堅.數(shù)據(jù)倉庫與決策支持[M].國防工業(yè)出版社,2003.
[2]毛國君.數(shù)據(jù)挖掘原理與算法(第二版)[M].清華大學(xué)出版社,2007.
[3]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].清華大學(xué)出版社,2011.
[4]楊青杰.胡明霞.數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].商場現(xiàn)代化,2008(16).
[5]周世東.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究[D].北京交通大學(xué),2008(06).