楊曦
(福州大學(xué)陽(yáng)光學(xué)院 福建 350015)
近年來(lái),互聯(lián)網(wǎng)與移動(dòng)通信技術(shù)的飛速發(fā)展及全球化商務(wù)經(jīng)濟(jì)的到來(lái),為移動(dòng)電子商務(wù)帶來(lái)了廣闊的空間和更多的挑戰(zhàn)。一方面,移動(dòng)電子商務(wù)的移動(dòng)性極大地增加了客戶(hù)種類(lèi),且移動(dòng)數(shù)據(jù)的非結(jié)構(gòu)化及數(shù)據(jù)流量限制,導(dǎo)致企業(yè)需針對(duì)不同客戶(hù)需求實(shí)施個(gè)性化定制的營(yíng)銷(xiāo)策略[1];另一方面,移動(dòng)電子商務(wù)環(huán)境下,客戶(hù)的興趣和需求會(huì)隨時(shí)空情境的變化而變化,而無(wú)序、海量的移動(dòng)數(shù)據(jù)信息更造成“信息爆炸但知識(shí)貧乏”現(xiàn)象[2]。因而,移動(dòng)電子商務(wù)環(huán)境下的個(gè)性化推薦理論與技術(shù)成為學(xué)術(shù)界研究的熱點(diǎn)。而作為個(gè)性化服務(wù)的基礎(chǔ)的客戶(hù)細(xì)分也為企業(yè)識(shí)別并了解客戶(hù)提供了有效的手段。移動(dòng)電子商務(wù)情境下的客戶(hù)細(xì)分問(wèn)題要求算法的求解精度較高,而現(xiàn)有聚類(lèi)算法存在過(guò)早收斂、精度較低、細(xì)分效果不佳等缺點(diǎn),針對(duì)移動(dòng)電子商務(wù)情境下的細(xì)分模型又相對(duì)匱乏,所以結(jié)合高效的聚類(lèi)算法提高客戶(hù)細(xì)分的精度,從而構(gòu)建科學(xué)合理的客戶(hù)評(píng)價(jià)體系對(duì)移動(dòng)電子商務(wù)的發(fā)展有著較為重要的理論和應(yīng)用價(jià)值。
聚類(lèi)分析能從潛在數(shù)據(jù)中發(fā)現(xiàn)新的、有意義的數(shù)據(jù)分布模式,是客戶(hù)細(xì)分領(lǐng)域中較為適用的方法[3,4],傳統(tǒng)經(jīng)典的聚類(lèi)分析有基于劃分的方法(如K-均值算法[5])、基于密度、基于層次和基于模型(如SOM[6])等方法。經(jīng)典聚類(lèi)算法在很多領(lǐng)域都有廣泛應(yīng)用,但每一類(lèi)算法都有各自的缺陷和不足,所以只局限于解決某一類(lèi)問(wèn)題。隨著人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)等科學(xué)理論的產(chǎn)生,聚類(lèi)算法也有了長(zhǎng)足的發(fā)展,例如PSO、粒度計(jì)算、FCM等。下面介紹幾種在客戶(hù)細(xì)分領(lǐng)域較為常用的聚類(lèi)方法。
K-均值法的所有簇類(lèi)均計(jì)算出該類(lèi)中所有數(shù)據(jù)的平均值或加權(quán)平均值,即聚類(lèi)中心。其公式如下:
其中d(xi,cj)表示樣本點(diǎn)xi到聚類(lèi)中心cj的歐式距離。K-均值法從樣本點(diǎn)集中隨機(jī)選取K個(gè)點(diǎn)作為初始聚類(lèi)中心,計(jì)算并比較每個(gè)點(diǎn)xi到聚類(lèi)中心cj的距離,將xi分配到與其距離最小的簇中;重新選擇聚類(lèi)中心,重復(fù)此步驟,直至聚類(lèi)中心不再發(fā)生變化。
K-均值法得到的結(jié)果通常只是局部最優(yōu)解且一定程度上依賴(lài)于初始聚類(lèi)中心的選擇,其缺陷還有:K值選擇無(wú)標(biāo)準(zhǔn)依據(jù),只能處理數(shù)值群,對(duì)“噪聲”和離群數(shù)據(jù)較為敏感等。
PSO是一種基于群的聚類(lèi)方法[7],通過(guò)模擬生物界魚(yú)群或鳥(niǎo)群間合作與競(jìng)爭(zhēng)產(chǎn)生的優(yōu)化算法。PSO在預(yù)測(cè)精度和運(yùn)行速度方面優(yōu)勢(shì)明顯。其算法表述如下:
設(shè)在n維空間中有粒子群xi(i=1,2,...m),每個(gè)粒子有速度vi和位置pi兩種屬性,在n維空間中為xi的速度分量和位置分量,通過(guò)PSO模型的計(jì)算,粒子群不斷優(yōu)化速度和位置。
PSO是一種隨機(jī)搜索方法,類(lèi)似于遺傳算法和模擬退火算法,但收斂速度更快,具有一定的早熟傾向,所以在求解全局最優(yōu)解方面精度仍較低。
SOM是一種具有自組織功能的、免監(jiān)控自發(fā)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)[6],由M個(gè)輸入神經(jīng)元與N個(gè)輸出神經(jīng)元構(gòu)成?;赟OM的聚類(lèi)方法是為每個(gè)輸入神經(jīng)元搜索對(duì)應(yīng)的最優(yōu)輸出神經(jīng)元及相應(yīng)的連接權(quán)值。由于SOM支持多種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),形成的聚類(lèi)中心能映射到曲面或平面上,從而保持其自身拓?fù)浣Y(jié)構(gòu)不變。因此,K-均值法初始聚類(lèi)中心隨意性導(dǎo)致結(jié)果不確性的問(wèn)題,可以借助自組織映射得到趨于穩(wěn)定的聚類(lèi)中心。
SOM對(duì)于一般客戶(hù)細(xì)分問(wèn)題有著較好的聚類(lèi)效果,具有自穩(wěn)定性,但缺點(diǎn)是需預(yù)構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu),訓(xùn)練樣本時(shí)間較長(zhǎng)等。
針對(duì)各聚類(lèi)算法在客戶(hù)細(xì)分方面的不足,本文結(jié)合幾種聚類(lèi)算法的優(yōu)點(diǎn)提出了一種改進(jìn)的聚類(lèi)算法M-Cluster。
首先,針對(duì)K-均值法一定程度上需依賴(lài)于初始聚類(lèi)中心的缺點(diǎn),使用SOM神經(jīng)網(wǎng)絡(luò)先對(duì)樣本集進(jìn)行預(yù)處理,得到的聚類(lèi)中心作為初始聚類(lèi)中心。另一方面,利用K-均值法對(duì)SOM的訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)聚類(lèi)并初始化權(quán)值,以克服網(wǎng)絡(luò)構(gòu)建和訓(xùn)練時(shí)間較長(zhǎng)的缺點(diǎn)。具體改進(jìn)措施如下:
(1)從初始數(shù)據(jù)集中選取樣本集X作為訓(xùn)練數(shù)據(jù)集,同時(shí)用K-均值法將X分為K個(gè)簇,得到聚類(lèi)中心集C;
(2)使用C初始化SOM網(wǎng)絡(luò)頂點(diǎn)位置的神經(jīng)元權(quán)值:從C中尋找間距最大的兩個(gè)聚類(lèi)中心點(diǎn),分別作為對(duì)角線(xiàn)上兩個(gè)頂點(diǎn)神經(jīng)元初始化權(quán)值;然后從剩余的聚類(lèi)中心集中尋找與兩個(gè)頂點(diǎn)距離最遠(yuǎn)的聚類(lèi)中心點(diǎn),放置于副對(duì)角線(xiàn)上其中一個(gè)頂點(diǎn)位置,再用同樣的方法尋找副對(duì)角線(xiàn)上的另一頂點(diǎn)。
(3)初始化SOM網(wǎng)絡(luò)外層四個(gè)象限的神經(jīng)元權(quán)值:以左象限為例,利用K-均值法的計(jì)算公式依次計(jì)算k-4個(gè)聚類(lèi)中心分別與左側(cè)邊最上方兩個(gè)頂點(diǎn)間距離之和,從中選取M-2個(gè)數(shù)值最小的聚類(lèi)中心作為初始化權(quán)值,按照與左上頂點(diǎn)距離遞增的順序從左至右依次賦于各神經(jīng)元。同理,從外至內(nèi)逐層初始化剩余神經(jīng)元權(quán)值。
(4)使用樣本集X訓(xùn)練SOM網(wǎng)絡(luò)后,將初始數(shù)據(jù)集分成K個(gè)簇,得到聚類(lèi)中心集合C',作為進(jìn)行下一步聚類(lèi)計(jì)算的初始化數(shù)據(jù)。
PSO的進(jìn)化過(guò)程帶有一定的隨機(jī)性,保持粒子多樣性的同時(shí)也擴(kuò)大了全局搜索范圍,從而使得全局解的精度較低。而K-均值法具有局部搜索最優(yōu)解的特性,利用其對(duì)PSO進(jìn)化得到的新粒子進(jìn)行聚類(lèi)優(yōu)化,從而提高全局搜索精度。
(1)優(yōu)化PSO模型的慣性權(quán)重的值ω。ω的值直接決定了PSO的搜索范圍,為使算法具有較強(qiáng)的全局搜索能力,在前期保持較高搜索效率,后期保持較高搜索精度,本文對(duì)ω做如下修正:
其中,d為迭代次數(shù),n為調(diào)節(jié)參數(shù)(視情況而定)。
(2)利用K-均值法優(yōu)化新群體。首先將粒子添加到距離最近的聚類(lèi)中心C'的簇中,用K-均值法對(duì)形成的粒子簇進(jìn)行聚類(lèi),得到新的聚類(lèi)中心集C'';然后計(jì)算粒子當(dāng)前位置的適應(yīng)度、最好位置的適應(yīng)度和粒子群最好位置的適應(yīng)度,用適應(yīng)度最大的位置更新粒子速度并調(diào)整其位置。最后,更新整個(gè)粒子群經(jīng)過(guò)的最好位置。
基于客戶(hù)價(jià)值的評(píng)價(jià)方法通常是用來(lái)構(gòu)建客戶(hù)細(xì)分模型的重要方法,而其中最常用的就是生命周期價(jià)值模型LTV和近度/頻度/金額(Recency/Frequency/Monetary)RFM模型。LTV應(yīng)用計(jì)算模型統(tǒng)計(jì)出每個(gè)客戶(hù)的LTV值并通過(guò)排序來(lái)評(píng)價(jià)客戶(hù)的價(jià)值度。LTV模型較為簡(jiǎn)單,沒(méi)有綜合考慮客戶(hù)行為的動(dòng)態(tài)性、市場(chǎng)競(jìng)爭(zhēng)等復(fù)雜因素,且需基于過(guò)去購(gòu)買(mǎi)模式來(lái)評(píng)價(jià)和推斷,未能反映客戶(hù)未來(lái)行為及價(jià)值的波動(dòng)趨勢(shì),故而具有一定的局限性。RFM模型通過(guò)統(tǒng)計(jì)最近購(gòu)買(mǎi)時(shí)間(近度)、購(gòu)買(mǎi)頻率(頻度)和購(gòu)買(mǎi)金額三種客戶(hù)行為指標(biāo)來(lái)構(gòu)建評(píng)價(jià)體系。根據(jù)RFM值劃分出若干類(lèi)別未知的子客戶(hù)群,將子客戶(hù)群的平均RFM與全局客戶(hù)的RFM平均值依據(jù)客戶(hù)細(xì)分模型進(jìn)行比較,形成最終的客戶(hù)分類(lèi)。但RFM仍然只能對(duì)過(guò)去行為交易進(jìn)行評(píng)價(jià),無(wú)法發(fā)現(xiàn)潛在客戶(hù)。
基于此,本文結(jié)合這兩種模型的思想針對(duì)學(xué)生群體對(duì)移動(dòng)電子商務(wù)的消費(fèi)模式和群集現(xiàn)象,構(gòu)建全新的客戶(hù)/利潤(rùn)/金額CPM模型。通過(guò)問(wèn)卷調(diào)查獲取到CPM分別相應(yīng)的三級(jí)指標(biāo)對(duì)于CPM的權(quán)值,然后應(yīng)用M-Cluster算法對(duì)用戶(hù)進(jìn)行分類(lèi),具體步驟為:①對(duì)C、P、M三個(gè)指標(biāo)分別進(jìn)行聚類(lèi),得到K個(gè)的客戶(hù)簇;②比較每個(gè)客戶(hù)簇的C、P、M平均值與全局客戶(hù)C、P、M平均值,高于全局均值,記為↑,否則記為↓;③根據(jù)每個(gè)用戶(hù)簇的指標(biāo)變動(dòng)情況分析該類(lèi)用戶(hù)的特征與性質(zhì),定義用戶(hù)類(lèi)型;④用M-Cluster算法對(duì)客戶(hù)C、P、M指標(biāo)進(jìn)行聚類(lèi),得到K類(lèi)用戶(hù)群體。
傳統(tǒng)聚類(lèi)算法無(wú)法滿(mǎn)足移動(dòng)電子商務(wù)情境下對(duì)客戶(hù)細(xì)分的高精度要求,在分析研究多種經(jīng)典聚類(lèi)算法理論的基礎(chǔ)上,提出一種收斂速度快、細(xì)分精度高的混合聚類(lèi)算法,且不易陷入局部最優(yōu)解、不會(huì)對(duì)初始聚類(lèi)中心數(shù)據(jù)敏感等,更適合解決客戶(hù)細(xì)分問(wèn)題。
[1]Kumara V,Shah D.Building and Sustaining Profitable Customer Loyalty for the 21st Century[J].Journal of Retailing,2004,80(10):317-330.
[2]Borchers A,Herlocker J,Konstan J,et al.Ganging up on information overload[J].Computer,1998,31(4):106-108.
[3]陳智高,陳月英,常香云.基于客戶(hù)價(jià)值的期貨業(yè)客戶(hù)聚類(lèi)細(xì)分方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)學(xué)版),2006,46(1):1046-1051.
[4]王華秋,廖曉峰.微粒群并行聚類(lèi)在客戶(hù)細(xì)分中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2008,25(10):2987-2994.
[5]MacQueen J.Some methods for classification and analysis of multivariate observations[C].In Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probabilit,Berkeley:University of California Press,1967:281-297.
[6]Kohonen T.Self-organized formation of topologically correct feature maps[J].Biological Cybernetics,1982,43:59-69.
[7]Kennedy J,Eberhart R.Particle swarm optimization[C].In Proceedingsofthe IEEE International Conference on Neural Network,1995,1942-1948.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2013年7期