亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        K-means算法對綜合商場客戶價(jià)值分類的研究

        2021-03-07 07:57:48李曉萍
        電子技術(shù)與軟件工程 2021年24期
        關(guān)鍵詞:分類價(jià)值模型

        李曉萍

        (張家口學(xué)院 經(jīng)濟(jì)與管理學(xué)院 河北省張家口市 075000)

        當(dāng)前具有聚類分類的方法有很多,對于不同的客戶分類研究中,不同的分類方法產(chǎn)生的分類效果對于企業(yè)的接下來的工作有直接的影響,效果不好的分來有可能直接導(dǎo)致優(yōu)質(zhì)客戶的流失而對價(jià)值一般的客戶投入太多的精力。當(dāng)前應(yīng)用于客戶分類中的RFM 模型是利用K-means算法進(jìn)行操作。本文認(rèn)為綜合商場商品種類較多,由于不同的品牌檔次對于客戶價(jià)值的確定有著至關(guān)重要的作用,日常生活中消費(fèi)者更傾向于購買知名品牌的商品,原因是由于其質(zhì)量以及售前售后服務(wù)都有所保證,所以加入一新的變量購買品牌P 以改善RFM 模型。本文根據(jù)歷史數(shù)據(jù)以及商場性質(zhì)直接確定了聚類數(shù)目K 值[5],但是由于初始聚類中心的波動(dòng)[3-4]引起的效果變動(dòng),對于初始聚類中心用比例劃分法,不同的變量屬性對于客戶的價(jià)值貢獻(xiàn)是有差別的,本文也對改進(jìn)后的RFA 的四個(gè)因素賦予權(quán)重。繼而進(jìn)行計(jì)算每個(gè)節(jié)點(diǎn)到聚類中心的距離,選擇對應(yīng)距離最小的加入聚類,進(jìn)行傳統(tǒng)的迭代算法直至根據(jù)判定函數(shù)確定聚類沒有明顯的變化。

        1 改善RFM模型—RFAP模型

        RFM 模型是分析客戶價(jià)值的一種定量分析模型,它通過三個(gè)變量值來描述客戶的重要程度和客戶類型,即最近購買時(shí)問(R),某一期間內(nèi)購買的次數(shù)(F),某一期間內(nèi)購買的總金額(M)。本文結(jié)合Marcus 提出客戶價(jià)值矩陣模型,提出了新的模型結(jié)構(gòu)RFAP,最近購買時(shí)間(R),期間內(nèi)購買次數(shù)(F),平均購買額(A),購買品牌屬性(T)新加入的購買品牌屬性是一個(gè)分類消費(fèi)者消費(fèi)層次的重要變量。此模型數(shù)據(jù)的預(yù)處理:設(shè)給定時(shí)間段2019-01-01—2014-06-30。R’=R-2019-01-01,A=M/F,P 根據(jù)商場內(nèi)部進(jìn)貨渠道確定不同品牌檔次分類數(shù),本文選取5 個(gè)檔次由低到高Ti(i=1,2,3,4,5),Ti=i,利用示性函數(shù)轉(zhuǎn)化成數(shù)值進(jìn)行品牌得分的處理,即得分(1)S=∑5

        i=1(TiPi),∑5i=1Pi=1(Pi是在規(guī)定時(shí)間內(nèi)所買商品檔次i 的頻率),得分越高,說明此消費(fèi)者更傾向于高端品牌,反之則喜歡低價(jià)商品。

        2 算法聚類

        2.1 聚類算法簡介

        聚類是一種機(jī)器學(xué)習(xí)技術(shù),它涉及到數(shù)據(jù)點(diǎn)的分組。給定一組數(shù)據(jù)點(diǎn),我們可以使用聚類算法將每個(gè)數(shù)據(jù)點(diǎn)劃分為一個(gè)特定的組。理論上,同一組中的數(shù)據(jù)點(diǎn)應(yīng)該具有相似的屬性和/或特征,而不同組中的數(shù)據(jù)點(diǎn)應(yīng)該具有高度不同的屬性和/或特征。聚類是一種無監(jiān)督學(xué)習(xí)的方法,是許多領(lǐng)域中常用的統(tǒng)計(jì)數(shù)據(jù)分析技術(shù)。

        目前主要的聚類方法有以下幾種,分別是均值偏移聚類算法、DBSCAN 聚類算法、使用高斯混合模型(GMM)的期望最大化(EM)聚類、層次聚類算法、K-means 聚類算法

        均值偏移聚類算法是一種基于滑動(dòng)窗口的算法,它試圖找到密集的數(shù)據(jù)點(diǎn)。而且,它還是一種基于中心的算法,它的目標(biāo)是定位每一組群/類的中心點(diǎn),通過更新中心點(diǎn)的候選點(diǎn)來實(shí)現(xiàn)滑動(dòng)窗口中的點(diǎn)的平均值。這些候選窗口在后期處理階段被過濾,以消除幾乎重復(fù)的部分,形成最后一組中心點(diǎn)及其對應(yīng)的組。

        DBSCAN 聚類算法是一個(gè)比較有代表性的基于密度的聚類算法。具體步驟:

        (1) 首先確定半徑r 和最小點(diǎn).從一個(gè)沒有被訪問過的任意數(shù)據(jù)點(diǎn)開始,以這個(gè)點(diǎn)為中心,r 為半徑的圓內(nèi)包含的點(diǎn)的數(shù)量是否大于或等于最小點(diǎn),如果大于或等于最小點(diǎn),則改點(diǎn)被標(biāo)記為中心點(diǎn),反之則會(huì)被標(biāo)記為噪聲。

        (2) 重復(fù)1 的步驟,如果一個(gè)噪聲存在于某個(gè)中心點(diǎn)為半徑的圓內(nèi),則這個(gè)點(diǎn)被標(biāo)記為邊緣點(diǎn),反之仍為噪聲。重復(fù)步驟1,知道所有的點(diǎn)都被訪問過。此種聚類方法的優(yōu)點(diǎn)是不需要知道簇的數(shù)量,缺點(diǎn)是需要確定距離r 和最小點(diǎn)。

        使用高斯混合模型,我們可以假設(shè)數(shù)據(jù)點(diǎn)是高斯分布的以二維的例子為例,這意味著聚類可以采用任何形式的橢圓形狀。因此,每個(gè)高斯分布可歸屬于一個(gè)單獨(dú)的聚類。

        層次聚類算法實(shí)際上分為兩類:自上而下或自下而上。自下而上的算法在一開始就將每個(gè)數(shù)據(jù)點(diǎn)視為一個(gè)單一的聚類,然后依次合并(或聚集)類,直到所有類合并成一個(gè)包含所有數(shù)據(jù)點(diǎn)的單一聚類。因此,自下而上的層次聚類稱為合成聚類或HAC。聚類的層次結(jié)構(gòu)用一棵樹(或樹狀圖)表示。樹的根是收集所有樣本的唯一聚類,而葉子是只有一個(gè)樣本的聚類。

        在K-Means 聚類方法中,

        (1)首先,我們選擇一些類/組來使用并隨機(jī)地初始化它們各自的中心點(diǎn)。要想知道要使用的類的數(shù)量,最好快速地查看一下數(shù)據(jù),并嘗試識別任何不同的分組。中心點(diǎn)是與每個(gè)數(shù)據(jù)點(diǎn)向量相同長度的向量。

        (2)每個(gè)數(shù)據(jù)點(diǎn)通過計(jì)算點(diǎn)和每個(gè)組中心之間的距離進(jìn)行分類,然后將這個(gè)點(diǎn)分類為最接近它的組。

        (3)基于這些分類點(diǎn),我們通過取組中所有向量的均值來重新計(jì)算組中心。

        (4)對一組迭代重復(fù)這些步驟,還可以選擇隨機(jī)初始化組中心幾次,然后選擇那些看起來對它提供了最好結(jié)果的來運(yùn)行。

        K-Means 聚類算法的優(yōu)勢在于它的速度非???,因?yàn)槲覀兯龅闹皇怯?jì)算點(diǎn)和群中心之間的距離;它有一個(gè)線性復(fù)雜度O(n)。K-Means 也有幾個(gè)缺點(diǎn)。首先,必須選擇有多少組/類。分類可以通過歷史數(shù)據(jù)或者具體實(shí)驗(yàn)要求進(jìn)行確定,K-Means 也從隨機(jī)選擇的聚類中心開始,因此在不同的算法運(yùn)行中可能產(chǎn)生不同的聚類結(jié)果。因此,結(jié)果可能是不可重復(fù)的,并且缺乏一致性。其他聚類方法更加一致。本文針對此種方法在應(yīng)用過程中的缺點(diǎn)進(jìn)行了改進(jìn),可以有效地避免由于聚類中心隨機(jī)選擇出現(xiàn)的每一次運(yùn)行聚類結(jié)果不同的缺點(diǎn)。

        2.2 K-means算法簡介[3]

        圖1

        K-means 聚類計(jì)算點(diǎn)到聚類中心的距離用的是歐幾里得距離公式:(2)是樣本數(shù)據(jù)點(diǎn),ck是k 個(gè)聚簇的聚類中心。隨機(jī)選取的初始聚類中心可能使數(shù)據(jù)的分類在第一步就發(fā)生錯(cuò)誤,基于綜合商場的消費(fèi)人群的特點(diǎn),各類人群的消費(fèi)M 和人數(shù)Z 不是平均分配的,M 越大,Z 越小,也就是說越是高端用戶準(zhǔn)入條件越復(fù)雜,所以人數(shù)會(huì)越少。針對高端用戶,商場對應(yīng)提供的服務(wù)品質(zhì)以及優(yōu)惠政策都是具有排他性的,直至聚類不再發(fā)生變化則可以輸出,評價(jià)聚類的函數(shù):

        2.3 改進(jìn)后的K-means聚類算法

        針對綜合商場的特點(diǎn),商品種類繁多,日人流量龐大,消費(fèi)檔次不一,以及聚類中心的隨機(jī)選取造成的類簇內(nèi)緊密度密下降的問題,本文提出了對傳統(tǒng)的K-means第2步和5步的改善:距離公式(4)(i 是每一個(gè)點(diǎn)對應(yīng)的屬性,wi是屬性的權(quán)重),之所以要賦予權(quán)重。是因?yàn)椴煌膶傩詫蛻艨傮w價(jià)值的體現(xiàn)貢獻(xiàn)不同。例如一個(gè)人的購買次數(shù)很多,但是總購買額度而卻比另外的一位客戶一次購買額度還要小,那么這倆位客戶的價(jià)值如何確定呢?利用歷史數(shù)據(jù)得出的客戶價(jià)值合理分配權(quán)重w_i.

        2.4 聚類中心的確定

        (1)首先利用距離公式計(jì)算樣本任意倆點(diǎn)間的距離并得到max{d1(xa, xb)},(a=1,2…..t,b=1,2….t,a ≠b)(5)。

        (2)根據(jù)歷史數(shù)據(jù)得到各消費(fèi)層次的人數(shù)mk(k=1,2….5)的比值,從點(diǎn)值得分最高的開始,以距離確定點(diǎn)集合(i=1,2….5,Hk是第k 個(gè)聚類包含的點(diǎn)的集合)。

        (4)在每個(gè)點(diǎn)集里面,根據(jù)點(diǎn)值得分公式可以算出每個(gè)點(diǎn)的得分,之后利用公式(8)(xkp, xkq分別是第k個(gè)聚類中的任意倆點(diǎn),指第K 個(gè)聚類的點(diǎn)數(shù))確定初始聚類中心,Centrexk與對應(yīng)聚類中的點(diǎn)值相等或最接近的點(diǎn)即為初始聚類中心,在每個(gè)聚類中都可以找到。

        此聚類方法得到的初始聚類中心避免了錯(cuò)誤的把所有消費(fèi)人群均分,即初始點(diǎn)可能聚集在點(diǎn)比較集中的某一區(qū)域內(nèi)。就像前面說到的,高端客戶類別里的人數(shù)要比普通客戶的人數(shù)要少,先確定客戶得分最高的點(diǎn),然后確定點(diǎn)集,最后再點(diǎn)集里面尋找中心位置點(diǎn),這樣得到的初始聚類中心符合生活中綜合商場中的人群消費(fèi)特點(diǎn)。

        2.5 收斂準(zhǔn)則

        那么此方法迭代到一個(gè)什么樣的程度就算是完成聚類,本文根據(jù)現(xiàn)實(shí)意義在原方法上增加一個(gè)限制條件:①聚類中心的變化在ε之內(nèi),②mk之間的比值相對穩(wěn)定。

        2.6 邊緣點(diǎn)的處理

        每個(gè)聚類都類似一個(gè)圓,最邊界的點(diǎn)在迭代的過程中會(huì)發(fā)生類別之間的跳動(dòng),簡單來說就是第一次在類k1,第二次在類k2,第三次又在類k1 中,這樣的點(diǎn)我們要標(biāo)記出來不重復(fù)迭代,這些點(diǎn)的現(xiàn)實(shí)意義表示很容易發(fā)生價(jià)值提升和降低的客戶,對于這樣的客戶我們要采取特定的銷售策略,從而人為的改變他的潛在價(jià)值。而對于靠近聚類中心的點(diǎn)則是比較穩(wěn)定的客戶,對待這樣的客戶屬于不同的聚類采取特定的措施。已知k 值,則對于k 個(gè)聚類,處于最低端的客戶聚類是最沒有價(jià)值的,對綜合商場的總體貢獻(xiàn)偏低,一般這個(gè)類別都是由散客來構(gòu)成的,對于此類客戶的營銷手段可以通過促銷打折、以及降價(jià)等大型活動(dòng)來維持人流量,通過薄利多銷的模式提高此類用戶的消費(fèi)價(jià)值。

        2.7 數(shù)據(jù)處理

        當(dāng)k=5,四個(gè)分類屬性分別為R’FAP,每個(gè)數(shù)據(jù)點(diǎn)的得分值利用公式⑴給出,每個(gè)衡量指標(biāo)都用數(shù)值表示,有四個(gè)字母所代表的含義說明了得分值越大客戶總體價(jià)值越高。四個(gè)屬性所占的權(quán)重[w1,w2, w3, w4]=[0.1,0.2,0.4,0.3]根據(jù)以往經(jīng)驗(yàn)以及專家意見,并且通過對其它商場調(diào)研所得,m1:m2:m3:m4:m5=1:2:3:2:2.當(dāng)然,可以根據(jù)商場的營業(yè)狀況適當(dāng)調(diào)整客戶檔次的準(zhǔn)入原則,從而對人數(shù)比做出一定的調(diào)整。

        3 實(shí)證數(shù)據(jù)處理及結(jié)果分析

        如表1所示,輸入原始數(shù)據(jù),文章選取某地區(qū)中端消費(fèi)水平商場(服裝類)的2019.01.01-2019.06.30 會(huì)員客戶消費(fèi)數(shù)據(jù)。共6 個(gè)月份的消費(fèi)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行整理,按照隨機(jī)抽取原則抽取其中500 個(gè)會(huì)員的半年消費(fèi)記錄。

        表1:商場會(huì)員消費(fèi)指標(biāo)RFAP 數(shù)據(jù)記錄表

        通過保留的客戶消費(fèi)交易單據(jù)對所調(diào)查時(shí)間段內(nèi)購買的物品按照商場對品牌類別進(jìn)行劃分,定位標(biāo)準(zhǔn)進(jìn)行品牌分類,從而得到每一個(gè)客戶的品牌選擇傾向概率表。如表2所示。

        表2:消費(fèi)者購買各品牌種類概率表

        利用公式⑴對品牌進(jìn)行數(shù)值處理,并且利用公式(6)對500位客戶求出相應(yīng)的點(diǎn)值得分。如表3所示。

        根據(jù)公式(7),公式(8)得到表4 初始聚類中心和各聚類中心點(diǎn)值的得分。

        表4:初始聚類中心表

        中心點(diǎn)值得分表示每個(gè)類內(nèi)部中心點(diǎn)的大致方位,表4 得到的中心點(diǎn)值之間差值很大,由此可以清楚得到此方法得到的聚類中心保證了類和類之間的差異性以及聚類內(nèi)部的緊密性。避免隨機(jī)取點(diǎn)造成的聚類重復(fù)。最后利用加入權(quán)重的距離公式(4)計(jì)算樣本點(diǎn)到各個(gè)聚類中心的距離從而選擇最小距離并加入相應(yīng)的聚類,如此反復(fù)直至滿足相應(yīng)的收斂條件。如表5所示。

        表5:2019 上半年某商場客戶級別分類表

        從以上實(shí)驗(yàn)結(jié)果可以得到,此商場按照改進(jìn)后的K-means算法對商場500 客戶進(jìn)行分類,共分為5 大類別,其中,至尊客戶的中心點(diǎn)值得分最高,散客的中心點(diǎn)值得分最低,至尊客戶占4.2%,優(yōu)質(zhì)客戶占13.2%,中等客戶人數(shù)最多,超過一半,占比57.8%,普通客戶占比19.4%,散客占比5.4%,此結(jié)果與商場消費(fèi)等級以及定位較為一致,同時(shí)與商場內(nèi)部劃分顧客價(jià)值標(biāo)準(zhǔn)相似度達(dá)90%.

        4 結(jié)論及展望

        本文主要對綜合商場客戶檔次分類所用到的K-means算法初始聚類中心作出改進(jìn),符合實(shí)際中的分類由于初始中心的隨機(jī)選擇造成的客戶歸類不恰當(dāng),同時(shí)對傳統(tǒng)RFM 模型進(jìn)行變量的添加和簡單處理,有效的包含客戶分類的大部分決定因素,并通過實(shí)證分析證明了這一結(jié)論,為綜合商場的客戶價(jià)值挖掘提供了一定的方法。在本文數(shù)據(jù)處理的過程中,RFAP 模型可以更加有效區(qū)分商場客戶價(jià)值,本文篩選數(shù)據(jù)商場屬于中等消費(fèi)水平商場,此模型較為有效,若商場屬于高端類型消費(fèi)商場,會(huì)出現(xiàn)類別分歧較大且互不交叉的現(xiàn)象,并且異常點(diǎn)會(huì)增多,此時(shí)本模型的各個(gè)篩選指標(biāo)在一定程度上失去有效性,在對各指標(biāo)對于客戶價(jià)值影響程度的權(quán)重分配時(shí)采用歷史數(shù)據(jù)模擬的方法直接劃定數(shù)據(jù)權(quán)重也將無意義,針對高端商場客戶價(jià)值挖掘及定向服務(wù)的模型的指標(biāo)選取方法有待進(jìn)行進(jìn)一步研究。

        猜你喜歡
        分類價(jià)值模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        一粒米的價(jià)值
        “給”的價(jià)值
        3D打印中的模型分割與打包
        国产在线观看黄| 人人人妻人人澡人人爽欧美一区| 帮老师解开蕾丝奶罩吸乳视频 | 亚洲啪啪视频一区二区| 国产精品毛片完整版视频| 欧美另类视频在线| 国产免费人成视频在线观看播放 | 亚洲男同志网站| 国内成人精品亚洲日本语音| 国产精品区二区东京在线| 亚洲最大免费福利视频网| 48沈阳熟女高潮嗷嗷叫| 免费看奶头视频的网站| 亚洲av男人免费久久| 中文字幕久久波多野结衣av不卡| 日本50岁丰满熟妇xxxx | 亚洲精品中文字幕无码蜜桃| 亚洲国产精品中文字幕日韩| 亚洲av高清一区二区| 久久久国产精品va麻豆| 久久久久亚洲av无码专区桃色| 99在线无码精品秘 入口九色| 亚洲成人精品久久久国产精品| 热久久国产欧美一区二区精品| 玩弄放荡人妻一区二区三区| 中文字幕亚洲精品人妻| 日韩中文字幕一区二区二区| 少妇性饥渴无码a区免费| 亚洲综合国产精品一区二区99| 青青草免费在线视频导航| 多毛小伙内射老太婆| 在线永久免费观看黄网站| 无码伊人久久大蕉中文无码 | 一个少妇的淫片免费看| 国产精品老熟女露脸视频| 亚洲一区二区欧美色妞影院| 美国黄色av一区二区| 18禁裸男晨勃露j毛网站| 在线播放人成午夜免费视频| 免费啪啪av人妻一区二区| 国产人妻鲁鲁一区二区|