亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于K-means的多維聚類算法在客戶信息中的應(yīng)用

2020-12-24 08:01:42周繼成蔡冠宇高尚

軟件 2020年7期

關(guān)鍵詞：數(shù)據(jù)量聚類對象

周繼成蔡冠宇高尚

摘? 要：從客戶信息多維考慮，結(jié)合K-means算法原有思想，通過多維聚合來實現(xiàn)對大量客戶信息的分類聚合，通過比較數(shù)據(jù)伸縮率及擴展率來比較了Hadoop上的性能。

關(guān)鍵詞：數(shù)據(jù)挖掘;K-means;BI;客戶信息;聚類算法

中圖分類號： TP391.1 ???文獻標識碼： A??? DOI：10.3969/j.issn.1003-6970.2020.07.012

本文著錄格式：周繼成，蔡冠宇，高尚. 基于K-means的多維聚類算法在客戶信息中的應(yīng)用[J]. 軟件，2020，41（07）：61-65

Application of Multidimensional Clustering Algorithm Based onK-means in Customer Information

ZHOU Ji-cheng¹， CAI Guan-yu²， GAO Shang^1*

（1. School of Computer Science and Engineering， Jiangsu University of Science and Technology， Zhenjiang 212003， China;2. Zhenjiang Dantu District Science and Technology Bureau， Zhenjiang 212003， China）

【Abstract】： From the customer information multi-dimensional considerations， combined with the original idea of K-means algorithm， through multidimensional aggregation to achieve a large number of customer information clas?sification， through the comparison of data expansion rate and expansion rate to compare the performance of Hadoop.

【Key words】： Data mining; K-means; BI; Customer information; Clustering algorithm

0? 引言

在數(shù)據(jù)越來越重要的時代，如何快速有效的利用現(xiàn)有的大量數(shù)據(jù)，挖掘潛在的商業(yè)機會，為立足先機，成為企業(yè)規(guī)劃未來數(shù)據(jù)發(fā)展戰(zhàn)略的重中之重。客戶信息是企業(yè)最核心且最具有競爭力的，往往最能理解客戶需求，針對客戶來發(fā)展產(chǎn)品，則在市場上就能夠占得先機^[1-7]。而要做到產(chǎn)品追隨客戶需求，則需要對市場的客戶分布、客戶群類做到很精確的判斷。在探討市場發(fā)展趨勢時，需要對市場的客戶群體進行分類聚合，此時就需要數(shù)據(jù)挖掘的聚類算法對海量的客戶歷史數(shù)據(jù)進行處理。在商務(wù)智能中，聚類分析算法可以對企業(yè)大量的客戶信息進行分類，相同類組中的客戶在屬性特征上就會有高度的相似性，這樣有利于針對不同類群的客戶開發(fā)

針對性的客戶產(chǎn)品。但是由于客戶屬性特征往往都是高達數(shù)十個，同時數(shù)據(jù)量也是數(shù)據(jù)聚類處理的一個難點，現(xiàn)有的聚類算法在處理多維及大批量數(shù)據(jù)時，在準確度及時間、空間復(fù)雜度上遇到了瓶頸^[8-9]。針對這一問題研究的思路是將并行處理技術(shù)及多維聚類分析與現(xiàn)有的比較常用的聚類分析算法K-means相結(jié)合，探究更加高效的聚類分析方法，提高客戶信息分析的準確度。

1? 客戶數(shù)據(jù)的預(yù)處理

這里以某地產(chǎn)行業(yè)客戶信息作為例子。該地產(chǎn)公司的客戶信息數(shù)據(jù)來源ERP系統(tǒng)和移動端的APP系統(tǒng)，細分為線索登記、來訪及跟進信息、交易階段相關(guān)信息、入伙登記信息、APP會員推廣和推薦信息等。在這一階段需要將所有系統(tǒng)的有關(guān)客戶信息抽取到對應(yīng)的目標表中，主要分為客戶身份信息和客戶事件。地產(chǎn)客戶信息結(jié)構(gòu)其執(zhí)行的過程如下圖1所示，設(shè)計的客戶數(shù)據(jù)結(jié)構(gòu)如表1。

2 ?基于Hadoop的多維聚類算法K-means設(shè)計

針對客戶信息屬性多維的特點，以及結(jié)合Hadoop的MapReduce算法的設(shè)計，以常規(guī)的K-means算法為基礎(chǔ)，對其進行多維化的擴展。常規(guī)的串行K-means算法包含以下幾個步驟^[10-11]。

（1）從數(shù)據(jù)對象中有針對性的選擇k個客戶對象作為初始化聚類中心。

（2）設(shè)定最小距離的初步臨界值，通過計算每個數(shù)據(jù)對象與聚類中心的距離，進行初步的分類劃分。

（3）根據(jù)劃分后分聚類中心，重新計算每個聚類的均值，這個均值是可以重新按照第二步驟進行變化的。

（4）計算每一次劃分后是否滿足函數(shù)收斂，如果滿足，則算法終止運行，如果條件不滿足，則繼續(xù)2、3步驟。

從上述算法步驟可以看出，K-means算法的主要計算工作是根據(jù)設(shè)定的最小距離，計算每一個數(shù)據(jù)對象距離聚類中心的距離，從來能夠?qū)?shù)據(jù)對象按照不同的簇類進行劃分。每一次迭代都是執(zhí)行在前一次劃分的基礎(chǔ)之上在初始化聚類中心，從而能夠在每次迭代之后對數(shù)據(jù)對象更細一步的劃分。

常見的劃分方法有兩種，一種是k-均值;另一種是k-中心點，后一種比前一種魯棒性更優(yōu)，但是其復(fù)雜度相對更高，尤其是大批量的數(shù)據(jù)。所以從數(shù)據(jù)量大和客戶信息屬性較多的狀況，采用多維K-means聚類，并為每一個屬性聚類加權(quán)重，權(quán)重按照客戶屬性的重要性賦值。k-means算法的迭代是通過Map函數(shù)及Reduce函數(shù)來實現(xiàn)的。

并行處理技術(shù)現(xiàn)在最常見的應(yīng)用是Hadoop架構(gòu)體系，其是一個成本比較低，開發(fā)難度較小，并行處理大規(guī)模數(shù)據(jù)性能較好的云計算平臺，特點是可靠性較高、成本相對較低、效率高等^[12]。Hadoop平臺框架最核心的兩個部分：為大量的數(shù)據(jù)提供存儲的HDFS（分布式文件系統(tǒng)）;為大數(shù)據(jù)提供計算模型的MapReduce。Hadoop平臺最大的特點集群化體現(xiàn)在它的HDFS集群。集群中會有一個主節(jié)點（Namenode）作為集群管理中心，多個從節(jié)點作為數(shù)據(jù)節(jié)點。每個節(jié)點都可以是一臺普通的PC機。MapReduce是一種編程模型，用于大批量數(shù)據(jù)的并行計算。其主要思想有兩個部分，Map（映射）、Reduce（歸約）。Map端的主要作用如下。

（1）當(dāng)數(shù)據(jù)Input后，會根據(jù)分節(jié)點的個數(shù)來安排數(shù)據(jù)分片的大小，每一個數(shù)據(jù)分片對應(yīng)一個map，Map的輸出結(jié)果暫且放在內(nèi)存緩沖區(qū)中。這些數(shù)據(jù)會根據(jù)自定義的Map函數(shù)生成新的（key，value）鍵值對。不同類型的類鍵值對也是不同的。

（2）Shuffle是在Reduce端之前，用于確保輸入是Map已經(jīng)處理排好序的。

（3）Reduce端：會對從Map端傳送過來的鍵值對做遞歸歸約，輸入?yún)?shù)是（key，{list value}），通過自定義的Reduce函數(shù)處理后，生成新的（key，value）鍵值對。

Map函數(shù)默認的鍵值對（Key，value）。為了便于計算，可以將客戶信息數(shù)據(jù)按照屬性導(dǎo)成文本形式。這里的key即當(dāng)前文本的數(shù)據(jù)相對于起始點的位移，value則是對應(yīng)的位移字符串。文本遍歷后，通過value值計算對象與各個中心點的距離，從而找到距離最短的中心簇類。其設(shè)計的Map函數(shù)如下。

Map（（key，value），（key，value））

{

初始時解析value值得到初始值firstvalue;

距離中心聚類的最短距離定義為minvalue，初始化時為最大值;

Dex變量作為key;

K定義為初始聚類中心的個數(shù);

For m=0 to k-1

Do{

Dis=firstvalue;定義每一個對象與第m個聚類中心的距離;

If dis

{

minValue=dis;

index=i;

}

Key=index;每一次map函數(shù)執(zhí)行之后將index賦值給key;

Value=dis;將dis作為value的值;

輸出（key，value）

}

Reduce函數(shù)的輸入來源Map之后的分類合并，即（key，V）;這里的key是合并后聚類的下標，V是同一聚類的對象值即Map函數(shù)得到的value;通過對同一聚類的各個對象value值得相加除以同一聚類的對象個數(shù)，即為新的聚類中心的值。偽代碼如下。

Reduce（（key，V），（key，value））

{

SUM[];初始化數(shù)組作為每一個聚類對象坐標的累加值。

NUM=0;初始化變量NUM，作為同聚類的對象個數(shù);

While（V.hasNext（））//hasNext（）用于判斷是否有下一個同聚類對象;

{

V.next（num）;從next（）函數(shù)中解析同聚類各位位移及對象個數(shù);

NUM+=num;

}

數(shù)組SUM[]的每一個值與NUM相除，得到各個聚簇中心新的坐標值;

即key變?yōu)閗ey;

Value的值即各個對象對應(yīng)的坐標值;

返回（key，value）

}

重復(fù)Map函數(shù)及Reduce，直到達到收斂條件。

3 ?Hadoop環(huán)境下對客戶信息的處理

3.1 ?Hadoop環(huán)境和數(shù)據(jù)來源介紹

本論文探究的是運用K-means實現(xiàn)對地產(chǎn)客戶信息的聚類分析，基于數(shù)據(jù)量及探究的主題，部署的Hadoop環(huán)境基于五臺PC機，其中一臺為服務(wù)器虛機，內(nèi)存為32G。其他四臺為PC機和筆記本，配置PC機為雙核8G內(nèi)存，筆記本為12G內(nèi)存。Hadoop是V2.7.0版本。機器是通過千兆以太網(wǎng)及交換機建立的局域網(wǎng)進行連接互通。

數(shù)據(jù)來源于某地產(chǎn)客戶，其需求是基于現(xiàn)有的客戶信息、來訪登記信息、客戶買房信息等挖掘客戶潛在的客戶需求，通過對客戶不同屬性之間的關(guān)系的分析，調(diào)整市場分布。

由于客戶信息屬性是多維的，所以在這里主要研究一些帶有決策性的屬性進行研究。包括以下幾個屬性：性別、年齡、省份、城市、所屬行業(yè)、教育程度、婚姻狀況、購房用途、工作區(qū)域、居住區(qū)域、收入水平、家庭狀況、職業(yè)、興趣愛好、需求面積、意向樓層、意向單價、線索來源（媒體廣告等）等。

3.2 ?評價指標

指標性能往往基于數(shù)據(jù)量及平臺性能發(fā)生變化的，所以在實驗環(huán)境中通過控制數(shù)據(jù)量的變化及平臺來探討處理機制的性能，將擴展率、加速比和數(shù)據(jù)伸縮率作為評價指標，同時潛在的客戶信息關(guān)聯(lián)也作為評價條件。

3.3 ?聚類結(jié)果分析

3.3.1 ?K-means算法性能分析

從數(shù)據(jù)量級來看，千萬級的數(shù)據(jù)量運行時間比例要比百萬級的數(shù)據(jù)在同等節(jié)點數(shù)的效率更高，對于Hadoop來說，節(jié)點數(shù)的變化導(dǎo)致的運行時間及準確率的變化更能體現(xiàn)其集群化并行運算的優(yōu)勢。

圖2是K-means算法在Hadoop平臺并行運算的加速比，從圖中可以看到，加速比隨著節(jié)點的增加是逐漸增大，Hadoop并行運算提高了K-means聚類分析的效率，但從圖中也可以看出，從2個節(jié)點到3個節(jié)點的時候加速比的增大比例是最大的，影響加速比提高的另一個原因是隨著節(jié)點的增多，節(jié)點之間的通訊開銷也是逐漸增大。所以在部署Hadoop集群環(huán)境時，節(jié)點之間的通訊方式和設(shè)備也是需要重點考慮的。同時在圖中可以看出百萬級的數(shù)據(jù)量在同等Hadoop環(huán)境下，其加速比要比千萬級數(shù)據(jù)量要低一些。

從圖3可以看出隨著Hadoop平臺節(jié)點數(shù)的增加，K-means算法的擴展率逐漸的降低，這主要是由于Hadoop節(jié)點數(shù)的增加，導(dǎo)致節(jié)點之間的通訊代價增大。但是通過兩條折線比較，一條是五百萬級別的數(shù)據(jù)量，另一條是一千萬級別的數(shù)據(jù)量，隨著數(shù)據(jù)量的翻倍，擴展率反而有一定得提高，所以在遇到數(shù)據(jù)量比較大的情況時，Hadoop平臺在做聚類分析時對算法的性能會有一定得提高。

3.3.2? 客戶信息挖掘分析

首先針對部分客戶數(shù)據(jù)的三個比較重要的屬性：性別、收入水平、購房意愿做分析。其中收入水平有一般、中等、較高三個等級;購房意愿有較低、一般、強烈三個等級?？梢钥闯龃笾驴梢苑譃槿?，一類是高收入的意愿強烈的男性人群;一類是中等收入的購房意愿一般的女性人群;還有一類是收入較低購房意愿較低的男性人群。

針對客戶信息分析結(jié)果進行統(tǒng)計，由于該地產(chǎn)公司的主要業(yè)務(wù)集中在江蘇蘇南及上海等地，所以統(tǒng)計的客戶信息也主要集中在這些地方。從圖4到圖10可以看出客戶主要幾個屬性所占的比例，結(jié)合表3可以看出地產(chǎn)客戶群的類別受年齡及地域影響比較大，客戶群中又以25-40之間的男性居多，而且需求大多數(shù)是為了結(jié)婚使用。同時收入水平也是影響購房意愿的重要一個屬性。其中中等收入水平的在南京無錫蘇州等二三線城市的購房意愿更為強烈。所以針對地產(chǎn)市場，可以增大住宅區(qū)的建設(shè)，推廣人群以25到40歲的人群為主。

4 ?結(jié)論

通過對Hadoop平臺及K-means聚類算法的研究，實現(xiàn)了在Hadoop平臺上使用K-means對地產(chǎn)客戶信息的聚類分析，通過比較運行時間、K-means算法的擴展率以及Hadoop下K-means算法并行運算的加速比，可以發(fā)現(xiàn)大批量數(shù)據(jù)（至少千萬級的數(shù)據(jù)）在多節(jié)點的集群Hadoop平臺中效率更高，準確率也更好。同時K-means多維屬性聚類算法更適合于屬性眾多的客戶信息數(shù)據(jù)的分析。

參考文獻

Gustavo E A， Batista P A， Monard M C. An Analysis of Four Missing Data Treatment Methods for Supervised Learning[J]. Applied Artificial Intelligence， 2003， 17（5/6）： 519-533.
Mohameds， Abdelkriml， Alibh， et al. A segmentation method to handwritten word recognition[J]. Neural Network World， 2007， 17（3）： 225-236.
Xiang S， Nie F， Zhang C S. Learing a Mahalanobis distance metric for data clustering a classification[J]. Pattern Recognition， 2008.
Yuan S T， Sun J. Ontology-based structured cosine similarity in document summarization： with applications to mobile audio-based knowledge management[J]. System， Man， and Cybernetics， Part B： Cybernetics， IEEE Transaction od， 2005， 35（5）： 1028-1040.
Tuomo Korenius， Jorma Laurikkala， Martti Juhola. On principal component analysis， cosine and Euclidean measures in information retrieval. Information Sciences， No. 177， 2007， pp. 4893-4905.
Jun Ye. Cosine similarity measures for intuitionistic fuzzy sets and their applications. Mathematical and Computer Mo?d?eling， 2011， 53： 91-97.
Nikolova E， Jecheva V. Some similarity coefficients and app?lication of data mining techniques to the anomaly-bases IDS [J]. Telecommunication Systems， 2012， 50（2）： 127-135.
Gan G.， J. Wu， A convergence theorem for the fuzzy subspace clustering （FSC） algorithm， Pattern Recognition， 2008， 41（6）： 1939-194.
牛新征，佘堃. 面向大規(guī)模數(shù)據(jù)的快速并行聚類劃分算法研究[J]. 計算機科學(xué)， 2012， 39（1）： 134-137， 151.DOI：10. 3969/j.issn.1002-137X.2012.01.030.
柳靜，郭紅山. 云計算中K-means聚類中心優(yōu)化求解方法[J]. 科技通報， 2015， 31（10）： 100-102.
江小平，李成華，向文，等. K-means聚類算法的MapReduce并行化實現(xiàn)[J]. 華中科技大學(xué)學(xué)報（自然科學(xué)版）， 2011， 39（z1）： 120-124.
曾令英. 云計算中MapReduce并行計算平臺的研究[D]. 哈爾濱工業(yè)大學(xué)， 2013.