亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下基于K-means的用戶畫像與智能推薦的應(yīng)用

        2016-10-17 01:13:42李冰王悅劉永祥
        現(xiàn)代計算機(jī) 2016年24期
        關(guān)鍵詞:特征

        李冰,王悅,劉永祥

        (1.中國煙草總公司北京市公司,北京100122;2.浪潮軟件股份有限公司,濟(jì)南 250000)

        大數(shù)據(jù)環(huán)境下基于K-means的用戶畫像與智能推薦的應(yīng)用

        李冰1,王悅1,劉永祥2

        (1.中國煙草總公司北京市公司,北京100122;2.浪潮軟件股份有限公司,濟(jì)南250000)

        0 引言

        2015年以來,中國煙草行業(yè)逐步開始進(jìn)行市場化取向改革。卷煙營銷市場化取向改革是以滿足消費(fèi)者需求為核心,以改革卷煙訂單采集方式為抓手,以營銷流程再造為重點(diǎn),保障零售客戶自主經(jīng)營權(quán),層層傳導(dǎo)市場力量,優(yōu)化營銷資源配置,促進(jìn)品牌優(yōu)勝劣汰,充分發(fā)揮改革乘數(shù)效應(yīng),全面增強(qiáng)行業(yè)整體競爭實(shí)力。

        截至2015年12月31日,煙草行業(yè)市場化已經(jīng)初見成效,基本實(shí)現(xiàn)了訂單采集集中化、業(yè)務(wù)流程標(biāo)準(zhǔn)化、營銷過程可視化,完成市場化改革的單位覆蓋卷煙市場容量1764萬箱,占全國卷煙銷量的35.4%,實(shí)現(xiàn)批發(fā)銷售收入5010億元,占全國卷煙銷售收入的35.2%,涉及零售客戶165萬戶,占全國正常經(jīng)營零售客戶總數(shù)的34%。

        隨著市場化改革范圍的擴(kuò)大和深入,原來計劃體制下的卷煙營銷方式逐漸難以滿足快速變化的市場需求。與此同時,隨著中國經(jīng)濟(jì)進(jìn)入“新常態(tài)”以及北京市人口疏解工作的不斷推進(jìn),北京市場的卷煙銷售壓力日益增加。因此北京煙草對如何準(zhǔn)確洞悉市場信息、把握卷煙消費(fèi)者和零售戶的需求從而實(shí)現(xiàn)精準(zhǔn)營銷提出了更高的要求。

        北京煙草經(jīng)過十?dāng)?shù)年信息化建設(shè),系統(tǒng)中存儲著接近十年的海量交易數(shù)據(jù)。如何充分利用這些海量數(shù)據(jù)資源、把大數(shù)據(jù)技術(shù)及互聯(lián)網(wǎng)企業(yè)的成功實(shí)踐經(jīng)驗(yàn)引入到北京煙草的信息化建設(shè)當(dāng)中并成為市場化取向改革的強(qiáng)大助力,已成為北京煙草當(dāng)前亟待解決的課題。本文實(shí)現(xiàn)了一種大數(shù)據(jù)技術(shù)的應(yīng)用,即通過采集歷史數(shù)據(jù)樣本,建立聚類模型對卷煙零售戶的特征進(jìn)行畫像,測算出零售戶屬性和卷煙屬性中的相關(guān)性,并基于這些結(jié)果在卷煙零售客戶訂貨時根據(jù)其特征推薦相關(guān)的卷煙產(chǎn)品。該方式一方面可以把市場中成熟的銷售經(jīng)驗(yàn)傳遞給新入網(wǎng)的零售戶,另一方面可以促進(jìn)北京煙草合理組織貨源,主動為零售戶提供了適銷對路的商品,提高市場營銷的準(zhǔn)確度。

        1 大數(shù)據(jù)技術(shù)與聚類算法

        1.1大數(shù)據(jù)技術(shù)簡介

        學(xué)界與工業(yè)界對于所謂的“大數(shù)據(jù)”并沒有一個統(tǒng)一的定義。如2011年McKinsey的研究報告[1]中將大數(shù)據(jù)定義為“超過了典型數(shù)據(jù)庫軟件工具捕獲、存儲、管理和分析數(shù)據(jù)能力的數(shù)據(jù)集”,而美國國家標(biāo)準(zhǔn)和技術(shù)研究院NIST認(rèn)為“大數(shù)據(jù)是指數(shù)據(jù)的容量、數(shù)據(jù)的獲取速度或者數(shù)據(jù)的表示限制了使用傳統(tǒng)關(guān)系方法對數(shù)據(jù)的分析處理能力,需要使用水平擴(kuò)展的機(jī)制以提高處理效率”[2]。隨著大數(shù)據(jù)技術(shù)的持續(xù)演進(jìn),其內(nèi)涵與外延也不斷得到發(fā)展,現(xiàn)在通常認(rèn)為“大數(shù)據(jù)”包含海量結(jié)構(gòu)化、半結(jié)構(gòu)化以及無結(jié)構(gòu)化數(shù)據(jù),因此大數(shù)據(jù)相關(guān)技術(shù)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比在處理非結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)化數(shù)據(jù)方面無論是在處理速度還是存儲容量上均有較大優(yōu)勢。

        大數(shù)據(jù)價值鏈可以分為四個階段:數(shù)據(jù)生成、數(shù)據(jù)獲取、數(shù)據(jù)存儲和數(shù)據(jù)分析[3]。其中“數(shù)據(jù)生成”的工作主要是由相關(guān)業(yè)務(wù)系統(tǒng)或設(shè)備來完成,因此目前主流大數(shù)據(jù)技術(shù)主要負(fù)責(zé)后三個階段的工作。其中Apache Software Foundation于2005年啟動的Hadoop項(xiàng)目最為引人關(guān)注[4]。Hadoop源自于對Google Map/Reduce和Google File System的開源模擬,也正是由于其開源特性,吸引了各國優(yōu)秀計算機(jī)專家與工程師投身其中,不斷對其豐富完善,現(xiàn)已發(fā)展為包含Spark和Storm等多個模塊在內(nèi)的既能實(shí)現(xiàn)離線大數(shù)據(jù)分析也能完成流式計算的主流大數(shù)據(jù)解決方案[5],并在各行業(yè)中均有落地。

        1.2聚類算法

        聚類分析是數(shù)據(jù)挖掘中的一種重要算法。聚類的目標(biāo)是在沒有任何先驗(yàn)知識的前提下,根據(jù)數(shù)據(jù)的相似性將數(shù)據(jù)聚合成不同的類(或簇),使得相同類中的元素盡可能相似,而不同類中的元素差別盡可能的大,因此又稱為非監(jiān)督分類(Unsupervised Classification)[6]。早在20世紀(jì)70年代,學(xué)界就對聚類算法有了比較深入的研究[7-8],聚類的方法包括統(tǒng)計學(xué)方法和機(jī)器學(xué)習(xí)方法。

        目前存在著多種聚類算法,其可以分為如下幾類:基于劃分的方法(Partitioning Method)、基于層次的方法 (Hierarchical Method)、基于密度的方法 (Density-Based)、基于網(wǎng)格的方法(Grid-Based)和基于模型的方法(Model-Based)等[9]。

        K-means算法由Mac Queen于1967年首先提出,該算法是目前為止在工業(yè)界和科學(xué)應(yīng)用中一種極有影響的聚類算法[10]。K-means是基于劃分的方法中的一種,是典型的基于原型的目標(biāo)函數(shù)聚類方法的代表[11]。K-means聚類的目標(biāo)就是在給定分類組數(shù)k(k≤n)值的條件下,通過聚類把樣本點(diǎn)按聚集程度分成若干個簇,在同一個簇內(nèi)具有較高的相似度,而在簇間的相似度較低。即對簇集合S={S1,S2,…,Sk},在數(shù)值模型上,對以下表達(dá)式求最小值,其中μi表示分類Si的平均值:

        具體算法流程如下:

        (1)從 n個數(shù)據(jù)對象任意選擇 k個對象作為初始聚類中心;

        (2)根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的相異度,將這些元素分別劃歸到相異度最低的簇;

        (3)重新計算每個(有變化)聚類的均值(中心對象);

        (4)循環(huán)(2)到(3)直到每個聚類不再發(fā)生變化為止;

        (5)輸出結(jié)果。

        通過每天的銷售記錄中的客戶編碼和卷煙編碼把客戶屬性和卷煙屬性關(guān)聯(lián)在一起組成一條記錄,獲取到擁有n條數(shù)據(jù)記錄的集合(x1,x2,…,xn),并且每個xi為d維的向量,即xi(xi1,xi2,…,xid),其中xi1~xid為客戶屬性和卷煙屬性。

        2 大數(shù)據(jù)環(huán)境下基于K-means的用戶畫像與商品智能推薦模型

        2.1大數(shù)據(jù)平臺技術(shù)架構(gòu)

        由于北京煙草現(xiàn)有信息系統(tǒng)中存儲了大量歷史交易數(shù)據(jù),因此使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫難以在可接受時間內(nèi)完成對海量數(shù)據(jù)的分析與處理。北京煙草與浪潮軟件股份有限公司共同搭建了基于Hadoop的大數(shù)據(jù)處理平臺,將原有數(shù)據(jù)中心的歷史數(shù)據(jù)保存到HDFS之中,并通過MapReduce/SPARK實(shí)現(xiàn)海量數(shù)據(jù)計算。

        2.2數(shù)據(jù)挖掘工具的選取

        本文中所采用的數(shù)據(jù)挖掘工具為WEKA。WEKA的全名是懷卡托智能分析環(huán)境 (Waikato Environment for Knowledge Analysis),WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。WEKA可以與基于Hadoop的大數(shù)據(jù)平臺相結(jié)合,實(shí)現(xiàn)較為完整的大數(shù)據(jù)分析解決方案。

        2.3基于K-means的用戶畫像

        整個畫像過程分為六個步驟,包括:

        (1)確定業(yè)務(wù)場景

        圖1 北京煙草大數(shù)據(jù)平臺技術(shù)架構(gòu)

        確定三個業(yè)務(wù)場景進(jìn)行試驗(yàn),三個業(yè)務(wù)場景分別為:場景1.挖掘特征客戶群對于卷煙品類的傾向性;場景2.挖掘特征客戶群對于產(chǎn)品類型的傾向性;場景3.挖掘特征客戶群對于產(chǎn)地類型的傾向性。

        (2)數(shù)據(jù)樣本獲取

        從數(shù)據(jù)中心系統(tǒng)數(shù)據(jù)庫中關(guān)聯(lián)客戶商品日銷售表、客戶表(通過客戶編碼關(guān)聯(lián))和卷煙表(通過卷煙編碼關(guān)聯(lián)),選取一個銷售周期的數(shù)據(jù),共獲得樣本數(shù)據(jù)690177條,把數(shù)據(jù)存為WEKA挖掘工具可用的csv格式,每條樣本數(shù)據(jù)的字段列如下:

        表1 銷售數(shù)據(jù)字段列表

        (3)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理分為兩步,第一步把樣本中數(shù)字編碼處理成字符編碼,因?yàn)橥诰蚬ぞ邥堰@些數(shù)字分類編碼當(dāng)成數(shù)值來處理,從而影響挖掘結(jié)果。需要處理的字段列包括:區(qū)域類型、經(jīng)營規(guī)模、結(jié)算方式、訂貨方式、是否終端、價類、產(chǎn)地類別、品類、包裝類型。第二步需要在WEKA預(yù)處理界面中打開樣本數(shù)據(jù)集,剔出掉CUST_CODE列。

        (4)算法選擇

        選擇聚類算法K-means,依據(jù)Within cluster sum of squared errors值的大小 (越小越好)經(jīng)過多次調(diào)試,把算法參數(shù)seed(隨機(jī)種子數(shù))設(shè)為100。

        (5)調(diào)試

        依次進(jìn)行業(yè)務(wù)場景調(diào)試,初始時選擇所有客戶屬性和與場景對應(yīng)的卷煙屬性進(jìn)行挖掘,依據(jù)Within cluster sum of squared errors值的大小以及生成的簇間關(guān)系進(jìn)行調(diào)整,調(diào)整內(nèi)容包括忽略掉某個客戶屬性(去掉無效列)、調(diào)整預(yù)生成簇的個數(shù)和調(diào)整seed。

        (6)結(jié)果分析

        經(jīng)過調(diào)試,最終確認(rèn)的各個場景的結(jié)果如下:

        場景1:挖掘特征客戶群對于卷煙品類的傾向性。

        零售客戶特征選擇:業(yè)態(tài) (對應(yīng)BASE_TYPE_ CODE)、經(jīng)營規(guī)模(對應(yīng)SALE_SCALE_CODE)、月均訂貨量檔次(對應(yīng)SALE_SCALE_KIND_CODE);

        卷煙屬性設(shè)定為卷煙品類 (對應(yīng)CATEGORY_ CODE)。

        聚類后,生成特征客戶群,簇0和簇1。其中簇0的特征為:業(yè)態(tài)為食雜店(標(biāo)識為:‘Z')的、經(jīng)營規(guī)模為中的(標(biāo)識為:‘2')、月均訂貨量在251-500條的(標(biāo)識為:‘A3')零售客戶傾向于訂購卷煙零售價在65(含)-105之間的(標(biāo)識為:‘C08')卷煙;簇1的特征為:業(yè)態(tài)為便利店(標(biāo)識為:‘B')的、經(jīng)營規(guī)模為中的(標(biāo)識為:‘2')月均訂貨量在101-250條的(標(biāo)識為:‘A2')零售客戶傾向于訂購卷煙零售價在200(含)-260元的(標(biāo)識為:‘C05')卷煙。

        場景2:挖掘特征客戶群對于產(chǎn)品類型的傾向性。

        零售客戶特征選擇:業(yè)態(tài) (對應(yīng)BASE_TYPE_ CODE)、市場類型(對應(yīng)MARKET_TYPE_CODE)、區(qū)域類型 (對應(yīng)AREA_TYPE_CODE)、經(jīng)營規(guī)模 (對應(yīng)SALE_SCALE_CODE);

        卷煙屬性設(shè)定為產(chǎn)品類型(對應(yīng) ITEM_ TYPE_CODE)。

        聚類后,生成特征客戶群,簇0、簇1和簇2。其中簇0的特征為:業(yè)態(tài)為食雜店(標(biāo)識為:‘Z')的、市場類型為城市的(標(biāo)識為:‘C')、區(qū)域類型為學(xué)區(qū)的(標(biāo)識為:‘A03')、經(jīng)營規(guī)模為中的(標(biāo)識為:‘S2')零售客戶傾向于訂購烤煙型(標(biāo)識為:‘IT1')卷煙;簇1的特征為:業(yè)態(tài)為便利店(標(biāo)識為:‘B')的、市場類型為城市的(標(biāo)識為:‘C')、區(qū)域類型為工業(yè)區(qū)的(標(biāo)識為:‘A02')、經(jīng)營規(guī)模為中的(標(biāo)識為:‘S2')零售客戶傾向于訂購混合型(標(biāo)識為:‘IT2')卷煙;簇2的特征為:業(yè)態(tài)為食雜店(標(biāo)識為:‘Z')的、市場類型為鄉(xiāng)村的(標(biāo)識為:‘'X')、區(qū)域類型為學(xué)區(qū)的(標(biāo)識為:‘A03')經(jīng)營規(guī)模為大的(標(biāo)識為:‘S1')零售客戶傾向于訂購烤煙型(標(biāo)識為:‘IT1')卷煙。

        場景3:挖掘特征客戶群對于產(chǎn)地類型的傾向性。

        零售客戶特征選擇:業(yè)態(tài) (對應(yīng)BASE_TYPE_ CODE)、市場類型(對應(yīng)MARKET_TYPE_CODE)、月均訂貨量檔次(對應(yīng)SALE_SCALE_KIND_CODE);

        卷煙屬性設(shè)定為產(chǎn)地類別(對應(yīng)MFR_TYPE)。

        聚類后,生成特征客戶群,簇0、簇1和簇2。其中簇0的特征為:業(yè)態(tài)為食雜店(標(biāo)識為:‘Z')的、市場類型為城市的(標(biāo)識為:‘C')、月均訂貨量在251-500條的(標(biāo)識為:‘A3')零售客戶傾向于訂購省外(標(biāo)識為:‘M1')卷煙;簇1的特征為:業(yè)態(tài)為食雜店(標(biāo)識為:‘Z')的、市場類型為城市的(標(biāo)識為:‘'X')、月均訂貨量在101-250條的(標(biāo)識為:‘A2')零售客戶傾向于訂購省外(標(biāo)識為:‘M1')卷煙;簇2的特征為:業(yè)態(tài)為便利店(標(biāo)識為:‘B')的、市場類型為城市的(標(biāo)識為:‘'C')、月均訂貨量在101-250條的(標(biāo)識為:‘A2')零售客戶傾向于訂購省內(nèi)(標(biāo)識為:‘M0')卷煙。

        2.4商品智能推薦模型

        在完成零售戶畫像的基礎(chǔ)之上,在零售客戶網(wǎng)上訂煙平臺新商盟網(wǎng)站應(yīng)用數(shù)據(jù)挖掘的結(jié)果,對符合特征的客戶推薦對應(yīng)特征的卷煙商品。例如向業(yè)態(tài)為食雜店的、市場類型為城市的、區(qū)域類型為學(xué)區(qū)的、經(jīng)營規(guī)模為中的零售客戶推薦烤煙型卷煙。

        3 結(jié)語

        本文基于大數(shù)據(jù)技術(shù)采用K-means實(shí)現(xiàn)了用戶畫像與智能推薦,為北京煙草市場化取向改革的進(jìn)一步推進(jìn)提供了新的思路和方法。但由于本方案是基于零售客戶的歷史訂貨數(shù)據(jù)而不是從周邊區(qū)域消費(fèi)者角度分析各類特征,如區(qū)域人口分布、性別比、消費(fèi)能力等,因此零售戶畫像以及在此基礎(chǔ)上實(shí)現(xiàn)的智能推薦在準(zhǔn)確度上尚有不足,需要進(jìn)一步改進(jìn)。

        [1]Manyika J,Chui M,Brown B,et al.Big Data:the Next Frontier for Innovation,Competition,and Productivity.McKinsey Global Institute,2011

        [2]Cooper M,Mell P.Tackling Big Data.NIST,2012

        [3]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,第45卷 第一期:1-44

        [4]http://hadoop.apache.org/

        [5]趙晟,姜進(jìn)磊.典型大數(shù)據(jù)計算框架分析[J].中興通訊技術(shù).2016.4

        [6]陳麗.數(shù)據(jù)挖掘中聚類算法研究[D].2007

        [7]Bijne ET.Cluster analysis[M].Netherlands:Tiberg University Press,1973

        [8]Everitt B.Cluster analysis[M].London:Heinemann Educational Books Ltd.,1974

        [9]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰等譯.北京:機(jī)械工業(yè)出版社,2001

        [10]J.B.MacQueen.Some Methods for classification and Analysis of Multivariate Observations.Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,University of California Press,1:281-297

        Big Data;Intelligent Recommendation;Clustering

        Application of User Portrait and Intelligent Recommendation Based on Big Data Technology and K-means

        LI Bing1,WANG Yue1,LIU Yong-xiang2
        (1.China National Tobacco Corp.Beijing Corp.,Beijing 100122;2.INSPUR Co.,Ltd.,Jinan250000)

        1007-1423(2016)24-0011-05DOI:10.3969/j.issn.1007-1423.2016.24.03

        李冰(1984-),男,北京市人,博士,工程師,研究方向?yàn)樵朴嬎闩c大數(shù)據(jù)

        王悅(1986-),男,北京人,本科,工程師,研究方向?yàn)橄到y(tǒng)集成與大規(guī)模分布式系統(tǒng)

        劉永祥(1974-),男,湖南人,本科,高級工程師,研究方向?yàn)闊煵輸?shù)據(jù)分析

        2016-08-15

        2016-08-20

        隨著中國煙草行業(yè)市場化取向改革日益深入以及計算機(jī)技術(shù)的快速發(fā)展,如何利用新技術(shù)更準(zhǔn)確地洞察市場、了解卷煙零售客戶銷售特征、針對性的為零售戶提供適銷對路的卷煙商品成為行業(yè)內(nèi)所共同關(guān)注的問題。探索一種基于大數(shù)據(jù)技術(shù)及K-means算法的卷煙零售戶特征畫像,并在此基礎(chǔ)上實(shí)現(xiàn)對零售戶訂貨的智能推薦。

        大數(shù)據(jù);智能推薦;聚類

        With the proceeding of China tobacco industry market oriented reform and the development of computing technology,departments of tobacco sales and marketing pay more and more attention to how to use new techniques to obtain accurate information of the market,understanding the sales characteristics of tobacco retailer and provide marketable tobacco goods for the retailer.Explores a kind of tobacco retailer user portrait based on Big Data technology and K-means clustering algorithm,and provides the application of intelligent recommendation for tobacco ordering.

        猜你喜歡
        特征
        抓住特征巧觀察
        離散型隨機(jī)變量的分布列與數(shù)字特征
        具有兩個P’維非線性不可約特征標(biāo)的非可解群
        月震特征及與地震的對比
        如何表達(dá)“特征”
        被k(2≤k≤16)整除的正整數(shù)的特征
        不忠誠的四個特征
        詈語的文化蘊(yùn)含與現(xiàn)代特征
        新聞傳播(2018年11期)2018-08-29 08:15:24
        抓住特征巧觀察
        基于特征篩選的模型選擇
        精品在线视频免费在线观看视频| 人妻无码一区二区三区四区| 亚洲AⅤ无码日韩AV中文AV伦| 青青手机在线视频观看| 亚洲国产精品情侣视频| 吃奶呻吟打开双腿做受视频| 极品美女扒开粉嫩小泬| 99RE6在线观看国产精品| av在线免费观看男人天堂| 亚洲中文字幕无码不卡电影 | 丁香婷婷在线成人播放视频| 色综合色狠狠天天综合色| 欧洲综合色| 精品一区二区三区女同免费| 亚洲一区二区三区乱码在线中国| 熟女精品视频一区二区三区| 亚洲中文字幕无码二区在线| 国产免费一区二区三区三| 亚洲乱码无人区卡1卡2卡3| 国产96在线 | 欧美| 国产精品麻豆A啊在线观看| 国产精品成人一区二区在线不卡| 亚洲国产日韩欧美综合a| 国语对白做受xxxxx在线中国| 97久久综合区小说区图片区| 麻豆精品一区二区三区| 男人进去女人爽免费视频| 久久精品这里只有精品| 日本成年少妇人妻中文字幕| 天堂网av在线| 国产三级精品三级男人的天堂| 国产无吗一区二区三区在线欢| 国产国产人精品视频69| 大屁股流白浆一区二区| 大奶白浆视频在线观看| 无码粉嫩虎白一线天在线观看| 成人无码a级毛片免费| 精品中文字幕在线不卡| 97人妻精品一区二区三区 | 精品一区二区三区免费爱| 亚洲熟妇av一区二区三区hd|