四川大學(xué) 霍葉青 何躍
在激烈的市場競爭中,只有掌握卷煙消費(fèi)群體的特征,才能立于不敗之地。信息是決策的基礎(chǔ),通過市場調(diào)查,可以獲得大量的信息。通過對調(diào)查得到的卷煙市場中的消費(fèi)群體的數(shù)據(jù)進(jìn)行聚類分析,可歸納出有利于提高卷煙的生產(chǎn)和銷售的信息。
聚類分析是數(shù)據(jù)挖掘領(lǐng)域中的核心技術(shù)之一,聚類分析處理的數(shù)據(jù)對象的類是未知的,把數(shù)據(jù)按照相似性歸納成若干類別。它是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對象之間所存在的有價(jià)值的數(shù)據(jù)分布模式,實(shí)現(xiàn)在同一聚類之間的樣本差異最小化,而在不同聚類樣本之間的差異最大化的一種挖掘技術(shù)[1]。
文章使用K-均值聚類方法進(jìn)行分析,對四川省2007年卷煙市場數(shù)據(jù)進(jìn)行研究,找出其中的群體規(guī)則。
聚類分析是根據(jù)一定的分類規(guī)則,劃分記錄集合,確定每個(gè)記錄所在類別。使得同一類別中,個(gè)體之間差距較小,不同類別中,個(gè)體之間的差距較大的一種挖掘技術(shù)。聚類技術(shù)能把不同格式的數(shù)據(jù)快速分簇,其中主要有K-均值聚類方法。
K-均值聚類方法是一種在無類標(biāo)號數(shù)據(jù)中發(fā)現(xiàn)簇和簇中心的方法,通過迭代把對象劃分到不同的簇中,以求目標(biāo)函數(shù)最小化,使生成的簇盡可能地緊湊和獨(dú)立[2]。
設(shè)需分析的樣本為Xi,i = 1,2 …,N。給定一組初始中心Ck,k=l,2 …,K。初始中心可以是從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇的個(gè)體。K-均值算法交替執(zhí)行的步驟:
(1)對每個(gè)樣本Xi,找出離它最近的中心點(diǎn)( 簇):
(2)計(jì)算每個(gè)簇中數(shù)據(jù)點(diǎn)的均值,并且該均值向量成為該簇新的中心:
其中nk為第 k簇包含的樣本數(shù)。
四川省2007年卷煙市場數(shù)據(jù)來源是四川省卷煙市場調(diào)查問卷數(shù)據(jù)。在四川省境內(nèi)不同地州市共發(fā)出4000份調(diào)查問卷,收回2730份有效問卷。數(shù)據(jù)分析利用SPSS軟件來進(jìn)行,在分析中用到的被調(diào)查者的基本信息包括被訪者的年齡、受教育程度、被訪者的月收入和家庭收入;用到的調(diào)查問題有常吸的卷煙產(chǎn)品的價(jià)格、最常吸的品牌、選購自己吸的卷煙時(shí)決定購買影響最大的因素、用于送禮和應(yīng)酬的卷煙時(shí)決定購買影響最大的因素。被訪者回答問題時(shí),答案是用1、2、3等來表示的,如受教育程度這個(gè)問題:(1)表示沒受過正式教育,(2)表示小學(xué),(3)表示初中,(4)表示高中,(5)表示中專/技校/職高,6表示大專,7表示大學(xué)或以上程度。其它問題類似。
應(yīng)用1是通過對用戶的基本信息數(shù)據(jù)和被訪者常吸的卷煙產(chǎn)品的價(jià)格、最常吸的品牌的數(shù)據(jù)進(jìn)行的聚類分析,該聚類定義為4個(gè)類中心[3],其最后聚類中心和每個(gè)聚類中的案例數(shù)如表1所示。
由表1可知:被訪者的年齡的四個(gè)聚類中心都為36-40歲,說明這個(gè)年齡段的吸煙者較多,并且受教育程度大都為高中、中專/技校/職高。隨著被訪者月收入和家庭月收入的增加,用戶購買的卷煙產(chǎn)品的價(jià)格也隨之升高,說明隨著人們生活水平的提高,對香煙的要求也隨之提高,卷煙廠為了吸引更多高收入的客戶群體,需要從提高香煙的品質(zhì)、包裝等多方面來提升香煙的價(jià)位。
表1 最終聚類中心和案例數(shù)
表2 最終聚類中心和案例數(shù)
表3 最終聚類中心和案例數(shù)
第二類的人數(shù)最多,達(dá)到1159個(gè),說明購買4.01~5元價(jià)位的人最多,而4.01~5元價(jià)位中購買軟紅梅的人最多。從第一類看出,購買6.01~7.00元價(jià)位的人數(shù)次之,其中主要是購買阿詩瑪。第四類也可以看出,購買15.01~20.00元價(jià)位的人數(shù)最少,其中蓋紅河88是比較受歡迎的。而第三類8.01~10.00元價(jià)位中較偏愛軟紅河88,由此可知,軟紅梅、阿詩瑪、軟紅河88和蓋紅河88是用戶喜歡的卷煙產(chǎn)品,卷煙廠需要大量生產(chǎn)這幾種煙來增加銷售量。
應(yīng)用2是通過對用戶的基本信息數(shù)據(jù)和選購自己吸的卷煙時(shí)購買影響最大的因素的數(shù)據(jù)進(jìn)行的聚類分析,該聚類也定義為4個(gè)類中心[3],其最后聚類中心和每個(gè)聚類中的案例數(shù)如表2所示。
由表2可知:第一類消費(fèi)者在選購自己吸的卷煙時(shí)決定購買影響最大的因素是自己習(xí)慣的因素,第二類是價(jià)格合適,第三類是煙味清淡、醇和、不燥,而第四類是追求新鮮,嘗試新口味。第一類到第四類的綜合收入水平是依次升高的,可見隨著收入水平的增加,用戶對香煙的要求也是依次變高的,這也再次說明卷煙廠為了吸引更多高收入的客戶群體,需要從提高香煙的品質(zhì)、包裝等多方面來考慮。
并且從表中也可以看出,隨著年齡的降低,對香煙的要求也在變高,年齡大的用戶喜歡買自己已經(jīng)習(xí)慣了的牌子,而年輕人更喜歡嘗試新的品種,所以當(dāng)卷煙廠有新的卷煙生產(chǎn)出來的時(shí)候,應(yīng)通過一些宣傳手段重點(diǎn)向年輕人宣傳新的卷煙產(chǎn)品。
應(yīng)用3通過對用戶的基本信息數(shù)據(jù)和用于送禮和應(yīng)酬的卷煙時(shí)決定購買影響最大的因素的數(shù)據(jù)進(jìn)行的聚類分析,該聚類也定義為4個(gè)類中心,其最后聚類中心和每個(gè)聚類中的案例數(shù)如表3所示。
由表3可知:第一類和第三類用戶在用于送禮和應(yīng)酬的卷煙時(shí)決定購買影響最大的因素是品牌名氣大的香煙,所以卷煙廠應(yīng)該通過電視廣告、報(bào)刊廣告或者網(wǎng)絡(luò)等等手段來增加卷煙的知名度,第二類用戶認(rèn)為體現(xiàn)身份最重要,所以卷煙廠應(yīng)該通過考慮卷煙的包裝等可以體現(xiàn)身份的做法,而第四類用戶認(rèn)為符合現(xiàn)代潮流最重要,所以卷煙廠可以在包裝上規(guī)劃可以展示潮流的圖畫等等,來提高卷煙的銷售量。
文章采用了數(shù)據(jù)挖掘方法研究四川省卷煙市場數(shù)據(jù),在SPSS中運(yùn)用K-均值聚類方法進(jìn)行分析,旨在通過采用數(shù)理統(tǒng)計(jì)技術(shù)和相關(guān)統(tǒng)計(jì)學(xué)工具,對調(diào)查到的卷煙用戶的數(shù)據(jù)進(jìn)行深度分析和處理。從紛繁復(fù)雜的數(shù)據(jù)中找出客戶消費(fèi)行為的本質(zhì)特征,從而有針對性地制定營銷策略,對卷煙廠的生產(chǎn)和銷售策略有較強(qiáng)的指導(dǎo)意義。
[1]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國人民大學(xué)出版社,1998.
[2]趙躍,余詩武.基于Web內(nèi)容挖掘技術(shù)的應(yīng)用研究[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2008,18(36):122~123.
[3]郭秀娟,戰(zhàn)冬梅.K—means聚類算法分析及在教師授課質(zhì)量評價(jià)中的應(yīng)用[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2009,6(25):74~77.