[摘要] 本文主要從商品銷售的同周期或近期銷售的海量數(shù)據(jù)出發(fā),把每一條購買記錄做為一個事物,構成事務數(shù)據(jù)庫,給定一個頻率闕值,利用Apriori算法或改進算法,求出事物數(shù)據(jù)庫的頻繁項集,在頻繁項集中,一方面可以統(tǒng)計出頻率高的商品,進而可以對這些商品銷售做出相應策略;另一方面,筆者又對頻繁項集構成的商品樣本集合進行歸類,為決策者提供商品銷售周期短的一些分類商品數(shù)據(jù)。
[關健詞] 商品銷售 頻繁項集 Apriori算法
在商品銷售理論中的著名“自然選擇論”,是以達爾文的“適者生存”為基礎的,認為商品銷售的發(fā)展必須與社會環(huán)境相適應,只有那些能夠適應消費者需求,適應社會、文化和法律環(huán)境變化的銷售商才能生存下來。
一、引言
市場之所以可以被預測,是因為人們通過長期的認識,積累起豐富的經(jīng)驗和知識,可以逐步了解市場變化規(guī)律;然后,憑借各種先進的科學手段,根據(jù)市場發(fā)展歷史和現(xiàn)狀,推演市場發(fā)展的趨勢,做出相應的估計和推測。盡管市場瞬息萬變,但這種發(fā)展變化在長期的過程中也存在一些規(guī)律性(如競爭規(guī)律、價值規(guī)律等),可以被人們所認識。任何事物都不可能孤立存在,都是與周圍的各種事物相互制約、相互促進的;許多事物相互之間在結構、模式、性質、發(fā)展趨勢等方面客觀存在著相似之處。根據(jù)這種相似性,人們可以在已知某一事物的發(fā)展變化情況的基礎上,通過類推的方法推演出相似事物未來可能的發(fā)展趨勢。
本文從零售商品銷售的記錄出發(fā),把每一條用戶購買的商品記錄作為一個事務,將一連續(xù)的時間(時間區(qū)段可由具體商品系列而定)段的記錄作為事務數(shù)據(jù)庫,利用Apriori的算法或改進算法找出頻繁項集的集合L。一方面由頻繁項集的每個事務可以確定客戶購買的商品的組合,以實現(xiàn)“購物藍”預測(筆者在其它地方討論);另一方面本文主要討論將頻繁項集的商品做為樣品并入到同一個樣品庫K中(重復的去掉),用聚類的k中心點算法將K分成k個小類。給定一個距離闕值,利用距離函數(shù)將總商品全域M中的商品分成k(去掉距中心點距離超過闕值的商品)個大類,本模型比較適合于流動人口購買力弱的商業(yè)環(huán)境。
二、使用事務數(shù)據(jù)庫求頻繁項集L
顧客購買的商品在收款機打印出的一張票的全部商品的集合定義為一個事務,它作為一條記錄存儲到事務數(shù)據(jù)庫中。一個事務內的一件商品定義為一個項,項的集合稱為項集,包含k項的集合稱為k-項集。把事物數(shù)據(jù)庫做為候選項集找頻繁項集的最有代表性的算法是Aprior算法,近幾年該算法不斷有人優(yōu)化和改進,如N.Pasquier等提出了用于挖掘頻繁閉項集的算法,優(yōu)化了Apriori算法;M.J.Zaki等提出的基于內存的頻繁閉項集的CHARM算法等。我們可以利用上述算法在事務數(shù)據(jù)庫找出頻繁項集的集合L。
三、商品分類的定義及關鍵技術
1.商品的向量化表示
商品可以采用向量空間模型,其出發(fā)點是:每個商品都包含一些用概念詞表達的揭示其內容的獨立屬性或者有些商品還標有其各種原料的組成成份及百分比,而每個屬性都可以看成是概念空間的一個維數(shù),這些獨立屬性稱為商品特征項(常見的特征項類型有名稱、組成成份、短語描述等,現(xiàn)有的研究認為以詞為單位來進行處理比較合理) ,則商品就可以表示為這些特征項的集合。因此商品就可以表示成形如d =(t1,w1;t2,w2;……tn,wn),其中ti為特征項, wi為其對應的權重(在商品組成成分中可以看做所占百分比)。權重值大的特征項對區(qū)別商品具有重要的意義。如酒類商品中的酒精度,糖類商品中的糖份,衣服商品類中的面料、做工、品牌、式樣。
2.特征抽取與選擇
特征抽取一般是通過構造一個特征評分函數(shù),把測量空間的數(shù)據(jù)投影到特征空間,得到在特征空間的值,然后根據(jù)特征空間中的值對每個特征進行評估,它可以看作是從測量空間到特征空間的一種映射或變換。特征選擇就是根據(jù)特征評估結果從中選出最優(yōu)的且最有代表性的特征子集作為該類的類別特征。因此,特征提取與選擇是訓練集中商品共性與規(guī)則的歸納過程,是商品分類中最關鍵的問題,它可以降低特征空間的維數(shù),從而達到降低計算復雜度和提高分類準確率的目的。
常用的特征評分函數(shù)有:互信息、信息增益、期望交叉熵等等,大量的研究表明采用互信息算法效果明顯優(yōu)于其它算法?;バ畔⑹墙y(tǒng)計學和信息論中一個重要的概念,它表征了兩個統(tǒng)計量間相互關聯(lián)的程度,關聯(lián)程度越高,互信息越大,反之亦然。
3.商品分類的方法
基于向量空間模型的分類方法有類中心分類法,貝葉斯算法、KNN 算法和神經(jīng)網(wǎng)絡算法等。其中類中心分類法應用地比較廣泛,在向量空間模型中,我們把商品和類別都表示為空間中的一個點向量,商品向量和類別向量之間就存在空間上的距離遠近,而這種距離就可以采用向量間夾角的余弦來度量,定義如下:
(1)
其中d=(d1,d2,…,dn)為商品d的特征向量, c=(c1,c2,…,cn) 為類別特征向量,即用兩個向量之間的夾角的余弦來表示商品與類別之間的相似度,夾角越小,距離越近,余弦越大,相似度越大,反之相似度越小。計算出商品與所有類別的相似度后,將其歸入相似度值最大的類別中。本文中我們將以此方法的分類結果為基準,進行研究商品分類方法。
四、頻繁項集L的分類方法
將頻繁集L中的所有商品組合成一個商品樣品庫進行分類,一般來說類中心分類法簡單直觀,但對于類別界限不明顯時,該方法性能不高。KNN算法的較好,該算法的基本思路是:在給定新商品后,選定在訓練集中與該新商品距離最近(最相似) 的k個商品,根據(jù)這k個商品所屬的類別判定新商品所屬的類別。距離判別一般也采用向量間夾角的余弦來度量,具體定義如公式(1)。如果有多個商品同屬于一個類,則該類的權重為這些相似度之和。在新商品的k 個鄰居中,依次計算每類的權重,計算公式如下:
(2)
其中d為新商品的特征向量,SC(d,di)為相似度計算公式,而y(di,Cj)為類別屬性函數(shù),即如果di屬于類Cj,那么函數(shù)值為1,否則為0。最后比較類的權重并進行排序,將商品分到權重最大的那個類別中。這里k值的確定目前沒有很好的方法,一般采用先定一個初始值,然后根據(jù)實驗測試的結果調整k值。詳細算法如下:
1.對待分類商品進行預處理和商品向量化處理;
2.采用類中心分類法對新商品進行粗分類,依次計算該商品與各類別的相似度;
3.若相似度結果排序的前幾位相差較大,則將其歸入相似度值最高的類別中;
4.若類別相似度值很接近,滿足一定的范圍條件時,則在這幾個相近類別的訓練集中采用KNN 算法來進行細分類。
五、結論
任何一家商業(yè)市場不可能處于完全市場中,在市場信息不對稱的情況下,大量的經(jīng)濟信息借助市場迅速傳遞和反遺,具有極強的時效性。一旦商業(yè)決策者對需求信息把握有差異,將會帶來災難性的后果。商業(yè)銷售的周期性特別強,因此對同時期或近期大量銷售數(shù)據(jù)做進一步全面、系統(tǒng)分類、整理、研究和評估,經(jīng)過去粗取精,去偽存真的篩選活動后,提煉出可使用的市場信息。本文利用數(shù)據(jù)挖掘的先進技術,對商場銷售的海量數(shù)據(jù)進行了分析,給出了同周期內或近期顧客購買力的需求,為決策者提供了科學依據(jù)。筆者下一步的工作是在商品分類的基礎上給出商品購買顧客的消費水平,以待為新商品上市提供科學數(shù)據(jù)。
參考文獻:
[1]Jiawei Han等著范明等譯:數(shù)據(jù)挖掘概念與技術.機械工業(yè)出版社,2007.3
[2]朱光喜吳偉民:一種基于前綴樹的頻繁模式挖掘算法.計算機科學,2005(4):34~36
[3]路松峰等盧正鼎:快速開采最大頻繁項目集.軟件學報,2001,12(2):293~289頁
[4]周欽亮李玉忱:公愛國.一種新的高效生成FP-tree條件模式的算法.計算機應用,2006,26(6):1418~1422
[5]黃萱菁吳立德等:獨立于語種的文本分類方法[J].中文信息學報,2000,14(6):1~7
[6]秦進陳芙蓉等:文本分類中的特征抽取[J].計算機應用,2003,23(2):45~46
[7]Yiming Yang,An evaluation of statistical approaches to text categorization[J].In:Journal of Information Retrieval ,1999,1(2):67~ 88
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。