楊 勇
(紅云紅河集團(tuán)昆明卷煙廠,云南 昆明 650000)
煙草行業(yè)是我國國民經(jīng)濟(jì)的重要支柱產(chǎn)業(yè)之一,為國家建設(shè)和社會發(fā)展提供了重要的支撐和保障作用。對煙草企業(yè)來說,每年有大量的生產(chǎn)、銷售數(shù)據(jù)可供參考和研究,如何利用現(xiàn)有的煙草信息資源來挖掘和掌握市場規(guī)律和消費(fèi)特性,是煙草企業(yè)信息化建設(shè)的重要內(nèi)容之一。目前,市場狀態(tài)瞬息萬變,相關(guān)信息和數(shù)據(jù)也是大規(guī)模的、動態(tài)的、連續(xù)變化的,傳統(tǒng)統(tǒng)計(jì)分析方法已經(jīng)很難滿足現(xiàn)實(shí)需要;而大多數(shù)生產(chǎn)數(shù)據(jù)、銷售信息、消費(fèi)行為的多維屬性尤為明顯。因此,通過多維規(guī)則挖掘算法對卷煙生產(chǎn)、銷售數(shù)據(jù)進(jìn)行分析和探索,運(yùn)用數(shù)字化、信息化方式幫助煙草企業(yè)實(shí)現(xiàn)高質(zhì)量發(fā)展,打造以大數(shù)據(jù)為核心驅(qū)動要素的產(chǎn)業(yè)體系,為高質(zhì)量發(fā)展提供有力支撐,做到精準(zhǔn)規(guī)劃、精準(zhǔn)發(fā)力、精準(zhǔn)營銷。
數(shù)據(jù)挖掘(Data Mining)[1]定義是由U.M.Fayyad等人提出的:它是從大型數(shù)據(jù)集中提取出人們感興趣的知識(這些數(shù)據(jù)集可能是不完全的、有噪聲的、不確定的、各種形式存儲的),這些知識是先前未知的、對決策有潛在價(jià)值的且是隱含的,數(shù)據(jù)挖掘所提取的知識常用概念、規(guī)則、規(guī)律和模式等形式進(jìn)行表示。簡單來說,數(shù)據(jù)挖掘就是指從大型復(fù)雜數(shù)據(jù)中提取和挖掘知識,以滿足人們某些實(shí)際應(yīng)用需求。
一個(gè)典型的數(shù)據(jù)挖掘過程應(yīng)該包括7個(gè)步驟[2],如圖1所示。
圖1 數(shù)據(jù)挖掘的主要過程
定義1[1]數(shù)據(jù)項(xiàng)與數(shù)據(jù)集:設(shè)I={i1,i2,……,im}是m個(gè)不同的項(xiàng)目集合,每一個(gè)ik(k=1,2,……,m)稱為數(shù)據(jù)項(xiàng)(Item),數(shù)據(jù)項(xiàng)的集合I稱為數(shù)據(jù)項(xiàng)集(Item set),簡稱為項(xiàng)集,項(xiàng)個(gè)數(shù)稱為數(shù)據(jù)項(xiàng)集的長度。長度為k的數(shù)據(jù)項(xiàng)集稱為k維數(shù)據(jù)項(xiàng)集,簡稱為k-項(xiàng)集(k-Item set)。
定義2事務(wù):事務(wù)T(Transaction)是數(shù)據(jù)項(xiàng)集I上的一個(gè)子集,表示為TI。每個(gè)事務(wù)均通過唯一的標(biāo)識符TID與之相聯(lián),不同事務(wù)全集構(gòu)成全體事務(wù)集D(或事務(wù)數(shù)據(jù)庫)。
定義3數(shù)據(jù)項(xiàng)集的支持度:設(shè)X為項(xiàng)集,B為數(shù)據(jù)庫D中包含X的數(shù)量,A為數(shù)據(jù)庫D中包含的所有事務(wù)的數(shù)量,則數(shù)據(jù)項(xiàng)集X的支持度(Support)為:
項(xiàng)集X的支持度Support(X)表示項(xiàng)集X的出現(xiàn)次數(shù)在事務(wù)數(shù)據(jù)庫中所占的比例。
定義4關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則可以表示為R:X→Y,其中X?I,Y?I,且X∩Y=?,它表示如果項(xiàng)集X在某一事務(wù)中出現(xiàn),必然會導(dǎo)致項(xiàng)集Y也會在同一事務(wù)中出現(xiàn)。X稱為規(guī)則的先決條件(前項(xiàng)),Y稱為規(guī)則的結(jié)果(后項(xiàng))。
定義5關(guān)聯(lián)規(guī)則的支持度:對于關(guān)聯(lián)規(guī)則R:X→Y,其中X?I,Y?I,且X∩Y=?。規(guī)則R的支持度是指數(shù)據(jù)庫D中同時(shí)包含項(xiàng)集X和項(xiàng)集Y的數(shù)量與所有項(xiàng)集數(shù)量之比。
定義6關(guān)聯(lián)規(guī)則的置信度:對于關(guān)聯(lián)規(guī)則R:X→Y,其中X?I,Y?I,且X∩Y=?。規(guī)則R的置信度(Confidence)表示為:
即指數(shù)據(jù)庫D中出現(xiàn)項(xiàng)集X的時(shí)候,項(xiàng)集Y也同時(shí)出現(xiàn)的概率。
定義7最小支持度和頻繁項(xiàng)集最小支持度(Minimum support):表示事先規(guī)定的發(fā)現(xiàn)關(guān)聯(lián)規(guī)則時(shí)數(shù)據(jù)項(xiàng)必須滿足的最小支持閾值,它表示數(shù)據(jù)項(xiàng)集在某種意義下的最低重要性或者重復(fù)性,記為min_sup。當(dāng)滿足最小支持度的時(shí)候,項(xiàng)集才可能出現(xiàn)在關(guān)聯(lián)規(guī)則中,支持度大于最小支持度的數(shù)據(jù)項(xiàng)集稱為頻繁項(xiàng)集或者強(qiáng)項(xiàng)集(Large item set);小于最小支持度的項(xiàng)集稱為非頻繁項(xiàng)集或者弱項(xiàng)集(Small item set)。
定義8最小置信度:最小置信度(Minimum confidence)表示關(guān)聯(lián)規(guī)則必須滿足的最小可信度,記為min_conf,它表示關(guān)聯(lián)規(guī)則的最低可信任性和可靠性。
定義9強(qiáng)關(guān)聯(lián)規(guī)則:如果Support(R)≥min_sup且Confidence(R)≥min_conf,則稱關(guān)聯(lián)規(guī)則R:X→Y,為強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘主要包括以下2個(gè)步驟:
第一步,發(fā)現(xiàn)頻繁項(xiàng)集(Frequent Item set):找出所有支持度大于或等于最小支持度的項(xiàng)集(Item set)或者屬性集。
第二步,生成關(guān)聯(lián)規(guī)則(Rules):通過頻繁項(xiàng)集找到那些置信度大于最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則挖掘的基本工作流程如圖2所示。
圖2 關(guān)聯(lián)規(guī)則挖掘的基本流程
多維關(guān)聯(lián)規(guī)則是指數(shù)據(jù)挖掘過程中涉及到多個(gè)謂詞或者多個(gè)屬性的關(guān)聯(lián)規(guī)則挖掘,這是根據(jù)關(guān)聯(lián)規(guī)則所涉及到的數(shù)據(jù)的屬性或維度來進(jìn)行區(qū)分的[1]。
多維關(guān)聯(lián)規(guī)則又可細(xì)分為維間關(guān)聯(lián)規(guī)則(inter-dimensional association rule)和混合維關(guān)聯(lián)規(guī)則(hybriddimensional rule),這里我們把每個(gè)不同的謂詞或?qū)傩苑Q作維,以此用來對關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)復(fù)雜程度做劃分。
例如:Buys(X,“computer”)→Buys(X,“software”)中只涉及到Buys一個(gè)謂詞,因此該規(guī)則就是單維關(guān)聯(lián)規(guī)則,也可稱為維內(nèi)關(guān)聯(lián)規(guī)則,即它包含單個(gè)不同謂詞(Buys)或維的多次出現(xiàn)。
Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)則是涉及Age、income和Buys 3個(gè)維度的關(guān)聯(lián)規(guī)則,因此我們稱這種涉及2個(gè)或者多個(gè)謂詞或維的關(guān)聯(lián)規(guī)則為多維關(guān)聯(lián)規(guī)則。
多維關(guān)聯(lián)規(guī)則中僅出現(xiàn)1次的謂詞稱為不重復(fù)謂詞,我們通常把具有不重復(fù)謂詞或?qū)傩缘亩嗑S關(guān)聯(lián)規(guī)則稱作維間關(guān)聯(lián)規(guī)則,如規(guī)則:Age(X,“30-39”)^income(X,“40K-50K”)→Buys(X,“computer”)。如果在多維關(guān)聯(lián)規(guī)則中具有重復(fù)的謂詞,即它包含某些多次出現(xiàn)的謂詞,則稱這種關(guān)聯(lián)規(guī)則為混合維關(guān)聯(lián)規(guī)則,如規(guī)則Age(X,“30-39”)^income(X,“40K-50K”)^Buys(X,“software”)→Buys(X,“computer”)。
2.2.1 將屬性靜態(tài)離散化[3]
這種方法需要預(yù)先定義概念分層,挖掘之前將量化屬性離散化,數(shù)值屬性的值可以用區(qū)間標(biāo)號替換,同時(shí),需要時(shí)可將分類屬性泛化到較高的概念層。我們可以將每一個(gè)屬性值看做一個(gè)項(xiàng)集,搜索所有相關(guān)屬性來找出所有的頻繁謂詞集。一般情況下,可以對單維關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行改進(jìn)來提高挖掘效率。
2.2.2 挖掘量化關(guān)聯(lián)規(guī)則[3]
為了滿足某種挖掘標(biāo)準(zhǔn),我們可以在挖掘過程中進(jìn)行數(shù)值屬性的動態(tài)離散化,主要方法是使用關(guān)聯(lián)規(guī)則聚類系統(tǒng)ARCS來將量化屬性用2-D柵格來映射那些滿足分類條件的屬性,然后搜索柵格發(fā)現(xiàn)點(diǎn)簇產(chǎn)生關(guān)聯(lián)規(guī)則。
2.2.3 挖掘基于距離的關(guān)聯(lián)規(guī)則
根據(jù)數(shù)據(jù)點(diǎn)之間的距離來進(jìn)行動態(tài)屬性離散化量化,是基于距離的關(guān)聯(lián)規(guī)則挖掘的關(guān)鍵,它緊扣區(qū)間的數(shù)據(jù)語義[4],不允許數(shù)值的近似操作?;诰嚯x的關(guān)聯(lián)規(guī)則挖掘算法是針對數(shù)據(jù)分布的不均勻性和局部稠密性導(dǎo)致量化規(guī)則無法緊扣屬性間數(shù)據(jù)語義的缺陷進(jìn)行改進(jìn)的。該方法主要通過2次遍歷算法來挖掘這類關(guān)聯(lián)規(guī)則挖掘:第一次遍歷數(shù)據(jù)項(xiàng)集所在的數(shù)據(jù)庫,使用聚類方法找出區(qū)間或簇;第二次再次遍歷數(shù)據(jù)庫,搜索頻繁的且同時(shí)出現(xiàn)的簇組,從而以此得到基于距離的關(guān)聯(lián)規(guī)則。
隨著信息化的發(fā)展,目前在卷煙零售和批發(fā)市場中,銷售數(shù)據(jù)越來越全面,已經(jīng)包含了購買者“所在地區(qū)、年齡、職業(yè)、收入、所購買卷煙品牌、價(jià)位、規(guī)格”等多維度信息,這對多維關(guān)聯(lián)規(guī)則挖掘算法在煙草行業(yè)的應(yīng)用提供了基礎(chǔ)數(shù)據(jù)支持。同時(shí),我們可以針對品牌信息維度細(xì)分到包裝顏色(條包、小包)、煙支粗細(xì)、長短、濾棒規(guī)格(普通、復(fù)合、中空、中空復(fù)合等)、轉(zhuǎn)接紙顏色、水松紙顏色、焦油含量、香氣、吸味等專業(yè)層面的信息,從而幫助我們進(jìn)行更深層次的數(shù)據(jù)挖掘。
考慮到實(shí)際應(yīng)用中會涉及到混合維關(guān)聯(lián)規(guī)則挖掘,因此本文提出2種方法來進(jìn)行混合維關(guān)聯(lián)規(guī)則挖掘:
(1)針對具有重復(fù)謂詞的多維關(guān)聯(lián)規(guī)則,如果每一個(gè)事務(wù)的重復(fù)謂詞部分包含內(nèi)容基本相同,僅是具體數(shù)據(jù)內(nèi)容不同的時(shí)候,則可以選擇在數(shù)據(jù)預(yù)處理過程中進(jìn)行屬性分離,見表1。
表1 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)實(shí)例1
經(jīng)過數(shù)據(jù)預(yù)處理得到的結(jié)果見表2。這樣即可采用關(guān)聯(lián)規(guī)則(多維)進(jìn)行挖掘。
表2 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)處理結(jié)果
(2)如果每行的重復(fù)謂詞部分包括不同的數(shù)據(jù)內(nèi)容時(shí),見表3,則可在進(jìn)行關(guān)聯(lián)規(guī)則挖掘的同時(shí),針對重復(fù)謂詞部分進(jìn)行2次單維關(guān)聯(lián)規(guī)則挖掘,從而實(shí)現(xiàn)混合維關(guān)聯(lián)規(guī)則的挖掘,2種方法視具體情況選定。
表3 混合維關(guān)聯(lián)規(guī)則數(shù)據(jù)實(shí)例2
通過采用多維關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法,用大量消費(fèi)者的個(gè)人喜好信息和購買習(xí)慣數(shù)據(jù)進(jìn)行綜合分析,勾勒出不同地區(qū)、不同時(shí)期的消費(fèi)者的用戶畫像,為產(chǎn)品設(shè)計(jì)、新品研發(fā)、區(qū)域個(gè)性化定制、營銷策略、經(jīng)營措施、管理決策等提供支持。
例如:通過多維關(guān)聯(lián)規(guī)則挖掘能得到“2020年,某地30-35歲中等收入人群喜歡價(jià)位在40-60元、紅色簡約包裝、中支煙、84 mm、中空復(fù)合濾棒、焦油含量8 mg、清香”等,對產(chǎn)品區(qū)域定制、個(gè)性化定制、新品研發(fā)等方面提供參考。
綜上所述,通過多維關(guān)聯(lián)規(guī)則對卷煙生產(chǎn)數(shù)據(jù)、銷售數(shù)據(jù)進(jìn)行挖掘,能夠針對大量消費(fèi)者的個(gè)人喜好信息和購買習(xí)慣數(shù)據(jù)進(jìn)行綜合分析,勾勒出不同地區(qū)不同時(shí)期的消費(fèi)者的用戶畫像,為煙草行業(yè)的產(chǎn)品設(shè)計(jì)、新品研發(fā)[5]、區(qū)域個(gè)性化定制、營銷策略、經(jīng)營措施、管理決策等提供支持。