王仲君 楊文芳
(武漢理工大學(xué)理學(xué)院 湖北 武漢 430700)
基于效用函數(shù)度量的多維效用關(guān)聯(lián)規(guī)則挖掘
王仲君 楊文芳
(武漢理工大學(xué)理學(xué)院 湖北 武漢 430700)
傳統(tǒng)的多維關(guān)聯(lián)規(guī)則挖掘過程通常以規(guī)則出現(xiàn)的頻率來判定規(guī)則的有效性,并以支持度與置信度作為度量標(biāo)準(zhǔn)。這種挖掘方法只考慮規(guī)則間的統(tǒng)計相關(guān)性,忽略了規(guī)則自身的語義重要性,即規(guī)則能夠?yàn)樯碳規(guī)淼钠谕б?。因此在多維關(guān)聯(lián)規(guī)則挖掘過程中,引入效用函數(shù)作為統(tǒng)計相關(guān)性與語義重要性的綜合度量指標(biāo)。效用函數(shù)主要從潛在機(jī)會、購買概率、期望效益三個方面來度量規(guī)則的有效性,潛在機(jī)會與購買概率表示統(tǒng)計相關(guān)性,期望效益表示語義重要性。結(jié)果表明,以效用函數(shù)作為度量挖掘出的規(guī)則既符合客觀上要求的較高頻率,又具有主觀上期望的較高效益。
效用函數(shù)度量 語義重要性 統(tǒng)計相關(guān)性
關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘中最重要的一個分支,最早是由Agrawal在分析市場購物籃數(shù)據(jù)時提出[1]并用于描述商品間的關(guān)聯(lián)性,現(xiàn)已被應(yīng)用于網(wǎng)絡(luò)日志分析、網(wǎng)絡(luò)安全等多個行業(yè)。隨著互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,海量數(shù)據(jù)使得挖掘的難度增大。因此,近年來,人們越來越多地關(guān)注從多個維度對關(guān)聯(lián)規(guī)則進(jìn)行挖掘,即多維關(guān)聯(lián)規(guī)則挖掘。
Kamber等最先提出將數(shù)據(jù)立方體應(yīng)用于關(guān)聯(lián)規(guī)則挖掘中,他認(rèn)為數(shù)據(jù)立方體可以利用數(shù)據(jù)倉庫的結(jié)構(gòu)預(yù)先計算聚集值,從而提高挖掘速度[2];Imielinski等提出將聯(lián)機(jī)分析處理技術(shù)與關(guān)聯(lián)規(guī)則挖掘共同應(yīng)用于模式識別中[3];Messaoud等提出針對用戶需求將度量一般化,不再局限于計數(shù)度量[4];Bawane等提出在多維關(guān)聯(lián)規(guī)則挖掘中將OLAP技術(shù)與Apriori算法相結(jié)合[5]。國內(nèi)相關(guān)的研究有胡孔法、陳崚等提出在挖掘過程中數(shù)據(jù)立方體的存儲與物化問題[6];王穎等提出通過減少掃描數(shù)據(jù)庫次數(shù)、降低候選項(xiàng)集計算復(fù)雜度以及減少預(yù)剪枝步驟計算量等途徑改進(jìn)Apriori算法的執(zhí)行效率[7];李海磊等提出一種數(shù)據(jù)兩方垂直分布條件下,結(jié)合數(shù)據(jù)立方體技術(shù)的多維關(guān)聯(lián)規(guī)則挖掘算法[8];Lee提出基于效用函數(shù)對關(guān)聯(lián)規(guī)則進(jìn)行挖掘[9]。雖然國內(nèi)外關(guān)于多維關(guān)聯(lián)規(guī)則挖掘的相關(guān)研究較多,但是,這些研究基本都是基于頻率來判定規(guī)則的有效性,考慮規(guī)則在統(tǒng)計學(xué)意義上的相關(guān)性,而忽略了規(guī)則能帶來的期望效益。
關(guān)聯(lián)規(guī)則挖掘的目的在于將挖掘出來的規(guī)則應(yīng)用于實(shí)際的決策之中,因此本文在對多維關(guān)聯(lián)規(guī)則挖掘的過程中,綜合考慮規(guī)則的潛在用戶、購買概率、期望效益三個指標(biāo),定義效用函數(shù)度量作為判定規(guī)則有效性的重要指標(biāo)。效用函數(shù)度量是關(guān)于支持度置信度的函數(shù),不僅考慮統(tǒng)計相關(guān)性因素來判定規(guī)則的客觀有效性,而且引入語義重要性因素來判定規(guī)則的主觀適用性,是對傳統(tǒng)度量方法的提升與改進(jìn),使得挖掘出的規(guī)則能夠從實(shí)際意義上為決策者提供決策依據(jù),這種規(guī)則稱為效用關(guān)聯(lián)規(guī)則。
本文在對不同客戶群體的消費(fèi)行為進(jìn)行分析時,首先利用RFM模型對客戶價值進(jìn)行分類,隨后通過定義效用函數(shù)度量作為判定規(guī)則有效性的標(biāo)準(zhǔn),在此基礎(chǔ)上結(jié)合Apriori算法對多維數(shù)據(jù)模型中存在的效用規(guī)則進(jìn)行挖掘。
1.1 RFM模型
表1 RFM模型客戶分類標(biāo)準(zhǔn)
可以看出,通過RFM模型對客戶分類過后,決策者可以針對不同的客戶群體制定不同的營銷策略,一方面提高營銷策略的成功率,另一方面可以節(jié)約成本。因此,本文在對客戶價值進(jìn)行分類之后,對每一類客戶的效用規(guī)則進(jìn)行挖掘。在挖掘過程中,通過構(gòu)建基于潛在客戶、購買概率、期望效益三個指標(biāo)的效用函數(shù)度量,以效用函數(shù)度量作為規(guī)則有效性的判定標(biāo)準(zhǔn)。
1.2 效用規(guī)則度量與多維效用關(guān)聯(lián)規(guī)則挖掘
在傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘過程中,置信度與支持度是判定規(guī)則有效性的重要度量標(biāo)準(zhǔn),支持度的大小可以判定模式是否為頻繁模式,再以置信度的大小判定頻繁模式是否能生成有效規(guī)則。這種挖掘方式依賴于模式出現(xiàn)的次數(shù),充分考慮規(guī)則的統(tǒng)計相關(guān)性,能挖掘出頻繁出現(xiàn)的模式并生成規(guī)則。然而,這種方式容易忽略出現(xiàn)頻率小但具有高效益的規(guī)則。因此,本文引入效用規(guī)則的概念,綜合考慮規(guī)則的統(tǒng)計相關(guān)性與語義重要性的效用函數(shù)度量作為規(guī)則有效性的判定標(biāo)準(zhǔn),將效用函數(shù)度量值大于最小閾值的規(guī)則定義為效用規(guī)則。
(1) 支持度與置信度度量
在傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘中,只有支持度與置信度同時大于最小閾值的模式才能作為頻繁模式被挖掘。在統(tǒng)計學(xué)意義上,支持度與置信度表示的是兩種概率,關(guān)聯(lián)規(guī)則R:{X,Y?Z}的支持度表示的是模式(X,Y,Z)同時出現(xiàn)的概率[11],置信度Conf表示的是(X,Y)的客戶群中選擇產(chǎn)品Z概率。其計算公式如下:
(1)
(2)
其中:當(dāng)X、Y兩個維度都是關(guān)于客戶時,|D|表示總的客戶數(shù),C(X,Y)表示X、Y代表的群體的總?cè)藬?shù),C(X,Y,Z)表示該群體中購買Z產(chǎn)品的人數(shù)。
這種度量值的計算方式只考慮到統(tǒng)計意義上的強(qiáng)相關(guān)性,忽略了模式的語義相關(guān)性,即將生成的規(guī)則應(yīng)用于商業(yè)營銷之后能夠給商家?guī)淼男б嬷?。因此,本文提出效用函?shù)度量的概念,綜合考慮規(guī)則的統(tǒng)計相關(guān)性和語義重要性來判定規(guī)則的有效性。效用函數(shù)度量是關(guān)于傳統(tǒng)的支持度和置信度度量的修正函數(shù),在考慮了傳統(tǒng)的支持度和置信度度量的基礎(chǔ)上,又進(jìn)一步考慮規(guī)則可能會給商家?guī)淼钠谕б妗?/p>
(2) 構(gòu)建效用函數(shù)度量
效用函數(shù)大多數(shù)時候是用來表示消費(fèi)者在消費(fèi)中所獲得的效用與所消費(fèi)的商品組合之間數(shù)量關(guān)系的函數(shù),以衡量消費(fèi)者從消費(fèi)既定的商品組合中所獲得滿足的程度[12]。本文中,將效用函數(shù)表示為商家在銷售活動中獲得的效用,主要從潛在機(jī)會、購買概率、期望效益三個方面來定義,多維關(guān)聯(lián)規(guī)則R:{X,Y?Z}的效用函數(shù)度量U(R)表示為:
U(R)=Opp(R)×Prob(R)×Eff(R)
(3)
其中:潛在機(jī)會OPP、購買概率Prob代表統(tǒng)計相關(guān)性。潛在機(jī)會是指可以應(yīng)用營銷的對象數(shù),即規(guī)則對應(yīng)的潛在客戶數(shù)量:
Opp(R)=|D|×sup(X,Y)-|D|×sup({X,Y?Z})
(4)
購買概率是指當(dāng)企業(yè)向某客戶群體推銷產(chǎn)品時,該產(chǎn)品會被接受的概率值,可以用現(xiàn)有購物籃數(shù)據(jù)中的經(jīng)驗(yàn)概率代替:
(5)
規(guī)則產(chǎn)生的期望效益代表語義重要性,期望效益是指規(guī)則對效益值的影響,在零售業(yè)中可以表示為交易額的增加量,可以定義為:
Eff(R)=AVG(qty(Z,Ti))×price(Z(Ti))=
AVG(qty(Z,Ti))×price(Z)
(6)
最后得到規(guī)則的效用函數(shù)為:
U(R)= (sup(X,Y)-sup{R})×conf({R})×
|D|×AVG(qty(Z,Ti))×price(Z)=
AVG(qty(Z,Ti))×price(Z)
(7)
效用函數(shù)一方面與傳統(tǒng)的支持度和置信度度量緊密相關(guān),另一方面又充分考慮了規(guī)則可能會給商家?guī)淼钠谕б?,使得挖掘出的?guī)則不僅能在客觀上保證模式的頻繁性,同時也能在主觀上保證了規(guī)則的實(shí)用性。因此,這種計算方式比傳統(tǒng)方法中只考慮規(guī)則出現(xiàn)的次數(shù)更加合理。
1.3 多維效用關(guān)聯(lián)規(guī)則挖掘
多維效用關(guān)聯(lián)規(guī)則挖掘同樣以聯(lián)機(jī)分析處理技術(shù)OLAP為依托,首先在Java中的開源項(xiàng)目Mondrian中構(gòu)建多維數(shù)據(jù)模型,然后利用MDX查詢語句計算數(shù)據(jù)立方體中聚集值C(X,Y,Z)并存儲,最后利用OLAP技術(shù)對數(shù)據(jù)立方體中的聚集值進(jìn)行查找計算[14]。
在用Apriori算法挖掘時,不再用傳統(tǒng)的支持度計數(shù)進(jìn)行剪枝,而是對購買概率為0或者1的規(guī)則進(jìn)行剪枝,因?yàn)楫?dāng)Prob=0或Prob=1時,規(guī)則的效用U(R)=0。由于算法過程中不考慮用計數(shù)值C進(jìn)行剪枝,而是根據(jù)人群購買產(chǎn)品的概率,因此,本文忽略頻繁一項(xiàng)集的生成過程,直接對以職業(yè)或客戶價值類別維度與產(chǎn)品維度組合產(chǎn)生的候選2-項(xiàng)集(Vi,Pk)與(Rj,Pk)進(jìn)行挖掘。
具體步驟為,第一步:生成候選集C2,將各個維度的屬性值作為2-候選集的子集;將Prob≠0且Prob≠1的項(xiàng)集放入頻繁2-項(xiàng)集F1。第二步:進(jìn)行循環(huán)迭代,根據(jù)(k-1)-頻繁項(xiàng)集生成k-候選集,再根據(jù)k-候選集生成k-頻繁項(xiàng)集。第三步:將效用值大于最小效用值閾值的頻繁項(xiàng)集生成多維效用關(guān)聯(lián)規(guī)則。具體算法如下。
算法名稱:多維關(guān)聯(lián)規(guī)則挖掘算法
輸入: 數(shù)據(jù)立方體C,V,M,P,min_sup,min_uti
輸出:L
1. k=1,L=φ
2. C2={(Vi,Pk),(Rj,Pk)},
3. foreach A∈C2,if prob(A)≠0&prob(A)≠1 then F2=F2∪{A}
4. while F2≠φ
k=k+1
Ck=Fk-1×Fk-1
foreach A∈Ck,
if prob(A)≠0&prob(A)≠1
Fk=Fk∪{A}
foreach B∈Fk,
if uti(B)>min_uti(B)
L=L∪{B/P?P}
end
Vi、Rj、Pk分別表示職業(yè)、客戶價值、產(chǎn)品維度的屬性值。其中,在生成Ck的過程中,F(xiàn)k-1×Fk-1表示將Fk-1中滿足一下兩個條件的項(xiàng)集聯(lián)合:① 有k-2個相同項(xiàng)集;② 不相同的兩個項(xiàng)集分別屬于不同的維度。如:{V5,M12},{M12,P28}可以聯(lián)合生成{V5,M12,P28},而{V4,M12},{V5,M12}聯(lián)合生成的{V4,V5,M12}不能作為候選集,因?yàn)?,V4、V5屬于同一個維度。
在效用關(guān)聯(lián)規(guī)則挖掘過程中,利用購買概率對效用函數(shù)的影響進(jìn)行剪枝,通過剪枝策略可以有效地減少數(shù)據(jù)立方體的掃描次數(shù),從而降低算法復(fù)雜度。將效用值作為規(guī)則的度量標(biāo)準(zhǔn),可以使挖掘出的規(guī)則更加能滿足決策者的需求。
本文的實(shí)證部分以購物籃數(shù)據(jù)為例,對不同客戶群體的消費(fèi)行為模式進(jìn)行挖掘。對比分析以支持度與置信度為度量的傳統(tǒng)方法和以效用函數(shù)度量作為標(biāo)準(zhǔn)的改進(jìn)方法的計算過程以及挖掘結(jié)果。
2.1 數(shù)據(jù)背景
本文以某商場6年來547名忠實(shí)用戶的購買記錄作為數(shù)據(jù),共計18萬條,該數(shù)據(jù)是在”數(shù)據(jù)堂”網(wǎng)站上購買獲得。在挖掘之前,首先通過RFM模型對大量的客戶進(jìn)行分群。由于不同職業(yè)的人群在購買行為上有較大的差距,并且RFM模型在對客戶分類時只考慮客戶的消費(fèi)行為,而忽略了其他信息,所以根據(jù)數(shù)據(jù)特征,增加職業(yè)維度,將不同價值的客戶群根據(jù)職業(yè)的不同再進(jìn)行細(xì)分,使得挖掘出的規(guī)則更具準(zhǔn)確性和針對性。
在購物籃數(shù)據(jù)挖掘過程中,購買量和銷售額始終是人們關(guān)注的重要指標(biāo),是用來判定規(guī)則有效性的主要標(biāo)準(zhǔn),該數(shù)據(jù)中各產(chǎn)品總銷售額與總銷售量占比如表2所示。
表2各產(chǎn)品總銷售額與總銷售量占比
表2對比顯示了數(shù)據(jù)中28種商品各自的購買量amount和銷售額cost分別在總交易數(shù)量和總交易額中所占的比例,氣泡的大小代表比值的大小。不難發(fā)現(xiàn)飲料、零食和副食品這些日常的必需品總交易量占比很大,但總交易額占比很小;相反地,化妝品、珠寶首飾、皮具和手表這類非日常用品雖然總交易量很小,總交易額卻比較大。
由于商品在用途上的差異導(dǎo)致了購買量與交易額的量級差異。然而,在用傳統(tǒng)挖掘方法對關(guān)聯(lián)規(guī)則挖掘的過程中,只是以購買概率作為度量值計算基礎(chǔ),這就導(dǎo)致在挖掘過程中在很大程度上受到交易量的影響,而忽略了交易額這一重要信息與潛在用戶數(shù)量。因此,在對關(guān)聯(lián)規(guī)則進(jìn)行挖掘過程需要引入效用函數(shù)度量,使得挖掘到的規(guī)則不僅僅只受銷售量這一因素的影響,還能綜合考慮多種因素,具有更高的效用性,使得挖掘出的規(guī)則同時具有較高統(tǒng)計相關(guān)性與語義重要性。
2.2 傳統(tǒng)方法與改進(jìn)方法對比分析
傳統(tǒng)方法在對購物籃數(shù)據(jù)處理的過程中,只考慮模式出現(xiàn)的次數(shù),而忽略了模式本身的效用性,同時也忽略了商品本身存在的量級差。以購物籃數(shù)據(jù)的特點(diǎn)選取有代表性的部分?jǐn)?shù)據(jù),對傳統(tǒng)的多維關(guān)聯(lián)規(guī)則挖掘以及效用關(guān)聯(lián)規(guī)則挖掘進(jìn)行對比。為了便于分析,所取的代表性數(shù)據(jù)只涉及“一般價值客戶”這一類客戶,其部分購買記錄如表3所示。
表3 “一般價值客戶”部分購買數(shù)據(jù)
表3共涉及到5名“一般價值客戶”。其中,4名屬于第一類職業(yè),1名屬于第二類職業(yè),表4顯示的是涉及到的四類產(chǎn)品的平均價格。
表4 商品價格(元)
分別用傳統(tǒng)方法與改進(jìn)后的方法對規(guī)則進(jìn)行挖掘,兩種方法的計算過程如表5所示。
表5 傳統(tǒng)方法與改進(jìn)方法結(jié)果對比
表中R1、R2、R3、R4表示如下四種規(guī)則:
R1={一般價值客戶∧vocation=1}?藥品保健品;
R2={一般價值客戶∧vocation=1}?手工藝品;
R3={一般價值客戶∧vocation=1}?沖調(diào)飲品;
R4={一般價值客戶∧vocation=1}?奢侈品。
表中,方框標(biāo)出的是大于最小閾值的規(guī)則度量值??梢钥闯?,以傳統(tǒng)的支持度、置信度作為度量得到R1、R3為有效規(guī)則;以效用作為度量則得到R1、R4為有效規(guī)則。
對比分析用傳統(tǒng)多維關(guān)聯(lián)規(guī)則挖掘方法與多維效用關(guān)聯(lián)規(guī)則挖掘方法,將兩種方法挖掘出的前100條規(guī)則相關(guān)的產(chǎn)品進(jìn)行計數(shù),結(jié)果如表6-表7所示。
表6 改進(jìn)方法挖掘結(jié)果
表7 傳統(tǒng)方法挖掘結(jié)果
表中,N表示與該產(chǎn)品相關(guān)的有效規(guī)則的數(shù)量。結(jié)果顯示,根據(jù)傳統(tǒng)的多維關(guān)聯(lián)規(guī)則挖掘方法得到的規(guī)則,大部分集中于交易量很大的日常生活用品,而根據(jù)多維效用關(guān)聯(lián)規(guī)則挖掘方法在綜合考慮到多方面的因素后,挖掘出的規(guī)則主要集中于奢侈品、珠寶、保健品等。其中,奢侈品交易量不高,但價格比較高;珠寶的交易量與價格在所有商品中都是屬于中等水平;保健品交易量大,且價格不是很低。而飲料零食這類日用產(chǎn)品雖然交易量高,但是價格太低,并且由于購買概率很大、潛在客戶較少,導(dǎo)致相關(guān)規(guī)則的效用值低于最小閾值。
傳統(tǒng)方法在挖掘過程中很大程度上考慮模式出現(xiàn)的頻率,這使得挖掘出的模式在客觀上具有很強(qiáng)的統(tǒng)計相關(guān)性,但是在主觀上并非具有很強(qiáng)的實(shí)用性。而改進(jìn)后的方法的優(yōu)點(diǎn)在于:
(1) 在計算C(R)的過程中(如模式R1),將用戶多次購買同一個產(chǎn)品的行為計數(shù)為1,保證單個客戶的行為不會過度影響客戶群的行為模式,同時,在計算效益值Eff(R)時將購買數(shù)量求和,保證客戶的特殊購買行為不會被忽略。
(2) 同時引進(jìn)機(jī)會、概率兩個概念對統(tǒng)計相關(guān)性進(jìn)行度量,統(tǒng)計相關(guān)性不會隨著購買概率的增大不斷增大,因?yàn)殡S著購買概率的增大,潛在機(jī)會降低。如模式R3,購買率為1的同時也導(dǎo)致潛在客戶為0的情況,說明規(guī)則適用性不強(qiáng)。
(3) 引進(jìn)規(guī)則效益度量,使得出現(xiàn)頻率很低而效益值很大的模式不會被忽略。如R4,由于商品自身屬性不同,奢侈品的購買量很小,但是效益值很大,導(dǎo)致最終計算的效用度量值增大,從而作為效用模式被挖掘出來。
本文在傳統(tǒng)多維關(guān)聯(lián)規(guī)則挖掘方法的基礎(chǔ)上,提出多維效用關(guān)聯(lián)規(guī)則挖掘方法。在衡量規(guī)則有效性時,該方法不再以項(xiàng)目出現(xiàn)的頻率作為單一標(biāo)準(zhǔn),而是采用同時考慮項(xiàng)目出現(xiàn)頻率、用戶對規(guī)則主觀興趣度的綜合標(biāo)準(zhǔn)。多維效用規(guī)則挖掘的核心是效用函數(shù),本文在構(gòu)建效用函數(shù)的過程中,以潛在機(jī)會、購買概率度量規(guī)則的統(tǒng)計相關(guān)性,以期望效益度量規(guī)則的語義重要性。
實(shí)證結(jié)果表明,通過定義期望效益對用戶的主觀興趣度進(jìn)行量化,能夠使得出現(xiàn)頻率不高而效益值很大的規(guī)則不被忽略;通過引進(jìn)機(jī)會、概率兩個概念對統(tǒng)計相關(guān)性進(jìn)行度量,使得統(tǒng)計相關(guān)性不會隨著購買概率的增大而不斷增大;將效用函數(shù)作為規(guī)則的度量標(biāo)準(zhǔn)后,挖掘出的規(guī)則不再集中于需求量高的日用品,而更偏向于多樣性產(chǎn)品。
多維效用關(guān)聯(lián)規(guī)則的優(yōu)點(diǎn)在于結(jié)合了商家的需求,在挖掘的過程中增加了主觀興趣因素,使得挖掘的規(guī)則不僅僅是客觀有效,還能給商家提供更完善的決策依據(jù)。這種方法不僅可以應(yīng)用于購物籃數(shù)據(jù)分析,還可以應(yīng)用于文本數(shù)據(jù)挖掘、電信行業(yè)數(shù)據(jù)挖掘等多個領(lǐng)域。
[1] Agrawal R,Imielinski T,Swami A.Mining Association Rules between Sets of Items in Large Databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data,Washington,D.C.,USA:ACM Press,1993:207-216.
[2] Kamber M,Han J,Chiang J.Metarule-Guided Mining of Multi-Dimensional Association Rules Using Data Cubes[C]//Proceedings of the 3rd International Conference on Knowledge Discovery and Data Mining,Newport Beach,CA,USA:The AAAI Press,1997:207-210.
[3] Imielinski T,Khachiyan L,Abdulghani A.Cubegrades:Generalizing Association Rules[J].Data Mining and Knowledge Discovery,2002,6(3):219-258.
[4] Messaoud R B,Rabaséda S L,Boussaid O,et al.Enhanced mining of association rules from data cubes[C]//Proceedings of the 9th ACM international workshop on Data warehousing and OLAP.ACM,2006:11-18.
[5] Bawane G R,Deshkar P.Integration of OLAP and association rule mining[C]//Innovations in Information, Embedded and Communication Systems,2015 International Conference on.IEEE,2015:1-4.
[6] 胡孔法,陳崚,趙茂先,等.DHMC:一種有效的高維Cube并行分布式存儲結(jié)構(gòu)[J].計算機(jī)研究與發(fā)展,2007,44(12):2098-2105.
[7] 王穎.基于數(shù)據(jù)倉庫的聯(lián)機(jī)分析處理探討[J].教育教學(xué)論壇,2014(38):239-240.
[8] 李海磊,王晗,孔令富,等.一種基于數(shù)據(jù)兩方垂直分布的多維關(guān)聯(lián)規(guī)則挖掘算法[J].計算機(jī)應(yīng)用與軟件,2014,31(1):18-21,80.
[9] Lee D,Park S H,Moon S.Utility-based association rule mining:A marketing solution for cross-selling[J].Expert Systems with applications,2013,40(7):2715-2725.
[10] Hughes A M.Strategic database marketing[M].Chicago:Probus Publishing Company,1994.
[11] Tan Pangning,Steinbach M,Kumar V.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006.
[12] 張堯庭,陳慧玉.效用函數(shù)及優(yōu)化[M].科學(xué)出版社,2000.
[13] 張磊,夏士雄,周勇,等.基于語義相關(guān)性的關(guān)聯(lián)規(guī)則挖掘研究[J].東南大學(xué)學(xué)報(英文版),2008,24(3):358-360.
[14] Rizzi S,Golfarelli M,Graziani S,et al.An OLAM Operator for Multi-Dimensional Shrink[J].International Journal of Data Warehousing and Mining,2015,11(3):68-97.
MININGMULTIDIMENSIONALUTILITYASSOCIATIONRULESBASEDONUTILITYFUNCTIONMEASUREMENT
Wang Zhongjun Yang Wenfang
(CollegeofScience,WuhanUniversityofTechnology,Wuhan430700,Hubei,China)
The traditional multidimensional association rule mining determines the validity of rules by the rule’s frequency. And it takes support and confidence as measurement standards. This mining method only considers the statistical correlation between rules and ignores the semantic importance which is the effectiveness that the rules can bring. In this paper, we introduce the utility function as a comprehensive measure of statistical correlation and semantic significance. The utility function mainly measures the effectiveness of the rule from three aspects: opportunity, probability and effectiveness. Opportunity and probability represents the statistical correlation, effectiveness represents the semantic significance. The results show that the rules mined by the utility function not only meet higher frequency of objective requirements, but also have the subjective expectations of higher effectiveness.
Utility function measurement Semantic significance Statistical correlation
2016-12-31。國家自然科學(xué)基金面上項(xiàng)目(71671135)。王仲君,教授,主研領(lǐng)域:復(fù)雜系統(tǒng),數(shù)據(jù)挖掘。楊文芳,碩士生。
TP3
A
10.3969/j.issn.1000-386x.2017.12.007