摘要:提出了一種適用于交叉銷售的關(guān)聯(lián)規(guī)則挖掘算法,它建立在事務(wù)壓縮、項目壓縮,以及個性化約束的基礎(chǔ)上。文章結(jié)合事務(wù)數(shù)據(jù)庫對改進(jìn)算法在交叉銷售的效率等方面進(jìn)行了分析。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法;頻繁項集;交叉銷售
0 引 言
關(guān)聯(lián)規(guī)則挖掘是在數(shù)據(jù)中查找存在于項目集合中的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu)。大部分關(guān)聯(lián)規(guī)則挖掘采用的是Apriori類方法,例如RAgrawal等在1994年提出的AprioriTid方法。這些方法以精簡候選Ck的大小以及提高計算Ck支持度的效率為主。交叉銷售是一種以企業(yè)與客戶的關(guān)系為基礎(chǔ),讓購買了企業(yè)產(chǎn)品的客戶,繼續(xù)購買企業(yè)其他產(chǎn)品的營銷戰(zhàn)略。它廣泛應(yīng)用于零售業(yè)、金融業(yè)、醫(yī)療保健、汽車修理等領(lǐng)域,其事務(wù)數(shù)據(jù)庫數(shù)據(jù)量巨大。針對Apriori算法在連接時生成大量的項目集,從而降低算法效率的不足,本文從候選項集的產(chǎn)生著手提出一種基于行業(yè)個性化約束集,事務(wù)和項目壓縮以及候選項集關(guān)鍵字識別的方法來提高算法的效率,以滿足各行業(yè)交叉銷售的要求。