楊燕霞+馮林
摘 要:由候選項(xiàng)集C2生成頻繁2-項(xiàng)集L2是關(guān)聯(lián)規(guī)則Apriori算法的一個(gè)瓶頸。直接哈希修剪(DHP)算法利用一個(gè)生成的Hash表H2刪減C2中無用的候選項(xiàng)集,以此提高L2的生成效率。但傳統(tǒng)DHP算法是一個(gè)串行算法,不能有效處理較大規(guī)模數(shù)據(jù)。針對(duì)這一問題,提出DHP的并行化算法——H_DHP。首先,對(duì)DHP算法并行化策略的可行性進(jìn)行了理論分析與證明;其次,基于Hadoop平臺(tái),把Hash表H2的生成以及頻繁項(xiàng)集L1、L3~Lk的生成方法進(jìn)行了并行實(shí)現(xiàn),并借助Hbase數(shù)據(jù)庫生成關(guān)聯(lián)規(guī)則。仿真實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)DHP算法相比,H_DHP算法在數(shù)據(jù)的處理時(shí)間效率、處理數(shù)據(jù)集的規(guī)模大小,以及加速比和可擴(kuò)展性等方面都有較好的性能。
關(guān)鍵詞:Hadoop;Hash表;Apriori算法;直接哈希修剪算法
中圖分類號(hào): TP391.9
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2016)12-3280-05