邵婷婷
摘要:針對(duì)數(shù)據(jù)挖掘中項(xiàng)目權(quán)重的模糊性問(wèn)題,通過(guò)引入直覺(jué)模糊數(shù)表示項(xiàng)目的權(quán)重,并采用項(xiàng)目的權(quán)重和支持?jǐn)?shù)計(jì)算事務(wù)的加權(quán)支持度、可能度、置信度,提出了一種基于直覺(jué)模糊數(shù)的加權(quán)Apriori算法。闡述了算法的改進(jìn)思想,描述了算法步驟,并采用優(yōu)化后的Apriori算法對(duì)商品銷售數(shù)據(jù)進(jìn)行挖掘分析。研究結(jié)果表明:改進(jìn)算法解決了權(quán)重信息的模糊性問(wèn)題,其挖掘結(jié)果更具價(jià)值。
關(guān)鍵詞:Apriori算法 直覺(jué)模糊數(shù) 數(shù)據(jù)挖掘
中圖分類號(hào):F1274
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2096-0298(2019)02(b)-245-03
關(guān)聯(lián)規(guī)則挖掘是經(jīng)典的數(shù)據(jù)挖掘技術(shù),近年來(lái)應(yīng)用廣泛且發(fā)展迅速。關(guān)聯(lián)規(guī)則挖掘算法是從大量、模糊、有噪聲、隨機(jī)的實(shí)際數(shù)據(jù)中,得出人們隱含在其中的、有用的關(guān)聯(lián)信息和知識(shí)的過(guò)程。Apriori算法是一種典型的關(guān)聯(lián)規(guī)則挖掘算法,主要用來(lái)在大型數(shù)據(jù)庫(kù)上進(jìn)行快速挖掘關(guān)聯(lián)規(guī)則。該算法的核心思想就是對(duì)目標(biāo)事務(wù)庫(kù)采用逐層迭代搜索的方式進(jìn)行挖掘k階頻繁項(xiàng)目集,直至找到最高階的頻繁項(xiàng)目集即止,最后通過(guò)獲得的頻繁項(xiàng)目集進(jìn)行關(guān)聯(lián)規(guī)則挖掘,從而實(shí)現(xiàn)挖掘目標(biāo)數(shù)據(jù)間關(guān)聯(lián)關(guān)系的最終目標(biāo)[1-4]。
在經(jīng)典的Apriori算法中,假設(shè)各個(gè)項(xiàng)目的重要程度是相當(dāng)?shù)?,但事?shí)上現(xiàn)實(shí)生活中項(xiàng)目的重要性具有差異(例如商品利潤(rùn))。其次,即便用引入權(quán)重來(lái)解決項(xiàng)目重要程度的差異性,項(xiàng)目的權(quán)重信息中仍然包含了不確定信息。柴巖等研究者將區(qū)間數(shù)引入Apriori算法,將權(quán)重設(shè)置為區(qū)間數(shù),并提出了最小支持度為區(qū)間數(shù)的加權(quán)Apriori算法[5]。徐頊將三角模糊數(shù)引入Apriori算法,提出了一種基于三角模糊數(shù)的Apriori算法[6]。雖然區(qū)間數(shù)、模糊集、三角模糊數(shù)的引入解決了Apriori算法中權(quán)重信息的模糊性,但仍不能表達(dá)權(quán)重信息的猶豫程度。例如,模糊集只能表達(dá)隸屬度,而不能表達(dá)非隸屬度。由于Apriori算法只考慮交易出現(xiàn)的概率,沒(méi)有考慮不同項(xiàng)及交易中每一個(gè)項(xiàng)目具有不同的重要性,因此挖掘具有一定的局限性。而且,在實(shí)際應(yīng)用中,項(xiàng)目的權(quán)重用直覺(jué)模糊數(shù)更加合適,它不僅可以更好地模擬生活,而且引入了猶豫度的概念,可以幫助改進(jìn)置信度的計(jì)算方法。
基于此,引入直覺(jué)模糊數(shù)來(lái)表示項(xiàng)目的權(quán)重,對(duì)Apriori算法進(jìn)行改進(jìn)。
1 基本概念
1.1 數(shù)據(jù)項(xiàng)與數(shù)據(jù)項(xiàng)集
假設(shè),={I1、I2,……,I)是所有項(xiàng)目的集合,每個(gè)I(k =1,2,...,m)稱為數(shù)據(jù)項(xiàng),集合I稱為數(shù)據(jù)項(xiàng)集,簡(jiǎn)稱為項(xiàng)集,其中項(xiàng)目的個(gè)數(shù)稱為數(shù)據(jù)項(xiàng)集的長(zhǎng)度,長(zhǎng)度為k的項(xiàng)目集稱為k維數(shù)據(jù)項(xiàng)集,簡(jiǎn)稱k-項(xiàng)集。
1.2 事務(wù)
2 權(quán)重為直覺(jué)模糊數(shù)的加權(quán)Apriori算法
2.1 算法改進(jìn)思想
將項(xiàng)權(quán)重設(shè)為直覺(jué)模糊數(shù),根據(jù)項(xiàng)目的權(quán)重和項(xiàng)目的支持?jǐn)?shù)應(yīng)用式(7)得到加權(quán)支持度并引入可能度概念,根據(jù)可能度進(jìn)行剪枝。通過(guò)引入可能度,改變Apriori算法僅根據(jù)支持度剪枝的策略,對(duì)于可能度小于0的項(xiàng)集進(jìn)行減枝,對(duì)于可能度大于0小于1的項(xiàng)集,還根據(jù)置信度大小進(jìn)行剪枝,因此該算法兼顧了規(guī)則的重要性和可靠性,加大了剪枝力度,提高了算法運(yùn)行速度,提取了更多有價(jià)值的規(guī)則,并根據(jù)實(shí)驗(yàn)證明了算法的合理性。
2.2 算法步驟
步驟3:通過(guò)L1自身連接,得到候選2一項(xiàng)目集C2,計(jì)算各項(xiàng)目集的加權(quán)支持度、可能度,刪除可能度小于0.5的項(xiàng)目,對(duì)于可能度大干0.5小于1的項(xiàng)目,再計(jì)算確信度,刪除確信度小于0.5的項(xiàng)目,得到頻繁2一項(xiàng)集L2。
步驟4:循環(huán)執(zhí)行連接步驟和減枝步驟,直到產(chǎn)生的項(xiàng)目集為空時(shí),算法停止,輸出那些頻繁項(xiàng)集,并根據(jù)頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。
步驟5:計(jì)算各關(guān)聯(lián)規(guī)則的置信度,設(shè)最小置信度為0 5,則通過(guò)與最小置信度進(jìn)行比較,得到強(qiáng)關(guān)聯(lián)規(guī)則。
2.3 算例
以超市中商品的銷售數(shù)據(jù)為例說(shuō)明算法的步驟,表1為商品出售數(shù)據(jù)庫(kù),表2為項(xiàng)目權(quán)重。
計(jì)算這6種商品的支持?jǐn)?shù)分別為6、5、6、5、2、2,則對(duì)應(yīng)6種商品權(quán)重如表2所示。設(shè)已經(jīng)給出最小支持度為<0,1,0,2,0.7>,根據(jù)式(7)和式(8)計(jì)算1-項(xiàng)集的加權(quán)支持度及其大于最小支持度的可能度,如表3所示。
由于1、2、6的可能度小于0.5,因此刪除1、2、6,并計(jì)算3、4、5的確信度,均大干等于0 5,得到頻繁1一項(xiàng)集{3,4,5},由頻繁1一項(xiàng)集自身連接得到候選2一項(xiàng)集為{{3,4},{3,5},{4,5}},計(jì)算候選2-項(xiàng)集的加權(quán)支持度和可能度如表4所示。
由于項(xiàng)集{4,5}可能度小于0.5,刪除項(xiàng)集{{4,5}}得到頻繁2-項(xiàng)集{{3,4},{3,5}},2一項(xiàng)集進(jìn)行自身連接得到候3一項(xiàng)集{3,4,5},由于{3,4,5}的子集出現(xiàn)非頻繁項(xiàng)集,因此刪除項(xiàng)集{3,4,5},這樣頻繁3項(xiàng)集為空,算法停止,得到頻繁2一項(xiàng)集{{3,4},{3,5}}。
接著根據(jù)式(10)計(jì)算以下規(guī)則的置信度:
由此可知,第3種商品=>第4種商品,第4種商品=>第3種商品,第5種商品=>第3種商品,是具有強(qiáng)關(guān)聯(lián)關(guān)系的。這對(duì)于商品的管理、合理的設(shè)置商品的擺放順序等方面都很有幫助。
3 結(jié)語(yǔ)
本文提出了一種改進(jìn)的Apriori算法,將項(xiàng)目屬性設(shè)置為直覺(jué)模糊數(shù),這樣同時(shí)表達(dá)了隸屬度、非隸屬度、猶豫度三個(gè)方面的信息,通過(guò)自身連接得到候選項(xiàng)集,通過(guò)用每個(gè)項(xiàng)目的支持?jǐn)?shù)與權(quán)重相乘,得到加權(quán)支持度,并與最小支持度進(jìn)行比較,結(jié)合可能度與猶豫度進(jìn)行剪枝,得到頻繁項(xiàng)集,循環(huán)執(zhí)行連接與剪枝步驟,直到頻繁項(xiàng)集為空,結(jié)束算法。再通過(guò)比較所得規(guī)則的置信度來(lái)得到強(qiáng)關(guān)聯(lián)規(guī)則。算例表明,與經(jīng)典Apriori算法比較,改進(jìn)的Apriori算法具有一定的優(yōu)勢(shì),它可以挖掘出更具價(jià)值、更有意義的強(qiáng)關(guān)聯(lián)規(guī)則,且項(xiàng)目權(quán)重的表示方式更貼近商品銷售數(shù)據(jù)的特征,更容易得出各個(gè)項(xiàng)目的權(quán)重值。
參考文獻(xiàn)
[1]佘朝兵.關(guān)聯(lián)規(guī)則挖掘算法在校園超市營(yíng)銷的應(yīng)用研究[J].數(shù)字技術(shù)及應(yīng)用.2018,36(7).
[2]阮夢(mèng)黎,吳磊.基于雙閾值A(chǔ)priori算法和非頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘方法[J].2018,35(12).
[3]唐杰,程云章.Apriori算法在醫(yī)療設(shè)備健康管理中的研究與應(yīng)用(J].生物醫(yī)學(xué)工程學(xué)進(jìn)展,2016,37(3).
[4]賈克斌,李含婧,袁野.基于Apriori算法的數(shù)據(jù)挖掘在移動(dòng)醫(yī)療系統(tǒng)中的應(yīng)用[J].北京工業(yè)大學(xué)學(xué)報(bào),2017,43(3).
[5]柴巖,張京輝,魯新新.最小支持度為區(qū)間值的加權(quán)Apriori算法[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào),2016(12).
[6]徐頊.基于三角模糊數(shù)的關(guān)聯(lián)規(guī)則方法研究[D].蘭州交通大學(xué),2007.