王玉珍,常 丹
(1.蘭州財經(jīng)大學(xué) 絲綢之路經(jīng)濟研究院,甘肅 蘭州,730020;2.蘭州財經(jīng)大學(xué)信息工程學(xué)院,甘肅蘭州,730020)
隨著“互聯(lián)網(wǎng)+”概念的不斷深入,很多傳統(tǒng)企業(yè)開始開設(shè)網(wǎng)站,將部分線下業(yè)務(wù)搬上了互聯(lián)網(wǎng),開始開展電子商務(wù);與此同時,越來越多的純網(wǎng)絡(luò)型零售企業(yè)也迅速發(fā)展起來,導(dǎo)致電子商務(wù)領(lǐng)域的競爭越來越激烈,因此企業(yè)要想在激烈的競爭中立于不敗之地,就必須對用戶行為進行研究。而對于農(nóng)產(chǎn)品來說,滿足用戶的個性化需求,幫助網(wǎng)站精準(zhǔn)營銷[1]的前提是了解用戶需要什么樣的產(chǎn)品。因此文中以某農(nóng)資網(wǎng)站為例,通過使用關(guān)聯(lián)分析中的經(jīng)典算法——Apriori算法,對該網(wǎng)站用戶行為進行研究,挖掘出強關(guān)聯(lián)規(guī)則,從而改善網(wǎng)站結(jié)構(gòu),提高用戶滿意度。
由于很多領(lǐng)域事物間存在某種關(guān)系,而關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)這種規(guī)律,從而幫助人們做出決策,因此受到各界學(xué)者廣泛的關(guān)注。如,張文斌認(rèn)為傳統(tǒng)的購物籃分析不能按照時間序列做出演化和預(yù)測,因此提出通過聚類來重組購物籃,并對演化的參數(shù)和模型進行研究,開發(fā)出購物籃可視化交互系統(tǒng),實現(xiàn)購物籃分析結(jié)果的可視化功能,使得分析結(jié)果更容易理解[2];李偉針對傳統(tǒng)的Apriori算法中存在的不足,提出一種基于并行矩陣目標(biāo)明確的Apriori算法,并通過實驗證明改進后的算法挖掘出來的關(guān)聯(lián)規(guī)則更符合用戶的需求[3];吳青基于關(guān)聯(lián)規(guī)則,對遠(yuǎn)程教育平臺上的學(xué)習(xí)行為數(shù)據(jù)挖掘分析,發(fā)現(xiàn)某種內(nèi)在規(guī)律以幫助學(xué)習(xí)者改善學(xué)習(xí)行為,幫助老師完善教學(xué)過程[4];黃常?;贏priori算法對船舶交通事故數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,發(fā)現(xiàn)船舶交通事故發(fā)生的潛在關(guān)系,提出防范措施,以保證海上交通的安全[5];翟廣宇使用Apriori算法,挖掘出蘭州市上呼吸道感染患者人數(shù)與蘭州市空氣質(zhì)量和氣象因子之間的關(guān)聯(lián)規(guī)則[6];晏杰研究了Apriori算法和FP-growth算法,指出兩個算法各自的優(yōu)缺點,通過具體實例說明了算法的使用,并對兩個算法進行性能上的比較[7];應(yīng)毅針對數(shù)據(jù)挖掘系統(tǒng)處理海量數(shù)據(jù)的瓶頸,提出一種基于云計算技術(shù)的數(shù)據(jù)挖掘技術(shù),實驗表明,使用云計算處理大數(shù)據(jù)集可以明顯提高效率[8];雷蕾使用關(guān)聯(lián)規(guī)則挖掘算法,找到化學(xué)組分之間的強關(guān)聯(lián)關(guān)系,為組分中藥發(fā)現(xiàn)提供新途徑[9]。可見,因關(guān)聯(lián)性分析在各領(lǐng)域發(fā)展中的重要性,近年來,該領(lǐng)域的研究成果較豐富,涉及到很多行業(yè)。但隨著農(nóng)村電商的發(fā)展,對農(nóng)資電商的研究顯得尤為重要,而目前對這方面的研究尚未形成系統(tǒng)性,因此文中應(yīng)用關(guān)聯(lián)規(guī)則挖掘的主要算法——Apriori算法對某農(nóng)資網(wǎng)站的銷售數(shù)據(jù)進行分析,發(fā)現(xiàn)用戶的行為特征,改善網(wǎng)站的運營結(jié)構(gòu),使網(wǎng)站獲得新的利潤增長。
關(guān)聯(lián)規(guī)則是形如A→B的表達(dá)式,其中AI,BI,并且A∩B=。設(shè)I={i1,i2,…,im}為所有項的集合,T={t1,t2,…,tn}表示所有事務(wù)的集合,T中每個事務(wù)是項集I的子集,在關(guān)聯(lián)分析中,包含k個數(shù)據(jù)項的集合稱為k-項集。事務(wù)集T中項集出現(xiàn)的次數(shù)稱為支持度計數(shù),項集(A∪B)在事務(wù)T中同時出現(xiàn)的概率稱為支持度,當(dāng)一個項集的支持度大于或等于給定的最小支持度閾值時,稱為頻繁項集。置信度則是指項集B在事務(wù)集T中與項集A同時存在的概率。
用公式表達(dá):
文中采用的Apriori算法適用于挖掘布爾關(guān)聯(lián)規(guī)則,該算法使用逐層遞推的方法找出頻繁項集,采用連接和剪枝兩部分完成。具體實現(xiàn)主要分為兩部分:一是找出所有的頻繁項集,二是在這些頻繁項集中找出強關(guān)聯(lián)規(guī)則。圖1為Apriori算法中產(chǎn)生頻繁項集的部分為代碼。
圖1 Apriori算法產(chǎn)生頻繁項集的部分偽代碼Fig.1 Apriori algorithm to generate frequent itemsets part of the pseudo-code
以上是Apriori算法中產(chǎn)生頻繁項集的部分偽代碼,在關(guān)聯(lián)分析數(shù)據(jù)挖掘的實際應(yīng)用中也是通過這種方法來找出事務(wù)集中的頻繁項集,進而進行關(guān)聯(lián)規(guī)則分析。
利用關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)用戶在農(nóng)資網(wǎng)站中購買產(chǎn)品時存在的某種關(guān)聯(lián)關(guān)系,通過分析用戶在購買產(chǎn)品時的行為特征,能夠準(zhǔn)確預(yù)測用戶下一個購買行為,這種有價值的聯(lián)系以及規(guī)律能夠指導(dǎo)企業(yè)做出決策,改善網(wǎng)站結(jié)構(gòu)。
文章選取某農(nóng)資網(wǎng)站作為研究對象,該網(wǎng)站從2016年開始銷售不同配方的液態(tài)肥,主要配方有180-50-260-TE、170-170-170-TE 等幾十多種。由于該農(nóng)資網(wǎng)站原始訂單信息比較多,因此文中僅選取一個季度的銷售數(shù)據(jù)進行關(guān)聯(lián)分析。因涉及到該農(nóng)資網(wǎng)站的商業(yè)機密,將隱去網(wǎng)站的所有原始數(shù)據(jù),通過對原始數(shù)據(jù)清理后量化表示(如表1所示)。
表1 某農(nóng)資網(wǎng)站某季度交易記錄Table 1 A quarterly transaction record of an agricultural website
續(xù)表
表1中A~Y表示該農(nóng)資網(wǎng)站液態(tài)肥的配方,如A表示105-50-400-TE配方的液態(tài)肥,1~18表示18個用戶的這一季度的購買記錄。
2.1.1 產(chǎn)生頻繁項集
①根據(jù)多次實驗結(jié)果,最小支持度設(shè)為4是最適合實驗數(shù)據(jù)的,得出的結(jié)果也最有效。通過掃描事務(wù)數(shù)據(jù)庫中的所有事務(wù),將事務(wù)數(shù)據(jù)庫中的每個項集都作為候選1-項集C1中的元素,統(tǒng)計每個項出現(xiàn)的次數(shù),根據(jù)最小支持度計數(shù),生成頻繁1-項集(如圖2所示)。
圖2 產(chǎn)生候選1-項集和頻繁1-項集Fig.2 Produces candidate 1-itemsets and frequent 1-itemsets
②運用頻繁1-項集,產(chǎn)生候選2-項集C2,并計算出C2中每個候選項集的支持度計數(shù),確定頻繁2-項集的集合L2(如圖3所示)。
圖3 產(chǎn)生候選2-項集和頻繁2-項集Fig.3 Produces candidate 2-itemsets and frequent 2-itemsets
③根據(jù)設(shè)定的最小支持度閾值,對候選3-項集進行剪枝,生成頻繁3-項集L3(如圖4所示),利用頻繁3-項集產(chǎn)生候選4-項集C4={I,K,M,Y},支持度計數(shù)為3,小于最小支持度計數(shù),所以無法生成頻繁4-項集。
圖4 產(chǎn)生候選3-項集和頻繁3-項集Fig.4 Produces candidate 3-itemsets and frequent 3-itemsets
④此時就找到了所有的頻繁項集,即{I,K,M}和{I,M,Y}以及它們的非零子集。
2.1.2 產(chǎn)生強關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則分析主要分為兩部分,一是發(fā)現(xiàn)頻繁項集,二是通過頻繁項集挖掘出強關(guān)聯(lián)規(guī)則,通過分析圖2、圖3、圖4可以發(fā)現(xiàn):
(Ⅰ)在找出頻繁項集 C3后,對于每個頻繁項集 C3,取 C3的非空真子集:{I,K}、{I,M}、{K,M}、{I,Y}、{M,Y}、{I}、{K}、{M}、{Y}。
(Ⅱ)設(shè)定最小置信度閾值為70%,根據(jù)公式計算各關(guān)聯(lián)規(guī)則的置信度:
根據(jù)各關(guān)聯(lián)規(guī)則的置信度可知,第(1)、(2)、(3)、(4)、(5)、(6)、(9)規(guī)則屬于強關(guān)聯(lián)規(guī)則,即規(guī)則在數(shù)據(jù)集上的可靠性比較大,因此保留下來。
根據(jù)以上的關(guān)聯(lián)分析可以得出,該農(nóng)資網(wǎng)站的用戶在購買液態(tài)肥時存在某些特征。通過(1)可知用戶購買了I和K,則一定會購買M;通過(6)可知用戶購買了M和Y產(chǎn)品后,一定會購買I;由(2)和(3)可知用戶在購買了I和M產(chǎn)品后,再購買K或Y產(chǎn)品的概率為80%;由(4)可知如果用戶購買了K和M,則有80%的概率購買I產(chǎn)品;由(5)可知購買了I和Y產(chǎn)品的用戶,有80%的概率在購買M產(chǎn)品;由(9)可知如果用戶購買了K產(chǎn)品,則有80%的概率再購買I和M產(chǎn)品,由此可以得出:
(1)I、K產(chǎn)品與M產(chǎn)品之間存在強關(guān)聯(lián)規(guī)則,即用戶在購買I和K產(chǎn)品的同時一定會購買M產(chǎn)品;同樣,M、Y產(chǎn)品和I產(chǎn)品之間也存在強關(guān)聯(lián)規(guī)則,即在購買M和Y產(chǎn)品的同時一定會購買I產(chǎn)品。
(2)I、M產(chǎn)品和K、Y產(chǎn)品的銷售有一定的關(guān)聯(lián)關(guān)系,即在購買I和M產(chǎn)品時,有很大的可能再購買K產(chǎn)品或Y產(chǎn)品;另外,用戶在購買K、M的組合銷售產(chǎn)品時,有很大可能再購買I產(chǎn)品;在購買I、Y的組合銷售產(chǎn)品時,有很大可能再購買M產(chǎn)品。
(3)產(chǎn)品K和I、M產(chǎn)品之間有很大的關(guān)聯(lián)性,所以用戶在購買K產(chǎn)品時很可能同時購買I和M產(chǎn)品。
通過以上的關(guān)聯(lián)規(guī)則分析可以發(fā)現(xiàn),用戶在購買某農(nóng)資網(wǎng)站的農(nóng)資產(chǎn)品時存在某種關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系體現(xiàn)出來的用戶行為特征對改進網(wǎng)站結(jié)構(gòu)有一定的幫助。除此之外,根據(jù)各產(chǎn)品間的關(guān)聯(lián)關(guān)系,該農(nóng)資網(wǎng)站能夠采取合適的促銷手段,充分滿足用戶需求,提高用戶滿意度,從而提高網(wǎng)站的銷售利潤。
農(nóng)資電商作為農(nóng)村電商的重要組成部分近年來得到了快速發(fā)展,對農(nóng)資網(wǎng)站的交易數(shù)據(jù)進行挖掘,分析用戶在購買農(nóng)資產(chǎn)品時存在的某種關(guān)聯(lián)關(guān)系對農(nóng)資電商的發(fā)展具有重要意義。文中采用Apriori算法,對某農(nóng)資網(wǎng)站的交易記錄進行挖掘,通過數(shù)據(jù)挖掘的結(jié)果,分析用戶的行為特征,從而制定相應(yīng)的精準(zhǔn)營銷策略、優(yōu)化網(wǎng)站結(jié)構(gòu),進而提高用戶的滿意度,使農(nóng)資網(wǎng)站獲得新的利潤增長。
參考文獻(xiàn):
[1]周朝進,王玉珍.基于改進協(xié)同過濾算法的農(nóng)產(chǎn)品個性化推薦研究[J].邵陽學(xué)院學(xué)報(自然科學(xué)版),2017,14(06):23-31.
[2]張文斌.購物籃重組與演化及可視化方法研究與設(shè)計[D].深圳:深圳大學(xué),2017.
[3]李偉,朱趙元.一種基于并行矩陣目標(biāo)明確的Apriori算法[J].浙江工業(yè)大學(xué)學(xué)報,2017,45(05):574-579.
[4]吳青,羅儒國,王權(quán)于.基于關(guān)聯(lián)規(guī)則的網(wǎng)絡(luò)學(xué)習(xí)行為實證研究[J].現(xiàn)代教育技術(shù),2015,25(07):88-94.
[5]黃常海,高德毅,胡甚平,等.基于Apriori算法的船舶交通事故關(guān)聯(lián)規(guī)則分析[J].上海海事大學(xué)學(xué)報,2014,35(03):18-22.
[6]翟廣宇,王式功,董繼元,等.蘭州市上呼吸道疾病與氣象條件和空氣質(zhì)量的關(guān)聯(lián)規(guī)則分析[J].蘭州大學(xué)學(xué)報(自然科學(xué)版),2014,50(01):66-70.
[7]晏杰,亓文娟.基于 Aprior& FP-growth 算法的研究[J].計算機系統(tǒng)應(yīng)用,2013,22(05):122-125.
[8]應(yīng)毅,任凱,劉正濤.基于云計算技術(shù)的數(shù)據(jù)挖掘[J].微電子學(xué)與計算機,2013,30(02):161-164.
[9]雷蕾,崔蒙,秘仲凱.關(guān)聯(lián)規(guī)則挖掘在治療肺癌組分中藥發(fā)現(xiàn)中的應(yīng)用研究[J].中國中藥雜志,2010,35(16):2192-2195.