黃宇承,吳麗麗
(1.甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070;2.湖南都市職業(yè)學(xué)院,湖南 長沙 410137)
huangyu7630@sina.com;wull@gsau.edu.cn
在電商平臺銷售農(nóng)產(chǎn)品成為當前農(nóng)產(chǎn)品流通的一種新型電子商務(wù)模式。商務(wù)部的數(shù)據(jù)顯示,2020 年上半年全國農(nóng)產(chǎn)品網(wǎng)絡(luò)零售額達1,937.7億元,同比增長39.7%,比2019 年上半年增速高了6 個百分點。特別是近兩年,更多的人愿意通過電商平臺購買農(nóng)產(chǎn)品。甘肅省是馬鈴薯及其制品的主要產(chǎn)地,馬鈴薯及其制品是典型的特色農(nóng)產(chǎn)品,通過電商平臺銷售是其主要的營銷渠道之一。馬鈴薯及其制品在電商平臺的銷售使傳統(tǒng)銷售中受種植環(huán)境、保存條件、南北差異等因素影響而導(dǎo)致農(nóng)民受損的情況得到改善,不僅使特色農(nóng)產(chǎn)品的銷售具有及時性和準確性,同時降低了銷售成本和風(fēng)險。關(guān)聯(lián)規(guī)則分析能挖掘出銷售記錄中與銷售量相關(guān)聯(lián)的屬性和強關(guān)聯(lián)規(guī)則記錄,對指導(dǎo)馬鈴薯及其制品的種植和加工具有實際意義。
關(guān)聯(lián)規(guī)則分析是發(fā)現(xiàn)大數(shù)據(jù)對象之間隱含的關(guān)聯(lián)關(guān)系、相互影響,以及根據(jù)一(多)個事件的發(fā)生對另一(多)個事件所產(chǎn)生的反應(yīng),通過現(xiàn)象發(fā)現(xiàn)本質(zhì),以便更好地為決策提供理論依據(jù)。針對馬鈴薯及其制品在電商平臺的銷售記錄,一方面品種、品種規(guī)格、品牌、產(chǎn)地和單價、月銷售量可以反映消費者的購買意向;另一方面可以反映馬鈴薯及其制品的生產(chǎn)地所產(chǎn)出的不同產(chǎn)品的銷售量,可推斷出不同產(chǎn)地的何種馬鈴薯有利于銷售或指導(dǎo)種植生產(chǎn)。因此,本文采用Python語言運行關(guān)聯(lián)規(guī)則算法Apriori算法、DHP算法和FP-Growth算法,從而比較三種算法中哪種算法運算時間最短;將運算時間最短的FP-Growth算法在馬鈴薯及其制品的銷售數(shù)據(jù)集中運行得到頻繁項集,并找出其月銷售量和其他因素間的關(guān)聯(lián)關(guān)系,以期促進特色農(nóng)產(chǎn)品在電商平臺中銷售的良性發(fā)展,同時指導(dǎo)特色農(nóng)產(chǎn)品的正確種植和加工。
特色農(nóng)產(chǎn)品在電商平臺銷售得好壞與產(chǎn)品的品種、規(guī)格、品牌建設(shè)與推廣、生產(chǎn)地及售價相關(guān)。搜集淘寶、拼多多等常用電商平臺中的馬鈴薯及其制品的銷售數(shù)據(jù),結(jié)合甘肅省農(nóng)業(yè)科學(xué)院馬鈴薯研究所對馬鈴薯品種的研究,經(jīng)過數(shù)據(jù)清洗后的馬鈴薯及其制品的部分銷售數(shù)據(jù)如表1所示,通過關(guān)聯(lián)規(guī)則分析得出月銷售量與品種、規(guī)格、品牌、產(chǎn)地、銷售價格之間的關(guān)系。
表1 馬鈴薯及其制品在電商平臺的銷售記錄(部分)Tab.1 Sales records of potatoes and their products on E-commerce platform (part)
支持度計算公式如下:
置信度計算公式如下:
Apriori算法采用逐層搜索的迭代方法,對數(shù)據(jù)集多次遍歷,并且將每次遍歷所得的頻繁項集作為搜索項集,產(chǎn)生新的候選項集,對候選項集進行篩選,找到頻繁項集,依次循環(huán),直到?jīng)]有找到更長的頻繁項集為止。要找到最終頻繁項集需完成兩個步驟,即連接步和剪枝步,在頻繁項集中找出強關(guān)聯(lián)規(guī)則。
DHP算法是Apriori算法的優(yōu)化,基本過程與Apriori相同,生效于Apriori算法的剪枝步過程中。在第次掃描時,生成每個事務(wù)的+1項集,代入一個Hash函數(shù)中,生成一個Hash表,建立項集的Hash表,同時記錄每個桶中的元素個數(shù)。
當生成+1時,將×自連接產(chǎn)生的結(jié)果先代入上述Hash函數(shù),若所落入該桶的計數(shù)小于最小支持閾值,則該元素必定不為頻繁項集,故可以過濾掉,不放入+1中。所有具有相同Hash值的項的總個數(shù)小于最小支持閾值,如:Hash(,)=4,Hash(,)=4,不妨假設(shè)4 號桶的元素個數(shù)小于最小支持閾值,則單個的(,)個數(shù)也必定小于最小支持閾值,故可排除。
FP-Growth算法巧妙地將樹型結(jié)構(gòu)引入算法中,它采取如下分治策略:提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-Tree),但仍保留項集關(guān)聯(lián)信息。該算法和Apriori算法最大的不同有兩點:
第一,不產(chǎn)生候選集。
第二,只需要兩次遍歷數(shù)據(jù)集,大大提高了效率。
現(xiàn)在對馬鈴薯在電商平臺的部分銷售情況通過FPGrowth算法進行關(guān)聯(lián)規(guī)則分析,分析流程用表2的事務(wù)數(shù)據(jù)集舉例說明,用代號I描述馬鈴薯及其制品品種、規(guī)格、品牌、產(chǎn)地、價格、月銷售量,假設(shè)最小支持度計數(shù)為2。
表2 事務(wù)數(shù)據(jù)集DTab.2 Transaction dataset D
FP-Growth算法對數(shù)據(jù)集只需要掃描兩次:
第一次掃描,先對事務(wù)數(shù)據(jù)集的所有項進行支持度計數(shù),若有最小支持度小于2的項集則刪除。以支持度計數(shù)進行降序排序,得到頻繁1-項集,如表3所示。
表3 頻繁1-項集Tab.3 Frequent 1-itemsets
第二次掃描數(shù)據(jù)集,構(gòu)建FP樹,如圖1所示。
圖1 構(gòu)建FP樹Fig.1 Building FP tree
然后挖掘頻繁項集:按照從下往上的順序,首先考慮I,得到條件模式基<(I,I:1)>,<(I,I,I:1)>構(gòu)造FP樹,刪除小于支持度的節(jié)點,形成單條路徑后進行組合,得到I的頻繁項集:{{I,I:2},{I,I:2},{I,I,I:2}}。其次考慮I,得到條件模式基<(I,I:1)>,<(I:1)>構(gòu)造條件FP樹,得到I的頻繁項集:{{I,I:2}}。第三考慮I,得到條件模式基<(I,I:2)>,<(I:2)>,<(I:2)>構(gòu)造條件FP樹,由于此樹不是單一路徑,需要遞歸挖掘I,從而得到I的條件模式基<(I:2)>,I和I的條件模式基為<(I:2)>構(gòu)造條件FP樹,得到I的頻繁項集{{I,I:4},{I,I:4},{I,I,I:2}}。最后考慮I,得到條件模式基<(I:4)>構(gòu)造條件FP樹,得到I的頻繁項集{I,I:4}。
Apriori算法、DHP算法和FP-Growth算法的性能在數(shù)據(jù)集記錄數(shù)固定的情況下與其運算速度息息相關(guān)。在進行馬鈴薯及其制品在電商平臺的銷售數(shù)據(jù)的關(guān)聯(lián)規(guī)則實驗時,在1,000余條銷售數(shù)據(jù)固定的情況下,設(shè)置置信度固定為80%,支持度有變化,分別設(shè)置為2%、4%、6%、8%、12%、14%、16%、18%、20%、22%,使三種算法在對馬鈴薯及其制品在電商平臺的銷售數(shù)據(jù)進行挖掘時,不同支持度下的運行時間發(fā)生變化,所花時間越少,則證明該種算法的效率越高,性能也越高。圖2是Apriori、DHP和FPGrowth算法的運行時間,通過實驗得出FP-Growth算法更優(yōu)于Apriori算法和DHP算法。
圖2 三種算法運行時間比較Fig.2 Comparison of running time of three algorithms
采用三種算法中運行時間最短的FP-Growth算法對馬鈴薯及其制品在電商平臺的銷售數(shù)據(jù)集進行數(shù)據(jù)挖掘,設(shè)置最小置信度為80%,最小支持度為20%,得到一組強關(guān)聯(lián)規(guī)則記錄:{品種,規(guī)格,品牌,產(chǎn)地,單價},挖掘結(jié)果中部分置信度相對較大的記錄如表4所示。
表4 馬鈴薯及其制品在電商平臺的銷售關(guān)聯(lián)規(guī)則挖掘結(jié)果(部分)Tab.4 Association rule mining results of potatoes and their products sold on E-commerce platform (part)
根據(jù)挖掘結(jié)果得到甘肅省各地在電商平臺中銷售較好的馬鈴薯及其制品,如表5所示。通過表5間接反映各地銷售較好的品種是該地大面積種植和加工的農(nóng)產(chǎn)品,又表明各地銷售較好的品種受到消費者的喜愛。(1)隴薯15號以產(chǎn)地蘭州市和定西市銷售較好,但均無品牌,蘭州市的價格在4.0 元/斤以下,定西市為1.0—4.0 元/斤。針對隴薯15號,可以加大品牌建設(shè),定西市的價格跨度較大,蘭州市的價格在4.0 元/斤以下,在保證馬鈴薯品質(zhì)和低價穩(wěn)定不變的同時將高價降低0.5—1.0 元/斤,從而提高市場競爭力。(2)L1192-4銷量較好的是定西市,價格適中,但只有少量是有品牌的,可以加大品牌建設(shè)和推廣。(3)隴薯5號銷量較好的有定西市、平?jīng)鍪小⑽渫?,定西市的價格比平?jīng)鍪泻臀渫械?,但只有少量有品牌,平?jīng)鍪杏衅放?,武威市無品牌,可提升定西市和武威市無品牌土豆的品牌機制,將價格調(diào)整至定西市的價格水平,同時保證產(chǎn)品品質(zhì)。(4)隴薯7號是強關(guān)聯(lián)規(guī)則記錄中最多的,以定西市、平?jīng)鍪小⑽渫袖N量較佳,定西市大部分有品牌,平?jīng)鍪?、武威市有品牌,價格屬武威市最低,三市的價格差別不大,將該品種的土豆種植推廣至周邊其他市更有利于銷售。(5)大西洋(ck)以定西市、平?jīng)鍪?、隴南市銷量較好,定西市少數(shù)有品牌、平?jīng)鍪杏衅放?,隴南市無品牌,其中定西市的價格最低,隴南市的價格最高,價格差最高達3.5元/斤,在定西市對大西洋(ck)品種加大品牌推廣力度的同時保持價格穩(wěn)定,而在隴南市加大品牌推廣力度的同時則適當降低價格。(6)土豆粉銷售較好的有蘭州市、定西市、臨夏回族自治州、天水市,價格差較大,僅定西市大部分有品牌,質(zhì)量難以把控,可在對其價格進行監(jiān)督的同時對加工質(zhì)量進行管控。(7)土豆片(薯片)僅蘭州市銷量較好,且建立有品牌機制,可在定西市等土豆產(chǎn)出較多的市增設(shè)加工廠,同時大力建立品牌機制。
表5 數(shù)據(jù)挖掘結(jié)果中各電商平臺月銷售較好的馬鈴薯及其制品Tab.5 Potatoes and their products with better monthly sales on E-commerce platforms from the results of data mining
(續(xù)表)
消費者對農(nóng)產(chǎn)品的購買意向和興趣度相關(guān),關(guān)聯(lián)規(guī)則的興趣度有正關(guān)聯(lián)規(guī)則興趣度和負關(guān)聯(lián)規(guī)則興趣度。判斷消費者對購買馬鈴薯及其制品的興趣度,求正關(guān)聯(lián)規(guī)則即可,即馬鈴薯及其制品關(guān)聯(lián)規(guī)則本身的置信度與它所包含的月銷售量的交易支持度的差,其公式是:
規(guī)則的興趣度=規(guī)則的置信度-月銷售量的支持度
由表4挖掘結(jié)果中所得的置信度和所設(shè)置的月銷售量的支持度之差,可以得出其興趣度,結(jié)果如表6所示。通過興趣度計算結(jié)果得出,強關(guān)聯(lián)規(guī)則的銷售記錄消費者購買的興趣度在70%以上,推斷出消費者在后期購買馬鈴薯及其制品時大部分人會選擇再次購買。
表6 消費者的購買興趣度(部分)Tab.6 Consumers' purchase interest (part)
本文通過采用Python語言實現(xiàn)Apriori、DHP、FPGrowth三種算法,比較得出FP-Growth算法性能更優(yōu)于另外兩種算法。同時,采用性能更優(yōu)的FP-Growth算法對馬鈴薯及其制品在電商平臺的銷售數(shù)據(jù)集進行關(guān)聯(lián)規(guī)則分析,得到馬鈴薯及其制品在電商平臺銷售的強關(guān)聯(lián)規(guī)則記錄,將甘肅省各地銷售較好的品種進行分析,以指導(dǎo)馬鈴薯及其制品的種植和加工,同時分析得出消費者購買的興趣度在70%以上,由此可以推斷大多數(shù)消費者的再次購買意向。