劉釗勇
(四川化工職業(yè)技術學院,四川 瀘州 646005)
近年來,隨著中國互聯(lián)網的飛速發(fā)展,食用菌行業(yè)在電商領域也發(fā)展迅速,2013年僅在淘寶平臺上的農產品銷售額已達千億元,這一數字相當于2008年淘寶網全網交易額[1]。
食用菌行業(yè)在電商領域的發(fā)展勢頭良好,各種電子商務網站和平臺隨著時間的推移,積累了大量的商業(yè)交易數據和客戶、供應商信息[2]。將這些海量的商業(yè)信息分析并充分利用,發(fā)現商業(yè)和市場運行的潛在規(guī)律,預測食用菌銷售市場的發(fā)展趨勢,從中發(fā)現一些未知、隱藏的有用信息,幫助企業(yè)從宏觀上把握食用菌行業(yè)和銷售市場的發(fā)展方向,更好地為廣大消費者服務。
食用菌商業(yè)數據挖掘是指從海量的食用菌電子商務網站和商業(yè)交易數據中,提取出一些隱含、未知的有一定潛在價值的數據或信息。這些挖掘出的商業(yè)數據在原來商業(yè)數據中是不完整的、模糊的信息,通過數據挖掘得到的是更加清晰完整的信息,以一種清楚解釋和更有價值的方式呈現在決策者面前。通過食用菌商業(yè)數據的挖掘,如對客戶購買的食用菌種類、購買的時間、交易模式等商業(yè)數據的分析,食用菌銷售商可以調整品種和價格,實施更加精準的營銷策略;而生產商則可以即時調整訂單數量和生產時間;同時,通過數據挖掘還可以發(fā)現食用菌電子商務運營的基本規(guī)律,發(fā)掘潛在的客戶和細分的市場,預測未來食用菌市場的發(fā)展趨勢。
而對于食用菌企業(yè)決策者來說,還可以從中發(fā)現產品之間的關聯(lián)關系,如淘寶網上的“猜你喜歡的商品”功能,就可以發(fā)現客戶可能感興趣的商品;在20世紀90年代的美國超市在分析銷售數據時發(fā)現了“啤酒”和“尿布”2個看上去毫無關系的商品會經常被人一起購買[5],尿布和啤酒擺在一起出售使兩個商品的銷量雙雙增加,這是數據挖掘算法關聯(lián)規(guī)則在實際中的成功應用案例[5]。這就是一種產品之間的關聯(lián)關系,食用菌企業(yè)如果發(fā)現了產品間的這種關聯(lián)次第,就可以實行“交叉銷售”的銷售策略,創(chuàng)造新的銷售模式。
食用菌商業(yè)數據挖掘的目的是從海量商業(yè)數據中找到潛在的、有價值的、具有預測性的信息,為商業(yè)決策提供依據。具體在數據挖掘中使用關聯(lián)規(guī)則算法來實現。該關聯(lián)規(guī)則算法以事務數據庫為對象,使用Apriori算法來進行關聯(lián)規(guī)則的數據挖掘[3]。Apriori算法是一種用于挖掘數據集內部關聯(lián)規(guī)則的算法,算法主要分2步,第一步找出商業(yè)數據的頻繁項集;第二步生成關聯(lián)規(guī)則,從而確定商業(yè)數據中項集間的關聯(lián)關系。
生成頻繁項集過程如圖1。
由圖1所示,創(chuàng)建含有k項的商業(yè)數據集,依次對1項集、2項集……k項集進行掃描,接著以給定的最小支持度min_support為閾值,對項集進行篩減,得到頻繁項集L1、L2……Lk。
由第一步中生成的頻繁項集Li和設定的最小可信度min_confidence構成強關聯(lián)規(guī)則。對于每個頻繁項集 Li,如果 Lk?Li,Lk≠ Φ,并且 Confidence(Lk? (Li-Lk))≥min_confidence,則構成強關聯(lián)規(guī)則Lk? (Li-Lk)。
以上2步就是Apriori算法的主要步驟,可以看出求解數據集的頻繁項集是基礎,得到關聯(lián)規(guī)則是算法的目的。由于每生成一個頻繁項集都需要對事務數據庫進行一次掃描,會造成算效率降低,對于數據集較大的商業(yè)數據集將嚴重影響算法性能[4]。因此,為了提高算法效率,需要降低掃描數據庫的次數。
經典Apriori算法在面對數據量較大的數據集時,會因為每次生成頻繁項集而多次掃描事務數據庫,造成算法效率降低。針對這一問題,我們設計了改進的Apriori算法,采用一次性訪問數據庫策略,完成頻繁項集的生成。
算法設計思想:在對經典的Apriori算法進行研究時發(fā)現,每生成一個候選項集就會對數據庫進行一次訪問,沒有利用之前產生的數據,而導致大部分信息被舍棄。因此,開辟新的存儲空間,一次訪問數據庫并記錄相關信息并利用頻繁項集的性質進行剪枝,減少候選項集的數量,加快頻繁項集的生成。
對上述改進算法進行對比試驗。給定一個4條記錄的事務數據集示例:(001,{1,2,3})、(002,{2,3,5})、(003,{1,2,3,4}、(004,{2,5})。設定最小支持度min_Support計數為2,則改進的Apriori算法運行過程如表1所示。
傳統(tǒng)算法與經典Apriori算法對比情況如表2所示。
在食用菌商業(yè)數據集中,使用關聯(lián)規(guī)則挖掘算法對銷售數據進行挖掘可以為制定銷售方案、貨品擺放和進貨選擇提供支持決策。測試試驗以一個有20 000條食用菌銷售數據集為試驗數據,表3僅給出示例數據展示,試驗比較Apriori和改進的Apriori兩種算法在關聯(lián)規(guī)則挖掘時運行時間的消耗情況。
對12 000條的食用菌銷售數據集,用Python語言分別對Apriori和改進的Apriori算法進行編程,兩種算法的運行時間情況比較如圖2所示。
通過以上試驗結果可以看出,改進后的Apriori算法,由于僅訪問一次數據庫,且不會增加候選項集,縮短了算法運行時間,提高了算法效率,并具有較強的穩(wěn)定性。面對記錄多的海量食用菌商業(yè)數據集時具有明顯的優(yōu)勢。
表1 改進的Apriori算法挖掘過程Tab.1 Modified apriorialgorithmic mining process
表2 傳統(tǒng)算法和改進算法運行情況對比Tab.2 Comparing traditional algorithm with improved algorithm
表3 部分購物記錄數據表Tab.3 Partial shopping record data table
食用菌商業(yè)數據挖掘主要通過各種數據挖掘算法來實現,常用的商業(yè)數據挖掘涉及企業(yè)的各個方面,包括企業(yè)的經營、銷售、產品開發(fā)、市場和客戶管理等,其中以客戶和市場營銷的數據挖掘為主。數據挖掘算法主要有分類、回歸、聚類、預測、關聯(lián)等機器學習算法。其中,關聯(lián)規(guī)則算法是商業(yè)信息數據挖掘中的重要算法,他可以反映食用菌電子商務中產品與其它產品之間的相互關系和關聯(lián)性,特別適合海量商業(yè)數據中挖掘出有價值的商品和客戶數據,并發(fā)現他們之間的關聯(lián)關系。本文對數據挖掘的經典Apriori算法進行了改進,相比于經典的Apriori算法,改進的算法只需要對數據庫進行一次訪問,節(jié)省了數據庫的訪問開銷,提升了數據挖掘的效率。該數據挖掘算法可以幫助食用菌企業(yè)分析客戶購買習慣、幫助經銷商制定銷售策略。