李錦朋,黃貽望,2*
(1. 銅仁學(xué)院大數(shù)據(jù)學(xué)院,銅仁 554300;2. 貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室(貴州大學(xué)),貴陽 550025)
隨著數(shù)據(jù)技術(shù)的發(fā)展,企業(yè)轉(zhuǎn)型數(shù)字化成為必然的趨勢,如何去收集、挖掘、分析大數(shù)據(jù)加快企業(yè)的轉(zhuǎn)型數(shù)字化發(fā)展是企業(yè)信息化的一個重要功能[1]。某餐飲品牌是貴州本土品牌,成立于2013 年,結(jié)合本土各種好茶葉,醞釀出各種好口碑的奶茶,隨著店面不斷增加,銷售數(shù)據(jù)也日益增加,現(xiàn)有簡單的數(shù)據(jù)統(tǒng)計(jì)圖應(yīng)用無法支撐一個企業(yè)快速發(fā)展,根據(jù)某茶飲銷售過程中產(chǎn)生的異構(gòu)數(shù)據(jù),利用支持向量機(jī)(sup?port vector machine,SVM)小樣本算法構(gòu)建基于不同核函數(shù)的銷售額預(yù)測分析模型,通過對不同核函數(shù)下SVM 銷售額預(yù)測模型的對比分析,得到參數(shù)調(diào)優(yōu)后的SVM 銷售額預(yù)測值與實(shí)際銷售額的值進(jìn)行比較[2]。實(shí)驗(yàn)仿真表明,參數(shù)優(yōu)化后的SVM 可減少數(shù)據(jù)中噪聲數(shù)據(jù)的影響,提高了銷售預(yù)測模型的效率[3]。
實(shí)現(xiàn)某茶飲銷售數(shù)據(jù)動態(tài)適時分析與預(yù)測具有重要的意義,能對企業(yè)未來的趨勢進(jìn)行風(fēng)險預(yù)測,并能及時制定解決方案。通過公司的海量數(shù)據(jù)分析出產(chǎn)品與產(chǎn)品之間的關(guān)聯(lián)模式、天氣對企業(yè)銷量的影響等諸多因素。通過圖表觀察數(shù)據(jù)的整體情況可探究歷史企業(yè)整體運(yùn)營情況、業(yè)務(wù)組成,以便了解企業(yè)每個業(yè)務(wù)的動態(tài)發(fā)展變化,所有店鋪及單個店鋪銷售情況、消費(fèi)者(口味、喜好)以及同行的經(jīng)營狀況等,從數(shù)據(jù)到實(shí)際生活等多個維度來定制數(shù)字化服務(wù),從而實(shí)現(xiàn)企業(yè)的快速發(fā)展[4]。
主要貢獻(xiàn):①獲取某茶飲歷史銷售數(shù)據(jù)集及時間段內(nèi)地區(qū)氣溫溫度;②在企業(yè)運(yùn)營系統(tǒng)獲取到的數(shù)據(jù)集進(jìn)行預(yù)處理;③構(gòu)建基于支持向量機(jī)的銷售額預(yù)測模型;④將非線性SVM模型的預(yù)測銷售額與真實(shí)銷售額進(jìn)行對比分析,有比較好的吻合度,說明模型具有較好的泛化性能。
某茶飲銷售額受到多種因素,如天氣溫度、消費(fèi)者購買力、節(jié)假日、門店地域不同等影響,不同的門店位置、不同的人群購買力產(chǎn)生的銷售額不同,選擇消費(fèi)者購買力、天氣溫度、節(jié)假日等特征值建立銷售額關(guān)系的預(yù)測模型,利用支持向量機(jī)(SVM)方法可以實(shí)現(xiàn)銷售額是否達(dá)到預(yù)期目標(biāo)的預(yù)測,有效提升產(chǎn)品的銷售布局和管理決策。
解決辦法是根據(jù)已有的銷售數(shù)據(jù)在模型中的多樣性和學(xué)習(xí)能力之間尋求最好解決方案[11],SVM 解決海量數(shù)據(jù)中非線性問題的核心思想是原始的非線性可分?jǐn)?shù)據(jù)X 可找到一個非線性映射Φ,該映射Φ 將非線性可分的原始特征空間投影到線性可分的高維特征空間F,從而在高維特征空間中實(shí)現(xiàn)樣本的線性分類或回歸[5]。由于SVM 可以實(shí)現(xiàn)對特定訓(xùn)練樣本的學(xué)習(xí)并分類識別,將SVM預(yù)測模型應(yīng)用于銷售額預(yù)測領(lǐng)域,通過對數(shù)據(jù)集的預(yù)處理,使用SVM 可減少噪聲數(shù)據(jù)對預(yù)測的影響并在分析過程中提高了SVM模型的準(zhǔn)確性[6]。
設(shè)有M個數(shù)據(jù)樣本的數(shù)據(jù)集,其中xi∈Rd是d維向量,表示每個數(shù)據(jù)樣本的輸入特征值向量,yi∈{+ 1, - 1} 是每個數(shù)據(jù)樣本的標(biāo)簽,表示樣本屬于的類別,則使用模型對該數(shù)據(jù)集中的樣本進(jìn)行預(yù)測的約束條件為
將 公 式(1)合 并 為yi(ωTxi+b) ≥+1,i=1,2,…,m,其中ω=(ω1,ω2,…,ωd)為特征向量的權(quán)重向量,決定分類超平面的法向量;b為截距,表示超平面與原點(diǎn)之間的距離,記為(ω,b)。
數(shù)據(jù)集中任意樣本x到分類超平面(ω,b)的距離公式寫為
從而優(yōu)化目標(biāo)函數(shù)為
通過對(ω,b)進(jìn)行縮放使得|ωTx+b|= 1,則將式(3)轉(zhuǎn)化為式(4):
為降低基于SVM 銷售額預(yù)測模型的泛化誤差[7],引入松馳變量ξi,將優(yōu)化目標(biāo)轉(zhuǎn)化為
通過引入拉氏(Lagrange)系數(shù),構(gòu)造拉氏函數(shù),將式(5)化為無限制的優(yōu)化問題,拉格朗日乘子αi≥0,i= 1,2,…,N,拉氏函數(shù)如下:
當(dāng)滿足對應(yīng)的KKT條件時,
無約束優(yōu)化問題式(6)轉(zhuǎn)化為相應(yīng)的強(qiáng)對偶問題:
通過求解公式(8)得到原問題的優(yōu)化解,見式(9)。
數(shù)據(jù)集是采用貴州某餐飲品牌實(shí)時銷售數(shù)據(jù),某店 面2015 年1 月1 日 至2021 年7 月31 日每一天的銷售額數(shù)據(jù),數(shù)據(jù)集包含2826 行10 列的時間-銷售金額數(shù)據(jù)。如表1所示。
表1 茶飲銷售數(shù)據(jù)源
為防止多維屬性的強(qiáng)關(guān)聯(lián)對茶飲樣本數(shù)據(jù)質(zhì)量產(chǎn)生噪聲,從而影響模型的可靠性,從一級品類、二級品類、商品名稱、商品編碼、單位、銷售次數(shù)、銷售數(shù)量、銷售金額、退貨數(shù)量、退貨金額等10 個特征中選擇對預(yù)測銷售額影響較大的特征,即樣本空間屬性的降維處理,也就是特征選擇,從而降低預(yù)測過程的復(fù)雜性,同時由于是針對餐飲店銷售額的預(yù)測,將加入影響銷售的外界因素天氣溫度、購買力作為特征值,共計(jì)12 個特征,通過降維到4 個屬性用于模型的訓(xùn)練。圖1為各屬性貢獻(xiàn)值。
圖1 各屬性貢獻(xiàn)值
影響銷售額的參數(shù)有氣溫、購買力、節(jié)假日、銷售數(shù)量,其中氣溫和購買力是長期影響銷售額的因素。
氣溫?cái)?shù)據(jù)從國家氣象網(wǎng)上采集,政府部門發(fā)布的統(tǒng)計(jì)數(shù)據(jù)可提供人群購買力的參考指標(biāo),比如人均收入、消費(fèi)支出等。圖2和圖3是影響銷售額的氣溫和購買力,銷售數(shù)量與銷售額呈正比,隨著節(jié)假日到來,銷售額也會隨之增長,影響銷售額的還有門店位置。
圖2 氣溫
圖3 客戶群購買力
為解決因特征變化而導(dǎo)致的預(yù)測偏差,需要對數(shù)據(jù)集進(jìn)行歸一化處理,這里采用min?max標(biāo)準(zhǔn)化[8],如公式(10)所示。
其中:xi為第i個樣本數(shù)據(jù)屬性值,xmin和xmax是屬性的最小值和最大值。
歸一化后的銷售額數(shù)據(jù)可以提升模型精度和準(zhǔn)確性,圖4(b)是將實(shí)際銷售額數(shù)據(jù)歸一化后的結(jié)果。
圖4 標(biāo)準(zhǔn)化后的數(shù)據(jù)對比
圖5 三種核函數(shù)銷售額預(yù)測對比
將2826 條數(shù)據(jù)分為訓(xùn)練集和預(yù)測集,其中1978 條數(shù)據(jù)作為訓(xùn)練集,848 條數(shù)據(jù)作為測試集[9]。模型訓(xùn)練是基于線性核、多項(xiàng)式核和RBF核三種不同的核函數(shù)進(jìn)行的,通過三種不同核函數(shù)構(gòu)造SVM銷售額數(shù)據(jù)的預(yù)測模型,其中RBF核為高斯核,對應(yīng)的函數(shù)為高斯核函數(shù)(見表2)。
表2 核函數(shù)的表達(dá)式
選取均方誤差(MSE)和平均絕對百分比誤差(MAPE)兩個評價指標(biāo)分別從預(yù)測誤差和預(yù)測精準(zhǔn)度兩個方面對不同核函數(shù)下的SVM 銷售額預(yù)測結(jié)果進(jìn)行對比[10],結(jié)果如表3所示。
表3 三種核函數(shù)銷售額預(yù)測對比
據(jù)統(tǒng)計(jì)分析可知,均方誤差(MSE)越小,表示預(yù)測值與真實(shí)值誤差越小,即分類模型性能越好,也就是說模型的預(yù)測結(jié)果越接近真實(shí)值[11],從表3可知基于高斯核函數(shù)(RBF)的支持向量機(jī)模型的預(yù)測銷售額效果較其余兩個函數(shù)的效果更佳[12]。
為降低預(yù)測銷售額模型的預(yù)測誤差,提高模型的泛化性能,現(xiàn)對RBF 函數(shù)下的SVM 銷售額預(yù)測模型的參數(shù)進(jìn)行優(yōu)化。隨機(jī)選取3組參數(shù)對(σ,δ)進(jìn)行對比實(shí)驗(yàn),其中σ為懲罰參數(shù),δ為多項(xiàng)式函數(shù)的系數(shù),對比結(jié)果如圖6所示[13]。
圖6 基于不同參數(shù)的SVM的預(yù)測結(jié)果對比
對比表3 和表4 銷售預(yù)測模型的MSE、MAPE 和Accuracy,得 到σ=3.00,δ=0.75 時,RBF 核函數(shù)MSE=0.004115,MAPE=0.0964,Accu?racy=92.14%,表明SVM預(yù)測效果較好。
表4 基于不同核函數(shù)銷售額預(yù)測對比
由表4 可知,對參數(shù)調(diào)優(yōu)前后MSE、MAPE的值進(jìn)行對比,發(fā)現(xiàn)參數(shù)調(diào)優(yōu)后模型預(yù)測效果更佳[14]。
將銷售數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練不同核函數(shù)下的SVM 銷售預(yù)測模型,并對RBF 函數(shù)SVM 銷售預(yù)測模型進(jìn)行參數(shù)優(yōu)化,通過對SVM 模型預(yù)測結(jié)果誤差和準(zhǔn)確率進(jìn)行仿真分析,驗(yàn)證了優(yōu)化后模型的有效性,有助于企業(yè)精準(zhǔn)掌握客戶喜好,針對不同的客戶群采用不同的方案進(jìn)行精準(zhǔn)營銷。