基于機器學習算法的服裝直播銷量預測模型

2024-12-31 00:00:00韓鉑李沛

絲綢 2024年7期

關(guān)鍵詞：機器學習

摘要：為了完善直播銷量預測的指標體系，提高直播銷量預測的準確率，本文對比多種機器學習算法，分析服裝直播銷量的影響因素并預測服裝直播銷量。首先，通過文獻分析選取直播銷量的影響因素，并使用Spearman相關(guān)系數(shù)結(jié)合顯著性進行篩選。其次，通過不同機器學習算法建立服裝銷量預測模型。選用R2、MAE、RMSE及MAPE為評價指標，采用5折交叉驗證的方法，測試各模型性能。研究結(jié)果表明：主播粉絲數(shù)、主播近30天場均觀看人次、主播近30天場均坑產(chǎn)、產(chǎn)品價格、產(chǎn)品講解時長、產(chǎn)品近30天歷史銷量、品牌粉絲數(shù)、品牌近30天歷史銷量、折扣這9個因素之間共線性較弱且與直播銷量之間的相關(guān)性顯著，可作為預測模型中的影響因素;預測算法中K近鄰算法和隨機森林算法的表現(xiàn)較好，R2均大于0.98，MAPE均在30.5%以內(nèi)。預測結(jié)果可幫助零售商規(guī)劃庫存，調(diào)整生產(chǎn)計劃，為產(chǎn)品采購、定價、推廣提供數(shù)據(jù)支持。

關(guān)鍵詞：直播銷量預測;機器學習;隨機森林;K近鄰;SVM支持向量機;五折交叉驗證

中圖分類號： TS941.1; F426.86 文獻標志碼： A

電商直播是一種生動且實時的互動模式，為消費者提供豐富的信息，并促進消費者的購買［1］。根據(jù)《第52次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示，至2023年6月，中國電商直播的用戶規(guī)模已經(jīng)達到5.26億人，占總體網(wǎng)民的48.8%。電商直播蓬勃發(fā)展的同時，銷售預測不充分可能會導致供貨調(diào)度不及時，引發(fā)庫存問題，影響消費者滿意度，并造成商家利潤損失［2］。服裝行業(yè)作為零售業(yè)的一大品類，具有變化快、季節(jié)性強的特點［3］。同時，直播銷售的實時性和動態(tài)性導致了直播銷量的不穩(wěn)定性，產(chǎn)品的供給與需求往往得不到合理的平衡［4］。在服裝直播銷售過程中，供過于求會增加倉儲成本，造成產(chǎn)品貶值;供不應(yīng)求則會降低消費者購物體驗，為主播聲譽帶來負面影響［5］。因此，準確預測服裝銷量可以幫助商家優(yōu)化庫存管理，從而制定銷售策略［6］。

由于線上購買可選擇范圍的擴大，因此線上銷售預測比線下銷售預測更具有挑戰(zhàn)性［7］。國內(nèi)外學者基于統(tǒng)計學和機器學習算法在銷量預測方面進行了大量研究，其中傳統(tǒng)的預測方法主要基于統(tǒng)計學。李建斌等［8］通過SARIMA模型預測了非促銷時期電商平臺的醫(yī)藥銷量;Ruitenbeek等［9］采用logistic回歸和Lasso回歸預測了具有季節(jié)性和間歇性需求的商品銷量。然而，由于直播銷量的影響因素較多，傳統(tǒng)的統(tǒng)計學往往不足以預測復雜的決策過程［10］。近年來，機器學習作為一種強大且精準的預測工具，已廣泛應(yīng)用于服裝領(lǐng)域。常用的機器學習預測算法包括BP神經(jīng)網(wǎng)絡(luò)［11］、隨機森林算法［12］、SVM支持向量機［13］、K近鄰算法［14］、LSTM算法［15］等。劉妍兵等［16］通過BP神經(jīng)網(wǎng)絡(luò)，基于9大流行元素，預測了童裝流行元素。羅戎蕾等［17］基于遺傳算法改進的BP神經(jīng)網(wǎng)絡(luò)建立了服裝銷量預測模型，預測了當年同月同品類的服裝銷量。鄭金峰［5］基于模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)，預測了太平鳥品牌的直播銷量。目前，使用機器學習算法預測服裝銷量大多針對某一品牌或某一品類，并且使用的算法類型較為單一。

因此，本文對直播銷量影響因素進行分析，并通過不同機器學習算法，構(gòu)建服裝銷量預測模型。根據(jù)多種指標對比不同機器學習算法模型的預測效果，找出最佳預測方法，為服裝直播銷量預測提供了一種新的思路和方法，并且對于商家生產(chǎn)計劃、庫存管理和營銷策略改進有重大的實踐意義。

1 數(shù)據(jù)與模型構(gòu)建

1.1 影響因素選取

準確預測服裝直播銷量需要深入了解服裝銷量與直播銷量的影響因素，建立科學的預測模型。傳統(tǒng)的服裝銷售預測方法通?；跉v史銷售數(shù)據(jù)和市場趨勢［17］。然而直播方式引入了更多變量，如主播個性、直播內(nèi)容的吸引力、觀眾互動等，使得銷量預測變得更加復雜和多樣化［18］。服裝直播銷量預測既要考慮服裝自身屬性，也要考慮直播相關(guān)因素的影響。本文通過檢索最近10年的相關(guān)文獻，篩選服裝直播銷量的影響因素。第一輪篩選過程中使用服裝直播銷售預測為主題，在中國知網(wǎng)中檢索出相關(guān)文獻3篇。由于文獻數(shù)量較少，第二輪篩選中使用服裝銷售預測和直播銷售預測為主題，期刊文章中選擇北大核心，在中國知網(wǎng)中檢索出相關(guān)文獻33篇。為結(jié)合國外最新研究成果，第三輪篩選在外文數(shù)據(jù)庫Science Direct中進行，輸入相關(guān)關(guān)鍵詞，保留最近的50篇研究。為保證文獻質(zhì)量，對文獻內(nèi)容進行篩選，篩選條件如下：1）文章中提出了服裝銷量預測或直播銷量預測的指標體系;2）排除綜述類文章及針對單一品類的研究;3）文章需要提供研究方法和參數(shù)設(shè)計等重要信息。篩選結(jié)果如表1所示。其中，Xu等［2］結(jié)合產(chǎn)品的文本特征、視覺特征與文本-圖像相似度提出了一種直播電商產(chǎn)品銷售預測的多模態(tài)分析框架，其預測變量包括講解時長、價格、新粉絲數(shù)量、最高觀看人數(shù)、點贊數(shù)、商品數(shù)量、歷史口碑、商品文字描述、商品圖片、文字-圖片一致性、彈幕數(shù)量、彈幕質(zhì)量。Wang等［10］結(jié)合結(jié)構(gòu)方程模型與人工神經(jīng)網(wǎng)絡(luò)，以主播視頻數(shù)、直播次數(shù)、平均停留時長、互動評論個數(shù)、頁面訪問量為影響因素預測直播銷量，該模型的預測準確率達到了83.76%。羅戎蕾等［17］采用遺傳算法優(yōu)化的三層BP神經(jīng)網(wǎng)絡(luò)，以歷史銷量、季節(jié)因素、節(jié)假日因素、品類因素為輸入變量預測了服裝銷量。

以往研究從不同角度構(gòu)建了直播銷量影響因素的指標體系。其中，Xu等［2］使用多模態(tài)分析，從主播角度，探究了主播聲譽對直播銷量的影響并預測了直播銷量。李雪［20］基于AHP和BP神經(jīng)網(wǎng)絡(luò)，從產(chǎn)品、品牌等角度選取影響因素，預測服裝銷量。鄭金峰［22］通過實證分析將消費者直播購買意愿的影響因素劃分為主播因素、直播因素、服裝因素和促銷優(yōu)惠。本文結(jié)合文獻研究中的維度劃分，將影響直播銷量的因素劃分為主播因素、產(chǎn)品因素、品牌因素和促銷因素四個方面。并且，考慮到數(shù)據(jù)的可獲得性，刪除或替換一些無法獲取或難以量化的變量。例如，最高觀看人數(shù)在直播前是無法獲取的，因此用場均最高觀看人數(shù)替代。主播帶貨匹配度等因素難以量化，予以刪除。初步篩選的影響因素如表2所示。

1.2 數(shù)據(jù)來源與數(shù)據(jù)預處理

本文的數(shù)據(jù)均來源于網(wǎng)站灰豚數(shù)據(jù)（dy.huitun.com）。該網(wǎng)站涵蓋大量直播后臺數(shù)據(jù)，覆蓋范圍廣，數(shù)據(jù)量大，常用于服裝直播銷量預測［5，19］，可以反映消費者的直播觀看與購物決策情況。采用分層抽樣的方法，在抖音直播庫中獲取了2023年8月10日—9月30日間30場直播共265條服裝相關(guān)的直播數(shù)據(jù)，其中包含的服裝品類有褲裝、裙裝、外套、襯衫、T恤、衛(wèi)衣等應(yīng)季服裝。在訓練模型之前，需要對數(shù)據(jù)進行缺失值處理。其中，數(shù)值類型的數(shù)據(jù)缺失采用該項的平均值填補，非數(shù)值類型缺失則將整條內(nèi)容刪除，處理后共保留了256條符合規(guī)范的數(shù)據(jù)。將這些數(shù)據(jù)按照85%和15%的比例劃分為訓練集和測試集。

1.3 數(shù)據(jù)歸一化

由于單位不同、量級不同的變量之間很難進行比較，因此需要將數(shù)據(jù)進行歸一化處理，將所有輸入數(shù)據(jù)都固定在比較小的、確定的范圍內(nèi)。常用的歸一化方法有最小最大歸一化、十進制比例歸一化、z-score歸一化等，本文采用最小最大歸一化將數(shù)據(jù)固定在［0，1］內(nèi)，歸一化公式如下所示。

式中：Xi為歸一化前的樣本數(shù)據(jù)，X′為歸一化以后的Xi，Xmin為數(shù)據(jù)中的最小值，Xmax為數(shù)據(jù)中的最大值。

1.4 模型構(gòu)建

1.4.1 變量相關(guān)性

本文初步選取了17個可能影響服裝直播銷量的因素。但是由于不同因素對服裝直播銷量的影響不同，有的因素可能與最終預測結(jié)果相關(guān)性很低。因此，在預測服裝直播銷量之前需要對影響因素進行篩選和分析，從而減少最終預測中可能出現(xiàn)的干擾。通常使用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)來衡量兩個變量之間的相關(guān)性。但由于Pearson相關(guān)系數(shù)會默認兩個變量之間存在線性關(guān)系，而各個影響因素與服裝直播銷量之間的關(guān)系并非都是線性的，當兩變量之間存在顯著的非線性關(guān)系時，它會無法識別［23］。在本文研究中，各個影響因素與服裝直播銷量之間的關(guān)系比較復雜，可能存在非線性關(guān)系。因此，采用Spearman相關(guān)系數(shù)來衡量17個因素之間的相關(guān)性及他們與服裝直播銷量之間的相關(guān)性，Spearman系數(shù)計算公式如下所示。

式中：di為第i個數(shù)據(jù)對的位次值之差，n為總的觀測樣本數(shù)。

1.4.2 算法選擇

通過總結(jié)以往文獻，回歸預測常用的方法主要有線性回歸、隨機森林算法、BP神經(jīng)網(wǎng)絡(luò)算法、SVM算法、決策樹算法和KNN算法等［13，23］。由于本文的影響因素較多，很多因素與服裝直播銷量可能不是線性關(guān)系，因此，線性回歸不適用于構(gòu)建本文的預測模型。以R2值為評價指標，對剩余的五種算法采用五折交叉驗證法進行對比，如圖1所示。由圖1可以看出，BP神經(jīng)網(wǎng)絡(luò)預測的模型擬合效果較差，可能的原因是本文數(shù)據(jù)規(guī)模不大，且影響因素較多，BP神經(jīng)網(wǎng)絡(luò)出現(xiàn)了過擬合現(xiàn)象。決策樹算法的模型擬合結(jié)果一般，且較不穩(wěn)定，因此，本文采用隨機森林算法、KNN算法和SVM算法預測服裝直播銷量。

隨機森林方法由布賴曼提出，是一種將Bagging算法與隨機選擇的特征子集（即隨機子空間方法）相結(jié)合的分類預測算法［24］。隨機森林方法不易發(fā)生過擬合，并且具有較快的訓練速度［25-26］。對于每個訓練樣本，構(gòu)建單獨的決策樹，并基于多數(shù)原則通過投票的方式確定最終的預測結(jié)果。在1～101內(nèi)，步長為10，對決策樹個數(shù)進行尋優(yōu);在1～11內(nèi)，步長為1，對最大特征數(shù)進行尋優(yōu)。根據(jù)十折交叉驗證結(jié)果優(yōu)化，優(yōu)化后的模型中，決策樹個數(shù)為11，最大特征數(shù)為3。

支持向量機（SVM）算法是一種通用的算法，它可以用于分類和回歸問題［27-28］。對于回歸任務(wù)，SVM利用核函數(shù)將輸入數(shù)據(jù)映射到高維、非線性空間，便于超平面的識別［29］。核函數(shù)有許多不同類型，包括多項式（Poly）、徑向基函數(shù)（RBF）、sigmoid和線性函數(shù)，都可以用于預測。本文使用徑向基函數(shù)作為該模型的核函數(shù)。在1～10內(nèi)，步長為0.1，對正則化系數(shù)c進行尋優(yōu);在0.001～1.000內(nèi)，步長為0.002，對核參數(shù)gamma進行尋優(yōu)。根據(jù)十折交叉驗證結(jié)果優(yōu)化，優(yōu)化后的模型中，正則化系數(shù)c為4.1，核參數(shù)gamma為0.897。

K近鄰（KNN）算法是一種有效的監(jiān)督建模算法，可以應(yīng)用于分類和基于回歸的預測，并且具有同等的有效性［30］。它考慮了具有相似特征的兩個緊密發(fā)生的事件［31］。該算法通過使用歐幾里得、曼哈頓或閔可夫斯基三種距離計算方法來計算事件之間的距離，發(fā)現(xiàn)緊密發(fā)生的事件［32］。無論其維度如何，歐氏距離都是兩個位置之間的最短距離［33］。本文利用歐氏距離公式計算兩個樣本之間的距離，通過尋優(yōu)得到鄰居數(shù)為5，并以K條最近鄰數(shù)據(jù)的目標值的平均值為預測結(jié)果。

1.4.3 測量指標與測試指標

在模型訓練過程中，要考察模型的擬合優(yōu)度與預測的準確程度，需要采用不同指標進行度量。通過閱讀以往相關(guān)文獻，本文采用平均絕對誤差（MAE）、均方根誤差（RMSE）、平均絕對百分比誤差（MAPE）和決定系數(shù)R2作為度量三種不同算法預測性能的指標［34-35］，這四種指標的計算公式如下所示。

2 運行結(jié)果分析

2.1 相關(guān)性分析

為了定量分析17個影響因素與服裝直播銷量之間的關(guān)系，本文基于前期采集的數(shù)據(jù)集，使用Spearman相關(guān)系數(shù)分別分析17個影響因素與服裝直播銷量之間的相關(guān)性，同時結(jié)合顯著性進行分析，結(jié)果如圖2所示。由圖2可知，初步選取

的17個影響因素中有10個通過了顯著性檢驗，并且產(chǎn)品近30天歷史銷量與服裝直播銷量之間的相關(guān)性達到了0.804。有7個變量（主播場均點贊數(shù)、主播視頻數(shù)、主播近30天直播次數(shù)、主播場均千次觀看成交額、主播場均停留時長、主播場均直播銷售額、主播場均新增粉絲數(shù)）未通過顯著性檢驗，可能的原因是其中一些變量只是通過其他變量間接影響直播銷量，對直播銷量并沒有直接影響。

由于影響因素之間可能會存在共線性問題，因此需要測量影響因素之間的相關(guān)性。當相關(guān)系數(shù)在0.2～0.4時，表示兩者關(guān)系一般;當相關(guān)系數(shù)在0.4～0.7時，表示兩者關(guān)系緊密;當相關(guān)系數(shù)大于0.7時，表示兩者關(guān)系非常緊密［36］。對通過顯著性檢驗的10個變量進行相關(guān)性分析，結(jié)果如圖3所示。本文以0.7作為閾值［19］，可以看出主播帶貨口碑與主播粉絲數(shù)之間相關(guān)性非常緊密，并且與主播近30天場均坑產(chǎn)之間相關(guān)性也比較緊密，可能會產(chǎn)生共線性問題。

因此，主播帶貨口碑不適合用作模型訓練，本文最終選定主播粉絲數(shù)、主播近30天場均觀看人次、主播近30天場均坑產(chǎn)、產(chǎn)品價格、產(chǎn)品講解時長、產(chǎn)品近30天歷史銷量、品牌粉絲數(shù)、品牌近30天歷史銷量、折扣共9個變量作為預測模型的輸入變量，服裝直播銷量為預測模型的輸出變量，每個變量的基本信息，如表3所示。

2.2 模型預測結(jié)果

預測結(jié)果如圖4和圖5所示。隨機森林算法、SVM支持向量機算法、KNN算法在訓練集上的R2值分別為0.991、0.899、0.981，在測試集上的R2值分別為0.987、0.895、0.980。由此可以看出，隨機森林算法和KNN算法比SVM算法效果更好，在訓練集和測試集上均表現(xiàn)出更高的模型擬合度。

由于機器學習算法結(jié)果具有隨機性，因此采用五折交叉驗證法驗證測試集的預測結(jié)果，如圖6所示。其中綠色三角形代表平均值，黃色橫線代表中位數(shù)。三種算法的模型擬合度均高于最初的五折交叉驗證，且隨機森林算法與KNN算法模型擬合度都達到了0.96以上，模型擬合度較高。箱線圖中箱體長度代表了交叉驗證結(jié)果分布的密集程度及模型的穩(wěn)定性，因此，相對于KNN算法來說，隨機森林算法更加穩(wěn)定，并且由圖6可以看出KNN算法的中位數(shù)明顯小于平均值，這代表結(jié)果為偏態(tài)分布，且存在極大值。因此，隨機森林算法模型的穩(wěn)定性更好，但KNN模型的擬合效果可能出現(xiàn)最優(yōu)。

2.3 模型對比分析

各個模型的評價結(jié)果如表4所示。其中R2代表模型擬合效果好壞，一般來說，R2越趨近于1，表示模型擬合效果越好。由表4可以看出，隨機森林算法和KNN算法的R2在0.9以上，兩種算法的擬合效果皆優(yōu)于SVM支持向量機。由于服裝銷量數(shù)字量級往往較大，因此用均方根誤差（RMSE）來衡量預測值與真實值之間的差距。RMSE越大，預測結(jié)果越穩(wěn)定。其中隨機森林算法的RMSE最小，KNN其次，兩者效果均優(yōu)于SVM支持向量機。平均絕對誤差（MAE）反映了預測值的偏離程度，誤差越大，MAE值也越大。由表4還可以看出，隨機森林算法的MAE值最小，KNN次之，SVM支持向量機最大。與其他指標相比，平均絕對百分比誤差（MAPE）更關(guān)注預測值和真實值間的相對誤差。當MAPE≤50%時，代表預測結(jié)果與真實值間的相對誤差合理;MAPE＞50%，預測結(jié)果不準確［37］。因此，隨機森林算法與KNN算法的預測準確性合理，而SVM支持向量機算法的預測結(jié)果不準確。

綜上，隨機森林算法和KNN算法的各項指標均優(yōu)于SVM算法，預測效果相對較好。根據(jù)五折交叉驗證結(jié)果，隨機森林算法比KNN算法更加穩(wěn)定，并且其R2、RMSE和MAE均優(yōu)于KNN算法。而KNN算法的MAPE小于隨機森林算法，可能的原因是KNN算法預測低銷量商品時準確率更高，所以相對誤差較小。

3 結(jié) 論

通過閱讀相關(guān)文獻，本文挖掘出17個可能與服裝直播銷量相關(guān)的變量，根據(jù)相關(guān)性分析結(jié)果，篩選出10個相關(guān)性檢驗顯著的變量，包括產(chǎn)品近30天歷史銷量、產(chǎn)品講解時長、主播近30天場均觀看人數(shù)、產(chǎn)品價格、品牌近30天歷史銷量、主播近30天場均坑產(chǎn)、折扣、主播粉絲數(shù)、品牌粉絲數(shù)、主播帶貨口碑。其中，產(chǎn)品近30天歷史銷量與服裝直播銷量的相關(guān)性最高，這表示服裝以往是否暢銷會對直播銷量有較大影響。其次，產(chǎn)品講解時長與直播銷量的相關(guān)性也較高，這表示直播中是否著重講解產(chǎn)品也會很大程度影響服裝直播銷量。其他變量與服裝直播銷量的相關(guān)性系數(shù)也較高，為了避免影響因素之間出現(xiàn)共線性問題，本文通過影響因素間的相關(guān)性分析，剔除與其他影響因素相關(guān)性較大的主播帶貨口碑，將其余9個變量納入預測模型。

根據(jù)各模型最終的評估結(jié)果，篩選出2種最適合本模型和數(shù)據(jù)集的算法，分別為隨機森林算法和KNN算法。根據(jù)五折交叉驗證結(jié)果，隨機森林算法與KNN算法相比更加穩(wěn)定，并且其RMSE、MAE都比較低，可能的原因是KNN算法更適用于數(shù)據(jù)特征相似性更強的數(shù)據(jù)集。因此，在實際應(yīng)用中可以將隨機森林作為主要預測算法，以確保整體銷售趨勢預測的穩(wěn)定性。在預測同品牌或同品類服裝產(chǎn)品銷量時，數(shù)據(jù)之間的相似性更高，此時可考慮使用KNN算法進行預測。本文為服裝直播銷量預測提供了一種新的思路和方法，可以幫助商家制定生產(chǎn)計劃，提高庫存管理效率，改進營銷策略。對于服裝商家來說，第一，商家可根據(jù)預測結(jié)果的銷量高低制定未來的生產(chǎn)計劃，確保庫存充足的同時避免貨物積壓。第二，零售商可以根據(jù)主播特征及其持有產(chǎn)品和品牌的相關(guān)特征，將服裝精準投放至直播間。第三，零售商可使用不同的講解時長、產(chǎn)品價格和折扣預測直播銷量，以選擇合適的直播營銷策略。

本文在研究服裝直播銷量時，只考慮了容易量化的因素，而影響服裝直播銷售的因素多種多樣，只對其中一部分進行了探究，在后續(xù)研究過程中需要尋找其他重要影響因素的量化方法。其次，研究過程中樣本分布具有局限性，選取的時間范圍較短，高銷量的樣本數(shù)較少，樣本數(shù)量不足，后續(xù)研究需要更多數(shù)據(jù)支撐。服裝直播銷量的預測模型未來可進一步優(yōu)化調(diào)整，如擴大樣本選取范圍，完善預測指標體系，以達到更精準的預測效果。

參考文獻：

［1］ZHANG M L， LIU Y F， WANG Y， et al. How to retain customers： Understanding the role of trust in live streaming commerce with a socio-technical perspective［J］. Computers in Human Behavior， 2022， 127： 107052.

［2］XU W， CAO Y， CHEN R Y. A multimodal analytics framework for product sales prediction with the reputation of anchors in live streaming e-commerce［J］. Decision Support Systems， 2024， 177： 114104.

［3］汪蕓芳，史意，陳麗華. 基于BP神經(jīng)網(wǎng)絡(luò)及灰色GM（1，1）模型的服裝供應(yīng)鏈第三方庫存預測應(yīng)用研究［J］. 數(shù)學的實踐與認識， 2020， 50（3）： 277-285.

WANG Y F， SHI Y， CHEN L H. Third-party inventory forecasting application research of apparel supply chain based on BP neural network and grey GM （1， 1） model［J］. Mathematics in Practice and Theory， 2020， 50（3）： 277-285.

［4］HE Q Q， WU C Y， SI Y W. LSTM with particle swam optimization for sales forecasting［J］. Electronic Commerce Research and Applications， 2022， 51： 101118.

［5］鄭金峰. 基于模擬退火算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的服裝直播銷售預測研究［D］. 杭州：浙江理工大學， 2023.

ZHENG J F. Research on Clothing Live Broadcast Sales Prediction Based on Simulated Annealing Algorithm Optimized BP Neural Network［D］. Hangzhou： Zhejiang Sci-Tech University， 2023.

［6］孟志青，馬珂，鄭英. 基于核函數(shù)技術(shù)的時尚服裝需求預測方法［J］. 計算機科學， 2016 （增2）： 455-460.

MENG Z Q， MA K， ZHENG Y. Forecasting method for fashion clothing demand based on kernel functions technology［J］. Computer Science， 2016， 43（S2）， 455-460.

［7］LIN Q P， JIA N， CHEN L， et al. A two-stage prediction model based on behavior mining in livestream e-commerce［J］. Decision Support Systems， 2023， 174： 114013.

［8］李建斌，雷鳴顥，戴賓，等. 考慮促銷因素的醫(yī)藥電商平臺需求預測研究［J］. 中國管理科學， 2022， 30（12）： 120-130.

LI J B， LEI M H， DAI B， et al. E-pharmacy demand forecasting in the presence of promotional activities［J］. Chinese Journal of Management Science， 2022， 30（12）： 120-130.

［9］VAN RUITENBEEK R E， KOOLE G， BHULAI S. A hierarchical agglomerative clustering for product sales forecasting［J］. Decision Analytics Journal， 2023， 8： 100318.

［10］WANG L， LI X， ZHU H Y， et al. Influencing factors of livestream selling of fresh food based on a push-pull model： A two-stage approach combining structural equation modeling （SEM） and artificial neural network （ANN）［J］. Expert Systems with Applications， 2023， 212： 118799.

［11］程肖冰，曹麗婷，李蘇建. 基于混合優(yōu)化神經(jīng)網(wǎng)絡(luò)的零售銷量預測［J］. 統(tǒng)計與決策， 2022， 38（6）： 185-188.

CHENG X B， CAO L T， LI S J. Retail sales forecasting based on hybrid optimal neural networks［J］. Statistics amp; Decision， 2022， 38（6）： 185-188.

［12］張晨，邱彤. 基于決策樹集成模型的加油站銷量預測［J］. 計算機與應(yīng)用化學， 2019， 36（6）： 615-619.

ZHANG C， QIU T. Gas station sales forecast based on decision tree integration model［J］. Computers and Applied Chemistry， 2019， 36（6）： 615-619.

［13］何喜軍，馬珊，武玉英，等. 小樣本下多維指標融合的電商產(chǎn)品銷量預測［J］. 計算機工程與應(yīng)用， 2019， 55（15）： 177-184.

HE X J， MA S， WU Y Y， et al. E-commerce product sales forecast with multi-dimensional index integration under small sample［J］. Computer Engineering and Applications， 2019， 55（15）： 177-184.

［14］BANSAL M， GOYAL A， CHOUDHARY A. A comparative analysis of K-nearest neighbor， genetic， support vector machine， decision tree， and long short term memory algorithms in machine learning［J］. Decision Analytics Journal， 2022， 3： 100071.

［15］YOO T W， OH I S. Time series forecasting of agricultural products’ sales volumes based on seasonal long short-term memory［J］. Applied Sciences， 2020， 10（22）： 8169.

［16］劉妍兵，劉倫倫，唐穎. 基于BP神經(jīng)網(wǎng)絡(luò)的童裝流行元素預測［J］. 毛紡科技， 2022， 50（2）： 109-115.

LIU Y B， LIU L L， TANG Y. Prediction of popular elements of children’s wear based on BP neural network［J］. Wool Textile Journal， 2022， 50（2）： 109-115.

［17］羅戎蕾，劉紹華，蘇晨. 基于遺傳算法的BP神經(jīng)網(wǎng)絡(luò)服裝銷售預測方法［J］. 北京郵電大學學報， 2014， 37（4）： 39-43.

LUO R L， LIU S H， SU C. Garment sales forecast method based on genetic algorithm and BP neural network［J］. Journal of Beijing University of Posts and Telecommunications， 2014， 37（4）： 39-43.

［18］林婷婷，曲洪建. 網(wǎng)紅營銷要素對服裝消費者購買意愿的影響［J］. 絲綢， 2019， 56（3）： 54-62.

LIN T T， QU H J. The influence of online celebrity marketing elements on the purchase intention of apparel consumers［J］. Journal of Silk， 2019， 56（3）： 54-62.

［19］孫一文，羅戎蕾. 基于Stacking集成學習的服裝網(wǎng)絡(luò)直播銷量預測［J］. 染整技術(shù)， 2023， 45（4）： 1-5.

SUN Y W， LUO R L. Online live broadcast sales forecast for clothing based on Stacking integrated learning［J］. Textile Dyeing and Finishing Journal， 2023， 45（4）： 1-5.

［20］李雪. 基AHP和BP神經(jīng)網(wǎng)絡(luò)的服裝銷售預測模型的研究及應(yīng)用［D］. 杭州：浙江工商大學， 2014.

LI X. The Research and Application of Clothing Sales Forecasting Model Based on AHP and BP Neural Network［D］. Hangzhou： Zhejiang Gongshang University， 2014.

［21］李蓓蓓. 網(wǎng)紅直播帶貨、品牌認同與消費者購買行為［J］. 商業(yè)經(jīng)濟研究， 2022（14）： 83-85.

LI B B. Influencer live streaming， brand identity and consumer purchasing behavior［J］. Journal of Commercial Economics， 2022（14）： 83-85.

［22］鄭金峰，羅戎蕾. 服裝銷售定量預測方法研究進展［J］. 現(xiàn)代紡織技術(shù)， 2022， 30（2）： 27-35.

ZHENG J F， LUO R L. Research progress on quantitative forecast methods of clothing sales［J］. Advanced Textile Technology， 2022， 30（2）： 27-35.

［23］陳金車. 基于機器學習的西北省會城市空氣污染物濃度預報方法研究［D］. 蘭州：蘭州大學， 2023.

CHEN J C. Research on Forecasting Method of Air Pollutant Concentration in Northwest Provincial Capital Cities Based on Machine Learning［D］. Lanzhou： Lanzhou University， 2023.

［24］BREIMAN L. Random forests［J］. Machine Learning， 2001， 45： 5-32.

［25］BELGIU M， DRAGUT L. Random forest in remote sensing： A review of applications and future directions［J］. ISPRS Journal of Photogrammetry and Remote Sensing， 2016， 114： 24-31.

［26］VERIKAS A， Gelzinis A， BACAUSKIENE M. Mining data with random forests： A survey and results of new tests［J］. Pattern Recognition， 2011， 44（2）： 330-349.

［27］MEMORY L S T. Long short-term memory［J］. Neural Computation， 2010， 9（8）： 1735-1780.

［28］VAPNIK V， GOLOWICH S， SMOLA A. Support vector method for function approximation， regression estimation and signal processing［J］. Advances in Neural Information Processing Systems， 1996（9）： 281-287.

［29］章軍輝，陳明亮，郭曉滿，等. 基于粒子群優(yōu)化支持向量機的紗線質(zhì)量預測［J］. 棉紡織技術(shù)， 2024， 52（4）： 16-22.

ZHANG J H， CHEN M L， GUO X M， et al. Yarn quality prediction based on support vector machine optimized by particle swarm optimization［J］. Cotton Textile Technology， 2024， 52（4）： 16-22.

［30］HANDHAL A M， Al-ABADI A M， CHAFEET H E， et al. Prediction of total organic carbon at Rumaila oil field， Southern Iraq using conventional well logs and machine learning algorithms［J］. Marine and Petroleum Geology， 2020， 116： 104347.

［31］DUDEK G， PELKA P. Pattern similarity-based machine learning methods for mid-term load forecasting： A comparative study［J］. Applied Soft Computing， 2021， 104： 107223.

［32］MAILAGAHA KUMBURE M， LUUKKA P. A generalized fuzzy K-nearest neighbor regression model based on Minkowski distance［J］. Granular Computing， 2022， 7（3）： 657-671.

［33］LIU H， CAI J， ONG Y S. Remarks on multi-output Gaussian process regression［J］. Knowledge-Based Systems， 2018， 144： 102-121.

［34］謝坤，容鈺添，胡奉平，等. 基于數(shù)據(jù)集成的隨機森林算法［J］. 計算機工程， 2020， 46（12）： 290-298.

XIE K， RONG Y T， HU F P， et al. Random forest algorithm based on data integration［J］. Computer Engineering， 2020， 46（12）： 290-298.

［35］張軍凱，孫志鋒. 基于優(yōu)化灰色-馬爾可夫鏈的銷量預測［J］. 現(xiàn)代制造工程， 2019（4）： 7-13.

ZHANG J K， SUN Z F. Sales forecast based on optimized grey-markov chain［J］. Modern Manufacturing Engineering， 2019（4）： 7-13.

［36］卞利花，吉敏全. 青海交通碳排放影響因素及預測研究［J］. 生態(tài)經(jīng)濟， 2019， 35（2）： 35-39.

BIAN L H， JI M Q. Research on influencing factors and prediction of transportation carbon emissions in Qinghai［J］. Ecological Economy， 2019， 35（2）： 35-39.

［37］RAY S， LAMA A， MISHRA P， et al. An ARIMA-LSTM model for predicting volatile agricultural price series with random forest technique［J］. Applied Soft Computing， 2023， 149： 110939.

Apparel livestreaming sales forecasting models based on machine learning algorithms

ZHANG Chi， WANG Xiangrong

HAN Bo， LI Pei

（School of Textiles and Fashion， Shanghai University of Engineering Science， Shanghai 201620， China）

Abstract： With the dramatic increase in the scales of e-commerce livestreaming， the number of e-commerce livestreaming users has reached 48.8% of the overall Internet users in China. The huge supply demand requires live e-commerce stores to improve their dispatching efficiency and reduce inventory. Therefore， in order to avoid retailers’ profit loss， it is necessary to find a more accurate method to predict livestreaming sales.

The sales prediction methods mainly include traditional statistical methods and machine learning algorithms. Due to the instability of livestreaming sales and the large number of influencing factors， traditional statistical methods often fail to predict the sales accurately. To complete the index system of livestreaming sales prediction and improve the accuracy of livestreaming sales prediction， this paper adopted a variety of machine learning algorithms （BP neural network， decision tree （DT）， random forest （RF）， K-nearest neighbor （KNN）， and support vector machine （SVM））， analyzed the influencing factors of apparel livestreaming sales， predicted apparel livestreaming sales， and selected the best performing algorithms. The detailed research process is as follows. Firstly， 17 influencing factors of livestreaming sales were selected through literature review， and nine most important influencing factors were selected by using Spearman’s correlation coefficient combined with significance. Secondly， different machine learning algorithms were used to establish clothing sales prediction models， and the method of 5-fold cross-validation was adopted to initially screen out three algorithms （RF， KNN and SVM） with high and stable model fit with R2 as an indicator. Finally， the parameters of the three algorithms were optimized， and then， three prediction models were constructed. R2， MAE， RMSE and MAPE were used as evaluation indexes， and the optimal algorithms were selected by using the method of 5-fold cross-validation to test the performance of each model.

The results of the study show that： the multicollinearity between the nine factors （number of fans of the anchor， average number of viewers of the anchor in the last 30 days， average pit output of the anchor in the last 30 days， product price， duration of product explanation， historical sales of the product in the last 30 days， number of fans of the brand， historical sales of the brand in the last 30 days， and discounts） is weak and their correlation with the livestreaming sales is significant. Therefore， these nine factors can be used as influencing factors in the prediction model. Among the influencing factors， the correlation among product sales in the last 30 days， the duration of product explanation and livestreaming sales is the highest. In the meanwhile， the prediction algorithms， KNN and RF perform better， with R2 being greater than 0.98 and MAPE within 30.5%. Compared with the KNN algorithm， the RF algorithm is more stable， and its R2， RMSE and MAE perform better than those of the KNN algorithm. But the MAPE of the KNN algorithm is smaller than that of the RF algorithm， for which the possible reason is that the KNN algorithm is more accurate in predicting low sales items， and the relative error is smaller. According to the result of 5-fold cross-validation， the RF algorithm is more stable compared with the KNN algorithm， and the possible reason is that the KNN algorithm is more suitable for the dataset with more similar data features. Therefore， RF can be used as the main prediction algorithm in practical applications to ensure the stability of the overall sales trend prediction. In predicting the sales of the same brand or the same category， the similarity between the data is higher， and then the KNN algorithm can be considered for prediction.

This paper compares the performance of various prediction algorithms on livestreaming sales prediction， optimizes the parameters and improves the accuracy of livestreaming sales prediction. The prediction results can help retailers make inventory planning， adjust production schedules， develop marketing strategies， and provide data support for product purchasing， pricing， and promotion. Due to the fact that only some of the easily quantifiable influencing factors are explored in this paper and the sample distribution is limited， future research can expand the scope of sample selection and further improve the predictive indicator system to achieve more accurate predictions.

Key words： live-streaming sales forecasting; machine learning; random forest （RF）; K-nearest neighbors （KNN）; support vector machine （SVM）; 5-fold cross-validation

收稿日期： 2023-12-18; 修回日期： 2024-05-29

作者簡介：韓鉑（2001），女，碩士研究生，研究方向為服裝市場營銷。通信作者：李沛，副教授，博士，pacywu@126.com。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機器學習算法的服裝直播銷量預測模型