亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字貿(mào)易對消費者行為的影響研究

        2024-05-04 03:35:35徐晨旸
        中國商論 2024年7期
        關(guān)鍵詞:數(shù)字貿(mào)易時間序列關(guān)聯(lián)規(guī)則

        摘 要:本文選取2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘,并基于K-means算法對買家進(jìn)行聚類分析,初步篩選出疑似刷單行為的買家和賣家。在剔除這些用戶后,又利用回歸分析法分析賣家獲得評價、信用評價體系、賣家店鋪等級對銷量的影響;采用LSTM算法對銷量數(shù)據(jù)的時間序列進(jìn)行預(yù)測;通過Apriori關(guān)聯(lián)規(guī)則算法找到買家與賣家和商品之間的關(guān)聯(lián)。其中,在賣家獲得評價對銷量的影響中,建立獎勵函數(shù)來描述好評和差評的影響,結(jié)果顯示獎勵函數(shù)與銷量呈正相關(guān)關(guān)系。在信用評價體系對銷量的影響中,服務(wù)和發(fā)貨對銷量的影響較大。賣家店鋪等級,則無明顯關(guān)系。預(yù)測的銷量數(shù)據(jù)雖沒有較好的結(jié)果,但給出了合理的解釋。關(guān)聯(lián)結(jié)果顯示,買家與賣家和商品之間有一定的聯(lián)系,本研究僅供參考。

        關(guān)鍵詞:數(shù)字貿(mào)易;數(shù)據(jù)挖掘;聚類分析;回歸分析;時間序列;關(guān)聯(lián)規(guī)則

        本文索引:徐晨旸.<變量 2>[J].中國商論,2024(07):-085.

        中圖分類號:F063.2;F742 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-0298(2024)04(a)--04

        隨著科技的發(fā)展、移動互聯(lián)網(wǎng)的普及和數(shù)據(jù)傳輸速率的提高,網(wǎng)絡(luò)對人們生活的影響日益顯著。越來越多的人習(xí)慣于網(wǎng)絡(luò)購物,作為電商平臺的佼佼者——淘寶,發(fā)展規(guī)模和電商數(shù)據(jù)可謂是驚人。過去十年,淘寶注冊用戶從2010的3.7億上升至2022年的8億。在此背景下,海量數(shù)據(jù)的背后有著不可估量的價值。如何挖掘、利用數(shù)據(jù)已成為各個行業(yè)、企業(yè)競爭的焦點。本文從數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、總結(jié)與展望,這三步來對2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘。

        1 數(shù)據(jù)預(yù)處理

        1999年,Pyle首次提出并強(qiáng)調(diào)了數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中的重要性,并闡述了數(shù)據(jù)預(yù)處理過程在數(shù)據(jù)挖掘中占據(jù)了60%的時間[1]。

        本文的參考數(shù)據(jù)來自四個文件,dsr.csv(以下簡稱四項評分表)、user.xls(以下簡稱賣家信息表)、trans.csv(以下簡稱詳細(xì)交易表)、rate.txt(以下簡稱賣家評價表)。其中,參考數(shù)據(jù)是從2022年4月10日到2022年10月10日的抽樣數(shù)據(jù)。

        本文先進(jìn)行了數(shù)據(jù)假設(shè),再對上述四個文件進(jìn)行了消除噪聲、缺值數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換等四個操作[2]。數(shù)據(jù)預(yù)處理并不代表之后的數(shù)據(jù)不再處理,只是進(jìn)行了初步的處理,而后對得到的疑似刷單行為的買家和賣家也進(jìn)行了處理。

        1.1 數(shù)據(jù)假設(shè)

        本文做如下假設(shè):

        (1)詳細(xì)交易表中買家購買的數(shù)量是一個整體,不考慮具體時間前后的影響,即先有了評價、四項評分,才有了賣家的銷量。

        (2)賣家評價表中的0代表賣家獲得了中評,對其他買家的影響微乎其微,在考慮評價對銷量的影響時,這部分?jǐn)?shù)據(jù)予以剔除。

        (3)由于抽樣數(shù)據(jù)的不完整性,關(guān)聯(lián)數(shù)據(jù)表之后,對有評價無銷量或者空缺數(shù)據(jù)的數(shù)據(jù),本文認(rèn)為是系統(tǒng)原因造成的無效數(shù)據(jù)予以剔除。

        (4)產(chǎn)品類型是影響消費者購買決策的一個不可忽視的因素[3]。在考慮評價對銷量的影響時,忽略產(chǎn)品類型的影響,也不考慮搜索引擎以及廣告等對銷量的影響,只考慮評價這個單因素。

        (5)買家只購買一位賣家或幾位賣家的商品且購買的數(shù)量超過100將視為惡意刷單用戶。

        1.2 消除噪聲

        買家的四項評價指標(biāo)為0到5的整數(shù)[4],本文將四項評分表中商品得分進(jìn)行了四舍五入處理以消除數(shù)據(jù)收集過程中的系統(tǒng)誤差。自此本文得到處理后的詳細(xì)交易表。

        1.3 缺值數(shù)據(jù)處理

        由于四項評分表的四項評價指標(biāo)(服務(wù)、發(fā)貨、物流、商品得分)存在缺值,需要對其進(jìn)行數(shù)據(jù)處理。常見的方法有:插值法、回歸法、統(tǒng)計估計法等。該表中除物流得分缺值約占24.2%外,其他三項占比不高,服務(wù)得分缺值約占2.2%、發(fā)貨得分缺值約占2.3%、商品得分缺值約占0.9%。對于缺少兩項及以上的數(shù)據(jù)因為只占1.09%左右,本文予以剔除。本文將物流得分作為自變量y,其他三項作為因變量x1、x2、x3進(jìn)行多元線性回歸[6]。由實驗結(jié)果可得,y=0.2479x1+ 0.5919x2+0.145x3,然后用此回歸方程來填補(bǔ)只缺物流得分的記錄條。F值為529030,P值近乎為0,說明回歸的模型較好。自此本文得到處理后的四項評分表。

        1.4 數(shù)據(jù)類型轉(zhuǎn)換

        根據(jù)淘寶賣家店鋪20個等級,本文將賣家信息表中的等級替換成相應(yīng)數(shù)字,如:1星級為1,1鉆為6,1皇冠為11,2紅冠為17。而本身信用得分為0的商家,售出的商品為0,予以剔除。信用得分小于等于3的商家替換成0[5]。自此本文得到處理后的賣家信息表。

        2 數(shù)據(jù)挖掘

        2.1 聚類分析

        模式識別也叫模式分類,可以分為監(jiān)督模式識別與非監(jiān)督模式識別。本文根據(jù)樣本特征將樣本聚成幾個類,使屬于同一類的樣本在一定意義上是相似的,而不同類之間的樣本則有較大差異[7]。這種非監(jiān)督模式識別也稱為聚類。

        本文對詳細(xì)交易表的買家、總費用、購買數(shù)量三列數(shù)據(jù)進(jìn)行了聚類分析,旨在對買方網(wǎng)絡(luò)進(jìn)行分類,根據(jù)其消費水平大致分為三類:低、中、高消費水平。本文一共選取了637192位買家進(jìn)行基于K-means的聚類分析。

        圖1 聚類結(jié)果

        結(jié)果顯示位為低消費水平,254位為中消費水平,6004位為高消費水平。其中藍(lán)色、綠色、紅色分別為低、中、高消費水平的質(zhì)心。

        2.2 回歸分析

        本文對數(shù)據(jù)進(jìn)行說明,回歸分析中的銷量數(shù)據(jù)均指剔除刷單買家后詳細(xì)交易表中買家購買的數(shù)量,而不是賣家信息表和詳細(xì)交易表中的總銷量。且本文假設(shè),具體的時間前后對銷量無影響。

        2.2.1 賣家獲得評價對銷量的影響

        剔除刷單賣家后,關(guān)聯(lián)賣家評價表和詳細(xì)交易表,剔除評價為0的數(shù)據(jù)后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù),賣家獲得了評價但是并沒有銷量,予以剔除。接下來,文章對8094位賣家進(jìn)行分析。

        對于好評和差評,本文建立簡單的獎勵函數(shù)g(ID,x1,x2) = a1x1+a2x2。其中,ID為賣家ID,x1為好評數(shù)量,x2為差評數(shù)量,a1+a2=1。若好評對銷量的影響更顯著,則x1>x2。

        由于刷單以及惡意評價屢見不鮮,購物人群并沒有那么在意口碑。鑒于此,本文假設(shè)好評和差評對銷量的影響相同,即a1=a2=0.5,并算出每個賣家的獎勵得分。最終,本文得到賣家ID-獎勵得分-銷量表。

        以獎勵得分作為自變量,銷量作為因變量進(jìn)行線性回歸分析,得到線性回歸方程:y(銷量)=5.8793+0.5694×獎勵得分。線性回歸圖見圖2。

        圖2 線性回歸

        方程通過F和T檢驗,R2為0.458。R2過小,存在著欠擬合的現(xiàn)象。接下來,對其進(jìn)行多項式回歸而R2反而減小。因此本文并沒有對其修正,一方面疑似刷單賣家并沒有剔除干凈(異常點并不能完全剔除),另一方面賣家數(shù)量比較多,采樣的數(shù)據(jù)不全而且分布并不理想。光從圖像上觀察,本文認(rèn)為結(jié)果已在接受范圍內(nèi)了。

        2.2.2 信用評價體系對銷量的影響[8]

        本文得到詳細(xì)交易表所有賣家9264家的總銷量和10842家賣家的平均四項信用評價體系。兩者根據(jù)賣家ID關(guān)聯(lián)得到7677名賣家ID-銷量-服務(wù)-發(fā)貨-物流-商品表。

        當(dāng)四項評分作為自變量,銷量作為因變量進(jìn)行回歸分析時見表1,自變量都落入拒絕域。此時模型不是太好。

        本文使用AIC法則來選擇最優(yōu)模型,得到最優(yōu)的模型是將服務(wù)和發(fā)貨得分引入模型。新方程通過F和T檢驗,得到回歸方程:y(銷量)=598.9469+30.4838×服務(wù)得分-146.3415×發(fā)貨得分。從方程上來看,銷量與服務(wù)呈正相關(guān),與發(fā)貨得分成反比。更好的解釋是,有部分人覺得產(chǎn)品和服務(wù)并沒有問題,于是產(chǎn)生了銷量,發(fā)貨和物流有一定的關(guān)系,很多人將兩者混淆起來[9],并且發(fā)貨和物流沒有建立完整的體系,所以得分低很好理解。于是,有了銷量、高服務(wù)分卻是較低的發(fā)貨得分。后續(xù)查看數(shù)據(jù)也得到了驗證。

        2.2.3 賣家店鋪等級對銷量的影響

        關(guān)聯(lián)剔除刷單賣家后的賣家信息表和詳細(xì)交易表,得到賣家ID-銷量-店鋪等級表。結(jié)果顯示,店鋪等級與銷量并沒有呈明顯的線性關(guān)系和非線性關(guān)系。店鋪等級和銷量見圖3。

        圖3 店鋪等級-銷量散點圖

        2.3 時間序列分析

        時間序列是指將某種現(xiàn)象某一個統(tǒng)計指標(biāo)在不同時間上的各個數(shù)值,按時間先后順序排列而形成的序列。時間序列法是一種定量預(yù)測方法,亦稱簡單外延方法,在統(tǒng)計學(xué)中作為一種常用的預(yù)測手段被廣泛應(yīng)用,是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法[10]。

        本文對四項評分表的日期進(jìn)行提取,剔除疑似刷單買家和賣家之后,得到賣家ID-買家ID-日期表。累計每個月的1號至31號的銷量,得到日期銷量折線圖。

        圖4 日期銷量折線圖

        其中,31號因只有3天,而1號至30號均有六天,所以31號的銷量明顯比30號少一倍乃至更多。接下來,本文對5月、6月、7月、8月每天銷量數(shù)據(jù)作為學(xué)習(xí)樣本,以9月數(shù)據(jù)作為測試樣本建立LSTM模型。實驗結(jié)果運用均方根誤差(RMSE)作為評價指標(biāo),具體公式如式(1)所示:

        重復(fù)實驗100次,選取RMSEmin=556.25的預(yù)測,得到圖5。其中藍(lán)色為測試樣本,橙色為預(yù)測樣本。

        從圖5看出,每個月的20號左右和月底前幾天的銷量明顯高于其他時間。四項評分表的數(shù)據(jù)來源有兩種:一是買家收到貨物后的及時評分,二是買家收到貨物后的十五天的自動評分。時間序列分析中的銷量是以評分后的銷量來計算的,所以真實的顧客下單時間為月初前幾天和月中15號左右以及月末后幾天。淘寶購物主力還是大學(xué)生群體和工薪階級,工薪階級月中發(fā)工資,大學(xué)生群體月末月初拿到生活費,自然而然這個時間段銷量提升。

        圖5 測試-預(yù)測圖

        圖5結(jié)果顯示,RMSEmin=556.25,預(yù)測的結(jié)果也不是很理想。本身商品的買賣受季節(jié)性波動非常大,而拿節(jié)假日和假期期間的數(shù)據(jù)(5、6、7、8月)來預(yù)測9月數(shù)據(jù)缺乏一定的依據(jù)。在數(shù)據(jù)量較小的情況下進(jìn)行LSTM時間序列分析,導(dǎo)致均方根誤差偏大,預(yù)測準(zhǔn)確性也不是很好。

        2.4 關(guān)聯(lián)規(guī)則分析

        在剔除惡意刷單買家和賣家后,得到買家ID-賣家ID-價格表。本文對買家與賣家和商品進(jìn)行關(guān)聯(lián)。

        本文對數(shù)據(jù)進(jìn)行基于Apriori算法的關(guān)聯(lián),其中最小事務(wù)同時發(fā)生數(shù)為10,最小置信度為0.5,接下來將展示三條數(shù)據(jù)結(jié)果。

        (frozenset({‘120810098}),frozenset({‘277836633s, 5.5}),10,1.0):表示買家ID為120810098的客戶,當(dāng)他購買賣家ID為277836633商家中的商品時,一定會購買價格為5.5元的商品。

        (frozenset({‘128268950}),frozenset({‘89486154s, 800}),12,0.923):表示買家ID為128268950的客戶,當(dāng)他購買賣家ID為89486154商家中的商品時,有92.3%的概率會購買價格為800元的商品。

        (frozenset({‘3,84471847}),frozenset({‘288922974 s}),36, 1.0):表示買家ID為84471847的客戶購買3元價格的商品時,一定是在賣家ID為89486154商家處購得。

        3 總結(jié)與展望

        回顧全文,本文得到如下的結(jié)論和相應(yīng)的展望:

        (1)得到疑似刷單買家和賣家名單。通過后續(xù)的分析發(fā)現(xiàn),雖然剔除名單后的數(shù)據(jù)更準(zhǔn)確,但是刷單玩家并沒有完全剔除干凈,而且也沒有很好的依據(jù)判定刷單等惡意行為。希望后續(xù)能找到很好的依據(jù)來進(jìn)一步剔除刷單玩家。

        (2)將買家聚成三類有一定的效果。但是,低消費水平買家占絕大多數(shù),可以進(jìn)一步考慮分更多的類將低消費水平買家分得更清晰。

        (3)本文建立的獎勵得分與銷量呈線性正相關(guān)關(guān)系,獎勵得分越高,銷量越高。R方太小,模型存在欠擬合現(xiàn)象,后期應(yīng)進(jìn)一步對惡意刷單行為進(jìn)行剔除。如今,口碑影響力越來越大,差評占的比重也越來越大,商家更應(yīng)該提高商品質(zhì)量以減小差評在評價中的比例來提高獎勵得分,最終影響銷量。

        (4)服務(wù)得分和發(fā)貨得分分別與銷量成正比和反比。大家對四項評分太過于武斷、主觀,甚至存在較多的缺失數(shù)據(jù)。對于淘寶,應(yīng)該建立更加完善和激勵的四項評分體系。對于商家,應(yīng)該提升服務(wù)水平。

        (5)店鋪等級與銷量并沒有呈明顯的線性關(guān)系。淘寶店鋪等級就呈現(xiàn)兩頭少中間多的規(guī)律。那時的買家也未過分關(guān)注店鋪等級信息,導(dǎo)致分析的結(jié)果并沒有明顯的關(guān)系。

        (6)時間序列分析的預(yù)測效果并不是很好。樣本量不夠多,且商品的交易受季節(jié)性波動較大,對更大的樣本量可能會有較好的預(yù)測結(jié)果。

        (7)實現(xiàn)買家與賣家和商品之間的關(guān)聯(lián),可以給用戶推送相關(guān)聯(lián)的賣家店鋪的動態(tài)和推薦同價位的商品,以提高客戶滿意度。本文并沒有實現(xiàn)推薦算法,希望后續(xù)能將關(guān)聯(lián)的結(jié)果與推薦算法相結(jié)合,以實現(xiàn)對買家集店鋪、商品類型、價格于一體的推薦功能。

        參考文獻(xiàn)

        鄭躍平. 基于約束數(shù)據(jù)預(yù)處理的Web日志挖掘研究[D].福州: 福州大學(xué),2006.

        張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.

        薛文怡. 電子商務(wù)在線口碑與觀察性學(xué)習(xí)對產(chǎn)品銷售的影響[D].天津: 河北工業(yè)大學(xué),2016.

        龐鑫. 基于演化博弈的淘寶網(wǎng)動態(tài)評分對賣家銷量的影響研究[D].濟(jì)南: 山東大學(xué),2018.

        小狼.五六折? 全新的返利模式[J].電腦迷,2010(20):79.

        劉鋒,譚祥勇,何卓.函數(shù)性線性回歸模型分析方法及其應(yīng)用[J].重慶理工大學(xué)學(xué)報(自然科學(xué)),2015,29(11):135-138.

        顏子寒,張正軍,王雅萍,等.基于加權(quán)馬氏距離的改進(jìn)深度嵌入聚類算法[J].計算機(jī)應(yīng)用,2019,39(S2):122-126.

        韓旭芳. 基于開放API的電子商務(wù)個性化服務(wù)推薦研究[D].石家莊: 石家莊鐵道大學(xué),2011.

        Sakurai Y , Papadimitriou S , Faloutsos C . BRAID: Stream mining through group lag correlations[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005. ACM, 2005.

        楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指數(shù)預(yù)測研究[J].統(tǒng)計研究,2019,36(3):65-77.

        猜你喜歡
        數(shù)字貿(mào)易時間序列關(guān)聯(lián)規(guī)則
        浙江數(shù)字貿(mào)易發(fā)展現(xiàn)狀和趨勢探究
        貿(mào)易強(qiáng)省建設(shè)視角下河南省數(shù)字貿(mào)易發(fā)展策略研究
        基于“鉆石模型”的中國數(shù)字貿(mào)易國際競爭力實證研究
        數(shù)字經(jīng)濟(jì)時代的企業(yè)運營創(chuàng)新變革
        價值工程(2019年3期)2019-02-18 08:47:12
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
        基于時間序列的我國人均GDP分析與預(yù)測
        商(2016年32期)2016-11-24 16:20:57
        基于線性散列索引的時間序列查詢方法研究
        軟件工程(2016年8期)2016-10-25 15:43:57
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關(guān)聯(lián)規(guī)則的計算機(jī)入侵檢測方法
        一本一道久久综合久久| 免费国产不卡在线观看| 亚洲第一幕一区二区三区在线观看 | 精品人妻av区乱码| 亚洲最大av资源站无码av网址 | 99RE6在线观看国产精品| 久久久精品国产亚洲av网麻豆| 国产日韩精品suv| 亚洲最大av资源站无码av网址 | 无码8090精品久久一区| 日韩有码在线一区二区三区合集| 亚洲人成网网址在线看| 亚洲妓女综合网99| 免费高清视频在线观看视频| 青青草手机在线免费观看视频| 国产乱了真实在线观看| 国产亚洲精品自在久久蜜tv| 精品一区二区三区不老少妇| 国产一级一级内射视频| 最近最新中文字幕| 国产精品原创av片国产日韩| 美女被内射很爽的视频网站| 狂野欧美性猛xxxx乱大交| 国产女精品视频网站免费| 久久亚洲一级av一片| 有坂深雪中文字幕亚洲中文| 欧美精品v国产精品v日韩精品| 亚洲AV无码成人品爱| 日本高清成人一区二区三区| 亚洲av高清在线观看一区二区| 蜜桃臀无码内射一区二区三区| 精品人妻一区二区三区蜜桃| 富婆猛男一区二区三区| 午夜成人鲁丝片午夜精品| 国产女人91精品嗷嗷嗷嗷| 青青草视频在线观看精品在线| 中国老熟妇506070| 欧美日韩电影一区| 美女福利视频网址导航| 少妇高潮太爽了在线视频| 国产成人精品三级麻豆|