亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字貿(mào)易對消費(fèi)者行為的影響研究

        2024-05-04 03:35:35徐晨旸
        中國商論 2024年7期
        關(guān)鍵詞:數(shù)字貿(mào)易時(shí)間序列關(guān)聯(lián)規(guī)則

        摘 要:本文選取2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘,并基于K-means算法對買家進(jìn)行聚類分析,初步篩選出疑似刷單行為的買家和賣家。在剔除這些用戶后,又利用回歸分析法分析賣家獲得評價(jià)、信用評價(jià)體系、賣家店鋪等級對銷量的影響;采用LSTM算法對銷量數(shù)據(jù)的時(shí)間序列進(jìn)行預(yù)測;通過Apriori關(guān)聯(lián)規(guī)則算法找到買家與賣家和商品之間的關(guān)聯(lián)。其中,在賣家獲得評價(jià)對銷量的影響中,建立獎(jiǎng)勵(lì)函數(shù)來描述好評和差評的影響,結(jié)果顯示獎(jiǎng)勵(lì)函數(shù)與銷量呈正相關(guān)關(guān)系。在信用評價(jià)體系對銷量的影響中,服務(wù)和發(fā)貨對銷量的影響較大。賣家店鋪等級,則無明顯關(guān)系。預(yù)測的銷量數(shù)據(jù)雖沒有較好的結(jié)果,但給出了合理的解釋。關(guān)聯(lián)結(jié)果顯示,買家與賣家和商品之間有一定的聯(lián)系,本研究僅供參考。

        關(guān)鍵詞:數(shù)字貿(mào)易;數(shù)據(jù)挖掘;聚類分析;回歸分析;時(shí)間序列;關(guān)聯(lián)規(guī)則

        本文索引:徐晨旸.<變量 2>[J].中國商論,2024(07):-085.

        中圖分類號:F063.2;F742 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-0298(2024)04(a)--04

        隨著科技的發(fā)展、移動(dòng)互聯(lián)網(wǎng)的普及和數(shù)據(jù)傳輸速率的提高,網(wǎng)絡(luò)對人們生活的影響日益顯著。越來越多的人習(xí)慣于網(wǎng)絡(luò)購物,作為電商平臺的佼佼者——淘寶,發(fā)展規(guī)模和電商數(shù)據(jù)可謂是驚人。過去十年,淘寶注冊用戶從2010的3.7億上升至2022年的8億。在此背景下,海量數(shù)據(jù)的背后有著不可估量的價(jià)值。如何挖掘、利用數(shù)據(jù)已成為各個(gè)行業(yè)、企業(yè)競爭的焦點(diǎn)。本文從數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、總結(jié)與展望,這三步來對2022年抽樣的淘寶數(shù)據(jù)進(jìn)行分析與挖掘。

        1 數(shù)據(jù)預(yù)處理

        1999年,Pyle首次提出并強(qiáng)調(diào)了數(shù)據(jù)預(yù)處理在數(shù)據(jù)挖掘過程中的重要性,并闡述了數(shù)據(jù)預(yù)處理過程在數(shù)據(jù)挖掘中占據(jù)了60%的時(shí)間[1]。

        本文的參考數(shù)據(jù)來自四個(gè)文件,dsr.csv(以下簡稱四項(xiàng)評分表)、user.xls(以下簡稱賣家信息表)、trans.csv(以下簡稱詳細(xì)交易表)、rate.txt(以下簡稱賣家評價(jià)表)。其中,參考數(shù)據(jù)是從2022年4月10日到2022年10月10日的抽樣數(shù)據(jù)。

        本文先進(jìn)行了數(shù)據(jù)假設(shè),再對上述四個(gè)文件進(jìn)行了消除噪聲、缺值數(shù)據(jù)處理、數(shù)據(jù)類型轉(zhuǎn)換等四個(gè)操作[2]。數(shù)據(jù)預(yù)處理并不代表之后的數(shù)據(jù)不再處理,只是進(jìn)行了初步的處理,而后對得到的疑似刷單行為的買家和賣家也進(jìn)行了處理。

        1.1 數(shù)據(jù)假設(shè)

        本文做如下假設(shè):

        (1)詳細(xì)交易表中買家購買的數(shù)量是一個(gè)整體,不考慮具體時(shí)間前后的影響,即先有了評價(jià)、四項(xiàng)評分,才有了賣家的銷量。

        (2)賣家評價(jià)表中的0代表賣家獲得了中評,對其他買家的影響微乎其微,在考慮評價(jià)對銷量的影響時(shí),這部分?jǐn)?shù)據(jù)予以剔除。

        (3)由于抽樣數(shù)據(jù)的不完整性,關(guān)聯(lián)數(shù)據(jù)表之后,對有評價(jià)無銷量或者空缺數(shù)據(jù)的數(shù)據(jù),本文認(rèn)為是系統(tǒng)原因造成的無效數(shù)據(jù)予以剔除。

        (4)產(chǎn)品類型是影響消費(fèi)者購買決策的一個(gè)不可忽視的因素[3]。在考慮評價(jià)對銷量的影響時(shí),忽略產(chǎn)品類型的影響,也不考慮搜索引擎以及廣告等對銷量的影響,只考慮評價(jià)這個(gè)單因素。

        (5)買家只購買一位賣家或幾位賣家的商品且購買的數(shù)量超過100將視為惡意刷單用戶。

        1.2 消除噪聲

        買家的四項(xiàng)評價(jià)指標(biāo)為0到5的整數(shù)[4],本文將四項(xiàng)評分表中商品得分進(jìn)行了四舍五入處理以消除數(shù)據(jù)收集過程中的系統(tǒng)誤差。自此本文得到處理后的詳細(xì)交易表。

        1.3 缺值數(shù)據(jù)處理

        由于四項(xiàng)評分表的四項(xiàng)評價(jià)指標(biāo)(服務(wù)、發(fā)貨、物流、商品得分)存在缺值,需要對其進(jìn)行數(shù)據(jù)處理。常見的方法有:插值法、回歸法、統(tǒng)計(jì)估計(jì)法等。該表中除物流得分缺值約占24.2%外,其他三項(xiàng)占比不高,服務(wù)得分缺值約占2.2%、發(fā)貨得分缺值約占2.3%、商品得分缺值約占0.9%。對于缺少兩項(xiàng)及以上的數(shù)據(jù)因?yàn)橹徽?.09%左右,本文予以剔除。本文將物流得分作為自變量y,其他三項(xiàng)作為因變量x1、x2、x3進(jìn)行多元線性回歸[6]。由實(shí)驗(yàn)結(jié)果可得,y=0.2479x1+ 0.5919x2+0.145x3,然后用此回歸方程來填補(bǔ)只缺物流得分的記錄條。F值為529030,P值近乎為0,說明回歸的模型較好。自此本文得到處理后的四項(xiàng)評分表。

        1.4 數(shù)據(jù)類型轉(zhuǎn)換

        根據(jù)淘寶賣家店鋪20個(gè)等級,本文將賣家信息表中的等級替換成相應(yīng)數(shù)字,如:1星級為1,1鉆為6,1皇冠為11,2紅冠為17。而本身信用得分為0的商家,售出的商品為0,予以剔除。信用得分小于等于3的商家替換成0[5]。自此本文得到處理后的賣家信息表。

        2 數(shù)據(jù)挖掘

        2.1 聚類分析

        模式識別也叫模式分類,可以分為監(jiān)督模式識別與非監(jiān)督模式識別。本文根據(jù)樣本特征將樣本聚成幾個(gè)類,使屬于同一類的樣本在一定意義上是相似的,而不同類之間的樣本則有較大差異[7]。這種非監(jiān)督模式識別也稱為聚類。

        本文對詳細(xì)交易表的買家、總費(fèi)用、購買數(shù)量三列數(shù)據(jù)進(jìn)行了聚類分析,旨在對買方網(wǎng)絡(luò)進(jìn)行分類,根據(jù)其消費(fèi)水平大致分為三類:低、中、高消費(fèi)水平。本文一共選取了637192位買家進(jìn)行基于K-means的聚類分析。

        圖1 聚類結(jié)果

        結(jié)果顯示位為低消費(fèi)水平,254位為中消費(fèi)水平,6004位為高消費(fèi)水平。其中藍(lán)色、綠色、紅色分別為低、中、高消費(fèi)水平的質(zhì)心。

        2.2 回歸分析

        本文對數(shù)據(jù)進(jìn)行說明,回歸分析中的銷量數(shù)據(jù)均指剔除刷單買家后詳細(xì)交易表中買家購買的數(shù)量,而不是賣家信息表和詳細(xì)交易表中的總銷量。且本文假設(shè),具體的時(shí)間前后對銷量無影響。

        2.2.1 賣家獲得評價(jià)對銷量的影響

        剔除刷單賣家后,關(guān)聯(lián)賣家評價(jià)表和詳細(xì)交易表,剔除評價(jià)為0的數(shù)據(jù)后,發(fā)現(xiàn)部分?jǐn)?shù)據(jù),賣家獲得了評價(jià)但是并沒有銷量,予以剔除。接下來,文章對8094位賣家進(jìn)行分析。

        對于好評和差評,本文建立簡單的獎(jiǎng)勵(lì)函數(shù)g(ID,x1,x2) = a1x1+a2x2。其中,ID為賣家ID,x1為好評數(shù)量,x2為差評數(shù)量,a1+a2=1。若好評對銷量的影響更顯著,則x1>x2。

        由于刷單以及惡意評價(jià)屢見不鮮,購物人群并沒有那么在意口碑。鑒于此,本文假設(shè)好評和差評對銷量的影響相同,即a1=a2=0.5,并算出每個(gè)賣家的獎(jiǎng)勵(lì)得分。最終,本文得到賣家ID-獎(jiǎng)勵(lì)得分-銷量表。

        以獎(jiǎng)勵(lì)得分作為自變量,銷量作為因變量進(jìn)行線性回歸分析,得到線性回歸方程:y(銷量)=5.8793+0.5694×獎(jiǎng)勵(lì)得分。線性回歸圖見圖2。

        圖2 線性回歸

        方程通過F和T檢驗(yàn),R2為0.458。R2過小,存在著欠擬合的現(xiàn)象。接下來,對其進(jìn)行多項(xiàng)式回歸而R2反而減小。因此本文并沒有對其修正,一方面疑似刷單賣家并沒有剔除干凈(異常點(diǎn)并不能完全剔除),另一方面賣家數(shù)量比較多,采樣的數(shù)據(jù)不全而且分布并不理想。光從圖像上觀察,本文認(rèn)為結(jié)果已在接受范圍內(nèi)了。

        2.2.2 信用評價(jià)體系對銷量的影響[8]

        本文得到詳細(xì)交易表所有賣家9264家的總銷量和10842家賣家的平均四項(xiàng)信用評價(jià)體系。兩者根據(jù)賣家ID關(guān)聯(lián)得到7677名賣家ID-銷量-服務(wù)-發(fā)貨-物流-商品表。

        當(dāng)四項(xiàng)評分作為自變量,銷量作為因變量進(jìn)行回歸分析時(shí)見表1,自變量都落入拒絕域。此時(shí)模型不是太好。

        本文使用AIC法則來選擇最優(yōu)模型,得到最優(yōu)的模型是將服務(wù)和發(fā)貨得分引入模型。新方程通過F和T檢驗(yàn),得到回歸方程:y(銷量)=598.9469+30.4838×服務(wù)得分-146.3415×發(fā)貨得分。從方程上來看,銷量與服務(wù)呈正相關(guān),與發(fā)貨得分成反比。更好的解釋是,有部分人覺得產(chǎn)品和服務(wù)并沒有問題,于是產(chǎn)生了銷量,發(fā)貨和物流有一定的關(guān)系,很多人將兩者混淆起來[9],并且發(fā)貨和物流沒有建立完整的體系,所以得分低很好理解。于是,有了銷量、高服務(wù)分卻是較低的發(fā)貨得分。后續(xù)查看數(shù)據(jù)也得到了驗(yàn)證。

        2.2.3 賣家店鋪等級對銷量的影響

        關(guān)聯(lián)剔除刷單賣家后的賣家信息表和詳細(xì)交易表,得到賣家ID-銷量-店鋪等級表。結(jié)果顯示,店鋪等級與銷量并沒有呈明顯的線性關(guān)系和非線性關(guān)系。店鋪等級和銷量見圖3。

        圖3 店鋪等級-銷量散點(diǎn)圖

        2.3 時(shí)間序列分析

        時(shí)間序列是指將某種現(xiàn)象某一個(gè)統(tǒng)計(jì)指標(biāo)在不同時(shí)間上的各個(gè)數(shù)值,按時(shí)間先后順序排列而形成的序列。時(shí)間序列法是一種定量預(yù)測方法,亦稱簡單外延方法,在統(tǒng)計(jì)學(xué)中作為一種常用的預(yù)測手段被廣泛應(yīng)用,是一種動(dòng)態(tài)數(shù)據(jù)處理的統(tǒng)計(jì)方法[10]。

        本文對四項(xiàng)評分表的日期進(jìn)行提取,剔除疑似刷單買家和賣家之后,得到賣家ID-買家ID-日期表。累計(jì)每個(gè)月的1號至31號的銷量,得到日期銷量折線圖。

        圖4 日期銷量折線圖

        其中,31號因只有3天,而1號至30號均有六天,所以31號的銷量明顯比30號少一倍乃至更多。接下來,本文對5月、6月、7月、8月每天銷量數(shù)據(jù)作為學(xué)習(xí)樣本,以9月數(shù)據(jù)作為測試樣本建立LSTM模型。實(shí)驗(yàn)結(jié)果運(yùn)用均方根誤差(RMSE)作為評價(jià)指標(biāo),具體公式如式(1)所示:

        重復(fù)實(shí)驗(yàn)100次,選取RMSEmin=556.25的預(yù)測,得到圖5。其中藍(lán)色為測試樣本,橙色為預(yù)測樣本。

        從圖5看出,每個(gè)月的20號左右和月底前幾天的銷量明顯高于其他時(shí)間。四項(xiàng)評分表的數(shù)據(jù)來源有兩種:一是買家收到貨物后的及時(shí)評分,二是買家收到貨物后的十五天的自動(dòng)評分。時(shí)間序列分析中的銷量是以評分后的銷量來計(jì)算的,所以真實(shí)的顧客下單時(shí)間為月初前幾天和月中15號左右以及月末后幾天。淘寶購物主力還是大學(xué)生群體和工薪階級,工薪階級月中發(fā)工資,大學(xué)生群體月末月初拿到生活費(fèi),自然而然這個(gè)時(shí)間段銷量提升。

        圖5 測試-預(yù)測圖

        圖5結(jié)果顯示,RMSEmin=556.25,預(yù)測的結(jié)果也不是很理想。本身商品的買賣受季節(jié)性波動(dòng)非常大,而拿節(jié)假日和假期期間的數(shù)據(jù)(5、6、7、8月)來預(yù)測9月數(shù)據(jù)缺乏一定的依據(jù)。在數(shù)據(jù)量較小的情況下進(jìn)行LSTM時(shí)間序列分析,導(dǎo)致均方根誤差偏大,預(yù)測準(zhǔn)確性也不是很好。

        2.4 關(guān)聯(lián)規(guī)則分析

        在剔除惡意刷單買家和賣家后,得到買家ID-賣家ID-價(jià)格表。本文對買家與賣家和商品進(jìn)行關(guān)聯(lián)。

        本文對數(shù)據(jù)進(jìn)行基于Apriori算法的關(guān)聯(lián),其中最小事務(wù)同時(shí)發(fā)生數(shù)為10,最小置信度為0.5,接下來將展示三條數(shù)據(jù)結(jié)果。

        (frozenset({‘120810098}),frozenset({‘277836633s, 5.5}),10,1.0):表示買家ID為120810098的客戶,當(dāng)他購買賣家ID為277836633商家中的商品時(shí),一定會(huì)購買價(jià)格為5.5元的商品。

        (frozenset({‘128268950}),frozenset({‘89486154s, 800}),12,0.923):表示買家ID為128268950的客戶,當(dāng)他購買賣家ID為89486154商家中的商品時(shí),有92.3%的概率會(huì)購買價(jià)格為800元的商品。

        (frozenset({‘3,84471847}),frozenset({‘288922974 s}),36, 1.0):表示買家ID為84471847的客戶購買3元價(jià)格的商品時(shí),一定是在賣家ID為89486154商家處購得。

        3 總結(jié)與展望

        回顧全文,本文得到如下的結(jié)論和相應(yīng)的展望:

        (1)得到疑似刷單買家和賣家名單。通過后續(xù)的分析發(fā)現(xiàn),雖然剔除名單后的數(shù)據(jù)更準(zhǔn)確,但是刷單玩家并沒有完全剔除干凈,而且也沒有很好的依據(jù)判定刷單等惡意行為。希望后續(xù)能找到很好的依據(jù)來進(jìn)一步剔除刷單玩家。

        (2)將買家聚成三類有一定的效果。但是,低消費(fèi)水平買家占絕大多數(shù),可以進(jìn)一步考慮分更多的類將低消費(fèi)水平買家分得更清晰。

        (3)本文建立的獎(jiǎng)勵(lì)得分與銷量呈線性正相關(guān)關(guān)系,獎(jiǎng)勵(lì)得分越高,銷量越高。R方太小,模型存在欠擬合現(xiàn)象,后期應(yīng)進(jìn)一步對惡意刷單行為進(jìn)行剔除。如今,口碑影響力越來越大,差評占的比重也越來越大,商家更應(yīng)該提高商品質(zhì)量以減小差評在評價(jià)中的比例來提高獎(jiǎng)勵(lì)得分,最終影響銷量。

        (4)服務(wù)得分和發(fā)貨得分分別與銷量成正比和反比。大家對四項(xiàng)評分太過于武斷、主觀,甚至存在較多的缺失數(shù)據(jù)。對于淘寶,應(yīng)該建立更加完善和激勵(lì)的四項(xiàng)評分體系。對于商家,應(yīng)該提升服務(wù)水平。

        (5)店鋪等級與銷量并沒有呈明顯的線性關(guān)系。淘寶店鋪等級就呈現(xiàn)兩頭少中間多的規(guī)律。那時(shí)的買家也未過分關(guān)注店鋪等級信息,導(dǎo)致分析的結(jié)果并沒有明顯的關(guān)系。

        (6)時(shí)間序列分析的預(yù)測效果并不是很好。樣本量不夠多,且商品的交易受季節(jié)性波動(dòng)較大,對更大的樣本量可能會(huì)有較好的預(yù)測結(jié)果。

        (7)實(shí)現(xiàn)買家與賣家和商品之間的關(guān)聯(lián),可以給用戶推送相關(guān)聯(lián)的賣家店鋪的動(dòng)態(tài)和推薦同價(jià)位的商品,以提高客戶滿意度。本文并沒有實(shí)現(xiàn)推薦算法,希望后續(xù)能將關(guān)聯(lián)的結(jié)果與推薦算法相結(jié)合,以實(shí)現(xiàn)對買家集店鋪、商品類型、價(jià)格于一體的推薦功能。

        參考文獻(xiàn)

        鄭躍平. 基于約束數(shù)據(jù)預(yù)處理的Web日志挖掘研究[D].福州: 福州大學(xué),2006.

        張治斌,劉威.淺析數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].數(shù)字技術(shù)與應(yīng)用,2017(10):216-217.

        薛文怡. 電子商務(wù)在線口碑與觀察性學(xué)習(xí)對產(chǎn)品銷售的影響[D].天津: 河北工業(yè)大學(xué),2016.

        龐鑫. 基于演化博弈的淘寶網(wǎng)動(dòng)態(tài)評分對賣家銷量的影響研究[D].濟(jì)南: 山東大學(xué),2018.

        小狼.五六折? 全新的返利模式[J].電腦迷,2010(20):79.

        劉鋒,譚祥勇,何卓.函數(shù)性線性回歸模型分析方法及其應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2015,29(11):135-138.

        顏?zhàn)雍?,張正軍,王雅萍,?基于加權(quán)馬氏距離的改進(jìn)深度嵌入聚類算法[J].計(jì)算機(jī)應(yīng)用,2019,39(S2):122-126.

        韓旭芳. 基于開放API的電子商務(wù)個(gè)性化服務(wù)推薦研究[D].石家莊: 石家莊鐵道大學(xué),2011.

        Sakurai Y , Papadimitriou S , Faloutsos C . BRAID: Stream mining through group lag correlations[C]// Proceedings of the ACM SIGMOD International Conference on Management of Data, Baltimore, Maryland, USA, June 14-16, 2005. ACM, 2005.

        楊青,王晨蔚.基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)的全球股票指數(shù)預(yù)測研究[J].統(tǒng)計(jì)研究,2019,36(3):65-77.

        猜你喜歡
        數(shù)字貿(mào)易時(shí)間序列關(guān)聯(lián)規(guī)則
        浙江數(shù)字貿(mào)易發(fā)展現(xiàn)狀和趨勢探究
        貿(mào)易強(qiáng)省建設(shè)視角下河南省數(shù)字貿(mào)易發(fā)展策略研究
        基于“鉆石模型”的中國數(shù)字貿(mào)易國際競爭力實(shí)證研究
        數(shù)字經(jīng)濟(jì)時(shí)代的企業(yè)運(yùn)營創(chuàng)新變革
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價(jià)體系中的應(yīng)用
        基于時(shí)間序列的我國人均GDP分析與預(yù)測
        商(2016年32期)2016-11-24 16:20:57
        基于線性散列索引的時(shí)間序列查詢方法研究
        軟件工程(2016年8期)2016-10-25 15:43:57
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測方法
        国产一区二区熟女精品免费| 久久国产精品波多野结衣av| 日本一区二区啪啪视频| 日本精品久久中文字幕| 亚洲第一网站免费视频| 国产av无码专区亚洲av毛网站| 成午夜福利人试看120秒| 熟妇激情内射com| 二区三区视频| 亚洲中文字幕在线第二页| 亚洲女同精品一区二区久久| 国产极品美女高潮无套| 激情综合一区二区三区| 中文 国产 无码免费| 精品国模人妻视频网站| 午夜无码一区二区三区在线观看| 99久久国产福利自产拍| 91高清国产经典在线观看| 成人精品国产亚洲av久久| 亚洲av毛片在线免费观看 | 国内露脸少妇精品视频| 国产精品va在线观看无码| 亚洲高清有码在线观看| 亚洲97成人精品久久久| 国产在线视频91九色| 美女av一区二区三区| 国产偷v国产偷v亚洲偷v| 国产综合精品久久久久成人| 日本免费看一区二区三区| 人妻诱惑中文字幕在线视频| 国产成人午夜无码电影在线观看| 亚洲欧美一区二区三区| 日韩无码电影| 白嫩少妇高潮喷水av| 欧美颜射内射中出口爆在线| 内射少妇36p九色| 日日噜噜夜夜狠狠2021| 最新中文字幕亚洲一区| 国产精品亚洲αv天堂无码| 国产精品亚洲А∨天堂免下载| 午夜宅男成人影院香蕉狠狠爱|