摘要:隨著互聯(lián)網(wǎng)技術(shù)和電子商務(wù)的快速發(fā)展,越來越多的企業(yè)開始涉足電子商務(wù)領(lǐng)域。但由于缺乏對用戶行為的深入理解及分析,很多企業(yè)不能很好地把握市場需求并制定營銷策略。因此,如何有效地挖掘潛在客戶群體,發(fā)現(xiàn)其消費(fèi)習(xí)慣及購買力,進(jìn)而為企業(yè)提供有價(jià)值的信息就變得尤為重要。本文提出了一種基于圖數(shù)據(jù)的電商用戶特征分析方法。本文首先介紹了電商用戶特征研究的背景與意義,接著闡述了該方面相關(guān)工作的現(xiàn)狀,并總結(jié)歸納出當(dāng)前存在的主要問題,然后詳細(xì)描述了本研究所使用的理論知識和數(shù)據(jù)處理方法,最后,介紹了方法的實(shí)現(xiàn)過程,并對未來工作進(jìn)行展望。
一、引言
隨著時(shí)代的發(fā)展,人們對于生活各方面都提出了新的要求。在其中,電子商務(wù)行業(yè)得到了飛速的發(fā)展,已經(jīng)成為我國經(jīng)濟(jì)體系中不可或缺的一部分。由于目前市場上存在大量的電商平臺和商家,所以如何從這些龐大的數(shù)據(jù)當(dāng)中獲取有價(jià)值、有意義的信息變得十分重要。本文旨在解決這一問題,通過有效的分析方法為后續(xù)工作奠定基礎(chǔ)。本文主要分為以下步驟:首先,需要明確電商用戶數(shù)據(jù)的特點(diǎn);其次,確定相應(yīng)的數(shù)據(jù)分析方式以及相關(guān)算法;最后,結(jié)合實(shí)際情況,選擇合適的工具完成數(shù)據(jù)處理。綜上所述,本文主要解決電商用戶數(shù)據(jù)進(jìn)行深入挖掘,找出有用的信息,分析用戶特征,預(yù)測購買行為,以此作為企業(yè)決策制定的參考依據(jù)[1]。
目前,國內(nèi)外學(xué)者已經(jīng)提出了多種用于分析和處理電商用戶數(shù)據(jù)的方法,利用多種技術(shù)理論實(shí)現(xiàn)用戶畫像的構(gòu)建[2-3]。但由于這些方法都存在著各自不同的局限之處,所以并不適用于所有類型的數(shù)據(jù)。例如,在一些特定領(lǐng)域內(nèi),傳統(tǒng)的統(tǒng)計(jì)分析法就無法發(fā)揮出應(yīng)有的作用。另外,如果想要利用機(jī)器學(xué)習(xí)等先進(jìn)手段來實(shí)現(xiàn)對用戶行為模式的預(yù)測,那么還必須具備足夠多的訓(xùn)練樣本[4-5]。鑒于此,本文擬采用基于圖數(shù)據(jù)的分析方法[6-7](Graph-Based Analysis)結(jié)合數(shù)據(jù)挖掘的相關(guān)技術(shù)[8],對電商用戶的基本屬性及消費(fèi)習(xí)慣進(jìn)行分析,以得出更加全面可靠的結(jié)論為目的。
二、相關(guān)技術(shù)概述
在對電商用戶數(shù)據(jù)進(jìn)行挖掘時(shí),需要先了解具體情況和需求。因此,可以將這些數(shù)據(jù)與已有的數(shù)據(jù)相結(jié)合來實(shí)現(xiàn)這一目的。而要想完成這項(xiàng)任務(wù),就必須首先明確哪些數(shù)據(jù)是已經(jīng)存在并且具有一定意義的,然后再從這些數(shù)據(jù)中找出能夠滿足當(dāng)前需求的部分。這樣一來,不僅可以節(jié)省時(shí)間、提高效率,還有助于更好地把握住市場動向。本文采用K-means算法[9-10]對電商用戶數(shù)據(jù)進(jìn)行挖掘。該算法主要包括以下幾個(gè)步驟:①確定初始化參數(shù);②計(jì)算每個(gè)樣本到質(zhì)心之間的距離;③按照最小距離原則把樣本劃分成若干簇;④更新各個(gè)簇中的中心值并重新計(jì)算新的質(zhì)心;⑤重復(fù)以上操作直到達(dá)到最大迭代次數(shù)或滿足終止條件。在整個(gè)過程當(dāng)中,需要不斷地調(diào)整k值以使得目標(biāo)函數(shù)取得最優(yōu)解。由于K-means算法具有簡單、高效等優(yōu)點(diǎn)而被廣泛應(yīng)用于各種領(lǐng)域。例如,在電子商務(wù)行業(yè),它可以用來發(fā)現(xiàn)不同消費(fèi)者群體所偏愛的商品類型以及他們各自的消費(fèi)習(xí)慣。
三、 基于圖數(shù)據(jù)的電商用戶特征分析
(一)問題描述
在對電商用戶進(jìn)行數(shù)據(jù)分析時(shí),首先需要明確研究內(nèi)容以及獲取數(shù)據(jù)的方式。為了更好地滿足用戶的需求,就必須充分掌握用戶使用該平臺的情況、習(xí)慣以及行為等,并據(jù)此制定出合理有效的營銷策略[11]。這也就是說,只有全面深入地理解用戶的需求,才能真正實(shí)現(xiàn)精準(zhǔn)化營銷。為此,本文提出一種基于圖數(shù)據(jù)挖掘技術(shù)的電商用戶數(shù)據(jù)分析模型,以期達(dá)到這一目標(biāo)。具體來說,在構(gòu)建電商用戶特征分析模型時(shí)需要解決如下三個(gè)問題:
①如何對電商用戶進(jìn)行準(zhǔn)確分類;
②如何利用已有的用戶數(shù)據(jù)對未來可能出現(xiàn)的新用戶群體進(jìn)行預(yù)測;
③如何針對不同類別的用戶采取相應(yīng)的個(gè)性化推薦措施。
(二)數(shù)據(jù)預(yù)處理
在完成電商用戶數(shù)據(jù)的收集和整理后,就需要對這些海量、雜亂無章的用戶數(shù)據(jù)進(jìn)行進(jìn)一步篩選。首先,刪除那些無用或者錯(cuò)誤的數(shù)據(jù);其次,要從大量數(shù)據(jù)中提取出有用的信息,確保所獲取到的信息能夠準(zhǔn)確地反映當(dāng)前用戶的真實(shí)情況以及他們的需求。為達(dá)到這一個(gè)目的,可以采用一些數(shù)據(jù)處理技術(shù),例如聚類算法,以挖掘出擁有相似性的用戶群體,并利用這個(gè)群體代表整個(gè)電商用戶群體。另外,也可以使用關(guān)聯(lián)規(guī)則的方式,發(fā)現(xiàn)用戶的某些潛在規(guī)律,進(jìn)而更好地理解用戶的行為模式。在對數(shù)據(jù)進(jìn)行處理時(shí),最重要的是確定哪些數(shù)據(jù)應(yīng)該保留下來,用于分析用戶的特征,同時(shí)又有哪些數(shù)據(jù)應(yīng)該舍棄不用。本文使用K-MEANS算法,其基本思路為將一個(gè)給定的數(shù)據(jù)集劃分成K個(gè)不同的子集,并計(jì)算每個(gè)子集中各個(gè)樣本之間的距離。
(三)用戶特征聚類
用戶特征具有一定的穩(wěn)定性,且一些重要特征是影響購買意愿的核心因素[12]。選取性別、年齡、職業(yè)、平臺月登錄次數(shù)以及月瀏覽總時(shí)長作為用戶特征屬性,并將每位用戶使用向量的形式進(jìn)行表示(詳見公式1)。每個(gè)向量包含5個(gè)分量,分別代表不同的特征屬性。在進(jìn)行聚類分析之前,需要將性別、年齡和職業(yè)進(jìn)行數(shù)字化處理,然后將所有特征屬性在指定范圍內(nèi)進(jìn)行歸一化處理,使得K-MEANS算法更加順利地執(zhí)行收斂,同時(shí)更加有效地進(jìn)行統(tǒng)計(jì)分析。
①對于性別屬性,0代表男性、1代表女性;
②我們將年齡屬性分為以下范圍:18歲以下、(18,30]、(30,40]、(40,50]、(50,60]以及60歲以上,并使用1-6代表各年齡段范圍;
③根據(jù)國家統(tǒng)計(jì)局的行業(yè)劃分標(biāo)準(zhǔn),我們將職業(yè)劃分為20個(gè)類別,使用1-20分別代表各職業(yè)類別。
接下來,我們使用最小-最大規(guī)范法(詳見公式2)將以上屬性轉(zhuǎn)換至0-1之間。K-MEANS算法根據(jù)數(shù)字化及歸一化處理后的特征屬性值進(jìn)行聚類,得到的每個(gè)子類代表具有相似屬性值的電商用戶集合。
= [Tsex,Tage,Tjob,Tfre,Ttime]
(公式1:電商用戶特征屬性向量)
T ' = (Tdata-Tmin)/(Tmax-Tmin)
(公式2:用戶特征屬性歸一化公式)
(四)用戶特征表示
在完成數(shù)據(jù)和信息的收集后,可以利用相應(yīng)的數(shù)據(jù)分析工具來進(jìn)一步挖掘。通過對數(shù)據(jù)處理與整合,最終可以得出反映出用戶行為和偏好的用戶特征。為了更直觀地展示用戶特征,本文采用圖建模技術(shù),將這些特征以可視化的形式展示給用戶。具體來說,我們首先建立一個(gè)用于描述用戶特征的帶權(quán)無向圖G=(V,E),其中V是節(jié)點(diǎn)集,E是邊集合。其中,每條邊都連接兩個(gè)節(jié)點(diǎn),代表了兩組不同的用戶群體;然后定義頂點(diǎn)之間的關(guān)系,即用戶i具有的屬性值Xij表示該用戶是否屬于某個(gè)特定的類別,如果Xij∈{1,-1}則說明該用戶屬于某一類,否則不屬于任何一種。邊的權(quán)值表示通過聚類后,每個(gè)類別之間的相似程度。
(五)用戶特征關(guān)聯(lián)分析
在對用戶特征進(jìn)行挖掘后,需要將其與電商平臺中已有的相關(guān)用戶數(shù)據(jù)進(jìn)行匹配,以更準(zhǔn)確地了解用戶需求、數(shù)量和偏好等。這可以幫助企業(yè)更加準(zhǔn)確地把握市場動向和消費(fèi)者的消費(fèi)傾向,為后續(xù)的經(jīng)營活動提供支持。因此,本文利用Python編程語言構(gòu)建一個(gè)包含有節(jié)點(diǎn)與帶權(quán)邊的用戶特征關(guān)聯(lián)網(wǎng)絡(luò);然后使用NodeXL庫讀取已經(jīng)建立好的網(wǎng)絡(luò)結(jié)構(gòu)文件并導(dǎo)入其中,最后調(diào)用Cypher以及Numpy庫完成對用戶特征關(guān)聯(lián)網(wǎng)絡(luò)的可視化操作。通過這種方式,可以更直觀地展現(xiàn)出用戶在某一時(shí)間段內(nèi)購買了哪些產(chǎn)品及相關(guān)的信息,進(jìn)而挖掘出用戶潛在的購物偏好。
四、 研究方法的實(shí)現(xiàn)過程
(一)數(shù)據(jù)處理過程
首先,我們需要對收集到的電商平臺中的用戶數(shù)據(jù)進(jìn)行初步處理。通過數(shù)據(jù)預(yù)處理,能夠獲取準(zhǔn)確、可靠且高質(zhì)量的數(shù)據(jù),從而提供有價(jià)值的信息,以供后續(xù)的數(shù)據(jù)分析和挖掘。數(shù)據(jù)清洗和數(shù)據(jù)集成是數(shù)據(jù)處理的兩個(gè)重要步驟,數(shù)據(jù)清洗包括去除不相干的信息、噪聲、缺失值和異常值,而數(shù)據(jù)集成則是將不同的數(shù)據(jù)源整合為一個(gè)統(tǒng)一的數(shù)據(jù)存儲格式。
由于電子商務(wù)收集的數(shù)據(jù)通常存在缺陷和噪聲,因此采取了一些措施來解決這個(gè)問題。首先,了解這些缺陷的來源和形成機(jī)制,然后根據(jù)這些信息來處理這些缺陷。缺失值可能由多種原因造成,包括人為操作和機(jī)械設(shè)備故障。人為操作可能包括受訪者未能提供有效的個(gè)人信息,或者數(shù)據(jù)輸入人員疏忽大意而造成數(shù)據(jù)的丟失。數(shù)據(jù)丟失的原因可以歸納為完全丟失、偶然丟失和非偶然丟失三種。為處理丟失值,可以采取刪除、插入和不進(jìn)行處理三種方法。然后將得到的數(shù)據(jù)集按照7∶3比例劃分為訓(xùn)練集和測試集。接著使用Python編程語言分別調(diào)用Matplotlib、Scikit-Learn庫以及GraphX工具包構(gòu)建用戶畫像模型,并計(jì)算其準(zhǔn)確率。最后,比較不同算法下的用戶畫像模型,來驗(yàn)證本文提出方法在電商用戶數(shù)據(jù)挖掘上的有效性。本文使用AUC指標(biāo)衡量特征分析方法的精準(zhǔn)度,從而方便驗(yàn)證商家市場地位對于用戶購買行為的影響。
(二)驗(yàn)證過程
在這項(xiàng)研究中,將比較四組不同模型的預(yù)測能力。這些模型考慮了商業(yè)地位因素,并使用不同比例的樣本進(jìn)行訓(xùn)練。根據(jù)這四組不同的模型來評估它們的預(yù)測能力,然后,可以通過計(jì)算均方誤差(MSE)和決定系數(shù)(R2)來衡量所提出的算法性能。
接下來,從原始數(shù)據(jù)集中提取有價(jià)值的信息以便進(jìn)一步處理。首先,需要確定哪些屬性應(yīng)該保留作為最終的輸入變量。由于本次研究涉及大量的用戶數(shù)據(jù),因此選擇了一些重要的指標(biāo)來篩選出最相關(guān)的屬性。例如,發(fā)現(xiàn)人口統(tǒng)計(jì)特征,如性別和年齡,能更好地反映用戶的真實(shí)情況。此外,用戶的訪問次數(shù)也是重要因素之一,因?yàn)楫?dāng)用戶瀏覽網(wǎng)站時(shí),他們通常會留下自己的足跡。
然后使用Logistic回歸、Xgboost、Lightgbm和Catboost分別進(jìn)行了驗(yàn)證。令人驚喜的是,包括商家因素的測試集AUC結(jié)果優(yōu)于沒有包括商家因素的測試集,這說明了商家因素對于消費(fèi)者的消費(fèi)行為有著重要的影響。同時(shí),還發(fā)現(xiàn)平均預(yù)測準(zhǔn)確率提升了1%-2%,這進(jìn)一步印證了商家因素對于預(yù)測的重要性。
五、結(jié)束語
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和消費(fèi)觀念的變化,越來越多的消費(fèi)者選擇在線上購物平臺購買商品。因此,準(zhǔn)確把握客戶的需求、提高服務(wù)質(zhì)量成為各商家關(guān)注的焦點(diǎn)。為指導(dǎo)企業(yè)經(jīng)營決策,還需要深入挖掘用戶數(shù)據(jù)背后隱藏的價(jià)值。本文基于圖數(shù)據(jù)提出了一種電商用戶特征的分析方法。首先在獲取的數(shù)據(jù)中對用戶屬性進(jìn)行數(shù)字化處理,再使用K-Means算法進(jìn)行聚類,最后通過無向帶權(quán)圖將各個(gè)類別進(jìn)行連接及展現(xiàn)。希望將本文的研究方法與推薦系統(tǒng)相結(jié)合,在綜合考慮用戶、商品、商家信息的基礎(chǔ)上,深入挖掘電商數(shù)據(jù)的價(jià)值,為電商平臺的精準(zhǔn)營銷提供技術(shù)支持。
作者單位:徐曜 阜陽師范大學(xué)經(jīng)濟(jì)學(xué)院
參? 考? 文? 獻(xiàn)
[1]劉嵩.數(shù)字經(jīng)濟(jì)下電商平臺用戶購買行為的預(yù)測研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2023.
[2]宋文智,白洪林,官潼筑等.基于數(shù)據(jù)挖掘的跨境電商RCEP國別用戶畫像研究[J].中國新通信.2021,23(19):66-67.
[3]高月.基于大數(shù)據(jù)的電商用戶畫像的研究與應(yīng)用[D].沈陽:沈陽師范大學(xué),2020.
[4]楊帆.基于若干機(jī)器學(xué)習(xí)算法的電商平臺用戶價(jià)值研究---以電子書用戶畫像數(shù)據(jù)為例[D].重慶:西南大學(xué),2022.
[5]江麗桃.跨境電商客戶分類研究---以天貓國際美妝為樣本[D].南昌:江西財(cái)經(jīng)大學(xué),2021.
[6]楊紫荊.面向圖數(shù)據(jù)推理的推薦系統(tǒng)研究[D].上海:華東師范大學(xué),2022.
[7]李宸嚴(yán).基于圖神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測及電商智能推薦分析[D].烏魯木齊:新疆財(cái)經(jīng)大學(xué),2022.
[8]黃維雅.數(shù)據(jù)挖掘技術(shù)在電商客戶粘性預(yù)測中的研究[J].齊齊哈爾大學(xué)學(xué)報(bào)(自然科學(xué)版).2023,39(01):81-86+94.
[9]王慧麗.基于K-means聚類算法的電商數(shù)據(jù)智能分析方法設(shè)計(jì)[J].信息與電腦(理論版).2022,34(14):79-81.
[10]張玉琨.基于K-Means聚類分析的電商學(xué)生客戶細(xì)分研究[J].商場現(xiàn)代化.2022(08):33-35.
[11]陳文匯.基于B公司電商購物平臺用戶畫像的營銷策略研究[D].綿陽:西南科技大學(xué),2022.
[12]倪潞燕.基于組合相似度和用戶特征聚類的協(xié)同過濾推薦算法研究[D].銀川:北方民族大學(xué),2019.