郝志峰,黎伊婷,蔡瑞初,曾 艷,喬 杰
(1. 廣東工業(yè)大學 計算機學院,廣東 廣州 510006;2. 佛山科學技術學院 數(shù)學與大數(shù)據(jù)學院,廣東 佛山 528000)
通過了解用戶的實際需求和興趣愛好,以及購物行為動機和模式,從而調整營銷策略,迎合用戶行為意向,提升營銷效果。然而,用戶的網(wǎng)絡購物行為受到物質需求和社交需求等多方面因素影響,這使得僅考慮購物行為數(shù)據(jù)的方法失效,比如協(xié)同過濾算法,僅根據(jù)商品屬性和用戶行為間的相似度,分析用戶的消費行為[1-2],忽略了用戶間的社交關系和社交行為對網(wǎng)絡購物行為的影響。社交網(wǎng)絡的發(fā)展,使得用戶間的社交關系更加復雜,用戶間的信息也依托社交網(wǎng)絡結構快速傳播流動,也極大地影響著用戶的購物意愿。在社交網(wǎng)絡平臺中,用戶可以輕易觀測到其他用戶對商品的行為態(tài)度,從而在權衡自身物質需求和社交需求的驅動下產(chǎn)生特定的消費行為。
然而,怎么利用社交網(wǎng)絡平臺中的用戶信息來挖掘出用戶的購物行為動機和意向是一個十分復雜的問題[3-4]。一方面,興趣偏好和購物行為容易受同伴或群體的影響而發(fā)生改變;另一方面,購物行為產(chǎn)生的原因在社交網(wǎng)絡背景下更加錯綜復雜,可能的影響因素繁多。因此,本文研究了需要重點解決的兩個問題:(1) 如何考慮同伴或群體的影響;(2) 如何從眾多可能因素中找到對購物行為產(chǎn)生內(nèi)在影響的因素,剔除無關或影響力甚微的因素的干擾。
為了找到影響購物行為產(chǎn)生的內(nèi)在因素,受從眾理論的啟發(fā)[5],認為人們的購物行為會在社交中受到周圍人的影響:為了降低風險和保持群體性,人們會傾向于與同伴或所在群體的行為保持一致,該現(xiàn)象也被稱為從眾行為[6]。然而,現(xiàn)有研究表明[7-8],僅利用從眾理論難以解釋個體的某些消費行為。有些消費目的不僅僅是商品本身,而是想借此來凸顯自身的與眾不同,從而呈現(xiàn)出反從眾行為。Levy[9]指出,反從眾行為是指個體否認公眾的觀點或建議,做出相反的行為??紤]到普遍存在的反從眾動機[8],本文結合反從眾理論,利用用戶的社交數(shù)據(jù)和購物數(shù)據(jù),構建特征分析網(wǎng)絡購物行為。由于影響用戶購物行為的因素繁多且關系復雜,可能存在某些未觀測到的潛在因素。為了探究存在潛在因素時,網(wǎng)絡購物行為的動機和因果機制,本文利用Fast Causal Inference (FCI)算法學習用戶購物行為數(shù)據(jù)中特征間的因果網(wǎng)絡結構,發(fā)現(xiàn)各特征與購物行為之間的因果關系,剔除對購物行為沒有顯著影響的冗余特征,同時進一步理解用戶購物行為產(chǎn)生的內(nèi)在機制。特別地,本文研究從模型實驗分析和實證分析兩方面驗證了本文方法的有效性。本文研究主要貢獻包括:(1) 融合用戶社交關系和社交行為數(shù)據(jù)研究網(wǎng)絡用戶購物行為;(2) 結合反從眾理論解釋用戶的心理需求和消費動機;(3) 基于FCI因果網(wǎng)絡模型建模,并挖掘網(wǎng)絡購物行為的影響因素及其內(nèi)在的影響機制;(4) 從模型實驗分析和實證分析兩個方面驗證了本研究方法的有效性。
早期的網(wǎng)絡用戶購物行為分析通常從用戶個體屬性和物品屬性等方面展開研究[10-11]。隨著網(wǎng)絡購物平臺互動性的提升,網(wǎng)絡用戶可以觀察到其他用戶對商品的評價并依此進行決策,其購物行為受到他人的意見態(tài)度影響,網(wǎng)絡購物的社交性初步呈現(xiàn)。莫贊[12]和Alavijeh等[13]結合在線評論研究網(wǎng)絡用戶購物行為模式,結果表明其他用戶態(tài)度對用戶滿意度和用戶行為決策具有正向影響。但是,上述研究忽略了用戶間社交關系與社交影響力的差異。
針對冷啟動和數(shù)據(jù)稀疏問題,結合社交關系和用戶生成標簽對用戶偏好進行預測的效果更為顯著[14]。為挖掘隱藏的社交影響信號,Qiu等[15]將深度學習框架應用于社交影響分析,利用神經(jīng)網(wǎng)絡預測用戶的行為狀態(tài)并取得了成效。Tang等[6]基于社交心理學理論,結合社交關系和社交從眾需求,提出Confluence模型預測社交網(wǎng)絡用戶行為,其優(yōu)點在于區(qū)分了不同社交關系對用戶行為的影響程度。
社交關系和社交信息的引入,為網(wǎng)絡用戶購物行為分析提供了新的思路,但同時也帶來了許多挑戰(zhàn)。其中一個關鍵的問題就是,如何找到對網(wǎng)絡用戶購物行為產(chǎn)生內(nèi)在影響的因素。顯然,融合社交關系和社交信息的同時,引入了更多無關或影響力甚微的因素。如果不剔除這些因素的干擾,分析預測的性能和效率都會受到影響,所以對干擾因素的識別和剔除顯得至關重要。為解決上述問題,本文提出結合因果網(wǎng)絡模型分析網(wǎng)絡用戶購物行為,利用因果網(wǎng)絡結構消除冗余特征因素的干擾。
貝葉斯網(wǎng)絡能夠刻畫數(shù)據(jù)中各變量間的依賴關系,用于因果關系表達以及知識推理,是目前有效處理不確定性的理想模型。因果結構的學習可以根據(jù)條件獨立性檢驗推斷節(jié)點間邊的存在性以及方向。Spirtes等先后提出了以條件獨立性檢驗(Condition Independence tests,CI tests)確定拓撲結構SGS(Spirtes,Glymour,and Scheines)算法[16]和改進了搜索策略的PC(Peter Spirtes and Clark Glymour)算法[16]。PC算法在處理高維稀疏的數(shù)據(jù)集的因果發(fā)現(xiàn)問題時效果較好[17],但其基于因果充分性假設,即要求變量集中任意兩個變量的直接原因變量都在該集合中,在現(xiàn)實生活中變量的因果充分性假設難以滿足。于是Spirtes等放松了因果充分性假設,引入隱變量,提出了FCI算法[16]。FCI算法返回的圖形是局部祖先圖(Partial Ancestral Graph,PAG),可以表明兩個相連變量是否存在隱藏的共同原因。
由于社交網(wǎng)絡用戶購物行為的影響因素繁多且關系復雜,在實際購物場景中,無法確保所有影響因素都囊括其中且可以測量,難以滿足因果充分性假設,PC算法不適用于該場景。通過相關研究分析,本文利用引入隱變量的FCI算法學習網(wǎng)絡用戶購物行為數(shù)據(jù)中變量間的因果網(wǎng)絡結構,提出基于FCI的購物行為因果發(fā)現(xiàn)算法,挖掘特征與購物行為間的因果關系,融合用戶購物行為和用戶社交關系兩方面進行網(wǎng)絡用戶消費動機的研究分析。
本研究用有向圖G =(U,R)表示社交網(wǎng)絡,節(jié)點ui∈U 表示網(wǎng)絡中的第i 個用戶,邊rij∈R表示用戶ui和 用戶 uj之間存在關注關系,用戶 uj關注了用戶ui,即 ui的 行為對uj具有影響力。 Ii表示用戶的個人信息,Wi={(T,t)}表 示用戶ui在t時刻在發(fā)布的社交文本信息 T 。用戶ui購物行為記錄由集合Pi={(a,p,t)}表示,其中a 、 p、t分別表示用戶購物行為、商品和時間。
本研究結合反從眾理論研究用戶的網(wǎng)絡購物行為,結合網(wǎng)絡購物的情境,本文將用戶 uj在ui的影響下的求異性定義為
其中, Inj表示指向用戶uj的節(jié)點集。則反從眾指數(shù)(Anti-conformity Score)可定義為
舉例說明,用戶 u1的入度如圖1所示,根據(jù)定義用戶u1的 反從眾指數(shù)為S1=8/13。
圖 1 用戶u1入度圖Fig.1 Indegree of user u1
結合反從眾理論,社交網(wǎng)絡用戶購物行為的研究問題可以形式化描述為:對于給定的用戶社交網(wǎng)絡G =(U,R)和 用戶個人信息集I 、微博文本集W 以及購物行為記錄 P,找出影響社交用戶購物行為的因素,并對任意給定用戶預測其行為的反從眾指數(shù)。
(1) 個人信息特征。
Rahman[11]和Yin等[18]利用年齡、性別等個人信息特征研究用戶消費行為決策動機與個人信息之間的聯(lián)系,研究表明不同個人信息特征用戶的行為存在顯著差異。據(jù)此,本文結合用戶的性別和地域信息研究用戶行為,采用one-hot向量法表示。
用戶的微博行為屬性是體現(xiàn)用戶特征的重要指標。用戶發(fā)帖的數(shù)量能夠反映用戶在社交網(wǎng)絡中的活躍程度以及性格特點。此外,用戶的關注人數(shù)量、粉絲數(shù)等同樣能夠體現(xiàn)用戶的影響力,廣泛擴散的網(wǎng)絡信息通常都是從擁有大量粉絲的用戶開始傳播的[19]。據(jù)此,本文利用用戶博文數(shù)、關注人數(shù)、粉絲數(shù)等指標衡量用戶的社交影響力。
(2) 用戶重要性特征。
在微博平臺上,用戶間關系網(wǎng)絡結構的實質是一個有向圖,節(jié)點的出入度能夠反映其在所處網(wǎng)絡中的重要程度。經(jīng)典的網(wǎng)絡節(jié)點重要性程度排序算法PageRank算法,基于網(wǎng)頁間的有向鏈接衡量網(wǎng)站的重要性。大量的社交網(wǎng)絡研究中在挖掘用戶重要性時都采用了PageRank算法,或結合社交領域特點對其進行改進。依據(jù)以上理論基礎,本文采用PageRank算法衡量用戶在社交網(wǎng)絡圖中的重要性。社交網(wǎng)絡中節(jié)點重要性的計算公式可以表示為
其中, Ri和Rj可以表示用戶 ui和用戶uj的重要程度,oj為用戶uj的關注數(shù)量, Ini是用戶ui的粉絲的集合。d是為解決獨立網(wǎng)頁節(jié)點“排名泄露”和“排名下沉”的問題而引入的阻尼因子,使得每個頁面都可能隨機訪問到其他頁面,通常設置為0.85。
(3) 用戶興趣特征。
用戶在微博平臺上或發(fā)表或轉發(fā)或評論等一系列社交行為可以體現(xiàn)用戶的興趣偏好。本研究將每個用戶所發(fā)布的微博文本進行合并,利用word2vec[20]中訓練好的CBOW(Continuous Bag-of-Words)模型將文本中的每個詞轉化為相應的詞向量,最后得到每個用戶微博文本所包含的所有詞向量的平均向量;利用已知購物品牌偏好的用戶微博文本向量訓練LSTM(Long Short-Term Memory)模型[21],分析未知品牌偏好的用戶的興趣偏好,再根據(jù)邏輯回歸模型預測用戶的購買行為。
(4) 購物行為特征。
網(wǎng)絡購物通常不是一個孤立的行為,在用戶發(fā)生實際購買動作前會產(chǎn)生一系列可觀測的購物相關行為。隨著時間的推移,消費者在網(wǎng)購前的行為有顯著差異[2]。本研究利用用戶的歷史瀏覽、歷史收藏以及歷史購買等既往行為作為購物行為特征。此外,根據(jù)自我一致性理論(Self-consistency Theory),人們會利用自身相似經(jīng)驗保持自我行為態(tài)度的前后一致[22]。對于消費者而言,網(wǎng)絡購物經(jīng)驗豐富的消費者對于商品的甄選能力更強,反從眾的意愿更為顯著。本研究以消費者的購物頻數(shù)作為指標衡量其購物經(jīng)驗。
根據(jù)以上特征構建用戶特征向量,最終用戶特征向量如式(4)所示。
分析社交網(wǎng)絡用戶購物行為時,影響用戶購物行為的因素繁多且關系復雜,無法觀測到所有影響因素,可能存在潛在變量。因此,本文利用FCI算法判斷數(shù)據(jù)具有不完全觀察特性情況下,可觀測變量之間的因果關系。根據(jù)因果網(wǎng)絡結構圖,保留對購物行為具有顯著影響的特征,剔除冗余特征,從而達到特征選擇的效果。同時,因果網(wǎng)絡結構體現(xiàn)了特征間的內(nèi)在因果機制,有利于理解用戶的心理需求和消費動機。
學習因果網(wǎng)絡結構時,為避免存在隱變量時PC算法[17]節(jié)點關系判斷錯誤,導致得到的網(wǎng)絡結構與真實有向無環(huán)圖(Directed Acyclic Graph, DAG)不符,F(xiàn)CI算法輸出的是局部祖先圖,只包含非定向邊、部分有向邊、有向邊和雙向邊這4種邊。其中,“ a°-°b ”表示a 、 b表現(xiàn)出一定的相關性但其因果關系不明確,“ a°→b” 表示 a 可能影響了b, “ a →b”,表示a 、 b之 間存在因果關系, a 對 b有 影響,“ a ?b”表示a 、 b之 間存在隱變量同時對a 、 b有影響?!?”作為元標記,泛指該方向箭頭是“ ?” 、“° ”、“”(空標記)中的任一種。在PAG中的分離集d-sep (a,b)和可能-d-分離集pds(a,b)定義為:
d-sep (a,b): a 、 b是 PAG的節(jié)點,若存在節(jié)點c,使得a 、 c間 存在一條無向路徑 p 滿足 p中所有節(jié)點都是a 或b 的 祖先,則 c ∈d -sep( a,b)。
pds(a,b): a 、 b是 PAG的節(jié)點,若 a 和 b之間路徑上的存在節(jié)點 c 使得 a 、 c 間存在一條無向路徑 p,滿足p中的所有三元組( i,m,j) 都是匯連結構 i →m ←j或者形成一個環(huán),則 c ∈pds(a,b)。
PAG中判斷給定節(jié)點是否鄰接的依據(jù)是:如果真實網(wǎng)絡結構中 a 、 b條 件獨立,則? S ?d -sep( a,b),使得 a⊥b|S 成立,此時可知, a 、 b之間不存在邊。根據(jù)條件獨立性檢驗,首先可以移除條件獨立的2個節(jié)點間的邊,得到初始骨架C 以及分離集d-sep。其次,將三元組定向為v-結構。若觀測到的條件獨立信息無法找到d-sep (a,b), 則轉向尋找其超集p ds(a,b),根據(jù)條件獨立性,在 pds中 找到最終骨架C ,再重新定向v-結構,從而解決了在含有隱變量的情況下,判斷可觀測變量之間的因果關系的問題。FCI算法的具體實現(xiàn)為
算法1:基于FCI的購物行為影響因素分析算法。
輸入:社交用戶關系圖 G,用戶個人信息集合I,社交文本信息集合W ,購物行為集P 。
輸出:特征因果網(wǎng)絡圖Q*=(V,E*)
1:根據(jù)式(1)、(2),計算用戶反從眾指數(shù)集合Si
2:根據(jù)個人信息Ii、購物行為 Pi和社交文本信息集合Wi,構建用戶特征向量xi
3:構建所有特征]的無向完全圖 Q=(V,E),其中V=x(1),x(2),···,x(n)
4:根據(jù)條件獨立性,找到初始骨架 C、分離集dsep、三元組M
5:根據(jù)初始骨架C ,將無向邊轉為非定向邊加入邊集E*
6:for 〈a,b,c〉∈M e(b ←
7:*icf) b ? d-sep( a,c) , then 邊 定向為e (a*→b)、
8:End for
9:根據(jù)條件獨立性,在 pds中 找到最終骨架C 、分離集d-sep(更新C 和d-sep)//p ds根據(jù)定義得到
10:根據(jù)步驟9重新確定邊的方向(更新C )
11:return 特征因果網(wǎng)絡圖Q*=(V,E*)
本研究使用的實驗數(shù)據(jù)集包括購物數(shù)據(jù)和微博數(shù)據(jù)兩大部分。購物數(shù)據(jù)由國內(nèi)某電商平臺提供,包含用戶的購物行為數(shù)據(jù)以及對應的微博ID。其中購物行為數(shù)據(jù)從2013年1月至2017年12月,包含9 970名用戶購買記錄、收藏記錄、瀏覽記錄,共計3 131 557條數(shù)據(jù)。微博數(shù)據(jù)由新浪微博提供的API接口獲取,包括用戶的個人信息數(shù)據(jù)、發(fā)布的文本信息及用戶間的關系數(shù)據(jù),涉及用戶39 496名,用戶關系496 916對,共計4 903 785條微博文本數(shù)據(jù)。個人信息包括用戶微博ID、用戶名、性別、地域、博文數(shù)、關注用戶數(shù)、粉絲數(shù)等,用戶間關系從用戶的關注用戶集和粉絲集中獲取。數(shù)據(jù)集的描述如表1所示。
表 1 數(shù)據(jù)集描述Table 1 Dataset statistics
本文研究提出了融合用戶社交關系和社交信息的網(wǎng)絡購物行為因果發(fā)現(xiàn)模型,數(shù)據(jù)處理流程如圖2所示。
圖 2 數(shù)據(jù)處理流程Fig.2 Data processing flowchart
(1) 通過微博接口獲取微博信息,從中抽取用戶個人信息、微博信息、用戶關系,并利用訓練好的CBOW模型計算用戶微博文本詞向量,根據(jù)用戶微博文本詞向量和已知商品品牌偏好的用戶文本向量計算文本相似度,挖掘用戶興趣點。同時,根據(jù)用戶間的關注關系計算用戶的重要性特征。
(2) 從歷史購物行為數(shù)據(jù)中提取商品購買、商品瀏覽、商品收藏等行為特征,并計算網(wǎng)購經(jīng)驗。
(3) 利用用戶關系、用戶興趣、購物行為等特征計算用戶網(wǎng)絡購物行為的反從眾指數(shù)。
(4) 基于FCI算法構建因果網(wǎng)絡模型進行特征選擇,剔除對網(wǎng)絡購物行為影響不顯著的特征。
(5) 訓練模型,挖掘網(wǎng)絡用戶購物行為的影響因素。
為了驗證本文提出的基于FCI因果網(wǎng)絡的購物行為分析算法的有效性,本文采用模型實驗分析和實證分析兩種方法對其進行驗證。模型實驗分析中,評估本文提出的算法在隨機森林(Random Forest)模型[23]下與方差選擇法、Pearson系數(shù)法、Lasso選擇法、PC因果特征選擇等方法間的性能差異。實證分析中,采用調查問卷的形式,對收集到的數(shù)據(jù)進行相關分析和回歸分析,檢驗被選中特征對反從眾指數(shù)的影響的顯著性。
本研究基于FCI算法生成購物行為的因果特征圖,利用條件獨立性判斷因果關系邊的存在性,其獨立性閾值為0.95。在社交特征向量中,用戶的微博文本信息統(tǒng)一使用CBOW模型轉化為詞向量,向量的維度統(tǒng)一為100。本研究在隨機森林模型下進行反從眾指數(shù)值預測,驗證購物行為的因果特征圖的有效性,隨機森林模型決策樹個數(shù)為10。
(1) 評估指標。
采用平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)、決定系數(shù)(Coefficient of Determination,R-square或R2)作為評估指標驗證算法的有效性。指標MAE和RMSE的值越小則表明模型預測的準確度越高,指標R2越大表明方程對觀測值的解釋能力越強,模型對數(shù)據(jù)的擬合程度越高。MAE的定義為
RMSE的定義為
R2的定義為
其中, N為樣本數(shù)量,yi為第i個樣本真實的反從眾指數(shù)值, y?i為模型預測的第i個樣本的反從眾指數(shù)值,yˉi為所有樣本真實反從眾指數(shù)值的均值。
(2) 特征選擇。
利用FCI算法對用戶的社交特征和用戶反從眾指數(shù)訓練因果網(wǎng)絡模型,進行特征選擇。由于購物數(shù)據(jù)集中只包含其中9 970名用戶的實際購買行為,購物數(shù)據(jù)集中不涉及的29 526名微博用戶,根據(jù)2.2節(jié)用戶興趣特征計算方法,利用用戶微博文本分析該用戶的興趣偏好,預測用戶的購買行為,以預測的購買行為代替實際購買行為來度量反從眾指數(shù),具有實際購買行為的用戶則使用實際購買行為來度量反從眾指數(shù)。得到用戶的社交特征因果關系圖,如圖3所示。
圖 3 社交特征因果關系圖Fig.3 Causal graph of social characteristics
根據(jù)FCI模型,“ a°-°b ”表示a 、 b表現(xiàn)出一定的相關性但其因果關系不明確,“ a°→b” 表示 a可能影響了b, “ a →b” ,表示a 、 b之間存在切確的因果關系,a 對 b有 影響,“ a ?b ”表示a 、 b之間存在隱變量同時對 a 、 b有影響。根據(jù)圖3,在0.95的置信水平下,用戶網(wǎng)絡購物行為的反從眾程度可能受性別、粉絲數(shù)量的影響。網(wǎng)紅或大V等粉絲數(shù)多的用戶往往具有較高的地位。研究表明,高低位者的行為態(tài)度更容易被其他用戶接受和追隨,認為自己較容易被接受和認可[24],因此容易呈現(xiàn)反從眾行為。上述研究結果,與本研究算法學習到的社交特征因果關系圖邊“粉絲數(shù)量o→反從眾指數(shù)”的結構和方向相一致,也驗證了本研究算法的有效性。
根據(jù)購物數(shù)據(jù)集中的9 970名用戶的歷史瀏覽、歷史收藏、歷史購買行為以及購物經(jīng)驗等特征構建因果網(wǎng)絡模型進行特征選擇。得到用戶的購物行為特征因果關系圖,如圖4所示。
圖 4 購物行為特征因果關系圖Fig.4 Causal graph of shopping characteristics
在0.95的置信水平下,用戶網(wǎng)絡購物行為的反從眾程度受歷史收藏、歷史購買和網(wǎng)購經(jīng)驗的影響。具有歷史收藏或購買行為的用戶會利用自身相似經(jīng)驗保持自我行為態(tài)度的前后一致[22],忽略他人行為,從而呈現(xiàn)出更強的反從眾性?;贔CI的購物行為影響因素分析算法學習得到的購物行為特征因果關系圖的邊“歷史購物o→反從眾指數(shù)”、“歷史收藏o→反從眾指數(shù)”也符合日常消費行為習慣,歷史購買和收藏行為體現(xiàn)了用戶的興趣偏好。對于該品牌商品,用戶自身已經(jīng)持有類似的經(jīng)驗和行為態(tài)度,其他用戶的觀點態(tài)度對其影響較小,行為不易受到他人的影響而改變,更易表現(xiàn)出反從眾行為。
(3) 實驗結果。
為了驗證本文算法對提升網(wǎng)絡購物行為分析的有效性,分別對無特征選擇法、方差選擇法、Pearson系數(shù)法、Lasso法、PC因果特征選擇等方法,與FCI因果特征選擇方法對比,在隨機森林模型下進行反從眾指數(shù)值預測。原有特征包括:用戶性別、地域、粉絲數(shù)、關注人數(shù)、博文數(shù)、重要性、歷史購物、歷史收藏、歷史瀏覽、網(wǎng)購經(jīng)驗。PC和FCI因果特征選擇方法根據(jù)因果網(wǎng)絡模型的結果選取特征。在0.95的置信水平下,根據(jù)PC因果發(fā)現(xiàn)算法的結果,選取的特征為歷史收藏、歷史瀏覽、歷史購買、網(wǎng)購經(jīng)驗4個特征。FCI因果發(fā)現(xiàn)算法選取性別、粉絲數(shù)量、歷史收藏、歷史購物、網(wǎng)購經(jīng)驗5個特征訓練模型。方差法、Pearson系數(shù)法、Lasso法依據(jù)各自選擇標準選取前5個特征。對比結果如表2所示。
表 2 對比實驗結果Table 2 Performance results
從表2可以看出,引入FCI因果網(wǎng)絡模型進行特征選擇,能夠有效提升模型預測效果,降低特征維度,剔除冗余特征的干擾,同時直觀體現(xiàn)特征之間的內(nèi)在因果影響機制,有助于理解用戶網(wǎng)絡購物行為的消費動機。由于PC因果發(fā)現(xiàn)算法假設性較強,當存在不可觀測的潛在影響因素時,會造成因果結構判斷錯誤。與PC因果發(fā)現(xiàn)算法相比,F(xiàn)CI引入了隱變量進行因果結構學習,可以避免PC算法結構學習的錯誤,并能學習到更多可能影響反從眾行為的特征,實驗結果也表明FCI算法特征選擇的效能優(yōu)于PC算法。
為了進一步驗證該模型,本文同時采用問卷調查的形式對網(wǎng)絡購物行為進行實證分析。根據(jù)CNNIC 2019年發(fā)布的《第43次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,社交平臺和網(wǎng)絡購物平臺的主要用戶群體為大學生和年輕白領,故本文實證研究選擇在校大學生和年輕白領作為研究對象。發(fā)放在線問卷180份,其中有效問卷為167份,有效率為92.8%。問卷調查中涉及模型中的性別、收藏行為、網(wǎng)絡購物經(jīng)驗等特征,問題采用國際上通用的Likert 5級量表進行測量。分別以Alpha信度系數(shù)法和探索性因子分析方法檢驗量表的信度和效度。數(shù)據(jù)結果顯示各變量的Cronbach’s值均超過0.6,表明各量表的內(nèi)部一致性較高。旋轉成分矩陣顯示各題項的因子載荷均大于0.6,說明問卷的建構效度較高。
本文研究采用SPSS(Statistical Product and Service Solutions)軟件對相關數(shù)據(jù)值進行相關分析和線性回歸分析。相關分析結果顯示(如表3所示),該特征與反從眾指數(shù)相關分析的顯著性p值<0.05,表明性別、歷史收藏、網(wǎng)購經(jīng)驗特征與反從眾指數(shù)之間均存在一定關系。根據(jù)回歸分析結果(如表4),歷史收藏對反從眾指數(shù)的調整R2為0.308,表示有30.8%的變差可由回歸模型解釋,對方程的F檢驗的p值0.000<0.05,表示回歸方程成立,對回歸方程中的系數(shù)的t檢驗,p值0.000<0.05表明歷史收藏特征對反從眾指數(shù)存在顯著影響。網(wǎng)購經(jīng)驗對反從眾指數(shù)的回歸分析結果顯示,網(wǎng)購經(jīng)驗特征對反從眾指數(shù)存在顯著影響,與模型結果吻合。
表 3 相關分析結果1)Table 3 Results of correlation analysis
表 4 回歸分析結果Table 4 Results of regression analysis
為了研究社交網(wǎng)絡背景下,用戶的購物行為模式和內(nèi)在影響機制,本文提出了融合用戶社交關系和社交信息的基于FCI的購物行為因果發(fā)現(xiàn)算法。首先,根據(jù)心理學相關理論,利用反從眾理論研究用戶的購物行為動機,并給出反從眾指數(shù)的度量方法。其次,抽取用戶的社交信息、社交關系特征和購物特征,利用因果網(wǎng)絡模型進行特征選擇,剔除冗余特征,減少噪聲干擾,同時挖掘網(wǎng)絡購物行為的內(nèi)在因果機制。最后,結合隨機森林模型訓練網(wǎng)絡用戶購物行為的反從眾指數(shù)預測模型。實驗結果表明該方法能夠識別網(wǎng)絡用戶購物行為特征的內(nèi)在因果影響機制,驗證了社交網(wǎng)絡用戶的購物行為特征間因果關系的存在性,為因果發(fā)現(xiàn)的應用領域提供了新的研究方向,同時也為社交用戶購物行為的研究提供了新的工具。本文研究中僅利用顯性的社交關系對用戶行為進行分析預測,后續(xù)研究工作將結合二度好友影響力等隱藏社交影響力的度量方法進行改進,分析不同社交關系對用戶購物行為的影響。