劉冠男,張 亮,馬寶君
1 北京航空航天大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100191 2 北京郵電大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100876
近年來(lái),網(wǎng)上購(gòu)物因其具有方便快捷的屬性,已經(jīng)成為人們的一種生活方式,極大地推動(dòng)了電子商務(wù)的發(fā)展。然而,電子商務(wù)的虛擬特性使顧客無(wú)法獲得商品的現(xiàn)場(chǎng)體驗(yàn),只能依賴于商品描述、照片等媒介,所以顧客對(duì)商品的認(rèn)知容易產(chǎn)生偏差,導(dǎo)致實(shí)際產(chǎn)品與需求不一致。在這種情況下,顧客便可能產(chǎn)生退貨行為。退貨率過(guò)高會(huì)給制造商和零售商帶來(lái)巨大的損失,例如零售商必須根據(jù)退回產(chǎn)品的情況進(jìn)行庫(kù)存調(diào)整,帶來(lái)巨大的運(yùn)輸和返修等成本,制造商可能要調(diào)整其生產(chǎn)計(jì)劃等。有數(shù)據(jù)表明,在美國(guó),每年因?yàn)楫a(chǎn)品退貨產(chǎn)生的成本損失達(dá)到上千億美元[1]。據(jù)零售咨詢公司統(tǒng)計(jì),電商企業(yè)產(chǎn)品的平均退貨率高達(dá)三分之一。因此,防范電子商務(wù)環(huán)境中的退貨風(fēng)險(xiǎn)是電子商務(wù)企業(yè)需要高度重視的問(wèn)題。
實(shí)際上,隨著大數(shù)據(jù)分析在商務(wù)管理中的深入應(yīng)用,大多數(shù)電子商務(wù)企業(yè)已經(jīng)開(kāi)始重視大數(shù)據(jù)對(duì)于管理的重要意義,并具備了較為成熟的客戶關(guān)系管理系統(tǒng)、庫(kù)存管理和銷售管理系統(tǒng),也因此積累了大量的銷售、客戶和退貨記錄等數(shù)據(jù)。但是對(duì)于電子商務(wù)環(huán)境下大規(guī)模退貨行為模式的分析和研究仍然較缺乏,也難以為管理者提供有效的退貨風(fēng)險(xiǎn)預(yù)警。
有鑒于此,本研究針對(duì)個(gè)體用戶和產(chǎn)品在電子商務(wù)環(huán)境下的退貨風(fēng)險(xiǎn)進(jìn)行分析和建模。電子商務(wù)的退貨環(huán)境中包含了用戶和產(chǎn)品兩種基本的實(shí)體類型,因而可以將退貨記錄構(gòu)造為二部圖,而二部圖的結(jié)構(gòu)及節(jié)點(diǎn)的排序可以通過(guò)定義實(shí)體間互相表示的隨機(jī)游走來(lái)發(fā)現(xiàn)。基于此,本研究設(shè)計(jì)了關(guān)于用戶和產(chǎn)品的隨機(jī)游走過(guò)程,進(jìn)而將用戶和產(chǎn)品的退貨風(fēng)險(xiǎn)進(jìn)行迭代直至收斂。同時(shí),考慮到影響退貨的用戶以及產(chǎn)品本身的各類因素,提出一種融合特征的退貨風(fēng)險(xiǎn)預(yù)測(cè)方法,并采用真實(shí)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),驗(yàn)證方法的有效性。
目前針對(duì)退貨的相關(guān)研究主要是從營(yíng)銷和運(yùn)作管理的角度出發(fā),分析影響退貨的各類因素,并且探究不同退貨政策對(duì)于運(yùn)營(yíng)管理的影響。在退貨的影響因素研究方面,LI et al.[2]設(shè)計(jì)了不同的模型檢驗(yàn)在線購(gòu)物中退貨政策、商品價(jià)格、商品質(zhì)量對(duì)于消費(fèi)者購(gòu)買(mǎi)意愿和退貨意愿的影響,發(fā)現(xiàn)這些要素的影響是相互作用和耦合的;WALSH et al.[3]運(yùn)用風(fēng)險(xiǎn)理論,通過(guò)實(shí)驗(yàn)檢驗(yàn)退款保證、產(chǎn)品評(píng)論和免費(fèi)退貨標(biāo)簽3種工具對(duì)用戶退貨行為的影響,發(fā)現(xiàn)退款保證的使用增加了產(chǎn)品的退貨率,而產(chǎn)品評(píng)論與之相反,降低了產(chǎn)品的退貨率,提供免費(fèi)退貨標(biāo)簽對(duì)退貨行為沒(méi)有產(chǎn)生顯著影響。這些研究說(shuō)明產(chǎn)品價(jià)格、產(chǎn)品質(zhì)量等產(chǎn)品本身的屬性在退貨行為的預(yù)測(cè)中占據(jù)著重要的地位。孫永波等[4]通過(guò)實(shí)證分析研究用戶的購(gòu)買(mǎi)行為與退貨行為之間的關(guān)聯(lián),發(fā)現(xiàn)有過(guò)退貨經(jīng)歷的用戶其后續(xù)的購(gòu)買(mǎi)行為是可以被零售商善意“操控”的。這啟發(fā)研究者可以從用戶特質(zhì)的角度去探討對(duì)退貨行為的預(yù)測(cè)。特別地,DE et al.[5]通過(guò)實(shí)證方法研究電商平臺(tái)中信息技術(shù)的使用對(duì)退貨的影響,包括圖片、網(wǎng)站排版、文字描述等;FU et al.[6]認(rèn)為退貨的發(fā)生是由兩種不一致導(dǎo)致的,顧客期望的商品屬性與實(shí)際的商品屬性之間不一致,實(shí)際的商品屬性與顧客收到的商品屬性之間不一致,在此基礎(chǔ)上利用帶有隱變量的概率矩陣分解預(yù)測(cè)了交易的退貨概率。
在退貨政策方面,PASTERNACK[7]研究定價(jià)策略和退貨政策,提出一種對(duì)于短期壽命商品的層次定價(jià)模型;張霖霖等[8]將用戶的退貨行為引入到在線零售企業(yè)的單周期和多周期定價(jià)訂貨策略研究中,發(fā)現(xiàn)退貨率與在線零售企業(yè)定價(jià)正相關(guān),而與訂貨量和收益負(fù)相關(guān)。這些研究都只聚焦于產(chǎn)品價(jià)格對(duì)于退貨的影響,沒(méi)有很好地探討其他屬性對(duì)結(jié)果的影響。李勇建等[9]研究在產(chǎn)品需求和消費(fèi)者產(chǎn)品估價(jià)均不確定的情況下,報(bào)童零售商的預(yù)售策略和無(wú)缺陷退貨問(wèn)題,發(fā)現(xiàn)最優(yōu)的退貨策略是部分退款退貨策略,且最優(yōu)退貨價(jià)格為產(chǎn)品的殘余價(jià)值。但卻在模型中忽略了產(chǎn)品需求與產(chǎn)品本身特征和消費(fèi)者類型之間的聯(lián)系,類似的缺陷也存在于孫軍等[10]的研究中。趙曉敏等[11]著重從產(chǎn)品生命周期的視角探討不同的退貨政策對(duì)企業(yè)供應(yīng)鏈系統(tǒng)運(yùn)作績(jī)效的影響;MUKHOPADHYAY et al.[12]發(fā)現(xiàn)提供友好的退貨政策能夠增加收入,但同時(shí)也會(huì)由于高昂的退貨和設(shè)計(jì)費(fèi)用增加成本,并基于此提出一種優(yōu)化退貨政策的最大化模型;ANDERSON et al.[13]提出一個(gè)用來(lái)識(shí)別最優(yōu)退貨政策的結(jié)構(gòu)化模型,使零售商可以在銷售需求和退貨成本之間進(jìn)行取舍。與本研究不同的是,這些關(guān)于退貨政策的研究都是從較為宏觀的角度出發(fā),在電子商務(wù)的環(huán)境下不容易進(jìn)行個(gè)性化的應(yīng)用和推廣。更進(jìn)一步地,盧美麗等[14]將退貨視為一種促進(jìn)銷售的服務(wù)策略,討論不同商品的服務(wù)敏感系數(shù)、銷量退貨率和退貨量對(duì)于價(jià)格敏感系數(shù)和最優(yōu)利潤(rùn)的影響;單汨源等[15]聚焦于退運(yùn)險(xiǎn)這一細(xì)分領(lǐng)域,通過(guò)構(gòu)建數(shù)學(xué)模型分析不提供退運(yùn)險(xiǎn)服務(wù)、贈(zèng)送退貨運(yùn)費(fèi)險(xiǎn)和消費(fèi)者購(gòu)買(mǎi)退貨運(yùn)費(fèi)險(xiǎn)3種退貨策略下零售商的盈利能力,證明了贈(zèng)送退貨運(yùn)費(fèi)險(xiǎn)這種策略的有效性。這些研究啟發(fā)我們?cè)趯?duì)退貨的預(yù)測(cè)研究中,零售商的服務(wù)水平和品牌效應(yīng)等因素也應(yīng)當(dāng)融入到建模過(guò)程中。
以上研究一般僅從統(tǒng)計(jì)意義上分析影響退貨的各類因素,無(wú)法針對(duì)特定用戶對(duì)特定商品的退貨傾向性進(jìn)行分析。有鑒于此,本研究從更為微觀和個(gè)性化的角度出發(fā),挖掘用戶在退貨過(guò)程中的行為模式,進(jìn)而預(yù)測(cè)用戶對(duì)特定商品的退貨風(fēng)險(xiǎn),指導(dǎo)電子商務(wù)企業(yè)的運(yùn)營(yíng)管理實(shí)踐。
現(xiàn)實(shí)世界中的許多行為活動(dòng)都可以轉(zhuǎn)換為二部圖結(jié)構(gòu),如用戶購(gòu)買(mǎi)產(chǎn)品和用戶評(píng)價(jià)等。因而,關(guān)于二部圖的結(jié)構(gòu)分析和模式發(fā)現(xiàn)等研究一直是熱點(diǎn)問(wèn)題。MOONESINGHE et al.[16]基于實(shí)體之間的相似性構(gòu)造二部圖,為每個(gè)實(shí)體分配異常得分,并假設(shè)與其他實(shí)體之間的關(guān)系較少的實(shí)體更有可能是異常點(diǎn);BEUTEL et al.[17]對(duì)社交網(wǎng)絡(luò)中的異?!包c(diǎn)贊”行為進(jìn)行研究,他們將用戶與社交網(wǎng)絡(luò)的頁(yè)面根據(jù)“點(diǎn)贊”關(guān)系構(gòu)造為二部圖,并將疑似的非法“點(diǎn)贊”行為定義為一種基于時(shí)間的子圖結(jié)構(gòu),從而將問(wèn)題轉(zhuǎn)化為在二部圖中的結(jié)構(gòu)搜索問(wèn)題。這類異常檢測(cè)的研究一定程度上證明了二部圖的結(jié)構(gòu)可以很有效地對(duì)退貨這類數(shù)據(jù)進(jìn)行建模。ZHU et al.[18]通過(guò)構(gòu)建用戶和產(chǎn)生內(nèi)容的二部圖,利用隨機(jī)游走的方法研究社交網(wǎng)絡(luò)中用戶影響力的識(shí)別和度量;FOUSS et al.[19]將用戶和產(chǎn)品構(gòu)建成為二部圖,并定義了在圖結(jié)構(gòu)上的馬爾科夫鏈的隨機(jī)游走過(guò)程,他們通過(guò)定義一些馬爾科夫鏈上的基本度量,如第一次經(jīng)過(guò)的時(shí)間、成本和平均的游走時(shí)間等,以度量不同節(jié)點(diǎn)之間的相似性,提供了一種利用隨機(jī)游走方法對(duì)二部圖中節(jié)點(diǎn)進(jìn)行排序的基本思路。HE et al.[20]提出一套貝葉斯框架,可以基于圖的鏈接結(jié)構(gòu)和節(jié)點(diǎn)信息來(lái)研究二部圖上的節(jié)點(diǎn)排序問(wèn)題,他們通過(guò)引入查詢向量來(lái)平滑二部圖,在優(yōu)化正則化函數(shù)的同時(shí)動(dòng)態(tài)地更新各節(jié)點(diǎn)的得分,進(jìn)而實(shí)現(xiàn)排序的目的。查詢向量的引入能夠很好地平滑異常點(diǎn)的影響,大幅提高算法的魯棒性,具有很強(qiáng)的借鑒意義。蔡小雨等[21]提出一種采用群體信息的二部圖鏈接預(yù)測(cè)方法,通過(guò)對(duì)二部圖進(jìn)行投影,抽取二部圖中節(jié)點(diǎn)對(duì)的局部結(jié)構(gòu)屬性,并運(yùn)用群體檢測(cè)技術(shù)抽取節(jié)點(diǎn)對(duì)的群體屬性,融合二者作為相似度的度量標(biāo)準(zhǔn),有效地提高了二部圖鏈接預(yù)測(cè)的準(zhǔn)確率。在推薦領(lǐng)域,關(guān)雲(yún)菲[22]通過(guò)構(gòu)建用戶項(xiàng)目二部圖,引入用戶的點(diǎn)擊、收藏、加入購(gòu)物車和購(gòu)買(mǎi)4種行為數(shù)據(jù)優(yōu)化評(píng)分系統(tǒng),實(shí)現(xiàn)了對(duì)傳統(tǒng)的基于二部圖的推薦算法的改進(jìn);黃熠姿等[23]根據(jù)用戶的評(píng)論數(shù)以及與該用戶對(duì)項(xiàng)目評(píng)分相同的評(píng)論數(shù)量定義該用戶的專家信任度,根據(jù)傳統(tǒng)的評(píng)分信息定義用戶的偏好程度,提出融合專家信息的二部圖推薦算法,實(shí)驗(yàn)結(jié)果表明該算法表現(xiàn)出了優(yōu)良的性能。但這些工作的研究重點(diǎn)主要是對(duì)推薦算法本身的改進(jìn),沒(méi)有聚焦于用戶在電子商務(wù)環(huán)境中的退貨行為模式的建模。
以上研究均說(shuō)明,基于二部圖研究具有較好的泛化能力,可以適應(yīng)多種場(chǎng)景下針對(duì)不同實(shí)體之間交互關(guān)系的建模。因此,本研究以二部圖結(jié)構(gòu)組織用戶的產(chǎn)品退貨記錄,進(jìn)而對(duì)個(gè)體用戶在電子商務(wù)中的退貨行為進(jìn)行預(yù)測(cè)分析。
自從隨機(jī)游走被提出,就一直受到研究者的青睞,現(xiàn)已被廣泛應(yīng)用于圖像分割[24]、圖挖掘[25-26]和文本挖掘[27]等領(lǐng)域。近年來(lái)研究者通過(guò)構(gòu)建用戶網(wǎng)絡(luò)和產(chǎn)品網(wǎng)絡(luò),利用隨機(jī)游走等模型,定義不同節(jié)點(diǎn)之間的相似性,從而設(shè)計(jì)推薦算法,以解決稀疏性和冷啟動(dòng)等傳統(tǒng)推薦中常見(jiàn)的問(wèn)題。PUCCI et al.[28]提出一種基于隨機(jī)游走的評(píng)分算法ItemRank,可以根據(jù)潛在目標(biāo)用戶的偏好對(duì)產(chǎn)品進(jìn)行得分排序,進(jìn)而實(shí)現(xiàn)推薦的目的。但是該方法并沒(méi)有考慮到與目標(biāo)用戶相似的其他用戶的偏好,對(duì)偏好的建模不夠完備。針對(duì)冷啟動(dòng)問(wèn)題,SHANG et al.[29]提出一種基于馬爾科夫隨機(jī)游走的混合協(xié)同過(guò)濾模型,發(fā)現(xiàn)與傳統(tǒng)的協(xié)同過(guò)濾模型相比,該算法能夠更好地適應(yīng)冷啟動(dòng)的情況;施海鷹[30]利用關(guān)聯(lián)規(guī)則挖掘的特性,挖掘用戶屬性與項(xiàng)目之間的關(guān)聯(lián),為新用戶構(gòu)造初始的評(píng)分向量,彌補(bǔ)了傳統(tǒng)推薦算法的不足。這類基于協(xié)同過(guò)濾的模型難以處理極端稀疏的數(shù)據(jù),且對(duì)異常點(diǎn)十分敏感,不適合用來(lái)建模退貨這類數(shù)據(jù)集。張光前等[31]嘗試從消費(fèi)心理學(xué)的角度解決冷啟動(dòng)問(wèn)題,提出基于消費(fèi)者購(gòu)物記錄分析其消費(fèi)性格、基于消費(fèi)者消費(fèi)性格進(jìn)行新商品推薦的方法,通過(guò)消費(fèi)心理這一紐帶建立起消費(fèi)者與新商品之間的聯(lián)系。但該方法在應(yīng)用時(shí)需要收集較多的額外信息,在電子商務(wù)環(huán)境下難以有效實(shí)施。JAMALI et al.[32]認(rèn)為,基于信任網(wǎng)絡(luò)的推薦比傳統(tǒng)的基于用戶評(píng)分的推薦包含更多的信息,有利于解決冷啟動(dòng)和稀疏性問(wèn)題,他們提出TrustWalker算法,即基于信任網(wǎng)絡(luò)的隨機(jī)游走,并在游走的過(guò)程中返回預(yù)測(cè)的用戶產(chǎn)品評(píng)分;張萌等[33]在此基礎(chǔ)上提出一種基于用戶偏好的PtTrustWalker算法,該算法在TrustWalker的基礎(chǔ)上通過(guò)細(xì)化信任度量,引入權(quán)威度等信息加強(qiáng)了信任網(wǎng)絡(luò),使推薦變得更有針對(duì)性和可解釋性,并且一定程度上增強(qiáng)了模型的穩(wěn)定性。這類方法一般僅使用二部圖本身的信息,缺乏利用豐富的先驗(yàn)信息提高算法性能的機(jī)制。MO et al.[34]將隨機(jī)游走方法引入到基于事件的社交網(wǎng)絡(luò)的推薦中,通過(guò)構(gòu)建異構(gòu)圖來(lái)表示社交網(wǎng)絡(luò)中不同類型的實(shí)體之間的交互作用,并提出一種重啟動(dòng)的反向隨機(jī)游走方法,以獲得每個(gè)用戶的評(píng)分列表。類似的,曹云忠等[35]將社交網(wǎng)絡(luò)中用戶間的交互行為引入信任的計(jì)算,通過(guò)基于信任的隨機(jī)游走模型實(shí)現(xiàn)了微博粉絲的精準(zhǔn)推薦。與之類似,在退貨二部圖中,用戶間通過(guò)產(chǎn)品而產(chǎn)生的交互行為也需要被引入到偏好的計(jì)算中。張怡文等[36]采用共同項(xiàng)目和用戶打分項(xiàng)目數(shù)量的共同性質(zhì)體現(xiàn)用戶興趣度,提出一種基于用戶興趣度的二部圖隨機(jī)游走方法;李鎮(zhèn)東等[37]在傳統(tǒng)的二部圖推薦算法的基礎(chǔ)上,提出一種以單調(diào)飽和函數(shù)為權(quán)重,利用目標(biāo)用戶和其他項(xiàng)目共同評(píng)分個(gè)數(shù)相對(duì)用戶總數(shù)均值的正切值作為相似性度量的推薦算法。這類研究大多只從用戶角度出發(fā),沒(méi)有將產(chǎn)品一側(cè)的相似度融入到模型之中。楊華等[38]將推薦網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)從二部圖延伸到更一般的網(wǎng)絡(luò),根據(jù)商品、品牌、店鋪及其關(guān)聯(lián)關(guān)系構(gòu)建混合圖,通過(guò)重啟動(dòng)的隨機(jī)游走算法確定節(jié)點(diǎn)間的轉(zhuǎn)移概率,實(shí)現(xiàn)商品推薦,證明了隨機(jī)游走方法在圖排序問(wèn)題上良好的泛化能力。
上述研究?jī)H針對(duì)用戶的購(gòu)買(mǎi)記錄進(jìn)行建模,并未考慮用戶特征和產(chǎn)品本身的特征。而對(duì)于退貨問(wèn)題來(lái)說(shuō),需要同時(shí)考慮與購(gòu)買(mǎi)和退貨相關(guān)的行為,融合影響退貨的用戶特征和產(chǎn)品特征,從而提升模型的預(yù)測(cè)精度。
退貨是用戶的一項(xiàng)綜合決策過(guò)程,與產(chǎn)品的購(gòu)買(mǎi)過(guò)程類似,在一定程度上反映了用戶對(duì)于產(chǎn)品的偏好特征和個(gè)性化的退貨行為模式,同時(shí)也涉及到用戶和產(chǎn)品等不同實(shí)體。不同的用戶對(duì)于不同類型商品評(píng)價(jià)的側(cè)重點(diǎn)不同,對(duì)應(yīng)的退貨行為也存在特定的模式,因此需要針對(duì)用戶購(gòu)買(mǎi)和退貨的行為數(shù)據(jù)進(jìn)行深度挖掘,進(jìn)而對(duì)用戶在購(gòu)買(mǎi)各類產(chǎn)品時(shí)發(fā)生退貨的風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。對(duì)于具體的目標(biāo)用戶來(lái)說(shuō),退貨風(fēng)險(xiǎn)即為針對(duì)不同產(chǎn)品的退貨傾向。
圖1 退貨二部圖結(jié)構(gòu)示例Figure 1 Example for Product Return Bipartite Network
如前所述,二部圖能夠有效地表征不同類型實(shí)體間的交互活動(dòng)。實(shí)際上,電子商務(wù)中的退貨場(chǎng)景中所包含的用戶和產(chǎn)品符合二部圖刻畫(huà)不同實(shí)體類型間交互行為的結(jié)構(gòu)。令由“用戶-產(chǎn)品”的退貨記錄構(gòu)成的退貨二部圖為G,G=(U∪I,E),U為電子商務(wù)平臺(tái)中的用戶集合,I為平臺(tái)上的產(chǎn)品集合,E為該二部圖的邊集。二部圖中的邊由歷史退貨記錄集合T生成,形如(uj,ik,wjk)∈E,uj為用戶,uj∈U,1≤j≤|U|;ik為產(chǎn)品,ik∈I,1≤k≤|I|;wjk為uj用戶對(duì)ik產(chǎn)品的退貨次數(shù)。對(duì)二部圖中的每一個(gè)用戶節(jié)點(diǎn)和每一個(gè)產(chǎn)品節(jié)點(diǎn)而言,度是圖上的重要屬性,因此可以引入兩個(gè)由權(quán)重矩陣W生成的對(duì)角矩陣DU和DI。
基于如上定義的退貨二部圖,可以根據(jù)二部圖的結(jié)構(gòu)特征對(duì)圖中的節(jié)點(diǎn)按照一定的規(guī)則進(jìn)行排序。因此,對(duì)于退貨風(fēng)險(xiǎn)的預(yù)測(cè)問(wèn)題可以轉(zhuǎn)換為基于二部圖的結(jié)構(gòu)發(fā)現(xiàn)問(wèn)題。具體而言,對(duì)于特定用戶的退貨風(fēng)險(xiǎn)的預(yù)測(cè)問(wèn)題可以定義為:給定目標(biāo)用戶節(jié)點(diǎn)uj,根據(jù)該節(jié)點(diǎn)在二部圖中與不同產(chǎn)品的連接以及與其他用戶節(jié)點(diǎn)的相似性,得到該用戶對(duì)于不同產(chǎn)品的潛在風(fēng)險(xiǎn)退貨列表。
隨機(jī)游走提供了一種根據(jù)二部圖中節(jié)點(diǎn)間的相關(guān)性進(jìn)行排序的方法,其基本思想是根據(jù)特定的概率游走規(guī)則,在不同類型的節(jié)點(diǎn)間進(jìn)行轉(zhuǎn)移,直至收斂,能夠在一定程度上減小稀疏性的影響。因此,在對(duì)用戶和產(chǎn)品的退貨風(fēng)險(xiǎn)進(jìn)行建模時(shí),本研究構(gòu)建二部圖,并通過(guò)隨機(jī)游走模型實(shí)現(xiàn)對(duì)用戶和產(chǎn)品的循環(huán)表示。具體而言,對(duì)應(yīng)于本研究所關(guān)注的退貨二部圖,可以將用戶到產(chǎn)品的一條退貨記錄邊作為一條隨機(jī)游走的路徑,而在退貨網(wǎng)絡(luò)中的隨機(jī)游走則可以視作是退貨風(fēng)險(xiǎn)在用戶與用戶之間、產(chǎn)品與產(chǎn)品之間的傳遞。其中相似的用戶具有相似的退貨行為,而相似的產(chǎn)品也會(huì)被相似的用戶退貨。圖1為一個(gè)退貨二部圖結(jié)構(gòu)的示意圖,直接反映用戶與產(chǎn)品退貨關(guān)系的結(jié)構(gòu)特點(diǎn)。
于是,令uj用戶為待預(yù)測(cè)的目標(biāo)用戶,由退貨二部圖可以得到其對(duì)應(yīng)的產(chǎn)品集合為I(uj),I(uj)={ik},(uj,ik)∈T。顯然,I(uj)中的產(chǎn)品與目標(biāo)用戶具有較強(qiáng)的相關(guān)性。因此,基于隨機(jī)游走的基本思想,退過(guò)I(uj)中產(chǎn)品的up用戶則與目標(biāo)用戶具有較強(qiáng)的相似性。與此同時(shí),up用戶所退的產(chǎn)品集合I(up)也與目標(biāo)用戶產(chǎn)生了相關(guān)性,循環(huán)迭代,則可以生成與目標(biāo)用戶最相似的用戶節(jié)點(diǎn)集以及最相關(guān)的產(chǎn)品節(jié)點(diǎn)集。上述過(guò)程可形式化地描述為以下兩個(gè)迭代規(guī)則,即
(1)
(2)
其中,ruj為uj用戶的退貨風(fēng)險(xiǎn),可以用其對(duì)應(yīng)的退貨產(chǎn)品和退貨次數(shù)表示;rik為ik產(chǎn)品的退貨風(fēng)險(xiǎn),可以用退過(guò)該產(chǎn)品的用戶和退貨次數(shù)表示。但是,根據(jù)ZHOU et al.[39-40]的研究,上述形式的迭代規(guī)則不容易平穩(wěn)地收斂,很容易受到異常點(diǎn)和參數(shù)設(shè)置的影響,所以需要進(jìn)行形式上的正則化處理。因此,本研究使用對(duì)于圖的對(duì)稱正則方法進(jìn)行平滑處理,正則化后的迭代規(guī)則為
(3)
(4)
其中,dj為二部圖中uj用戶的度,dk為二部圖中ik產(chǎn)品的度。
本研究涉及的變量及其含義見(jiàn)表1。
2.2.1 影響退貨的特征分析
本研究針對(duì)用戶和產(chǎn)品的各類特征進(jìn)行觀測(cè)。在淘寶網(wǎng)中,平臺(tái)根據(jù)用戶的購(gòu)買(mǎi)記錄對(duì)用戶的信用水平進(jìn)行評(píng)分。圖2給出不同信用評(píng)分用戶的退貨率分布,其中高退貨率的用戶主要集中在低信用評(píng)分區(qū)段,當(dāng)信用評(píng)分超過(guò)2 000時(shí),退貨率基本穩(wěn)定在0附近,總體呈現(xiàn)出負(fù)相關(guān)的趨勢(shì)。由此可見(jiàn),用戶的信用評(píng)分與退貨有很強(qiáng)的相關(guān)性。不同信用評(píng)分區(qū)段的用戶具有不同的退貨特征,信用評(píng)分較低的用戶退貨傾向更明顯。
表1 變量及其含義Table 1 Variable and Definition
圖2 不同信用評(píng)分用戶的退貨率分布Figure 2 Product Return Rate Distributionfor Users with Different Credit Scores
圖3給出不同價(jià)格的產(chǎn)品呈現(xiàn)出的不同的退貨特征。由圖3可知,隨著產(chǎn)品價(jià)格的升高,產(chǎn)品的退貨率也逐漸升高,呈現(xiàn)出正相關(guān)的特征。一般來(lái)說(shuō),對(duì)于價(jià)格較為便宜的產(chǎn)品,用戶的期望相對(duì)較低,退貨風(fēng)險(xiǎn)較?。欢鴮?duì)于價(jià)格較高的產(chǎn)品,用戶要求較高,發(fā)生退貨的風(fēng)險(xiǎn)也更高。因此,產(chǎn)品價(jià)格可以作為預(yù)測(cè)退貨風(fēng)險(xiǎn)的一大特征。
圖4給出產(chǎn)品運(yùn)費(fèi)的支付方與退貨頻次分布之間的關(guān)系。由圖4可知,當(dāng)運(yùn)費(fèi)支付方為用戶時(shí)退貨風(fēng)險(xiǎn)更高。因此,產(chǎn)品包郵與否也可以作為測(cè)量退貨風(fēng)險(xiǎn)的特征。
圖3 不同價(jià)格產(chǎn)品的退貨率分布Figure 3 Product Return RateDistribution with Different Price
圖4 不同產(chǎn)品運(yùn)費(fèi)支付方的退貨頻次分布Figure 4 Product Return Frequency DistributionWhen Shipping Rate Paid by Different Parties
此外,在電子商務(wù)環(huán)境中,用戶只能通過(guò)產(chǎn)品的簡(jiǎn)介和描述來(lái)判定產(chǎn)品的質(zhì)量,其中是否擁有質(zhì)保證書(shū)是一項(xiàng)重要的指標(biāo),圖5給出是否擁有質(zhì)保證書(shū)的產(chǎn)品被退貨的頻次分布。由圖5可知,無(wú)質(zhì)保證書(shū)的產(chǎn)品被退貨的風(fēng)險(xiǎn)高于有質(zhì)保證書(shū)的產(chǎn)品??赡軣o(wú)質(zhì)保證書(shū)的產(chǎn)品總體上質(zhì)量較差,也可能因?yàn)橛脩魧?duì)無(wú)質(zhì)保證書(shū)的產(chǎn)品持負(fù)面態(tài)度。因此,有無(wú)質(zhì)保證書(shū)也可以作為影響退貨的重要特征融入到退貨風(fēng)險(xiǎn)的預(yù)測(cè)模型中。
圖5 產(chǎn)品是否擁有質(zhì)保證書(shū)的退貨頻次分布Figure 5 Product Return Frequency Distributionover Whether Product Has Warranty
2.2.2 退貨特征相似性度量
隨機(jī)游走測(cè)量用戶與產(chǎn)品之間的相關(guān)性,表示退貨風(fēng)險(xiǎn)在二部圖中傳遞。因此,為了將上述相關(guān)特征融入到隨機(jī)游走過(guò)程中,需要度量用戶與產(chǎn)品在不同特征間的相似性,并將相似性作為隨機(jī)游走的先驗(yàn)信息,指導(dǎo)游走過(guò)程。
(1)用戶靜態(tài)相似性的度量
根據(jù)圖2可知,不同信用評(píng)分的用戶具有不同的退貨行為特征,可以很好地用來(lái)量化用戶的靜態(tài)相似性。對(duì)于任意的目標(biāo)用戶uj,任取用戶集合U中的一個(gè)元素記為ul,設(shè)計(jì)如下的相似性函數(shù)計(jì)算該用戶與目標(biāo)用戶之間的相似度,即
(5)
其中,SU(uj,ul)為基于用戶的相似性度量函數(shù),Suj為uj用戶的信用評(píng)分,Sul為ul用戶的信用評(píng)分,Sux為除uj和ul用戶外其他任一用戶的信用評(píng)分。當(dāng)ul用戶是目標(biāo)用戶時(shí),SU(uj,ul)的取值為0;當(dāng)ul用戶不是目標(biāo)用戶,但與目標(biāo)用戶信用評(píng)分差距最大時(shí),SU(uj,ul)的取值為1。且SU(uj,ul)在0~1之間具有良好的線性變化性質(zhì)。
(2)產(chǎn)品相似性的度量
根據(jù)之前的觀測(cè),產(chǎn)品的相關(guān)特征屬性主要包括價(jià)格、產(chǎn)品包郵與否和是否有質(zhì)保證書(shū)3項(xiàng),價(jià)格是連續(xù)性變量,其他兩項(xiàng)是[0,1]變量。為了消除量綱的影響,先對(duì)價(jià)格屬性進(jìn)行歸一化處理,歸一化函數(shù)為
(6)
其中,ik為目標(biāo)產(chǎn)品,ip為產(chǎn)品集合I中的任意一個(gè)元素,Pik為ik產(chǎn)品的價(jià)格,Pip為ip產(chǎn)品的價(jià)格,Piy為除ik和ip產(chǎn)品外其他任一產(chǎn)品的價(jià)格。
令ik產(chǎn)品經(jīng)過(guò)歸一化后的特征屬性向量為Fik,ip產(chǎn)品經(jīng)過(guò)歸一化后的特征屬性向量為Fip,采用調(diào)整的相關(guān)系數(shù)作為產(chǎn)品之間相似性的度量函數(shù),記為SI(ik,ip),即
(7)
(3)退貨特征的隨機(jī)游走
在測(cè)量退貨特征相似性的基礎(chǔ)上,可將其作為算法的先驗(yàn)信息融入到隨機(jī)游走中。具體而言,通過(guò)SU(uj,ul)函數(shù)計(jì)算所有用戶與目標(biāo)用戶uj的相似性,可以生成用戶的先驗(yàn)信息u0,從而將用戶特征融合到用戶端退貨風(fēng)險(xiǎn)的測(cè)量中,即
u0={SU(uj,ul)} 1≤l≤|U|
(8)
產(chǎn)品在退貨特征上的相似性也可以作為產(chǎn)品端游走過(guò)程的先驗(yàn)信息,以此改進(jìn)(2)式中對(duì)于產(chǎn)品退貨風(fēng)險(xiǎn)的測(cè)量。同時(shí),由于退貨風(fēng)險(xiǎn)預(yù)測(cè)的目標(biāo)是尋找目標(biāo)用戶最可能退貨的產(chǎn)品列表,所以產(chǎn)品的先驗(yàn)信息還應(yīng)包含產(chǎn)品與目標(biāo)用戶之間的相關(guān)性,這里采用退貨次數(shù)占比作為相關(guān)性的度量,記為r(uj,ik),即
(9)
其中,(DU)jj為uj用戶的總退貨次數(shù)。但是,用戶的退貨記錄矩陣是較為稀疏的矩陣,即目標(biāo)用戶對(duì)很多產(chǎn)品的退貨次數(shù)可能為0,難以進(jìn)行有效的區(qū)分。因此,本研究在產(chǎn)品特征相似性的基礎(chǔ)上,引入基于產(chǎn)品特征相似性的平均退貨次數(shù)占比,記為C(uj,ik),即
I(uj)={ip},(uj,ip)∈T
(10)
根據(jù)(10)式可以測(cè)量uj目標(biāo)用戶與所有產(chǎn)品之間的相關(guān)性,進(jìn)而生成產(chǎn)品的先驗(yàn)信息i0,從而將產(chǎn)品特征融合到產(chǎn)品端退貨風(fēng)險(xiǎn)的測(cè)量中,即
i0={C(uj,ik)}, 1≤k≤|I|
(11)
進(jìn)一步地,引入超參數(shù)α和β對(duì)原有的隨機(jī)游走過(guò)程和退貨特征的相似性進(jìn)行線性組合,得到融合的迭代規(guī)則。
(12)
(13)
其中,α和β為超參數(shù),α表示產(chǎn)品先驗(yàn)信息的重要性,β表示用戶先驗(yàn)信息的重要性。上述規(guī)則可以使用向量形式更為簡(jiǎn)潔地表達(dá)為
(14)
(15)
其中,u為按與目標(biāo)用戶相似性排序的用戶向量,i為按退貨風(fēng)險(xiǎn)排序的產(chǎn)品向量。
上述迭代規(guī)則是基于二部圖的退貨風(fēng)險(xiǎn)預(yù)測(cè)模型的核心,根據(jù)迭代規(guī)則可以設(shè)計(jì)如算法1(ReRank)所示的退貨風(fēng)險(xiǎn)預(yù)測(cè)方法。具體而言,輸入目標(biāo)用戶、權(quán)重矩陣、超參數(shù)α和β,經(jīng)過(guò)多次的迭代直至收斂,最終輸出u和i,其中排名前N的產(chǎn)品集合R(uj)作為預(yù)測(cè)的退貨風(fēng)險(xiǎn)列表。
算法1 基于二部圖的退貨風(fēng)險(xiǎn)預(yù)測(cè)模型(ReRank)
本研究從淘寶網(wǎng)的在線商家中獲取交易數(shù)據(jù),淘寶網(wǎng)是阿里巴巴旗下的電子商務(wù)B2C購(gòu)物網(wǎng)站,是目前中國(guó)最大的電子商務(wù)平臺(tái)之一。該在線商家主要經(jīng)營(yíng)護(hù)膚產(chǎn)品,包括面霜、面膜、香水等。該數(shù)據(jù)集包含用戶記錄、產(chǎn)品記錄和2013年全年的退貨記錄。為了更好地發(fā)現(xiàn)用戶退貨的潛在行為模式,本研究對(duì)發(fā)生頻繁退貨的用戶進(jìn)行采樣,保留退貨次數(shù)超過(guò)2的用戶及其退貨記錄。并抽取用戶的信用評(píng)分作為用戶特征,以產(chǎn)品價(jià)格、運(yùn)費(fèi)支付方和證書(shū)狀態(tài)作為產(chǎn)品特征。抽樣后形成的新數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表2。
表2 數(shù)據(jù)集描述Table 2 Description for Dataset
將退貨記錄劃分為5份,取其中的4份劃入訓(xùn)練集,其余的劃入測(cè)試集。對(duì)于無(wú)法等分的部分,向上取整劃入訓(xùn)練集中。在此基礎(chǔ)上進(jìn)行實(shí)驗(yàn)。
3.2.1 實(shí)驗(yàn)比較方法
為了驗(yàn)證本研究提出的算法ReRank的實(shí)際預(yù)測(cè)效果,選取一些常用的推薦方法作為基準(zhǔn)比較方法。
(1)基于產(chǎn)品的協(xié)同過(guò)濾(ItemCF)
基于產(chǎn)品的協(xié)同過(guò)濾的基本思想是向用戶推薦與他們之前偏好的產(chǎn)品相似的產(chǎn)品。該算法認(rèn)為,A產(chǎn)品與B產(chǎn)品具有很強(qiáng)的相似性是因?yàn)槠肁產(chǎn)品的用戶也更傾向于偏好B產(chǎn)品。記A產(chǎn)品的退貨向量為VA,B產(chǎn)品的退貨向量為VB,采用余弦?jiàn)A角計(jì)算二者之間的相似度可以得到產(chǎn)品的相似度矩陣。對(duì)于目標(biāo)用戶,利用產(chǎn)品相似度對(duì)用戶偏好程度進(jìn)行加權(quán)平均,經(jīng)排序后可輸出推薦列表R(uj)。
(16)
其中,VAj為退貨向量VA的第j個(gè)分量的值,VBj為退貨向量VB的第j個(gè)分量的值。
(2)基于用戶的協(xié)同過(guò)濾(UserCF)
基于用戶的協(xié)同過(guò)濾的基本思想是向用戶推薦與其相似的用戶所偏好的產(chǎn)品。該算法認(rèn)為,C用戶與D用戶很相似是因?yàn)槎咂猛瑯拥漠a(chǎn)品。記C用戶的退貨向量為VC,D用戶的退貨向量為VD,采用余弦?jiàn)A角計(jì)算二者之間的相似度可以得到用戶之間的相似度矩陣。對(duì)于目標(biāo)用戶,利用用戶相似度對(duì)產(chǎn)品偏好程度進(jìn)行加權(quán)平均,經(jīng)排序后可輸出推薦列表R(uj)。
(17)
其中,VCj為退貨向量VC的第j個(gè)分量的值,VDj為退貨向量VD的第j個(gè)分量的值。
(3)奇異值分解(SVD)
奇異值分解是一種矩陣分解的方法,它可以將推薦問(wèn)題映射到一個(gè)隱含空間進(jìn)行求解。對(duì)于本研究關(guān)注的退貨問(wèn)題,給定退貨矩陣W,wjk為矩陣中任意元素。SVD假設(shè)用戶和產(chǎn)品都可以被映射到一個(gè)低維度的隱含空間,而退貨矩陣可以分解為用戶對(duì)各個(gè)隱含因子的偏好程度L以及產(chǎn)品包含各個(gè)隱含因子的程度M。典型的奇異值分解公式為
W=LΣMT
(18)
其中,Σ為分解后的中間矩陣。
(4)非負(fù)矩陣分解(NMF)
與SVD方法類似,NMF也是將消費(fèi)者對(duì)于產(chǎn)品的評(píng)分矩陣分解為消費(fèi)者與產(chǎn)品的隱含矩陣。NMF要求輸入矩陣元素非負(fù),目標(biāo)是最小化消費(fèi)者對(duì)于產(chǎn)品的評(píng)分矩陣與多個(gè)隱含矩陣乘積之間的距離。
3.2.2 評(píng)價(jià)指標(biāo)
(1)準(zhǔn)確率(Precision)
準(zhǔn)確率是反映預(yù)測(cè)精度的單值指標(biāo),表示預(yù)測(cè)的退貨風(fēng)險(xiǎn)列表中實(shí)際發(fā)生退貨的產(chǎn)品數(shù)在預(yù)測(cè)列表中所占的比例。因此對(duì)于uj用戶,退貨風(fēng)險(xiǎn)預(yù)測(cè)得到的產(chǎn)品集合為R(uj),R(uj)中實(shí)際發(fā)生退貨的產(chǎn)品集合為hits(uj),對(duì)應(yīng)的準(zhǔn)確率為
(19)
(2)召回率(Recall)
召回率是指預(yù)測(cè)的退貨風(fēng)險(xiǎn)列表中實(shí)際發(fā)生退貨的產(chǎn)品數(shù)在用戶實(shí)際發(fā)生退貨的產(chǎn)品數(shù)中所占的比例。對(duì)于uj用戶,其實(shí)際發(fā)生退貨的產(chǎn)品集合記為I(uj),R(uj)中實(shí)際發(fā)生退貨的產(chǎn)品集合為hits(uj)。
(20)
(3)nDcg
該指標(biāo)用來(lái)測(cè)量算法能否將實(shí)際發(fā)生的退貨產(chǎn)品置于預(yù)測(cè)風(fēng)險(xiǎn)列表的頂端,該指標(biāo)值越大,說(shuō)明得到的預(yù)測(cè)精度越高。對(duì)于uj用戶,退貨風(fēng)險(xiǎn)預(yù)測(cè)得到的產(chǎn)品集合為R(uj),長(zhǎng)度為N。計(jì)算Dcg的公式為
(21)
其中,當(dāng)排序列表中的第k件產(chǎn)品在交易記錄中被實(shí)際購(gòu)買(mǎi)時(shí),qk=1;反之,qk=0。為了得到nDcg,需要對(duì)Dcg進(jìn)行標(biāo)準(zhǔn)化,即
(22)
其中,Idcg為在最理想的排序情形時(shí)Dcg的取值,即最大化的取值。當(dāng)有多個(gè)目標(biāo)用戶時(shí),計(jì)算不同用戶nDcg的均值即可。
3.3.1 算法收斂性分析
基于隨機(jī)游走算法的特點(diǎn),在實(shí)驗(yàn)中首先利用用戶和產(chǎn)品的退貨風(fēng)險(xiǎn)向量平均值的變化率對(duì)算法的收斂進(jìn)行分析。取α=0.5,β=0.8,根據(jù)(14)式和(15)式計(jì)算迭代后得到的退貨風(fēng)險(xiǎn)向量u和i,同時(shí)計(jì)算與上次迭代得到的向量的平均值的變化率。收斂性分析見(jiàn)圖6,隨著迭代次數(shù)的增加,用戶和產(chǎn)品退貨向量的變化率都在同時(shí)減小,當(dāng)?shù)螖?shù)大于10時(shí),u和i平均值的變化率同時(shí)趨近于0,算法趨于收斂。
圖6 算法的收斂性分析結(jié)果Figure 6 Convergence Analysis Resultsfor the Algorithm
3.3.2 參數(shù)敏感性分析
本研究提出的ReRank算法中包含α和β兩個(gè)超參數(shù),分別用來(lái)衡量產(chǎn)品先驗(yàn)信息和用戶先驗(yàn)信息的重要性,可以根據(jù)實(shí)際的使用情況自由設(shè)置。不同的參數(shù)設(shè)置可以導(dǎo)致不同的推薦結(jié)果,因此在本實(shí)驗(yàn)中著重分析模型對(duì)超參數(shù)的敏感性。
取β=0.8并保持不變,分析α對(duì)模型性能的影響,見(jiàn)圖7。由圖7可知,分別在列表長(zhǎng)度為5、10和15的情形下進(jìn)行參數(shù)分析,隨著α值的增大,模型的召回率呈現(xiàn)不斷下降的趨勢(shì),準(zhǔn)確率先升后降。當(dāng)α=1,即無(wú)任何產(chǎn)品先驗(yàn)信息時(shí),與包含一定的先驗(yàn)信息時(shí)相比,模型的準(zhǔn)確率和召回率都有明顯的下降,可見(jiàn)先驗(yàn)信息對(duì)于模型性能的重要影響。
(a)準(zhǔn)確率(b)召回率圖7 α的敏感性分析Figure 7 Sensitivity Analysis Results for the α
取α=0.5,分析β對(duì)模型性能的影響,見(jiàn)圖8。由圖8可知,在退貨預(yù)測(cè)列表長(zhǎng)度分別為5、10和15時(shí),隨著β值的不斷增加,模型的召回率總體呈上升的趨勢(shì),準(zhǔn)確率總體呈下降的趨勢(shì)。同樣的,當(dāng)β=1,即無(wú)任何用戶先驗(yàn)信息時(shí),與包含一定的先驗(yàn)信息時(shí)相比,模型的準(zhǔn)確率和召回率也都有明顯的下降。另外,準(zhǔn)確率和召回率曲線的變化幅度都很小,說(shuō)明在該數(shù)據(jù)集上ReRank算法對(duì)β不敏感。
3.3.3 算法性能分析
進(jìn)一步地,設(shè)定最優(yōu)參數(shù)(α=0.5,β=0.8),對(duì)所有用戶的退貨風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),即根據(jù)用戶對(duì)于產(chǎn)品的退貨風(fēng)險(xiǎn)預(yù)測(cè)用戶的退貨列表。將預(yù)測(cè)結(jié)果與UserCF、ItemCF、SVD和NMF等算法進(jìn)行對(duì)比,分析結(jié)果見(jiàn)圖9。整體上看,本研究提出的算法在所有指標(biāo)上均表現(xiàn)得最好,當(dāng)列表長(zhǎng)度為15時(shí),與NMF相比,ReRank的準(zhǔn)確率提高了16%,召回率提高了17%,nDcg提高了11%。另外,基于產(chǎn)品的協(xié)同過(guò)濾表現(xiàn)出較差的性能,可能是因?yàn)樵谠摂?shù)據(jù)集中產(chǎn)品的退貨記錄較為分散,所以基于產(chǎn)品的相似度計(jì)算區(qū)分度不高。
(a)準(zhǔn)確率(b)召回率圖8 β的敏感性分析Figure 8 Sensitivity Analysis Results for the β
3.3.4 退貨特征的預(yù)測(cè)能力分析
為了進(jìn)一步分析融合到隨機(jī)游走過(guò)程的各個(gè)退貨特征對(duì)于退貨風(fēng)險(xiǎn)的預(yù)測(cè)能力,分別在初始的隨機(jī)游走模型中加入各個(gè)特征,得到各自的預(yù)測(cè)精度,見(jiàn)表3。在模型中加入所有特征后,各項(xiàng)預(yù)測(cè)指標(biāo)均
表3 不同退貨特征的預(yù)測(cè)能力Table 3 Predictive Powerfor Different Product Return Feature
(a)準(zhǔn)確率(b)召回率(c) nDCG圖9 不同算法的性能比較結(jié)果Figure 9 Results for ComparingPerformance for Different Algorithms
達(dá)到最高,而不加入任何退貨特征的模型整體表現(xiàn)最差。單獨(dú)加入用戶的信用評(píng)分或產(chǎn)品價(jià)格均從較大程度上提升了算法的精度,并且偏重不同的精度指標(biāo),信用評(píng)分有效提升了準(zhǔn)確率,產(chǎn)品價(jià)格提升了召回率。運(yùn)費(fèi)支付方式和質(zhì)保證書(shū)也從一定程度上改進(jìn)了算法的預(yù)測(cè)精度,但精度的提升幅度有限。分析結(jié)果再次表明,融合了退貨特征的隨機(jī)游走模型能對(duì)退貨風(fēng)險(xiǎn)進(jìn)行更細(xì)致的建模。
實(shí)際上,本研究提出的ReRank算法對(duì)于不同類型的退貨特征有較好的可擴(kuò)展性,各類特征均可以根據(jù)相似性的測(cè)量融入到隨機(jī)游走的先驗(yàn)信息中。
本研究聚焦于電子商務(wù)環(huán)境下的退貨問(wèn)題,針對(duì)電子商務(wù)企業(yè)的交易、用戶和退貨數(shù)據(jù),提出一種分析和預(yù)測(cè)用戶對(duì)于特定產(chǎn)品退貨風(fēng)險(xiǎn)的方法。①退貨行為中包含的用戶和產(chǎn)品兩種實(shí)體類型,通過(guò)引入二部圖結(jié)構(gòu)來(lái)組織歷史退貨記錄,將問(wèn)題形式化為二部圖上的節(jié)點(diǎn)排序問(wèn)題。②設(shè)計(jì)退貨風(fēng)險(xiǎn)的隨機(jī)游走過(guò)程,實(shí)現(xiàn)用戶與產(chǎn)品退貨風(fēng)險(xiǎn)的互相表示?;趯?shí)際退貨數(shù)據(jù)的觀測(cè),發(fā)掘影響退貨的各類特征屬性,并將其轉(zhuǎn)化為先驗(yàn)信息引入模型,有效引導(dǎo)退貨風(fēng)險(xiǎn)在用戶與產(chǎn)品間的游走過(guò)程。③通過(guò)在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本研究提出的模型比其他方法具有更高的性能,并且相關(guān)退貨特征的引入可以提升退貨風(fēng)險(xiǎn)的預(yù)測(cè)精度。本研究主要適用于退貨率較高且退貨難度較低的電子商務(wù)環(huán)境。
本研究的意義包含兩個(gè)方面。①提供了一種識(shí)別潛在高退貨風(fēng)險(xiǎn)的用戶和高風(fēng)險(xiǎn)產(chǎn)品的方法,對(duì)于電子商務(wù)企業(yè)的運(yùn)營(yíng)管理決策具有較強(qiáng)的實(shí)踐意義。相關(guān)企業(yè)可以利用本研究提出的分析和預(yù)測(cè)方法對(duì)相關(guān)的用戶購(gòu)買(mǎi)各類產(chǎn)品時(shí)進(jìn)行風(fēng)險(xiǎn)判斷,有針對(duì)性地加強(qiáng)客戶關(guān)系管理。同時(shí)可以加強(qiáng)對(duì)高退貨風(fēng)險(xiǎn)產(chǎn)品的管理和規(guī)劃,如采用加強(qiáng)包裝、改善產(chǎn)品質(zhì)量等方式,以規(guī)避退貨風(fēng)險(xiǎn)。②本研究針對(duì)電子商務(wù)退貨數(shù)據(jù),創(chuàng)新性地將二部圖隨機(jī)游走模型應(yīng)用到退貨風(fēng)險(xiǎn)管理中,為電子商務(wù)領(lǐng)域相關(guān)研究提供一種新的視角,具有一定的理論意義。
①受數(shù)據(jù)本身的限制,本研究采用的退貨特征相對(duì)有限,因此僅針對(duì)部分用戶和產(chǎn)品的相關(guān)特征進(jìn)行融合。但實(shí)際上仍存在大量影響退貨的因素,如產(chǎn)品的選擇過(guò)程、產(chǎn)品退貨的難易程度等,可以更有效地識(shí)別退貨風(fēng)險(xiǎn)。雖然本算法對(duì)各類特征具有較強(qiáng)的可擴(kuò)展性,但仍無(wú)法全面驗(yàn)證和分析退貨特征對(duì)于風(fēng)險(xiǎn)的預(yù)測(cè)能力。②本研究?jī)H針對(duì)截面時(shí)間上的退貨數(shù)據(jù)進(jìn)行分析,但實(shí)際上用戶的退貨行為和產(chǎn)品的被退貨模式可能隨時(shí)間發(fā)生變化,因此未來(lái)研究需對(duì)模型進(jìn)行動(dòng)態(tài)性的擴(kuò)展。③后續(xù)研究可以結(jié)合一些行為學(xué)研究范式,補(bǔ)充個(gè)體用戶對(duì)于電子商務(wù)環(huán)境下退貨的主觀認(rèn)知,從而更好地揭示退貨的管理意義。
[1]ANDERSON E T,HANSEN K,SIMESTER D.The option value of returns:theory and empirical evidence.MarketingScience,2009,28(3):405 - 423.
[2]LI Y,XU L,LI D.Examining relationships between the return policy,product quality,and pricing strategy in online direct selling.InternationalJournalofProductionEconomics,2013,144(2):451 - 460.
[3]WALSH G,M?HRING M.Effectiveness of product return-prevention instruments:empirical evidence.ElectronicMarkets,2017,27(4):341 - 350.
[4]孫永波,李霞.網(wǎng)購(gòu)?fù)素浐罄m(xù)購(gòu)買(mǎi)行為的實(shí)證研究.企業(yè)經(jīng)濟(jì),2017,36(2):149 - 155.
SUN Yongbo,LI Xia.An empirical study on the follow-up purchases of online shopping returns.EnterpriseEconomy,2017,36(2):149 - 155.(in Chinese)
[5]DE P,HU Y J,RAHMAN M S.Product-oriented web technologies and product returns: an exploratory study.InformationSystemResearch,2013,24(4):998 - 1010.
[6]FU Y,LIU G,PAPADIMITRIOU S,et al.Fused latent models for assessing product return propensity in online commerce.DecisionSupportSystems,2016,91:77 - 88.
[7]PASTERNACK B A.Optimal pricing and return policies for perishable commodities.MarketingScience,2008,27(1):133 - 140.
[8]張霖霖,姚忠.考慮顧客退貨時(shí)在線企業(yè)的定價(jià)與訂貨策略.管理科學(xué)學(xué)報(bào),2013,16(6):10 - 21.
ZHANG Linlin,YAO Zhong.Pricing and order decisions with customer returns in online retailing.JournalofManagementSciencesinChina,2013,16(6):10 - 21.(in Chinese)
[9]李勇建,許磊,楊曉麗.產(chǎn)品預(yù)售、退貨策略和消費(fèi)者無(wú)缺陷退貨行為.南開(kāi)管理評(píng)論,2012,15(5):105 - 113.
LI Yongjian,XU Lei,YANG Xiaoli.Advance selling,return policy and false failure return for a newsvendor retailer.NankaiBusinessReview,2012,15(5):105 - 113.(in Chinese)
[10] 孫軍,徐路恒,劉宇.退貨問(wèn)題下的在線零售商最優(yōu)采購(gòu)量研究.管理科學(xué),2014,27(6):114 - 120.
SUN Jun,XU Luheng,LIU Yu.Optimal purchase quantity of on-line retailers under returns issue.JournalofManagementScience,2014,27(6):114 - 120.(in Chinese)
[11] 趙曉敏,高方方,林英暉.基于顧客退貨的閉環(huán)供應(yīng)鏈運(yùn)作績(jī)效研究.管理科學(xué),2015,28(1):66 - 82.
ZHAO Xiaomin,GAO Fangfang,LIN Yinghui.Research on operational performance of a closed-loop supply chain with customer returns.JournalofManagementScience,2015,28(1):66 - 82.(in Chinese)
[12] MUKHOPADHYAY S K,SETOPUTRO R.Optimal return policy and modular design for build-to-order products.JournalofOperationsManagement,2005,23(5):496 - 506.
[13] ANDERSON E T,HANSEN K,SIMESTER D.The option value of returns:theory and empirical evidence.MarketingScience,2009,28(3):405 - 423.
[14] 盧美麗,葉作亮,王芳.考慮退貨的在線零售價(jià)格和服務(wù)水平?jīng)Q策.系統(tǒng)工程,2017,35(1):102 - 109.
LU Meili,YE Zuoliang,WANG Fang.Online retail prices and service level decision considering returns.SystemsEngineering,2017,35(1):102 - 109.(in Chinese)
[15] 單汨源,江黃山,劉小紅.在線零售商盈利能力及其退貨策略研究.華東經(jīng)濟(jì)管理,2016,30(11):123 - 128.
SHAN Miyuan,JIANG Huangshan,LIU Xiaohong.Research on profitability and return policy of online retailers.EastChinaEconomicManagement,2016,30(11):123 - 128.(in Chinese)
[16] MOONESINGHE H D K,TAN P N.OutRank:a graph-based outlier detection framework using random walk.InternationalJournalonArtificialIntelligenceTools,2008,17(1):19 - 36.
[17] BEUTEL A,XU W H,CURUSWAMI V,et al.CopyCatch:stopping group attacks by spotting lockstep behavior in social networks∥Proceedingsofthe22ndInternationalConferenceonWorldWideWeb.Brazil,2013:119 - 130.
[18] ZHU Z,SU J,KONG L.Measuring influence in online social network based on the user-content bipartite graph.ComputersinHumanBehavior,2015,52:184 - 189.
[19] FOUSS F,PIROTTE A,RENDERS J M,et al.Random-walk computation of similarities between nodes of a graph with application to collaborative recommendation.IEEETransactionsonKnowledgeandDataEngineering,2007,19(3):355 - 369.
[20] HE X,GAO M,KAN M Y,et al.BiRank:towards ranking on bipartite graphs.IEEETransactionsonKnowledgeandDataEngineering,2017,29(1):57 - 71.
[21] 蔡小雨,陳可佳,安琛.采用群體信息的二部圖鏈接預(yù)測(cè)方法.計(jì)算機(jī)工程,2016,42(10):187 - 191.
CAI Xiaoyu,CHEN Kejia,AN Chen.Bipartite graph link prediction method using community information.ComputerEngineering,2016,42(10):187 - 191.(in Chinese)
[22] 關(guān)雲(yún)菲.改進(jìn)的基于二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法.信息技術(shù),2015(9):196 - 199.
GUAN Yunfei.Improved recommendation algorithm based on bipartite networks.InformationTechnology,2015(9):196 - 199.(in Chinese)
[23] 黃熠姿,楊金鑫,孫維.基于改進(jìn)二部圖與專家信任的混合推薦算法.價(jià)值工程,2017,36(19):160 - 164.
HUANG Yizi,YANG Jinxin,SUN Wei.Research of hybrid recommendation algorithm based on improved bipartite network and expert trust.ValueEngineering,2017,36(19):160 - 164. (in Chinese)
[24] 田東平.融合PLSA和隨機(jī)游走模型的自動(dòng)圖像標(biāo)注.小型微型計(jì)算機(jī)系統(tǒng),2017,38(8):1899 - 1905.
TIAN Dongping.Integrating PLSA and random walk model for automatic image annotation.JournalofChineseComputerSystems,2017,38(8):1899 - 1905.(in Chinese)
[25] LIU X,CHEUNG G,WU X,et al.Random walk graph laplacian-based smoothness prior for soft decoding of JPEG images.IEEETransactionsonImageProcessing,2017,26(2):509 - 524.
[26] SHEN R,CHENG I,SHI J,et al.Generalized random walks for fusion of multi-exposure images.IEEETransactionsonImageProcessing,2011,20(12):3634 - 3646.
[27] 李鵬,王斌,石志偉,等.Tag-TextRank:一種基于Tag的網(wǎng)頁(yè)關(guān)鍵詞抽取方法.計(jì)算機(jī)研究與發(fā)展,2012,49(11):2344 - 2351.
LI Peng,WANG Bin,SHI Zhiwei,et al.Tag-TextRank:a webpage keyword extraction method based on Tags.JournalofComputerResearch&Development,2012,49(11):2344 - 2351.(in Chinese)
[28] PUCCI A,GORI M,MAGGINI M.A random-walk based scoring algorithm applied to recommender engines∥AdvancesinWebMiningandWebUsageAnalysis,2007,4811:127 - 146.
[29] SHANG S,KULKARNI S R,CUFF P W,et al.A randomwalk based model incorporating social information for recommendations∥2012IEEEInternationalWorkshoponMachineLearningforSignalProcessing.Santander,Spain,2012:1 - 6.
[30] 施海鷹.基于關(guān)聯(lián)規(guī)則挖掘的分類隨機(jī)游走算法.計(jì)算機(jī)技術(shù)與發(fā)展,2017,27(9):7 - 11.
SHI Haiying.Random-walk classification algorithm with association rules mining.ComputerTechnologyandDevelopment,2017,27(9):7 - 11.(in Chinese)
[31] 張光前,白雪.基于消費(fèi)性格的新商品推薦方法.管理科學(xué),2015,28(2):60 - 68.
ZHANG Guangqian,BAI Xue.Method of new commodities recommendation based on consuming personalities.JournalofManagementScience,2015,28(2):60 - 68.(in Chinese)
[32] JAMALI M,ESTER M.TrustWalker:a random walk model for combining trust-based and item-based recommendation∥Proceedingsofthe15thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.Paris,France,2009:397 - 406.
[33] 張萌,南志紅.基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型.計(jì)算機(jī)應(yīng)用,2016,36(12):3363 - 3368.
ZHANG Meng,NAN Zhihong.Trust network random walk model based on user preferences.JournalofComputerApplications,2016,36(12):3363 - 3368.(in Chinese)
[34] MO Y,LI B,WANG B,et al.Event recommendation in social networks based on reverse random walk and participant scale control.FutureGenerationComputerSystems,2017,79(1):383 - 395.
[35] 曹云忠,邵培基,李良強(qiáng).基于信任隨機(jī)游走模型的微博粉絲推薦.系統(tǒng)管理學(xué)報(bào),2017,26(1):117 - 123,132.
CAO Yunzhong,SHAO Peiji,LI Liangqiang.Microblogging fans recommendation based on trust random walk model.JournalofSystems&Management,2017,26(1):117 - 123,132.(in Chinese)
[36] 張怡文,王冉,程家興.基于用戶興趣度的改進(jìn)二部圖隨機(jī)游走推薦方法.計(jì)算機(jī)應(yīng)用與軟件,2015,32(6):76 - 79.
ZHANG Yiwen,WANG Ran,CHENG Jiaxing.Improved recommendation algorithm of bipartite graph random walk based on user interest degree.ComputerApplicationsandSoftware,2015,32(6):76 - 79.(in Chinese)
[37] 李鎮(zhèn)東,羅琦,施力力.基于增加相似度系數(shù)的加權(quán)二部圖推薦算法.計(jì)算機(jī)科學(xué),2016,43(7):259 - 264.
LI Zhendong,LUO Qi,SHI Lili.Weighted bipartite network recommendation algorithm based on increasing similarity coefficient.ComputerScience,2016,43(7):259 - 264.(in Chinese)
[38] 楊華,周琪云,湯青,等.混合圖隨機(jī)游走算法的商品推薦.小型微型計(jì)算機(jī)系統(tǒng),2016,37(11):2433 - 2436.
YANG Hua,ZHOU Qiyun,TANG Qing,et al.Hybrid graph random walk algorithm for commodity recommendation.JournalofChineseComputerSystems,2016,37(11):2433 - 2436.(in Chinese)
[39] ZHOU D,HUANG J,SCH?LKOPF B.Learning from labeled and unlabeled data on a directed graph∥Proceedingsofthe22ndInternationalConferenceonMachineLearning.Bonn,Germany,2005:1036 - 1043.
[40] ZHOU D,SCH?LKOPF B.Regularization on discrete spaces∥KROPATSCH W,SABLATNIG R,HANBURY A.PatternRecognition:27thAnnualMeetingoftheGermanAssociationforPatternRecognition.Vienna,AustriaBerlin Heidelberg,2005:361 - 368.