馬文景,陳淮莉
(上海海事大學(xué)物流科學(xué)與工程研究院,上海 201306)
近年來,我國網(wǎng)絡(luò)零售業(yè)獲得了長足的發(fā)展,其競爭焦點(diǎn)也逐漸從價(jià)格轉(zhuǎn)向服務(wù),線上零售商的優(yōu)勢也越來越多地體現(xiàn)在購物的便利性和服務(wù)體驗(yàn)上。因此,通過向客戶提供精準(zhǔn)的訂單預(yù)計(jì)配送時(shí)間,在快的基礎(chǔ)上提升時(shí)間的精準(zhǔn)度和可控度,實(shí)現(xiàn)消費(fèi)者對時(shí)間的個(gè)性化需求,已成為提高客戶線上消費(fèi)滿意度的至關(guān)重要的一環(huán)。在 B2C (business to customer)模式下,時(shí)隙是網(wǎng)絡(luò)零售商提供給客戶選擇的交貨時(shí)間窗[1],便于客戶根據(jù)自身偏好和日程安排,提前選擇時(shí)隙。這可以避免空遞造成的損失,極大地滿足客戶對時(shí)間的精準(zhǔn)安排和有效利用的需求,提高客戶滿意度。在配送的精準(zhǔn)快方面,京東(JD.COM)的表現(xiàn)尤為突出,“京準(zhǔn)達(dá)”就是京東針對“最后一公里”推出的每2 h一個(gè)波次的精準(zhǔn)送達(dá)服務(wù)??蛻艨赏ㄟ^“京準(zhǔn)達(dá)”預(yù)約未來一周的特定收貨時(shí)間段,最早可始于9:00,最晚可至22:00。選擇“京準(zhǔn)達(dá)”服務(wù)的客戶需要在原訂單和運(yùn)費(fèi)的基礎(chǔ)上多付3~6元的運(yùn)費(fèi)。隨著近年來主營生鮮品的電商和外賣訂餐平臺不斷涌現(xiàn),電商競爭越來越激烈,按時(shí)隙配送已成為電商配送服務(wù)的主流方向。
目前,國外關(guān)于配送時(shí)隙的研究較多,國內(nèi)關(guān)于配送時(shí)隙的研究相對較少。AGATZ等[1]介紹了電商配送時(shí)隙的需求管理概念,并探討了對應(yīng)的訂單履約方法。ASDEMIR等[2]研究了多時(shí)隙選項(xiàng)的動態(tài)定價(jià)問題,提出了一種基于馬爾科夫決策過程的動態(tài)定價(jià)模型,通過調(diào)整價(jià)格影響客戶的時(shí)隙選擇行為、提高車輛裝載率、降低平均訂單交付成本,但是該方法主要用于時(shí)隙配送能力較充足的情況。XU等[3]以最小化總發(fā)貨次數(shù)為目標(biāo)提出了近優(yōu)算法,采用滾動計(jì)劃對客戶訂單任務(wù)進(jìn)行再分配,并探討了相關(guān)需求、訂單價(jià)值和訂單數(shù)量的影響。LIN等[4]通過仿真評估不同送貨政策對互聯(lián)網(wǎng)零售商的影響,重點(diǎn)分析硬時(shí)間窗對成本的影響從而均衡配送成本與客戶服務(wù)水平。HSU等[5]尋求最佳的交付裝運(yùn)周期以平衡交付成本與客戶訂單提前期,建立了需求量受提前期影響的非線性利潤優(yōu)化模型,并通過案例分析得出隨著時(shí)間和區(qū)域需求變化調(diào)整裝運(yùn)頻率的動態(tài)策略比維持靜態(tài)策略更好的結(jié)論。BUSHUEV等[6]將配送窗口的最優(yōu)位置的概念引入基于成本的配送性能模型,并通過分析表明配送窗口的最優(yōu)定位將最小化不及時(shí)(過早或過晚)交付的預(yù)期懲罰成本。COROLLI等[7]從航空公司收益管理中受到啟發(fā),建立了兩個(gè)隨機(jī)規(guī)劃模型,該模型通過調(diào)節(jié)客戶要求的時(shí)隙與實(shí)際可能延遲交付的時(shí)隙之間的時(shí)間差,并考慮運(yùn)能消耗的隨機(jī)性,對時(shí)隙運(yùn)能進(jìn)行協(xié)調(diào)分配。CARAMIA等[8]重點(diǎn)研究了從中央商務(wù)區(qū)(CBD)到周邊的配送問題,并從配送中心和配送路徑規(guī)劃這兩個(gè)角度出發(fā),對配送時(shí)隙運(yùn)能進(jìn)行了優(yōu)化分配。ACAR等[9]研究了影響客戶選擇的因素,并通過因子分析和多變量方差分析評估和選取了6個(gè)與客戶的人口特征有關(guān)的因素。HOSSEINALIFAM等[10]基于航空公司收益管理的思想研究動態(tài)資源分配的問題,提出一種將客戶選擇偏好和現(xiàn)實(shí)問題納入考慮的混合(參數(shù)-非參數(shù))選擇模型,并采用列生成算法對該模型進(jìn)行求解。MAZHARI等[11]通過蒙特卡洛仿真檢驗(yàn)客戶選擇采用CCOR(customer choices on reliability)來獲得風(fēng)險(xiǎn)收益的概率的影響,此外為同時(shí)達(dá)到最小化總規(guī)劃成本和風(fēng)險(xiǎn)收益的目標(biāo),提出了將基于模糊決策的選擇所獲得的帕累托最優(yōu)解與非支配排序遺傳算法(NSGA-II)結(jié)合的多目標(biāo)規(guī)劃方法。BUHLER等[12]為得到更接近現(xiàn)實(shí)的配送成本,提出了4種可以與現(xiàn)有的預(yù)訂期建模方法相結(jié)合的新的線性混合整數(shù)規(guī)劃模型,并通過算例說明配送的近似成本接近其真實(shí)值。HEDGCOCK等[13]通過對現(xiàn)有的關(guān)于選擇前后關(guān)系效應(yīng)的文獻(xiàn)成果進(jìn)行梳理總結(jié),建立了誘導(dǎo)因素和先前選擇對后續(xù)選擇影響的模型。
已有的配送時(shí)隙研究多采用最普遍的多項(xiàng)式Logit(multi-nomial Logit,MNL)模型對客戶的選擇行為進(jìn)行擬合,但傳統(tǒng)的MNL模型僅能處理客戶可觀測的系統(tǒng)性偏好,具有獨(dú)立不相關(guān)(independent and irrelevant alternatives,IIA)特性、喜好隨機(jī)性限制和跨期間的重復(fù)選擇的局限性。Mixed Logit模型的條件約束更為自由,其參數(shù)可以根據(jù)具體情況設(shè)置為任何形式的隨機(jī)分布,其精度接近任何一種隨機(jī)效用模型,突破了MNL模型固有的局限性,從而能夠靈活地解決客戶的隨機(jī)性偏好,對客戶的選擇行為分析更加貼合實(shí)際。因此,本文采用Mixed Logit模型對線上客戶的配送時(shí)隙選擇行為進(jìn)行分析,采用基于強(qiáng)化學(xué)習(xí)的Q學(xué)習(xí)算法對時(shí)隙定價(jià)優(yōu)化問題進(jìn)行求解,最終通過仿真分析時(shí)隙的動態(tài)定價(jià)策略。
在網(wǎng)購環(huán)境中,網(wǎng)絡(luò)零售商為某地區(qū)提供配送服務(wù)時(shí)會提供多種時(shí)隙選項(xiàng)[1],不同時(shí)隙具有的時(shí)隙屬性不同,即不同時(shí)隙在交付期長度、時(shí)隙寬度、物流服務(wù)水平方面存在差異。在時(shí)隙開放前,網(wǎng)絡(luò)零售商根據(jù)各時(shí)隙所耗費(fèi)的成本和客戶的時(shí)隙選擇歷史數(shù)據(jù),確定這些時(shí)隙的初始價(jià)格。在時(shí)隙開放后,客戶在下訂單時(shí)會選擇一個(gè)時(shí)隙作為交貨時(shí)間,該時(shí)隙的運(yùn)能就會被分配給該客戶的訂單。由于客戶的選擇偏好不同,各時(shí)隙的運(yùn)能分配情況可能會產(chǎn)生較大的差異:一部分時(shí)隙由于被較多客戶選擇,其運(yùn)能可能因消耗較快而供不應(yīng)求;另一部分時(shí)隙由于被較少的客戶選擇,其剩余運(yùn)能居高不下,供過于求。此時(shí),網(wǎng)絡(luò)零售商會根據(jù)各時(shí)隙的運(yùn)能分配情況,通過有針對性地對各時(shí)隙的價(jià)格進(jìn)行動態(tài)調(diào)整,影響后續(xù)到達(dá)客戶的時(shí)隙選擇行為,從而使各時(shí)隙的運(yùn)能得到均衡分配,以降低成本、優(yōu)化收益。
集合:N為配送時(shí)隙選項(xiàng)集合,i∈{1,2,…,I}=N,i=0表示不選擇這些時(shí)隙選項(xiàng);M為客戶訂單到達(dá)時(shí)段集合,t∈{1,2,…,T}=M。
參數(shù):H為每個(gè)時(shí)隙的初始固定配送能力;Z表示時(shí)段t被劃分的單位時(shí)段數(shù);σ為交付期長度的成本彈性系數(shù);ρ為時(shí)隙寬度的成本彈性系數(shù);α為學(xué)習(xí)速率;γ為未來收益的折扣因子;ε為探索概率。
變量:Ui為時(shí)隙i對客戶的效用;βr為時(shí)隙價(jià)格r的偏好系數(shù);βL為交付期長度L的偏好系數(shù);βW為時(shí)隙寬度W的偏好系數(shù);βS為物流服務(wù)水平S的偏好系數(shù);R為網(wǎng)絡(luò)零售商時(shí)隙選項(xiàng)的收益;Pi為選擇時(shí)隙i的概率;Li為時(shí)隙i的交付期長度;Wi為時(shí)隙i的寬度;Si為時(shí)隙i的物流服務(wù)水平。
決策變量:ri為時(shí)隙i的價(jià)格。
考慮到不同的時(shí)隙選項(xiàng)對客戶的效用不盡相同,引入效用函數(shù):
Ui=Vi+εi,?i∈N
(1)
式中:Vi為可觀測的固定效用;εi為反映個(gè)體消費(fèi)者獨(dú)特偏好的不可觀測的隨機(jī)變量。當(dāng)Vi獨(dú)立且服從同一Gumbel分布時(shí),根據(jù)效用函數(shù)可建立基于MNL模型的選擇概率公式,選擇時(shí)隙i的概率為
(2)
MNL模型是Logit模型的基本形式,是離散選擇模型體系的基礎(chǔ),但由于受到當(dāng)時(shí)計(jì)算技術(shù)的限制,具有以下局限性:(1)該模型認(rèn)為同一選項(xiàng)的效用對所有決策者來說是無差別的,而事實(shí)上同一選項(xiàng)的效用對不同決策者的效用權(quán)重往往不同;(2)該模型假設(shè)決策者在重復(fù)選擇時(shí),同一選項(xiàng)的效用對該決策者的權(quán)重依然相同,而事實(shí)上過去的選擇會對當(dāng)前的選擇產(chǎn)生影響(即滯后反應(yīng)),對于此類問題MNL模型也無法處理;(3)MNL模型有一個(gè)限制性假設(shè),即認(rèn)為不同的選項(xiàng)之間是可以成比例地相互替代的,而事實(shí)上該假設(shè)在很多情況下不符合實(shí)際。由于MNL模型存在上述局限性,所以它只能處理客戶的系統(tǒng)性偏好問題。
Mixed Logit模型的參數(shù)分布能夠根據(jù)實(shí)際情況自由靈活地設(shè)置,因而能夠更好地處理客戶的隨機(jī)偏好問題。因此,客戶對時(shí)隙i的選擇概率可表示為
(3)
(4)
式(4)中,Vi為隨機(jī)效用中的可觀測部分,其表達(dá)式為Vi=β1x1+β2x2+…+βkxk=β′x,其中x=(x1,x2,…,xk)T為特性向量,β′=(β1,β2,…,βk)為待估參數(shù)向量。在Mixed Logit模型中β′可以根據(jù)客戶的時(shí)隙選擇偏好服從任何分布。本文根據(jù)調(diào)查,將影響客戶時(shí)隙選擇行為的因素分為時(shí)隙價(jià)格r、交付期長度L、時(shí)隙寬度W和物流服務(wù)水平S等4個(gè)因素。將各影響因素代入Vi:
Vi=βrri+βLLi+βWWi+βSSi
(5)
則客戶m在Mixed Logit模型下選擇時(shí)隙i的概率為
(6)
與MNL模型不同的是,Mixed Logit模型沒有封閉解,需要計(jì)算機(jī)通過統(tǒng)計(jì)模擬,按照模型中參數(shù)服從的分布進(jìn)行抽樣生成隨機(jī)數(shù),再將隨機(jī)數(shù)代入式(4)得到相應(yīng)的函數(shù)值,最后計(jì)算這些函數(shù)值的平均數(shù),從而得到Pi的模擬解。
假設(shè)將時(shí)隙i的開放預(yù)定時(shí)間范圍[0,T]劃分為T個(gè)離散時(shí)段,再將每個(gè)離散時(shí)段劃分為Z個(gè)足夠小的單位時(shí)段,在單位時(shí)段內(nèi)有且僅有一個(gè)客戶訂單到達(dá)或者沒有客戶訂單到達(dá)??蛻粲唵卧跁r(shí)段t到達(dá)的概率用λt表示,且服從Poisson分布,則在時(shí)段t客戶對時(shí)隙i的需求表達(dá)式為
qit=λtPiZ,i∈N;t∈M
(7)
假設(shè)每個(gè)時(shí)隙在初始階段的運(yùn)能(即能夠配送的訂單數(shù)量)是固定的,記為H。每收到一個(gè)客戶的訂單,客戶所選擇的時(shí)隙的運(yùn)能就會被消耗。在時(shí)段t時(shí)隙i剩余運(yùn)能的表達(dá)式為
(8)
(9)
在時(shí)段t,若時(shí)隙i的當(dāng)前剩余運(yùn)能無法滿足當(dāng)前需求,則需要商家考慮采取租用或外包車輛的方式額外調(diào)度運(yùn)能,從而會產(chǎn)生一定的額外成本CEi:
CEi=(qit-Sit)k,i∈N;t∈M
(10)
式中,k表示單位額外訂單所產(chǎn)生的成本。
時(shí)隙i的單位訂單可變成本為
(11)
式中:σ表示時(shí)隙i的交付期長度Li的成本彈性系數(shù);ρ表示時(shí)隙i的交付時(shí)隙寬度Wi的成本彈性系數(shù);η表示時(shí)隙i的物流服務(wù)水平Si的成本彈性系數(shù)。單位訂單可變成本Cvi與Li和Wi均成反比,與Si成正比。假設(shè)處理單位訂單的固定成本為Cp,則時(shí)隙i的單位訂單成本為
Ci=Cp+Cvi
(12)
收益目標(biāo)函數(shù)為
(13)
式中:xi為0-1變量,用來判斷時(shí)隙i是否存在機(jī)會成本或額外成本。
(14)
強(qiáng)化學(xué)習(xí)的任務(wù)是找到一個(gè)最佳策略,可以讓智能主體在與環(huán)境的交互中根據(jù)當(dāng)前的系統(tǒng)狀態(tài)選擇一個(gè)動作,使累積的長期收益最大。因此,需要針對線上訂單的配送時(shí)隙定價(jià)問題對狀態(tài)、動作和即時(shí)回報(bào)作出具體的定義。首先在各時(shí)隙配送能力固定的情況下,客戶訂單的到達(dá)對各時(shí)隙運(yùn)能的消耗都會使各時(shí)隙的當(dāng)前運(yùn)能進(jìn)入一個(gè)新的狀態(tài),故將時(shí)隙i時(shí)段t的當(dāng)前剩余運(yùn)能記為系統(tǒng)狀態(tài):
Sit=Si(t-1)-qit
(15)
進(jìn)入當(dāng)前系統(tǒng)狀態(tài)后,網(wǎng)絡(luò)零售商需要對時(shí)隙進(jìn)行定價(jià),即系統(tǒng)做出動作ai(Sit)。在決策過程中,即時(shí)回報(bào)取網(wǎng)絡(luò)零售商該輪次獲得的利潤(式(13))。
Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的一個(gè)突破性算法,其最大的優(yōu)點(diǎn)是不需要學(xué)習(xí)狀態(tài)轉(zhuǎn)移概率和回報(bào)函數(shù),只需利用唯一已知的即時(shí)回報(bào)R在線學(xué)習(xí)和優(yōu)化最佳策略,且計(jì)算速度快。因此,本文采用Q學(xué)習(xí)算法來尋求時(shí)隙定價(jià)的優(yōu)化策略,其學(xué)習(xí)步驟為:觀察當(dāng)前的系統(tǒng)狀態(tài)St,選擇一個(gè)動作at并執(zhí)行,觀察動作執(zhí)行后的狀態(tài)St+1和所收到的即時(shí)回報(bào)Rt,然后根據(jù)更新公式更新Q值,Q值的更新規(guī)則為
Q(St,at)←Q(St,at)+α(Rt+
(16)
經(jīng)過大量的迭代計(jì)算,Q學(xué)習(xí)算法的學(xué)習(xí)訓(xùn)練結(jié)果會記錄在一個(gè)look up表中,包括每個(gè)狀態(tài)S下執(zhí)行各個(gè)動作a所得的Q值。在需要決策時(shí),系統(tǒng)只需在look up表中找到在當(dāng)前狀態(tài)S下最大的Q值對應(yīng)的動作a即可。在學(xué)習(xí)過程中,為了避免陷入局部最優(yōu),通常采用ε-greedy策略來處理探索(exploration)與利用(exploitation)之間的平衡問題,即網(wǎng)絡(luò)零售商以較大的概率1-ε選取Q值最大的動作作為最優(yōu)動作,同時(shí)以較小的概率ε向外探索,隨機(jī)選取Q值不是最大的動作作為自己的最佳策略。
為驗(yàn)證模型的有效性,以某網(wǎng)絡(luò)零售商客戶的歷史時(shí)隙選擇數(shù)據(jù)為例,通過計(jì)算機(jī)仿真進(jìn)行算例分析。假設(shè)網(wǎng)絡(luò)零售商向客戶提供3個(gè)可選擇的時(shí)隙(即I=3),分別為上午8:00—12:00,下午1:00—5:00和下午5:00—9:00。為區(qū)分這3個(gè)配送時(shí)隙的綜合服務(wù)質(zhì)量,對時(shí)隙屬性的參數(shù)進(jìn)行差別設(shè)置,即將3個(gè)時(shí)隙的(Li,Wi,Si)分別設(shè)置為(1,1,5)、(3,2,3)和(6,4,1);通過網(wǎng)絡(luò)零售商對客戶的調(diào)研,將客戶對這3個(gè)時(shí)隙保留價(jià)格的上下限[rimin,rimax]分別設(shè)為[8,10]、[5,8]和[3,6];每個(gè)時(shí)段包含的單位時(shí)段的數(shù)量Z=20,時(shí)隙的初始配送能力H=20;在時(shí)段t內(nèi)的訂單到達(dá)率λt=0.4;其他參數(shù)設(shè)置為k=0.6,σ=3.33,ρ=0.14,η=0.12。
Mixed Logit 模型中的變量系數(shù)可以設(shè)置成均勻分布、正態(tài)分布和對數(shù)正態(tài)分布等。根據(jù)實(shí)際情況和以往的研究經(jīng)驗(yàn),對影響時(shí)隙選擇的變量系數(shù)的分布進(jìn)行設(shè)置。參照一般的經(jīng)濟(jì)學(xué)原理,時(shí)隙價(jià)格高則效用為負(fù)值,而對數(shù)正態(tài)分布可以很好地描述顧客的單向偏好性。因此,將時(shí)隙價(jià)格的偏好系數(shù)βr設(shè)為服從對數(shù)正態(tài)分布,將交付期長度的偏好系數(shù)βL和時(shí)隙寬度的偏好系數(shù)βW設(shè)為服從正態(tài)分布,將物流服務(wù)水平的偏好系數(shù)βS設(shè)為固定值。為將βr設(shè)為對數(shù)正態(tài)分布,先將時(shí)隙價(jià)格r取對數(shù),然后令其服從正態(tài)分布即可。本文分別用MNL模型和Mixed Logit模型對線上客戶的時(shí)隙選擇行為進(jìn)行擬合,通過調(diào)用統(tǒng)計(jì)軟件SAS 9.4對影響時(shí)隙選擇的變量系數(shù)進(jìn)行估計(jì),結(jié)果見表1。
表1 MNL模型與Mixed Logit模型的估計(jì)結(jié)果比較
表1中:(1)采用Mixed Logit模型時(shí)“_M”為變量系數(shù)的均值的標(biāo)志,“_S”為變量系數(shù)的標(biāo)準(zhǔn)差的標(biāo)志。(2)變量系數(shù)的標(biāo)準(zhǔn)差可以取負(fù)值,但是這里取其絕對值作為標(biāo)準(zhǔn)差。比如,盡管交付期長度的偏好系數(shù)的標(biāo)準(zhǔn)差為-2.226,但這里取2.226作為標(biāo)準(zhǔn)差。(3)標(biāo)準(zhǔn)差是隨機(jī)誤差絕對值的統(tǒng)計(jì)均值,反映的是個(gè)體與總體均值的偏離情況,標(biāo)準(zhǔn)差越大說明偏離越遠(yuǎn),整體表現(xiàn)為數(shù)據(jù)越分散;標(biāo)準(zhǔn)誤差是在抽樣試驗(yàn)中常用到的樣本平均數(shù)的標(biāo)準(zhǔn)差,反映樣本平均數(shù)的離散程度,標(biāo)準(zhǔn)誤差越小,說明樣本平均數(shù)與總體平均數(shù)越接近,否則,表明樣本平均數(shù)比較離散。
從表1可以看出,Mixed Logit模型能夠比MNL模型揭示更多客戶時(shí)隙選擇行為的信息:(1)在采用MNL模型時(shí),時(shí)隙價(jià)格的偏好系數(shù)為負(fù)說明對線上購物的客戶收取的配送費(fèi)用高,效用為負(fù);在采用Mixed Logit模型時(shí),時(shí)隙價(jià)格偏好系數(shù)的對數(shù)服從均值為-4.447 3、標(biāo)準(zhǔn)差為1.441 1的正態(tài)分布(見圖1)。根據(jù)對數(shù)正態(tài)分布的性質(zhì),時(shí)隙價(jià)格的效用始終小于0,即在其他時(shí)隙屬性相同的情況下,沒有客戶愿意支付高價(jià)格。(2)在采用MNL模型時(shí),交付期長度的偏好系數(shù)只能反映線上客戶對時(shí)隙價(jià)格的平均偏好為負(fù);在采用Mixed Logit模型時(shí),交付期長度的偏好系數(shù)服從均值為-1.628 1、標(biāo)準(zhǔn)差為2.226 0的正態(tài)分布(見圖2)。由此可以得出該分布大于0的累積概率密度為0.232 2,說明即使選擇時(shí)隙配送的客戶群體的平均偏好為負(fù),仍有23.22%的客戶偏好交付期長的時(shí)隙(比如提前下單預(yù)訂某種商品并需要其在特定時(shí)間送達(dá)的客戶,就需要較長的交付期來滿足其交貨需求)。因此,網(wǎng)絡(luò)零售商應(yīng)對不同的客戶提供不同的時(shí)隙選項(xiàng)以滿足客戶的多樣化、定制化需求。(3)在采用Mixed Logit模型時(shí),時(shí)隙寬度的偏好系數(shù)服從均值為-1.205 2、標(biāo)準(zhǔn)差為1.780 4的正態(tài)分布(見圖3),由此不僅可以得知時(shí)隙寬度的效用為負(fù)(采用MNL模型也可以得知該信息),而且可以通過計(jì)算得知有24.92%的客戶喜歡較大的時(shí)隙寬度(這類客戶的自由支配時(shí)間可能較多,且對未來時(shí)間的計(jì)劃性需求不強(qiáng),因而并不希望在太具體的時(shí)間收貨)。因此,商家在向客戶提供時(shí)隙選項(xiàng)時(shí),也應(yīng)考慮到這部分客戶的存在。
圖1 對數(shù)時(shí)隙價(jià)格的系數(shù)分布
圖2 交付期長度的系數(shù)分布
圖3 時(shí)隙寬度的系數(shù)分布
從表1還可以得出:(1)物流服務(wù)水平的系數(shù)為正,即客戶對物流服務(wù)水平的平均偏好為正。因?yàn)樵撓禂?shù)被設(shè)為固定值,所以可以認(rèn)為所有客戶都希望得到物流服務(wù)水平更高的配送。(2)從系數(shù)的絕對值大小上看,客戶對時(shí)隙價(jià)格的敏感度最高,其次是交付期長度和時(shí)隙寬度,最后是物流服務(wù)水平。
由表2中的兩個(gè)模型的擬合參數(shù)結(jié)果比較可以看出,不管是對數(shù)似然函數(shù)、McFadden似然比指數(shù)(LRI),還是赤池信息準(zhǔn)則(AIC)、施瓦茲準(zhǔn)則(Schwarz Criterion)、Estrella值,采用Mixed Logit模型時(shí)的各項(xiàng)指標(biāo)都比采用MNL模型時(shí)的更優(yōu)。究其原因主要是:MNL模型要求不可觀測效用的價(jià)格系數(shù)也服從正態(tài)分布,與實(shí)際相沖突;Mixed Logit模型通過假設(shè)價(jià)格系數(shù)服從對數(shù)正態(tài)分布來解決這一問題,故更符合實(shí)際。
表2 MNL模型與Mixed Logit模型的擬合參數(shù)結(jié)果比較
分別將用MNL模型和Mixed Logit模型對客戶時(shí)隙選擇行為的擬合所得到的相關(guān)參數(shù)代入時(shí)隙的收益模型中,并通過Q學(xué)習(xí)算法對收益模型中的時(shí)隙價(jià)格進(jìn)行求解。設(shè)置Q學(xué)習(xí)算法的相關(guān)參數(shù)為:學(xué)習(xí)輪次最大值K=10 000,學(xué)習(xí)速率α=0.6,未來收益折扣因子γ=0.4,探索概率ε=0.2。通過MATLAB R2016a進(jìn)行求解,用兩種模型求解的各時(shí)隙的價(jià)格和總收益情況見表3、圖4和圖5。
表3 用MNL模型和Mixed Logit模型求解的時(shí)隙價(jià)格比較
圖4 用MNL模型和Mixed Logit模型求解的各時(shí)隙價(jià)格
圖5 用MNL模型和Mixed Logit模型求解的總收益
由圖4可知:對于時(shí)隙價(jià)格的求解,采用MNL模型時(shí)求解結(jié)果在3 000輪次的學(xué)習(xí)后波動減小,在4 000輪次左右的學(xué)習(xí)后開始收斂,而采用Mixed Logit模型時(shí)求解結(jié)果在1 000輪次左右就開始收斂,即采用Mixed Logit模型時(shí)Q學(xué)習(xí)算法比采用MNL模型時(shí)的Q學(xué)習(xí)算法能更快地尋找到最優(yōu)定價(jià)策略。由圖5可知,對于總收益的求解,采用Mixed Logit模型時(shí)Q學(xué)習(xí)算法在1 000輪次左右的學(xué)習(xí)后開始收斂于一個(gè)穩(wěn)定的總收益81.46,而采用MNL模型時(shí)的Q學(xué)習(xí)算法在3 000輪次左右的學(xué)習(xí)后趨于穩(wěn)定,最終收斂于76.39,即在最優(yōu)收益的計(jì)算方面,采用Mixed Logit模型時(shí)的Q學(xué)習(xí)算法比采用MNL模型時(shí)的Q學(xué)習(xí)算法不僅求解速度更快,而且求解結(jié)果明顯更優(yōu)。
Q學(xué)習(xí)算法是對客戶時(shí)隙選擇行為和客戶對時(shí)隙定價(jià)策略反應(yīng)的模擬、預(yù)演和學(xué)習(xí),因此對客戶時(shí)隙選擇行為描述的準(zhǔn)確性會直接影響Q學(xué)習(xí)算法的求解結(jié)果和求解速度。采用Mixed Logit模型時(shí)的Q學(xué)習(xí)算法在求解速度和求解結(jié)果上的優(yōu)勢,與Mixed Logit模型比MNL模型對客戶時(shí)隙選擇行為的擬合和刻畫的靈活性和精確度更勝一籌有著密切的聯(lián)系。
以往的客戶時(shí)隙選擇研究多采用傳統(tǒng)的多項(xiàng)式Logit (MNL)模型進(jìn)行分析,且往往只考慮時(shí)隙價(jià)格和交付期長度對時(shí)隙選擇的影響,較少討論時(shí)隙寬度和物流服務(wù)水平對時(shí)隙選擇的影響。本文將時(shí)隙價(jià)格、交付期長度、時(shí)隙寬度和物流服務(wù)水平均納入影響時(shí)隙選擇的因素中,并考慮時(shí)隙選擇行為的隨機(jī)性特點(diǎn),基于Mixed Logit客戶選擇概率模型建立期望收益模型,同時(shí)與基于MNL模型建立的期望收益模型進(jìn)行比較,并使用Q學(xué)習(xí)算法尋求時(shí)隙定價(jià)優(yōu)化策略。研究發(fā)現(xiàn):(1)時(shí)隙價(jià)格的效用系數(shù)為負(fù),且服從對數(shù)正態(tài)分布,即在其他時(shí)隙屬性相同的情況下,沒人愿意付出更大的經(jīng)濟(jì)成本購買時(shí)隙,因此網(wǎng)絡(luò)零售商依然需要在降低成本和價(jià)格方面下足功夫;(2)客戶對交付期長度和時(shí)隙寬度的平均偏好為負(fù),但仍分別有23.22%的客戶和24.92%的客戶偏好更長的交付期和時(shí)隙寬度,因此商家在制定時(shí)隙選項(xiàng)時(shí)也要考慮這部分客戶的偏好;(3)物流服務(wù)水平給所有的客戶帶來的效用均為正,因此商家在關(guān)注時(shí)隙價(jià)格和收益的同時(shí),也要注重配送品質(zhì)的提升,從而進(jìn)一步贏得顧客;(4)從客戶選擇行為的擬合效果看,相比于MNL模型,Mixed Logit模型參數(shù)估計(jì)的各項(xiàng)優(yōu)度更為顯著,并且能夠反映更多內(nèi)容;(5)從Q學(xué)習(xí)算法對優(yōu)化時(shí)隙價(jià)格和總收益的求解情況看,較之MNL模型,基于Mixed Logit模型的定價(jià)模型不僅在求解時(shí)能夠更快地收斂,而且所求得的定價(jià)策略也更優(yōu)。
本文采用了最一般的Q學(xué)習(xí)算法對時(shí)隙的動態(tài)定價(jià)進(jìn)行求解,算法系數(shù)是根據(jù)經(jīng)驗(yàn)設(shè)置的靜態(tài)參數(shù)。然而,Q學(xué)習(xí)算法在算法系數(shù)的選擇上有很大的自由度和靈活性,其變化對算法的收斂速度有較大的影響,因此如何利用不同的強(qiáng)化學(xué)習(xí)方法對參數(shù)進(jìn)行優(yōu)化,從而使參數(shù)的設(shè)置更加符合實(shí)際情況是未來的研究方向。