劉玨夙
(廣東工業(yè)大學(xué) 管理學(xué)院,廣東 廣州 510520)
易腐品的特點(diǎn)是使用壽命短,在超過一定的時間后,這類商品就會失去部分甚至全部價值。這樣的商品特點(diǎn)導(dǎo)致過多或過少的訂購量都會使決策者損失一定的收益,因此訂購量的合理確定具有重要的現(xiàn)實(shí)意義。報(bào)童問題是關(guān)于易腐品的庫存訂購決策問題。在傳統(tǒng)報(bào)童問題的研究中,都假定需求的統(tǒng)計(jì)信息是可知的。而在現(xiàn)實(shí)的決策情景中,決策者往往難以準(zhǔn)確掌握需求的分布情況。Scarf[1]首先提出了未知需求分布的決策方法,該方法在已知均值方差的情況下,給出了模型最優(yōu)解。Gallego,等[2]在文獻(xiàn)[1]的研究基礎(chǔ)上進(jìn)一步優(yōu)化了訂購規(guī)則,且考慮了更多的實(shí)際因素來擴(kuò)展其分析。Chan,等[3]結(jié)合這一方法提出了一個配貨優(yōu)化模型,使得決策者能在不對任何一個產(chǎn)品的需求分布做具體假設(shè)的情況下,對訂貨種類和訂貨量進(jìn)行聯(lián)合優(yōu)化。陳淮莉[4]研究了隨機(jī)需求下多產(chǎn)品、多周期的生鮮品訂購問題,從零售商的角度給出了最優(yōu)訂購量以及最優(yōu)折扣。然而,這些研究仍然要求需求分布的均值和方差是可知的,并沒有完全脫離統(tǒng)計(jì)假設(shè)。
在線算法僅依靠歷史數(shù)據(jù)進(jìn)行決策,而不需要再對未來的輸入序列做出統(tǒng)計(jì)假設(shè),能夠用它來研究報(bào)童問題的在線訂購策略。張桂清,等將在線算法引入到報(bào)童問題中進(jìn)行了競爭比分析,在概率預(yù)期[5]和一般預(yù)期[6]兩種情況下分別給出了風(fēng)險算法。Abdel-Aal,等[7]在需求不確定的情況下結(jié)合市場選擇理論,用魯棒優(yōu)化方法建立了選擇性報(bào)童模型。2008年Kalnishkan,等[8]提出了一種基于專家意見的在線預(yù)測方法——弱集成算法(WAA)。該算法僅憑借歷史信息對專家意見進(jìn)行集成,并將集成結(jié)果用以決策。Levina,等[9]將弱集成算法應(yīng)用于無統(tǒng)計(jì)假設(shè)的多期報(bào)童問題中,為報(bào)童提供了一個具體的在線訂購策略。Zhang,等[10]進(jìn)一步研究了非平穩(wěn)環(huán)境的報(bào)童問題,采用策略切換的思想,將弱集成算法應(yīng)用于動態(tài)專家意見,給出了具體的在線訂購策略。在之后的研究中,Zhang,等[11]構(gòu)建了針對兩產(chǎn)品、多周期報(bào)童問題的在線訂購策略,并證明了該策略具有理論保證。
在實(shí)際生活中,有相當(dāng)一部分易腐品的需求會受到人類社會活動的影響,這使得我們在考慮易腐品需求變動時有跡可循。O’Neil,等[12]應(yīng)用機(jī)器學(xué)習(xí)算法解決需求沖擊下的無分布報(bào)童問題。王海燕,等[13]探討了需求分布規(guī)律變化情況下的報(bào)童訂購決策問題。此外,有一些易腐品的需求會隨著節(jié)假日和季節(jié)交替呈現(xiàn)出顯著的周期性特征,例如電影票的訂票需求。由于大多數(shù)人的閑暇時間都集中在非工作日(如周末或者節(jié)假日),因此電影院的觀影人數(shù)往往是非工作日多、工作日少,從而導(dǎo)致電影票的非工作日需求高、工作日需求低;與這一情況相反的是寫字樓和學(xué)校周邊的餐飲店,這類餐飲店受到主要消費(fèi)人群的活動規(guī)律影響,其需求規(guī)律通常表現(xiàn)為工作日高需求,而非工作日低需求。在上述兩個例子中,需求都以某一固定的時間段為變動周期,在每一個變動周期內(nèi),需求表現(xiàn)出低-高或高-低的交替變化。將這類需求稱作周期性變動需求,本文以低-高需求為例研究了需求周期性變動下多階段報(bào)童問題的在線訂購決策方法。在需求的周期性變動規(guī)律可獲取前提下,本文應(yīng)用WAA算法,基于歷史需求數(shù)據(jù)給出了具體的訂購策略,并理論分析策略的競爭性能。
弱集成算法[9]根據(jù)專家的歷史表現(xiàn)來調(diào)整其權(quán)重,以提高在線決策者的競爭性能。給定各個專家的初始權(quán)重,在每一個決策期對專家的收益進(jìn)行重新計(jì)算,并根據(jù)計(jì)算結(jié)果更新專家在下一決策期的權(quán)重。沿用以往研究中的記號,表1給出了主要記號及其含義。
表1 WAA使用的主要記號及其含義
在每個決策期t=1,2,...,T,專家的標(biāo)準(zhǔn)化權(quán)重由式(1)給出。
算法1弱集成算法(WAA)輸入:實(shí)際決策值?1,?2,...,?T;輸出:最終累積收益GT。(0)在線決策者和專家決策體的初始收益皆為0,即G0=0,Gθ 0=0;(1)在每個決策期t=1,2,...,T進(jìn)行步驟(2)-(7)循環(huán)計(jì)算;(2)計(jì)算各專家的標(biāo)準(zhǔn)化權(quán)重;(3)專家決策體給出專家預(yù)測意見γθ t;(4)在線決策者在集成專家意見后做出預(yù)測:γt=∫Θ γθ t pt(dθ);(5)得到實(shí)際決策者的結(jié)果ωt;(6)計(jì)算在線決策者和各專家的收益gt,gθ t;(7)更新在線決策者和專家的累計(jì)收益Gt,Gθ t;(8)重復(fù)步驟(2)-(7),直至所有決策期結(jié)束。
當(dāng)決策總周期數(shù)為T時,引理1給出了弱集成算法實(shí)現(xiàn)的累積收益下界。
引理1當(dāng)收益函數(shù)g的界為-L≤g≤0(L為一個固定常數(shù))時,對于任意的期數(shù)T,WAA的累積收益均滿足:
在需求呈周期性變動的多階段報(bào)童問題中,假定報(bào)童在每一期的期初決定當(dāng)期訂購量,且此時當(dāng)期的實(shí)際需求量尚不可知。在報(bào)童確定訂購量后,實(shí)際需求也隨之獲得。對報(bào)紙這類易腐品而言,一旦報(bào)童確定當(dāng)期訂購量,在這一期中途不能進(jìn)行補(bǔ)訂,在這一期結(jié)束后,訂購的剩余量也不具備回收價值。
以一個特定的時間段ρ作為規(guī)律性變動的最小周期,根據(jù)需求特征的不同,進(jìn)一步將每個變動周期劃分為不同的部分。以低-高交替變化的周期性需求為例,每一個變動周期中均包含低需求期和高需求期。用d表示低需求期時的實(shí)際需求量,d′表示高需求期的實(shí)際需求量,x和y分別表示在低需求期和高需求期中報(bào)童對產(chǎn)品的訂購量,x和y分別通過集成專家意見獲得。用Θ(Θ=Θ1?Θ2)表示專家池,其中低需求期專家池Θ1的專家索引為θ,高需求期專家池Θ2的專家索引為θ′。第t期的產(chǎn)品具體需求量無法確定,但可知在低需求期時,產(chǎn)品的需求量d和報(bào)童的訂購量x為區(qū)間[B1,B1′]中的任意實(shí)數(shù),在高需求期時,產(chǎn)品的需求量d′和報(bào)童的訂購量y為區(qū)間[B2,B2′]中的任意實(shí)數(shù),且有B1′≤B2。
設(shè)每一天為一個決策期,T為總的決策天數(shù)。為方便論述,設(shè)在前T天中共包含N個完整的需求變動周期,其中N∈?。在每個需求變動周期中,包含ρ個決策天數(shù),且有ρ=μ+ν。其中,μ表示一個周期內(nèi)包含的低需求天數(shù),ν表示一個周期內(nèi)包含的高需求天數(shù),在周期性變化的需求中,ρ、μ和ν均為確定的常數(shù)。將低需求期構(gòu)成的決策天數(shù)總和記為T1,將高需求期構(gòu)成的決策天數(shù)總和記為T2,則有T=T1+T2。從初始決策期開始,需求做低-高交替變化,記:
即有A=A1?A2。對于任何的t∈A,設(shè)需求為dt。當(dāng)t=nρ+i,i=1,2,...,μ時,t∈A1,且 有t1=nρ+i-nν,則此時專家意見集為Θ1。當(dāng)Θ1中的專家θ的訂購量為時,該專家在第t期的收益為:
在前t1個低需求期的累積收益為因此,報(bào)童在第t期的訂購量為xt1時,其收益為:
在前t1個低需求期的累積收益為
類似地,當(dāng)t=nρ-j,j=ν-1,...,0時,t∈A2,且有t2=nρ-i-nμ,則此時專家意見集為Θ2。當(dāng)Θ2中的專家θ′的訂購量為時,該專家在第t期的收益為:
在前t2個高需求期的累積收益為因此,報(bào)童在第t期的訂購量為yt2時,其收益為:gt=gt2′=pmin(yt2,dt2′)-cyt2;在前t2個高需求期的累積收益為
定理1在收益函數(shù)式(4)和式(5)的基礎(chǔ)上,應(yīng)用弱集成算法對靜態(tài)專家意見進(jìn)行集成,可得到需求呈低-高周期性變化報(bào)童問題的在線訂購策略。
證明:考慮到低需求期和高需求期的需求差異,對低需求期和高需求期分別設(shè)置對應(yīng)專家池,每個專家在任何一期總是推薦一個固定訂購量,每一期選擇對應(yīng)的專家池中的靜態(tài)專家意見進(jìn)行集成,在選擇專家池前,需要先判斷當(dāng)前決策期處于周期中的低需求期還是高需求期。根據(jù)弱集成算法的決策流程,可知當(dāng)?shù)趖期為低需求期(t∈A1),且對應(yīng)低需求期序列的第t1期時,報(bào)童的訂購量為:
當(dāng)?shù)趖期為高需求期( t∈A2),且對應(yīng)高需求期序列的第t2期時,報(bào)童的訂購量為:
當(dāng)q(dx)和q′(dy)分別為[B1,B1′]和[B2,B2′]上的均勻分布時,采用Levina,等[9]給出的求解方法。若第t期為低需求期,則第t期時可獲得前t1-1個低需求期的歷史需求序列d1,d2,...,dt1-1,令其順序統(tǒng)計(jì)量為d(1),d(2),...,d(t1-1),且d(0)=B1,d(t1)=B1′。
同理可得:
采用類似的方法,若第t期為高需求期,則在第t期時可知前t2-1個高需求期的歷史需求序列。令其順序統(tǒng)計(jì)量為且。令k′=1,2,...,t2-1??傻茫?/p>
綜上,針對需求呈低-高周期性變化的報(bào)童問題,本文給出了具體的在線訂購策略,即若第t期為低需求期,訂購量為xt=at1/bt1,若第t期為高需求期,訂購量為yt=at2/bt2,并將此策略記為ASP。
對于定理1給出的在線訂購策略ASP,應(yīng)用引理1,定理2給出了以最優(yōu)專家策略的累積收益為基準(zhǔn)時該策略競爭性能的理論保證。
定理2對于需求低-高周期性變動的多階段報(bào)童模型,按照在線策略ASP進(jìn)行決策時,報(bào)童的累積收益滿足:
其中,Li=(Bi′-Bi)p,i=1,2,Λ=max(p-c,c)。
證明:由收益函數(shù)的定義式可知,對于低需求期而言,訂購量等于需求量且為最大值B1′時,收益達(dá)到最大值;當(dāng)實(shí)際需求為最小值B1而報(bào)童的訂購量為最大值B1′時,收益取到最小值,即有:
不失一般性,令g=g-B1′(p-c),則有:
因此,在應(yīng)用引理1分析在線策略的競爭性能時可知:
考慮任意兩個專家策略的累積收益差值,若有兩個專家的固定訂購量分別為θ1和θ2,由前面的分析可知,經(jīng)過T1期后,這兩個專家實(shí)現(xiàn)的累積收益和滿足關(guān)系式:
令Λ=max(p-c,c),則根據(jù)引理1和文獻(xiàn)[9]的方法,有:
同理,對于高需求期而言,有:
由式(10)可知,隨著總決策天數(shù)T的增大,在線策略的平均累積收益逐漸接近低需求期固定訂購量x和高需求期固定訂購量y的平均累積收益。由于x和y是任意的,因此它們分別可以是使得累積收益和達(dá)到最優(yōu)的固定訂購量策略。事實(shí)上,當(dāng)T→∞時,易得:
當(dāng)需求不呈現(xiàn)周期性變動,即B1′=B2′=B,B1=B2=0,T1=T,T2=0時,有L2=L1=Bp,式(10)變成式(3),該結(jié)果退化成Levina,等[9]的研究結(jié)果,因此本文是文獻(xiàn)[9]的推廣研究。
本節(jié)運(yùn)用數(shù)值算例進(jìn)一步驗(yàn)證策略ASP的競爭性能,記ASP對應(yīng)的最優(yōu)專家策略為BASP。為方便對比分析,將Levina,等在文獻(xiàn)[9]中構(gòu)建的策略記為AS,對應(yīng)的最優(yōu)專家策略記為BAS。在計(jì)算訂購量時,先判斷第t期屬于哪一種需求期,再根據(jù)判斷結(jié)果來選擇式(6)或(7)進(jìn)行計(jì)算,即可得出相應(yīng)的訂購量xt或yt。為了便于計(jì)算,對需求量和報(bào)童的訂購量進(jìn)行整數(shù)化處理,即有:
根據(jù)需求周期的變化規(guī)律,依次在[0,50]和[50,100]間隨機(jī)生成90個隨機(jī)整數(shù),作為前90天的實(shí)際需求序列。隨機(jī)產(chǎn)出10組不同的隨機(jī)需求序列進(jìn)行試驗(yàn),表2給出了每次試驗(yàn)中在線策略ASP與其對應(yīng)的最優(yōu)專家策略BASP的累積收益比較,其中RAT表示ASP與BASP實(shí)現(xiàn)的累積收益比值。從表2中的30次試驗(yàn)結(jié)果來看,ASP與BASP的比值都大于0.94,且在第7次的試驗(yàn)下得到了最大值0.970 675,由此可見,ASP具有較強(qiáng)的競爭性能。
表2 不同隨機(jī)需求下ASP與BASP的累積收益
為了觀察ASP對AS的改進(jìn)效果,以第1次試驗(yàn)中所用的需求序列為例,比較ASP和AS的日累積收益,結(jié)果如圖1所示,其中叉號符表示ASP的日累積收益,圓圈表示AS的日累積收益。由圖1可知,ASP和AS在前90天的日累積收益分別為7 606和4 012。ASP的累積收益明顯大于AS的累積收益,說明在原有算法的基礎(chǔ)上考慮需求的周期波動能提高決策者的收益。
圖1 ASP與AS的日累積收益比較
第一次試驗(yàn)中ASP和BASP的日累積收益比較如圖2所示。由圖2可知,本次試驗(yàn)中ASP和BASP的前90天的日累積收益分別達(dá)到7 606和7 849,二者的日累積收益非常接近,進(jìn)一步證明了該策略相對于基準(zhǔn)策略最優(yōu)專家策略具有較強(qiáng)的競爭性能。
圖2 ASP與BASP的日累積收益比較
當(dāng)歷史數(shù)據(jù)越充分時,ASP決策的結(jié)果就會越接近固定的最優(yōu)專家的決策方案。調(diào)整決策的期數(shù),計(jì)算ASP和BASP的累積收益,結(jié)果見表3。由表3可知,ASP的競爭性能會隨著決策期數(shù)的增加而增強(qiáng),當(dāng)決策天數(shù)為600時,競爭比已經(jīng)大于0.99,此時ASP的累積收益已經(jīng)基本等于最優(yōu)專家的累積收益。
表3 不同決策周期下ASP與BASP的累積收益
本文在傳統(tǒng)報(bào)童問題的基礎(chǔ)上,結(jié)合現(xiàn)實(shí)因素,研究了需求呈周期性變動情形下的訂購決策方法。采用集成專家意見的弱集成算法對固定的專家意見進(jìn)行集成,給出了具體的在線訂購策略。從理論上對該在線策略的競爭性能進(jìn)行了證明,用數(shù)值算例進(jìn)一步說明了策略能追蹤到最優(yōu)專家策略且獲得與最優(yōu)專家策略相當(dāng)接近的累積收益,并對參數(shù)的敏感性進(jìn)行了分析。這為與報(bào)紙具有相似特征的易逝品庫存控制問題提供了一定的管理啟示:首先,在考慮需求周期變動的情況下,為易逝品零售商的訂購決策提供了參考,有利于零售商快速有效地通過歷史信息進(jìn)行訂購決策,在滿足市場需求的同時充分發(fā)揮現(xiàn)有資源的作用以達(dá)到自身收益的最大化;其次,對于易逝品的零售商而言,該在線決策方法可作為他們在長期持續(xù)決策中調(diào)整訂購計(jì)劃的根據(jù),并能保證零售商在長期決策中可獲取到具有競爭性的收益。本文研究周期性變動需求情形下的多階段報(bào)童在線決策問題,其中用于學(xué)習(xí)參照的專家意見是靜態(tài)的。但是,在面對復(fù)雜多變的市場環(huán)境時,專家的意見也會隨著市場披露信息的變動而調(diào)整其推薦訂購量。因此,考慮到在多階段報(bào)童中專家意見可以依據(jù)專家自身對市場信息的敏感程度動態(tài)地調(diào)整,如何學(xué)習(xí)動態(tài)的專家意見并為零售商在市場中制定出更優(yōu)的訂購決策是需要進(jìn)一步思考和研究的問題。