王 晶,司鳳山,戴道明,孫玉濤
(安徽財經(jīng)大學 管理科學與工程學院,安徽 蚌埠 233030)
為了減少環(huán)境污染和資源浪費,政府往往采取獎懲措施促進廢品的回收和循環(huán)利用。當前,關(guān)于供應鏈中的獎懲機制研究,王道平等[1]研究了政府對制造商碳排放的獎懲機制,分析了差異定價閉環(huán)供應鏈的協(xié)調(diào)問題,探究了政府的獎懲力度和碳排放約束政策對供應鏈利潤的影響。周蕊等[2]研究了閉環(huán)供應鏈中政府補貼和獎懲機制對供應鏈的影響,對比分析了無政府參與、政府補貼機制、政府獎懲機制下的供應鏈模型。李瀟芮等[3]在考慮技術(shù)溢出效應和回收競爭的基礎(chǔ)上,建立了有無獎懲機制、回收商有無獨立研發(fā)的決策模型,分析了獎懲機制與回收商決策間的關(guān)系。易余胤等[4]研究了集中和分散決策下考慮獎懲機制閉環(huán)供應鏈的最優(yōu)策略問題,分析了獎懲力度和最低回收率對策略和利潤的影響,并設計了協(xié)調(diào)機制實現(xiàn)供應鏈的協(xié)調(diào)。WANG等[5-7]研究了由制造商和回收商構(gòu)成的閉環(huán)供應鏈中,關(guān)于廢舊產(chǎn)品回收過程中的責任分擔、政府獎懲、信息不對稱、多周期等問題,探究了有無政府獎懲機制對博弈策略的影響,針對不同權(quán)利結(jié)構(gòu)的回收渠道設計了多種獎懲機制來提高廢品的回收率,對比分析了單周期模型和雙周期模型的異同。上述研究從政府對制造商碳減排的獎懲機制、政府補貼與獎懲并舉機制、技術(shù)研發(fā)獎懲機制等方面分析了供應鏈博弈的最優(yōu)策略,為政府依據(jù)回收率對零售商進行獎懲研究奠定了基礎(chǔ)。
關(guān)于供應鏈中動力學行為的研究,于淼等[8]在考慮新產(chǎn)品和再制造產(chǎn)品定價差異的基礎(chǔ)上,運用演化博弈理論和系統(tǒng)復雜性理論分析了閉環(huán)供應鏈中的產(chǎn)品銷售行為,并對混沌系統(tǒng)實現(xiàn)了有效控制。謝磊等[9]研究了多種因素對消費者效用最大化博弈模型穩(wěn)定性的影響,分析了廢品回收的認可度對系統(tǒng)利潤的影響,給出了系統(tǒng)利潤演化趨勢變化的原因。MA等[10]針對閉環(huán)供應鏈構(gòu)建了非合作模式下的權(quán)利不對等和權(quán)利對等兩種博弈模型,分析了離散博弈系統(tǒng)的分岔、混沌等動力學特性,探究了決策參數(shù)對兩種模型博弈策略的影響。LOU等[11]在供應鏈中考慮銷售努力和碳減排努力等因素,構(gòu)建了有無碳減排努力兩種情形下的博弈模型,分析了Nash博弈、Stackelberg博弈和低碳Stackelberg博弈中的最優(yōu)博弈策略和博弈行為。ZHANG等[12]通過構(gòu)建政府與制造商之間的演化博弈模型,研究政府政策對制造商決策的影響,分析靜、動態(tài)碳交易價格影響下政府政策對碳交易市場的影響,給出了博弈模型的演化均衡策略。FAN等[13]在考慮消費者低碳偏好的基礎(chǔ)上分析了供應鏈中的靜態(tài)博弈和動態(tài)博弈模型,給出了最優(yōu)博弈策略的解析式,探究了多種因素對博弈模型復雜動力學行為的影響。CHEN等[14]研究了具有供應鏈融資風險規(guī)避的報童博弈模型,給出了博弈系統(tǒng)局部漸近穩(wěn)定性的條件,分析了博弈系統(tǒng)Hopf分岔的方向,并對博弈系統(tǒng)的復雜特性進行了探討。MA等[15]針對供應鏈系統(tǒng)的穩(wěn)定性,討論了制造商和零售商的損失敏感性、決策調(diào)整速度等因素對系統(tǒng)穩(wěn)定性的影響,進而分析了系統(tǒng)的穩(wěn)定性對決策者利潤的影響。上述研究從產(chǎn)品的銷售行為、消費者效用、非對稱博弈、銷售努力、碳減排努力、風險規(guī)避等方面分析了離散博弈系統(tǒng)的穩(wěn)定性和復雜性,為研究連續(xù)博弈系統(tǒng)的動力學行為提供了重要參考。
綜上所述,國內(nèi)外學者在供應鏈獎懲和系統(tǒng)動力學行為研究方面取得了豐富的研究成果,筆者在此基礎(chǔ)上從系統(tǒng)穩(wěn)定性的角度進一步探究獎懲閉環(huán)供應鏈博弈策略的動態(tài)調(diào)整軌跡,不僅關(guān)注博弈的最優(yōu)策略,而且更關(guān)注博弈雙方從博弈的初始狀態(tài)是如何經(jīng)過不斷地、反復地策略調(diào)整最終收斂于均衡態(tài)(最優(yōu)策略)的過程。不但能使企業(yè)明確將要達到的最優(yōu)策略,還使他們知道走向最優(yōu)策略將要經(jīng)歷的策略調(diào)整趨勢和軌跡,在一定程度上起到策略預測的作用。
筆者研究的閉環(huán)供應鏈由一個制造商和一個零售商組成,制造商一方面利用原材料生產(chǎn)新產(chǎn)品,單位生產(chǎn)成本為c1(原材料成本和加工成本之和),另一方面利用廢品進行再制造,單位再制造產(chǎn)品的生產(chǎn)成本為c2(不含廢品原材料成本)。新產(chǎn)品和再制造產(chǎn)品在市場中并存銷售,制造商以價格w把產(chǎn)品批發(fā)給零售商銷售,單位產(chǎn)品零售價為p,且w
0[16]。同時,政府依據(jù)廢品回收率對零售商進行獎懲,獎懲額度為k(τ-τ0),τ0和k分別為獎懲標準和獎懲力度,τ0>0,k>0[17];當τ小于τ0時零售商受到懲罰,反之則獲得獎勵。a為市場潛在最大需求量,q為產(chǎn)品的銷售量,τq為零售商回收的廢品量,a>0,q>0?;诖耍]環(huán)供應鏈的結(jié)構(gòu)如圖1所示。
圖1 獎懲閉環(huán)供應鏈結(jié)構(gòu)圖
根據(jù)圖1模型做如下假設:
(1)再制造過程滿足單位廢品能夠通過加工處理產(chǎn)生單位的再制造產(chǎn)品,例如對廢舊汽車零部件、工程機械、機床等進行專業(yè)化修復。
(2)單位再制造產(chǎn)品的成本由單位廢品的回收成本p0和單位再制造產(chǎn)品的加工成本c2構(gòu)成,即為p0+c2。
(3)假定廢品回收和再制造過程持續(xù)不斷且周期足夠快,再制造產(chǎn)品與新產(chǎn)品在質(zhì)量上無明顯差異,因此單位產(chǎn)品的平均成本c由單位再制造產(chǎn)品和單位新產(chǎn)品的生產(chǎn)成本按回收率組合而成:c=τ(p0+c2)+(1-τ)c1=c1+τp0-τΔ,Δ=c1-c2>0[18]。
(4)在完全理性決策和有限理性決策下,制造商都是領(lǐng)導者而零售商都是跟隨者,并且在這兩種決策情形中數(shù)量關(guān)系不變。例如產(chǎn)品零售價和廢品回收率始終都是關(guān)于產(chǎn)品批發(fā)價的函數(shù)。
在產(chǎn)品銷售過程中,主要考慮產(chǎn)品價格對需求量的影響,因此產(chǎn)品的需求函數(shù)如式(1)所示[11],制造商和零售商的利潤函數(shù)如式(2)~(3)所示。
q=a-γp
(1)
πm(w)=(w-c1-τp0+τΔ)q
(2)
πr(p,τ)=(p-w)q+p0τq+k(τ-τ0)-ητ2/2
(3)
其中,γ為需求對價格的敏感系數(shù),γ>0;πm和πr分別為制造商和零售商的利潤。
閉環(huán)供應鏈中的各博弈主體最理想的決策狀態(tài)是完全理性的,即彼此之間都掌握全部的市場信息,容易一步到位制定出各自的最優(yōu)策略。但是現(xiàn)實中由于信息的不對稱性,各博弈主體極難掌握決策所需的全部信息,只能依靠歷史數(shù)據(jù)和經(jīng)驗等因素不斷地進行策略調(diào)整,這種有限理性下制定的策略經(jīng)過反復的調(diào)整將會無限逼近于完全理性下的最優(yōu)策略。
筆者研究制造商和零售商權(quán)利不對等的Stackelberg博弈,制造商作為領(lǐng)導者先確定批發(fā)價w,零售商作為跟隨者后確定零售價p和回收率τ,進而對比分析完全理性和有限理性決策情形下,閉環(huán)供應鏈博弈主體的最優(yōu)策略及其演化軌跡。
制造商和零售商作為完全理性的決策者,能夠參照當前市場狀況制定出各自的最優(yōu)策略。以下命題中上標*表示最優(yōu)策略。
證明根據(jù)逆向求解法,πr(p,τ)關(guān)于p和τ的海塞矩陣為如式(4)所示[19]。
(4)
(5)
(6)
將式(1)、式(5)、式(6)帶入式(2)中,同理得到當2γη(γΔp0-2η)<0時,存在唯一的最優(yōu)批發(fā)價使得制造商利潤最大,則有:
w*=
(7)
由式(5)~(7)得到最優(yōu)零售價和最優(yōu)回收率分別為:
(8)
(9)
至此,命題1證畢。
此時,制造商和零售商的最優(yōu)利潤分別如式(10)~(11)所示。
(10)
π*r=(p*-w*+p0τ*)(a-γp*)+
k(τ*-τ0)-ητ*2/2
(11)
由命題1可以得到推論1和推論2。
最優(yōu)策略對獎懲標準τ0求偏導數(shù)能夠得到推論1。推論1表明,政府調(diào)節(jié)獎懲標準并不能改變除零售商利潤之外的其他最優(yōu)策略值,在其他條件不變的情形下,政府提高獎懲標準會降低零售商利潤,反之增加其利潤。
最優(yōu)策略對獎懲力度k求偏導數(shù)能夠得到推論2。推論2表明,當政府提高獎懲力度時,零售商為了避免加重懲罰或者為了追求更多的獎勵,都會積極主動地提高廢品回收率?;厥章实奶岣邉荼貙е聟⑴c再制造廢品數(shù)量的增多,又會引起生產(chǎn)成本的下降,從而導致零售價格的同步降低,此時對消費者有利。
命題1給出了制造商和零售商的最優(yōu)策略,但是在現(xiàn)實博弈中最優(yōu)策略一般需要博弈雙方經(jīng)過長期的試探和不斷的策略調(diào)整才能達到。接下來,假定制造商和零售商都是有限理性的決策者,通過建立微分博弈模型分析博弈雙方從初始狀態(tài)逐漸收斂于均衡狀態(tài)的過程,探究博弈系統(tǒng)穩(wěn)定性的條件。
以制造商為例,由于無法及時獲取當前市場的全部決策信息,此處考慮根據(jù)自身前期的邊際利潤制定下一期的策略。當邊際利潤為正時,制造商會提高批發(fā)價格,反之則會降低批發(fā)價格。將式(5)和式(6)代入式(2),制造商利潤關(guān)于批發(fā)價w的邊際利潤如式(12)所示。批發(fā)價格的動態(tài)調(diào)整過程如式(13)所示[20]。
(12)
(13)
其中,Δ″=
(14)
由式(14)可知,批發(fā)價格的變化是一個長期的迭代過程。根據(jù)?πm(w)/?w=0可以求得均衡批發(fā)價格為0或者w*,批發(fā)價為0不符合經(jīng)濟常理,所以僅考慮均衡批發(fā)價為w*的情況。由式(5)和式(6)能夠得到均衡的p*和τ*,顯然均衡價格(w*,p*,τ*)與完全理性下的最優(yōu)策略相同,這也是有限理性下策略反復調(diào)整的終極目標。再由式(5)、式(6)和式(14)可以得到零售價p和回收率τ的策略動態(tài)調(diào)整過程。式(14)在均衡價格(w*,p*,τ*)處可線性化為式(15),特征根如式(16)所示。
(15)
(16)
由命題1中的條件可知λ<0,此時式(14)存在負的特征根,根據(jù)赫爾維茨定理可以確定式(14)是穩(wěn)定的。同理,根據(jù)式(5)和式(6)可以得到關(guān)于p和τ的微分方程也是穩(wěn)定的。穩(wěn)定的博弈系統(tǒng)是分析價格策略調(diào)整的基礎(chǔ),只有在穩(wěn)定的系統(tǒng)中價格博弈才容易達到均衡狀態(tài)。
在有限理性下,迭代之后的均衡狀態(tài)仍為(w*,p*,τ*),即制造商和零售商作為有限理性的決策者,批發(fā)價、零售價和廢品回收率經(jīng)過長期策略調(diào)整后會收斂于均衡狀態(tài)(最優(yōu)策略)。完全理性下的最優(yōu)策略僅為博弈者提供了決策目標,沒有展現(xiàn)決策過程,而有限理性下的決策調(diào)整過程將彌補這一不足。
經(jīng)計算λ=-0.494 5<0,所以系統(tǒng)是穩(wěn)定的。設初始批發(fā)價為w=0.8,從而得到初始零售價為p=1.316 4,初始回收率為τ=0.422 3。制造商和零售商經(jīng)過201次迭代后,從博弈初態(tài)(0.8,1.316 4,0.422 3)收斂于均衡態(tài)(1.236 1,1.534 9,0.413 6)的時間序列如圖2所示。
圖2 有限理性下策略調(diào)整的時間序列圖
由圖2可知,制造商制定的批發(fā)價、零售商制定的零售價和廢品回收率,盡管最初不是最佳的,但是隨著策略的持續(xù)調(diào)整,最終會趨于均衡狀態(tài),即收斂于完全理性下的最優(yōu)策略,此時制造商和零售商都實現(xiàn)了各自利潤最大。
當批發(fā)價w取1.6時,其對應的博弈初態(tài)為(1.600 0,1.717 2,0.406 3)。此時系統(tǒng)分別從初始態(tài)1(0.800 0,1.316 4,0.422 3)和初始態(tài)2(1.600 0,1.717 2,0.406 3)開始進行價格博弈,經(jīng)過長期策略調(diào)整后都將收斂于均衡態(tài)(1.236 1,1.534 9,0.413 6),如圖3所示。
圖3 不同博弈初態(tài)的策略演化軌跡
由圖3可知,雖然制造商和零售商博弈的初始狀態(tài)不同,但是只要博弈系統(tǒng)是穩(wěn)定的,他們經(jīng)過長期策略調(diào)整后都會達到策略的均衡狀態(tài),彼此不再進行策略的改變。這說明同質(zhì)產(chǎn)品的初始銷售價格雖然存在差異,且在市場博弈過程中價格漲跌不斷,但經(jīng)過長時間的試探和調(diào)整,產(chǎn)品價格整體上會達到一個相對穩(wěn)定的狀態(tài)。
筆者在考慮政府對零售商獎懲的基礎(chǔ)上,分析了完全理性下的閉環(huán)供應鏈最優(yōu)策略,探究了獎懲力度和獎懲標準對最優(yōu)策略的影響。在此基礎(chǔ)上,進一步分析了有限理性下的閉環(huán)供應鏈策略動態(tài)調(diào)整過程,探討了系統(tǒng)穩(wěn)定情形下價格從不同博弈初態(tài)到最終收斂于均衡態(tài)的過程。對比分析了完全理性和有限理性兩種情形下的策略變化關(guān)系。得到結(jié)論如下:
(1)提高獎懲標準對零售商不利,但制造商不受影響;提高獎懲力度對制造商、零售商和消費者都有利;穩(wěn)定系統(tǒng)中,價格和回收率經(jīng)過不斷調(diào)整,最終都將收斂于均衡態(tài),且與博弈初態(tài)無關(guān)。
(2)有限理性下,能夠展現(xiàn)博弈主體的決策過程,并且在穩(wěn)定的系統(tǒng)中,策略調(diào)整的終態(tài)與完全理性下的最優(yōu)策略無限逼近。這表明,最優(yōu)價格不能一蹴而就,而是需要綜合各方面因素進行不斷的價格調(diào)整、長期反復的價格試探。在穩(wěn)定的市場中,波動的價格必定會趨于各方都能接受且相對穩(wěn)定的結(jié)果,從而確保了各方的利潤最大。
但是筆者僅考慮了政府對零售商的獎懲而沒有涉及制造商,因此通過設計協(xié)調(diào)機制實現(xiàn)制造商和零售商獎懲的共享是未來的研究方向。