宣博文 王秋成 孫偉策 柳政卿
(浙江工業(yè)大學機械工程學院 杭州 310023)
廢舊汽車零部件再制造產(chǎn)業(yè)是國內(nèi)外再制造產(chǎn)業(yè)中企業(yè)數(shù)量最多、技術成熟度最高和產(chǎn)業(yè)規(guī)模最大的領域之一[1]。我國傳統(tǒng)的再制造供應鏈在管理中存在協(xié)調(diào)性差、管理成本高、顧客服務水平低、“牛鞭效應”顯著等缺點[2]。因此,基于“互聯(lián)網(wǎng)+”建立廢舊汽車零部件回收與再制造智能交易平臺,科學布局大中型回收、拆解、檢測和再制造企業(yè),形成再制造供應鏈管理新模式,是促進再制造產(chǎn)業(yè)良性發(fā)展的有效途徑。
廢舊汽車零部件的回收決策問題是再制造產(chǎn)業(yè)鏈的起點,也是建立第三方回收平臺的基礎。從回收模式的角度出發(fā),Savaskan 和Wassenhove[3]將再制造原材料的獲取分為3 種模式/渠道:M 模式(制造商回收)、R 模式(零售商回收)和3P 模式(第三方回收)。在此基礎上,周雄偉等人[4]構(gòu)建了3 種再制造閉環(huán)供應鏈決策模型,考察不同渠道下參與主體最優(yōu)決策差異和基于回收產(chǎn)品質(zhì)量水平的回收渠道選擇問題。Yan[5]以再制造逆向物流為研究對象,通過分析3 種回收模式的特點,得出最優(yōu)的回收渠道結(jié)構(gòu)。Younes 等人[6]在零售商負責回收的供應鏈中分別考慮合作及非合作博弈的情況,并在逆向供應鏈主導的情況下,對供應鏈系統(tǒng)的定價策略問題進行了研究和討論。
從回收策略角度出發(fā),Li 等人[7]以時尚產(chǎn)品為研究目標,討論了在閉環(huán)供應鏈成員之間存在產(chǎn)品返回時的最佳定價策略和采購策略。Zhu 和Wang[8]通過實驗對比分析定價策略,發(fā)現(xiàn)完全理性的定價策略與實際決策結(jié)果往往存在較大的差異。Savaskan 等人[3]和Zhao[9]將回收投入費用和回收數(shù)量假設為關于回收率的凸函數(shù)。諸多學者沿用該假設,在此基礎上研究閉環(huán)供應鏈的回收決策問題。王道平等人[10]考慮了在再制造回收努力和時間等多種因素影響下的動態(tài)回收率對閉環(huán)供應鏈合作策略的影響。此外,Liu 等人[11]建立了雙渠道全局閉環(huán)供應鏈網(wǎng)絡,探究隨機需求和回收率對社會經(jīng)濟效益的影響。
國內(nèi)外學者在再制造閉環(huán)供應鏈、回收模式和回收策略等諸多方面開展了相關研究,積累了一定的研究基礎,但仍然存在以下問題。
(1)關于回收模型的求解方法,多數(shù)研究集中在使用傳統(tǒng)的KKT(Karush-Kuhn-Tucker)條件或逆向歸納法求解動態(tài)或靜態(tài)博弈的納什均衡。也有部分學者通過搭建演化博弈模型[12],使用雅可比矩陣找到演化均衡點。傳統(tǒng)的求解方法受到函數(shù)求導和連續(xù)性的約束,不僅推導過程復雜,而且最優(yōu)解還存在一定的局限性,并不適用于解決工程實際問題。
(2)在閉環(huán)供應鏈研究中,少有聚焦到具體的產(chǎn)品。已有的文獻以廢舊電子產(chǎn)品或電池回收研究居多[13],而廢舊汽車零部件相關的研究較少。
針對上述問題,本文將多目標遺傳算法應用于廢品回收模型的求解,并以廢舊汽車變速箱為例進行算例仿真分析,通過與逆向歸納法進行對比,驗證了算法的可行性。該工作具有重要的科學研究價值和工程應用前景,也是當前廢舊汽車零部件回收與再制造的主要研究方向。
再制造作為正向物流和逆向物流的結(jié)合體,在傳統(tǒng)的正向供應鏈中加入了逆向供應鏈,從而形成了全新的閉環(huán)供應鏈(closed loop supply chain,CLSC)[14]。本文搭建的供應鏈模型由再制造商、制造商、零售商和第三方回收平臺組成,如圖1 所示。再制造商生產(chǎn)再制品,制造商生產(chǎn)新產(chǎn)品,兩者以批發(fā)價批量提供給銷售商;銷售商則以市場價將兩類產(chǎn)品出售給消費者;第三方平臺負責從消費者手中回收廢舊品并交由再制造商進行再制造從而形成再制品;此外,激勵機制對再制造商給予一定的再制造補貼。本模型的基本參數(shù)設置如表1 所示。
表1 基本參數(shù)設置
圖1 回收模型
為了將模型參數(shù)化,提出以下假設。
假設1再制品和新產(chǎn)品在質(zhì)量、包裝、功能上完全相同,但消費者對再制品存在消費價值折扣α,故設再制品的零售價Pr=αP,批發(fā)價ωr=αω,α≤1。通過設立消費價值折扣,消費者對再制品不再存在偏見,再制品擁有和新產(chǎn)品等同的市場競爭力。簡化計算過程,令X=1 -α。
假設2市場需求D=φ-βP,P為新產(chǎn)品單位 售價,φ為市場容量,β為市場需求關于產(chǎn)品價格的敏感系數(shù)。
假設3本文考慮生產(chǎn)商、銷售商和平臺三者的單周期供應,以一個季度作為周期,研究工作針對閉環(huán)供應鏈的穩(wěn)定運營階段。生產(chǎn)商生產(chǎn)和銷售商售賣的產(chǎn)品數(shù)量滿足市場需求D,不考慮產(chǎn)品剩余和存儲問題。
假設4考慮再制品生產(chǎn)所消耗的能源與原材料都低于新產(chǎn)品,即Cn>Cr,設Δ=Cn-Cr,稱為廢舊汽車零部件的剩余利用價值。為了獲得足夠的經(jīng)濟性,單位回收支付A和單位收購支付B應滿足A<B<Δ。
假設5τ為回收平臺的廢件回收率,參考文獻[15]的假設,τ=(I/CL)1/2。其中,I表示回收成本;CL是一個縮放參數(shù),表示廢舊品回收和宣傳等活動所設計的規(guī)模,常用于廣告響應模型。本文將回收率τ看作平臺為回收廢品做出的努力,則回收成本I和回收努力τ呈現(xiàn)邊際效用遞減規(guī)律,即I=CLτ2。
假設6國家為了激勵再制造業(yè)的發(fā)展,對再制造商給出了線性激勵機制,激勵函數(shù)為F=K(τ-τ0)D,其中K為常數(shù),τ0為最低回收率。若實際回收率高于τ0,則再制造商得到補貼;反之則受到懲罰。為了避免“惡意騙補”行為,再制造商一個生產(chǎn)周期內(nèi)得到的補貼應不超過E。
假設7在本文研究的再制造閉環(huán)供應鏈模型中,生產(chǎn)商有足夠的渠道力量支配銷售商和回收平臺充當領導者,所有成員都按照自身利益的最大化來做決策。
據(jù)此列出該回收模型中各參與者的利潤函數(shù):
式中,ZM表示生產(chǎn)商利潤函數(shù),ZR表示銷售商利潤函數(shù),ZT表示平臺利潤函數(shù)。
在傳統(tǒng)的統(tǒng)籌學和經(jīng)濟學中,將該模型視為完全信息動態(tài)博弈,生產(chǎn)商作為博弈的主導者,主要決策為批發(fā)價ω;而銷售商和平臺作為跟隨者,會在主導者給出決策后調(diào)整自己的決策,其中銷售商的決策為市場零售價P,平臺的決策為回收率τ。在假設博弈參與者完全理性、非合作、動態(tài)博弈的前提下,使用逆向歸納法進行求解其納什均衡,其求解過程如下。
(1)首先對銷售商和平臺的利潤函數(shù)分別求關于P和τ的一階偏導。
式中β表示市場敏感參數(shù)。
(2)再對銷售商和平臺的利潤函數(shù)求關于P和τ的二階偏導。
由此可知,銷售商和平臺的利潤函數(shù)存在唯一最大值,且相應的最大值點即為式(5)。
(3)將式(5)帶入生產(chǎn)商的利潤函數(shù)ZM中,對ZM求關于ω的一階導。
式中,φ、φ為市場容量參數(shù)。
為了簡化求解過程,令:
ZM的一階導為一元二次方程,其中自變量ω為新產(chǎn)品批發(fā)價,ω>0,二次項系數(shù)a<0,可分為以下3 種情況討論其極值問題。
1)c≥0,此時ZM原函數(shù)在ω>0 時先遞增,后遞減,生產(chǎn)商的決策問題存在唯一最大值解,其最大值點為一階導函數(shù)的正根。
2)b>0,c<0,若此時(b2-4ac)1/2>0,則ZM原函數(shù)在ω>0 時先遞減,后遞增,再遞減,生產(chǎn)商的決策問題存在唯一最大值解,其最大值點為一階導函數(shù)較大的根;若此時(b2-4ac)1/2≤0,則ZM原函數(shù)在ω>0 時單調(diào)遞減,無最大值。
3)b≤0,c<0,此時ZM原函數(shù)在ω>0 時單調(diào)遞減,無最大值。
據(jù)此,列出該博弈的Nash 均衡如表2 所示。
逆向歸納法的本質(zhì)是一種多目標函數(shù)優(yōu)化問題的算法,將閉環(huán)供應鏈所有參與者視為完全理性且非合作的狀態(tài),根據(jù)博弈思想逆推反應函數(shù),由此得到Nash 均衡。但使用逆向歸納法時受到諸多規(guī)則的約束,且求解過程較為繁瑣,在復雜模型中無法進一步推導。
在實際應用中,閉環(huán)供應鏈的參與者往往并非是完全理性的,并且存在著合作的可能。因此本文在博弈過程中引入學習和進化的思想,假設生產(chǎn)商、銷售商和平臺之間存在合作的空間,并通過試錯的方式不斷調(diào)整決策,最終達到各自的利益最大化。
遺傳算法是一種具有“生成+檢測”的迭代過程啟發(fā)式的搜索算法,其本質(zhì)是一種高效、并行、全局搜索的方法[16],且不存在求導和函數(shù)連續(xù)性問題,非常適用于求解多目標函數(shù)的最優(yōu)解問題。其具體工作流程如圖2 所示。
圖2 遺傳算法流程圖
在本文研究的模型中,將各參與者的回收和定價決策視為自變量,并將自變量的取值范圍和精度轉(zhuǎn)化為基因編碼的形式,一組基因生成一個染色體,帶有染色體特征的實體則稱為個體。在算法求解過程中,首先隨機生成一組個體,數(shù)量為N,稱之為初代種群。接著計算該種群中所有個體的適應度,也就是目標函數(shù)值,并從中篩選出適應度高的個體遺傳到下一代。再對適應度高的個體進行遺傳操作,控制其染色體進行交叉和變異,從而生成新一代的種群。對新種群重復進行篩選和遺傳,經(jīng)過M次迭代后使種群的適應度不斷逼近極限值,進而得到目標函數(shù)的最優(yōu)解。
遺傳算子設置如下。
(1)適應度函數(shù)。本文研究的多目標遺傳算法適應度函數(shù)即為目標利潤函數(shù),利潤函數(shù)值越大,代表其適應度越高,各參與者的主要決策則為自變量。故模型的適應度函數(shù)即為式(1)~(3),取ω、P、τ為3 個自變量。
(2)遺傳編碼。在遺傳算法中,需要將自變量轉(zhuǎn)換為染色體以進行遺傳操作。常用的遺傳編碼方法有二進制編碼、格雷編碼、浮點編碼和符號編碼等。本文研究的回收模型中,ω和P均為正整數(shù),對精度要求較低,因此選擇二進制編碼進行染色體編碼。
(3)選擇函數(shù)。一定數(shù)量的個體形成父代種群,從中篩選出優(yōu)秀的個體進行交叉變異,形成新的子代種群,因此需要設立選擇函數(shù)。錦標賽選擇法(tournament selection)每次從種群中取出一定數(shù)量個體,然后選擇其中適應度最高的個體進入子代種群,重復該操作直到新的種群規(guī)模達到原來的種群規(guī)模,如圖3 所示。錦標賽選擇法非常適用于多目標遺傳算法,可以快速篩選出適應度高的個體,作為新一代的父體繼續(xù)遺傳,以便目標函數(shù)快速收斂。
圖3 錦標賽選擇法
(4)交叉函數(shù)。遺傳算法通過交叉來維持種群的多樣性,使得適應度函數(shù)快速收斂。兩點交叉法(two-points crossover)是指在2 條染色體中隨機設置了2 個交叉點,然后再進行部分基因交換,從而得到2 個不同的子染色體。兩點交叉相比于單點交叉有更快的收斂速度和更高的多樣性,相比多點交叉又不易對染色體造成破壞,適用于本文研究的模型。
(5)變異是遺傳算法中非常重要的一個環(huán)節(jié),通過隨機選擇某個子染色體上的一點或一段進行變異從而得到新的個體,有利于擴大遺傳算法的搜索范圍,跳出局部最優(yōu)解。在進行變異算子設置時,需要確定變異概率,變異概率過小不利于跳出局部最優(yōu)解,變異概率過大又容易破壞優(yōu)良基因,不利于函數(shù)快速收斂。本文選用自適應變異函數(shù)(adaptive feasible)進行遺傳變異,其變異過程可控性高,根據(jù)個體適應度動態(tài)調(diào)整變異概率[17]。
(6)約束函數(shù)。約束函數(shù)由回收模型中的規(guī)則所產(chǎn)生,主要包含線性等式、線性不等式、非線性等式、非線性不等式以及整數(shù)約束。當隨機生成初代種群或子染色體發(fā)生交叉和變異時,均需要使用約束條件來驗證遺傳迭代的可行性。需要注意的是,約束函數(shù)會增加算法的復雜性,影響求解速度,因此約束函數(shù)不宜設置過多。
(7)終止條件。當遺傳算法迭代到一定的次數(shù),觸發(fā)終止條件,即可輸出最終結(jié)果。常用的終止條件有3 種。1)最大代數(shù)限制:當遺傳算法迭代次數(shù)達到最大代數(shù)時,算法停止循環(huán);2)函數(shù)容差:隨著迭代進行,當種群適應度的變化值小于函數(shù)容差時,一般認為達到了最優(yōu)解,則算法停止;3)運行時間限制:對于復雜的遺傳算法,通過限制其最大運行時間來得到有效時間內(nèi)的最優(yōu)解。
為了驗證上述求解方法的可行性,同時進行更深入的分析,本文利用Matlab 軟件對上述模型進行算例分析。本文以某再制造企業(yè)的某款無級變速箱(continuosly variable transmission,CVT)再制造為案例,探究最佳的回收策略以及各個變量對結(jié)果的影響。其部分再制造參數(shù)如表3 所示,由于涉及商業(yè)機密,本文設立的所有參數(shù)均為實地考察后得到的合理范圍或均值,并不代表企業(yè)的生產(chǎn)經(jīng)營現(xiàn)狀。
表3 某款CVT 變速箱的再制造參數(shù)
根據(jù)已有數(shù)據(jù),結(jié)合部分參考文獻,取再制造商的相關參數(shù):Cn=8 000,α=0.5,B=1 000;取平臺的相關參數(shù):A=B/2=500,CL=5 000 000。
納什均衡(Nash equilibrium),又稱為非合作博弈均衡,是指一組博弈者在給定各自策略空間時,以期望效用最大化為目的進行策略選擇,最終基于全部博弈者的策略實現(xiàn)一組結(jié)果的過程。
在表2 中已得到回收模型的Nash 均衡,現(xiàn)以再制品的單位成本Cr為自變量,驗證納什均衡的可行性,得到a、b、c和F的值:a<0,b<0,c>0,F≤E,滿足求解約束條件。
再制造商的主要定價決策:
據(jù)此得到模型的納什均衡如圖4 所示,分析可知:生產(chǎn)商、銷售商和回收平臺的利潤Zk以及回收率τ,都隨著再制造成本Cr增加而單調(diào)遞減,符合經(jīng)濟規(guī)律。在Cr=1 500 時,利潤函數(shù)和回收率取到最大值ZM=18 284 157、ZR=9 061 294、ZT=142 253,此時閉環(huán)供應鏈各參與方的主要決策ω=13 568,P=16 501,τ=0.168 7。
圖4 納什均衡(數(shù)值解)
帕累托(Pareto)最優(yōu)是多目標進化算法中的一種最優(yōu)解,其本質(zhì)是資源分配的一種理想狀態(tài)。在多目標博弈模型中,如果任何一方參與者都無法在不損害他人利益的前提下優(yōu)化自己的利益,稱之達到了帕累托最優(yōu)。在復雜的模型求解問題中,帕累托最優(yōu)往往是一組解集。
本文在Matlab 中使用多目標遺傳算法對回收模型進行求解,其算法設置如下。
(1)遺傳算法適應度函數(shù)即為生產(chǎn)商、銷售商和平臺的利潤函數(shù),由于遺傳算法通常求解最小值,需要將利潤函數(shù)轉(zhuǎn)化為負值;
(2)自變量為閉環(huán)供應鏈參與者的主要決策,分別是新產(chǎn)品批發(fā)價ω、新產(chǎn)品零售價P和廢件回收率τ;
(3)選擇函數(shù)使用錦標賽選擇法(tournament selection);
(4)交叉函數(shù)選用兩點交叉法(two-points crossover),交叉比例為0.600;
(5)變異函數(shù)使用自適應突變函數(shù)(adaptive feasible),初始變異概率為0.080;
(6)設置種群大小600,最大代數(shù)500,帕累托集比例0.050,約束容差和函數(shù)容差均為0.001;
(7)為防止出現(xiàn)市場惡性競爭,添加線性約束P≥1.2ω,且P和ω均為正整數(shù);
(8)考慮到激勵補貼存在上限E,添加非線性約束:
F為再制造商實際得到的激勵補貼。
(9)再制造成本Cr=1 500,其他參數(shù)均不變,以便與納什均衡作比較。
據(jù)此得到模型的帕累托前沿如圖5 所示,是一組空間為30 的最優(yōu)解集,收斂為一個空間曲面,現(xiàn)從中篩選出最適合本模型的帕累托最優(yōu)。
圖5 帕累托前沿(數(shù)值解)
令Z=ZM+ZR+ZT,代表整個逆向供應鏈的總利潤,從中篩選出10 組總利潤Z最高的帕累托最優(yōu)解,如表4 所示。
表4 10 組帕累托最優(yōu)和對應的目標函數(shù)值
策略1~10 中,閉環(huán)供應鏈的總利潤Z基本相同,但不同策略下的利益分配導致ZM、ZR和ZT有較大的變化。其中,生產(chǎn)商想獲得最大利潤應選策略9;零售商想獲得最大利潤則選擇策略1;平臺想獲得最大收益則對應策略10。在本文研究的回收模型中,生產(chǎn)商處于主導地位,故選擇策略9 作為本模型的帕累托最優(yōu)。
結(jié)論1逆向歸納法可以得到邏輯性較強的函數(shù)解,但推導過程復雜,不適用于復雜的回收模型;遺傳算法只能得到數(shù)值解,更偏向于實際應用,可以高效地解決復雜的工程問題。逆向歸納法求解的納什均衡受到規(guī)則和制度的約束,代表了各參與者獨立的決策行為,其結(jié)果是趨于穩(wěn)定的;而遺傳算法求解下的帕累托最優(yōu)擺脫了函數(shù)求導與連續(xù)性的約束,將一個動態(tài)的博弈模型轉(zhuǎn)化為靜態(tài)的資源配置過程,通過一次次迭代收斂目標函數(shù),得到帶有一定隨機性的近似最優(yōu)解。
結(jié)論2在本文構(gòu)建的回收模型中,使用多目標遺傳算法求解的帕累托最優(yōu)解優(yōu)于使用逆向歸納法求解的納什均衡,得到了更優(yōu)的回收策略。如表5所示,取再制造成本為1 500 元,對比2 種算法在模型求解結(jié)果中的表現(xiàn)。相較于逆向歸納法,多目標遺傳算法求解結(jié)果中的生產(chǎn)商的利潤ZM提升了約7.9%;零售商的收益ZR提升約2.7%;第三方平臺的利潤ZT提升約21.3%;回收率τ從0.168 7 提升至0.180 0;對消費者而言,新產(chǎn)品和再制品的售價P降低了1.9%,因此總銷量D提升了10.2%。
表5 帕累托最優(yōu)解和納什均衡對比
結(jié)論3激勵政策在帕累托最優(yōu)中發(fā)揮更好的激勵作用。逆向歸納法求解結(jié)果中τ=0.168 7,D=3374,此時再制造商的利潤函數(shù)中得到的激勵補貼F=K(τ-τ0)D=2.318 ×105;而在多目標遺傳算法求解的帕累托最優(yōu)中,τ=0.180 0,D=3 718,此時激勵補貼F=K(τ-τ0)D=2.974 ×105。國家為了激勵再制造商進行廢件回收和再制造生產(chǎn)所設立的補貼上限E=5 ×105,說明激勵機制在帕累托最優(yōu)中起到了更好的激勵作用,有效提高了廢件回收率和再制品的產(chǎn)量。
結(jié)論4多目標遺傳算法的隨機性是不可消除的,但本文通過合理的算法設置極大地提高了其收斂性,降低了隨機性。如圖6 所示為遺傳算法迭代過程中帕累托散布圖,其數(shù)值越大則代表離散性越強。本文在遺傳算法求解過程中通過添加約束、改變遺傳操作等方式提高了帕累托前沿的收斂性,隨著遺傳迭代次數(shù)的增加,帕累托平均散布逐漸減小至0.06 左右。
圖6 遺傳迭代過程中的帕累托平均散布圖
結(jié)論5零售商和生產(chǎn)商的利益基本呈負相關;回收平臺的利益基本保持不變。取篩選后的10組帕累托最優(yōu),即表4 中的數(shù)據(jù),使用多項式擬合函數(shù)(polyfit)擬合成ZM、ZR和ZT的二維圖像,如圖7所示。從圖中可以看出,隨著生產(chǎn)商的利潤增加,零售商利益減少,而平臺利潤變化范圍較小,趨于穩(wěn)定。
圖7 企業(yè)利潤曲線
結(jié)論6平臺進行回收活動時,回收成本I制約了回收率τ的增長,根據(jù)假設5,I=CLτ2,列出納什均衡和帕累托最優(yōu)中的回收成本占比(回收成本/利潤)如表6 所示。
表6 回收成本占比
在2 種求解結(jié)果中,平臺的回收成本均與凈利潤持平,接近總收入的1/2,回收方選擇較低的回收率以控制成本。根據(jù)結(jié)論3 可知,適當?shù)募钫邔⒂行岣咂脚_運營者回收意愿,有助于改變我國廢舊汽車零部件的回收現(xiàn)狀。
本文建立了一個由第三方平臺回收的廢舊汽車零部件再制造閉環(huán)供應鏈模型,分別使用逆向歸納法和多目標遺傳算法求解該模型,并以廢舊CVT 系列變速箱為例,驗證和比較了2 種算法的可行性和優(yōu)劣性,從而建立了高效的回收優(yōu)化模型。本文的主要研究結(jié)果如下。
(1)在本文假設的回收模型中,逆向歸納法可以求解得到穩(wěn)定的函數(shù)解,但其求解過程復雜,限制性較大;遺傳算法求解速度快,不受規(guī)則約束,但只能得到隨機的近似數(shù)值解,其離散分布概率約為6%。
(2)相較于逆向歸納法,遺傳算法求解得到了更優(yōu)的回收策略,其生產(chǎn)商的利潤提升了約7.9%;零售商的收益提升約2.7%;第三方平臺的利潤提升約21.3%,回收率由0.168 7 提升至0.180 0;對消費者而言,新產(chǎn)品和再制品的售價降低了1.9%,因此總銷量提升了10.2%。
(3)激勵機制在遺傳算法中可以起到更強的激勵作用,帕累托最優(yōu)中再制造商每年得到的激勵補貼增加約28.3%,回收率和再制品產(chǎn)量也隨之提升。