陳俊霖, 趙曉波, 宋亞楠, 陳建銘
(1.中央財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,北京 100081; 2.清華大學(xué) 工業(yè)工程系,北京 100084)
?
一類供應(yīng)鏈中考慮公平關(guān)切的學(xué)習(xí)效應(yīng)行為實驗研究
陳俊霖1, 趙曉波2, 宋亞楠2, 陳建銘2
(1.中央財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,北京 100081; 2.清華大學(xué) 工業(yè)工程系,北京 100084)
大量經(jīng)濟學(xué)實驗研究證實了公平關(guān)切和學(xué)習(xí)效應(yīng)對決策者行為的影響力。本文研究三人組供應(yīng)鏈系統(tǒng),通過區(qū)別設(shè)計個體自我學(xué)習(xí)以及社會學(xué)習(xí)的實驗環(huán)境,對比考察備用供應(yīng)商的公平關(guān)切程度,以及制造商和備用供應(yīng)商學(xué)習(xí)曲線的特點。實驗結(jié)果支持了學(xué)習(xí)效應(yīng)存在的假設(shè):隨著實驗期數(shù)的增加,單期決策時間逐漸減少,備用供應(yīng)商的整體拒絕率逐漸降低,制造商的策略逐漸集中。進一步構(gòu)建了引入公平關(guān)切的強化學(xué)習(xí)模型。通過參數(shù)估計發(fā)現(xiàn)在個體自我學(xué)習(xí)和社會學(xué)習(xí)實驗環(huán)境下,備用供應(yīng)商的橫向公平關(guān)切程度均較為顯著,信息共享對備用供應(yīng)商的橫向公平關(guān)切偏好無明顯影響。
管理科學(xué)與工程;學(xué)習(xí)效應(yīng);公平關(guān)切;斯坦克伯格博弈;強化學(xué)習(xí)模型
標(biāo)準(zhǔn)經(jīng)濟學(xué)理論支持“經(jīng)濟人”假設(shè),認為人是完全理性的、不動感情的、自私的、追求自身利益最大化的。行為與實驗經(jīng)濟學(xué)將心理學(xué)的研究成果融入到標(biāo)準(zhǔn)經(jīng)濟學(xué)理論中,并認為人的行為是有限理性(Bounded Rationality)的、風(fēng)險偏好的、關(guān)注公平、互惠和社會地位的。理性是解釋人們行為目標(biāo)的重要因素,但人們行為并不是無限理性的。由于環(huán)境的不確定性和復(fù)雜性、信息的不完全性、以及人類認識能力的有限性,人們的理性認識能力受到心理和生理上思維能力的客觀限制,從而表現(xiàn)為非完全理性的[1,2]。
可以認為,人們的有限理性行為一方面是社會偏好類的感知有限理性,另一方面是由認知局限引起的決策有限理性。“公平關(guān)切”和“學(xué)習(xí)效應(yīng)”正是該兩大主流有限理性理論的衍生行為假說?!肮疥P(guān)切假說”通過涉他傾向(Other-regarding)修正完全理性的假設(shè),也即認為決策者不僅關(guān)注自身的物質(zhì)利益,其決策效用亦包含對他人利益獲得的關(guān)注[3]。與此同時,“學(xué)習(xí)效應(yīng)假說”認為決策者認知的局限性可通過逐漸地學(xué)習(xí)獲得改進,進而追求最佳表現(xiàn)[4]。“公平關(guān)切假說”和“學(xué)習(xí)效應(yīng)假說”均能解釋實驗數(shù)據(jù)偏離“經(jīng)濟人”假設(shè)引起的決策偏差,但是考慮到這兩種方法所依賴的理論基礎(chǔ)的差異性,通過實驗研究決策者的行為偏差的主要成因,分析兩種假說如何交互影響決策者的行為,是很有意義的研究專題。
本文基于文獻[5,6]研究的三人組供應(yīng)鏈系統(tǒng),設(shè)計實驗集成分析備用供應(yīng)商的橫向公平關(guān)切行為與系統(tǒng)中決策者的學(xué)習(xí)效應(yīng)。通過區(qū)別設(shè)計個體自我學(xué)習(xí)以及社會學(xué)習(xí)的實驗環(huán)境,對比考察了備用供應(yīng)商的公平關(guān)切程度,以及制造商和備用供應(yīng)商學(xué)習(xí)曲線的特點。實驗結(jié)果支持了學(xué)習(xí)效應(yīng)存在的假設(shè):隨著實驗期數(shù)的增加,(1)被試的決策時間逐漸減少;(2)備用供應(yīng)商的整體拒絕率逐漸降低;(3)制造商的策略逐漸集中。進一步構(gòu)建了引入公平關(guān)切的強化學(xué)習(xí)模型。通過參數(shù)估計發(fā)現(xiàn)在個體自我學(xué)習(xí)和社會學(xué)習(xí)實驗環(huán)境下,備用供應(yīng)商的橫向公平關(guān)切程度均較為顯著,信息共享對備用供應(yīng)商的橫向公平關(guān)切偏好無明顯影響。
實踐中,公平關(guān)切影響決策行為的例子比比皆是。例如,銷售商因非成本因素的提價降價行為總會引發(fā)購買方的埋怨,認為被不公平地對待,進而尋找別的替代銷售商[7]。又如,日本豐田汽車十分注重與供應(yīng)商的公平合作關(guān)系,而尼桑汽車則經(jīng)常通過大訂單向其供應(yīng)商壓價。結(jié)果顯而易見,豐田汽車獲得了供應(yīng)商的信任,實現(xiàn)了穩(wěn)定、高效、低成本的供應(yīng)鏈交互,而尼桑汽車則苦惱于供貨質(zhì)量、交貨期等問題,交互成本高昂[7]。
人們希望受到公平的對待,寧愿付出部分經(jīng)濟代價。這種現(xiàn)象不僅存在于個人行為,集體行為也是如此[8]。對供應(yīng)商和銷售商關(guān)系的部分研究發(fā)現(xiàn),雙方都更愿意與具有更強公平性傾向的伙伴合作,同時抵制不公平的待遇[9~14]。一些研究認為公平是品質(zhì)合作中的先決條件,整個商品市場對公平性的考慮會促進成員間的信任、承諾、投資意愿和對商品的期待度[11]。目前,營銷學(xué)、經(jīng)濟學(xué)等領(lǐng)域?qū)疥P(guān)切行為的研究已經(jīng)比較充分。然而,在供應(yīng)鏈管理背景下相關(guān)研究還比較欠缺。在雙方博弈沖突環(huán)境中,Cui等人[9]通過理論分析指出在供需雙方均有公平偏好時,批發(fā)價格合同能在一定條件下使得一個兩級供應(yīng)鏈達到完美協(xié)調(diào)。Fehr等人[10]、Katok等人[11]通過開展實驗研究,探索出公平關(guān)切行為會很大程度地影響決策者對合同的選擇及合同的實施,理論上完全相等的合同在實踐中則表現(xiàn)大為不同。杜少甫等人[12]基于報童模型在Nash討價還價博弈背景下,從理論上探討了公平關(guān)切行為傾向?qū)?yīng)鏈個體成員決策與協(xié)調(diào)的影響。丁川等人[13]在渠道合作定價問題中分析了公平關(guān)注行為對渠道決策的影響。以上研究均在雙方博弈環(huán)境下進行。
在多方博弈沖突環(huán)境中,Ho等人[14]研究了包含兩個無競爭的同質(zhì)經(jīng)銷商的兩級供應(yīng)鏈,供應(yīng)商依次通過批發(fā)價格合同與經(jīng)銷商合作。作者理論研究和實驗結(jié)果均證實,比起縱向公平關(guān)切行為,經(jīng)銷商之間的橫向公平關(guān)切行為對其決策的影響更大。Chen等人[5]在常規(guī)供應(yīng)風(fēng)險環(huán)境下,分析了備用供應(yīng)商的橫向公平關(guān)切對期權(quán)合同實施的影響。以上研究均未考察學(xué)習(xí)效應(yīng)。
學(xué)習(xí)效應(yīng)通常區(qū)別個人學(xué)習(xí)效應(yīng)和社會學(xué)習(xí)效應(yīng)。個人學(xué)習(xí)是指在學(xué)習(xí)的過程中完全通過個人不受他人影響的獨立學(xué)習(xí)行為,社會學(xué)習(xí)是在學(xué)習(xí)過程中使用他人產(chǎn)生的信息進行學(xué)習(xí)的行為。學(xué)習(xí)效應(yīng)實際上是個人學(xué)習(xí)和社會學(xué)習(xí)的并發(fā)學(xué)習(xí)的過程,人類同時具有這兩種學(xué)習(xí)能力。一些學(xué)者如Mesoudi認為社會學(xué)習(xí)者通常比個人學(xué)習(xí)者學(xué)得更好[15]。對學(xué)習(xí)的研究始于19世紀的德國心理學(xué)家Hermann Ebbinghaus,他在研究中發(fā)現(xiàn)了“學(xué)習(xí)曲線”,即對于一項任務(wù)重復(fù)的次數(shù)越多每次需要的時間就越少。之后,大量反復(fù)實驗論證了學(xué)習(xí)曲線實踐的冪定律(Power Law of Practice),即學(xué)習(xí)曲線往往開始陡峭,而后漸趨于平坦,并且個體在過去某個決策帶來的良好結(jié)果,在未來的決策中會更傾向于這個決策(Law of Effect)[16]。文獻中關(guān)于學(xué)習(xí)模型的研究已經(jīng)比較充分,例如自適應(yīng)學(xué)習(xí)模型,強化學(xué)習(xí)模型,信念基礎(chǔ)學(xué)習(xí)模型等[17~19]。
公平關(guān)切行為和學(xué)習(xí)效應(yīng)的存在性已經(jīng)毋庸置疑。David J. Cooper設(shè)計了公共物品博弈實驗,提出了兼顧公平關(guān)切行為和學(xué)習(xí)效應(yīng)的混合模型假設(shè),并且發(fā)現(xiàn)該模型更好地解釋了實驗數(shù)據(jù),顯著提高了原有模型的適應(yīng)度[20]。Biele等人在公共品博弈及社會網(wǎng)絡(luò)困境博弈環(huán)境下設(shè)計實驗并提出引入互惠性的強化學(xué)習(xí)模型在重復(fù)實驗過程中能更好的解釋人們的合作行為[21]。然而,絕大部分相關(guān)研究均只孤立地討論公平關(guān)切行為或?qū)W習(xí)效應(yīng)[5~19]。因此,本文通過實驗方法在供應(yīng)鏈環(huán)境中分析具有公平關(guān)切行為的決策者的動態(tài)學(xué)習(xí)模式。本文的創(chuàng)新主要體現(xiàn)在以下方面:(1)在供應(yīng)鏈環(huán)境下兼顧公平關(guān)切行為和學(xué)習(xí)效應(yīng)的研究還比較欠缺。本文基于三人組的供應(yīng)鏈系統(tǒng),運用實驗的方法對備用供應(yīng)商的橫向公平關(guān)切偏好和系統(tǒng)學(xué)習(xí)行為進行了刻畫和分析;(2)本文區(qū)別討論了個體學(xué)習(xí)和社會學(xué)習(xí)環(huán)境下決策者的行為模式,對比分析了在不同學(xué)習(xí)環(huán)境下備用供應(yīng)商的橫向公平關(guān)切偏好特征。
根據(jù)強化學(xué)習(xí)模型[32],決策者在t(t≥0)時刻選擇策略h,在t+1時刻策略h的傾向度qh(t+1)(Propensity)更新為:
qh(t+1)=(1-φ)qh(t)+Rh(t)
(1)
在t+1時刻策略j(j≠h)的傾向度qj(t+1)更新為:
qj(t+1)=(1-φ)qj(t),j≠h
(2)
強化學(xué)習(xí)效用通常被定義為策略選擇的效用。因此,對于M,Rh(t)=EPM(h),這里EPM(h)表示M選擇策略h的期望利潤h∈A1。對于S2,
Rh(t)=max{EPS2(h)-λ·max{ERS1(h)-ERS2(h),0},0}
(3)
其中,給定M策略為h,EPS2表示S2的期望利潤,ERS1(h)和ERS2(h)分別表示S1和S2的期望收益。參數(shù)λ(≥0)表示S2的公平關(guān)切行為度,λ越大,S2越關(guān)注公平,反之亦然,λ=0表示S2完全利己,無公平關(guān)切行為[2]。由(3)式可見,S2的效用不僅依賴于自身的期望利潤,還依賴于與S1的收益差*另外一種常見的衡量公平的標(biāo)準(zhǔn)為利潤比較,如Cui等??紤]到利潤計算涉及供應(yīng)商的生產(chǎn)成本信息,而S2較難得到S1的生產(chǎn)成本信息,為了使模型更貼近實踐,我們沿用Chen等人提出的S2公平關(guān)切的參照系為收益而非利潤的模型。,即當(dāng)M策略為h,S1的期望收益高于S2時,S2對公平的關(guān)注引發(fā)劣勢不平等厭惡(Disadvantage Inequality Aversion),該厭惡體現(xiàn)為負效用項-λ·max{0,ERS1(h)-ERS2(h)}。若S2總效用大于0,則接受合同,Rh(t)=EPS2(h)-λ·max{ERS1(h)-ERS2(h),0}否則拒絕合同,Rh(t)=0。不失一般性,若總效用等于0,S2接受合同。
根據(jù)文獻研究,我們對供應(yīng)鏈系統(tǒng)行為決策做如下假設(shè):
H1 在三人組供應(yīng)鏈系統(tǒng)的行為決策過程中存在學(xué)習(xí)效應(yīng),并通過被試的決策時間和備用供應(yīng)商的拒絕率體現(xiàn)。被試需要花費一定時間來考慮和做出決策。通過不斷反復(fù)積累經(jīng)驗,對各種不同情況的有效解決方案越發(fā)了解,因此,所需的決策時間越來越短。另外,被試會改善他們的決策選擇。在下一輪中,積極的結(jié)果(不拒絕)更容易被再次選擇。因此,學(xué)習(xí)效應(yīng)會致使拒絕率將隨著時間下降。
H2 在三人組供應(yīng)鏈系統(tǒng)中存在橫向公平關(guān)切。備用供應(yīng)商是不純粹的自我利益者。他們不會單單為了獲得最大的報酬而接受制造商提供的所有合同。也就是說,他們會比較自己的收益和常規(guī)供應(yīng)商的收益,判斷合同的公平性,對于不公平的合同,即便是有利可圖,也會拒絕。
H3 信息共享會對被試的拒絕率和決策時間有正向影響。信息不共享的情況下,被試只能通過自己的決策信息不斷個人學(xué)習(xí)。信息共享在確保個人學(xué)習(xí)的前提下,還會促進被試們的社會學(xué)習(xí)。社會學(xué)習(xí)比孤立個人學(xué)習(xí)更加有效。因此,將對拒絕率和決策時間有正向影響。
表1 預(yù)期支付表
在雙供應(yīng)商策略下(合同1~6),隨著預(yù)付金比例的提高,S2的期望利潤EPS2和期望收益ERS2顯著增長,與S1的收益差由-18.75逐漸變?yōu)?6.9375。從而,S2對公平的關(guān)注所引發(fā)劣勢不平等厭惡負效用呈下降趨勢。由此,S2的公平偏好程度可從其接受(或拒絕)的合同進行體現(xiàn),如S2是純粹的自我利益者,則會因有正利潤值EPS2接受包括k=0在內(nèi)的所有雙供應(yīng)商合同,而公平關(guān)切的,則會對預(yù)付金比例有一定的要求,并拒絕其認為不公平的合同(負效用)。M在了解了S2的公平關(guān)切行為后,可通過調(diào)整合同的選擇,甚至采用僅從備用供應(yīng)商采購(a2)策略以獲取S2的合作。
實驗分兩組進行:信息不共享組和信息共享組。在信息不共享組,被試僅能獲取外部參數(shù)信息(如市場需求、常規(guī)供應(yīng)商的可靠性等)以及個體決策的歷史信息。在信息共享組,被試不僅能獲取外部參數(shù)信息以及個體決策的歷史信息,還能獲取實驗中其他被試決策的歷史信息,即在第T期實驗時,我們繪制第1期到第T-1期所有制造商提供的各類合同累積頻次以及對應(yīng)的備用供應(yīng)商拒絕率的柱狀圖表,展示于被試決策界面的顯著位置。在信息不共享組,被試僅能通過自身的決策歷史進行個體學(xué)習(xí),而在信息共享組,被試可通過閱讀柱狀圖從他人處獲取經(jīng)驗,進行社會學(xué)習(xí)。
實驗通過計算機進行,常規(guī)供應(yīng)商由計算機扮演,制造商與備用供應(yīng)商由人扮演。在制造商的界面上,顯示決策有關(guān)的外部信息及8個合同按鍵。被試可通過點擊不同合同按鍵,在彈出框中查閱對應(yīng)的計算結(jié)果,通過比較各個策略的結(jié)果,再做出最終的選擇。備用供應(yīng)商接受合同以及拒絕合同的結(jié)果會分別提供。值得注意的是,如果制造商采用僅從常規(guī)供應(yīng)商進貨策略,備用供應(yīng)商則不參與交易,如果制造商采用僅從備用供應(yīng)商進貨策略,則常規(guī)供應(yīng)商不參與交易,對備用供應(yīng)商來說,這是最好的合同形式,在完全理解實驗的基礎(chǔ)上,不會拒絕該合同。制造商選定并提交策略時,在彈出框中確認后,提交策略成功。
扮演備用供應(yīng)商的被試可在計算屏幕上看到制造商提供的合同信息,備用供應(yīng)商接受合同所能獲得的期望收益和期望利潤、以及常規(guī)供應(yīng)商在此合同下的期望收益。(需要注意的是,常規(guī)供應(yīng)商的期望收益不受備用供應(yīng)商的決策影響。)如果制造商采用雙供應(yīng)商策略,備用供應(yīng)商基于所獲的期望收益、期望利潤、以及常規(guī)供應(yīng)商的期望收益信息選擇接受合同或者拒絕合同。如果制造商提交僅從常規(guī)供應(yīng)商進貨,備用供應(yīng)商不需要做決策,直接進入下一輪實驗。如果制造商僅從備用供應(yīng)商進貨,常規(guī)供應(yīng)商的期望收益為0,備用供應(yīng)商總是會接受合同。備用供應(yīng)商決定接受或拒絕合同后則點擊提交按鈕,確認提交。
實驗共招募了58名被試(均為清華大學(xué)本科生、研究生,學(xué)習(xí)經(jīng)濟管理、工程類專業(yè)),其中,參與信息不共享組28人,參與信息共享組30人。在兩組實驗開始前,隨機決定被試扮演的角色(M或S2,S1由計算機扮演)并且一旦確認不再更改。每組實驗持續(xù)60期,每期實驗開始前,計算機對扮演M和的被試進行隨機匿名配對,被試彼此對博弈對手身份不知情。每組實驗第一期不限制決策時間,之后各期M的決策時間為60秒,S2的決策時間為40秒。被試每期博弈的實際利潤以一定比率換算成收入,對后50期收入進行累加(前10期為預(yù)實驗,確保被試熟悉系統(tǒng)并理解實驗設(shè)置,不計入總收入),并在實驗結(jié)束后現(xiàn)金發(fā)放給被試,平均每位被試收入約為50元人民幣。
總體上,制造商各期合同分布與總樣本的偏差隨時間呈下降趨勢。即隨著實驗的進行,制造商不斷學(xué)習(xí)并積累了經(jīng)驗,其決策逐漸集中,決策選擇能力逐漸提高。
進一步考察備用供應(yīng)商策略分布隨時間的變化趨勢,如圖2所示。兩組實驗結(jié)果均顯示,隨著經(jīng)驗的累積,備用供應(yīng)商拒絕合同的比率呈下降趨勢。引起拒絕率下降的主要原因在于備用供應(yīng)商對公平的關(guān)注程度逐漸被制造商掌握,進而通過優(yōu)化合同策略,獲取了更多備用供應(yīng)商的合作。
圖1 制造商各期合同分布與總樣本的偏差
圖2 備用供應(yīng)商拒絕率變化趨勢
制造商策略的集中以及備用供應(yīng)商拒絕率的逐漸下降正體現(xiàn)了強化學(xué)習(xí)模型的基本思想,即由于過去某個決策帶來的良好結(jié)果,在未來的決策中人們會更傾向于這個決策(Law of Effect)。另一方面,學(xué)習(xí)曲線強調(diào)實踐的冪定律(Power Law of Practice),即學(xué)習(xí)曲線往往初期陡峭,然后趨于平坦[28,29]。我們采用冪函數(shù)對拒絕率進行擬合分析,由于前10期收入不記入總收入,在兩組實驗下,僅取后50期正式實驗的數(shù)據(jù)進行分析。 擬合結(jié)果顯示,信息不共享組r=56.498t-0.173,信息共享組r=63.10t-0.375,擬合度R2分別為0.862和0.754。高擬合度表明負指數(shù)冪函數(shù)能較好的擬合兩組實驗下備用供應(yīng)商拒絕率的變化趨勢。并且,在信息共享組,備用供應(yīng)商拒絕率隨時間下降的速度更快(-0.375<-0.173),這表明社會學(xué)習(xí)效應(yīng)能促使被試快速積累經(jīng)驗,使決策更快地達到平衡。綜上,兩組實驗下,備用供應(yīng)商的拒絕率數(shù)據(jù)符合實踐的冪定律,拒絕率隨時間減少的現(xiàn)象驗證了學(xué)習(xí)效應(yīng)的存在性,并且實驗數(shù)據(jù)支持信息共享對被試的拒絕率有正向影響的假設(shè)。
圖3 制造商的決策時間
另一個判斷學(xué)習(xí)效應(yīng)的標(biāo)準(zhǔn)是每期實驗被試的決策時間變化。由于第一期實驗設(shè)計為無時間限制,剔除第一期的實驗數(shù)據(jù),繪制制造商和備用供應(yīng)商的決策時間隨時間的變化趨勢圖,如圖3和圖4所示。
在兩組實驗下,制造商和備用供應(yīng)商每期的決策時間隨時間的推移逐漸降低,并且曲線初始時期陡峭,接著變得相對平坦,這符合學(xué)習(xí)效應(yīng)實踐的冪定律的特征。在信息共享組下,對于給定的t,制造商和備用供應(yīng)商的決策時間均比對應(yīng)的信息不共享組下的決策時間更長。由于在信息不共享組,決策界面更為復(fù)雜(提供了共享信息圖表),被試需要更多的時間獲取并利用這些信息。因此,不考慮決策時長的絕對值比較,轉(zhuǎn)而分析兩組實驗的決策時長的變化率。
圖4 備用供應(yīng)商的決策時間
組別制造商備用供應(yīng)商信息不共享組T=55.763t-0.389,R2=0.850T=19.640t-0.359,R2=0.721信息共享組T=50.615t-0.309,R2=0.821T=29.201t-0.351,R2=0.697
通過冪函數(shù)模型對決策時間進行擬合,結(jié)果如表2所示。兩組實驗數(shù)據(jù)均得到了較高的擬合度R2,據(jù)此推斷負指數(shù)冪函數(shù)能較好的擬合決策時間的分布。隨著時間的推移,被試的決策時間均呈逐漸降低的趨勢,指數(shù)越小表示決策時間的下降速度越快。比較表2中的冪函數(shù)的指數(shù)值,信息共享組下,制造商和備用供應(yīng)商的指數(shù)值均大于對應(yīng)的信息共享組。因此,信息共享組下額外信息的提供不僅影響決策時間的長短,更會影響決策時間的下降率。綜上,決策時間數(shù)據(jù)符合實踐的冪定律,決策時間逐漸降低的現(xiàn)象驗證了學(xué)習(xí)效應(yīng)的存在性。然而,信息共享并沒有如同預(yù)期那樣加速學(xué)習(xí)效應(yīng)的變化率,而是對學(xué)習(xí)效應(yīng)的變化率有負向影響。因此,實驗結(jié)果拒絕信息共享對被試的決策時間有正向影響的假設(shè)。
圖5 合同選擇頻次及拒絕頻次分布
接下來,針對系統(tǒng)中是否存在橫向公平關(guān)切行為進行分析。如果備用供應(yīng)商是純粹的自我利益者,則會接受包括無預(yù)付金(k=0)雙供應(yīng)商策略在內(nèi)的所有合同(合同7除外),以獲取正的利潤。然而,如圖5所示,相當(dāng)比例的備用供應(yīng)商拒絕了較為不利的合同1,并且對于較為有利的合同(如2、3、4、5、6、8),拒絕的頻次顯著減少。在信息不共享組,不公平合同1被選擇了92頻次,拒絕率高達64.1%,大量的數(shù)據(jù)(501頻次)分布在其余較為有利的合同2、3、4、5、6、8中。在信息共享組,不公平合同1被選擇了266頻次,拒絕率為33.5%,該組總體拒絕率達到了13.2%,且共有400頻次分布在較為有利的合同2、3、4、5、6、8中。這些現(xiàn)象均顯示備用供應(yīng)商并不是純粹的自我利益者,而是會通過拒絕有利可圖的不公平合同懲罰提出合同的制造商。另一方面,從合同的分布來看,相當(dāng)數(shù)量的制造商對于備用供應(yīng)商的公平關(guān)切予以了重視,向其提供了較為有利的合同以獲取備用供應(yīng)商的支持。
基于前節(jié)構(gòu)造的強化學(xué)習(xí)模型,我們通過極大似然估計方法評估備用供應(yīng)商的公平因子λ及遺忘參數(shù)φ。將實驗數(shù)據(jù)以(Cj,Ij)成對表示,Cj表示制造商提供的合同類別,j=1,2,…,8,Ij表示備用供應(yīng)商的反饋,Ij=1表示接受合同,0表示拒絕合同。由式(1),(2),(3)可知,制造商和備用供應(yīng)商在時刻t選擇策略Cj,Ij的概率為該策略的傾向度與所有備擇策略傾向度之和的比值,即
(4)
采用Matlab常規(guī)極大似然估計工具包,分別在嵌套模型與完整模型下極大化式(4)中LL=ln(L)。這里,在嵌套模型下,假設(shè)備用供應(yīng)商純粹的自我利益者。估計結(jié)果如表3所示。
表3 參數(shù)估計
在兩組實驗下,備用供應(yīng)商公平關(guān)切參數(shù)估計值分別為λ=0.2623(p<0.01),λ=0.301(p<0.01),嵌套模型與完整模型的似然比檢驗分別為χ2= 311.6(p<0.0001),χ2= 90.1(p<0.0001)。因此,兩組實驗下完整模型均能更好地描述實驗數(shù)據(jù),備用供應(yīng)商具有顯著的公平關(guān)切偏好。 除此之外,在信息不共享組完整模型下,遺忘參數(shù)估計值φ=0,表明過往的經(jīng)驗對被試決策有同等重要性,遺忘效應(yīng)并不顯著。在信息共享組,遺忘參數(shù)估計值φ=0.01(p<0.05),表明被試決策更多地依賴于最近的經(jīng)驗,有顯著的遺忘效應(yīng)。遺忘效應(yīng)的差異性與被試的經(jīng)驗學(xué)習(xí)環(huán)境密切相關(guān)。在個體自我學(xué)習(xí)環(huán)境中,被試僅通過查看歷史數(shù)據(jù)進行決策,因此過往的經(jīng)驗對其同等重要,而在社會學(xué)習(xí)環(huán)境中,被試更多地依賴于每期更新的供應(yīng)商合同選擇及備用供應(yīng)商決策統(tǒng)計圖表進行決策,忽視了個體的歷史數(shù)據(jù),從而表現(xiàn)出顯著的遺忘效應(yīng)。
綜上,我們不能拒絕假設(shè)H1。在本文研究的三人組供應(yīng)鏈系統(tǒng)的行為決策過程中,存在學(xué)習(xí)效應(yīng),制造商策略的逐漸集中以及備用供應(yīng)商拒絕率的逐漸下降正體現(xiàn)了強化學(xué)習(xí)模型的基本思想,即由于過去某個決策帶來的良好結(jié)果,在未來的決策中人們會更傾向于這個決策。并且,被試的決策時間和備用供應(yīng)商的拒絕率符合學(xué)習(xí)曲線的實踐冪定律特征。我們不能拒絕假設(shè)H2。備用供應(yīng)商體現(xiàn)出強烈的公平關(guān)切行為,并通過拒絕不公平合同以懲罰制造商。對于H3,我們不能拒絕信息共享對被試的拒絕率有正向影響的假設(shè),但是對決策時間,卻表現(xiàn)出負向影響的特點。
本文通過實驗研究公平關(guān)切行為與學(xué)習(xí)效應(yīng)對決策者行為的影響。針對一類三人組供應(yīng)鏈博弈結(jié)構(gòu),采用強化學(xué)習(xí)模型刻畫決策者的行為特征。通過區(qū)別設(shè)計個體自我學(xué)習(xí)以及社會學(xué)習(xí)的實驗環(huán)境,對比考察了備用供應(yīng)商的公平關(guān)切程度,以及制造商和備用供應(yīng)商學(xué)習(xí)曲線的特點。Chen等人從系統(tǒng)最優(yōu)決策的角度分析了橫向公平關(guān)切行為的影響。本文在此基礎(chǔ)上,從學(xué)習(xí)效應(yīng)的角度分析系統(tǒng)決策的變化,以及不同學(xué)習(xí)環(huán)境下橫向公平關(guān)切行為的特點。
本文的實驗研究結(jié)果支持了學(xué)習(xí)效應(yīng)存在的假設(shè)。一方面,被試的決策時間和備用供應(yīng)商的整體拒絕率符合學(xué)習(xí)效應(yīng)中“實踐的冪定律”的特征,另一方面,制造商的策略逐漸集中也體現(xiàn)了個體在過去某個決策帶來的良好結(jié)果,在未來的決策中會更傾向于這個決策的學(xué)習(xí)特性。通過構(gòu)建引入公平關(guān)切的強化學(xué)習(xí)模型對公平因子、遺忘效應(yīng)參數(shù)進行估計,結(jié)果表明備用供應(yīng)商的橫向公平關(guān)切程度在兩組實驗環(huán)境下均較為明顯,而遺忘效應(yīng)僅在社會學(xué)習(xí)實驗環(huán)境的實驗環(huán)境下表現(xiàn)顯著。
本文還有很多方面可以進一步擴展研究。首先,本文假設(shè)同質(zhì)制造商和備用供應(yīng)商,作為拓展,后續(xù)研究可進一步分析決策者的異質(zhì)性;其次,本文假設(shè)常規(guī)供應(yīng)商為計算機扮演,若對比分析常規(guī)供應(yīng)商為人扮演的場景,可能會得到有趣的結(jié)論;最后,針對不同可靠度的常規(guī)供應(yīng)商環(huán)境下分析備用供應(yīng)商和制造商的學(xué)習(xí)行為也是未來研究的重要方向。
[1] Camerer C F, Loewenstein G, Rabin M. Advances in behavioral economics[M]. Princeton University Press, 2011.
[2] 陳俊霖,趙曉波.反S型權(quán)重風(fēng)險偏好對一類兩級供應(yīng)鏈的影響[J].運籌與管理,2013,22(2):1-7.
[3] Fehr E, Schmidt K M. A theory of fairness, competition, and cooperation[J]. The quarterly journal of economics, 1999, 114(3): 817- 868.
[4] Roth A E, Erev I. Learning in extensive-form games: experimental data and simple dynamic models in the intermediate term[J]. Games and economic behavior, 1995, 8(1): 164-212.
[5] Chen J, Zhao X, Shen Z. Risk mitigation benefit from backup suppliers in the presence of the horizontal fairness concern[J]. Decision Sciences, 2014, forthcoming.
[6] Chen J, Zhao X, Zhou Y. A periodic-review inventory system with a capacitated backup supplier for mitigating supply disruptions[J]. European Journal of Operational Research, 2012, 219(2): 312-323.
[7] Dyer J H. Effective interim collaboration: how firms minimize transaction costs and maximize transaction value[J]. Strategic Management Journal, 1997, 18(7): 535-556.
[8] Güth W, K?nigstein M, Kovács J, et al.. Fairness within firms: the case of one principal and multiple agents[J]. Schmalenbach Business Review, 2001, 53(2): 82-101.
[9] Cui T H, Raju J S, Zhang Z J. Fairness and channel coordination[J]. Management Science, 2007, 53(8): 1303-1314.
[10] Fehr E, Klein A, Schmidt K M. Fairness and contract design[J]. Econometrica, 2007, 75(1): 121-154.
[11] Katok E, Olsen T, Pavlov V. Wholesale pricing under mild and privately known concerns for fairness[J]. Production and Operations Management, 2014, 23(2): 285-302.
[12] 杜少甫,朱賈昂,高冬,等.Nash討價還價公平參考下的供應(yīng)鏈優(yōu)化決策[J].管理科學(xué)學(xué)報,2013,16(3):68-72.
[13] 丁川,王開弘,冉戎.基于公平偏好的營銷渠道合作機制研究[J].管理科學(xué)學(xué)報,2013,16(8):80-94.
[14] Ho T H, Su X, Wu Y. Distributional and peer-induced fairness in supply Chain contract design[J]. Production and Operations Management, 2014, 23: 161-175.
[15] Mesoudi A. An experimental comparison of human social learning strategies: payoff-biased social learning is adaptive but underused[J]. Evolution and Human Behavior, 2011, 32(5): 334-342.
[16] Erev I, Roth A E. Predicting how people play games: reinforcement learning in experimental games with unique, mixed strategy equilibria[J]. American economic review, 1998: 848- 881.
[17] Salmon T C. An evaluation of econometric models of adaptive learning[J]. Econometrica, 2001, 69(6): 1597-1628.
[18] Erev I, Haruvy E. Generality, repetition, and the role of descriptive learning models[J]. Journal of Mathematical Psychology, 2005, 49(5): 357-371.
[19] Abbink K, Bolton G E, Sadrieh A, et al.. Adaptive learning versus punishment in ultimatum bargaining[J]. Games and Economic Behavior, 2001, 37(1): 1-25.
[20] Cooper D J, Stockman C K. Fairness and learning: an experimental examination [J]. Games and Economic Behavior, 2002, 41(1): 26- 45.
[21] Biele G, Rieskamp J, Czienskowski U. Explaining cooperation in groups: testing models of reciprocity and learning[J]. Organizational Behavior and Human Decision Processes, 2008, 106(2): 89-105.
An Experimental Study of Fairness and Learning in a Triadic Supply Chain
CHEN Jun-lin1, ZHAO Xiao-bo2, SONG Ya-nan2, CHEN Jian-ming2
(1.SchoolofManagementScienceandEngineering,CentralUniversityofFinanceandEconomics,Beijing100081,China; 2.DepartmentofIndustrialEngineering,TsinghuaUniversity,Beijing100084,China)
Experimental studies of behavioral economics have provided convincing evidences that people are not perfectly rational but are affected by factors such as fairness concerns and learning. We conduct laboratory experiments based on a triadic supply chain to examine the horizontal fairness concerns of backup supplier and the learning curves of both manufacturer and backup supplier. Both individual learning and social learning settings are considered. The experiment results support the learning effect hypothesis in the supply chain: As the experiment proceeds, the decision time for a single period decreases; the overall rejection rate of backup supplier is gradually reduced; and the strategies of manufacturers are gradually concentrated. Furrhermore, we construct a reinforcement learning model with horizontal fairness concerns. Parameter estimation results show that the horizontal fairness concern of backup supplier is significant in both experiments with individual learning setting and social learning setting.
management science and engineering; learning effect; fairness concern; stackelberg game; reinforcement learning model
2013-12-18
國家自然科學(xué)基金資助項目(71210002,71401195);科技部創(chuàng)新方法工作專項課題(2012IM040400);中國財經(jīng)大學(xué)121人才工程青年博士發(fā)展基金項目(QBJ1412)
陳俊霖(1983-),女,四川巴中人,博士,講師,研究方向: 行為運作管理、運籌學(xué)等;趙曉波(1962-),男,湖北嘉魚人,博士,教授,博士生導(dǎo)師,研究方向:物流與供應(yīng)鏈管理、行為運籌學(xué)與行為運作管理等;宋亞楠(1985-), 女,遼寧撫順人,博士生;陳建銘(1988-),男,泰國曼谷人,碩士生。
C934;O225
A
1007-3221(2015)02- 0020- 09
Chen等人的Bernoulli模型(隨機變量服從Bernoulli分布,下游需求D歸一化為D=1)分析結(jié)論,針對備用供應(yīng)商不同的公平偏好程度,制造商的最優(yōu)策略可分為僅從常規(guī)供應(yīng)商采購a1、僅從備用供應(yīng)商采購a2、以及從常規(guī)供應(yīng)商采購并從備用供應(yīng)商預(yù)定期權(quán)a12(k)三大類。在此模型中,策略與訂貨量有直接簡單的對應(yīng)關(guān)系。單供應(yīng)商策略表示q1= 1、q2= 0,q1= 0、q2= 1,雙供應(yīng)商策略表示q1= 1、q2= 1。令A(yù)1={a1,a2,a12(k)}表示M的策略空間。給定M的策略下,S2的策略空間A2={0,1}, 0表示拒絕,1表示接受。