王小楊,張 雷,杜曉榮
(1.電子科技大學中山學院 經(jīng)貿(mào)學院,廣東 中山 528400;2.中山大學物理學院,廣州 510275)
當今的產(chǎn)學研合作已經(jīng)不局限于傳統(tǒng)的模式了,通過建立“產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟”等方式,多方支持產(chǎn)學研合作,而在多方的引導下,我國產(chǎn)學研合作日趨活躍。建立產(chǎn)學研戰(zhàn)略聯(lián)盟模式,讓企業(yè)、高校和科研機構、政府、中介服務組織、有關產(chǎn)品的最終門戶等部門共同推動科技成果的轉(zhuǎn)化。近幾年來,作為一種產(chǎn)業(yè)層面的技術創(chuàng)新組織形態(tài),產(chǎn)業(yè)戰(zhàn)略聯(lián)盟在科技創(chuàng)新中發(fā)揮了越來越大的作用,是產(chǎn)學研聯(lián)合的深化,對加快產(chǎn)業(yè)自主創(chuàng)新和提升產(chǎn)業(yè)競爭力具有重要的作用。本文試圖從演化博弈論的視角探討產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟中的產(chǎn)學研合作,以及如何建立激勵或約束機制來提高合作創(chuàng)新的效率。
關于產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的研究,大部分學者集中在聯(lián)盟成員彼此的關系上,Ybarra等利用交易成本理論和社會交換理論,比較了技術聯(lián)盟成員之間的信任水平,證明了聯(lián)盟成員間的信任能促進聯(lián)盟績效的提升[1]。朱少英等從技術聯(lián)盟成員合作的博弈關系進行研究,得出信譽是聯(lián)盟成員合作的重要治理機制的結論[2]。一些學者將聯(lián)盟伙伴或聯(lián)盟模式的選擇看作是技術聯(lián)盟成敗的關鍵。趙世賢等提出,利用AHP模糊評價法來評價聯(lián)盟潛在合作伙伴的技術創(chuàng)新能力,以此作為選擇聯(lián)盟合作伙伴的依據(jù)[3]。李榮等從科技情報機構視角,提出聯(lián)盟式協(xié)同創(chuàng)新環(huán)境下開展信息服務的三種模式,并就如何推行提出了政策實施路徑[4]。王發(fā)明等根據(jù)合作伙伴對聯(lián)盟效益的貢獻大小,利用Shapley值法對合作收益進行分配,形成了綜合效益轉(zhuǎn)移機制[5]。
關于產(chǎn)學研的研究主要集中在產(chǎn)業(yè)因素對合作的影響上,詹雯婷等系統(tǒng)分析了產(chǎn)學研合作中各產(chǎn)業(yè)因素之間的相互影響與制約關系,以及各因素對創(chuàng)新績效和合作專利的影響[6]。阮國祥等對開放式產(chǎn)學研結合模式在自主創(chuàng)新中的運用進行了研究[7]。趙永剛、鄭小碧認為,產(chǎn)業(yè)共性技術創(chuàng)新必須依靠“產(chǎn)學研”合作模式,并充分發(fā)揮骨干企業(yè)的主體作用[8]。殷輝等基于產(chǎn)業(yè)背景的產(chǎn)學研合作研究的不足,運用演化博弈理論比較分析不同類產(chǎn)業(yè)中的產(chǎn)學研博弈過程[9]。曹霞等對產(chǎn)學研聯(lián)盟穩(wěn)定性的影響因素進行分析,并剖析影響因素與產(chǎn)學研聯(lián)盟穩(wěn)定性的關系[10]。
國內(nèi)學者把產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟與產(chǎn)學研合作結合起來的研究較少,有些學者分析了當今聯(lián)盟中產(chǎn)學研合作的特點,卻忽略了聯(lián)盟中新角色、新策略給產(chǎn)學研合作帶來的影響以及演化博弈的過程。本文基于有限理性的假設,采用演化博弈、數(shù)值仿真等,重點分析:基于產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的產(chǎn)學研合作有何新特點?怎么約束或激勵聯(lián)盟中成員的行為?并進一步思考懲罰和獎勵哪個對促進合作更有效?
本文考慮了聯(lián)盟內(nèi)部成員長期的反復博弈,各方都是獨立的利益主體,都以最大化自己的利益為目標。建立多策略、多人的博弈模型,并模擬真實情景設立獎勵與懲罰機制,深入探討不同條件下合作的演化情況,并分別討論獎勵和懲罰機制,對產(chǎn)學研合作的影響。
在綜合考慮產(chǎn)學研合作利益博弈的實際影響因素與模型可操作性的基礎上,本部分給出以下基本假設:
假設1:為了維持產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟中各方的利益,通常會有一類合作者,我們將其定義為“道德者”(M),在懲罰機制下,對于違約或不合作的一方,會對其進行懲罰(如果群體中不存在背叛者,那么“懲罰者”就是合作者);在獎勵機制下,為了激勵合作,會對合作者給予一定的獎勵,但是懲罰或獎勵的權利只能在選擇合作一方的手中(即道德者也是合作者的一類),獎勵和懲罰其他人的同時也要有一定的成本支出。
假設2:博弈策略。在傳統(tǒng)的研究中,“合作”與“背叛”是參與方的兩個選擇,但是根據(jù)假設1,參與主體角色的不同,績效機制不同,博弈時選擇的策略也不同,具體情況結合表1和表2分析。
假設3:懲罰機制下的收益矩陣。選擇囚徒困境模型來討論個體理性和群體理性的矛盾和對立,并根據(jù)假設1和假設2得到改進后的收益矩陣(如表1所示)。
表1 懲罰機制下的多策略囚徒困境模型
其中,對于合作者來說,當對方選擇背叛,那么合作者要付出c的代價,得到收益-c;如果對方選擇合作,則雙方的收益均為(b-c);而對于背叛者來說,如果對方選擇合作,它將獲得b的收益;如果對方也選擇背叛,他將沒有收益。對于不參與者,將得到一定的收益σ;對于懲道德者,懲罰背叛者時需要付出t的代價,讓背叛者的收益減少p。
假設4:獎勵機制下的收益矩陣。當產(chǎn)學研合作中的某個單位或組織對整個產(chǎn)學研的合作貢獻較大時,會對其進行獎勵來促進更好的合作。在現(xiàn)實的產(chǎn)學研合作中,也有類似的情況,產(chǎn)學研的項目除了自身的盈利外,有可能會得到政府或組織等的額外資金補貼;又或者產(chǎn)學研聯(lián)盟中的幾個單位,為了后續(xù)長久的合作,會以獎勵的方式支持創(chuàng)新貢獻較大者,具體情況收益矩陣(如表2所示)。其中,道德者需支付t,而合作者得到r的獎勵。
表1和表2是改進后的囚徒困境模型,彼此之間的收益關系仍然需要符合經(jīng)典囚徒困境模型的要求,關于囚徒困境及改進后的相關理論,可參考相關文獻[11-16]。
表2 獎勵機制下的囚徒困境收益矩陣
本文的重點是討論不同的績效機制下,多角色、多人的演化博弈過程,針對前文的假設條件,對產(chǎn)學研合作的演化過程遞進討論,首先分析多人的博弈規(guī)則,然后討論不同機制下多策略的博弈規(guī)則,最后推導演化過程。
1.懲罰機制下的多人、多策略產(chǎn)學研博弈。結合上頁表1,假設某博弈方A選擇合作的概率為x1,選擇成為道德者的概率為x2,選擇成為中立人的概率為x3,選擇成為不合作者的概率為(1-x1-x2-x3)。則對方B選擇合作的概率為y1,選擇成為道德者的概率為y2,選擇成為中立人的概率為y3,選擇不合作的概率為(1-y1-y2-y3)。
某博弈方A選擇合作的復制動態(tài)方程為:
某博弈方A選擇懲罰的復制動態(tài)方程為:
2.獎勵機制下多人、多策略產(chǎn)學研博弈。結合本文表2,假設某博弈方A選擇合作的概率為x1,選擇成為道德者的概率為x2,選擇成為中立人的概率為x3,選擇成為不合作者的概率為(1-x1-x2-x3)。則對方B選擇合作的概率為y1,選擇成為道德者的概率為y2,選擇成為中立人的概率為y3,選擇不合作的概率為(1-y1-y2-y3)。
某博弈方A選擇合作的復制動態(tài)方程為:
某博弈方A選擇懲罰的復制動態(tài)方程為:
當系統(tǒng)出現(xiàn)可能的穩(wěn)定均衡時,究竟收斂于哪個均衡狀態(tài),與博弈的收益矩陣和博弈發(fā)生時的初始狀態(tài)密切相關,參數(shù)的變化和初始值將導致不同的均衡點收斂。
第一,“懲罰—收益”比例系數(shù)p/b。當系統(tǒng)中存在“懲罰者”時,則討論“懲罰—收益”比例p/b對產(chǎn)學研合作的影響。通過分析,當對產(chǎn)學研合作中背叛者的懲罰力度加大,即p/b較大時,理性的參與者選擇背叛時會得到較大的懲罰,則系統(tǒng)中的個體便傾向于合作。而假如對產(chǎn)學研合作的監(jiān)管不利,對背叛者懲罰力度減小,即p/b較小時,“搭便車”者便會出現(xiàn),導致理性的個體更傾向于背叛。
第二,“獎勵—收益”比例系數(shù)r/b。當系統(tǒng)中存在獎勵機制時,討論“獎勵—收益”比例r/b對產(chǎn)學研合作的影響。通過分析,當對產(chǎn)學研合作中的合作者的獎勵力度加大時,即r/b增大時,理性的參與者選擇合作時會得到較多的獎勵,則系統(tǒng)中的個體更傾向于合作。而假如對產(chǎn)學研合作的激勵不夠,對合作者沒有給予足夠多的獎勵,即r/b較小時,長久來看,將導致理性個體傾向于背叛。
本文基于Python軟件進行數(shù)值模擬仿真。初始情況下,平均分配各個角色在群體中所占的比例。
第一,“懲罰—收益”比例系數(shù)p/b。下頁圖1分析多人多策略下,懲罰機制對產(chǎn)學研合作的影響,每條曲線對應一個懲罰的p/b值,通過觀察可以發(fā)現(xiàn),當p/b值越大時,代表對不合作者的懲罰越大,則發(fā)現(xiàn)曲線對應的平均合作度較高,說明系統(tǒng)中的合作者和道德者占主導地位,而當p/b值較小時,發(fā)現(xiàn)曲線對應的平均合作度較低,系統(tǒng)中的不合作者成為主導者。從圖1可以看出,隨著橫坐標c/b的增大,平均合作度還是呈現(xiàn)下降趨勢,這說明理智的參與者發(fā)現(xiàn)合作的代價太大時,會選擇背叛。
第二,“獎勵—收益”比例系數(shù)r/b。下頁圖2分析多人多策略下,獎勵機制對產(chǎn)學研合作的影響,每條曲線對應一個獎勵的r/b值,通過觀察可以發(fā)現(xiàn),當r/b值越大時,代表對合作者的獎勵越多,則發(fā)現(xiàn)曲線對應的平均合作度較高,說明系統(tǒng)中的合作者和道德者占主導地位,而當r/b值較小時,發(fā)現(xiàn)曲線對應的平均合作度較低,系統(tǒng)中的不合作者 成為主導者。
圖1 懲罰機制下3人博弈的情況(縱坐標是平均合作度,橫坐標是c/b的值)
圖2 獎勵機制下3人博弈的情況(縱坐標是平均合作度,橫坐標是c/b的值)
接下來,我們進一步對比圖1和圖2,不同機制下,多人多策略聯(lián)盟中的平均合作度,可以發(fā)現(xiàn)在懲罰機制下的平均合作度略高于獎勵機制下的平均合作度,為什么在相同的比例下,懲罰比獎勵對合作的提升更有效?人類和其他動物對某些放大的意識,比如負面的影響,會迅速做出回應,并進行自我調(diào)節(jié)。而不同于其他動物,人類是認知型的高級生物,對心理情緒造成的影響,負面信息比正面信息要大。而那些積極的影響,如對一些滿足感或能提供滿足感的人的遺忘速度似乎很快;而對那些消極的影響,比如受到懲罰后心理的負面影響,似乎更長遠地影響著人類的行為。因此在懲罰的負面影響下,生物可能會積極合作,可以小程度上超越獎勵的積極影響(此結果也與文獻[17-19]的結論類似)。
在產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟中,成員之間分工不同,可能選擇的策略也不同,在激烈競爭的市場環(huán)境中,為了保障聯(lián)盟中成員的利益,并激發(fā)出更多的合作潛能,促進產(chǎn)學研成果的轉(zhuǎn)化,本文從績效的角度入手,建立懲罰與獎勵機制,對不同的機制的聯(lián)盟下產(chǎn)學研合作進行演化博弈分析。
績效機制中懲罰與獎勵對產(chǎn)學研合作的影響。產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟中各方所采取的策略是隨著所處系統(tǒng)機制不同而發(fā)生演化的,首先分析了懲罰機制下各方策略的選擇以及合作的情況,通過上文的分析以及實驗結果可以發(fā)現(xiàn),當“懲罰—收益”p/b增大時,產(chǎn)學研合作也會加深。同時,聯(lián)盟中各角色的比例也隨之變化,不參與者與背叛者數(shù)量減少,合作者和道德者增多。之后,分析了獎勵機制下各方策略的選擇以及合作的情況,通過分析及實驗結果可以發(fā)現(xiàn),當“獎勵—收益”r/b增大時,產(chǎn)學研合作也會加深,主要是由于合作的一方得到了更多的收益,便會繼續(xù)合作下去。最后,我們也分析了為何懲罰機制會在提高產(chǎn)學研合作上略有優(yōu)勢,主要是從人類心理和進化的角度說明了原因。綜上,在產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的產(chǎn)學研合作中,一定要對各方所處的角色進行分析,并制定一定的懲罰和獎勵的績效機制,充分評估不同機制的影響,加強監(jiān)督,并合理分配不同角色的利益,才能有效地提升產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的產(chǎn)學研合作水平。
本文運用演化博弈論和囚徒困境模型,分析并模擬了基于產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的多人、多策略產(chǎn)學研合作,并探討在不同的績效機制下的合作情況。研究結論表明,產(chǎn)學研合作的利潤很重要,聯(lián)盟中的各方都希望有較高的合作收益和較低的支出成本;其次,建立一定的績效機制,簡單地依靠各方自覺是不夠的,如果想激發(fā)出更多的產(chǎn)學研合作,適當?shù)膽土P或獎勵機制的建立,在降低了合作風險的同時,增加了聯(lián)盟的各方的合作意愿。在后續(xù)的研究中,在保持模型的簡潔性和有效性的前提下,進一步考慮產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟的更多現(xiàn)實因素,結合系統(tǒng)仿真等方法進行深入分析和論證。
[1]Ybarra C.E.,Thomas A.Turk.The evolution of trust in information technology alliances.Journal of High Technology Management Research,2009,(1):62-74.
[2]朱少英,齊二石.產(chǎn)學研聯(lián)盟關系品質(zhì)影響因素實證研究[J].科技進步與對策,2016,(3):12-17.
[3]趙世賢,張華,何娜.基于技術創(chuàng)新能力評價的企業(yè)技術聯(lián)盟合作伙伴的選擇[J].西南科技大學學報:哲學社會科學版,2010,(1):35-39.
[4]李榮,吳晨生,劉彥君,等.產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟信息服務模式及發(fā)展對策研究[J].情報理論與實踐,2014,(10):35-39.
[5]王發(fā)明,劉丹.產(chǎn)業(yè)技術創(chuàng)新聯(lián)盟中焦點企業(yè)合作共生伙伴選擇研究[J].科學學研究,2016,(2):246-252.
[6]詹雯婷,章熙春,胡軍燕.產(chǎn)學研合作對企業(yè)技術能力結構的雙元性影響[J].科學學研究,2015,(10):528-537.
[7]阮國祥,阮平南,宋靜.創(chuàng)新網(wǎng)絡成員知識共享演化博弈仿真分析[J].情報雜志,2011,(2):100-104.
[8]趙永剛,鄭小碧.基于參與者智力決策的產(chǎn)業(yè)關鍵共性技術創(chuàng)新研究[J].科技進步與對策,2013,(1):59-63.
[9]殷輝,陳勁.新興和成熟產(chǎn)業(yè)中企業(yè)對學研方行為的演化博弈仿真分析[J].科技管理研究,2015,(7):97-102.
[10]曹霞,于娟,張路蓬.不同聯(lián)盟規(guī)模下產(chǎn)學研聯(lián)盟穩(wěn)定性影響因素及演化研究[J].管理評論,2016,(2):3-14.
[11]Xiaoyang Wang,Lei Zhang,Xiaorong Du,Yunlin Sun.Evolving cooperation in spatial population with punishment by using PSO algorithm.Natural Computing,2016,DOI:10.1007/s11047-016-9546-5.
[12]Uchida S.,Sigmund K.The competition of assessment rules for indirect reciprocity.J.Ther.Biol.2010,(1):13-19.
[13]Yoeli E.,Hoffman M.,Rand,D.D.,Nowak,M.A.Powering up with indirect reciprocity in a large-scale filed experiment.Proc.Natl.Acad.Sci.USA 110(Supplement 2),2013:10424-10429.
[14]Christian Hilbe,Arne Traulsen,Torsten R?hl,and Manfred Milinski,Democratic decisions establish stable authorities that overcome the paradox of second-order punishment,PNAS,vol.111,2014,(2):752-756.
[15]Julián García,Matthijs van Veelen,Arne Traulsen,Evil green beards:Tag recognition can also be used to withhold cooperation in structured populations,Journal of Theoretical Biology,vol.360,2014:181-186.
[16]Boyd R.,Gintis H.,Bowles S.Coordinated punishment of defectors sustains cooperation and can proliferate when rare.2010,Science328:617-620.
[17]Ayelet Gneezy,Daniel M.T.Fessler,Conflict,sticks and carrots:war increases prosocial punishments and rewards,Proc.R.Soc.B,vol.279,2012:219-223.
[18]Xiaojie Chen,Tatsuya Sasaki,Ake Brannstrom and Ulf Dieckmann,F(xiàn)irst carrot,then stick:how the adaptive hybridization of incentives promotes cooperation,Journal of the royal society interface,2014,(12):1-9.
[19]Kyle Irwin,Christine Horne.A normative explanation of antisocial punishment,Social Science Research,2013,(42):562-570.