夏佳佳,王守龍
(安徽商貿(mào)職業(yè)技術(shù)學(xué)院 財(cái)務(wù)金融系,安徽 蕪湖 241002)
聯(lián)保貸款最初是由尤努斯為了扶持農(nóng)戶,幫助擺脫貧困提出的一種信貸模式[1]. 在我國,由于中小企業(yè)相較于大企業(yè)資產(chǎn)規(guī)模偏低,對(duì)銀行的業(yè)務(wù)貢獻(xiàn)不大,且管理水平有限,產(chǎn)品技術(shù)含量不高,銀行對(duì)其發(fā)放貸款的綜合收益遠(yuǎn)小于大型企業(yè),因此“融資難、融資貴”. 由此,聯(lián)保貸款被提出,借款主體聯(lián)合若干家自愿參與聯(lián)保團(tuán)體的企業(yè)組成聯(lián)保小組,以小組名義向商業(yè)銀行申請(qǐng)授信,由其他成員提供連帶責(zé)任擔(dān)保的貸款模式. 銀行利用該業(yè)務(wù)模式在一定程度上規(guī)避了單個(gè)企業(yè)融資的風(fēng)險(xiǎn),拓寬了中小企業(yè)客戶渠道,緩解了“融資難”的問題,而且隨著業(yè)務(wù)的深入,一些大型民營企業(yè)也在嘗試?yán)迷摲绞将@取融資[2]. 聯(lián)保貸款業(yè)務(wù)成為化解“融資難,融資貴”問題的有效路徑. 但是,由于我國目前信用體系尚未健全,信息披露機(jī)制透明度不夠,聯(lián)保貸款業(yè)務(wù)發(fā)生的不良貸款率逐年攀升[3],危害了我國中小企業(yè)的健康發(fā)展. 十三屆二次會(huì)議政府工作報(bào)告中明確了“民營中小型企業(yè)融資難融資貴問題尚未有效緩解”,說明現(xiàn)有機(jī)制沒有有效解決中小企業(yè)融資問題. 我國聯(lián)保貸款業(yè)務(wù)模式失效的主要原因是“搭便車”現(xiàn)象較為嚴(yán)重[4],導(dǎo)致企業(yè)特別是守信企業(yè)參與積極性降低,聯(lián)保貸款業(yè)務(wù)模式難以繼續(xù),對(duì)我國中小企業(yè)融資甚至健康發(fā)展產(chǎn)生了一定沖擊. 因此,構(gòu)建更為合理的約束機(jī)制促使聯(lián)保貸款業(yè)務(wù)的健康持續(xù)穩(wěn)定發(fā)展,對(duì)解決我國中小企業(yè)的融資問題乃至穩(wěn)定發(fā)展有著非常重要的意義.
目前對(duì)于聯(lián)保貸款業(yè)務(wù)模式的研究較多,大致從幾個(gè)角度進(jìn)行分析.
聯(lián)保貸款企業(yè)努力水平角度 Zhang發(fā)現(xiàn)聯(lián)保企業(yè)均違約逃債時(shí),其努力水平低于單獨(dú)貸款企業(yè)[5]. 肖斌卿分析得到聯(lián)保貸款企業(yè)努力水平取決于多種因素,并與收益、聯(lián)保責(zé)任有著一定的線性關(guān)系[6].
博弈角度 相關(guān)文獻(xiàn)分析了聯(lián)保貸款模式存在的問題. 戴菊貴通過設(shè)定四種假設(shè)條件,對(duì)比分析了新舊機(jī)制下聯(lián)保企業(yè)收益貼現(xiàn)值,結(jié)果顯示聯(lián)保貸款業(yè)務(wù)模式的成功是在特定條件下才可以發(fā)生的,提出“不再融資”的懲罰差別機(jī)制[7],部分解決了由事前道德風(fēng)險(xiǎn)導(dǎo)致的違約逃債,創(chuàng)新了規(guī)避違約方法. 羅安將中小企業(yè)聯(lián)保貸款模式分為兩個(gè)博弈階段進(jìn)行研究,即不同企業(yè)在申請(qǐng)聯(lián)保貸款時(shí)的策略博弈和中小企業(yè)聯(lián)貸小組與商業(yè)銀行的策略博弈,結(jié)果顯示聯(lián)保業(yè)務(wù)模式的制度必須強(qiáng)化企業(yè)的內(nèi)部約束和違約成本[8]. 但相關(guān)研究并沒有充分考慮到,聯(lián)保貸款參與方的決策行為并不是一成不變的,而是隨時(shí)間變化不斷調(diào)整,因?yàn)閰⑴c方具備自主學(xué)習(xí)的能力且容易受到其他參與方的影響,從而改變自己的策略. 因此,上述研究有一定局限性,不能完全適用現(xiàn)實(shí)情況.
博弈論是試圖提出某種均衡,使得博弈參與各方根據(jù)對(duì)方選擇的策略做出自己最優(yōu)策略選擇,演化博弈基于前者提出的,旨在研究博弈各方選擇的策略隨著時(shí)間的改變達(dá)到穩(wěn)定狀態(tài)的過程. 而基于強(qiáng)化學(xué)習(xí)的演化博弈理論則是一種有效的結(jié)合,即在博弈各方策略選擇隨著時(shí)間變化的過程中,充分考慮到個(gè)體決策者具備自主學(xué)習(xí)能力特性. 博弈各方策略決策過程不再是靜態(tài)的,而是轉(zhuǎn)變成了由個(gè)體決策者與環(huán)境交互的動(dòng)態(tài)過程. 因此,基于強(qiáng)化學(xué)習(xí)的演化博弈理論適用于聯(lián)保貸款業(yè)務(wù)模式的優(yōu)化問題.
目前,部分學(xué)者將強(qiáng)化學(xué)習(xí)理論已經(jīng)成功應(yīng)用到實(shí)踐中. 吳軍將強(qiáng)化學(xué)習(xí)的演化博弈理論應(yīng)用于?;愤\(yùn)輸?shù)倪x擇問題,建立博弈模型,并通過算例說明路徑稅收政策對(duì)于運(yùn)輸企業(yè)選擇稅收路段有正向的促進(jìn)作用[9]. 黃彬彬應(yīng)用于對(duì)比分析農(nóng)民參與農(nóng)田水利管理的一般模型和進(jìn)化模型,通過算例驗(yàn)證了新管理模式不僅可以提高博弈參與方的收益還可以提高合作頻率[10]. Julien Laumonier對(duì)多代理人強(qiáng)化學(xué)習(xí)進(jìn)化模型做了研究,并結(jié)合納什均衡與斯塔克爾伯格均衡建立新模型,通過自行車調(diào)度問題進(jìn)行分析,結(jié)果表明兩種均衡結(jié)合后的新模型更有效率[11]. 但是,將聯(lián)保貸款業(yè)務(wù)模式的優(yōu)化問題置于強(qiáng)化學(xué)習(xí)演化博弈理論內(nèi)進(jìn)行研究則少有涉獵.
因此,本文將建立基于強(qiáng)化學(xué)習(xí)的聯(lián)保貸款業(yè)務(wù)模式博弈模型和信用等級(jí)制度,對(duì)比分析新舊業(yè)務(wù)模式下聯(lián)保企業(yè)策略選擇的改變. 首先確立“人工智能+金融”的研究模式,結(jié)合人工智能算法——強(qiáng)化學(xué)習(xí),將聯(lián)保貸款業(yè)務(wù)模式優(yōu)化的問題置于強(qiáng)化學(xué)習(xí)博弈體系之內(nèi),優(yōu)化聯(lián)保貸款業(yè)務(wù)模式. 其次,參考“不再融資”的約束聯(lián)保企業(yè)的懲罰差別機(jī)制行為,提出多層次細(xì)化的約束機(jī)制. 因?yàn)椤安辉偃谫Y”存在“一刀切”,對(duì)于償還程度不一的聯(lián)保貸款參與企業(yè),會(huì)挫傷參與的積極性,銀行也會(huì)錯(cuò)失一部分業(yè)務(wù)拓展的機(jī)會(huì).
聯(lián)保貸款小組成員一般為實(shí)力較為均衡,彼此較為熟悉、信任程度較高的中小企業(yè). 一般情況下,如果某個(gè)成員無法到期還款,則其他成員必須為其償本付息[12]. 雖然這種業(yè)務(wù)模式可以讓授信企業(yè)做到貸前進(jìn)行篩選、調(diào)查,貸中監(jiān)督和貸后管理,對(duì)銀行的風(fēng)險(xiǎn)審查做到有效補(bǔ)充. 但是業(yè)務(wù)缺陷不可忽視,如需要企業(yè)提供的材料眾多,手續(xù)繁冗,監(jiān)督體制不健全,以及參與方易發(fā)生策略性違約等,還有使該業(yè)務(wù)失效的最重要因素——聯(lián)保企業(yè)“搭便車”的行為.
按照商業(yè)銀行相關(guān)規(guī)定,參與聯(lián)保的企業(yè)如果想續(xù)貸,則需要參與各方清償所有貸款,否則將不再批準(zhǔn)所有小組成員企業(yè)新的融資申請(qǐng). 因此,在現(xiàn)行聯(lián)保貸款業(yè)務(wù)模式下,銀行只關(guān)心貸款是否按期償還,并不在意由聯(lián)保的哪些組員償還. 只要貸款被還清,所有參與企業(yè)均可享受銀行的再融資,否則均將面臨斷貸的風(fēng)險(xiǎn). 這種無差別化的業(yè)務(wù)模式,造成了部分“搭便車”失信企業(yè)享受了其他守信企業(yè)由于按期償清貸款銀行提供繼續(xù)再融資的紅利,卻沒有付出任何成本,導(dǎo)致聯(lián)保貸款傳統(tǒng)業(yè)務(wù)模式的失效,而這種業(yè)務(wù)模式中參與方之間的博弈類似于“智豬博弈”.
2.2.1 模型假設(shè)為了簡化問題,假設(shè)參與聯(lián)保貸款的企業(yè)為甲企業(yè)和乙企業(yè),博弈模型要素設(shè)定如下:
1)參與方:i∈Γ,Γ=(1、2、3…n),組成聯(lián)保貸款小組的中小企業(yè). 將參與方分為兩類,一類是還款意愿較為強(qiáng)烈的中小企業(yè)甲,另一類是“搭便車”意愿強(qiáng)烈的中小企業(yè)乙,還款概率表示為P甲>P乙,并假設(shè)甲乙雙方聯(lián)合向商業(yè)銀行申請(qǐng)貸款,且甲的盈利能力大于乙.
2)策略:Si=(si1,si2,si3…in). 本模型假設(shè)有兩個(gè)參與方,且參與方有兩種策略選擇,即選擇清償貸款或不清償,不清償即為違約逃債.
3)收益矩陣:Ri=ri(s1,s2,s3…,sn),i∈Γ,ri表示參與方i在選擇某個(gè)策略si時(shí)的收益,即聯(lián)保企業(yè)在選擇清償貸款和違約逃債時(shí)的收益.
2.2.2 收益博弈分析基于上述假設(shè),對(duì)博弈模型中的參數(shù)進(jìn)行設(shè)定:
1)甲盈利能力強(qiáng)于乙,因此在相同貸款金額的情況下,甲獲得M單位銀行貸款的收益E甲大于乙的收益E乙,即E甲>E乙;
2)聯(lián)保貸款的實(shí)際貸款執(zhí)行利率為r,假設(shè)商業(yè)銀行資金為C,為了追求利潤最大化,則有MR=MC,即M*r=C.
3)當(dāng)甲乙都償還貸款時(shí),甲收益為E甲-M*r,乙收益為E乙-M*r;當(dāng)甲償還貸款而乙違約逃債時(shí),甲的收益為E甲-2M*r,乙為E乙;當(dāng)企業(yè)甲違約逃債而乙償還貸款時(shí),甲的收益為E甲,乙為E乙-2M*r;當(dāng)甲、乙雙方均違約時(shí),即沒有任何一方愿意償還貸款,此時(shí)效用最小,為了簡化博弈模型,兩者收益設(shè)定為0. 博弈雙方收益矩陣如表1,可以看出,本博弈的納什均衡解為甲“償還貸款”和乙“搭便車”.
表1聯(lián)保企業(yè)償還貸款的博弈模型
甲企業(yè)乙企業(yè)償還貸款搭便車償還貸款E甲-M*r,E乙-M*rE甲-2M*r,E乙搭便車E甲,E乙-2M*r0,0
表2新聯(lián)保企業(yè)償還貸款的博弈模型
甲企業(yè)乙企業(yè)償還貸款搭便車償還貸款E甲-M*r+H,E乙-M*r+HE甲-2M* r+H,E乙-H搭便車E甲-H,E乙-2M*r+H0,0
要使“聯(lián)保機(jī)制”有效,聯(lián)保貸款發(fā)揮最大效益,只有甲乙雙方都選擇償還才可以實(shí)現(xiàn). 因此,應(yīng)引入適當(dāng)?shù)暮献鳈C(jī)制,差別化對(duì)待償還款企業(yè)和違約企業(yè). 本文將“信用等級(jí)制度”引入模型,信用等級(jí)越高說明信用狀況越好,未來可以獲得銀行融資收益越大. 假設(shè)H表示信用收益貼現(xiàn)值,即企業(yè)在當(dāng)前信用等級(jí)下,商業(yè)銀行融資規(guī)模帶來的未來收益貼現(xiàn)值,用來衡量信用等級(jí)上升或者下降未來帶來的收益或損失. 在新的業(yè)務(wù)模式下,對(duì)于按期償還貸款的企業(yè),銀行給予提升信用等級(jí)的獎(jiǎng)勵(lì),即在模型收益矩陣中相應(yīng)的增加收益貼現(xiàn)值(H),減少償債企業(yè)“償還貸款”成本;對(duì)于違約逃債的企業(yè),銀行給予降低其信用等級(jí)的懲罰,即在模型收益矩陣中相應(yīng)地減少收益貼現(xiàn)值(H),增加逃債企業(yè)“搭便車”成本,從而對(duì)其再融資進(jìn)行限制,約束逃債行為.
通過信用等級(jí)約束制度的引入,企業(yè)“償還貸款”的收益增加,“違約逃債”的成本也增加,新的博弈模型如表2. 由于信用等級(jí)的提升或者降低幅度是有限的,因此本文假設(shè)在新的博弈模型下不可能出現(xiàn)(償還貸款,償還貸款)策略的納什均衡.
傳統(tǒng)博弈論的基本假設(shè)為博弈方均為理性的,而在現(xiàn)實(shí)中是難以實(shí)現(xiàn)的. 因?yàn)椴┺牡囊环讲粌H要保證自身理性而且也要保證對(duì)手理智和不沖動(dòng),因此各方難以達(dá)到完全理性的狀態(tài),納什均衡在這種狀況下難以實(shí)現(xiàn),應(yīng)當(dāng)充分考慮博弈方非理性的狀況,即建立有限理性的博弈分析框架.
對(duì)于償還貸款,參與企業(yè)采取的策略,也將對(duì)銀行授信額度和其他企業(yè)的反應(yīng)等環(huán)境因素造成影響. 而環(huán)境又會(huì)反作用于企業(yè),影響其下一步的策略選擇,如此迭代直至產(chǎn)生最優(yōu)策略,即為馬爾科夫決策過程;并且在與環(huán)境交互過程中,聯(lián)保貸款企業(yè)具有自主學(xué)習(xí)能力. 因此,將聯(lián)保企業(yè)償還貸款的博弈模型置入強(qiáng)化學(xué)習(xí)框架中,用強(qiáng)化學(xué)習(xí)算法研究新的聯(lián)保貸款業(yè)務(wù)模式下博弈各方償還貸款的概率.
馬爾科夫決策過程是刻畫強(qiáng)化學(xué)習(xí)中環(huán)境的標(biāo)準(zhǔn)形式,可以用如下序列表示.
智能體位于狀態(tài)s0,執(zhí)行一個(gè)動(dòng)作a0進(jìn)入s1狀態(tài),環(huán)境給出了r1的反饋獎(jiǎng)勵(lì),后由狀態(tài)s1進(jìn)入狀態(tài)s2,環(huán)境又給出了r2的反饋獎(jiǎng)勵(lì),依次迭代直至終止?fàn)顟B(tài). 強(qiáng)化學(xué)習(xí)算法是研究強(qiáng)化學(xué)習(xí)的主要算法之一,在實(shí)際應(yīng)用中較為廣泛和普遍. 強(qiáng)化學(xué)習(xí)求解的基本原理[13]是:給定一個(gè)有限離散的馬爾科夫決策過程MDP={S,A,Pr,P,γ},其中s∈S表示智能體所處狀態(tài),a∈A表示智能體采取的動(dòng)作,Pr表示狀態(tài)轉(zhuǎn)移的概率,P表示從當(dāng)前狀態(tài)運(yùn)動(dòng)到下一狀態(tài)所獲得的獎(jiǎng)勵(lì),γ表示衰退系數(shù),γ∈[0,1]. 首先生成初始狀態(tài)s,再尋找到一個(gè)最優(yōu)策略л*,使得其動(dòng)作價(jià)值函數(shù)值(強(qiáng)化值)最大,即策略優(yōu)化過程. 在每個(gè)狀態(tài)采取行動(dòng)之后,系統(tǒng)將根據(jù)選擇的最佳л*計(jì)算Qл值,即策略評(píng)估,求解過程即為策略優(yōu)化和策略評(píng)估的交替迭代中優(yōu)化參數(shù)的過程[14]. 因此,要求得智能體位于狀態(tài)s時(shí),按照策略л*采取行動(dòng)a后,在未來所獲得反饋值的期望,需要引入動(dòng)作價(jià)值函數(shù)的貝爾曼方程:
博弈參與方的目標(biāo)是自身利益最大化,即實(shí)現(xiàn)maxaQл(s,a). 在策略優(yōu)化和評(píng)估過程中,基于時(shí)序差分的算法被提出,即智能體首先隨機(jī)初始化Q(s,a),在時(shí)間t時(shí),根據(jù)當(dāng)前Q值進(jìn)行策略優(yōu)化,選擇某一行動(dòng)觀察執(zhí)行該行動(dòng)后的瞬時(shí)回報(bào)R,再根據(jù)Q值迭代關(guān)系式進(jìn)行策略評(píng)估和更新Q值,表達(dá)式為
Qt+1(s,a)=(1-αt)Qt(s,a)+αt[rt+λmaxQtb(s′,b)]
其中α∈[0,1],表示學(xué)習(xí)效率,當(dāng)αt隨著時(shí)間減小時(shí),該算法迅速收斂;b表示在新策略下執(zhí)行下一個(gè)動(dòng)作.
本文以建立強(qiáng)化學(xué)習(xí)優(yōu)化模型作為分析框架,利用算例說明企業(yè)在聯(lián)保貸款業(yè)務(wù)模式優(yōu)化博弈中償還貸款行為的出現(xiàn)頻率,對(duì)比分析新的機(jī)制對(duì)于企業(yè)選擇償還貸款次數(shù)選擇的影響,新舊博弈模型的支付矩陣分別如表3、4所示. 在新模型中,引入信用收益貼現(xiàn)值,當(dāng)企業(yè)選擇償還貸款時(shí),給予新增3個(gè)單位的收益獎(jiǎng)勵(lì);當(dāng)選擇違約逃債時(shí),給予減少3個(gè)單位收益的懲罰.
表3 舊博弈模型的支付矩陣
表4進(jìn)化博弈模型的支付矩陣
甲企業(yè)乙企業(yè)償還貸款搭便車償還貸款11,99,5搭便車7,70,0
可以看出,任何理性博弈方都會(huì)選擇“搭便車”的占優(yōu)策略. 然而,為了實(shí)現(xiàn)收益最大化,博弈方將會(huì)選擇償還貸款. 于是,將強(qiáng)化學(xué)習(xí)算法置于博弈模型中,智能體設(shè)定為甲、乙兩個(gè)企業(yè),狀態(tài)設(shè)定為甲乙雙方行動(dòng)組合,智能體通過與環(huán)境的交互學(xué)習(xí),尋找到優(yōu)化模型中的最優(yōu)策略. 博弈方執(zhí)行某個(gè)行動(dòng)之后的即時(shí)回報(bào)可以由支付矩陣得到,最后博弈方的累計(jì)博弈總期望可以用與當(dāng)前狀態(tài)和行動(dòng)都相關(guān)的動(dòng)作價(jià)值函數(shù)表示,動(dòng)作價(jià)值函數(shù)通過強(qiáng)化值進(jìn)行儲(chǔ)存. 因此,強(qiáng)化值代表博弈方在當(dāng)前狀態(tài)下選擇最優(yōu)策略采取行動(dòng)后最大化收益期望. 基于強(qiáng)化學(xué)習(xí)的兩個(gè)智能體進(jìn)化博弈模型的迭代策略算法如下:
步驟1 令t=0,Q=0,智能體(博弈雙方)隨機(jī)產(chǎn)生前兩步行動(dòng);
步驟2 通過前兩次策略的選擇,確定博弈方的狀態(tài)S,用概率函數(shù)(2)計(jì)算選擇下一步行動(dòng)的概率,并進(jìn)行比較確定下一步的行動(dòng);
步驟3 利用動(dòng)作價(jià)值函數(shù)迭代表達(dá)式(4)對(duì)Q值進(jìn)行更新;
步驟4 轉(zhuǎn)入步驟2,令t=t+1,繼續(xù)迭代,直到收斂為止.
經(jīng)過40步的迭代,Q值誤差趨于收斂,停止迭代,得到Q值迭代曲線如圖1所示.
圖1 強(qiáng)化學(xué)習(xí)博弈模型中強(qiáng)化值迭代圖
本文設(shè)定博弈模型中γ=0.8,重復(fù)300博弈次數(shù). 結(jié)果顯示,對(duì)于舊博弈模型來說,甲乙雙方選擇“償還貸款”次數(shù)為99次;而在新博弈模型中,雙方選擇“償還貸款”次數(shù)高達(dá)242次,直至最終策略穩(wěn)定于“償還貸款”,沒有任何博弈方選擇“搭便車”. 表明進(jìn)化后的博弈模型讓聯(lián)保貸款參與企業(yè)更愿意選擇償還貸款,聯(lián)保貸款業(yè)務(wù)模式更優(yōu)化、有效. 也就是說,“信用等級(jí)制度”的引入,使得企業(yè)“搭便車”違約逃債的成本更高,一次違約逃債將會(huì)影響其在銀行系統(tǒng)的信用等級(jí). 信用等級(jí)降低,違約企業(yè)很可能面臨無法再融資的局面. 企業(yè)在不斷的試錯(cuò)和環(huán)境交互中,逐步放棄“搭便車”而選擇“償還貸款”這一策略;另一方面,按時(shí)還款還可以償債企業(yè)提升其信用等級(jí),增加其在銀行的融資規(guī)模,提升了融資收益,也將進(jìn)一步激發(fā)“償還貸款”的意愿. 因此,優(yōu)化后的聯(lián)保貸款業(yè)務(wù)模式可以有效地實(shí)現(xiàn)償還貸款的帕累托最優(yōu)均衡.
隨著“人工智能+”模式的發(fā)展,人工智能被應(yīng)用到了各領(lǐng)域,然而“人工智能+金融”模式的研究尚未充分開發(fā). 同時(shí),聯(lián)保貸款作為我國中小企業(yè)融資的有效助力手段得到了商業(yè)銀行、中小企業(yè)以及國家的高度重視,但是其中存在的問題仍未得到有效解決. 本文利用人工智能中的強(qiáng)化學(xué)習(xí)算法解決聯(lián)保貸款中存在的“搭便車”問題;針對(duì)聯(lián)保貸款參與各方具備強(qiáng)化學(xué)習(xí)的能力,提出基于強(qiáng)化學(xué)習(xí)的演化博弈理論優(yōu)化了模型,并引入“信用等級(jí)制度”來約束聯(lián)保貸款參與各方的還款行為. 算例結(jié)果發(fā)現(xiàn),優(yōu)化后的業(yè)務(wù)模式有效地降低了博弈各方選擇違約逃債的概率,提高了聯(lián)保貸款參與各方到期償還貸款的概率.
本文對(duì)于聯(lián)保貸款參與企業(yè)的自主學(xué)習(xí)過程是利用轉(zhuǎn)移概率確定的策略調(diào)整,并未完全考慮聯(lián)保貸款參與各方的相互作用以及與環(huán)境交互的影響. 因此,利用復(fù)雜網(wǎng)絡(luò)進(jìn)化博弈研究參保企業(yè)之間的策略選擇過程是未來重要的研究方向.