蔡皎潔 劉姣華
(1 湖北工程學(xué)院經(jīng)濟與管理學(xué)院,湖北 孝感 432000;2 湖北小微企業(yè)發(fā)展研究中心 湖北 孝感 432000)
習(xí)近平總書記在2017年“一帶一路”論壇開幕式和第五次全國金融工作會議上進(jìn)一步強調(diào)金融科技創(chuàng)新及發(fā)展數(shù)字普惠金融的重要性。有效實施數(shù)字普惠金融減貧,關(guān)鍵是要精準(zhǔn)定位扶貧對象的金融需求心理,做好金融服務(wù)與需求內(nèi)容的精準(zhǔn)匹配。傳統(tǒng)的因果分析路徑由于指標(biāo)的設(shè)定過于陳舊、繁雜且主觀化,使多數(shù)研究成果過于泛化、無創(chuàng)新性。隨著數(shù)據(jù)挖掘、深度學(xué)習(xí)等技術(shù)的發(fā)展,大數(shù)據(jù)分析成為全新的數(shù)據(jù)分析視角和途徑,通過無監(jiān)督學(xué)習(xí)發(fā)現(xiàn)海量、多結(jié)構(gòu)化數(shù)據(jù)中潛在的知識規(guī)則,利用大數(shù)據(jù)分析可有效獲取未知的指標(biāo)及其相關(guān)關(guān)系,為實證分析提供科學(xué)依據(jù),提高因果關(guān)系分析的質(zhì)量。因此,綜合大、小數(shù)據(jù)分析的優(yōu)劣勢,通過融合分析的方法,有效獲取數(shù)字普惠金融減貧供給與需求的精準(zhǔn)匹配規(guī)則,在研究方法和研究內(nèi)容上具有一定的創(chuàng)新性。
目前國內(nèi)外對小數(shù)據(jù)的定義并沒有統(tǒng)一的標(biāo)準(zhǔn),綜合文獻(xiàn)有兩種觀點:一是認(rèn)為小數(shù)據(jù)就是樣本數(shù)據(jù),即通過傳統(tǒng)調(diào)查的方式所獲取的數(shù)據(jù);另一種觀點認(rèn)為小數(shù)據(jù)是針對個體的個性化信息數(shù)據(jù)[1]。本文對小數(shù)據(jù)的定義為樣本數(shù)據(jù),基于理論指導(dǎo)主觀設(shè)計的數(shù)據(jù)。
大數(shù)據(jù)挖掘與小數(shù)據(jù)分析在應(yīng)用價值上各有所側(cè)重。Graham等[2]、Richard[3]認(rèn)為大數(shù)據(jù)挖掘的價值在于可以發(fā)現(xiàn)傳統(tǒng)統(tǒng)計手段無法精確預(yù)測的大數(shù)據(jù)中所隱藏的現(xiàn)象間相關(guān)關(guān)系,但是卻難以說明這些現(xiàn)象間具體的因果關(guān)系。秦蕭等提出大數(shù)據(jù)分析重相關(guān)關(guān)系、輕因果關(guān)系的研究范式,使得傳統(tǒng)計量統(tǒng)計和質(zhì)性研究方法受到忽視[4]。但李金昌提出小數(shù)據(jù)分析是在大數(shù)據(jù)環(huán)境下對特定問題提供個性化服務(wù)或?qū)で笠蚬P(guān)系的依據(jù)[1]。國內(nèi)外多數(shù)學(xué)者反復(fù)強調(diào)大數(shù)據(jù)挖掘與小數(shù)據(jù)分析兩者的關(guān)系是相輔相成、相互補充,且相互驗證及佐證。
目前最權(quán)威、使用最為廣泛的普惠金融評價指標(biāo)體系是全球金融普惠指數(shù)(GFCI)體系,該指標(biāo)體系包含7個維度及47個核心指標(biāo),由世界銀行于2012年經(jīng)由全球性金融需求調(diào)查提出[5]。Sarma從金融機構(gòu)滲透度、金融服務(wù)可獲得性和使用情況3個方面構(gòu)建普惠金融發(fā)展指數(shù)(IFI),成為后期研究的基礎(chǔ)[6]。Gupte等加入普惠金融產(chǎn)品與服務(wù)使用情況和易用性2個維度[7]。Chakravarty和Pal又加入了包容性維度[8]。Rahman增加了金融服務(wù)的使用效率和滿意度等維度[9]。上述指標(biāo)體系的構(gòu)建基于問卷調(diào)查及專家經(jīng)驗法,并使用線性功效函數(shù)法和指數(shù)功效函數(shù)法對普惠金融指標(biāo)數(shù)據(jù)進(jìn)行無量綱化。Sama[10]、焦瑾璞等[11]采用的是線性功效函數(shù)法計算普惠金融指標(biāo)。伍旭川等分析了線性功效函數(shù)的缺陷,采用指數(shù)型功效函數(shù)來計算指標(biāo)[12]。北京大學(xué)互聯(lián)網(wǎng)金融研究中心針對數(shù)字金融迅速擴張的特點,采用對數(shù)型功效函數(shù)法來處理指標(biāo)數(shù)據(jù)。
縱觀國內(nèi)外對數(shù)字普惠金融減貧的定量化研究,循環(huán)采用陳舊評價指標(biāo),研究結(jié)果未免雷同。隨著金融科技的發(fā)展,數(shù)字普惠金融減貧的研究思路也需要與時俱進(jìn),利用大數(shù)據(jù)挖掘,不斷精確化實證分析的過程和結(jié)論。
基于信息科技發(fā)展的數(shù)字普惠金融減貧具備大數(shù)據(jù)發(fā)掘的優(yōu)勢,從海量數(shù)據(jù)中可預(yù)測數(shù)字普惠金融減貧實施過程中事務(wù)或事物之間的關(guān)聯(lián)關(guān)系,透過現(xiàn)象看本質(zhì)。進(jìn)一步分析關(guān)聯(lián)關(guān)系現(xiàn)象背后隱藏的因果關(guān)系,需要樣本小數(shù)據(jù)的參與,改進(jìn)以往僅采用小數(shù)據(jù)的實證分析中指標(biāo)陳舊、粒度過大、不夠全面等不足,提升數(shù)字普惠金融減貧策略的質(zhì)量。融合大、小數(shù)據(jù)分析的數(shù)字普惠金融減貧策略框架見圖1。
圖1 融合大、小數(shù)據(jù)的數(shù)字普惠金融減貧可計算策略框架
核心問題可歸結(jié)為以下要點:在一定的閾值R(R=滿意度/風(fēng)險度)范圍內(nèi),尋找最優(yōu)T(T=<需求,供給>)值,T值的計算是復(fù)雜統(tǒng)計指標(biāo)分析過程,既包括因果關(guān)系分析,又包含其他復(fù)雜相關(guān)關(guān)系分析。通過大、小數(shù)據(jù)分析的融合,實現(xiàn)數(shù)字普惠金融減貧需求與供給之間的精準(zhǔn)匹配,才能有效達(dá)到精準(zhǔn)扶貧的目標(biāo)。
首先,利用大數(shù)據(jù)挖掘影響因素指標(biāo)及之間的相關(guān)關(guān)系?;谏疃葘W(xué)習(xí)方法,實現(xiàn)影響因素指標(biāo)的量化,建立卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類預(yù)測模型,對貧困戶金融需求數(shù)據(jù)實現(xiàn)深度挖掘和分析。其次,在相關(guān)關(guān)系分析結(jié)果的基礎(chǔ)上,進(jìn)一步利用實證分析獲取影響因素指標(biāo)間的因果關(guān)系,其中不同概念粒度間的相關(guān)關(guān)系,可為因果關(guān)系分析提供理論假設(shè)的素材,避免以往的重復(fù)性及陳舊度。
首先,利用大數(shù)據(jù)挖掘方法,獲取數(shù)字普惠金融減貧供給統(tǒng)計指標(biāo)的影響因素指標(biāo)及之間的相關(guān)關(guān)系,具體根據(jù)數(shù)據(jù)量的大小、結(jié)構(gòu)分布、向量稀疏性等來選擇數(shù)據(jù)挖掘算法;其次,在相關(guān)關(guān)系挖掘結(jié)果的基礎(chǔ)上,設(shè)立假設(shè)論證,實現(xiàn)影響因素指標(biāo)間因果關(guān)系分析。
參考數(shù)字普惠金融減貧產(chǎn)品與服務(wù)全局概念本體,對所獲取的貧困戶金融需求概念集和數(shù)字普惠金融減貧供給概念集,再次挖掘和集成,形成匹配概念視圖,圖中節(jié)點及節(jié)點關(guān)系賦值滿意度和風(fēng)險度,利用挖掘和集成結(jié)果,及相關(guān)語義相似度計算方法,參考專家建議,進(jìn)行滿意度和風(fēng)險度計算。
最優(yōu)T值,是滿足概念節(jié)點及節(jié)點間關(guān)系滿意度高而風(fēng)險度低的連續(xù)路徑均值。對匹配后的概念樹實現(xiàn)遍歷,通過深度優(yōu)先遍歷算法,發(fā)現(xiàn)滿足R值的節(jié)點范圍,T值為范圍內(nèi)節(jié)點間的路徑最短,該路徑即為給出具體策略建議的可計算路徑。
通過爬蟲和調(diào)查問卷相結(jié)合的方式,從貧困戶實地走訪、數(shù)字普惠金融減貧機構(gòu)網(wǎng)站、相關(guān)社交平臺等多個渠道收集數(shù)據(jù),通過SPSS軟件統(tǒng)計分析,了解貧困戶對數(shù)字普惠金融減貧需求用途、特征、數(shù)字普惠金融減貧獲取度等需求與供給指標(biāo)的統(tǒng)計現(xiàn)狀。
根據(jù)所收集數(shù)據(jù)中包含的對象、事物及事件進(jìn)行數(shù)據(jù)分類、集成和歸一,構(gòu)建數(shù)據(jù)倉庫,實現(xiàn)數(shù)據(jù)標(biāo)簽化管理。如某地區(qū)貧困戶金融需求為數(shù)據(jù)管理標(biāo)簽,即包含該地區(qū)貧困戶群體金融需求數(shù)據(jù),也包括貧困戶個人金融需求數(shù)據(jù),在數(shù)據(jù)標(biāo)簽化管理過程中,即要構(gòu)建群體特征數(shù)據(jù)庫,也要構(gòu)建個體特征數(shù)據(jù)庫,綜合利用文本切分詞、降維及矢量計算、二維表逆向工程等多種方法,對多元化的數(shù)據(jù)進(jìn)行集成管理。
通過大數(shù)據(jù)挖掘和小數(shù)據(jù)實證分析兩個過程反復(fù)迭代,結(jié)果相互補充,不斷完善數(shù)字普惠金融減貧需求與供給概念匹配集合,反復(fù)優(yōu)化T(T=<需求,供給>)值,獲取最優(yōu)數(shù)字普惠金融減貧路徑。
3.2.1 數(shù)字普惠金融減貧需求與供給相關(guān)關(guān)系分析
預(yù)測與挖掘粗粒度需求與供給概念對集合(X,Y)。
預(yù)測與挖掘需求概念集X、供給概念集Y的子集及其層次分類關(guān)系X
在初始本體概念樹的基礎(chǔ)上,預(yù)測和挖掘需求與供給概念體系中不同層次、不同粒度之間的分類與非分類層次關(guān)系,最終獲取需求與供給概念對集合<(x1,y1),(x2,y2),……,(xn,yn),a>,其中a值取自(X,Y)之間關(guān)系的動態(tài)值大小。
3.2.2 數(shù)字普惠金融減貧需求與供給因果關(guān)系分析
從上述大數(shù)據(jù)預(yù)測數(shù)字普惠金融減貧需求與供給概念對集合<(x1,y1),(x2,y2),……,(xn,yn),a>中,結(jié)合專家意見,取a值在一定閾值范圍內(nèi)的概念對(xi,y(i|t)),其中i,t∈(1,2,……,n),且(xi,yi)屬于同一概念粒度層,或(xi,yt)屬于不同概念粒度層。
參照需求概念集X本體樹、供給概念集Y本體樹,基于概念對(xi,y(i|t))給出的假設(shè),設(shè)置自變量、因變量和中間變量,自變量的選取來自概念集X本體樹,且利用語義相似度計算方法,選取若干個與變量xi最遠(yuǎn)、最近、或遠(yuǎn)近混合的變量為自變量;因變量為y(i|t)或在供給概念集Y本體樹中與其語義相似度相關(guān)的變量;中間變量為X∩Y,且分別與xi或y(i|t)語義相似度最小的變量。
參照領(lǐng)域本體,通過不斷修正及完善數(shù)字普惠金融減貧需求與供給概念對集合<(x1,y1),(x2,y2),……,(xn,yn),a>中的概念對及相關(guān)權(quán)值,構(gòu)建完整的數(shù)字普惠金融減貧需求與供給概念圖,計算T值,獲取滿足R值的最短路徑,即為提出數(shù)字普惠金融減貧的概念決策路徑。
通過問卷調(diào)查走訪典型用戶30家,收集有效問卷200份;通過爬蟲采集銀行網(wǎng)站信息、產(chǎn)品軟件APP評論數(shù)據(jù)、相關(guān)新聞頁面以及調(diào)研相關(guān)用戶Web使用數(shù)據(jù)等,共4 300篇文檔數(shù)據(jù),使用中國科學(xué)院計算技術(shù)研究所ICTCLAS的切分詞處理。生成詞頻矩陣。使用Word2vec中的Skip-gram模型進(jìn)行詞矩陣訓(xùn)練,然后利用TextRank構(gòu)建概念相關(guān)圖,其計算如公式(1)所示。
(1)
其中,R(wi)是詞wi的權(quán)重,O(wj)是詞wj的出度,e(wj,wi)為wj→wi邊的權(quán)值,V為詞匯節(jié)點集合,r∈[0,1]為平滑因子,通常取值0.85。TextRank算法通過相鄰節(jié)點間的迭代計算來更新邊值權(quán)重。通過迭代挖掘,形成的部分概念相關(guān)關(guān)系如圖2。
圖2 基于TextRank生成的部分概念相關(guān)關(guān)系圖
從圖2中提取滿足閾值(由專家判定)的概念對,專家設(shè)定閾值為a=0.2,構(gòu)建實證分析中的自變量與因變量指標(biāo),如表1所示。
表1 數(shù)字普惠金融減貧變量指標(biāo)集(X,Y)
參照變量指標(biāo)集(X,Y)設(shè)計問卷,分別對問卷進(jìn)行信效度和擬合度分析Cronbach′s>0.7、KMO>0.7。問卷具有較高信度和結(jié)構(gòu)效度。可見,概念相關(guān)關(guān)系圖為實證分析提供良好的假設(shè)依據(jù),且粒度層次小,更具有實證分析價值。對變量指標(biāo)進(jìn)行結(jié)構(gòu)方程分析(SEM)及標(biāo)準(zhǔn)化估計,獲取其因果關(guān)系如圖3所示。
圖3 基于SEM的變量間因果關(guān)系圖
參考領(lǐng)域本體及《知網(wǎng)》詞語相似度計算方法,將圖3與圖2進(jìn)行語義集成,實現(xiàn)T值計算。經(jīng)過集成,設(shè)R=[0.5,1],計算節(jié)點間最短相似路徑。計算結(jié)果如圖3所示。
排名靠前的主題概念及權(quán)重是:網(wǎng)絡(luò)貸款(8.17)、貸款利率(8.13)、貸款周期(7.56)、審批手續(xù)(7.43)、小額貸款(7.24)、在線供應(yīng)鏈金融(6.87)等,其T值集合有:
可見,數(shù)字普惠金融減貧需求主題概念集中的網(wǎng)絡(luò)貸款,與其屬性概念如貸款利率、貸款周期等有著緊密關(guān)系。
實驗結(jié)果要比傳統(tǒng)實證分析中單一的因果關(guān)系圖,更接近實際值。其檢測結(jié)果如圖4所示。
圖4 融合大小數(shù)據(jù)分析與僅基于小數(shù)據(jù)分析的MAP對比圖
MAP是能夠融合P值(準(zhǔn)確率)和R值(召回率)的一個全面評價指標(biāo),曲線向上突出,證明與實際數(shù)據(jù)擬合程度較好。由圖可見,虛線效果較優(yōu),證明本文所提的研究框架與方法有效,并且分析性能有所提高。
本文從大數(shù)據(jù)分析和小數(shù)據(jù)分析各自的優(yōu)缺點出發(fā),提出融合大、小數(shù)據(jù)分析的數(shù)字普惠金融減貧可計算研究框架和具體研究方法,并針對性地進(jìn)行實驗設(shè)計。實驗結(jié)果表明,對比僅基于小數(shù)據(jù)的因果關(guān)系分析,融合大數(shù)據(jù)的相關(guān)關(guān)系發(fā)現(xiàn),可提升小數(shù)據(jù)因果關(guān)系分析中指標(biāo)的細(xì)化、全面性和創(chuàng)新性。后期,還要進(jìn)一步優(yōu)化相關(guān)算法及大、小數(shù)據(jù)集成的方案。