□文/李憶萍
(西安財(cái)經(jīng)大學(xué)統(tǒng)計(jì)學(xué)院 陜西·西安)
[提要] 信用環(huán)境是一種普通的經(jīng)濟(jì)關(guān)系,一個(gè)城市信用環(huán)境較好,經(jīng)濟(jì)也將快速發(fā)展,足以看出城市信用環(huán)境的重要性。本文采用統(tǒng)計(jì)學(xué)中的預(yù)測(cè)分析方法對(duì)城市信用環(huán)境狀況進(jìn)行預(yù)測(cè),對(duì)后期的信用環(huán)境改善起到指導(dǎo)性的作用。
我國信用評(píng)級(jí)行業(yè)是在改革開放和市場(chǎng)化進(jìn)程的背景下產(chǎn)生的,我國信用管理第一部制度產(chǎn)生于2005年。隨著信用制度和體系的逐漸完善,個(gè)人信用記錄作為進(jìn)行貸款業(yè)務(wù)的衡量標(biāo)準(zhǔn),中國人民銀行建立了信用信息記錄,并實(shí)現(xiàn)了信息共享、全國聯(lián)網(wǎng),許多省市建立了地方信用監(jiān)督平臺(tái),開展信用服務(wù)和監(jiān)督工作,為我國經(jīng)濟(jì)發(fā)展和良好信用環(huán)境提供保證。
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,交易方式發(fā)生了翻天覆地的變化,從現(xiàn)金支付到線上支付。近年來,“貸款買車”“貸款買房”“螞蟻花唄”“分期付款”等字眼到處可見,這就對(duì)信用評(píng)價(jià)有了更高的要求,若大量的銀行貸款逾期無法收回,將會(huì)給金融系統(tǒng)帶來嚴(yán)重的風(fēng)險(xiǎn),對(duì)社會(huì)經(jīng)濟(jì)生活造成嚴(yán)重危害。信用秩序混亂將會(huì)阻礙經(jīng)濟(jì)的發(fā)展,所以良好的信用環(huán)境對(duì)推動(dòng)一個(gè)國家經(jīng)濟(jì)發(fā)展至關(guān)重要,構(gòu)建一個(gè)誠信、友好、和諧、健康的信用環(huán)境是時(shí)代所需要的。
劉昕雨、彭含月、郭永娜對(duì)十堰市鄖西縣店子鎮(zhèn)北山溝村的金融精準(zhǔn)扶貧信用環(huán)境進(jìn)行分析與研究,采用調(diào)查問卷方式了解精準(zhǔn)扶貧的信用狀況,再基于聯(lián)機(jī)分析處理和SPSS卡方檢驗(yàn)的信用環(huán)境評(píng)價(jià),分析當(dāng)前存在的問題,并提出優(yōu)化信用環(huán)境的對(duì)策。葉陳毅、陳依萍等以國家政策和大數(shù)據(jù)為背景探討構(gòu)建京津冀信用環(huán)境評(píng)價(jià)指標(biāo),根據(jù)實(shí)地調(diào)研選擇指標(biāo),從區(qū)域經(jīng)濟(jì)、金融體系、文化教育、信息技術(shù)、行政管理五個(gè)方面進(jìn)行指標(biāo)構(gòu)建,利用因子分析法得到了三個(gè)主成分,分別為經(jīng)濟(jì)行政因子、信息教育因子、經(jīng)濟(jì)金融因子,進(jìn)而進(jìn)行了信用評(píng)價(jià)并提出合適的建議。解恒鑫首先針對(duì)山東省數(shù)據(jù)建立了評(píng)價(jià)體系,再分別采用層次法和因子分析法進(jìn)行信用狀況排序和關(guān)鍵因素提取,得出一個(gè)地區(qū)的信用環(huán)境狀況與經(jīng)濟(jì)發(fā)展、社會(huì)環(huán)境、人文素養(yǎng)、地理位置有著密切的關(guān)系,再根據(jù)分析結(jié)果對(duì)構(gòu)建良好信用環(huán)境提出建議。
在閱讀大量關(guān)于信用環(huán)境方面的文獻(xiàn)后,發(fā)現(xiàn)信用環(huán)境對(duì)于經(jīng)濟(jì)發(fā)展起著至關(guān)重要的作用,國家必須重視起來。在信用環(huán)境應(yīng)用的大量文獻(xiàn)中,大多數(shù)研究人員利用因子分析來研究某一指標(biāo)對(duì)信用評(píng)價(jià)的作用,再根據(jù)這些指標(biāo)對(duì)城市信用環(huán)境提出合理的建議。但是,本文強(qiáng)調(diào)分類預(yù)測(cè)的重要性,如果提前預(yù)測(cè)將會(huì)發(fā)生的事情并進(jìn)行改善,那么事情的結(jié)果就會(huì)不一樣。
(一)數(shù)據(jù)來源。本文選擇訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分別為中國31個(gè)?。▍^(qū)、市)2017年數(shù)據(jù)和2018年11個(gè)省市數(shù)據(jù),數(shù)據(jù)來源于中國統(tǒng)計(jì)局官網(wǎng)以及各省的統(tǒng)計(jì)官網(wǎng)對(duì)應(yīng)年份的統(tǒng)計(jì)年鑒。
(二)信用環(huán)境評(píng)價(jià)體系分解分析。(表1)本文從政治、經(jīng)濟(jì)、金融、文化、個(gè)人、企業(yè)這六個(gè)維度進(jìn)行體系構(gòu)建,共選擇23個(gè)三級(jí)指標(biāo),評(píng)價(jià)體系分解如下:
表1 指標(biāo)體系匯總表
1、經(jīng)濟(jì)指標(biāo)。評(píng)價(jià)一個(gè)地區(qū)的經(jīng)濟(jì)狀況和綜合實(shí)力都需要一定的經(jīng)濟(jì)指標(biāo)。區(qū)域GDP是衡量城市經(jīng)濟(jì)狀況的必要指標(biāo),所以選擇區(qū)域GDP、人均地區(qū)生產(chǎn)總值;同時(shí),還選取固定資產(chǎn)投資、社會(huì)消費(fèi)品零售額、進(jìn)出口總額指標(biāo),并分別計(jì)算與GDP的比值。
2、金融指標(biāo)。金融借貸作為信用評(píng)價(jià)的重要方面,金融又是推動(dòng)經(jīng)濟(jì)發(fā)展的核心產(chǎn)業(yè),它的規(guī)模和結(jié)構(gòu)可以反映出經(jīng)濟(jì)運(yùn)行的狀況。因此,分別選取金融機(jī)構(gòu)各項(xiàng)貸款總額與存款的比值、短期貸款總額、中長期貸款總額、金融業(yè)增加值這四個(gè)指標(biāo)。
3、政府指標(biāo)。政治信用對(duì)社會(huì)信用影響程度較大,它將直接影響公共服務(wù)的質(zhì)量。政府指標(biāo)選擇地方財(cái)政收入、地方財(cái)政支出、固定資產(chǎn)投資國家預(yù)算內(nèi)資金,分別計(jì)算收入與支出占GDP比重。
4、文化指標(biāo)。文化是衡量國家軟實(shí)力的指標(biāo),地區(qū)人民的文化程度越高,信用評(píng)價(jià)也會(huì)越高,所以本文選取教育和信息兩個(gè)方面進(jìn)行指標(biāo)構(gòu)建,選取的指標(biāo)有:普通高等學(xué)校在校學(xué)生數(shù)、國家財(cái)政性教育經(jīng)費(fèi)占地方財(cái)政支出比重、年末互聯(lián)網(wǎng)寬帶接入用戶、移動(dòng)電話年末用戶和信息傳輸、計(jì)算機(jī)服務(wù)和軟件業(yè)固定資產(chǎn)投資。
5、個(gè)人指標(biāo)。每個(gè)公民都應(yīng)該為構(gòu)建良好信用環(huán)境共同努力。我國經(jīng)濟(jì)具有顯著的城鄉(xiāng)二元特點(diǎn),應(yīng)立足于農(nóng)村和城鎮(zhèn)兩個(gè)方面考慮指標(biāo)。選取的指標(biāo)有:農(nóng)村個(gè)人消費(fèi)支出占人均可支配收入比重、城鎮(zhèn)個(gè)人消費(fèi)支出占人均可支配收入比重和居民消費(fèi)水平。
6、企業(yè)指標(biāo)。國家的經(jīng)濟(jì)發(fā)展離不開企業(yè),并且企業(yè)的信用直接影響城市信用,因此它是構(gòu)建信用環(huán)境評(píng)價(jià)的重要部分。企業(yè)真實(shí)的信用狀況可以通過信用評(píng)價(jià)的高低直接反映,為決策部門提供可靠的依據(jù)。則選取的指標(biāo)為:工業(yè)增加值、規(guī)模以上工業(yè)企業(yè)資產(chǎn)總額和工業(yè)負(fù)債總額以及規(guī)模以上工業(yè)企業(yè)單位數(shù)。
(一)K均值聚類法。K均值聚類法是一特殊的非譜系過程,又稱為“快速聚類法”。這種聚類方法的思想是把每個(gè)樣品聚集到最近均值類中。實(shí)際上是一種人為指定凝聚點(diǎn),采取就近原則來進(jìn)行分類。此方法的特點(diǎn)是通過K的數(shù)值來將數(shù)據(jù)進(jìn)行快速分類。
此過程由三步組成:將樣品粗略的分成K類;逐個(gè)分派樣品到最近均值的類中,這里采用歐式距離來計(jì)算,并且要不斷計(jì)算接受和失去樣品類的均值;一直重復(fù),直到無元素改變。
算法的決策:給定一個(gè)n個(gè)m維的數(shù)據(jù)集X和要分的類別數(shù)K選取距離作為相似度指標(biāo),聚類目標(biāo)是使得各類的聚類平方和最小,即:
最小化,在迭代時(shí),聚類中心盡可能不改變。
(二)K近鄰算法。K近鄰算法是常見的分類算法之一,K近鄰法的輸入為特征向量,輸出為類別,它是當(dāng)給定一個(gè)訓(xùn)練數(shù)據(jù),對(duì)新的輸入數(shù)據(jù),在訓(xùn)練數(shù)據(jù)中找到與輸入的最近的K個(gè)數(shù)據(jù),這K個(gè)實(shí)例屬于某一類,則就把該輸入數(shù)據(jù)分為這個(gè)類。模型最基本的三個(gè)要素為:距離度量、K值選擇和決策規(guī)則。
特征空間中的距離就是來反映其接近程度,一般使用的距離為歐式距離。K值的選擇會(huì)對(duì)K近鄰的分析結(jié)果產(chǎn)生很大的影響,K值的減少容易出現(xiàn)過擬合現(xiàn)象。在應(yīng)用中,K值取比較小的數(shù)值,通常采用交叉驗(yàn)證法來選取最優(yōu)的K值。
K近鄰分析的分類決策規(guī)則往往采用多數(shù)表決,多數(shù)表決規(guī)則如下:
分類函數(shù)為:
則誤分類的概率是:
誤分類率是:
要使誤分類率最小,就要使式子中最后一部分最大,所以表決規(guī)則就是風(fēng)險(xiǎn)最小化。
(一)K均值聚類在模型中的應(yīng)用。本文在使用K-means聚類時(shí),使K=3進(jìn)行數(shù)據(jù)分類。將采用SPSS軟件進(jìn)行分析。聚類分析方法在模型中應(yīng)用是將31?。▍^(qū)、市)的數(shù)據(jù)進(jìn)行信用好壞分類,為下文K近鄰算法打基礎(chǔ)。在SPSS中運(yùn)算輸出結(jié)果,如表2所示。(表2)
表2 聚類成員一覽表
由分析結(jié)果可以得出:第一類的省市有4個(gè)(江蘇省、浙江省、山東省、廣東省);第二類有4個(gè)省市(天津市、上海市、北京市、福建省);第三類有23個(gè)。
由表3中可以看出,CEI排名前十位的為:煙臺(tái)市、金華市、惠州市、佛山市、宿遷市、溫州市、廊坊市、珠海市、日照市、蘇州市,他們分別屬于山東省、浙江省、廣東省、江蘇省、河北省。這個(gè)數(shù)據(jù)是全國各城市的排名,比全省市較為精細(xì),但可以看出聚類結(jié)果與此結(jié)果較為吻合。因此,第一、第二、第三類分別為信用較好、一般、不好的省市。(表3)
表3 2017年度中國地級(jí)城市商業(yè)信用環(huán)境指數(shù)排名一覽表
(二)K近鄰算法在模型中的應(yīng)用。本文選取2018年11個(gè)省市(包括北京市、天津市、河北省、山西省、內(nèi)蒙古自治區(qū)、遼寧省、吉林省、黑龍江省、上海市、江蘇省、浙江?。┑臄?shù)據(jù)作為測(cè)試數(shù)據(jù),而訓(xùn)練數(shù)據(jù)為聚類分析的數(shù)據(jù),利用聚類分析的結(jié)果,將測(cè)試數(shù)據(jù)分為三類,確定其標(biāo)簽分別為1、2、3(1為信用環(huán)境較好、2為信用環(huán)境一般、3為信用環(huán)境不好),再用K近鄰算法進(jìn)行分類預(yù)測(cè),得出11個(gè)省市的信用環(huán)境狀況。
本文采用Python軟件進(jìn)行分析,分析步驟如下:
1、輸入與準(zhǔn)備階段。首先導(dǎo)入Numpy數(shù)學(xué)運(yùn)算庫和Pandas數(shù)據(jù)分析包,Pandas里面容納了大量庫以及數(shù)據(jù)模型,它可以提供處理數(shù)據(jù)的函數(shù)與方法。其次使用Python中機(jī)器學(xué)習(xí)庫sklearn,sklearn自帶數(shù)據(jù)集,通常是選擇相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,本文選取的是KNeighborsClassifier。最后進(jìn)行了數(shù)據(jù)的加載。代碼如圖1所示。(圖1)
圖1 數(shù)據(jù)運(yùn)算準(zhǔn)備代碼
2、模型建立。首先定義數(shù)據(jù)集的特征以及對(duì)應(yīng)的標(biāo)簽;然后將數(shù)據(jù)集分成兩部分,分別為訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù);最后引進(jìn)訓(xùn)練方法,再對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行擬合。Python代碼實(shí)現(xiàn)如圖2所示。(圖2)
圖2 模型構(gòu)建代碼
由圖2可以看出,模型擬合的準(zhǔn)確率為62.5%,這個(gè)數(shù)值較低,因此需要進(jìn)行模型優(yōu)化。
3、模型優(yōu)化。此處利用網(wǎng)絡(luò)搜索與交叉驗(yàn)證的方法進(jìn)行模型優(yōu)化。網(wǎng)絡(luò)搜索法是搜尋網(wǎng)格中的每一對(duì)超參數(shù),然后對(duì)其進(jìn)行評(píng)估,得到評(píng)估指標(biāo),進(jìn)行對(duì)比后得到最優(yōu)超參數(shù)對(duì),選出來進(jìn)行模型訓(xùn)練。對(duì)于每一對(duì)參數(shù)對(duì)進(jìn)行評(píng)估時(shí)使用交叉驗(yàn)證方法。其中,參數(shù)與特征相關(guān),超參數(shù)是對(duì)模型的整體規(guī)劃有意義的指標(biāo)。模型優(yōu)化代碼如圖3所示。(圖3)
由圖3代碼可以看出:分析過程是將最近鄰算法、KDtree的二叉樹樹形結(jié)構(gòu)、balltree的球形樹結(jié)構(gòu)和暴力破解(brute-force)算法組合建立參數(shù),再進(jìn)行交叉驗(yàn)證五次,得到最佳模型。模型優(yōu)化后的準(zhǔn)確率為91.3%,證明模型良好,可以進(jìn)行分類預(yù)測(cè)。
圖3 模型優(yōu)化代碼
4、模型預(yù)測(cè)。直接采用上面的最佳模型進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果直接導(dǎo)出Excel形式。代碼如圖4所示。(圖4)
圖4 模型預(yù)測(cè)代碼
運(yùn)用最佳模型進(jìn)行分類預(yù)測(cè),最后得到的分類結(jié)果如表4所示。(表4)
表4 分類預(yù)測(cè)結(jié)果一覽表
由表4可以看出,在預(yù)測(cè)的省市中,信用較好的省市有3個(gè),為河北省、江蘇省、浙江省。然而,在2018年國家信息中心中經(jīng)網(wǎng)發(fā)布的全國城市信用狀況監(jiān)測(cè)數(shù)據(jù)顯示,5個(gè)省位位列第一梯度,分別為江蘇省、浙江省、廣東省、山東省、湖北省。由此數(shù)據(jù)可以看出,K近鄰分析方法分類預(yù)測(cè)結(jié)果較好。
(一)采用K均值聚類分析方法,將K設(shè)置成3對(duì)2017年全國31個(gè)?。▍^(qū)、市)根據(jù)信用環(huán)境評(píng)價(jià)進(jìn)行聚類,分類結(jié)果為江蘇省、山東省、廣東省、浙江省為信用環(huán)境較好城市。
(二)使用2018年11個(gè)省市的數(shù)據(jù)作為測(cè)試數(shù)據(jù),再利用31個(gè)省(區(qū)、市)的數(shù)據(jù)作為K近鄰分析方法中的訓(xùn)練數(shù)據(jù),根據(jù)模型進(jìn)行分類預(yù)測(cè),得出:河北省、江蘇省、浙江省為信用較好的城市。
(三)采用此方法可以提前進(jìn)行分類預(yù)測(cè),得出城市的信用環(huán)境狀況,就此可以采取一系列的措施進(jìn)行改善,以達(dá)到構(gòu)建和諧信用環(huán)境的目的。
應(yīng)進(jìn)一步發(fā)揮信用環(huán)境狀況較好城市的引領(lǐng)作用。等級(jí)落后的城市應(yīng)積極向其他城市學(xué)習(xí),制定適合自己城市信用發(fā)展的政策,而等級(jí)制度較好的城市,要起到帶頭模范作用,主動(dòng)利用自身信用體系建設(shè)經(jīng)驗(yàn)幫助其他城市,并積極主張建立一體化的信用體系;提倡預(yù)測(cè)信用環(huán)境,可以從各個(gè)方面對(duì)信用環(huán)境進(jìn)行改善,確保經(jīng)濟(jì)穩(wěn)步發(fā)展。建立健全數(shù)據(jù)開放共享機(jī)制。數(shù)據(jù)共享有助于學(xué)者進(jìn)行信用環(huán)境評(píng)價(jià)的研究,對(duì)信用環(huán)境的評(píng)價(jià)提供科學(xué)理論的支撐。同時(shí),數(shù)據(jù)的公開透明對(duì)信用環(huán)境具有一定的監(jiān)督作用。