劉春 蔡紅波 鄭瓊
一、大數(shù)據(jù)背景下城市信用監(jiān)測工作概述
(一)工作背景
為貫徹落實《國務院關于印發(fā)社會信用體系建設規(guī)劃綱要(2014-2020年)》(國發(fā)〔2014〕21號),按照《國務院辦公廳關于運用大數(shù)據(jù)加強對市場主體服務和監(jiān)督的若干意見》(國辦發(fā)〔2015〕51號)和《國家發(fā)展改革委辦公廳關于運用大數(shù)據(jù)技術開展城市信用監(jiān)測工作的通知》(發(fā)改辦財金〔2016〕1469號)有關要求,充分應用大數(shù)據(jù)技術,有效評價區(qū)縣城市信用建設水平和成效,培育文明誠信的城市環(huán)境,加強推進城市信用體系建設工作,提升城市軟實力,重慶市于2018年建立了全市信用狀況監(jiān)測預警系統(tǒng),對全市40個區(qū)縣城市開展在線監(jiān)測評價。
(二)總體思路
區(qū)縣城市監(jiān)測工作通過大數(shù)據(jù)智能化技術,圍繞全市各區(qū)縣在政務誠信、商務誠信、社會誠信、司法公信和信用工作情況等5個方面,開展區(qū)縣城市信用狀況監(jiān)測預警,科學客觀地評價各區(qū)縣信用建設水平和成效,定期披露區(qū)縣城市信用監(jiān)測排名。主要包括4個步驟:一是開展監(jiān)測指標設計,包括信用監(jiān)測指標設計、監(jiān)測計算模型設計、信用監(jiān)測指標模型設計等;二是開展信用大數(shù)據(jù)監(jiān)測,包括信用平臺、互聯(lián)網(wǎng)信息和區(qū)縣上報等3類數(shù)據(jù)源信息的監(jiān)測;三是指標模型演算,包括模型算分、分值分析和統(tǒng)計匯總,形成信用狀況最終得分和排名;四是監(jiān)測結果展示,包括區(qū)縣城市信用監(jiān)測報告和信用平臺大屏系統(tǒng)展示。
二、構建基于大數(shù)據(jù)的監(jiān)測指標體系
(一)監(jiān)測指標設計目標
針對重慶市信用體系建設的現(xiàn)狀和存在的問題,為推動信用體系建設上臺階,監(jiān)測指標體系圍繞八個方面的目標進行設計。
一是鼓勵區(qū)縣政府及時披露失信事件,對失信事件及時做出處置,防止同類失信事件重復發(fā)生,預防重大失信事件發(fā)生;二是督促區(qū)縣政府加大聯(lián)合獎懲力度,促使全社會不斷增強信用意識,形成“不愿失信、主動守信”的社會風氣;三是督促區(qū)縣政府完善相關信用制度和機構建設,做好信用信息公開,增強執(zhí)政透明度,提升政府公信力;四是促進區(qū)縣政府做好信用信息歸集、共享等工作,做好社會信用體系基礎建設;五是鼓勵區(qū)縣政府積極培育信用市場,發(fā)展各類信用服務機構,推動信用服務產(chǎn)品的廣泛運用和創(chuàng)新應用;六是倡導積極的誠信文化,弘揚正義,樹立信用典型和模范,營造誠實守信的社會氛圍;七是督促各區(qū)縣關注社會主體信用缺失造成的失信風險,作好信用風險預警與防控;八是促進區(qū)縣政府改革行政管理體制,優(yōu)化營商環(huán)境。
(二)設計監(jiān)測評價指標
城市信用體系建設是一項長期的系統(tǒng)性工程,需要將長期和短期指標科學地搭配在一起。監(jiān)測指標的設計既需要政策層面的宏觀指標,也要有城市層面的中觀指標,還應有具體信用工作層面的微觀指標,是宏觀、中觀和微觀的綜合。為此,我們在指標項的設計中充分借鑒了國際上通行的信用評級指標體系設計方法,最終選擇“層次分析法”應用在我市區(qū)縣城市信用監(jiān)測指標體系設計中。
按照層次分析法,重慶市區(qū)縣城市信用監(jiān)測指標被分成4級,即由5個一級指標、40個二級指標、235個三級指標,270個四級指標。其中, 5 個一級指標分別為:政務誠信、商務誠信、社會誠信、司法公信、社會信用體系建設完備度。40個二級指標包括:依法行政、政務公開、政務誠信示范等。針對具體的指標,又分別應用“布爾型決策法”、“閾值型決策”等8種方法計算分值。
(三)構建監(jiān)測評價模型
城市信用監(jiān)測指標評價過程分為五個步驟:一是指標無量綱化處理;二是指標權重的設計;三是模型算法的確定;四是指標匯總計算;五是模型測算和調(diào)試。
1.指標無量綱化處理
指標數(shù)據(jù)的無量綱化處理是借助功效系數(shù),在確定單項指標上下限值的基礎上,把各個單項指標轉化成可度量的評判分值,形成單項評價值。
2.指標權重設計
權重的確定主要是從定性的角度,以工作為導向,根據(jù)指標在區(qū)縣信用評價中的重要程度和作用大小,從上層到下層逐級確定各個指標權重。
3.指標模型算法
模型算法通過模型將各個無量綱化指標進行合成,形成綜合指數(shù)和各種分類指數(shù)。具體算法根據(jù)指標類型的不同,共設計了“布爾型決策法”、“閾值型決策”、“有限累加型決策”、“模型計算法”、“德爾菲法”、“比值法”、“梯度法”、“Min-Max標準化法”等8種計分方法計算分值。
4.模型測算和調(diào)試
模型測算和調(diào)試是一個去粗取精、去偽存真、由此及彼、由表及里的過程。城市信用監(jiān)測評價以12個月為周期進行滾動測算,從時間維度測算各個區(qū)縣城市信用狀況的變動情況,研究其變化規(guī)律,不斷調(diào)整模型變量,力求科學、公正和實用。同時,模型將根據(jù)滾動測算的結果,不斷進行調(diào)優(yōu)。
三、大數(shù)據(jù)監(jiān)測技術的實現(xiàn)
(一)監(jiān)測數(shù)據(jù)源及技術分析
1.監(jiān)測數(shù)據(jù)源分析
為滿足對區(qū)縣信用狀況全面監(jiān)測評價,根據(jù)對監(jiān)測指標體系進行梳理分析,城市信用監(jiān)測數(shù)據(jù)包括:信用平臺信用數(shù)據(jù)、區(qū)縣上報數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)等3大來源。特別是隨著互聯(lián)網(wǎng)的快速發(fā)展,按照國家政務信息公開的要求,所有的縣級以上政府部門均需要設立政府網(wǎng)站,政府部門的信息公開程度有了巨大的提升。同時,我國網(wǎng)民通過手機接入互聯(lián)網(wǎng)的比例高達98.3%,在線政務服務用戶規(guī)模達到4.70億,占總體網(wǎng)民的58.6% 。因此,通過互聯(lián)網(wǎng)大數(shù)據(jù),相關網(wǎng)站數(shù)據(jù)能夠支撐這樣的評價。監(jiān)測的3大來源,讓監(jiān)測數(shù)據(jù)具備了大數(shù)據(jù)“5V” 特征,即:Volume(數(shù)據(jù)量大)、Variety(種類和來源多樣化)、Value(數(shù)據(jù)價值密度相對較低)、Velocity:(處理速度快)、Veracity(真實性)。監(jiān)測數(shù)據(jù)的豐富多樣化,在一定程度上改善數(shù)據(jù)來源以偏概全的問題,也為監(jiān)測指標的全面性和監(jiān)測結果的客觀性提供了充分的依據(jù)。
2.監(jiān)測技術分析
針對豐富多樣的監(jiān)測大數(shù)據(jù),需要監(jiān)測技術的智能化。為實現(xiàn)對海量結構化、半結構化和非結構化數(shù)據(jù)的實時采集、分析和評價,城市信用監(jiān)測將運用云技術、大數(shù)據(jù)存取、異構數(shù)據(jù)結構化、數(shù)據(jù)挖掘、機器學習、分布式管理、指標量化處理、指標模型計算等智能化技術手段。監(jiān)測工作也將傳統(tǒng)對結構化數(shù)據(jù)的普通統(tǒng)計,上升到基于海量非結構化與結構化數(shù)據(jù)混合的智能化分析,最終形成對區(qū)縣信用狀況綜合、客觀的精準評價。
(二)互聯(lián)網(wǎng)監(jiān)測
目前,互聯(lián)網(wǎng)監(jiān)測網(wǎng)站有以下五類:國家黨政機關、國內(nèi)主流媒體網(wǎng)站、市政府和市級部門、各級區(qū)縣政府、信用門戶網(wǎng)站等500多個網(wǎng)站的新聞進行監(jiān)測。為實現(xiàn)大規(guī)模自動化監(jiān)測,我們開發(fā)了監(jiān)測采集系統(tǒng)。系統(tǒng)采用J2EE技術體系和B/S結構設計,零客戶端維護,前端采用Ajax開發(fā)技術。系統(tǒng)保持全天不間斷采集信息,滿足信息采集、處理、轉化、分類、存取全流程自動化功能?;ヂ?lián)網(wǎng)監(jiān)測過程經(jīng)過“互聯(lián)網(wǎng)監(jiān)測數(shù)據(jù)采集”、“數(shù)據(jù)結構化處理”、“大數(shù)據(jù)智能化清洗”、“人工校核”等4個階段。
1.互聯(lián)網(wǎng)監(jiān)測數(shù)據(jù)采集
主要基于網(wǎng)絡爬蟲子系統(tǒng),網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,為搜索引擎從網(wǎng)上下載網(wǎng)頁。爬蟲根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。本系統(tǒng)的網(wǎng)絡爬蟲數(shù)據(jù)采集功能,能夠根據(jù)所設置的規(guī)則自動地從互聯(lián)網(wǎng)中抓取符合條件的網(wǎng)頁。
2.互聯(lián)網(wǎng)監(jiān)測數(shù)據(jù)結構化處理
針對多形態(tài)的監(jiān)測數(shù)據(jù)源,系統(tǒng)采用“非結構化—半結構化—結構化”數(shù)據(jù)的逐步轉換方法,根據(jù)HTML標記判斷文章的標題、發(fā)布時間、來源、主體內(nèi)容等信息,實現(xiàn)非結構化數(shù)據(jù)向半結構化XML 的數(shù)據(jù)轉換,然后利用XML與關系數(shù)據(jù)庫之間的映射方式,實現(xiàn)XML 到關系數(shù)據(jù)庫的轉換,最終將數(shù)據(jù)存入到監(jiān)測數(shù)據(jù)庫中。
3.大數(shù)據(jù)智能化清洗
通過互聯(lián)網(wǎng)采集入庫的信息,數(shù)據(jù)量十分巨大,且每天保持高速增長,有必要通過智能化清洗輔助我們清洗。我們在系統(tǒng)中使用了機器學習技術輔助我們進行數(shù)據(jù)清洗。第一,積累樣本數(shù)據(jù)開展機器訓練。機器根據(jù)積累的大量樣本數(shù)據(jù)進行分詞、聚類分析,提取文本特征,開展訓練。第二,開展正式分類工作。通過自然語言解析,對入庫文章內(nèi)容再進行分詞,根據(jù)關鍵字的相關性、詞頻等特征,歸并到相應分類中,再把滿足條件的數(shù)據(jù)抽出到監(jiān)測庫中。目前我們已經(jīng)采集了超過800萬條網(wǎng)站信息,通過機器智能分類,提取出與我市區(qū)縣城市信用相關的信息僅為30余萬條,再交給人工判斷確定。
4.人工校核
對于機器智能化篩選后的結果數(shù)據(jù),主要通過人工對數(shù)據(jù)分類進行稽核,采用全文研讀、分組討論等方式,對互聯(lián)網(wǎng)采集的信息種類(正面、負面)、區(qū)域(所在區(qū)縣城市)、行業(yè)(所在細分行業(yè))、失信事件嚴重程度(特別重大、重大、較大和一般)等4類屬性進行篩查和界定,對指標分類錯誤的部分進行糾正。最后,我們還要將人工校核結果數(shù)據(jù)變成樣本數(shù)據(jù),提供給機器學習,循環(huán)往復,不斷提高機器分類的準確性。
(三)平臺統(tǒng)計監(jiān)測
目前,與監(jiān)測指標有關的平臺信用數(shù)據(jù)包括雙公示、各類紅黑名單總量、紅黑名單觸發(fā)和反饋、重點關注企業(yè)名單、區(qū)縣共享數(shù)據(jù)、失信被執(zhí)行人涉政府機構等,原始數(shù)據(jù)總量超過數(shù)億條。需要將以上原始數(shù)據(jù),通過數(shù)據(jù)庫語言,按照監(jiān)測指標的要求,分析獲得每個區(qū)縣在細分行業(yè)領域中的數(shù)量。即是將數(shù)億條數(shù)據(jù)轉化為監(jiān)測工作所需的十幾張報表,數(shù)據(jù)統(tǒng)計工作量較大,耗時較長。為避免統(tǒng)計工作造成核心服務器負荷過重,干擾信用平臺正常服務,我們對信用平臺按照大數(shù)據(jù)架構進行了升級,在大幅提升核心服務器數(shù)據(jù)處理能力和效率基礎上,在外圍服務器建立了“城市信用監(jiān)測專題庫”。通過ETL工具,每晚定時將相關數(shù)據(jù)抽取到專題庫中,再對專題庫進行統(tǒng)計運算。統(tǒng)計結果被抽取到監(jiān)測系統(tǒng)中進一步加工處理。示意圖如圖1。
(四)區(qū)縣上報監(jiān)測
區(qū)縣上報數(shù)據(jù)主要是區(qū)縣開展信用體系建設的相關基礎數(shù)據(jù)和工作材料。根據(jù)不同格式分為結構化、半結構化和非結構化數(shù)據(jù)。具有數(shù)據(jù)格式各不盡相同,數(shù)據(jù)項編碼不一致性、數(shù)據(jù)質(zhì)量參差不齊等特征。針對信用數(shù)據(jù)采集分為2種情況:一是有信息系統(tǒng)的接入單位,通過部署前置機的方式進行數(shù)據(jù)采集;二是對無信息系統(tǒng)的接入單位,通過專門的區(qū)縣上報系統(tǒng)完成采集。采集后的數(shù)據(jù),能夠轉化、編錄入庫的結構化數(shù)據(jù),歸類到區(qū)縣信用目錄中,并與市級信用目錄建立關聯(lián)關系。對非結構化的材料數(shù)據(jù),經(jīng)上報系統(tǒng)初步篩查分類,交由人工甄別核對,分析判斷是否符合指標要求,將結果記入監(jiān)測系統(tǒng)中。目前,我市40個區(qū)縣上傳的各類文件數(shù)量超過9000件,各區(qū)縣上傳文件大小超10GB,經(jīng)過甄別分析后,全部歸入對應指標項中。
(五)指標模型演算
所有指標數(shù)據(jù)統(tǒng)計完成后,就進入“算分”這道程序了。整個過程有3步,一是模型算分,各項指標計分規(guī)則確定后,將統(tǒng)計數(shù)據(jù)、指標計算規(guī)則寫入定制開發(fā)的算法模型,自動得出各項指標分值;二是分值分析,為盡量避免某些指標分值過于突兀,將各項指標分值按照平均值、最大值、最小值、總量、基準值、中間值等多個維度綜合對比驗證,對分值存在異常的指標調(diào)整算法;三是統(tǒng)計匯總,形成區(qū)縣信用狀況的綜合得分與排名。
(六)監(jiān)測結果展示
目前,重慶市對監(jiān)測結果提供了2種形式的展示,一是生成《城市信用狀況月報》,包括“綜合信用指數(shù)排名”、“‘政商社司信用狀況”、“社會信用體系建設完備度情況”、“排名前三區(qū)縣優(yōu)秀做法”和“排名后三區(qū)縣主要問題”等5個部分;二是信用平臺大屏可視化系統(tǒng)展示,即以各類統(tǒng)計圖形和區(qū)縣色塊地圖等形式展示每期月報結果。未來,我們還將逐步在市公共信用平臺和“信用重慶”網(wǎng)站開設專題欄目,擴大對外宣傳的力度。
四、結語
重慶市區(qū)縣城市信用監(jiān)測工作于2018年初啟動,經(jīng)過近1年的指標設計驗證、監(jiān)測系統(tǒng)開發(fā),監(jiān)測和評價工作實踐,城市監(jiān)測工作取得顯著成效。監(jiān)測工作已成為市發(fā)展改革委實時掌握全市各區(qū)縣城市信用狀況,推動區(qū)縣信用體系建設的重要抓手,監(jiān)測結果已作為重慶市區(qū)縣營商環(huán)境考評的重要參考。下一步,信用監(jiān)測工作將橫向推廣到市級各行業(yè)領域,縱向深入到各區(qū)縣街道和鄉(xiāng)鎮(zhèn),讓信用監(jiān)測工作成為全面推動我市信用體系建設,優(yōu)化信用環(huán)境,提升城市綜合軟實力的重要手段。