□ 趙三武
2023 年,浙江持續(xù)推進共同富裕示范區(qū)建設,2023 年浙江全體居民人均可支配收入為63830 元,位列全國第三,城鄉(xiāng)居民人均收入倍差為1.86,比上年縮小0.04。為了更好地促進浙江共同富裕建設,蘭溪市通過構建“空白”人群群體結構數據庫,為全省群體結構數據庫建設提供實踐經驗,對科學確定全省“擴中”“提低”對象、建立體系化幫扶場景、推進全省共同富裕建設具有現(xiàn)實意義。
本文對照開展共同富?;A數據庫建設工作試點的內容和要求,對“空白”人群進行探索和分析,制定“空白”人群精準畫像方案,對“空白”人群進行篩選及特征分析,并根據分析結果提出對策建議。
“空白”人群的研究在國內屬于新興領域,可借鑒的成熟經驗與做法較少。由于無法直接獲取工作信息和收入信息等行政記錄,因此重要數據的缺失給實際統(tǒng)計環(huán)節(jié)帶來了挑戰(zhàn)。本次“空白”人群精準畫像試點工作,通過建立數據分析模型,合理預測“空白”人群收入分布情況,為后續(xù)摸清全省“空白”人群的規(guī)模和特征、推進“擴中”“提低”行動和高質量建設共同富裕示范區(qū)提供探索經驗。
首先,通過各種渠道收集、挖掘信息,建立“空白”人群篩選規(guī)則,并以蘭溪常住人口表為基礎,對數據進行清洗,通過設計“空白”人群調查問卷,開展試點調查,并對篩選規(guī)則的正確性進行驗證;其次,根據試點中發(fā)現(xiàn)的問題,不斷完善“空白”人群的篩選規(guī)則,逐步定位“空白”人群;最后,通過抽樣調查,收集“空白”人群信息,運用模型預測收入分布情況,為政府精準幫扶提供決策支撐。
1.組織召開會議,走訪對接部門。組織人社局、醫(yī)保局和農業(yè)農村局等部門參加會議20 余次;多次赴稅務局、市場監(jiān)管局、公安局、人行等相關部門單位對接工作,挖掘部門可利用的信息,試點以來完成對17 個部門、8 個民間組織和企業(yè)數據的收集;兩次邀請村書記召開座談會,聽取相關意見建議。
2.對接數智平臺,獲取可用信息。對接蘭溪一體化智能化公共數據平臺的130 張表,從400 多項信息中篩選230 項可用信息。通過大數據歸集及部門收集的數據,按信息屬性可分六類:①收入相關信息:如社保繳費金額、公積金繳費基數等;②職業(yè)相關信息:如資格證書信息、騎手信息、私人診所信息等;③助貧類信息:如助學人員信息、殘疾人員信息等;④資產類信息:如房產信息、車輛信息等;⑤消費信息:如電話通信費、水電費信息等;⑥特殊人群信息:如退役軍人信息。
3.構建數據體系,清洗整理數據。基于2020 年第七次全國人口普查(以下簡稱七人普)數據,剔除死亡人員、流出人口,新增出生人口、流入人口等數據,構建2022 年蘭溪常住人員數據庫;實現(xiàn)作用同質表合并,針對諸如《中華人民共和國殘疾人證——省回流》《數字殘聯(lián)——蘭溪本地》等用途一致的數據表進行合并,保證同質功能表的唯一性;實現(xiàn)維表創(chuàng)建,依據大數據中心提供的省回流數據字典,進行鄉(xiāng)鎮(zhèn)街道代碼和鄉(xiāng)鎮(zhèn)街道名稱等維表創(chuàng)建,以及社保繳費單位類型、學校等級等維表創(chuàng)建。
1.進行數據探索,制定篩選規(guī)則。構建人員多維信息數據表過程中,針對信息項缺失、字段取值異常和數據間不一致等情況進行定位分析;針對省回流社保數據表人員數據不足等現(xiàn)狀,通過數據表二次歸集等手段進行信息擴充;從年齡、學歷、社保繳納等多維度查看人員分布情形;以清洗得到的蘭溪常住人口表為基礎,通過規(guī)則探索逐步定位“空白”人群。
2.開展抽樣調查,建立數據模型。開展鄉(xiāng)鎮(zhèn)試點,結合業(yè)務部門基礎數據表、參考文獻、人口抽樣等專業(yè)調查表進行討論分析,形成“空白”人群調查問卷設計。綜合樣本總量、所需時間精力及相關調查費用等因素,以電話詢問的形式進行抽樣調查,采用分層抽樣方法,按照蘭溪城區(qū)、中心鎮(zhèn)及鄉(xiāng)鎮(zhèn)行政區(qū)劃,分1 類、2 類鄉(xiāng)鎮(zhèn)街道,再抽取部分鄉(xiāng)鎮(zhèn)街道,其中1 類鄉(xiāng)鎮(zhèn)街道3 個,2 類鄉(xiāng)鎮(zhèn)街道8 個。所選鄉(xiāng)鎮(zhèn)街道樣本總量為19342 個,以約8%的比例進行隨機抽樣,考慮回收效率,最終選取1600 個樣本作為調查對象。
針對“空白”人群抽樣數據,運用方差分析進行特征選擇,通過決策樹劃分群體收入分布,以反映“空白”人群特征與其收入區(qū)間的關系,實現(xiàn)“擴中”“提低”重點對象劃分,為推動浙江全省共同富裕示范區(qū)建設提供現(xiàn)實依據。
對照浙江省試點內容和要求,形成篩選規(guī)則,將“空白”人群的概念界定為:男性年齡在16—60 周歲、女性年齡在16—55 周歲(法律上有勞動能力),無法通過行政記錄(或其他可收集的相關記錄)直接獲取工作信息和收入信息的人群。
1.“空白”人群的篩選規(guī)則。本文以清洗得到的蘭溪常住人口表為基礎,通過規(guī)則探索逐漸定位“空白”人群。2022 年蘭溪常住人口為57.8 萬人,其中男性年齡在16—60 周歲、女性年齡在16—55 周歲的常住人口約34.49 萬人。通過輪詢接口等方式,初篩獲得第一輪“空白”人群9.3 萬人,后又經過討論完善篩選形成“空白”人群6.6 萬人,占常住人口比重為11.4%。如表1 所示,獲得TOP5 有效命中規(guī)則的分別是三險繳納、企業(yè)園區(qū)職工人員、學生、領取農業(yè)補貼以及公積金。其中,三險繳納可以過濾45.47%的人員。
表1 不同篩選規(guī)則命中的人數(單位:人、%)
2.“空白”人群的區(qū)域分布。6.6 萬“空白”人群占蘭溪常住人口的比重為11.4%。對6.6 萬“空白”人群進行區(qū)域分布研究可知,占比排前三的分別為蘭江街道、上華街道和云山街道,這3 個街道剛好是蘭溪市主城區(qū)所在地,尤其是蘭江街道,其“空白”人群人數占比高達22.88%,是蘭溪唯一常住人口突破10 萬人(145624 人)的街道。
3.“空白”人群的群體特征。一是男女性別總體均衡,男性人口占比高于女性。在“空白”人群中,男性為36406 人,女性為30080 人,男女性別比為1.21:1,其中性別差距最大的為靈洞鄉(xiāng),差距最小的為水亭畬族鄉(xiāng)。二是年齡結構分布適度,略微向中老年傾斜。蘭溪市第七次人口普查數據顯示,15—59 歲的人口為345222 人,占常住人口的比重為60.06%,“空白”人群中的年齡分布也同樣呈現(xiàn)相同的特點,中老年人口的占比相對較高。三是受教育程度普遍偏低,主要以初中學歷為主。據統(tǒng)計,初中學歷人群有31267 人,占比為47.37%,在總體“空白”人群中占比最高(圖1)。四是醫(yī)保基本實現(xiàn)全覆蓋,城鄉(xiāng)居民基本醫(yī)療保險參保比例高。蘭溪市“空白”人群當中,基本醫(yī)療保險參保覆蓋面達95.64%,其中參加城鄉(xiāng)居民基本醫(yī)療保險的人群比例最高(占比為66.57%),參加職工基本醫(yī)療保險的人群比例最低(占比為4.47%)。五是未工作原因較為復雜,女性以料理家務而未工作為主流原因。根據調查數據,深入了解“空白”人群未工作的具體成因,其中料理家務成為主流歸因選項,離退休、喪失工作能力等原因的占比相對較低。
圖1 “空白”人群總體學歷分布情況(單位:人)
1.抽樣調查問卷總體情況。本次抽樣調查面向蘭溪市11 個鄉(xiāng)鎮(zhèn)街道,共計發(fā)放問卷1600 份,實際回收有效問卷1519 份,回收有效率為94.94%。對問卷數據進行效度檢驗,結果如表2所示,KMO值為0.709,顯著性水平小于0.05,說明數據來自正態(tài)分布總體。
表2 KMO和Bartlett的檢驗表
2.“空白”人群收入分布模型構建探索。圍繞抽樣調查中的“空白”人群數據,運用SPSS26.0、Python 和Power BI 軟件,通過方差分析、決策樹、邏輯回歸等機器學習和統(tǒng)計分析方法構建模型,探索“空白”人群群體特征與收入分布的關系(表3)。
表3 機器學習和統(tǒng)計分析方法介紹
將11 個鄉(xiāng)鎮(zhèn)街道作為因子,將年收入作為因變量進行方差分析,結果如表4 所示,顯著值為0.000,小于0.05。由此說明蘭溪市11 個鄉(xiāng)鎮(zhèn)街道的年收入水平存在顯著差異,地理位置可能為影響居民年收入的因素之一。
表4 鄉(xiāng)鎮(zhèn)街道與年收入的單因素方差分析
本文以年收入作為研究因變量,嘗試建立以年齡、性別、受教育程度等為因子的方差分析模型,用以初篩影響年收入水平的特征變量。結果顯示,受教育水平、電費、電話費、車房資產情況等因子,對年收入水平具有顯著影響?;谏鲜龇治觯瑖L試運用決策樹模型,構建預測“空白”人群年收入分布的模型。
受限于抽樣數據的數據量,年收入暫時按照高收入(10 萬元及以上)與低收入(10 萬元以下)兩檔進行劃分(圖2)。結果表明,基于抽樣數據和特征選擇,目前決策樹模型的正確率達63%,對“空白”人群的收入水平分布能夠進行一定程度上的預測。
圖2 “空白”人群收入分布預測決策樹示意圖
3.對照浙江省共同富裕目標分析。根據出臺的《浙江省“擴中”“提低”行動方案》(以下簡稱《行動方案》),《行動方案》的目標之一就是到2025 年,家庭年可支配收入10—50 萬元群體比例達到80%、20—60 萬元群體比例達到45%。
結合目前抽樣數據中的蘭溪市“空白”人群收入分布情況,從而對蘭溪市整體“空白”人群的收入分布進行統(tǒng)計推斷分析。由于本研究針對的是“空白”人群個體收入情況,而《行動方案》中的測算指標為家庭年可支配收入,故在推斷估計時進行了簡要模糊換算,選定置信度95%,推斷目前蘭溪“空白”人群家庭年可支配收入10—50 萬元群體比例約為71.25%,20—60 萬元群體約為22.26%,較《行動方案》中的目標仍有一定差距。
針對行政記錄有所缺失的“空白”人群進行深入研究,不僅可以填補現(xiàn)有統(tǒng)計制度的空白,而且可以更有效地了解該人群的社會現(xiàn)狀和收入分布狀況,為浙江省高質量發(fā)展建設共同富裕示范區(qū)提供政策參考。現(xiàn)結合本文研究結果,提出如下對策建議:
“空白”人群的研究尚處于探索階段,浙江需制定相關指導意見,明確界定“空白”人群概念,并制定相配套的統(tǒng)計標準與統(tǒng)計制度。因此需要加強頂層設計,做好謀篇布局。一是政府層面需要制定體現(xiàn)普遍性和指導性的頂層政策。對于“空白”人群的概念、內涵以及覆蓋范圍等較為模糊的相關議題,需要全省在立法層面確定統(tǒng)一標準。二是形成跨部門協(xié)作機制,加快制定配套措施。依據文件,形成自上而下、主體明確的“空白”人群支持體系。
定期開展抽樣調查,聚焦“空白”人群主要特征,不斷拓展研究深度、廣度。通過不斷嘗試探索新的關鍵變量,持續(xù)優(yōu)化決策樹模型,提升預測準確性。精準了解“空白”人群的收入水平分布,為政府決策提供參考依據,為浙江建設共同富裕示范區(qū)提供有力支撐。
以“空白”人員為切入口,延伸建立家庭譜系,進而研究“空白”家庭,分析家庭收入水平相關影響因素,實現(xiàn)“空白”人群信息全面覆蓋的目標。在借鑒經驗的基礎上,逐個研究解決存在的障礙,建立可持續(xù)性模型來跟蹤和掌握這類人群的情況,從而精準施策。
高度重視對“空白”人群的扶持和保護,針對全省地域差異,要因地制宜制定實施社會保障政策,特別是針對浙江山區(qū)26 縣,需建立健全“空白”人群的社會保障機制;還要立足地方實情,堅持與時俱進,完善社會保障制度建設。同時加強宣傳和教育工作,做好政策的宣講,使其真正服務于有需要的人群,實現(xiàn)社會保障政策有效落地。
搭建政企協(xié)同“數據橋”,形成“空白”人群多元化社會支撐網絡,加大政府對“空白”人群的服務供給。要加強“空白”人群數智信息管理平臺的建設,將大數據、人工智能、云計算的技術優(yōu)勢以及各類數字化平臺的信息和組織優(yōu)勢,與“空白”人群的管理相結合,實現(xiàn)數據的有效傳輸與深度融合,發(fā)揮其潛在的聯(lián)動價值。