收稿日期:2024-01-18;修訂日期:2024-07-19
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“網(wǎng)絡(luò)視角下城市增長(zhǎng)與收縮的測(cè)度與機(jī)理研究”
(42171216);首都經(jīng)濟(jì)貿(mào)易大學(xué)重大培育項(xiàng)目“雙碳目標(biāo)下縱深推進(jìn)以人為核心的新型城鎮(zhèn)化研究”
(ZD202302)。
作者簡(jiǎn)介:郭濤,經(jīng)濟(jì)學(xué)博士,首都經(jīng)濟(jì)貿(mào)易大學(xué)城市經(jīng)濟(jì)與公共管理學(xué)院博士后;吳康(通訊作者),理學(xué)博士,首都經(jīng)濟(jì)貿(mào)易大學(xué)城市經(jīng)濟(jì)與公共管理學(xué)院教授,博士生導(dǎo)師;李棟,理學(xué)博士,清華大學(xué)中國(guó)新型城鎮(zhèn)化研究院高級(jí)研究專員;劉濤,理學(xué)博士,北京大學(xué)城市與環(huán)境學(xué)院研究員,博士生導(dǎo)師;戚偉,理學(xué)博士,中國(guó)科學(xué)院地理科學(xué)與資源研究所副研究員。
摘 要:人口監(jiān)測(cè)是開展人口規(guī)劃、統(tǒng)計(jì)、預(yù)測(cè)及預(yù)警等
的基礎(chǔ)性工作,是政府科學(xué)決策的基石。我國(guó)人口監(jiān)測(cè)的傳統(tǒng)數(shù)據(jù)仍存在漏報(bào)重報(bào)、質(zhì)量不高、時(shí)效不強(qiáng)、屬性不全、融合不深等問題,難以實(shí)施有效的人口精細(xì)化管理,也限制了監(jiān)測(cè)數(shù)據(jù)在人口學(xué)研究中的廣泛應(yīng)用。隨著信息技術(shù)的快速發(fā)展及移動(dòng)終端的進(jìn)一步普及,手機(jī)信令、互聯(lián)網(wǎng)、遙感信息等一系列可直接或間接捕捉“人口行為”的新型數(shù)據(jù)大量涌現(xiàn)并應(yīng)用于人口監(jiān)測(cè),與人口普查、調(diào)查等傳統(tǒng)數(shù)據(jù)采集手段互為補(bǔ)充,有望通過交叉協(xié)同形成更加全面、更為實(shí)用的人口監(jiān)測(cè)多源大數(shù)據(jù)基礎(chǔ)。
從人口監(jiān)測(cè)的傳統(tǒng)數(shù)據(jù)、新型數(shù)據(jù)及新老數(shù)據(jù)融合三方面入手,系統(tǒng)梳理了數(shù)字時(shí)代用于人口監(jiān)測(cè)的多源數(shù)據(jù)。
首先,通過梳理傳統(tǒng)人口監(jiān)測(cè)的分類及相關(guān)應(yīng)用研究,總結(jié)了傳統(tǒng)數(shù)據(jù)的主要優(yōu)勢(shì)、瓶頸與不足,進(jìn)而明確了融合新型數(shù)據(jù)的需求靶點(diǎn)和必要性。
其次,從數(shù)據(jù)分類及優(yōu)缺點(diǎn)對(duì)比、應(yīng)用研究等角度對(duì)新型數(shù)據(jù)的相關(guān)文獻(xiàn)進(jìn)行梳理,重點(diǎn)分析現(xiàn)階段應(yīng)用新型數(shù)據(jù)的機(jī)會(huì)和挑戰(zhàn)。
最后,通過總結(jié)傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)融合應(yīng)用的優(yōu)勢(shì),提煉了有待進(jìn)一步研究的議題,
為應(yīng)用多源數(shù)據(jù)實(shí)現(xiàn)人口動(dòng)態(tài)監(jiān)測(cè),推進(jìn)流動(dòng)人口統(tǒng)計(jì)信息化、規(guī)范化和精細(xì)化,支撐政府政策制定和人口學(xué)研究建立了理論基礎(chǔ)。
關(guān)鍵詞:多源數(shù)據(jù);人口監(jiān)測(cè);人口行為;人口研究;調(diào)查普查
中圖分類號(hào): C921.2
文獻(xiàn)標(biāo)識(shí)碼: A
文章編號(hào):1000-4149(2024)05-0063-15
DOI:10.3969/j.issn.1000-4149.2024.00.045
一、引言
人口是影響我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的基礎(chǔ)性變量,對(duì)人口動(dòng)態(tài)變化進(jìn)行精準(zhǔn)
監(jiān)測(cè)是調(diào)整人口政策、優(yōu)化經(jīng)濟(jì)社會(huì)結(jié)構(gòu)的基石,也是開展人口戰(zhàn)略研究、解決當(dāng)下人口問題和前瞻性應(yīng)對(duì)未來人口問題的基礎(chǔ)性工作。
《中共中央國(guó)務(wù)院關(guān)于優(yōu)化生育政策促進(jìn)人口長(zhǎng)期均衡發(fā)展的決定》
明確提出,應(yīng)“加強(qiáng)人口監(jiān)測(cè)和形勢(shì)研判,健全完善國(guó)家生命登記管理制度,健全覆蓋全人群、全生命周期的人口監(jiān)測(cè)體系,密切監(jiān)測(cè)生育形勢(shì)和人口變動(dòng)趨勢(shì)”。當(dāng)前,我國(guó)人口發(fā)展已進(jìn)入低出生率、低死亡率、負(fù)增長(zhǎng)率的新階段,
必將對(duì)我國(guó)未來經(jīng)濟(jì)社會(huì)發(fā)展路徑、收入分配和資源配置等
產(chǎn)生深遠(yuǎn)影響,也對(duì)完善我國(guó)人口監(jiān)測(cè)體系提出了迫切要求。
《人口與經(jīng)濟(jì)》2024年第5期
郭 濤,等:
數(shù)字時(shí)代人口監(jiān)測(cè)中的多源數(shù)據(jù)應(yīng)用
人口監(jiān)測(cè)旨在基于普查、調(diào)查、行政記錄等方法,對(duì)國(guó)土范圍內(nèi)全量或特定人群開展定期監(jiān)測(cè),包含數(shù)據(jù)采集、處理、評(píng)估、匯總等多個(gè)階段。經(jīng)典人口學(xué)理論認(rèn)為,人口既包含性別、年齡等自然構(gòu)成,又具有經(jīng)濟(jì)構(gòu)成和社會(huì)構(gòu)成。傳統(tǒng)人口監(jiān)測(cè)重點(diǎn)關(guān)注人口的自然構(gòu)成,如出生、死亡、遷移與流動(dòng)等,并產(chǎn)生了人口普查、調(diào)查及行政記錄等常規(guī)人口監(jiān)測(cè)數(shù)據(jù),這類數(shù)據(jù)構(gòu)成政府決策和人口研究最重要的數(shù)據(jù)基礎(chǔ)。近年來,隨著數(shù)字化和信息技術(shù)的普及,人口監(jiān)測(cè)數(shù)據(jù)的范疇正逐漸向經(jīng)濟(jì)社會(huì)構(gòu)成延伸,表現(xiàn)為“人口行為”數(shù)據(jù)的日益豐富,大大提高了人口監(jiān)測(cè)的時(shí)效性和
數(shù)據(jù)
屬性的豐富性。因此,廣義上的人口監(jiān)測(cè)可進(jìn)一步延伸至監(jiān)測(cè)數(shù)據(jù)的后續(xù)開發(fā)應(yīng)用,包括在出生率和死亡率估計(jì)、流動(dòng)人口分析、人口預(yù)測(cè)等經(jīng)典人口學(xué)研究領(lǐng)域及經(jīng)濟(jì)學(xué)、公共衛(wèi)生、地理學(xué)、城市規(guī)劃等與人口研究密切相關(guān)的交叉領(lǐng)域的應(yīng)用,為新時(shí)期制定精細(xì)化、高質(zhì)量的人口政策提供了數(shù)據(jù)支撐。這類新型數(shù)據(jù)主要來源于互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、基于位置的服務(wù)(LBS)、遙感導(dǎo)航、地理信息等產(chǎn)業(yè)用戶在應(yīng)用服務(wù)過程中產(chǎn)生的海量行為記錄,對(duì)完善傳統(tǒng)人口監(jiān)測(cè)數(shù)據(jù)提供了重要補(bǔ)充,也為實(shí)現(xiàn)對(duì)人口特征全面、準(zhǔn)確、實(shí)時(shí)的監(jiān)測(cè)提供了新契機(jī)。
當(dāng)前,各國(guó)學(xué)者針對(duì)傳統(tǒng)數(shù)據(jù)、新型數(shù)據(jù)以及兩類數(shù)據(jù)的融合應(yīng)用展開了豐富的研究,但尚未有文獻(xiàn)在多源數(shù)據(jù)的統(tǒng)一框架下梳理我國(guó)人口監(jiān)測(cè)的數(shù)據(jù)。本文基于人口監(jiān)測(cè)及其延伸的廣義應(yīng)用范疇,分別從傳統(tǒng)數(shù)據(jù)、新型數(shù)據(jù)及新老數(shù)據(jù)融合的多源數(shù)據(jù)三方面系統(tǒng)梳理了我國(guó)人口監(jiān)測(cè)體系的整體演進(jìn)及監(jiān)測(cè)數(shù)據(jù)開發(fā)應(yīng)用的相關(guān)研究,并提煉有待進(jìn)一步研究的議題,為構(gòu)建基于多源數(shù)據(jù)的人口動(dòng)態(tài)監(jiān)測(cè)體系提供理論支持和實(shí)踐借鑒。
二、人口監(jiān)測(cè)的傳統(tǒng)數(shù)據(jù):實(shí)踐與經(jīng)驗(yàn)
傳統(tǒng)人口監(jiān)測(cè)采取普查為主、抽樣調(diào)查和專項(xiàng)調(diào)查為輔的形式開展,具有強(qiáng)制性、結(jié)構(gòu)化和覆蓋全等特點(diǎn),但也存在長(zhǎng)時(shí)滯、成本高、數(shù)據(jù)重報(bào)漏報(bào)等問題[1]。因此各國(guó)在實(shí)踐中逐漸引入行政記錄數(shù)據(jù)進(jìn)行補(bǔ)充[2],通過對(duì)人口相關(guān)行政記錄的“統(tǒng)計(jì)化操作”生成普查可用的指標(biāo)信息[3]。傳統(tǒng)人口監(jiān)測(cè)數(shù)據(jù)廣泛應(yīng)用于出生率及死亡率估計(jì)、預(yù)期壽命及人口預(yù)測(cè)等對(duì)數(shù)據(jù)覆蓋范圍及連續(xù)性要求更高的研究中。
1. 傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)的分類
人口普查及抽樣調(diào)查是我國(guó)目前實(shí)施的、以立法確認(rèn)的最基本的人口數(shù)據(jù)獲取方式。近年來,隨著信息化水平不斷提高,普查與調(diào)查數(shù)據(jù)的獲取過程也出現(xiàn)了新變化,第七次全國(guó)人口普查(簡(jiǎn)稱“七普”)開始全面采取電子化方式登記,并鼓勵(lì)通過手機(jī)等移動(dòng)終端自行填報(bào),在質(zhì)量控制環(huán)節(jié)針對(duì)電子化登記記錄設(shè)置了700余條校驗(yàn)規(guī)則[4],發(fā)現(xiàn)問題可及時(shí)核實(shí),大大提高了人口普查的數(shù)據(jù)質(zhì)量,減少數(shù)據(jù)重報(bào)、漏報(bào)問題。
考慮到部分政策主要針對(duì)特定區(qū)域和重點(diǎn)人群,政府、高校和科研機(jī)構(gòu)也會(huì)開展定期或不定期的人口專項(xiàng)調(diào)查,以獲取更及時(shí)、更具針對(duì)性的特殊群組人口相關(guān)信息。這類專項(xiàng)調(diào)查數(shù)據(jù)對(duì)普查數(shù)據(jù)形成了重要補(bǔ)充,在政策設(shè)計(jì)和效果追蹤中發(fā)揮著越來越重要的作用。雖然專項(xiàng)調(diào)查數(shù)據(jù)也存在不同數(shù)據(jù)庫(kù)難以相互匹配、調(diào)查時(shí)間不連續(xù)、覆蓋樣本少等缺點(diǎn),但其仍為分析特定人口問題提供了關(guān)鍵數(shù)據(jù)支撐,是傳統(tǒng)人口數(shù)據(jù)的重要組成部分。
居民人生各階段在行政部門的登記、報(bào)告、審批、檢查等活動(dòng),保存了大量人口行政變動(dòng)信息,其具有數(shù)據(jù)質(zhì)量高、收集成本低等特點(diǎn),逐漸被用于輔助進(jìn)行人口普查或調(diào)查[3]。尤其2016年以來,隨著中央加快統(tǒng)籌推進(jìn)政務(wù)數(shù)據(jù)共享和應(yīng)用工作,縣級(jí)以上行政單元電子政務(wù)已實(shí)現(xiàn)100%覆蓋,海量的低成本數(shù)字化行政記錄數(shù)據(jù)為提高普查數(shù)據(jù)質(zhì)量、降低人口數(shù)據(jù)獲取成本提供了重要支持。例如“七普”通過將普查對(duì)象與聯(lián)網(wǎng)行政記錄進(jìn)行比對(duì),顯著提升了普查工作的事前摸底效率,減少了覆蓋誤差。借鑒發(fā)達(dá)國(guó)家人口普查的演變趨勢(shì),未來隨著全國(guó)一體化政務(wù)大數(shù)據(jù)體系的建設(shè),不同部門間行政記錄數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化和共享水平會(huì)不斷提高,行政記錄數(shù)據(jù)將逐漸成為傳統(tǒng)人口數(shù)據(jù)不可或缺的組成部分。
2. 傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)的應(yīng)用研究
(1)人口監(jiān)測(cè)體系的國(guó)內(nèi)外對(duì)比與優(yōu)化。
部分研究從方法、方式、指標(biāo)、預(yù)測(cè)等方面對(duì)比國(guó)內(nèi)外人口監(jiān)測(cè)體系的異同,為我國(guó)健全人口動(dòng)態(tài)監(jiān)測(cè)體系提供了重要借鑒。從監(jiān)測(cè)方法來看,國(guó)外人口監(jiān)測(cè)正逐步從“人口普查”的傳統(tǒng)模式向“以人口普查為主,行政記錄為輔”的組合模式和“僅使用行政記錄”的完全模式過渡,而我國(guó)目前仍主要采取傳統(tǒng)模式,但正逐步向“組合模式”轉(zhuǎn)變。從監(jiān)測(cè)方式來看,部分國(guó)家選擇以建筑物普查、社區(qū)調(diào)查等替代普查長(zhǎng)表,逐年采集人口的特征、家庭、移民、居住、教育等信息,監(jiān)測(cè)周期更短,而我國(guó)的普查仍采取長(zhǎng)短表結(jié)合的方式,且更注重人口素質(zhì)、人群結(jié)構(gòu)和空間分布等基礎(chǔ)內(nèi)容的獲取,監(jiān)測(cè)周期更長(zhǎng)。從監(jiān)測(cè)指標(biāo)來看,除基本人口特征外,國(guó)外的監(jiān)測(cè)指標(biāo)還包括家庭結(jié)構(gòu)、工作收入、居住條件、衛(wèi)生保障等多方面,能全面覆蓋居民的經(jīng)濟(jì)社會(huì)生活,且指標(biāo)選取更加科學(xué),而國(guó)內(nèi)監(jiān)測(cè)指標(biāo)的覆蓋內(nèi)容
相對(duì)較少,且存在指標(biāo)選取不合理、編碼依賴人工等問題。從人口預(yù)測(cè)來看,國(guó)外短期及中長(zhǎng)期人口預(yù)測(cè)方法和實(shí)踐已較為成熟,預(yù)測(cè)結(jié)果廣泛應(yīng)用于支撐人口政策制定,國(guó)內(nèi)人口預(yù)測(cè)則實(shí)踐不足,尤其缺乏準(zhǔn)確有效的中長(zhǎng)期人口預(yù)測(cè)方法[5]。綜上,未來人口監(jiān)測(cè)可通過加大行政記錄數(shù)據(jù)的應(yīng)用、以逐年調(diào)查替代普查長(zhǎng)表、
普查及調(diào)查指標(biāo)選取和編碼方式科學(xué)化、加快開發(fā)適應(yīng)我國(guó)人口發(fā)展特征和階段的預(yù)測(cè)模型等手段,進(jìn)一步降低數(shù)據(jù)采集成本,提高人口監(jiān)測(cè)的效率和準(zhǔn)確度。
(2)傳統(tǒng)人口監(jiān)測(cè)數(shù)據(jù)質(zhì)量評(píng)估與改善。
由于數(shù)據(jù)獲取方法和目標(biāo)各不相同,不同類型的傳統(tǒng)數(shù)據(jù)存在異質(zhì)性,準(zhǔn)確評(píng)估及改善
數(shù)據(jù)質(zhì)量
是進(jìn)一步應(yīng)用數(shù)據(jù)開展分析的前提。對(duì)于人口普查數(shù)據(jù),漏報(bào)、重報(bào)和誤報(bào)是其面臨的主要挑戰(zhàn),尤其是特定群組的重報(bào)、漏報(bào)問題。現(xiàn)有文獻(xiàn)在對(duì)普查數(shù)據(jù)整體質(zhì)量評(píng)估和校正的基礎(chǔ)上,重點(diǎn)討論了低齡人口、高齡人口、青年人口、外國(guó)移民等特定群組的重報(bào)、漏報(bào)問題,普遍使用的方法包括事后抽樣調(diào)查法、雙系統(tǒng)估計(jì)量法、隊(duì)列存活率法、普查數(shù)據(jù)分析法、惠普爾指數(shù)法、普通最小二乘法及不同方法的綜合運(yùn)用。方法的選擇需綜合考慮評(píng)估對(duì)象、比對(duì)數(shù)據(jù)質(zhì)量和評(píng)估準(zhǔn)確度。
金城(Kaneshiro)使用普通最小二乘法估計(jì)美國(guó)1990年人口普查的凈漏報(bào),發(fā)現(xiàn)男性、新移民和年齡在15—44歲之間的人群相對(duì)凈漏報(bào)比例更高[6]?;贐rass-Logit、Coale-Demeny、聯(lián)合國(guó)模型、DCMD模型等的生命表技術(shù)是修正普查數(shù)據(jù)最常用的方法??傮w而言,現(xiàn)有針對(duì)普查數(shù)據(jù)質(zhì)量評(píng)估和改善方法的研究已較為成熟,但在實(shí)際應(yīng)用過程中還需重點(diǎn)考慮方法的選擇和不同方法的綜合利用。
調(diào)查數(shù)據(jù)的誤差主要來源于抽樣過程,不合理的抽樣方案、實(shí)施過程中的無回答現(xiàn)象、頻繁的人口流動(dòng)等都會(huì)影響樣本選擇的隨機(jī)性和代表性。抽樣的精度通常采用對(duì)比相對(duì)誤差、標(biāo)準(zhǔn)誤差、變異系數(shù)等方法來判斷。加權(quán)控制法是處理抽樣數(shù)據(jù)估計(jì)誤差的重要方法,現(xiàn)有文獻(xiàn)重點(diǎn)探討了抽樣中權(quán)數(shù)的獲取、調(diào)整、評(píng)估和不同群組的權(quán)數(shù)設(shè)計(jì)等問題,為抽樣調(diào)查結(jié)果的糾偏和準(zhǔn)確的統(tǒng)計(jì)推斷提供了技術(shù)支持。如貝克爾(Becker)和
卡拉馬爾(Kalamar)提出了一種基于DHS抽樣方案的擴(kuò)展夫婦成對(duì)權(quán)重估計(jì)方法,發(fā)現(xiàn)應(yīng)用該權(quán)重可以使估計(jì)的
大部分中位數(shù)百分比偏差小于3%[7]??梢园l(fā)現(xiàn),目前針對(duì)抽樣調(diào)查數(shù)據(jù)質(zhì)量評(píng)估的研究相對(duì)較少,評(píng)估方法有待進(jìn)一步優(yōu)化。
考慮到行政記錄數(shù)據(jù)的采集并非以支持人口監(jiān)測(cè)為目的,應(yīng)用此類數(shù)據(jù)亟須實(shí)現(xiàn)全社會(huì)政府部門的數(shù)據(jù)共享和跨部門統(tǒng)計(jì)化。但我國(guó)在此過程中尚存在各部門登記口徑不統(tǒng)一、規(guī)范性差、大量重復(fù)記錄、數(shù)據(jù)互不銜接、生命登記系統(tǒng)不完善、行政尋租等問題,導(dǎo)致不同來源的行政記錄數(shù)據(jù)質(zhì)量參差不齊、處理難度較大。以生命登記系統(tǒng)為例,目前我國(guó)登記出生人口信息的部門既有各區(qū)縣的婦幼保健機(jī)構(gòu),又有負(fù)責(zé)戶籍登記的公安機(jī)關(guān),兩部門的統(tǒng)計(jì)時(shí)間、渠道和目的均有不同,統(tǒng)計(jì)的出生人口平均差值高達(dá)2.7%[8]。死亡登記也存在農(nóng)村和高齡死亡漏報(bào)、部分地區(qū)虛報(bào)等問題,基于《死亡醫(yī)學(xué)證明》的死亡登記覆蓋率有待提升。現(xiàn)有文獻(xiàn)中常用的行政記錄數(shù)據(jù)質(zhì)量評(píng)估方法包括行政記錄比對(duì)法、事后抽樣調(diào)查法、常規(guī)調(diào)查比較法、三維度評(píng)估法等[2]。同時(shí),現(xiàn)有文獻(xiàn)還從構(gòu)建行政記錄數(shù)據(jù)質(zhì)量評(píng)估框架、統(tǒng)一行業(yè)分類及指標(biāo)口徑、加強(qiáng)全國(guó)統(tǒng)一行政記錄共享平臺(tái)建設(shè)、加強(qiáng)立法等方面提出了改善行政記錄數(shù)據(jù)質(zhì)量、加快數(shù)據(jù)跨部門共享的政策建議。行政記錄數(shù)據(jù)
在人口監(jiān)測(cè)體系中發(fā)揮著越來越重要的作用,而現(xiàn)有對(duì)行政記錄數(shù)據(jù)質(zhì)量的討論多為定性研究,缺乏定量和方法的討論,這與現(xiàn)階段行政記錄數(shù)據(jù)較低的開放程度有關(guān)。
(3)傳統(tǒng)人口監(jiān)測(cè)數(shù)據(jù)的應(yīng)用研究。
在確保數(shù)據(jù)質(zhì)量的基礎(chǔ)上,現(xiàn)有文獻(xiàn)從出生率和死亡率估計(jì)、人口遷徙、人口預(yù)測(cè)等人口學(xué)經(jīng)典問題及老齡化、健康、教育、住房等與人口密切相關(guān)的領(lǐng)域,多維度開展了豐富的應(yīng)用研究。出生率和死亡率估計(jì)是人口科學(xué)的重點(diǎn)問題,現(xiàn)有文獻(xiàn)主要從估計(jì)方法、數(shù)據(jù)校準(zhǔn)、結(jié)果分析及特定群組估計(jì)等方面展開研究[9]。隨著人口流動(dòng)的日益頻繁,現(xiàn)有文獻(xiàn)基于傳統(tǒng)數(shù)據(jù),重點(diǎn)探討了我國(guó)流動(dòng)人口的口徑界定、規(guī)模測(cè)度、時(shí)空演變特征、社會(huì)融入和居留意愿等問題。周皓基于“七普”數(shù)據(jù)分析了我國(guó)現(xiàn)階段人口流動(dòng)的距離、模式、方向等特征,認(rèn)為“七普”數(shù)據(jù)應(yīng)公布重報(bào)率和其他誤差率,以便真實(shí)評(píng)估流動(dòng)人口規(guī)模[10]。高質(zhì)量的人口數(shù)據(jù)也是開展人口預(yù)測(cè)的基礎(chǔ)。目前,國(guó)內(nèi)學(xué)者正嘗試探索適用于我國(guó)的
人口
預(yù)測(cè)模型,并應(yīng)用數(shù)學(xué)統(tǒng)計(jì)預(yù)測(cè)、隊(duì)列因素法、概率人口預(yù)測(cè)等方法對(duì)人口總量和生育率等變量的變化趨勢(shì)進(jìn)行預(yù)測(cè)。老齡化是當(dāng)前我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展面臨的重要問題,部分學(xué)者基于傳統(tǒng)數(shù)據(jù)探討了老齡化的時(shí)空演變特征及其通過負(fù)擔(dān)效應(yīng)和壽命效應(yīng)對(duì)儲(chǔ)蓄率、經(jīng)濟(jì)增長(zhǎng)、勞動(dòng)力供給、技術(shù)進(jìn)步等的影響[11]。此外,考慮到普查和專項(xiàng)調(diào)查還收集了人口的住房條件、受教育水平等豐富的經(jīng)濟(jì)和社會(huì)特征,這些數(shù)據(jù)也為從微觀層面研究我國(guó)居民住房需求的變化及其影響因素、教育機(jī)會(huì)均等化等重要問題提供了機(jī)會(huì)。
3. 傳統(tǒng)數(shù)據(jù)的優(yōu)勢(shì)、瓶頸與不足
傳統(tǒng)人口監(jiān)測(cè)數(shù)據(jù)具有連續(xù)性強(qiáng)、覆蓋性廣和可獲取性高等優(yōu)勢(shì),但也在以下幾個(gè)方面存在瓶頸與不足(見圖1)。
第一,普查數(shù)據(jù)中特定群組的漏報(bào)問題仍有待改善。隨著“七普”的信息化轉(zhuǎn)型,人口漏報(bào)率達(dá)到歷史新低的0.05% 數(shù)據(jù)來源:國(guó)家統(tǒng)計(jì)局,http://www.stats.gov.cn/sj/zxfb/202302/t20230203_1901089.html,但現(xiàn)階段技術(shù)仍無法解決由于生命登記系統(tǒng)不完善、個(gè)人填報(bào)意愿等導(dǎo)致的漏報(bào)問題,尤其是特定群組的出生人口和死亡人口的漏報(bào)。李婷等通過綜合多種模型生命表并利用國(guó)際比較法對(duì)“七普”各年齡段分性別的死亡水平進(jìn)行估算,并與“七普”死亡數(shù)據(jù)進(jìn)行比對(duì),發(fā)現(xiàn)“七普”嬰兒男女性死亡漏報(bào)率分別高達(dá)75.3%、76.61%,中低齡老人(60—79歲)男女性死亡漏報(bào)率分別為
51.93%、34.63%[12]。特定群組的死亡人口漏報(bào)問題既影響對(duì)整體死亡水平的估計(jì),也不利于準(zhǔn)確預(yù)估未來平均壽命和整體人口發(fā)展趨勢(shì)。此外,也需警惕“數(shù)據(jù)鴻溝”及“數(shù)據(jù)歧視”等問題催生的個(gè)人信息的謊報(bào)和瞞報(bào)等[4]。
第二,非普查年份抽樣調(diào)查數(shù)據(jù)漏報(bào)嚴(yán)重。抽樣調(diào)查數(shù)據(jù)的誤差主要來自抽樣方法本身的隨機(jī)性、推算誤差及調(diào)查填報(bào)等工作產(chǎn)生的操作誤差等。以“七普”數(shù)據(jù)回推,2011—2014年普查和抽樣調(diào)查的出生人數(shù)年均相差235萬,出生登記的漏報(bào)
嚴(yán)重[13]。將抽樣數(shù)據(jù)與公安部門的戶籍登記數(shù)據(jù)進(jìn)行交叉比對(duì),發(fā)現(xiàn)2012年國(guó)家統(tǒng)計(jì)局公布的出生人口與戶籍登記的實(shí)際出生人口誤差高達(dá)300萬人[14]。通過估計(jì)和比對(duì)歷次抽樣調(diào)查的死亡漏報(bào)率,發(fā)現(xiàn)2015年1%人口抽樣調(diào)查中除1—4歲年齡組外,其余各年齡組均存在較嚴(yán)重的死亡漏報(bào)問題[15]??梢园l(fā)現(xiàn),抽樣調(diào)查數(shù)據(jù)的低齡人口和死亡人口的漏報(bào)問題尤為嚴(yán)重,原因之一是我國(guó)尚未建立完善的以《出生醫(yī)學(xué)證明》和《死亡醫(yī)學(xué)證明》為基礎(chǔ)的生命登記系統(tǒng)。
第三,獲取成本高,時(shí)效性和連續(xù)性較差。隨著政府對(duì)各類指標(biāo)的需求擴(kuò)大、人口流動(dòng)性提高及個(gè)人對(duì)隱私信息的重視,獲取傳統(tǒng)數(shù)據(jù)的難度和成本進(jìn)一步提高,這給中央和地方財(cái)政帶來較大壓力。尤其我國(guó)是人口大國(guó),開展普查不僅需要聘請(qǐng)和培訓(xùn)大量的普查員和普查指導(dǎo)員,而且前后需經(jīng)歷多個(gè)環(huán)節(jié),涉及人員多、工作周期長(zhǎng)、財(cái)政投入大,如何在保證數(shù)據(jù)質(zhì)量的同時(shí)進(jìn)一步壓縮成本是未來面臨的重要挑戰(zhàn)。同時(shí),由于普查和抽樣調(diào)查分別每十年和每五年開展一次,且數(shù)據(jù)獲取和整理的時(shí)間都較長(zhǎng),各類專項(xiàng)調(diào)查數(shù)據(jù)也多為非連續(xù)數(shù)據(jù),各年之間指標(biāo)統(tǒng)計(jì)口徑還存在差異,這些因素都會(huì)導(dǎo)致傳統(tǒng)人口數(shù)據(jù)的時(shí)效性較差、連續(xù)性不強(qiáng),無法及時(shí)有效地支持政策調(diào)整,也增加了開展各類人口研究的難度。
第四,行政記錄數(shù)據(jù)的共享水平低,在普查和調(diào)查中應(yīng)用不足,獲取困難?,F(xiàn)階段,我國(guó)各省市電子化行政記錄平臺(tái)多由省內(nèi)牽頭建設(shè),缺乏國(guó)家標(biāo)準(zhǔn)和頂層設(shè)計(jì),部門間指標(biāo)記錄的口徑、時(shí)間不統(tǒng)一,難以實(shí)現(xiàn)跨部門、跨地區(qū)的數(shù)據(jù)整合。不同部門人口指標(biāo)的記錄分散化、孤立化和單向化,部門間既有重復(fù)又有空白,產(chǎn)生行政資源的浪費(fèi)。部門間的協(xié)同工作機(jī)制尚不明確,權(quán)責(zé)劃分相對(duì)模糊,缺乏涉及個(gè)人隱私信息的保護(hù)制度,進(jìn)一步降低了行政記錄數(shù)據(jù)應(yīng)用于人口普查和調(diào)查的效率。以流動(dòng)人口監(jiān)測(cè)為例,目前,國(guó)家統(tǒng)計(jì)局、公安部、
國(guó)家衛(wèi)生健康委員會(huì)、人力資源和社會(huì)保障部、農(nóng)業(yè)農(nóng)村部等多部門均開展了流動(dòng)人口調(diào)查,但“流動(dòng)人口”的定義口徑存在差異且統(tǒng)計(jì)指標(biāo)各有不同,且人員基礎(chǔ)信息統(tǒng)計(jì)不全,這些問題都限制了不同部門和地區(qū)數(shù)據(jù)的整合。此外,由于行政記錄數(shù)據(jù)涉及人的身份、健康、居住、經(jīng)歷等多重隱私信息,將其應(yīng)用于人口研究會(huì)面臨較大的法律和倫理挑戰(zhàn),這也限制了部分研究的開展和數(shù)據(jù)價(jià)值的深入挖掘。
三、人口監(jiān)測(cè)的新型數(shù)據(jù):機(jī)會(huì)與挑戰(zhàn)
近年來,隨著數(shù)字化和信息技術(shù)的普及,大量與人口相關(guān)的新型數(shù)據(jù),例如手機(jī)信令數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等,直接或間接記錄和反映了人口的行為特征,能夠在更小的時(shí)空粒度上反映人口變化,為實(shí)現(xiàn)人口實(shí)時(shí)、動(dòng)態(tài)、精準(zhǔn)監(jiān)測(cè)提供了數(shù)據(jù)支撐,也為解決傳統(tǒng)數(shù)據(jù)時(shí)效性不強(qiáng)、采集成本高、數(shù)據(jù)漏報(bào)、缺乏共享等問題提供了新契機(jī)。新型數(shù)據(jù)獲取的實(shí)時(shí)性和低成本使其
廣泛應(yīng)用于人口流動(dòng)分析等對(duì)數(shù)據(jù)時(shí)效性和動(dòng)態(tài)性要求更高的領(lǐng)域。
1. 新型數(shù)據(jù)的分類及優(yōu)缺點(diǎn)對(duì)比
以是否直接反映人的行為為標(biāo)準(zhǔn),新型數(shù)據(jù)包括直接行為數(shù)據(jù)和間接行為數(shù)據(jù)(見圖2)。
直接行為數(shù)據(jù)是直接記錄人口行為的數(shù)據(jù),常用的包括手機(jī)信令數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、
基于位置的服務(wù)(LBS)數(shù)據(jù)等。手機(jī)信令數(shù)據(jù)是新型人口數(shù)據(jù)中最具代表性的一類,因其具有
高覆蓋率、高持有率、高準(zhǔn)確性等特點(diǎn),目前廣泛應(yīng)用于估算出行流動(dòng)、空間分布、職住特征、交通條件等研究,同時(shí)也為收集和校驗(yàn)傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)提供了技術(shù)和數(shù)據(jù)支撐。但應(yīng)用該數(shù)據(jù)時(shí)還存在老人和兒童手機(jī)持有率低、一戶多號(hào)、非實(shí)名、人機(jī)分離、多運(yùn)營(yíng)商融合困難等難題,亟須通過算法優(yōu)化重點(diǎn)突破。物聯(lián)網(wǎng)技術(shù)通過將不同的傳感設(shè)備應(yīng)用于城市交通、安全監(jiān)控、環(huán)境衛(wèi)生、能源管理、健康醫(yī)療等各個(gè)領(lǐng)域,也可以獲取大量記錄人的行為的非結(jié)構(gòu)化數(shù)據(jù),
這類數(shù)據(jù)也被
應(yīng)用于相關(guān)人口研究。但目前應(yīng)用物聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行研究的文獻(xiàn)還較少,數(shù)據(jù)獲取困難、隱私安全等問題限制了此類數(shù)據(jù)的應(yīng)用。LBS數(shù)據(jù)融合了移動(dòng)通訊、互聯(lián)網(wǎng)、空間定位、位置信息、大數(shù)據(jù)等多種信息技術(shù)。相較手機(jī)信令數(shù)據(jù),LBS數(shù)據(jù)的獲取更依賴用戶對(duì)服務(wù)的消費(fèi),但也能提供除用戶位置之外的與偏好及消費(fèi)習(xí)慣等相關(guān)的更為豐富的行為數(shù)據(jù)。因此,大量文獻(xiàn)應(yīng)用LBS數(shù)據(jù)進(jìn)行人口消費(fèi)和行為分析、公共情緒分析及人口空間化研究,如有學(xué)者基于騰訊約8億用戶的LBS數(shù)據(jù)進(jìn)行城市級(jí)總體制圖,精度高達(dá)88.9%,高于基于遙感數(shù)據(jù)的制圖精度[16]。LBS數(shù)據(jù)的使用部分緩解了手機(jī)信令數(shù)據(jù)依賴基站信號(hào)強(qiáng)度、泰森多邊形覆蓋不全等問題,能輔助提高對(duì)人口分布空間異質(zhì)性的刻畫。
間接行為數(shù)據(jù)不直接記錄人的行為,但可用于對(duì)人口行為特征的間接推斷,常用的包括衛(wèi)星遙感(RS)數(shù)據(jù)、地理信息數(shù)據(jù)、興趣點(diǎn)(POI)數(shù)據(jù)等。隨著遙感技術(shù)的快速發(fā)展,夜間燈光、土地利用等遙感數(shù)據(jù)越來越被廣泛應(yīng)用于人口及相關(guān)研究。考慮到這類數(shù)據(jù)通常與人的活動(dòng)高度相關(guān),在放寬準(zhǔn)確度要求的前提下,遙感數(shù)據(jù)為反推人口行為特征提供了重要的數(shù)據(jù)支撐。遙感數(shù)據(jù)的優(yōu)勢(shì)在于獲取難度低、連續(xù)性強(qiáng)、數(shù)據(jù)易處理,且能在更小的空間維度對(duì)人口分布進(jìn)行模擬。此外,基于遙感數(shù)據(jù)獲取的人口估計(jì)和預(yù)測(cè)數(shù)據(jù)也更容易與地理信息數(shù)據(jù)相匹配,進(jìn)而被應(yīng)用于城市中心識(shí)別、公共安全等領(lǐng)域的研究。地理信息數(shù)據(jù)包括道路、坡度、河流、區(qū)劃等反映地區(qū)資源分布與城市規(guī)劃特征的信息,這類數(shù)據(jù)通常不單獨(dú)
被用于人口估計(jì),而是通過與遙感數(shù)據(jù)、手機(jī)信令數(shù)據(jù)等結(jié)合,為人口空間分布估計(jì)和預(yù)測(cè)提供資源分布和規(guī)劃特征方面的依據(jù),增強(qiáng)估計(jì)的準(zhǔn)確性和精細(xì)化水平[17]。近年來,POI數(shù)據(jù)因其具有豐富的空間語義信息,常被用于城市功能區(qū)劃分、中心(邊界)識(shí)別和業(yè)態(tài)集聚分析等研究。相較于僅能間接反映人口活動(dòng)特征的遙感數(shù)據(jù),POI數(shù)據(jù)與人口經(jīng)濟(jì)社會(huì)活動(dòng)關(guān)聯(lián)更密切、認(rèn)知度更高[17],相較于記錄個(gè)體行為軌跡的LBS數(shù)據(jù),POI數(shù)據(jù)更能反映不同類型的場(chǎng)所對(duì)人口分布的影響,因此可用于更加精細(xì)的隨城市功能規(guī)劃的人口分布特征的研究和預(yù)測(cè)。
如有學(xué)者使用POI和房地產(chǎn)數(shù)據(jù)對(duì)新加坡不同區(qū)域的居民數(shù)量和平均年齡、老年人比例等人口特征進(jìn)行預(yù)測(cè),發(fā)現(xiàn)公交車站、委員會(huì)中心和兒童保育設(shè)施等POI數(shù)據(jù)對(duì)人口特征預(yù)測(cè)的貢獻(xiàn)最大[18]。
盡管受限于個(gè)人信息保護(hù)與企業(yè)數(shù)據(jù)安全政策,研究者一般無法直接訪問這些新型數(shù)據(jù),但也有部分互聯(lián)網(wǎng)公司提供了其用戶地理位置、使用記錄、使用內(nèi)容等信息的下載通道,研究者可通過數(shù)據(jù)共享協(xié)議訪問過去、當(dāng)前和最新(甚至每秒)的數(shù)據(jù),使應(yīng)用手機(jī)信令數(shù)據(jù)、LBS數(shù)據(jù)等新型數(shù)據(jù)進(jìn)行人口監(jiān)測(cè)及相關(guān)研究成為可能。
2. 新型監(jiān)測(cè)數(shù)據(jù)的應(yīng)用研究
(1)出生率估計(jì)。
網(wǎng)絡(luò)搜索數(shù)據(jù)、LBS數(shù)據(jù)等為監(jiān)測(cè)難以達(dá)到的人群的生育模式和短期內(nèi)生育率變化提供了一種可靠和準(zhǔn)確的手段。部分研究嘗試基于用戶對(duì)“懷孕”、“育兒”、“墮胎”等與生育相關(guān)話題的主觀搜索頻率來推測(cè)當(dāng)?shù)囟唐趦?nèi)的生育相關(guān)指標(biāo)。
例如雷斯
(Reis)和布朗斯坦
(Brownstein)探究了美國(guó)50個(gè)州與墮胎相關(guān)的搜索量和該州墮胎率及墮胎限制政策之間的關(guān)系,發(fā)現(xiàn)墮胎的搜索量與墮胎率呈反比,這表明禁止墮胎政策驅(qū)使人們轉(zhuǎn)向互聯(lián)網(wǎng)尋求墮胎服務(wù)[19]。
又如比拉里(Billari)等提出了一種基于谷歌搜索的生育率監(jiān)測(cè)方法,發(fā)現(xiàn)使用該方法預(yù)測(cè)的出生人口誤差比人口普查局的
低35%[20]。需要注意的是,使用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行人口統(tǒng)計(jì)分析的前提是網(wǎng)絡(luò)搜索總量和個(gè)人意圖之間相關(guān)性的持續(xù)。也有研究使用LBS數(shù)據(jù)(如Twitter等)研究孕產(chǎn)婦和生殖健康的相關(guān)問題,以及對(duì)
特殊人群的行為和情緒進(jìn)行分析。
例如有學(xué)者使用Twitter帖子來量化分析分娩前后376名母親在社會(huì)參與、情感、社交網(wǎng)絡(luò)和語言風(fēng)格等維度上的變化[21]。
(2)死亡率估計(jì)。
部分研究使用互聯(lián)網(wǎng)、手機(jī)信令、LBS等數(shù)據(jù)來推測(cè)人口的死亡率及相關(guān)信息。
有學(xué)者使用來自WikiTree網(wǎng)站的在線系譜數(shù)據(jù)集來識(shí)別過去幾個(gè)世紀(jì)中人類人口壽命分布的變化,并構(gòu)建了人類壽命的預(yù)測(cè)模型[22]。
有學(xué)者發(fā)現(xiàn)在難以接觸到的人群中,手機(jī)可能被用作進(jìn)行遠(yuǎn)程解剖和了解死亡情況的工具[23]。
有學(xué)者基于對(duì)Twitter網(wǎng)站上近100萬條信息的情感分析,研究了不同的人口統(tǒng)計(jì)學(xué)特征(年齡、性別和職業(yè))對(duì)自殺率的影響[24]。有學(xué)者通過對(duì)在線訃告的自動(dòng)收集和文本挖掘,得到美國(guó)癌癥死亡的年齡分布、地理空間分布和時(shí)間趨勢(shì)[25]。還有學(xué)者利用8600萬份在線擴(kuò)展族譜數(shù)據(jù)分析了家族分散過程,獲取了高度可靠的人口統(tǒng)計(jì)數(shù)據(jù)集[26]。
(3)人口流動(dòng)及特征分析。
考慮到LBS數(shù)據(jù)和手機(jī)信令數(shù)據(jù)等能實(shí)時(shí)捕捉人口位置的空間變化,因而被廣泛應(yīng)用于人口遷移和流動(dòng)研究。
有學(xué)者使用四年共計(jì)150萬條盧旺達(dá)人的移動(dòng)通信數(shù)據(jù)集,描述了盧旺達(dá)人口國(guó)內(nèi)移徙的動(dòng)態(tài)軌跡、主要原因和后果[27]。有學(xué)者使用Twitter約50萬用戶的LBS數(shù)據(jù)來評(píng)估這些用戶在國(guó)家內(nèi)部和國(guó)家之間的地理移動(dòng),提出了一種使用倍差法減少樣本選擇偏差的方法,并預(yù)測(cè)移民趨勢(shì)的轉(zhuǎn)折點(diǎn)[28]。
還有學(xué)者通過分析領(lǐng)英的數(shù)百萬份LBS和職業(yè)歷史數(shù)據(jù)集,調(diào)查了專業(yè)人士的國(guó)際移民趨勢(shì)及特征[29]。此外,還有部分文獻(xiàn)應(yīng)用新型數(shù)據(jù)研究了其他多種人口特征的分布和變化,包括性別、年齡、民族等。
例如有學(xué)者基于Twitter數(shù)據(jù),使用機(jī)器學(xué)習(xí)模型從用戶生成的內(nèi)容中推斷粗粒度的情緒和心理人口學(xué)特征,包括性別、收入、政治觀點(diǎn)、年齡、教育程度、樂觀程度和生活滿意度等[30]。
通過對(duì)數(shù)據(jù)的清洗和處理,并采用多種方法處理樣本代表性等問題,新型數(shù)據(jù)使搭建一種成本低、時(shí)效性強(qiáng)、準(zhǔn)確度高的人口動(dòng)態(tài)監(jiān)測(cè)體系成為可能。
3. 應(yīng)用新型數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)
新型數(shù)據(jù)打開了個(gè)體活動(dòng)的內(nèi)部世界,數(shù)字技術(shù)的發(fā)展使用戶的每一個(gè)動(dòng)作都可以被存儲(chǔ)、存檔并分析,這大大豐富了研究的范圍及可能。但這類數(shù)據(jù)的濫用也可能帶來一些問題與挑戰(zhàn)。只有充分了解新型數(shù)據(jù)的優(yōu)勢(shì)和不足,才能為解決不同數(shù)據(jù)的問題、更好地結(jié)合傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)提供理論支撐,引導(dǎo)研究方向。
(1)機(jī)會(huì)分析。
新型數(shù)據(jù)的出現(xiàn)創(chuàng)造了社會(huì)科學(xué)研究的一種新的數(shù)據(jù)收集范式,其體現(xiàn)出的一些獨(dú)特的性質(zhì)與特征使其在人口監(jiān)測(cè)中能發(fā)揮強(qiáng)大優(yōu)勢(shì),主要包括以下幾方面。
第一,提高數(shù)據(jù)采集效率,降低成本并提高時(shí)效性?;ヂ?lián)網(wǎng)每分每秒都能產(chǎn)生大規(guī)模的用戶訪問痕跡、社交網(wǎng)絡(luò)和行為信息數(shù)據(jù),大大提高了人口數(shù)據(jù)的收集效率并降低了成本,使研究人員得以使用連續(xù)的人口數(shù)據(jù)進(jìn)行實(shí)時(shí)的人口監(jiān)測(cè)、流動(dòng)分析及預(yù)測(cè)預(yù)警。
第二,數(shù)據(jù)可跟蹤記錄并存檔。新型數(shù)據(jù)所提供的信息并非針對(duì)特定人群的一次性信息,
而是能夠?qū)τ脩粢欢螘r(shí)間內(nèi)的各種活動(dòng)軌跡進(jìn)行跟蹤,并對(duì)產(chǎn)生的數(shù)據(jù)痕跡加以儲(chǔ)存和歸檔,避免了傳統(tǒng)調(diào)查由于受訪者選擇性回憶和統(tǒng)計(jì)人員的回憶偏差所產(chǎn)生的數(shù)據(jù)誤差[31]。存儲(chǔ)下來的數(shù)據(jù)也可以
被反復(fù)地審查和處理,以提煉出核心真實(shí)的信息。
第三,覆蓋樣本更全面。盡管新型數(shù)據(jù)并非全樣本覆蓋,但仍能以更低的成本覆蓋更大范圍的人群,甚至使研究者能獲取傳統(tǒng)調(diào)查無法到達(dá)的或者代表性更低的群體信息,提供針對(duì)某一重點(diǎn)人群更加深入的側(cè)寫和分析。
(2)挑戰(zhàn)分析。
新型數(shù)據(jù)的濫用也可能引入新的風(fēng)險(xiǎn)和挑戰(zhàn),主要包括以下幾個(gè)方面。
第一,數(shù)據(jù)需有選擇地使用。由于新型數(shù)據(jù)的收集并不以服務(wù)人口監(jiān)測(cè)為目的,因此這類數(shù)據(jù)必須有選擇地使用,研究者需從海量指標(biāo)中篩選出與自身研究目的最為相關(guān)的指標(biāo),通過清洗和處理,使之能更加合理和準(zhǔn)確地反映所需信息。進(jìn)一步地,新型數(shù)據(jù)的引入也使得研究過程由理論驅(qū)動(dòng)轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng),亟須研究人員調(diào)整研究范式。
第二,樣本選擇性偏誤問題。由于新型數(shù)據(jù)僅覆蓋部分群體,同時(shí)獨(dú)特的數(shù)據(jù)收集過程或
平臺(tái)設(shè)計(jì)邏輯也會(huì)導(dǎo)致在使用該數(shù)據(jù)時(shí)引入樣本偏差[32],使得推測(cè)的統(tǒng)計(jì)特征與總體特征發(fā)生偏離,因此需重點(diǎn)考慮在應(yīng)用新型數(shù)據(jù)時(shí)的樣本糾偏問題。
第三,不利于開展定性研究。數(shù)據(jù)體量過大使得研究人員很難逐個(gè)分析每一條數(shù)據(jù),而現(xiàn)有的文本分析等自動(dòng)化分析方法又不可避免地存在信息遺漏等問題,不利于研究人員開展定性研究。如何在海量數(shù)據(jù)中發(fā)現(xiàn)隱藏在其中的豐富內(nèi)涵是未來應(yīng)用此類數(shù)據(jù)的研究重點(diǎn)。
第四,倫理問題。一方面,源于互聯(lián)網(wǎng)的個(gè)人數(shù)據(jù)可能包含個(gè)人未授權(quán)的隱私信息,導(dǎo)致在應(yīng)用數(shù)據(jù)時(shí)產(chǎn)生對(duì)個(gè)人權(quán)利的侵犯及連帶的法律責(zé)任,隱私數(shù)據(jù)的泄露也可能引發(fā)對(duì)弱勢(shì)群體的數(shù)字歧視;另一方面,為避免不必要的法律爭(zhēng)議,很多互聯(lián)網(wǎng)公司并不向研究者提供包含人口基本特征的原始數(shù)據(jù),而這些數(shù)據(jù)正是進(jìn)行人口監(jiān)測(cè)及人口學(xué)研究的核心數(shù)據(jù)基礎(chǔ),新型數(shù)據(jù)的倫理問題進(jìn)一步限制了其被廣泛應(yīng)用于人口研究。
第五,存在技術(shù)壁壘。新型數(shù)據(jù)存在大體量、非結(jié)構(gòu)化等特點(diǎn),數(shù)據(jù)的獲取、清洗、分析和管理過程都需要用到較為專業(yè)的大數(shù)據(jù)及計(jì)算機(jī)技術(shù),人口等社會(huì)科學(xué)研究者未經(jīng)過專業(yè)的
數(shù)字
技術(shù)培訓(xùn),應(yīng)用此類數(shù)據(jù)往往存在較大的技術(shù)壁壘。
總體而言,盡管將新型數(shù)據(jù)應(yīng)用于人口監(jiān)測(cè)尚存在不少挑戰(zhàn),但這些挑戰(zhàn)也為通過克服它們以加快人口實(shí)時(shí)監(jiān)測(cè)體系的構(gòu)建創(chuàng)造了機(jī)會(huì)。
四、傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)的融合:多源數(shù)據(jù)人口監(jiān)測(cè)
考慮到傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)各有利弊,將二者融合形成多源數(shù)據(jù)或許能取長(zhǎng)補(bǔ)短,進(jìn)一步提高人口監(jiān)測(cè)的質(zhì)量和效率。需要注意的是,多源數(shù)據(jù)的構(gòu)建并非簡(jiǎn)單地將兩類數(shù)據(jù)合并,其重點(diǎn)在融合,即通過整合不同類型的數(shù)據(jù),既可保留傳統(tǒng)數(shù)據(jù)連續(xù)性強(qiáng)、覆蓋范圍廣的優(yōu)點(diǎn),又能充分發(fā)揮新型數(shù)據(jù)時(shí)效性強(qiáng)、獲取成本低的優(yōu)勢(shì),以實(shí)現(xiàn)在更小的時(shí)空粒度上對(duì)人口總量、結(jié)構(gòu)及相關(guān)指標(biāo)的實(shí)時(shí)監(jiān)測(cè),并不斷拓寬數(shù)據(jù)的應(yīng)用范圍。目前,相關(guān)研究多聚焦于對(duì)人口結(jié)構(gòu)、人口流動(dòng)、貧困人口等的監(jiān)測(cè)及人口空間化分析,研究綜合性人口監(jiān)測(cè)體系構(gòu)建的文獻(xiàn)較少。
1. 多源數(shù)據(jù)的優(yōu)勢(shì)
通過以上分析可以發(fā)現(xiàn),傳統(tǒng)數(shù)據(jù)的優(yōu)勢(shì)主要在于數(shù)據(jù)的連續(xù)性強(qiáng)、覆蓋范圍全面且可獲取性更高,但也存在數(shù)據(jù)漏報(bào)、高獲取成本和時(shí)效性較差等缺陷。與之相對(duì)應(yīng)的,新型數(shù)據(jù)存在高時(shí)效、低成本、可跟蹤以及可覆蓋難以到達(dá)的人群等優(yōu)勢(shì),但樣本選擇偏誤、數(shù)據(jù)爆炸、倫理問題及高技術(shù)壁壘等問題也帶來了巨大的挑戰(zhàn)。通過融合傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)形成多源數(shù)據(jù),主要具有以下兩方面的優(yōu)勢(shì)。
首先,在傳統(tǒng)數(shù)據(jù)中引入新型數(shù)據(jù),可以豐富傳統(tǒng)數(shù)據(jù)在指標(biāo)、研究維度和時(shí)效性上的不足。考慮到傳統(tǒng)人口監(jiān)測(cè)的高成本,且可獲取的人口指標(biāo)有限,尤其缺乏人口主觀和行為特征的指標(biāo),另外個(gè)體
為保護(hù)
隱私信息所發(fā)生的謊報(bào)和漏報(bào)也會(huì)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生影響。通過使用新型數(shù)據(jù)輔助傳統(tǒng)數(shù)據(jù)研究,能進(jìn)一步豐富可用于研究的指標(biāo)和維度。手機(jī)信令等數(shù)據(jù)的獲取不受人的主觀意愿的影響,且時(shí)效性更強(qiáng),結(jié)合此類數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)進(jìn)行人口流動(dòng)等分析能進(jìn)一步提高分析的準(zhǔn)確性和時(shí)效性。此外,盡管傳統(tǒng)人口監(jiān)測(cè)能覆蓋最全面的人口范圍,但仍可能存在難以到達(dá)的人群未能統(tǒng)計(jì)。新型數(shù)據(jù)的輔助應(yīng)用為估計(jì)這類人群的特征提供了可能,能進(jìn)一步補(bǔ)充完善應(yīng)用傳統(tǒng)數(shù)據(jù)進(jìn)行的出生率、死亡率等估計(jì)。
其次,在新型數(shù)據(jù)中引入傳統(tǒng)數(shù)據(jù),可以為應(yīng)用新型數(shù)據(jù)開展分析提供基本數(shù)據(jù)保障。間接行為數(shù)據(jù)僅能反映人群的分布、活動(dòng)等特征,而無法直接捕獲人口行為,將其應(yīng)用于人口分析和人口特征推斷時(shí)必須
由傳統(tǒng)數(shù)據(jù)提供數(shù)據(jù)基礎(chǔ)。而傳統(tǒng)數(shù)據(jù)也無法在更細(xì)的時(shí)空維度上量化人口的空間分布。因此需要通過結(jié)合兩類數(shù)據(jù),以實(shí)現(xiàn)在更精細(xì)化的時(shí)空維度上的人口數(shù)據(jù)網(wǎng)格化。
2. 多源數(shù)據(jù)的應(yīng)用
(1)人口結(jié)構(gòu)分析。
對(duì)人口結(jié)構(gòu)變化的分析是人口監(jiān)測(cè)的一項(xiàng)重要內(nèi)容,人口結(jié)構(gòu)不僅包括年齡、性別結(jié)構(gòu),還包括空間、社會(huì)結(jié)構(gòu)等。傳統(tǒng)數(shù)據(jù)對(duì)人口結(jié)構(gòu)的監(jiān)測(cè)主要基于人口普查、出生登記、死亡登記等數(shù)據(jù),例如通過出生性別比推斷人口整體性別比例的變化。近年來,隨著移動(dòng)終端的普及及用戶登記的規(guī)范化,用戶在購(gòu)買手機(jī)卡、使用微信等社交軟件時(shí)登記了基本人口特征信息,因此手機(jī)信令及部分LBS數(shù)據(jù)中也包含了人口結(jié)構(gòu)的相關(guān)變量,將兩類數(shù)據(jù)結(jié)合可用于監(jiān)測(cè)人口結(jié)構(gòu)的動(dòng)態(tài)變化和社會(huì)分異等現(xiàn)象。
如陳曉萍等基于手機(jī)運(yùn)營(yíng)商登記信息中的用戶性別數(shù)據(jù),研究不同性別人群出行道路網(wǎng)的社會(huì)分異現(xiàn)象[33]。
湯姆林森(Tomlinson)等通過給移動(dòng)設(shè)備發(fā)送短調(diào)查的方式,追蹤難以接觸到的農(nóng)村人口的性別及年齡結(jié)構(gòu)變化[34]。此外,還有大量文獻(xiàn)基于多源數(shù)據(jù)研究了人口空間結(jié)構(gòu)的變化。多源數(shù)據(jù)的應(yīng)用大大提高0OLS2AiDi6koyrk3W9JWgw==了人口結(jié)構(gòu)監(jiān)測(cè)的時(shí)效性,為進(jìn)一步分析人口結(jié)構(gòu)變化與其他社會(huì)學(xué)和經(jīng)濟(jì)學(xué)變量的關(guān)系提供了可能。
(2)流動(dòng)人口分析。
應(yīng)用多源數(shù)據(jù)的流動(dòng)人口監(jiān)測(cè)可從政府、學(xué)界和企業(yè)三方視角展開。從政府實(shí)踐來看,
國(guó)家衛(wèi)生健康委員會(huì)基于大數(shù)據(jù)、云計(jì)算等技術(shù)來構(gòu)建流動(dòng)人口數(shù)據(jù)平臺(tái),實(shí)現(xiàn)了多源人口及社會(huì)經(jīng)濟(jì)數(shù)據(jù)的整合,加快了數(shù)據(jù)的分析和共享。北京、云南等省份
均嘗試結(jié)合傳統(tǒng)統(tǒng)計(jì)、遙感和手機(jī)信令數(shù)據(jù)來實(shí)現(xiàn)大數(shù)據(jù)動(dòng)態(tài)人口監(jiān)測(cè)
海淀區(qū)利用移動(dòng)通信大數(shù)據(jù)、衛(wèi)星遙感影像等高科技手段進(jìn)行人口動(dòng)態(tài)監(jiān)測(cè)的網(wǎng)頁(yè):https://zyk.bjhd.gov.cn/ztzl/kjcx/ywdt/201810/t20181027_3897405.htm。從學(xué)術(shù)研究來看,部分學(xué)者也嘗試基于多源數(shù)據(jù)對(duì)人口流動(dòng)的時(shí)空特征進(jìn)行分析。林文棋等利用以手機(jī)信令數(shù)據(jù)為主的多源時(shí)空數(shù)據(jù),使用貝葉斯模型刻畫了北京市朝陽區(qū)居住人口的時(shí)空變化[35]。
另有學(xué)者構(gòu)建了一個(gè)手機(jī)信令數(shù)據(jù)的分析框架,解決了應(yīng)用該數(shù)據(jù)時(shí)在數(shù)據(jù)收集、軌跡構(gòu)建、數(shù)據(jù)噪聲去除、數(shù)據(jù)存儲(chǔ)和用戶移動(dòng)性分析方法等方面存在的問題,為大規(guī)模分析用戶長(zhǎng)時(shí)間運(yùn)動(dòng)軌跡提供了方法借鑒[36]。從企業(yè)實(shí)踐來看,各大提供LBS服務(wù)的互聯(lián)網(wǎng)公司也積極構(gòu)建基于多源數(shù)據(jù)的人口遷徙實(shí)時(shí)監(jiān)測(cè)平臺(tái),例如百度遷徙大數(shù)據(jù)、谷歌遷徙數(shù)據(jù)等,監(jiān)測(cè)的指標(biāo)主要包括人口的遷入地、遷出地、遷徙時(shí)間、遷徙數(shù)量等,并實(shí)現(xiàn)了人口遷徙的動(dòng)態(tài)可視化。多源數(shù)據(jù)的應(yīng)用豐富了對(duì)流動(dòng)人口的分布特征、位置變化、通勤習(xí)慣、消費(fèi)活動(dòng)等指標(biāo)的逐日、逐月的監(jiān)測(cè)。
(3)人口空間化分析。
人口空間化是應(yīng)用多源數(shù)據(jù)進(jìn)行人口研究的一個(gè)重要方向,旨在基于傳統(tǒng)人口數(shù)據(jù),結(jié)合地理信息數(shù)據(jù)、遙感數(shù)據(jù)、手機(jī)信令數(shù)據(jù)、POI數(shù)據(jù)等新型數(shù)據(jù),在更精細(xì)化的時(shí)空維度上實(shí)現(xiàn)人口數(shù)據(jù)的網(wǎng)格化,便于人口數(shù)據(jù)同經(jīng)濟(jì)、環(huán)境、資源等微觀數(shù)據(jù)的整合和跨學(xué)科研究?,F(xiàn)有研究探討了在不同空間尺度下應(yīng)用多源數(shù)據(jù)進(jìn)行人口空間化的多種方法,包括插值法、遙感數(shù)據(jù)估算法、移動(dòng)基站數(shù)據(jù)估算法、多源數(shù)據(jù)估算法等。
有學(xué)者基于從移動(dòng)網(wǎng)絡(luò)中被動(dòng)收集的呼叫詳細(xì)記錄和移動(dòng)管理信號(hào)數(shù)據(jù)開發(fā)了一個(gè)雙峰模型,更好地估計(jì)了城市尺度上的實(shí)時(shí)人口分布[37]。何艷虎等融合人口統(tǒng)計(jì)數(shù)據(jù)、土地利用類型遙感數(shù)據(jù)、POI數(shù)據(jù)、DEM數(shù)據(jù)、河流道路數(shù)據(jù)等多源數(shù)據(jù),構(gòu)建柵格單元的人口分布模型,對(duì)珠江三角洲人口分布進(jìn)行估計(jì)和預(yù)測(cè),并實(shí)現(xiàn)了較為精確的估計(jì)結(jié)果[17]。
基于遙感數(shù)據(jù)、地理信息數(shù)據(jù)、POI數(shù)據(jù)及傳統(tǒng)人口數(shù)據(jù),研究機(jī)構(gòu)還使用人口空間化的多種方法研發(fā)了覆蓋全球的網(wǎng)格化人口數(shù)據(jù)集,影響較為廣泛的包括美國(guó)能源部橡樹嶺國(guó)家實(shí)驗(yàn)室開發(fā)的LandScan人口數(shù)據(jù)集及南安普頓大學(xué)的WorldPop數(shù)據(jù)集等。其中,LandScan人口數(shù)據(jù)集能提供1998年至今1km分辨率下的全球網(wǎng)格化人口數(shù)據(jù),而WorldPop數(shù)據(jù)集的分辨度在部分地區(qū)更是能達(dá)到100m?,F(xiàn)有文獻(xiàn)也基于這類網(wǎng)格化人口分布數(shù)據(jù)集,從各個(gè)層面針對(duì)數(shù)據(jù)質(zhì)量控制、復(fù)雜地形人口密度估計(jì)、城市規(guī)模識(shí)別、能源消費(fèi)等問題開展了更全面的研究。
(4)其他人口相關(guān)領(lǐng)域應(yīng)用。
除人口研究外,基于多源人口監(jiān)測(cè)數(shù)據(jù)并融合深度學(xué)習(xí)等先進(jìn)技術(shù)的應(yīng)用還推廣至公共衛(wèi)生安全風(fēng)險(xiǎn)防控和精準(zhǔn)扶貧等與人口密切相關(guān)的領(lǐng)域,并形成了一系列研究成果。
在公共衛(wèi)生安全風(fēng)險(xiǎn)防控方面,現(xiàn)有研究基于多源數(shù)據(jù),綜合使用深度學(xué)習(xí)和網(wǎng)絡(luò)分析等新方法,重點(diǎn)研究了疫情擴(kuò)散的時(shí)空動(dòng)態(tài)、趨勢(shì)預(yù)判、公眾情緒、防控措施評(píng)估等問題,并探討了疫情對(duì)經(jīng)濟(jì)社會(huì)的影響。如顧嘉等基于傳統(tǒng)SEIR流行病傳播模型,設(shè)計(jì)開發(fā)了考慮人口遷徙的vSEIdRm模型,并使用中國(guó)聯(lián)通智慧足跡的人口遷徙數(shù)據(jù),驗(yàn)證了人口遷徙和交通管制對(duì)疫情擴(kuò)散的影響[38]。
另有學(xué)者通過分析2020年4月發(fā)布的348933條推文,分析了新冠疫情期間公眾經(jīng)歷的特定情緒和人們關(guān)心的話題[39]。公共衛(wèi)生安全風(fēng)險(xiǎn)防控相關(guān)研究要求數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性,多源數(shù)據(jù)的引入有助于基于人口動(dòng)態(tài)流動(dòng)準(zhǔn)確識(shí)別疫情擴(kuò)散的時(shí)空變化及其影響。
近年來,多源數(shù)據(jù)還應(yīng)用于貧困治理領(lǐng)域,為實(shí)現(xiàn)精準(zhǔn)扶貧創(chuàng)新及動(dòng)態(tài)防返貧預(yù)警提供數(shù)據(jù)支持。用于精準(zhǔn)扶貧的大數(shù)據(jù)主要包括貧困登記、各部門行政記錄、資源和空間地理信息等,重點(diǎn)收集了貧困家庭基本情況、致貧原因、幫扶責(zé)任人、幫扶計(jì)劃、幫扶成效以及脫貧評(píng)估等基本指標(biāo)。為評(píng)估脫貧政策效果,部分研究還對(duì)九項(xiàng)精準(zhǔn)扶貧措施的實(shí)施效果進(jìn)行了調(diào)查[40]。此外,多源人口大數(shù)據(jù)還可應(yīng)用于防脫貧研究,如孫壯珍和王婷以四川省L區(qū)為例,分析了如何基于電網(wǎng)大數(shù)據(jù)構(gòu)建防返貧預(yù)警機(jī)制[41]。
五、有待進(jìn)一步研究的議題
近年來,為滿足經(jīng)濟(jì)社會(huì)發(fā)展需要,人口監(jiān)測(cè)的對(duì)象正逐漸從人口的自然構(gòu)成向“人的行為”延伸。本文從人口監(jiān)測(cè)的傳統(tǒng)數(shù)據(jù)、新型數(shù)據(jù)及新老數(shù)據(jù)融合三方面對(duì)國(guó)內(nèi)外相關(guān)研究進(jìn)行系統(tǒng)梳理,研究發(fā)現(xiàn):一方面,目前傳統(tǒng)數(shù)據(jù)還存在特定群組及抽樣調(diào)查數(shù)據(jù)漏報(bào)、數(shù)據(jù)采集成本高、時(shí)滯長(zhǎng)和行政記錄數(shù)據(jù)缺乏共享等不足,不利于人口實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)體系的構(gòu)建;另一方面,引入新型數(shù)據(jù)時(shí)機(jī)會(huì)與挑戰(zhàn)并存,機(jī)會(huì)在于新型數(shù)據(jù)的獲取效率更高、成本更低、時(shí)效性更強(qiáng)、覆蓋相對(duì)全面且能長(zhǎng)期跟蹤記錄,這些優(yōu)勢(shì)在一定程度上彌補(bǔ)了傳統(tǒng)數(shù)據(jù)的不足,但新型數(shù)據(jù)同樣產(chǎn)生了新挑戰(zhàn),包括研究范式的轉(zhuǎn)變、樣本選擇性偏誤問題、定性研究困難、倫理問題和技術(shù)壁壘等,
解決
這些挑戰(zhàn)為構(gòu)建
人口實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)體系提供了新契機(jī);進(jìn)一步地,傳統(tǒng)數(shù)據(jù)和新型數(shù)據(jù)的融合促進(jìn)了兩類數(shù)據(jù)取長(zhǎng)補(bǔ)短,共同構(gòu)成人口監(jiān)測(cè)的多源數(shù)據(jù)基礎(chǔ),大大提高了人口監(jiān)測(cè)的實(shí)時(shí)性、準(zhǔn)確度及效率,并降低了監(jiān)測(cè)成本。
目前,我國(guó)基于多源數(shù)據(jù)的人口監(jiān)測(cè)研究與實(shí)踐仍處于探索階段,未來在以下幾個(gè)方面仍有待于進(jìn)一步加強(qiáng)研究。
第一,傳統(tǒng)數(shù)據(jù)和新型數(shù)據(jù)的深度融合研究。未來可通過系統(tǒng)梳理不同類型數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容特征,探究應(yīng)采取何種方式
充分發(fā)揮數(shù)據(jù)間的互補(bǔ)優(yōu)勢(shì),綜合各數(shù)據(jù)的長(zhǎng)處,以差異化方式促進(jìn)傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)的深度融合,為整合形成多源人口監(jiān)測(cè)數(shù)據(jù)庫(kù)提供理論支撐。
第二,應(yīng)用多源數(shù)據(jù)進(jìn)行人口監(jiān)測(cè)的新算法研究。多源數(shù)據(jù)融合了傳統(tǒng)數(shù)據(jù)和新型數(shù)據(jù),不同數(shù)據(jù)的處理方式存在異質(zhì)性,既有方法并不能完全發(fā)揮多源數(shù)據(jù)作為融合數(shù)據(jù)的優(yōu)勢(shì),需要進(jìn)一步探索適用于多源融合數(shù)據(jù)的人口監(jiān)測(cè)新算法。這類算法旨在在改善不同數(shù)據(jù)質(zhì)量問題的基礎(chǔ)上,優(yōu)化傳統(tǒng)數(shù)據(jù)與新型數(shù)據(jù)的匹配和融合方式,有選擇地保留不同數(shù)據(jù)的優(yōu)勢(shì)信息,避免由于指標(biāo)重復(fù)所產(chǎn)生的數(shù)據(jù)冗余、低效率等問題。
第三,數(shù)據(jù)獲取和隱私計(jì)算問題研究。
獲取問題是當(dāng)前應(yīng)用多源數(shù)據(jù)面臨的核心議題之一,而改善數(shù)據(jù)獲取的方法之一是應(yīng)用隱私計(jì)算技術(shù)。通過制定統(tǒng)一的隱私計(jì)算規(guī)則,實(shí)現(xiàn)多源數(shù)據(jù)的“可見、不可見”,在確保個(gè)人隱私數(shù)據(jù)安全性的前提下,使研究者能夠應(yīng)用反映人口特征的相關(guān)變量進(jìn)行分析。如何合理地針對(duì)多源數(shù)據(jù)進(jìn)行隱私計(jì)算是未來相關(guān)研究需要關(guān)注的一個(gè)重要問題。
第四,明確監(jiān)測(cè)的應(yīng)用方向?,F(xiàn)有文獻(xiàn)尚缺乏對(duì)監(jiān)測(cè)之后應(yīng)用方向的討論,無法實(shí)現(xiàn)以應(yīng)用為導(dǎo)向的數(shù)據(jù)采集及監(jiān)測(cè)分析。未來可嘗試從理論和政策評(píng)估的目的出發(fā),通過精心設(shè)計(jì)的社會(huì)實(shí)驗(yàn)或者準(zhǔn)社會(huì)實(shí)驗(yàn),研究不同條件變化下人口的變化及政策實(shí)施的效果,從而更加清晰和深入地分析導(dǎo)致這些現(xiàn)象產(chǎn)生的內(nèi)在機(jī)制與改進(jìn)方向。
參考文獻(xiàn):
[1]胡桂華,漆莉,遲璐婕.人口普查中遺漏人口數(shù)的估計(jì)[J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2022(1):132-153.
[2]WALLGREN B, WALLGREN A. Register-based statistics: statistical methods for administrative data[M]. New York: John Wiley & Sons, 2014:121-146.
[3]徐藹婷,楊玉香.基于行政記錄人口普查方法的國(guó)際比較[J].統(tǒng)計(jì)研究,2015(11):88-96.
[4]“北京大學(xué)人口研究所人口普查質(zhì)量評(píng)估”課題組,陳功.論人口普查信息化:新特征、新挑戰(zhàn)與新路徑[J].調(diào)研世界,2021(7):59-66.
[5]盛亦男,顧大男.概率人口預(yù)測(cè)方法及其應(yīng)用——《世界人口展望》概率人口預(yù)測(cè)方法簡(jiǎn)介[J].人口學(xué)刊,2020(5):31-46.
[6]KANESHIRO M. Missing minorities? the phases of irca legislation and relative net undercounts of the 1990 vis--vis 2000 decennial census for foreign-born cohorts[J]. Demography, 2013, 50(5):1897-1919.
[7]BECKER S, KALAMAR A. Sampling weights for analyses of couple data: example of the demographic and health surveys[J]. Demography, 2018, 55(4):1447-1473.
[8]趙莉,樊延軍,王媛媛,等.基于《出生醫(yī)學(xué)證明》構(gòu)建我國(guó)出生人口基礎(chǔ)信息庫(kù)的思考[J].人口研究,2019(3):57-64.
[9]趙明,王曉軍.我國(guó)人口死亡風(fēng)險(xiǎn)異質(zhì)與混合模型研究[J].統(tǒng)計(jì)研究,2023(3):139-150.
[10]周皓.中國(guó)人口流動(dòng)模式的穩(wěn)定性及啟示——基于第七次全國(guó)人口普查公報(bào)數(shù)據(jù)的思考[J].中國(guó)人口科學(xué),2021(3):28-41,126-127.
[11]王廣州.新中國(guó)70年:人口年齡結(jié)構(gòu)變化與老齡化發(fā)展趨勢(shì)[J].中國(guó)人口科學(xué),2019(3):2-15,126.
[12]李婷,鄭葉昕,閆譽(yù)騰.第七次人口普查數(shù)據(jù)死亡水平估計(jì)[J].中國(guó)人口科學(xué),2022(5):2-16,126.
[13]張現(xiàn)苓,明艷.第七次全國(guó)人口普查年齡數(shù)據(jù)準(zhǔn)確性分析[J].人口研究,2022(4): 27-39.
[14]翟振武,劉雯莉. 七普數(shù)據(jù)質(zhì)量與中國(guó)人口新“變化” [J]. 人口研究, 2021(3): 46-56.
[15]李成,米紅. 中國(guó)1982年后人口普查和抽樣調(diào)查中死亡漏報(bào)的估計(jì)——基于Bayesian分層回歸模型 [J]. 人口研究, 2022(1): 19-36.
[16]XU Y, SONG Y, CAI J, et al. Population mapping in China with Tencent social user and remote sensing data[J]. Applied Geography, 2021, 130:102450.
[17]何艷虎,龔鎮(zhèn)杰,林凱榮.基于地理大數(shù)據(jù)和多源信息融合的區(qū)域未來人口精細(xì)化空間分布模擬研究——以珠江三角洲為例[J].地理科學(xué), 2022(3): 426-435.
[18]SZARKA N, BILJECKI F. Population estimation beyond counts-inferring demographic characteristics[J]. PlosOne, 2022, 17(4):e0266484.
[19]REIS B Y, BROWNSTEIN J S. Measuring the impact of health policies using Internet search patterns: the case of abortion[J]. BMC Public Health, 2010, 10:1-5.
[20]BILLARI F, D’AMURI F, MARCUCCI J. Forecasting births using Google[C]. 1st International Conference on Advanced Research Methods in Analytics, 2016:119.
[21]DE CHOUDHURY M, COUNTS S, HORVITZ E. Predicting postpartum changes in emotion and behavior via social media[C]. The SIGCHI Conference on Human Factors in Computing Systems, 2013: 3267-3276.
[22]FIRE M, ELOVICI Y. Data mining of online genealogy datasets for revealing lifespan patterns in human population[J]. ACM Transactions on Intelligent Systems and Technology, 2015, 2:1-22.
[23]TAMGNO J K, FAYE R M, LISHOU C. Verbal autopsies, mobile data collection for monitoring and warning causes of deaths[C]. 15th International Conference on Advanced Communications Technology (ICACT), 2013:495-501.
[24]FAHEY R A, MATSUBAYASHI T, UEDA M. Tracking the werther effect on social media: emotional responses to prominent suicide deaths on Twitter and subsequent increases in suicide[J]. Social Science & Medicine, 2018, 219:19-29.
[25]TOURASSI G, YOON H J, XU S. A novel web informatics approach for automated surveillance of cancer mortality trends[J]. Journal of Biomedical Informatics, 2016, 61:110-118.
[26]KAPLANIS J, GORDON A, WAHL M, et al. Quantitative analysis of population-scale family trees using millions of relatives[J]. Science, 2018, 360(6385): 171-175.
[27]BLUMENSTOCK J E, EAGLE N. Divided we call: disparities in access and use of mobile phones
in Rwanda[J]. Information Technologies & International Development, 2012, 8(2):1.
[28]ZAGHENI E, GARIMELLA V R K, WEBER I, et al. Inferring international and internal migration patterns from Twitter data[C]. The 23rd International Conference on World Wide Web, 2014:439-444.
[29]STATE B, RODRIGUEZ M, HELBING D, et al. Migration of professionals to the US: evidence from Linkedin data[C]. Social Informatics: 6th International Conference, 2014: 531-543.
[30]VOLKOVA S, BACHRACH Y. On predicting sociodemographic traits and emotions from communications in social networks and their implications to online self-disclosure[J]. Cyberpsychology, Behavior, and Social Networking, 2015, 18(12):726-736.
[31]CESARE N, LEE H, MCCORMICK T, et al. Promises and pitfalls of using digital traces for demographic research[J]. Demography, 2018, 55(5): 1979-1999.
[32]LAZER D, KENNEDY R, KING G, et al. The parable of Google Flu: traps in big data analysis[J]. Science, 2014, 343(6176):1203-1205.
[33]陳曉萍,周素紅,李秋萍,等.廣州城市道路網(wǎng)的社會(huì)分異——基于軌跡大數(shù)據(jù)的出行分布性別差異[J].地理研究,2021(6):1652-1666.
[34]TOMLINSON M, SOLOMON W, SINGH Y, et al. The use of mobile phones as a data collection tool: a report from a household survey in South Africa[J]. BMC Medical Informatics and Decision Making, 2009, 9(1):1-8.
[35]林文棋,陳會(huì)宴,謝盼,等.基于多源數(shù)據(jù)的北京市朝陽區(qū)人口時(shí)空格局評(píng)估與預(yù)測(cè)[J].地球信息科學(xué)學(xué)報(bào),2018(10):1467-1477.
[36]QIAO Y, CHENG Y, YANG J, et al. A mobility analytical framework for big mobile data in densely populated area[J]. IEEE Transactions on Vehicular Technology, 2016, 66(2): 1443-1455.
[37]FENG J, LI Y, XU F, et al. A bimodal model to estimate dynamic metropolitan population by mobile phone data[J]. Sensors, 2018, 18(10): 3431.
[38]顧嘉,陳松蹊,董倩,等.基于vSEIdRm模型的人口遷移以及離漢交通管控對(duì)新冠肺炎疫情發(fā)展的影響分析[J].統(tǒng)計(jì)研究,2021(9):114-127.
[39]ZHANG X, WANG Y, LYU H, et al. The influence of Covid-19 on the well-being of people: big data methods for capturing the well-being of working adults and protective factors nationwide[J]. Frontiers in Psychology, 2021, 12: 681091.
[40]汪磊,許鹿,汪霞.大數(shù)據(jù)驅(qū)動(dòng)下精準(zhǔn)扶貧運(yùn)行機(jī)制的耦合性分析及其機(jī)制創(chuàng)新——基于貴州、甘肅的案例[J].公共管理學(xué)報(bào),2017(3):135-143,159-160.
[41]孫壯珍,王婷.動(dòng)態(tài)貧困視角下大數(shù)據(jù)驅(qū)動(dòng)防返貧預(yù)警機(jī)制構(gòu)建研究——基于四川省L區(qū)的實(shí)踐與探索[J].電子政務(wù),2021(12):110-120.
Multi-source Data for Population Monitoring in the Digital Age:
Current Situation and Prospects
GUO Tao1,2, WU Kang1,2, LI Dong3, LIU Tao4, QI Wei5
(1.School of Urban Economics and Public Administration, Capital University of Economics
and Business, Beijing 100070, China;2.Beijing Key Laboratory of Megaregions Sustainable
Development Simulation, Beijing 100070, China;3.Institute for China Sustainable
Urbanization, Tsinghua University, Beijing 100084, China;4.College of Urban and
Environmental Sciences, Peking University, Beijing 100871, China;5.Institute of
Geographic Sciences and Natural Resources Research, Chinese Academy of
Sciences, Beijing 100101, China)
Abstract: Population monitoring is the basic work to support the party and the state to carry out multiple goals such as population planning, statistics, prediction and early warning, and is the cornerstone of scientific government decision-making. At present, the traditional data of population monitoring in China still have some problems, such as missing and rereporting, low quality, weak timeliness, incomplete attributes, and insufficient integration. It is difficult to implement effective and fine population management, and also limits the wide application of monitoring data in demographic research. With the rapid development of information technology and the further popularization of mobile terminals, a series of new data such as mobile phone signaling, Internet and remote sensing information that can directly or indirectly capture
“population behavior” have emerged in large numbers and been applied to population monitoring, complementing traditional data collection methods such as census and survey. It is expected to form a more comprehensive and practical multi-source big data foundation for population monitoring through cross-collaboration. This paper systematically combs the multi-source data used for population monitoring in the digital era from three aspects: traditional data, new data and the fusion of traditional and new data. Firstly, by combing the classification of traditional population monitoring and related application research, it summarizes the main advantages, bottlenecks and shortcomings of traditional data, and then clarifies the demand targets and necessity of fusion of new data. Secondly, from the perspective of data classification, comparison of advantages and disadvantages, and application research, the relevant literature of new data is reviewed, focusing on the opportunity and challenge of applying new data at the present stage. Finally, by summarizing the advantages
of fusion application of traditional data and new data, the issues to be further studied are refined. This study establishes a theoretical basis for using multi-source data to realize population dynamic monitoring, promote the informationization, standardization and refinement of floating population statistics, and support government policy making and demographic research.
Keywords:multi-source data;population behavior;population data;demographic studies;survey and census
[責(zé)任編輯 崔子涵]