魏姍姍,王 揚,徐 暢,王 琳
(1.山東省交通科學研究院,山東 濟南 250031;2.北京工業(yè)大學,北京 100124)
隨著中國智慧城市建設(shè)的不斷推進以及人口老齡化問題的日益突出,對城市精細化規(guī)劃、治理,以及更好地為老年人提供社會服務(wù)都提出了新的挑戰(zhàn)。傳統(tǒng)上獲取城市人口空間分布結(jié)構(gòu)的方法主要是人口普查,而基于常住人口或戶籍人口的人口普查數(shù)據(jù)不但收集、更新成本高,而且普查間隔較長,僅能代表調(diào)查地區(qū)某一時間段的靜態(tài)人口數(shù)據(jù),不能表示潛在的人口數(shù)及實時的動態(tài)人口數(shù)據(jù),已經(jīng)不能滿足智慧城市發(fā)展的需求。大數(shù)據(jù)分析不僅對城市管理者制定政策和規(guī)劃具有指導(dǎo)意義,而且可以為市民的日常出行或其他活動提供更優(yōu)質(zhì)的服務(wù)。手機數(shù)據(jù)因其覆蓋人群廣、范圍大,持續(xù)性強,并且能實時定位等特點被廣泛應(yīng)用。
相關(guān)研究表明手機數(shù)據(jù)在增強城市管理的創(chuàng)新應(yīng)用方面的適用性[1]。由于手機數(shù)據(jù)具有定位功能,可以根據(jù)手機數(shù)據(jù)推斷用戶的出行信息,研究居民的出行行為[2]。雖然手機數(shù)據(jù)在用戶出行相關(guān)方面的研究眾多,但是目前利用手機數(shù)據(jù)評估人口數(shù)量及識別特定人群的研究較少。因此,研究基于手機數(shù)據(jù)識別老年人群的方法,旨在未來的人口統(tǒng)計和城市規(guī)劃中,有可能使用手機數(shù)據(jù)進行補充甚至替代人口調(diào)查,進一步提高城市服務(wù)水平。
常用的手機數(shù)據(jù)可分為兩大類:一是基于手機內(nèi)置傳感器的數(shù)據(jù),二是基于蜂窩網(wǎng)絡(luò)的手機信令數(shù)據(jù)。采用數(shù)據(jù)為北京市基于蜂窩網(wǎng)絡(luò)的中國移動手機信令數(shù)據(jù)。數(shù)據(jù)主要包括的字段見表1,每個手機號都有唯一標識碼IMSI,數(shù)據(jù)中包含數(shù)據(jù)上傳時間、地點、觸發(fā)的基站名稱、蜂窩編號、所處的交通小區(qū)以及觸發(fā)事件的類型。
表1 通訊詳單數(shù)據(jù)各字段
通過定位技術(shù)采集到的手機數(shù)據(jù)由于傳輸或其它干擾因素,會存在噪音數(shù)據(jù),因此,需要對其進行質(zhì)量控制,剔除“噪聲”數(shù)據(jù)。對于基于蜂窩網(wǎng)絡(luò)的定位數(shù)據(jù),噪聲數(shù)據(jù)主要包括重復(fù)數(shù)據(jù)和“乒乓數(shù)據(jù)”兩類。
重復(fù)數(shù)據(jù)是指所有字段完全相同的兩條或兩條以上記錄數(shù)據(jù),對于重復(fù)數(shù)據(jù)只保留一條數(shù)據(jù)記錄,重復(fù)的記錄進行刪除處理。針對重復(fù)數(shù)據(jù)的處理步驟:(1)根據(jù)所有字段,找到所有字段相同的記錄數(shù)據(jù);(2)針對Step1 得到的記錄數(shù)據(jù),根據(jù)用戶識別碼(IMSI)和時間字段(TIME),每個用戶在相同的時間僅保留一條記錄,刪除其它重復(fù)的記錄。
“乒乓數(shù)據(jù)”是指由信號漂移導(dǎo)致的錯誤定位數(shù)據(jù),表現(xiàn)為在很短的時間內(nèi),手機信號從臨近基站切換到相對較遠的基站,在一段時間后又切回到臨近基站。由于信號突然切換到較遠的基站,位置變動過大,這種數(shù)據(jù)可以根據(jù)設(shè)置速度閾值vmax,然后根據(jù)數(shù)據(jù)中前后三條數(shù)據(jù)之間的距離權(quán)重比f,進行進一步判斷。針對“兵乓數(shù)據(jù)”的處理步驟:(1)設(shè)初始值n=2,順序選取用戶IMSI中第n-1、n、n+1 三條數(shù)據(jù);(2)根據(jù)時間和經(jīng)緯度信息計算兩相鄰記錄之間的移動速度vn;(3)設(shè)置速度閾值,vmax=100 km/h,若vn>vmax,則判定n為“兵乓數(shù)據(jù)”;(4)在上述情況下,計算n-1、n、n+1 相鄰三條記 錄之間 的距離差分別為△dn-1,n、△dn+1,n,f為兩個距離差的比值。判斷當f>3 時,則判定n為“兵乓數(shù)據(jù)”;(5)刪除上述不符合條件的數(shù)據(jù)。
按照上述的數(shù)據(jù)處理方法,可以得到高質(zhì)量、較為完整的手機信令數(shù)據(jù)。手機數(shù)據(jù)質(zhì)量控制流程見圖1。
圖1 手機數(shù)據(jù)質(zhì)量控制流程
以北京市為例,2019 年常住人口2 153.6 萬人,外來人口數(shù)量也十分巨大,人口流動性較大。北京市老年人口比例逐年增加,常住人口中60 歲及以上人口占比高達28.6%[3]。
北京市共有基站約1.4 萬個,六環(huán)以內(nèi)的主城區(qū)基站分布更加密集,交通小區(qū)劃分更加精細,且道路網(wǎng)密度較高,見圖1。
圖2 北京市基站及六環(huán)以內(nèi)交通小區(qū)和路網(wǎng)分布
由于手機數(shù)據(jù)的隱私性要求,一般用于研究的手機信令數(shù)據(jù)會對用戶的姓名、年齡等私密信息進行脫敏處理,所以無法直接通過手機信令數(shù)據(jù)得到用戶的年齡數(shù)據(jù)。要想通過手機信令數(shù)據(jù)識別老年人群,首先要找到典型的老年人行為特征,并且通過手機數(shù)據(jù)展現(xiàn)這些行為特征。
相關(guān)研究表明不同年齡的人群在出行距離、出行方式、出行次數(shù)等方面存在很大差異[4-5]。由于老年人已經(jīng)退休,并且身體狀況可能不佳,所以老年人更傾向于使用當?shù)卦O(shè)施,從事非工作活動,這些特殊性導(dǎo)致老年人的出行和需求與一般人群有很大不同[6]。相關(guān)研究發(fā)現(xiàn)老年人出行的目的主要是休閑和購物,出行方式以步行、公交和自行車為主[5]。盡管家庭中小汽車擁有量逐年上升,但是老年人因身體原因開車的比例相對較少[6]。
常用的城市交通出行方式有步行、自行車、電動車、公交車、地鐵、出租車、私家車、通勤班車等。將其歸類為步行,非機動車(自行車、電動車)和機動車(公交、地鐵、出租車、私家車、通勤班車)三類出行方式,基于手機信令數(shù)據(jù)進行出行方式辨識研究。
在出行特征調(diào)查中,調(diào)查了居民的出行次數(shù)、出行方式、每次的出行距離等信息。出行方式的調(diào)查日期為工作日,本次調(diào)查共發(fā)放402 份,有效份數(shù)310 份。
經(jīng)過對調(diào)查結(jié)果進行統(tǒng)計分析發(fā)現(xiàn),老年人群和非老年人群在出行方式、出行次數(shù)及出行距離方面有明顯的差異,見圖3 ~圖5。數(shù)據(jù)結(jié)果顯示:老年人群1 d 出行次數(shù)主要集中在≤2 次或3 ~4 次,出行方式中步行和非機動車占比高達80%,而且超過80%的老年人群單次最大出行距離≯3 km。而非老年人群的平均出行次數(shù)明顯高于老年人群,出行方式以機動車為主,最大出行距離也明顯高于老年人群,超過60%的非老年人群出行距離≥5 km。
圖3 老年人群和非老年人群1 d 出行次數(shù)
圖5 老年人群和非老年人群出行距離
圖4 老年人群和非老年人群出行方式
綜合分析,把出行次數(shù)、出行方式以及出行距離作為主要出行特征來進行老年人群識別。其中,出行方式的差異可以體現(xiàn)在不同交通方式的出行速度不同,因為手機信令數(shù)據(jù)可以通過出行中的起始時間和距離估算出出行速度,所以可以根據(jù)劃分速度閾值的方法對出行方式進行判別。
調(diào)查研究發(fā)現(xiàn)[7]:步行出行的平均出行速度范圍:0 ~5 km/h;自行車出行的平均出行速度范圍:5 ~15 km/h;公交車出行的平均出行速度范圍:10 ~20 km/h;小汽車出行的平均出行速度范圍:15 ~40 km/h;地鐵出行的平均出行速度范圍:10 ~30 km/h。結(jié)合以往居民出行調(diào)查的研究經(jīng)驗,設(shè)定的出行方式和出行速度的對應(yīng)關(guān)系見表2。
表2 出行方式和速度對照
用戶的出行次數(shù)和每次出行距離可以通過手機信令數(shù)據(jù)獲取,相關(guān)研究已經(jīng)比較成熟,具體方法在此處不贅述。
由于生活習慣的不同,非老年人群和老年人群可能在通話特征上存在差異,以問卷的形式調(diào)查了居民的通話特征,包括工作日通話次數(shù)、周末通話次數(shù)、通話高峰時段等信息。
通過對問卷結(jié)果的統(tǒng)計分析發(fā)現(xiàn),老年人群及非老年人群在工作日通話次數(shù)、周末通話次數(shù)、通話高峰時段方面存在明顯差異,分析結(jié)果見圖6 ~ 圖8。
圖6 通話次數(shù)(工作日)
圖7 通話次數(shù)(周末)
圖8 老年人群和非老年人群通話高峰時段
數(shù)據(jù)結(jié)果顯示:大多數(shù)老年人群在工作日通話次數(shù)≤2 次,最大≤5 次,在周末的通話次數(shù)也是以≤2 次為主,工作日通話高峰時段在07 00—11 00和11 00—15 00 的人數(shù)居多。而非老年人群在工作日和周末的通話次數(shù)都要明顯高于老年人群,并且非老年人群在周末的通話次數(shù)要略低于工作日的通話次數(shù)。在通話高峰時段方面,非老年人群主要集中在07 00—11 00 以及15 00—19 00 時段,并且有些非老年人群的通話高峰時段在23 00 以后。把工作日通話次數(shù)、周末通話次數(shù)以及通話高峰時段作為主要的通話特征來進行老年人群識別。
老年人群和非老年人群在出行特征及通話特征方面存在明顯差異,以出行特征(出行次數(shù)、出行方式、最大出行距離)和通話特征(工作日通話次數(shù)、周末通話次數(shù)、通話高峰時段)為分類特征,基于樸素貝葉斯分類技術(shù),提出了基于手機信令數(shù)據(jù)的老年人群識別方法,具體流程見圖9。
圖9 基于貝葉斯分類的老年人群識別流程
以出行次數(shù)、出行距離、出行方式、周末通話次數(shù)、工作日通話次數(shù)、通話高峰時段為特征屬性,選取調(diào)查樣本中310 個用戶的數(shù)據(jù),隨機抽取70%為訓練數(shù)據(jù),其余為測試樣本,建成了樸素貝葉斯分類器,并驗證了其分類精度。其分類精度的混淆矩陣見表3,對測試樣本的分類準確性達到了91%。
表3 分類器混淆矩陣分析結(jié)果
基于構(gòu)建的樸素貝葉斯分類器,對北京市六環(huán)區(qū)域內(nèi),每個交通小區(qū)的老年人群進行了識別。為驗證識別結(jié)果的可靠性,根據(jù)人口統(tǒng)計數(shù)據(jù)對老年人群識別結(jié)果進行了驗證。人口統(tǒng)計數(shù)據(jù)是以街道為單位,每個街道包含多個交通小區(qū),而且可能包含交通小區(qū)的一部分,在進行數(shù)據(jù)驗證時,當某個交通小區(qū)的一部分屬于某街道時,則按照屬于該街道這部分的面積占該交通小區(qū)總面積的比來計算落在該街道的人口數(shù)。因此,這種驗證方式可能會存在一定的誤差。結(jié)合人口統(tǒng)計數(shù)據(jù),隨機選取了幾個典型地點分別進行了驗證,表4 列出了驗證結(jié)果,平均百分誤差大約為31%。雖然平均由誤差左右,但所提出的基于手機數(shù)據(jù)識別老年人群的方法,相對于人口普查具有低成本和動態(tài)估算等優(yōu)點,適用于需要頻繁估計老年人口的場景。
表4 人口數(shù)量識別驗證結(jié)果
基于傳統(tǒng)人口普查數(shù)據(jù)獲取成本高、耗時長等不足,提出了一種可以通過挖掘手機信令數(shù)據(jù)中用戶出行和通話信息,進行老年人群識別的方法,并通過實際統(tǒng)計數(shù)據(jù)驗證了該方法的有效性。驗證結(jié)果顯示,該方法在老年人群識別方面的準確率在69%左右,盡管該識別方法存在一定誤差,但是可以作為傳統(tǒng)人口調(diào)查的補充,在城市精細化管理及提高老年人群服務(wù)水平等方面具有重要意義。