亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人口合成技術(shù)的居民出行調(diào)查數(shù)據(jù)擴樣

        2021-11-18 10:46:44李丁杰樂陽郭莉
        交通科技與經(jīng)濟 2021年6期
        關(guān)鍵詞:普查權(quán)重樣本

        李丁杰,樂陽,2,郭莉

        (1.深圳市空間信息智能感知與服務(wù)重點實驗室,廣東 深圳 518060; 2.深圳大學(xué) 建筑與城市規(guī)劃學(xué)院廣東省城市空間信息工程重點實驗室,廣東 深圳 518060; 3.深圳市規(guī)劃國土發(fā)展研究中心,廣東 深圳 518034)

        居民出行調(diào)查是城市綜合交通調(diào)查的基本組成部分,其目的是全面掌握居民的出行特征和規(guī)律,為科學(xué)制定城市交通發(fā)展戰(zhàn)略及規(guī)劃提供重要依據(jù)。居民出行調(diào)查通常按一定抽樣率并結(jié)合考慮人口分布開展,而調(diào)查前期的抽樣框設(shè)計不合理、調(diào)查過程中入戶難以及被調(diào)查人員不予配合等原因,都容易產(chǎn)生調(diào)查樣本漏報、瞞報、抽樣不均等問題,從而引起集計的人口統(tǒng)計結(jié)果出現(xiàn)偏差。此外,在基于活動的需求預(yù)測模型中,也需要將人口屬性數(shù)據(jù)輸入到模型中,這些數(shù)據(jù)往往來源于居民出行調(diào)查樣本,然而稀疏且有偏差的樣本難以精細(xì)化模擬城市個體的出行行為。為解決上述問題,使調(diào)查樣本更具有代表性,以便準(zhǔn)確、客觀地分析城市居民出行特征,提供規(guī)劃支撐依據(jù),需采取有效的加權(quán)擴樣方法對調(diào)查數(shù)據(jù)進行事后校正,修正樣本偏倚。

        數(shù)據(jù)的加權(quán)擴樣作為調(diào)查成果最終發(fā)布前的重要環(huán)節(jié),一直是國內(nèi)外居民出行調(diào)查分析中的重點與難點[1-2]。目前,國內(nèi)城市對居民出行調(diào)查數(shù)據(jù)的質(zhì)量控制較為重視,但受限于數(shù)據(jù)融合技術(shù)及信息壁壘,各地專業(yè)人員對通過何種手段控制調(diào)查數(shù)據(jù)質(zhì)量未能達成共識,尤其是對加權(quán)擴樣方法在居民出行調(diào)查數(shù)據(jù)中的研究應(yīng)用不夠深入。居民出行調(diào)查一般使用迭代比例擬合法[3](IPF)對調(diào)查樣本進行加權(quán)擴樣,該算法是較為經(jīng)典的人口合成方法,由于運算效率及擴樣精度較高、工程可操作性強,成為居民出行調(diào)查常采用的擴樣方法[4-5]。Beckman等[6]首次利用IPF算法進行交通需求預(yù)測的基年人口合成,同時指出IPF算法的局限在于擴樣過程中不能同時兼顧家庭及個人的屬性分布,而這也恰恰是目前調(diào)查數(shù)據(jù)擴樣中易被忽視的地方。

        為解決其局限性,研究人員通過關(guān)聯(lián)家庭及個人表的頻數(shù)矩陣,利用人口合成技術(shù)對家庭及個人層面同時進行控制。Xin等[7]在前人研究的基礎(chǔ)上,提出一種改進的IPF算法—IPU,并利用該算法獲得了較為穩(wěn)健和精確的擴樣結(jié)果。Bargera等[8]提出基于最大熵的優(yōu)化算法,對美國亞利桑那州的居民出行調(diào)查數(shù)據(jù)進行權(quán)重計算;Tanton等[9]提出基于截斷卡方距離的GRE算法(generalized regression),對澳大利亞統(tǒng)計局的人口調(diào)查樣本進行實證分析。Kim等[10]指出,不同優(yōu)化算法所得到的校準(zhǔn)估計量都較為一致且近似無偏,僅能導(dǎo)致校準(zhǔn)估計量的方差產(chǎn)生輕微變化。

        近年來,國內(nèi)對人口合成技術(shù)的應(yīng)用研究正逐步開展,龍瀛等[11]利用多種數(shù)據(jù)源初步合成北京市全樣本的居民個體數(shù)據(jù)。杭軒等[12]首次引入IPU算法對四川省綿陽市的49萬居民個體屬性數(shù)據(jù)進行合成,結(jié)果證實算法在精度及運算效率上滿足要求。劉列等[13]介紹了人口合成技術(shù)的3種典型方法,并對不同方法的優(yōu)缺點進行分析比較。

        針對居民出行調(diào)查數(shù)據(jù)的特殊性,如何兼顧家庭與個人層面的屬性分布與實際一致,保證擴樣結(jié)果的精度達到分析要求,已成為一個亟需研究的問題,因此,文中引入人口合成技術(shù)(synthetic population)[14-15],對出行調(diào)查數(shù)據(jù)進行加權(quán)擴樣,以期獲得穩(wěn)定、可靠的擴樣結(jié)果。

        1 人口合成技術(shù)

        人口合成技術(shù)是通過整合不同層面的數(shù)據(jù)源來合成模擬人口數(shù)據(jù)集,使該數(shù)據(jù)集的人口屬性特征與總體相符,該技術(shù)被廣泛應(yīng)用于城市地理、交通規(guī)劃、社會經(jīng)濟等領(lǐng)域的仿真研究[16-18],這些仿真模型都需要將人口數(shù)據(jù)作為研究基礎(chǔ)。由于大規(guī)模的人口數(shù)據(jù)較難獲?。阂皇菍θ咳丝谡归_調(diào)查代價太大;二是人口數(shù)據(jù)涉及侵犯隱私等法律問題。因此,采用計算機進行人口合成已成為一種可替代方案。

        隨著個體樣本的可獲得性增強,基于加權(quán)擴樣(reweighting)的人口合成技術(shù)逐漸成為主流。此類方法以普查總量作為約束,利用抽樣個體數(shù)據(jù)生成樣本屬性的聯(lián)合分布,通過迭代調(diào)整權(quán)重值,直到擴樣結(jié)果與總體分布之間達到一定的擬合優(yōu)度。圖1為加權(quán)擴樣方法示意圖。

        圖1 加權(quán)擴樣方法

        居民出行調(diào)查數(shù)據(jù)是包含家庭屬性和個人屬性的調(diào)查表,一張家庭表關(guān)聯(lián)若干個人屬性信息,這一特殊性使IPF算法在對家庭表和個人表依次計算權(quán)重時,會產(chǎn)生兩組不同的權(quán)重值,即使個人表的初始權(quán)重繼承自家庭表的擴樣權(quán)重,但對個人表的權(quán)重值計算依然是獨立進行。2張表缺乏擴樣關(guān)聯(lián)性,從而導(dǎo)致個人屬性特征與其家庭結(jié)構(gòu)間的顯著相關(guān)性在某種程度上被削弱[19],而改進的人口合成方法則為居民出行調(diào)查數(shù)據(jù)擴樣提供了解決思路。國外研究表明,基于IPU算法能夠較好地擬合家庭及個人的屬性分布,基于卡方距離的GRE算法可以求解得到最優(yōu)權(quán)重值。文中主要介紹人口合成技術(shù)的IPU算法和GRE算法,并對算法在家庭及個人層面的擴樣一致性進行說明。

        2 加權(quán)擴樣方法

        2.1 IPU算法

        IPU算法是改進的IPF算法,下面先對IPF算法的擴樣過程進行說明。該算法是在已知樣本數(shù)據(jù)和普查數(shù)據(jù)的邊緣分布下,用樣本數(shù)據(jù)擬合總體分布進行計算的過程,如表1和表2所示,其中普查總量數(shù)據(jù)的聯(lián)合分布Qij未知,需要借助樣本數(shù)據(jù)及總體邊緣分布進行求解。

        表1 樣本列聯(lián)

        表2 普查總量列聯(lián)

        確定初始權(quán)重后,依次對列聯(lián)表中的年齡、性別2個屬性的分布進行擬合,其迭代計算過程為

        (1)

        (2)

        在計算過程中,由于各個屬性間的分布是相互影響,按先后順序擴樣必然導(dǎo)致不同屬性的分布發(fā)生改變。因此,為減小各個屬性的擴樣結(jié)果分布與總體的差異,采用循環(huán)迭代的方式調(diào)整權(quán)重值,經(jīng)過m次迭代計算后能夠得到相對穩(wěn)健的計算結(jié)果,此時擴樣結(jié)果中年齡、性別2個屬性的分布將無限趨近于總體分布

        (3)

        針對IPF算法無法解決家庭與個人表擴樣一致性的問題,IPU算法的改進關(guān)鍵在于利用頻數(shù)矩陣將個人表分布轉(zhuǎn)化為家庭表分布(見表3),對個人表的屬性值按所屬家庭進行統(tǒng)計匯總,得到關(guān)聯(lián)后的頻數(shù)矩陣,如表4所示。利用IPF算法的擴樣公式對家庭及個人層面的屬性分布同時進行控制。

        表3 家庭與個人表的關(guān)聯(lián)規(guī)則

        表4 家庭與個人表的頻數(shù)矩陣

        2.2 GRE算法

        GRE算法是基于校準(zhǔn)估計原理[20]的優(yōu)化算法,它利用截斷卡方距離函數(shù)對調(diào)查樣本的初始權(quán)重進行校準(zhǔn)調(diào)整,同時在調(diào)整過程中以普查總量作為約束,通過建立目標(biāo)函數(shù)求解最優(yōu)權(quán)重值。相對于IPU算法,GRE算法無需對各個屬性按先后順序進行加權(quán)擴樣,只需保證在最小誤差條件下各屬性的分布與實際一致。

        下面利用關(guān)聯(lián)的頻數(shù)矩陣表對GRE算法的運算過程進行說明。已知樣本量為n的一組調(diào)查樣本,i代表一個樣本單元,j為約束屬性,k為約束屬性分組,xi為樣本i中包含屬性分組信息的一維向量,di為調(diào)查樣本i的初始權(quán)重,wi為調(diào)查樣本i的校準(zhǔn)權(quán)重,cjk為各屬性分組的普查總量,如表5所示。

        表5 GREGWT算法示意

        校準(zhǔn)估計就是在滿足校準(zhǔn)方程∑nwixi=c的約束條件下,使di與wi之間的距離最小。同時,為保證校準(zhǔn)權(quán)重值wi為非負(fù),選取截斷的卡方距離函數(shù)G(wi,di)=(wi-di)2/di計算兩者間的距離,其中普查總量C=(c11,c12,c21,c22,c23,…,cjk),wi∈(Li,Ui),Li和Ui分別為根據(jù)實際研究確定的權(quán)重值wi的上下限。引入拉格朗日乘子法求解上述最優(yōu)化問題,將問題轉(zhuǎn)化為數(shù)學(xué)表達式

        (4)

        式中:λ為拉格朗日乘子。

        求解該優(yōu)化問題可得

        (5)

        將上式代入約束等式∑nwixi=c中,求解得到λ為

        (6)

        將λ代入到式(5)中,可得校準(zhǔn)權(quán)重wi的算式為

        (7)

        為進一步提高擴樣結(jié)果的精度,可對校準(zhǔn)權(quán)重wi進行迭代調(diào)整。令式(6)中的λ為初始計算值λ*,利用牛頓迭代法求解得到第m次迭代計算的權(quán)重值為

        (8)

        λm=λm-1+λ*

        (9)

        (10)

        2.3 迭代停止條件

        上述兩種算法都采用迭代計算的方式調(diào)整擴樣權(quán)重值,以減小擴樣結(jié)果與普查總量間的差異,使擴樣后的屬性分布更接近現(xiàn)實總體。

        迭代計算的停止條件一般為計算前后2次擴樣結(jié)果與普查總量的誤差,并比較前后2次誤差是否趨于收斂作為判定。常采用相對誤差δ作為擴樣結(jié)果與普查總量間的差異度量,并設(shè)定收斂準(zhǔn)則ε;若|δ-δpre|<ε,則停止迭代,并將此次迭代計算結(jié)果作為最終的擴樣結(jié)果。δ的算式為

        (11)

        式中:i為一個樣本單元;j為約束屬性;k為約束屬性分組;cjk為普查總量;wi為樣本i的擴樣權(quán)重。

        3 實例分析

        以2016年深圳市居民出行調(diào)查數(shù)據(jù)為例,在普查總量的約束下,分別運用IPF算法、IPU算法和GRE算法對抽樣數(shù)據(jù)進行擴樣權(quán)重值計算,并對不同方法的擴樣結(jié)果精度進行對比分析。

        3.1 樣本數(shù)據(jù)

        本次居民出行調(diào)查是深圳市5年一次的全市性綜合交通調(diào)查,采用入戶調(diào)查方式對深圳市433萬余戶家庭、約1 200萬常住人口進行抽樣調(diào)查,收集到家庭信息有效問卷約6.8萬份,個人信息有效問卷約15.4萬份,調(diào)查樣本覆蓋深圳市10個行政區(qū),共計57個街道辦,入戶調(diào)查抽樣率為1.6%。家庭表與個人表的樣本如表6和表7所示,其中年齡屬性已進行離散化處理。

        表6 家庭調(diào)查樣本

        表7 個人調(diào)查樣本

        3.2 普查總量

        普查總量數(shù)據(jù)來源于深圳市統(tǒng)計年鑒及各街道辦的人口普查資料,考慮到某些屬性的總量數(shù)據(jù)較難獲取,結(jié)合一般擴樣流程,文中在家庭及個人層面主要挑選5個屬性作為約束變量(j),各約束屬性的分組(k)如表8所示,并以“街道辦”作為統(tǒng)計單元得到家庭及個人屬性的普查總量(見表9、表10)。

        表8 約束屬性的字段說明

        表9 家庭屬性普查總量

        表10 個人屬性普查總量

        3.3 擴樣權(quán)重計算

        將上述家庭與個人的普查總量及關(guān)聯(lián)后的樣本頻數(shù)矩陣作為輸入,如家庭編號為1的樣本頻數(shù)矩陣為x1=[0,1,0,0,1,0,0,0,0,1,0,1,0,0,2,0,2,1],以各街道辦抽樣率的倒數(shù)作為樣本的初始權(quán)重di,利用R語言的人口統(tǒng)計包IPFP及GREGWT編寫算法及迭代收斂準(zhǔn)則。考慮到擴樣權(quán)重值為負(fù)數(shù)表征此類人口為負(fù),擴樣結(jié)果無意義,因此,規(guī)定GRE算法的擴樣權(quán)重值wi的上下限為(0,+∞),同時規(guī)定:當(dāng)前后2次擴樣結(jié)果的相對誤差差值小于收斂準(zhǔn)則ε=0.001,則停止迭代。經(jīng)過9~12次迭代計算后,相對誤差趨于收斂,權(quán)重值迭代計算過程及最終擴樣結(jié)果如表11、表12所示。

        表11 迭代計算權(quán)重值變化

        表12 最終權(quán)重值計算結(jié)果

        3.4 擴樣結(jié)果評價

        3.4.1 與常規(guī)IPF算法的擴樣結(jié)果精度對比

        為定量分析IPU算法、GRE算法與IPF算法在家庭與個人層面的屬性分布與總體擬合程度,選取Pearson相關(guān)系數(shù)來衡量擴樣統(tǒng)計結(jié)果與普查總量之間的分布相似性,結(jié)果如表13所示。

        表13 相關(guān)系數(shù)對比

        總體看,IPF算法的擴樣結(jié)果分布與總體分布間的相關(guān)程度最低,且家庭屬性與個人屬性的相關(guān)系數(shù)存在差異,說明IPF算法對家庭表和個人表分別計算權(quán)重時,產(chǎn)生的兩組權(quán)重值其關(guān)聯(lián)性不強,無法較好地兼顧家庭及個人屬性分布與總體一致。而IPU算法和GRE算法各個屬性的相關(guān)系數(shù)均接近1,表明兩種方法的擴樣統(tǒng)計結(jié)果與總體分布高度吻合,能較為準(zhǔn)確地反映實際人口分布情況。

        3.4.2 IPU與GRE算法間的擴樣精度比較

        1)總體評價。為進一步評價IPU算法和GRE算法的擴樣結(jié)果精度,選取絕對誤差和相對誤差指標(biāo),對擴樣結(jié)果按各個街道辦的屬性分組進行統(tǒng)計匯總,并與普查總量進行誤差對比,誤差大小如表14所示,相對誤差隨迭代次數(shù)的變化如圖2所示。

        表14 擴樣結(jié)果精度對比

        圖2 相對誤差變化

        從總體誤差看,IPU與GRE算法的相對誤差均收斂于6%,能較好地滿足擴樣精度要求。此外,IPU算法的擴樣結(jié)果誤差更小,且隨著迭代次數(shù)增加,其擴樣誤差有進一步下降趨勢。從各個屬性的誤差分析看,在家庭屬性上IPU算法的擴樣結(jié)果誤差更大,這樣的結(jié)果也符合算法特性,由于IPU算法是按照先后順序?qū)s束屬性進行擴樣計算,計算過程中排序越靠前的屬性其誤差越大,而靠后的屬性其擬合效果最好。

        2)分街道辦的誤差比較。對深圳市57個街道辦的擴樣結(jié)果分別計算相對誤差,并繪制折線和相對誤差分布圖(見圖3、圖4)。由圖3、圖4可知,IPU算法的擴樣結(jié)果誤差波動性更小,均小于20%,且有50個街道辦的相對誤差值小于10%,其擴樣結(jié)果較為穩(wěn)健。而GRE算法有15個街道辦的誤差接近于0,但存在5個街道辦的相對誤差大于20%,且個別街道辦的相對誤差大于60%,波動較大。原因在于GRE算法計算的是局部最優(yōu)解,初始權(quán)重的選擇會對結(jié)果產(chǎn)生影響。此外,部分街道的調(diào)查樣本覆蓋不全,無法提供權(quán)重值進一步優(yōu)化迭代的空間,從而使個別街道的擴樣誤差增大。

        圖3 相對誤差波動性比較

        圖4 各街道辦相對誤差分布

        4 結(jié) 論

        居民出行調(diào)查數(shù)據(jù)的加權(quán)擴樣是數(shù)據(jù)分析處理環(huán)節(jié)的關(guān)鍵,基于傳統(tǒng)IPF算法擴樣的局限性,文中引入人口合成技術(shù)的IPU算法和GRE算法,通過對家庭表及個人表建立關(guān)聯(lián)的頻數(shù)矩陣,對深圳市居民出行入戶調(diào)查數(shù)據(jù)進行了實證分析,并比較不同方法的擴樣結(jié)果精度。結(jié)果表明,IPU算法和GRE算法可以很好地兼顧家庭和個人層面的分布與實際相一致,擴樣誤差滿足精度要求。相比于GRE算法,IPU算法更具普適性,算法不受初始權(quán)重及稀疏樣本限制,誤差波動性更小,擴樣結(jié)果更為穩(wěn)健。通過合理運用人口合成技術(shù),能夠彌補當(dāng)前常規(guī)擴樣方法的不足,為完善國內(nèi)數(shù)據(jù)擴樣體系提供新的思路與方法。

        從擴樣精度來看,IPU算法的權(quán)重值計算結(jié)果要優(yōu)于GRE算法,各個街道的相對誤差均小于20%。GRE算法雖然可以求得最優(yōu)權(quán)重值,但由于個別街道在其定義域范圍內(nèi)無法求得最優(yōu)解,因此,仍然存在較大的擴樣誤差。如何提高個別情況下的擴樣結(jié)果精度,需要合理確定初始權(quán)重,并根據(jù)樣本特征及約束屬性間的內(nèi)在關(guān)聯(lián)性展開進一步研究。此外,如何利用不同空間尺度的普查總量數(shù)據(jù)進行擴樣計算,也是實際研究中需要解決的問題。

        猜你喜歡
        普查權(quán)重樣本
        立即全面普查 警惕二代粘蟲發(fā)生
        胡春華強調(diào):確保脫貧攻堅普查取得圓滿成功
        用樣本估計總體復(fù)習(xí)點撥
        權(quán)重常思“浮名輕”
        推動醫(yī)改的“直銷樣本”
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識別方法
        隨機微分方程的樣本Lyapunov二次型估計
        關(guān)于農(nóng)業(yè)文化遺產(chǎn)普查與保護的思考
        村企共贏的樣本
        亚洲一区二区三区视频免费看| āV第三区亚洲狠狠婷婷综合久久| 天堂69亚洲精品中文字幕| 视频一区中文字幕在线观看| 精品人妻av区乱码色片| 成人性生交大片免费| 中文字幕精品亚洲人成| 日本中文字幕一区二区在线观看 | 亚洲成a人片在线观看无码| 最新在线观看精品国产福利片| 亚洲一区二区懂色av| 亚洲色精品三区二区一区| av蓝导航精品导航| 色婷婷精品综合久久狠狠| 日韩极品在线观看视频| 无码人妻一区二区三区兔费 | 国产亚洲超级97免费视频| 亚洲女初尝黑人巨高清| 99久久人妻无码精品系列蜜桃| 国内偷拍第一视频第一视频区| 米奇欧美777四色影视在线| 日韩高清在线观看永久| 娇柔白嫩呻吟人妻尤物| 精品极品视频在线观看| 美女高潮黄又色高清视频免费| 狠狠久久亚洲欧美专区| 中文字幕日本一区二区在线观看 | 国产日韩av在线播放| 人妻人人澡人人添人人爽人人玩| 中文字幕乱码中文乱码毛片| 国产一区二区三区啊啊| 日韩视频中文字幕精品偷拍| 婷婷九月丁香| 亚洲一级天堂作爱av| 亚洲精品国偷拍自产在线| 国产亚洲精品久久久久秋霞| 少妇一级aa一区二区三区片| 国产三级久久精品三级91| 国产久色在线拍揄自揄拍| 五月天国产成人av免费观看| 首页动漫亚洲欧美日韩|