亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        百度遷徙規(guī)模指數(shù)構(gòu)造方法反演

        2021-08-04 03:46:12聰,嚴(yán)
        關(guān)鍵詞:區(qū)劃百度規(guī)模

        王 聰,嚴(yán) 潔

        (1. 四川警察學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 四川 瀘州 646000;2. 四川警察學(xué)院道路交通管理系 四川 瀘州 646000)

        作為分析人口遷徙規(guī)律的重要工具,百度遷徙網(wǎng)站[1]提供了城市和省區(qū)間遷徙的人口比例和總體遷移規(guī)模估計(jì),為COVID-19疫情防控提供了重要參考。然而,百度遷徙規(guī)模指數(shù)作為一個(gè)無(wú)量綱數(shù),其構(gòu)造方法并未公開(kāi),僅能從有限的信息推知該指數(shù)與實(shí)際遷徙人口可能存在正相關(guān)特征。目前國(guó)際疫情防控形勢(shì)仍不樂(lè)觀,輸入性疫情在國(guó)內(nèi)仍時(shí)有局部性傳播??紤]到人類遷徙行為是COVID-19迅速傳播的主要驅(qū)動(dòng)力[2],從防范疫情全國(guó)性二次蔓延的立場(chǎng)出發(fā)[3],分析百度遷徙的數(shù)據(jù)構(gòu)造方法及與真實(shí)人類遷徙行為的對(duì)應(yīng)關(guān)系,從中反推出遷徙行為的確切人數(shù),可以為研究總結(jié)疫情防控規(guī)律提供有益參考。

        來(lái)自移動(dòng)通信網(wǎng)絡(luò)的數(shù)據(jù)是公共衛(wèi)生管理的重要研判依據(jù)[4]。文獻(xiàn)[5]利用復(fù)雜網(wǎng)絡(luò)理論擬合人類遷徙與流行病學(xué)傳播的關(guān)系,發(fā)現(xiàn)相對(duì)于節(jié)點(diǎn)間的經(jīng)緯度距離,疫情傳播與節(jié)點(diǎn)的等效距離相關(guān)性更強(qiáng),而節(jié)點(diǎn)間的人類遷徙流量是等效距離的核心構(gòu)成部分。因此,在COVID-19疫情爆發(fā)初期,考慮人類遷徙特征的流行病傳播研究就得到了廣泛關(guān)注。文獻(xiàn)[6]利用城市間航空流量數(shù)據(jù)和騰訊人類遷徙數(shù)據(jù),以種群傳播模型進(jìn)行建模。由于航空并非中國(guó)大陸出行的首選工具,該研究對(duì)疫情初期傳播過(guò)程的解釋能力存在缺陷。曾在區(qū)域經(jīng)濟(jì)學(xué)[7]、城市經(jīng)濟(jì)學(xué)[8]和人口地理學(xué)[9]等領(lǐng)域得到應(yīng)用的百度遷徙網(wǎng)站也已重新開(kāi)放,公開(kāi)了百度依托移動(dòng)互聯(lián)網(wǎng)采集的全國(guó)300余個(gè)地級(jí)市和30余個(gè)省(直轄市,自治區(qū))的人類遷徙狀況。百度遷徙網(wǎng)站的數(shù)據(jù)陸續(xù)更新至2020年5月初,并保留1月10日-3月15日的數(shù)據(jù)以供參考。文獻(xiàn)[10]利用百度遷徙的數(shù)據(jù)初步調(diào)查了湖北省外部分城市遷入人口與疫情數(shù)據(jù)的關(guān)系,然而該分析僅局限于百度標(biāo)注的流量較大的50個(gè)城市,相對(duì)于全國(guó)300余個(gè)地級(jí)市而言,覆蓋面有所欠缺。文獻(xiàn)[11]從百度遷徙數(shù)據(jù)中發(fā)現(xiàn),各地累積確診量和自武漢流入的人口總數(shù)高度相關(guān),且次生傳播鏈基本被斬?cái)?,因此提出了一種考慮輸入病例和地區(qū)人口效應(yīng)的定量化評(píng)估新型冠狀病毒地區(qū)防控效果的近似方法。文獻(xiàn)[12]利用百度遷徙的數(shù)據(jù),對(duì)國(guó)內(nèi)前50天疫情管控措施的有效性進(jìn)行了細(xì)致分析,評(píng)估了旅行限制和社會(huì)疏導(dǎo)措施在防止傳染病傳播方面的效果。文獻(xiàn)[13]以百度遷徙數(shù)據(jù)為依據(jù),分析了限制城際人口流動(dòng),篩查/診斷/隔離/疑似密切接觸者,以及社交隔離與個(gè)人安全防護(hù)等非醫(yī)學(xué)干預(yù)手段的效果。該研究指出,此類措施在付出高昂經(jīng)濟(jì)代價(jià)的同時(shí),可能使得患病人數(shù)減少了67倍。文獻(xiàn)[14]使用了百度遷徙公布的包括武漢市歷史與實(shí)時(shí)人口流動(dòng)數(shù)據(jù),以說(shuō)明病例輸入在疫情城際傳播中的作用,并評(píng)估了防控措施的效率。文獻(xiàn)[15]則使用從百度遷徙數(shù)據(jù)中提取出武漢到河南的記錄,將河南省的輸入性病例視為對(duì)武漢市的無(wú)偏抽樣,以此估算出COVID-19在武漢的傳播情況。文獻(xiàn)[16]利用百度遷徙的數(shù)據(jù),結(jié)合我國(guó)疾控中心的每日確診病例數(shù)據(jù)訓(xùn)練SEIR模型,參考SARS的部分流行特征,利用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)了COVID-19疫情在國(guó)內(nèi)的峰值和演化趨勢(shì)。文獻(xiàn)[17]利用2020年1月10日-23日的百度遷徙數(shù)據(jù)分析了中國(guó)大陸的疫情空間格局特征,指出在省域?qū)用嬉咔閲?yán)重程度主要受鄰近特征與人口遷徙強(qiáng)度的影響。文獻(xiàn)[18]利用百度遷徙數(shù)據(jù)分析了疫情對(duì)中國(guó)城市人口遷徙的影響和城市的恢復(fù)能力。以上工作存在的一個(gè)共同問(wèn)題是將百度遷徙規(guī)模指數(shù)假定為每日鐵路、公路和航空人口流量的近似擬合,而這一假設(shè)目前并沒(méi)有明確的依據(jù)。因此,本文前期工作[19]利用公開(kāi)新聞報(bào)道中的春運(yùn)數(shù)據(jù),證實(shí)了遷徙規(guī)模指數(shù)與實(shí)際遷徙人數(shù)呈粗略線性關(guān)系,并給出了一個(gè)線性系數(shù)的大致估計(jì),以此為依據(jù)分析了COVID-19在早期的時(shí)空傳播特征。

        隨著疫情在全世界的蔓延,部分研究人員也利用人類遷徙數(shù)據(jù)研究疫情在國(guó)外的傳播與控制。文獻(xiàn)[20]使用了包含547 166次航班,總計(jì)101 455 913名乘客的人類遷徙數(shù)據(jù)集,分析了遍及六大洲22個(gè)國(guó)家的人口遷徙與疫情流行狀況的潛在關(guān)聯(lián)性,并建議在限制高感染地區(qū)人口流動(dòng)的同時(shí),亦應(yīng)對(duì)全球范圍內(nèi)的人口遷徙進(jìn)行必要管控。涉及具體國(guó)家和地區(qū)的人口遷徙與疫情防控研究也普遍展開(kāi)。文獻(xiàn)[21]使用了由Teralytics提供的2020年1月1日-4月20日匿名手機(jī)漫游數(shù)據(jù)捕獲美國(guó)每個(gè)縣的實(shí)時(shí)移動(dòng)趨勢(shì),利用這些數(shù)據(jù)來(lái)生成社交隔離評(píng)價(jià)指標(biāo),并結(jié)合流行病學(xué)數(shù)據(jù)來(lái)探索COVID-19的疫情增長(zhǎng)規(guī)律;文獻(xiàn)[22]利用超過(guò)2 700萬(wàn)個(gè)移動(dòng)設(shè)備的漫游記錄,結(jié)合社交網(wǎng)站公開(kāi)的數(shù)據(jù),估計(jì)了美國(guó)不同區(qū)域社交隔離政策造成的地理和社會(huì)網(wǎng)絡(luò)溢出效應(yīng);文獻(xiàn)[23]將移動(dòng)遷徙數(shù)據(jù)與人口普查統(tǒng)計(jì)數(shù)據(jù)相結(jié)合,建立了COVID-19在波士頓市區(qū)的精細(xì)傳播模型。文獻(xiàn)[24]利用一個(gè)包含意大利107個(gè)大區(qū)的人類遷徙網(wǎng)絡(luò)數(shù)據(jù)集估計(jì)了改進(jìn)SEIR傳播模型的參數(shù)后指出,對(duì)人類遷徙與社交隔離的有效限制已將該國(guó)疫情嚴(yán)重程度降低了45%。文獻(xiàn)[25]利用社交網(wǎng)站提供的近似實(shí)時(shí)的意大利人口遷徙數(shù)據(jù)進(jìn)行了大規(guī)模分析,以研究交通管制策略對(duì)個(gè)人和地方政府經(jīng)濟(jì)狀況的影響;文獻(xiàn)[26]則關(guān)注了另一個(gè)疫情嚴(yán)重的國(guó)家巴西:通過(guò)航空數(shù)據(jù)的分析顯示,約76%的巴西毒株可能在2020年2月22日-3月11日期間自歐洲傳入,并主要在本地和本州內(nèi)傳播。此后盡管航空旅行人數(shù)急劇下降,但大型城市的輸出效應(yīng)不容忽視,當(dāng)前該國(guó)的干預(yù)措施仍不足以控制疫情傳播。文獻(xiàn)[27]利用巴西數(shù)百萬(wàn)匿名移動(dòng)漫游數(shù)據(jù)分析了COVID-19在巴西各州內(nèi)最可能的傳播方式,為公共管理計(jì)劃制定與資源分配提供了參考。人類遷徙數(shù)據(jù)同樣被應(yīng)用于英國(guó)[28]和印度[29]等國(guó)家的疫情防控研究。

        概覽近期文獻(xiàn)和成果,百度遷徙提供的數(shù)據(jù)已成為COVID-19疫情傳播研究的核心數(shù)據(jù)來(lái)源之一。然而可能出于商業(yè)原因,百度遷徙提供的反映遷徙人口絕對(duì)規(guī)模的指數(shù)僅為無(wú)量綱數(shù),公開(kāi)的信息僅能表明該指數(shù)的構(gòu)成與人口遷徙量正相關(guān),僅能回答如“區(qū)域A的在某日的遷徙規(guī)模指數(shù)相對(duì)于區(qū)域B高約1.25”,該指數(shù)代表的物理意義不夠明確,對(duì)于遷徙人口的絕對(duì)數(shù)量刻畫(huà)存在缺陷??紤]到流行病學(xué)模型對(duì)參量的敏感性,這一概要性質(zhì)的表述限制了相關(guān)研究的可靠性。因此,有兩個(gè)問(wèn)題是不得不回答的:1) 百度遷徙的數(shù)據(jù)與真實(shí)人類遷徙流量滿足什么映射關(guān)系?2) 如何從百度遷徙數(shù)據(jù)反推出真實(shí)的人口遷徙流量?

        為了解答這兩個(gè)問(wèn)題,本文首先概要闡述了百度遷徙的數(shù)據(jù)來(lái)源與獲取,然后以一個(gè)具體行政區(qū)劃為例,挖掘了百度遷徙數(shù)據(jù)中內(nèi)蘊(yùn)的一個(gè)恒等關(guān)系。在此基礎(chǔ)上,從理論上反演了實(shí)際遷徙人口和百度遷徙指數(shù)的函數(shù)表達(dá)式。基于費(fèi)馬 - 歐拉定理(Fermat-Euler theorem)證明得到了真實(shí)遷徙人數(shù)的高概率互質(zhì)特征,以此為基礎(chǔ)對(duì)映射函數(shù)的參數(shù)進(jìn)行了有效估計(jì),最終得到了一個(gè)自洽的線性函數(shù)映射模型。真實(shí)數(shù)據(jù)集上對(duì)內(nèi)蘊(yùn)恒等式的驗(yàn)證結(jié)果支持了該模型的有效性。

        1 百度遷徙數(shù)據(jù)概覽

        百度慧眼是百度推出的一個(gè)商業(yè)地理智能數(shù)據(jù)平臺(tái)。作為商業(yè)數(shù)據(jù)中面向公眾開(kāi)放的部分,百度遷徙網(wǎng)站展示了中國(guó)大陸省市兩級(jí)全部行政區(qū)劃的遷入/遷出遷徙規(guī)模指數(shù)以及與上一年度同一時(shí)間節(jié)點(diǎn)的對(duì)比,并針對(duì)每個(gè)行政區(qū)劃,分別按照地市級(jí)和省級(jí)級(jí)別提供了最熱門(mén)的100個(gè)遷入來(lái)源區(qū)劃和遷出目的區(qū)劃,以及遷自/遷入對(duì)應(yīng)區(qū)劃的人口百分比。其遷徙邊界定義為某一區(qū)劃的行政管理地域,包括該行政區(qū)劃所管轄的所有下級(jí)區(qū)劃。

        百度遷徙數(shù)據(jù)總體可以分為兩部分:遷徙規(guī)模指數(shù)和熱門(mén)遷徙區(qū)劃的遷徙人口百分比。百度將這兩個(gè)參量解釋為:1) 遷徙規(guī)模指數(shù):反映遷入或遷出人口規(guī)模,城市間可橫向?qū)Ρ龋?) 熱門(mén)遷入/遷出地比例:遷入/遷出到某城市的人口與全國(guó)遷入/遷出總?cè)丝诘谋戎怠?/p>

        典型的百度遷徙數(shù)據(jù)的核心內(nèi)容可以整理如表1和表2所示。

        表1 人口遷徙百分比

        表2 特定日期遷徙規(guī)模指數(shù)列表

        其中,表1的核心數(shù)據(jù)是特定區(qū)劃遷徙人口的百分比。如表1的第一條目可解讀為:2020年1月1日自上海市遷入北京市的人口占北京市總體遷入人口的1.62%;表2的值項(xiàng)是指定區(qū)劃和指定方向的遷徙指數(shù)。如表2的第一條目表明,天津市在2020年1月1日的遷入規(guī)模指數(shù)為2.480 868。

        2 百度遷徙數(shù)據(jù)中的內(nèi)蘊(yùn)等式

        即遷徙規(guī)模指數(shù)與實(shí)際遷徙人數(shù)正相關(guān)。將遷徙規(guī)模指數(shù)的構(gòu)造方法定義為真實(shí)遷徙人數(shù)的函數(shù):

        式中,以區(qū)劃 α的視角統(tǒng)計(jì)遷至區(qū)劃 β的人口數(shù)量,應(yīng)等同于以區(qū)劃 β視角統(tǒng)計(jì)的自區(qū)劃 α遷入的人口數(shù)量。然后從真實(shí)數(shù)據(jù)中觀察是否存在其他等式。對(duì)美元流通數(shù)據(jù)[30]、手機(jī)信令數(shù)據(jù)[31]、GPS漫游數(shù)據(jù)[32]和小樣本的問(wèn)卷調(diào)查[33]研究證實(shí),群體視角下人類出行距離呈現(xiàn)出顯著的冪律分布,或帶指數(shù)截?cái)嗟膬缏煞植继卣鳎鲂腥藬?shù)隨出行距離增長(zhǎng)將顯著衰減。因此同省內(nèi)的區(qū)劃更有可能出現(xiàn)于彼此的Top100遷徙目的地中。寧夏回族自治區(qū)僅轄有5個(gè)地級(jí)市,是全國(guó)下轄地級(jí)市最少的省區(qū)之一,為縮短行文,在此將其作為示例進(jìn)行考察。抽取2020年1月1日寧夏及所轄地級(jí)市的人口遷徙情況如表3~表5所示。

        表3 寧夏所轄區(qū)劃2020年1月1日遷徙規(guī)模指數(shù)統(tǒng)計(jì)

        其中表3可解讀如:2020年1月1日,銀川市遷入規(guī)模指數(shù)為0.877 521 6,遷出規(guī)模指數(shù)為0.911 898;表4可解讀如:銀川市遷入人口中有18.13%來(lái)自石嘴山市,有31.06%來(lái)自吳忠市;表5可解讀如:銀川市遷出人口中有17.32%前往石嘴山市,有32.04%前往吳忠市。

        觀察發(fā)現(xiàn),表3~表5中的內(nèi)蘊(yùn)等式為:

        為校驗(yàn)該內(nèi)蘊(yùn)等式是否成立,首先定義相對(duì)誤差RE(relative error):

        相對(duì)誤差RE的作用是評(píng)價(jià)遷徙數(shù)據(jù)相對(duì)于式(5)的偏離程度。將表3~表5的數(shù)據(jù)代入式(6),以遷入數(shù)據(jù)為基準(zhǔn),得到以百分比表示的相對(duì)誤差統(tǒng)計(jì)如表6所示。

        表6 寧夏所轄區(qū)劃2020年1月1日遷徙指數(shù)相對(duì)誤差統(tǒng)計(jì) %

        表中可見(jiàn),最大的相對(duì)誤差值僅為0.3%,平均相對(duì)誤差也僅為0.07%。因此,從小樣本數(shù)據(jù)來(lái)看,可以認(rèn)為內(nèi)蘊(yùn)等式得到了有效驗(yàn)證。

        3 遷徙規(guī)模指數(shù)構(gòu)造反演與參數(shù)估計(jì)

        3.1 遷徙規(guī)模指數(shù)構(gòu)造過(guò)程推導(dǎo)

        注意到式(1)對(duì)遷徙規(guī)模指數(shù)特征的刻畫(huà)仍是極為粗略的,滿足該式的函數(shù)形式也不是唯一的。因此有必要推導(dǎo)出遷徙規(guī)模指數(shù)的確定表達(dá)式,即式(2)的確切形式。

        將式(2)代入式(5),可得:

        即,遷徙規(guī)模指數(shù)可表達(dá)為實(shí)際遷徙人數(shù)的線性函數(shù)。

        3.2 參數(shù)估計(jì)

        在爬取的數(shù)據(jù)中,遷徙指數(shù)至多保留至小數(shù)點(diǎn)后7位,因此首先排除遷徙指數(shù)上的舍入誤差問(wèn)題??紤]人口遷徙的隨機(jī)性,若指數(shù)存在舍入誤差,則尾數(shù)的最后一位的取值應(yīng)近似服從均勻分布。抽取2020年1月-4月遷徙規(guī)模指數(shù)共95 590條,最后一位實(shí)際取值分布如表7所示:

        表7 遷徙規(guī)模指數(shù)尾數(shù)統(tǒng)計(jì)

        其中,原生數(shù)據(jù)中小數(shù)點(diǎn)后有效數(shù)字不滿7位的取值,以0補(bǔ)足。表中可見(jiàn)末位尾數(shù)全部為偶數(shù),難以滿足均勻分布推論,不應(yīng)認(rèn)為是偶然因素所致。因此有理由認(rèn)為爬取的指數(shù)是一個(gè)精確的數(shù)值,可以排除舍入誤差問(wèn)題。

        對(duì)181 701條遷徙規(guī)模指數(shù)記錄(包含2020年數(shù)據(jù),及對(duì)應(yīng)的2019年歷史數(shù)據(jù))進(jìn)行統(tǒng)計(jì),其中僅包含44 703個(gè)不同的取值。因此有理由認(rèn)為,該指數(shù)的取值是離散的,即推論1是成立的。于是將44 703個(gè)出現(xiàn)過(guò)的指數(shù)值進(jìn)行排序并取級(jí)差,結(jié)果如圖1所示。

        圖1 遷徙規(guī)模指數(shù)取值級(jí)差

        圖中可以看到鮮明的離散特征,即不同取值之間的差值集中在有限個(gè)離散的值上,這為推論2的成立提供了可靠的依據(jù)。更為關(guān)鍵的現(xiàn)象是,無(wú)論是級(jí)差還是遷徙規(guī)模指數(shù)取值,都是最小間隔3.24×10-5的正整數(shù)倍,有理由認(rèn)為是一個(gè)或多個(gè)自然人在遷徙規(guī)模指數(shù)上映射的結(jié)果。

        接下來(lái)討論實(shí)際遷徙人數(shù)的互質(zhì)特征。根據(jù)費(fèi)馬-歐拉定理,s條記錄值互質(zhì)的概率P(s)可利用黎曼 ζ函數(shù)(Riemann ζ function, 當(dāng)s為正整數(shù)時(shí),ζ(s)退化為歐拉乘積公式)表示為[34]:

        式中,p的值域被定義為質(zhì)數(shù)集合。根據(jù) ζ函數(shù)性質(zhì)可知,當(dāng)s≥1時(shí) ,P(s)單調(diào)遞增。特殊地,當(dāng)s為正偶數(shù)時(shí),ζ (s)的取值可解析地表達(dá)為:

        式中,Bs為第s項(xiàng)伯努利數(shù)(Bernoulli number)。

        當(dāng)s=10時(shí),P(s)的值收斂至約99.9%;當(dāng)s=14時(shí),P(s)收斂至高于99.99%。即隨機(jī)抽取不少于14條不同的遷徙人口值,其互質(zhì)的概率超過(guò)99.99%,且隨著抽取記錄數(shù)量的增加,這一概率仍會(huì)進(jìn)一步提升。而統(tǒng)計(jì)得到指數(shù)的取值高達(dá)4萬(wàn)余條,因此有理由認(rèn)為,遷徙指數(shù)記錄所代表的實(shí)際遷徙人數(shù)極高概率是互質(zhì)的,其最大公約數(shù)為1。因此,可以認(rèn)為當(dāng)一個(gè)自然人映射到遷徙規(guī)模指數(shù)上時(shí),有:

        于是,將斜率k代入式(13),可得任一方向上百度遷徙規(guī)模指數(shù)的構(gòu)造方法為:

        4 數(shù)據(jù)獲取方法

        4.1 數(shù)據(jù)訪問(wèn)接口

        通過(guò)對(duì)百度遷徙網(wǎng)站W(wǎng)eb頁(yè)面的分析可知,遷徙規(guī)模指數(shù)數(shù)據(jù)來(lái)自接口:http://huiyan.baidu.com/migration/historycurve.json,該接口以HTTP GET方法訪問(wèn),并攜帶必要參數(shù)如表8所示。

        表8 遷徙規(guī)模指數(shù)數(shù)據(jù)訪問(wèn)必要參數(shù)

        其中的id參數(shù)定義為以國(guó)家標(biāo)準(zhǔn)GB/T2260-2007定義的中華人民共和國(guó)行政區(qū)劃代碼[35],涵蓋了所有省級(jí)區(qū)劃及其(除直轄市)直管的下級(jí)區(qū)劃。正常情況下返回JSON格式文本形如:

        其中的有效數(shù)據(jù)為list字段,記錄了2020年春運(yùn)期間特定區(qū)劃在特定日期的遷徙規(guī)模指數(shù),以及以農(nóng)歷日期對(duì)齊的2019年同期數(shù)據(jù)作為對(duì)比。

        地級(jí)市遷徙人口比例數(shù)據(jù)來(lái)自接口:

        http://huiyan.baidu.com/migration/cityrank.json

        省級(jí)遷徙人口比例數(shù)據(jù)來(lái)自接口:

        http://huiyan.baidu.com/migration/provincerank.j son

        以上接口以HTTP GET方法訪問(wèn),并攜帶必要參數(shù)如表9所示。

        表9 遷徙百分比數(shù)據(jù)訪問(wèn)必要參數(shù)

        正常情況下返回JSON格式文本形如:

        其中有效數(shù)據(jù)為list字段。"city_name"等字段以Unicode轉(zhuǎn)義字符形式編碼,使用時(shí)應(yīng)進(jìn)行解碼。

        4.2 數(shù)據(jù)污染與有效性校驗(yàn)

        百度遷徙網(wǎng)站一種可能的反爬蟲(chóng)策略為隨機(jī)投放污染數(shù)據(jù)。舉例而言,本文初次爬取的三亞市在2020年2月2日遷出至地級(jí)市的數(shù)據(jù)即可能存在污染。與真實(shí)數(shù)據(jù)對(duì)比如表10所示。

        限于篇幅,表10僅枚舉前3位數(shù)據(jù)。因此為了確保爬取數(shù)據(jù)的準(zhǔn)確性,采用了一種主-從爬蟲(chóng)框架,首先確保主從節(jié)點(diǎn)使用不同的IP地址,由主節(jié)點(diǎn)按日期爬取數(shù)據(jù)并進(jìn)行校驗(yàn)。對(duì)于校驗(yàn)失敗的數(shù)據(jù),交由從節(jié)點(diǎn)重新爬取,以避免主從節(jié)點(diǎn)同時(shí)被遠(yuǎn)程主機(jī)屏蔽。

        表10 污染數(shù)據(jù)與真實(shí)數(shù)據(jù)對(duì)比示例

        5 內(nèi)蘊(yùn)等式有效性驗(yàn)證

        首先考察市際遷徙流量是否滿足本文提出的線性關(guān)系。在數(shù)據(jù)中,北京、上海等4個(gè)直轄市,以及湖北省潛江市、天門(mén)市和新疆維吾爾自治區(qū)石河子市、圖木舒克市等直轄縣級(jí)行政區(qū)劃均被納入城市區(qū)劃進(jìn)行采集和統(tǒng)計(jì)。數(shù)據(jù)中,約93.81%的記錄誤差位于舍入誤差區(qū)間內(nèi),異常記錄僅占約6.19%。意味著在城市間交通流量這個(gè)層面,線性映射模型的基本假定可以得到滿足,數(shù)據(jù)測(cè)量誤差對(duì)于函數(shù)映射模型有效性的影響是有限的。正常記錄、異常記錄和全部記錄的相對(duì)誤差累積分布如圖2a所示。圖中可見(jiàn),大約81.2%的記錄相對(duì)誤差在5%以內(nèi);而由于異常記錄占比較低,過(guò)濾異常記錄后,這一指標(biāo)微升到82.8%。對(duì)于異常記錄而言,這一百分比則有51.1%。然而僅僅考察相對(duì)誤差是不夠全面的,誤差的絕對(duì)差值,抑或就本文述及的模型而言,誤差的絕對(duì)人口數(shù),也是評(píng)價(jià)模型有效性的重要指標(biāo)。定義絕對(duì)誤差A(yù)E(absolute error):

        遷入流量的絕對(duì)誤差與式(19)類似,不再贅述。絕對(duì)誤差的含義顯然是經(jīng)由線性映射模型換算后城市 α和 β統(tǒng)計(jì)視角下遷徙人口的差值。圖2b是正常節(jié)點(diǎn)絕對(duì)誤差統(tǒng)計(jì)直方圖。圖中可見(jiàn),對(duì)于正常記錄而言,當(dāng)不考慮舍入誤差時(shí),有約87.44%的記錄絕對(duì)誤差不多于3人;約93.44%的記錄絕對(duì)誤差不多于5人。絕對(duì)誤差的極值出現(xiàn)在1月20日:當(dāng)日汕頭視角下自深圳遷入人口及對(duì)應(yīng)的反向記錄的誤差達(dá)到了79人的極值,但對(duì)應(yīng)的相對(duì)誤差僅為0.48%。因此有理由認(rèn)為,相較于測(cè)量誤差,舍入誤差具備壓倒性的影響。當(dāng)考慮舍入誤差時(shí),遷徙人數(shù)的取值將松弛為某個(gè)特定區(qū)間,因此記錄的絕對(duì)誤差顯著減小。圖2c統(tǒng)計(jì)了異常記錄絕對(duì)誤差人數(shù)。圖中可以看到,即使是異常記錄,其最大絕對(duì)誤差人數(shù)相對(duì)于舍入誤差區(qū)間也僅偏出36人。在異常記錄中,有82.98%的記錄誤差人數(shù)在3人以內(nèi),有98.65% 的記錄絕對(duì)誤差人數(shù)在10人以內(nèi)??梢?jiàn),少量的違例現(xiàn)象對(duì)線性映射模型不產(chǎn)生本質(zhì)影響,將其假定為數(shù)據(jù)測(cè)量誤差是自洽的。

        圖2 市際遷徙流量校驗(yàn)

        注意到一個(gè)現(xiàn)象,即較多的絕對(duì)誤差人數(shù)未必對(duì)應(yīng)于較高的相對(duì)誤差。因此,通過(guò)圖2d分析異常記錄的相對(duì)誤差和絕對(duì)誤差的對(duì)應(yīng)關(guān)系。該圖可分為4個(gè)邏輯象限:高相對(duì)誤差高絕對(duì)誤差;高相對(duì)誤差低絕對(duì)誤差;低相對(duì)誤差高絕對(duì)誤差和高相對(duì)誤差高絕對(duì)誤差。在圖中,高相對(duì)誤差高絕對(duì)誤差區(qū)域幾乎為空白。此外,除在低相對(duì)誤差低絕對(duì)誤差象限集中了大部分記錄外,另外兩個(gè)象限也存在一定比例的記錄分布。分析可知,當(dāng)兩地人口遷徙流量懸殊時(shí),以低流量區(qū)劃視角統(tǒng)計(jì)的記錄易出現(xiàn)高相對(duì)誤差低絕對(duì)誤差的情況:而兩地人口流量均較大時(shí),則易出現(xiàn)低相對(duì)誤差高絕對(duì)誤差的違例數(shù)據(jù)。

        市-省間遷徙流量數(shù)據(jù)同樣可以印證線性映射模型的有效性。利用與市際遷徙流量相同的統(tǒng)計(jì)方法進(jìn)行分析。如圖3a,有82.65%的數(shù)據(jù)記錄誤差位于舍入誤差區(qū)間內(nèi)。該數(shù)據(jù)雖較城市間流量數(shù)據(jù)偏低,但全部記錄的相對(duì)誤差同時(shí)亦有顯著降低:有約92.06%的記錄相對(duì)誤差不高于5%;這一指標(biāo)在正常記錄中達(dá)到了97.13%,在異常記錄中同樣達(dá)到了77.3%,說(shuō)明在市省流量層面的測(cè)量誤差影響同樣是有限的。圖3b是正常記錄的絕對(duì)誤差統(tǒng)計(jì)。其中有73.86%的絕對(duì)誤差人數(shù)在3人以內(nèi),有95.77%的絕對(duì)誤差人數(shù)在10人以內(nèi)。在正常記錄中誤差人數(shù)極值為97人,出現(xiàn)于1月20日北京市視角下自廣東省遷入人數(shù),此時(shí)相對(duì)誤差為1.32%,仍處于舍入誤差松弛區(qū)間。如圖3c,當(dāng)將考察視角遷移到異常記錄時(shí),發(fā)現(xiàn)擦除舍入誤差后最大誤差人數(shù)為250人,出現(xiàn)于1月17日濮陽(yáng)市視角下自山東省遷入數(shù)據(jù),此時(shí)對(duì)應(yīng)的相對(duì)誤差也僅為2.64%。注意到即使僅考慮異常記錄,也有約98.6%的絕對(duì)誤差人數(shù)仍不多于50人——對(duì)于少則數(shù)百萬(wàn),多則近億人口的省級(jí)行政區(qū)劃而言,可以認(rèn)為這個(gè)量級(jí)的測(cè)量誤差影響仍是有限的。相對(duì)誤差與絕對(duì)誤差的對(duì)應(yīng)關(guān)系如圖3d所示??梢?jiàn)在市-省層面表現(xiàn)出了與市際遷徙相似的分布特征,但其低相對(duì)誤差低絕對(duì)誤差象限的記錄更加貼近相對(duì)誤差坐標(biāo)軸。一個(gè)合理的解釋是,省級(jí)區(qū)劃的遷徙記錄來(lái)自下轄市級(jí)區(qū)劃對(duì)應(yīng)記錄的簡(jiǎn)單加和,因此下屬區(qū)劃間測(cè)量誤差的累積會(huì)抬高絕對(duì)誤差;但由于測(cè)量誤差存在部分相互抵消的現(xiàn)象,而市級(jí)區(qū)劃的流量基數(shù)不變,因此隨著遷徙流量的累加,相對(duì)誤差反而會(huì)有所下降。

        圖3 市-省遷徙流量校驗(yàn)

        將同樣的分析方法應(yīng)用于省際遷徙數(shù)據(jù)進(jìn)行驗(yàn)證。在圖4a中,有84.87%的記錄誤差可被舍入誤差區(qū)間覆蓋。同時(shí),由于記錄兩端的節(jié)點(diǎn)均為省級(jí)區(qū)劃,人口遷徙基數(shù)較大,降低了遷徙記錄的相對(duì)誤差:有50.73%的記錄相對(duì)誤差小于0.5%;89.43%的記錄相對(duì)誤差小于5%。圖4b與4c分別統(tǒng)計(jì)了正常記錄與擦除舍入誤差后異常記錄的絕對(duì)誤差??梢钥闯觯词乖谑〖?jí)區(qū)劃這個(gè)層面,絕對(duì)誤差仍可控制在相對(duì)很低的水平。對(duì)4個(gè)月的遷徙記錄統(tǒng)計(jì)顯示,正常記錄中的極值出現(xiàn)于1月12日江西視角下自廣東遷入記錄,與其對(duì)應(yīng)的反向記錄差值為107人,對(duì)應(yīng)的相對(duì)誤差僅為0.05%。異常記錄中的極值出現(xiàn)在1月23日北京視角下遷往山東的記錄及對(duì)應(yīng)的反向記錄,此時(shí)絕對(duì)誤差達(dá)到357人。相對(duì)于兩地當(dāng)日該方向上70 871~71 337人的遷徙人數(shù)而言,其相對(duì)誤差僅為約0.5%。如圖4d所示,相對(duì)誤差與絕對(duì)誤差的關(guān)系也體現(xiàn)出與市際流量和市省流量相似的特征。但隨著流量基數(shù)的增加,低相對(duì)誤差高絕對(duì)誤差象限匯聚了相對(duì)更多的記錄。總的來(lái)看,省際遷徙流量的數(shù)據(jù)同樣可以給予線性映射模型有力的支持。

        圖4 省際遷徙流量校驗(yàn)

        6 結(jié) 束 語(yǔ)

        猜你喜歡
        區(qū)劃百度規(guī)模
        2024年底A股各板塊市場(chǎng)規(guī)模
        Robust adaptive UKF based on SVR for inertial based integrated navigation
        林芝市雷電風(fēng)險(xiǎn)區(qū)劃
        基于“三線一單”的環(huán)境功能區(qū)劃實(shí)證研究
        川渝傳統(tǒng)民居區(qū)劃的環(huán)境蘊(yùn)意
        規(guī)模之殤
        能源(2018年7期)2018-09-21 07:56:14
        百度年度熱搜榜
        Mentor Grpahics宣布推出規(guī)??蛇_(dá)15BG的Veloce Strato平臺(tái)
        百度遭投行下調(diào)評(píng)級(jí)
        百度“放衛(wèi)星”,有沒(méi)有可能?
        太空探索(2014年4期)2014-07-19 10:08:58
        国产一区二区三区4区| 青青草视频在线免费观看91| 青青草久久久亚洲一区| 国产草逼视频免费观看| 国产一区二区三区我不卡| 精品日韩亚洲av无码| 国产乱人对白| 国产欧美日韩一区二区三区| 欧美熟妇色ⅹxxx欧美妇 | 91麻豆精品国产91久久麻豆| 亚洲夜夜性无码| 国产熟女露脸大叫高潮| 亚洲国产精品久久久久秋霞影院| 美女大量吞精在线观看456| 亚洲aⅴ无码日韩av无码网站| 伊人精品无码AV一区二区三区 | 风韵丰满妇啪啪区老老熟女杏吧 | 亚洲国产成人精品福利在线观看| 国产美女自拍国语对白| 国产日产亚洲系列首页| 激情文学婷婷六月开心久久| 蜜桃av在线免费网站| 色综合久久蜜芽国产精品| 亚洲一区av在线观看| 秋霞午夜无码鲁丝片午夜精品| 品色堂永远的免费论坛| 如何看色黄视频中文字幕| 国产美女高潮流白浆视频| 亚洲av不卡一区男人天堂| 最美女人体内射精一区二区 | 亚洲国产精品美女久久| 国产美女爽到喷出水来视频| 国产内射999视频一区| 久久精品国产亚洲AⅤ无码| 欧美日韩激情在线一区二区| 国产不卡一区二区三区视频| 国产自产在线视频一区| 自拍偷自拍亚洲精品第按摩| 国产色在线 | 亚洲| 婷婷色中文字幕综合在线| 2021久久精品国产99国产|