亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于主成分回歸算法的城市客流聚集風(fēng)險預(yù)測

        2019-08-14 09:41:40王聚全馬慧民
        應(yīng)用科學(xué)學(xué)報 2019年4期
        關(guān)鍵詞:共線性貢獻(xiàn)率客流

        王聚全, 王 偉, 馬慧民, 楊 博, 杜 渂

        1.迪愛斯信息技術(shù)股份有限公司,上海200032

        2.電信科學(xué)技術(shù)第一研究所有限公司,上海200032

        3.上海市公安局科技處,上海200042

        4.上海市北高新股份有限公司,上海200436

        伴隨中國經(jīng)濟(jì)的騰飛,大型活動逐漸成為促進(jìn)文化交流和經(jīng)濟(jì)繁榮發(fā)展的重要載體.諸如上海、北京等規(guī)模較大城市,各種大型活動(如節(jié)假日歡慶、體育賽事等)的規(guī)模和數(shù)量與日俱增,隨之引發(fā)的各種群體性安全問題層出不窮.據(jù)中國社科院公布的《社會藍(lán)皮書》數(shù)據(jù)顯示,中國發(fā)生的群體性事件從1993年至2005年約增加10 倍,且近幾年依然呈現(xiàn)上升趨勢[1-2],尤其是2014年元旦跨年夜發(fā)生在上海外灘的踩踏事件再一次給政府應(yīng)急管理敲響了警鐘.

        對以往發(fā)生的群體性事件進(jìn)行分析后不難發(fā)現(xiàn),客流密度過大、過度擁擠是事故發(fā)生的根本原因[3-4].在大城市,移動網(wǎng)絡(luò)基本實現(xiàn)了全覆蓋,且手機(jī)的人群使用量也達(dá)到了較高水平[5].因此,如何有效利用現(xiàn)有數(shù)據(jù)預(yù)測客流量的變化情況已逐漸成為業(yè)界的重點研究方向,目前客流預(yù)測方法大致可分為兩類:

        一類是基于時間序列的模型預(yù)測法[6-7],代表算法有差分自回歸移動平均(autoregressive integrated moving average, ARIMA)模型.該類算法具有模型簡單、不需要借助輸入變量的優(yōu)點,但不能捕獲非線性關(guān)系且有輸入數(shù)據(jù)平穩(wěn)或差分后平穩(wěn)的要求.

        另一類是基于降維的模型預(yù)測法[8],代表算法有主成分分析(principal component analysis, PCA)法.該類算法的優(yōu)點是在損失較少的情況下能從眾多信息中抽取關(guān)鍵信息,缺點是需要保證主成分因子符號為非負(fù).

        綜合以上兩類算法的優(yōu)缺點以及通常利用運(yùn)營商提供的手機(jī)用戶數(shù)據(jù)這兩方面因素,本文采用主成分分析、回歸分析和最小二乘法相結(jié)合的數(shù)學(xué)模型對特定區(qū)域的客流聚集人數(shù)和趨勢進(jìn)行預(yù)判,與ARIMA 算法相比在預(yù)測準(zhǔn)確度方面有較大提升.

        1 算法模型理論

        1.1 ARIMA 模型

        時間序列的分析模型包括以下幾種:自回歸[9](auto-regressive,AR)、移動平均[10](moving average, MA)、自回歸移動平均[11](auto-regressive moving average, ARMA)、ARIMA 等模型,其中ARIMA 模型作為近年來的最新研究成果,受到了工商界和學(xué)術(shù)界的廣泛關(guān)注,其核心公式為

        式中,?[.]表示AR 的系數(shù),e[.]表示MA的系數(shù).ARIMA 模型要求輸入的時間序列是平穩(wěn)時間序列或者經(jīng)過差分后的平穩(wěn)時間序列,檢驗時間序列是否平穩(wěn)的技術(shù)手段是使用時間序列的自相關(guān)系數(shù)[13](autocorrelation function, ACF)和偏自相關(guān)系數(shù)[14](partial autocorrelation function, PACF).在參數(shù)估計階段,依據(jù)赤池信息準(zhǔn)則[15](Akaike information criterion,AIC)和貝葉斯信息準(zhǔn)則[16](Bayesian information criterion, BIC)確定最優(yōu)階數(shù).

        1.2 多重共線性

        多重共線性的產(chǎn)生是因為模型中自變量之間存在較高程度的相關(guān)性,所以自變量之間通常可以相互線性表出,即存在一組不全為0 的系數(shù)c0,c1,c2,··· ,cn,使得自變量在幾何平面上幾乎可以重疊成一條直線[17],其計算公式為

        多重共線性越嚴(yán)重,以最小二乘法估計的參數(shù)方差就會不斷增加,最終導(dǎo)致回歸方程的穩(wěn)健性[18]下降、個別自變量的顯著性關(guān)系不明顯等結(jié)果.目前,診斷多重共線性問題方面最常用的指標(biāo)為容忍度(tolerance)T 和方差膨脹因子(variance inflation factor)Vi.兩者之間互為倒數(shù),記xi的方差膨脹因子為Vi,其計算公式為

        一旦診斷出模型存在多重共線性,就要想辦法解決該問題.近幾年,很多學(xué)者對該領(lǐng)域進(jìn)行了大量的研究,在一定程度上緩解了共線性問題帶來的預(yù)警準(zhǔn)確度不高的問題.為進(jìn)一步提升預(yù)警準(zhǔn)確程度,本文選擇主成分分析法解決以上問題.

        1.3 主成分分析

        主成分分析是將多種相關(guān)性較高的數(shù)據(jù)轉(zhuǎn)換為少數(shù)幾個綜合指標(biāo),從而達(dá)到降維的目的.轉(zhuǎn)換后的指標(biāo)為原始指標(biāo)的線性組合,且轉(zhuǎn)換后的指標(biāo)數(shù)遠(yuǎn)少于轉(zhuǎn)換前的指標(biāo)數(shù),此時也能保留原始數(shù)據(jù)的絕大部分信息.該過程[19]包括以下內(nèi)容:

        假設(shè)原始數(shù)據(jù)包含的樣本量為n,每個樣本有p 個屬性,則原始數(shù)據(jù)構(gòu)成了一個n×p 維的矩陣,具體公式為

        數(shù)據(jù)眾多屬性之間的單位和數(shù)量級通常存在差異,為了進(jìn)一步分析研究,應(yīng)先根據(jù)式(5)進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化變換

        特征值越大對應(yīng)的方差貢獻(xiàn)率越大,于是通過累計方差貢獻(xiàn)率來確定最佳的主成分?jǐn)?shù)目.通常選取累計方差貢獻(xiàn)率達(dá)到80%的前n 個線性組合作為主成分[20],其計算公式為

        1.4 主成分回歸

        假設(shè)隨機(jī)變量y 與主成分F1,F2,··· ,FP的線性回歸模型為[21]

        式中,β0為回歸函數(shù),常數(shù)項βp(i=1, 2,···, p)為自變量回歸系數(shù),u 為隨機(jī)干擾項.將式(8)進(jìn)行轉(zhuǎn)化后可得其矩陣形式為

        根據(jù)最小二乘法對方程進(jìn)行偏導(dǎo)數(shù)極值求解,得到未知參數(shù)的最小二乘估計值為

        2 算法模型構(gòu)建

        在較大城市,移動網(wǎng)絡(luò)目前幾乎實現(xiàn)了全網(wǎng)覆蓋,且手機(jī)的人群使用量也達(dá)到了較高水平,手機(jī)信令數(shù)據(jù)已經(jīng)成為城市客流聚集風(fēng)險預(yù)測的一種常用數(shù)據(jù).運(yùn)營商網(wǎng)絡(luò)具有以下兩點自身特性:1)運(yùn)營商網(wǎng)絡(luò)覆蓋范圍和實際區(qū)域無法完全匹配,且誤差范圍不穩(wěn)定;2)某些區(qū)域存在基站同時覆蓋、信號漂移和干擾等因素.因此,運(yùn)營商的手機(jī)信令數(shù)據(jù)往往與該區(qū)域的真實客流人數(shù)有較大差異,不能真實反映該區(qū)域的客流聚集程度.

        本文從上海市內(nèi)客流密集的公共場所中選擇某區(qū)域作為研究對象,分析該區(qū)域運(yùn)營商提供的手機(jī)用戶數(shù)據(jù)(該數(shù)據(jù)為經(jīng)過脫敏處理后的統(tǒng)計數(shù)據(jù)而非個體數(shù)據(jù).),選擇算法所需滯留用戶人數(shù)X1、滯留用戶7 天平均人數(shù)X2、新進(jìn)入用戶人數(shù)X3、新進(jìn)入用戶7 天平均人數(shù)X4、離開用戶人數(shù)X5、離開用戶7 天平均人數(shù)X6字段,對所選字段數(shù)據(jù)進(jìn)行預(yù)處理后得到用戶數(shù)分布及變化情況如圖1 所示.

        圖1 手機(jī)用戶數(shù)分布圖Figure 1 Distribution of mobilephone users

        2.1 ARIMA 模型參數(shù)選擇

        模型預(yù)測前需要對輸入的時間序列進(jìn)行平穩(wěn)性檢驗.觀察圖1 可知該時間序列不平穩(wěn),于是對時間序列一階進(jìn)行差分,得到自相關(guān)系數(shù)和偏自相關(guān)系數(shù)如圖2 和3 所示.

        圖2 自相關(guān)系數(shù)分布圖Figure 2 Distribution of autocorrelation

        圖3 偏自相關(guān)系數(shù)分布圖Figure 3 Distribution of partial autocorrelation

        從圖2 和3 中可以看出自相關(guān)圖和偏自相關(guān)圖二階拖尾,依據(jù)AIC 和BIC 最小的原則可知ARIMA(2,1,2)為最優(yōu)模型.

        模型參數(shù)確定后就可以檢驗其殘差分布,合理的模型殘差分布應(yīng)該符合均數(shù)為0 的正太分布.本文繪制如圖4 所示的殘差分布圖,可見本文模型的殘差分布接近均值為0 的正態(tài)分布,符合作為對比實驗的條件.

        圖4 殘差分布圖Figure 4 Residual distribution

        2.2 相關(guān)性分析與共線性診斷

        分析運(yùn)營商提供的手機(jī)用戶數(shù)據(jù),得到數(shù)據(jù)之間的相關(guān)系數(shù)、容忍度和方差膨脹因子如表1 所示.相關(guān)系數(shù)矩陣表反映出數(shù)據(jù)之間的相關(guān)性非常高,除了X1和X2為0.88 之外,其余兩兩之間均超過了0.90,為防止后續(xù)建模中出現(xiàn)較為嚴(yán)重的多重共線性,需要診斷變量間的共線性.從表1 的計算結(jié)果中可以看出:除了變量X1和X2外,其他變量的容忍度T 均接近于0,方差膨脹因子則較大,X1的膨脹因子最小,但也超過了10.因此,根據(jù)容忍度[22]T 和方差膨脹因子[23]Vi這2 個指標(biāo)數(shù)值可以得出變量之間具有較嚴(yán)重共線性的結(jié)論.

        表1 相關(guān)系數(shù)矩陣及共線性診斷Table 1 Correlation coefficient matrix and colinearity diagnosis

        2.3 主成分回歸

        本文在式(9)中加入結(jié)構(gòu)風(fēng)險最小化參數(shù),并結(jié)合噪聲和隨機(jī)參考項提出了以下訓(xùn)練模型:

        該訓(xùn)練模型保留了主成分的回歸優(yōu)勢,同時簡化了模型的復(fù)雜度,提升了模型的泛化率,進(jìn)一步加速了模型的運(yùn)行效率.

        通過相關(guān)矩陣和特征值得出主成分碎石圖,如圖5 所示.從圖5 中可以看出:主成分1 和2 之間的拐角比較大,過渡非常陡峭,而其余主成分之間的過渡則比較平緩.從數(shù)值來看,相關(guān)矩陣的最大特征值約為6.0,第2 大特征值則小于1,而最小特征值接近于0,故從主成分碎石圖可以初步判定本文只需取一個主成分.

        通過相關(guān)矩陣進(jìn)一步進(jìn)行主成分分析,得到如表2 所示的結(jié)果,第1 主成分的貢獻(xiàn)率已經(jīng)達(dá)到94.98%,第2 主成分的貢獻(xiàn)率為4.02%,第3 主成分的貢獻(xiàn)率已經(jīng)小于1%.從方差累計貢獻(xiàn)率來看,第1 主成分的累計貢獻(xiàn)率已經(jīng)達(dá)到了94.98%,即已經(jīng)可以解釋各類原始數(shù)據(jù)總貢獻(xiàn)率的94.98%,故本文可以只取第1 主成分,因為第1 主成分能反映原始變量接近95%的信息.主成分表達(dá)式為

        本文先將原始數(shù)據(jù)進(jìn)行多重共線性診斷和主成分分析,再把提取出來的主成分與對應(yīng)時刻的真實客流數(shù)據(jù)進(jìn)行比對,通過逐步回歸擬合最終得出最優(yōu)的回歸表達(dá)式結(jié)果如表3 所示.調(diào)整后的可決系數(shù)高達(dá)99.15%,說明整個模型擬合效果較好.主成分的一次項、二次項、三次項估計系數(shù)顯然都能通過方程參數(shù)t 檢驗,說明主成分的一次項、二次項、三次項均對因變量起重要作用.模型擬合的p 值遠(yuǎn)小于0.01,顯然也能通過F 檢驗,故主成分回歸方程為

        圖5 主成分碎石圖Figure 5 Principal component lithogram

        表2 主成分分析Table 2 Principal component analysis

        表3 主成分回歸結(jié)果Table 3 Result of principal component regression

        根據(jù)表3 的檢驗結(jié)果,預(yù)判定式(12)中最高階數(shù)為3 階,且3 階判定系數(shù)值高達(dá)99.2%,調(diào)整后的可決系數(shù)高達(dá)99.15%.判定系數(shù)和可決系數(shù)值較高,從側(cè)面反映了已定參數(shù)階數(shù)的可信度.又因為模型擬合的p 值為2.2×10?6,遠(yuǎn)小于0.01,所以可確定主成分回歸方程定位3 階,系數(shù)值為表3 中Estimate 列對應(yīng)值,具體如式(13)所示.

        3 預(yù)測效果評估及對比

        3.1 實驗數(shù)據(jù)

        實驗數(shù)據(jù)來源于運(yùn)營商,數(shù)據(jù)采集開始階段為2015年9 月至今,每條數(shù)據(jù)間隔10 min,數(shù)據(jù)總量截止到實驗開始階段為40×30×24×6 條.數(shù)據(jù)字段分別為區(qū)域名稱(編號)、時間戳、用戶數(shù)(區(qū)域內(nèi)人數(shù))、漫入數(shù)、漫出數(shù)5 個字段.本文截取了某區(qū)域的數(shù)據(jù)樣例展示,如表4 所示.

        表4 中區(qū)域名是指每個區(qū)域的代號,時間指數(shù)據(jù)采集的具體時間點,用戶數(shù)為當(dāng)前基站監(jiān)測到的固定區(qū)域內(nèi)的人數(shù),漫入數(shù)為當(dāng)前基站監(jiān)測到新加入用戶的數(shù)量,漫出數(shù)為當(dāng)前基站監(jiān)測到的從當(dāng)前基站流失人員的數(shù)量.

        表4 某區(qū)域數(shù)據(jù)Table 4 Area data

        3.2 參考指標(biāo)和誤差分布等級

        將原始數(shù)據(jù)代入主成分回歸方程可得預(yù)測值,再將預(yù)測值與相應(yīng)真實值進(jìn)行對比,所得結(jié)果如圖6 和7 所示.預(yù)測值與真實值的最小誤差回歸PCA 為0.67%,平均誤差為25.1%,誤差中位數(shù)為7.79%,與ARIMA 模型相比平均誤差中位數(shù)明顯降低了.個別或少數(shù)奇異點的存在導(dǎo)致誤差平均值和誤差中位數(shù)值相差較大,其平均值不能充分反映誤差的整體情況,故應(yīng)以中位數(shù)為參考指標(biāo).

        圖6 PCA 預(yù)測誤差分布Figure 6 Distribution of PCA prediction error

        圖7 ARIMA 預(yù)測誤差分布Figure 7 Distribution of ARIMA prediction error

        根據(jù)圖6 和7 將誤差范圍進(jìn)行分類,定義誤差范圍低于10%的數(shù)量為1 級,定義誤差范圍在10%~20%之間的數(shù)量為2 級,定義誤差范圍在20%~30%之間的數(shù)量為3 級,定義誤差范圍高于30%的數(shù)量為4 級.根據(jù)以上4 個等級劃分,針對回歸PCA 和ARIMA 分別畫出預(yù)測誤差分布圖,如圖8 所示.回歸PCA 的誤差范圍在10%以內(nèi)的數(shù)量達(dá)到了進(jìn)行預(yù)測總數(shù)量的62%,誤差范圍超過30%的數(shù)量僅為總數(shù)的9%;ARIMA 的誤差范圍在10%以內(nèi)的數(shù)量僅為34%,誤差超過30%的數(shù)量為15%,與回歸PCA 相比劣勢較為明顯,可見主成分回歸模型的整體預(yù)測效果較為理想.

        3.3 實驗對比

        為說明本文算法的可行性和高效性,本文設(shè)計了與ARIMA 算法的對比試驗,對比效果如圖9 所示.

        圖8 預(yù)測誤差級別分布Figure 8 Distribution of prediction error level

        圖9 算法對比圖Figure 9 Algorithm comparison diagram

        從圖9 中可以看出,本文算法在整體的預(yù)測準(zhǔn)確度方面與ARIMA 算法相比差距較小,在效率運(yùn)行方面如表5 所示.隨著迭代次數(shù)的增多,改進(jìn)PCA 算法的準(zhǔn)確度得到了提升,同時其運(yùn)行效率呈高斯分布,即呈現(xiàn)中間高兩頭低的趨勢,原因如下:隨著迭代次數(shù)的增多,模型復(fù)雜度逐步提升,模型訓(xùn)練效果更佳,泛化效果更好.然而,在復(fù)雜度提升的同時運(yùn)行效率略有降低,實驗結(jié)果符合預(yù)期.

        表5 運(yùn)行效率對比Table 5 Comparison of operating efficiency

        4 結(jié) 語

        本文從運(yùn)營商提供的手機(jī)用戶數(shù)據(jù)出發(fā),對每個維度潛在的特征和規(guī)律進(jìn)行分析和挖掘,發(fā)現(xiàn)各個維度之間存在較高共線性,若直接進(jìn)行回歸分析則會使預(yù)測結(jié)果受到質(zhì)疑.因此,借助主成分分析具有將多變量簡化為少數(shù)不相關(guān)變量的優(yōu)點,有效克服了各個維度的共線性問題,降低了算法的復(fù)雜度,同時與ARIMA 算法相比預(yù)測準(zhǔn)確度提升較為明顯.從該模型的分析結(jié)果中可以看出:因為充分考慮了運(yùn)營商手機(jī)用戶數(shù)據(jù)的各個維度,所以模型的預(yù)測精度比較理想,可以為城市的有效管理、客流聚集風(fēng)險的管控等提供有效的數(shù)據(jù)支撐.

        猜你喜歡
        共線性貢獻(xiàn)率客流
        客流增多
        銀行不良貸款額影響因素分析
        一種通用的裝備體系貢獻(xiàn)率評估框架
        文氏圖在計量統(tǒng)計類課程教學(xué)中的應(yīng)用
        ——以多重共線性內(nèi)容為例
        不完全多重共線性定義存在的問題及其修正建議
        關(guān)于裝備體系貢獻(xiàn)率研究的幾點思考
        基于自學(xué)習(xí)補(bǔ)償?shù)氖覂?nèi)定位及在客流分析中的應(yīng)用
        В первой половине 2016 года вклад потребления в рост китайской экономики достиг 73,4 процента
        中亞信息(2016年10期)2016-02-13 02:32:45
        人工免疫算法在電梯客流時段劃分的應(yīng)用
        城市軌道交通運(yùn)營客流數(shù)據(jù)分析缺陷及應(yīng)對
        日本第一影院一区二区| 久久青草国产精品一区| 人妻中文字幕一区二区二区| 亚洲av乱码一区二区三区人人| 在教室伦流澡到高潮hgl动漫| 醉酒后少妇被疯狂内射视频 | 中文字幕有码无码人妻av蜜桃| 婷婷久久久亚洲欧洲日产国码av| 国产人成无码视频在线| 日本视频一区二区二区| 国产内射视频在线免费观看| 国产精成人品日日拍夜夜免费 | 亚洲中文字幕久久精品无码喷水| 青草热久精品视频在线观看| 青青草视频在线你懂的| 美利坚日韩av手机在线| 国产深夜男女无套内射| 在线人妻无码一区二区| 青青草在线成人免费视频| 人妖一区二区三区四区| 精品国产人成亚洲区| 国产在线不卡免费播放| 国产一级黄色片一区二区| 欧洲女人与公拘交酡视频| 激情久久av一区av二区av三区| 尤物蜜芽福利国产污在线观看| 一区二区三区乱码专区| 天天躁夜夜躁狠狠躁2021a2| 欧美精品一区二区性色a+v| 韩国免费一级a一片在线| 日本国产亚洲一区二区| 国产熟女露脸大叫高潮| 亚洲综合伦理| 日韩精品免费在线视频一区| 无码人妻精品一区二区蜜桃网站| 奇米狠狠色| 国产无套粉嫩白浆内精| 五月天激情电影| 亚洲av色先锋资源电影网站| 蜜桃视频一区二区三区在线| 亚洲中文字幕久久精品品|