李 煒 杭州東信北郵信息技術有限公司,北京郵電大學網(wǎng)絡與交換技術國家重點實驗室副教授
隨著無線網(wǎng)絡通信的快速普及,通過無線網(wǎng)絡提供設備來偵測用戶設備相關信息變得越來越容易,這為客流分析及人群移動性等研究課題提供了新的方法和途徑。本文將利用無線通信技術(Wi-Fi)來獲取用戶信息,結合用戶周圍的環(huán)境信息(地理位置信息)來對現(xiàn)實世界中的客流及用戶行為進行分析的技術稱為基于Wi-Fi探測數(shù)據(jù)的客流分析。基于Wi-Fi探測數(shù)據(jù)的客流分析對用戶、大型活動負責人乃至場館經(jīng)營者都具有很大價值,用戶將受益于個性化服務,大型活動負責人將使用戶最大化地參與活動,場館經(jīng)營者將全面了解并掌控場館的客流情況并進行有效的管理控制。
本文通過在公共場所提供智能Wi-Fi信號設備進行Wi-Fi信號探測,收集到包括設備MAC地址、RSSI信號強度、信號時間戳等在內的設備數(shù)據(jù)。收集到數(shù)據(jù)之后,使用滑動窗口加權平均的方案對數(shù)據(jù)進行清洗。然后,通過開源Web可視化工具對統(tǒng)計結果進行可視化展現(xiàn),同時提供交互可視化工具。之后,采用改進的基于滑動窗口的二次指數(shù)平滑算法對短時客流進行了預測。同時,對不同區(qū)間的真實客流數(shù)據(jù)進行了實地統(tǒng)計,利用回歸分析的方法,建立了各區(qū)間內Wi-Fi探測數(shù)據(jù)和真實客流量的回歸方程,從而為公共場所經(jīng)營者提供了分時段的客流準確數(shù)據(jù)參考。
如圖1所示,本研究內容包括基于Wi-Fi設備信號探測系統(tǒng)、Wi-Fi探測數(shù)據(jù)采集系統(tǒng)、Wi-Fi探測數(shù)據(jù)可視化平臺等項目。首先,Wi-Fi設備信號探測系統(tǒng)中,在智能Wi-Fi設備上部署了基于openWRT研發(fā)的程序,能夠偵測環(huán)境中的Wi-Fi信號幀并以一定格式(設備MAC地址、設備信息、RSSI強度、時間戳等)上報給服務器。而Wi-Fi探測數(shù)據(jù)采集系統(tǒng)中,服務器端接收分布式的Wi-Fi設備上報的探測數(shù)據(jù),進行儲存并通過長連接形式傳送給數(shù)據(jù)使用方。Wi-Fi探測數(shù)據(jù)可視化分析系統(tǒng)中,服務端通過長連接從數(shù)據(jù)采集系統(tǒng)中獲取探測原始數(shù)據(jù),通過對原始數(shù)據(jù)進行處理,得到偵測到的每一設備的設備信息、駐留時長以及某一探測點的實時客流、歷史客流、客流變化等信息,并將相關數(shù)據(jù)存儲在數(shù)據(jù)庫中。探測數(shù)據(jù)可視化呈現(xiàn)子系統(tǒng),包括實時數(shù)據(jù)監(jiān)控面板、歷史數(shù)據(jù)分析面板、設備分組管理面板、系統(tǒng)用戶管理面板4個部分。
圖1 數(shù)據(jù)收集分析可視化系統(tǒng)結構圖
本文基于可視化平臺提供的某一月每一天的Wi-Fi探測數(shù)據(jù)進行客流趨勢分析和統(tǒng)計,然后將統(tǒng)計分析和預測結果反饋給可視化平臺進行可視化呈現(xiàn),兩者相輔相成。
同一天不同時段的客流量是一個典型的時間序列上的趨勢預測問題,對于趨勢預測問題,指數(shù)平滑算法是一個常用的經(jīng)典算法。指數(shù)平滑算法一般分為一次指數(shù)平滑算法、二次指數(shù)平滑算法、三次指數(shù)平滑算法。一次指數(shù)平滑算法像擁有無限記憶且權值呈指數(shù)級遞減的移動平均法。越近的歷史記錄對當前平滑值的計算權值越大。一次指數(shù)平滑算法足夠簡單、易于理解,但一次指數(shù)平滑法中沒有考慮序列中的趨勢信息,得到的預測結果并不適合于具有趨勢的時間序列,如果用來處理有趨勢的序列,平滑值將始終滯后于原始數(shù)據(jù)。而且如果數(shù)據(jù)波動較大,波動的變化將需要多次迭代才能收斂。在一個客流波峰過程中,如果在波峰開始部分預測的比較準確,那么在接下來的時間內預測值將始終低于實際值。在波峰之后,預測值又將始終高于實際值。調整的過程較慢。
對于一次指數(shù)平滑算法無法預測趨勢的問題,業(yè)界一般采用二次指數(shù)平滑算法來解決,二次指數(shù)平滑算法保留了平滑信息和趨勢信息,使得模型可以預測具有趨勢的時間序列。
二次指數(shù)平滑算法很好地解決了一次指數(shù)平滑算法沒有體現(xiàn)時間序列趨勢性的問題,但對于具有周期性的時間序列數(shù)據(jù),沒有將周期性(或者季節(jié)性)考慮進去。例如,對于客流數(shù)據(jù),多日期、同時段的客流數(shù)據(jù)可能具有規(guī)律性,每個月相同日期的客流也可能具有規(guī)律性。從時間軸的視角上看,也就是客流變化可能會具有每月和每天的周期性。針對此類問題,業(yè)界現(xiàn)有的解決方案有三次指數(shù)平滑算法等。三次指數(shù)平滑算法也叫做Holt-Winter指數(shù)平滑算法,三次指數(shù)平滑算法相比二次指數(shù)平滑算法,增加了第三個變量來描述周期性。
但本文研究的基于Wi-Fi探測數(shù)據(jù)的客流統(tǒng)計問題,數(shù)據(jù)量較大,同時指數(shù)平滑算法是一種遞歸算法,迭代運算,逐步收斂,通過遞歸循環(huán)將空閑時間的歷史記錄用于當前的預測中。過多的樣本量會使遞歸序列變長,加大運算量和運算空間,會給系統(tǒng)性能造成負擔。
針對此問題,本研究通過觀察客流數(shù)據(jù)的可視化結果得知,客流變化具有嚴格的周期性,每天的客流數(shù)據(jù)構成一個周期,因而使用三次指數(shù)平滑算法進行從頭迭代來考慮周期性的必要性較小。通過對多日期同時段的客流數(shù)據(jù)進行縱向對比,從日期序列上對當前時段客流量進行預測,從而考慮客流周期性的影響。通過對同一天不同時段的客流量數(shù)據(jù)進行迭代運算來從時間序列上對當前時段客流量進行預測,從而考慮趨勢性的影響。在兩個時間序列上均采用基于滑動窗口的二次指數(shù)平滑算法進行計算,便可使用較少的計算量實現(xiàn)客流預測的趨勢性和周期性。
si為基于同一天時間序列的當前平滑值。
xi+h為基于同一天時間序列的當前預測值。
基于相同的公式,可以得到y(tǒng)i+h,代表基于多日期同時段的時間序列得到的當前預測值。
之后,可以將一天內的客流趨勢預測結果和周期性的預測結果通過平衡參數(shù)進行加權平均,從而得到誤差率更低的預測結果。
最后,通過對客流數(shù)據(jù)進行合理的時段分區(qū)和實際客流統(tǒng)計,并通過回歸分析,可以得到不同時段內實際客流值和Wi-Fi探測值之間的回歸方程,最后求得實際客流值的預測公式。
本文選取了在某物業(yè)小區(qū)部署的Wi-Fi設備在某月的Wi-Fi探測數(shù)據(jù)來進行分析。該月每日客流總量在200人左右,本文選取了某一天(該月20日)的客流數(shù)據(jù)進行統(tǒng)計分析。
首先,本研究在同一天不同時段的時間序列客流數(shù)據(jù)上應用了二次指數(shù)平滑算法。通過試驗,擇優(yōu)設定參數(shù)s0=x0,t0=0,α =0.75,β =0.7,h=1。執(zhí)行數(shù)據(jù)處理程序,得到的數(shù)據(jù)經(jīng)過可視化之后,效果如圖2所示。
分析數(shù)據(jù)可知,在數(shù)據(jù)變化較為平穩(wěn)時,該預測方案能保持95%以上的準確率。通過計算,在該種方案下,客流預測的平均誤差率是10.32%,即平均準確率為89.68%。進一步觀察可視化結果并結合數(shù)據(jù)分析可以發(fā)現(xiàn),當數(shù)據(jù)變化率較大時,該種預測方案的預測結果會出現(xiàn)較大的誤差率。主要原因是客流趨勢在預測點之前處于單調增加或者單調減少的趨勢中,負責記錄趨勢因素的參數(shù)起的作用過大,這一問題將在接下來的基于多日期、同時段時間序列的二次指數(shù)平滑算法的應用中嘗試解決。
在多日期同時段時間序列的客流數(shù)據(jù)分析中,本研究根據(jù)現(xiàn)有的數(shù)據(jù)粒度,將一天劃分為48個時間區(qū)間,每個區(qū)間存在一個客流數(shù)據(jù)值。在算法實現(xiàn)程序中,本研究構造了48個數(shù)組,每個數(shù)組里面有當前月份當前日期之前的N天內同一時段的客流數(shù)據(jù)值。對于每個數(shù)組,應用二次指數(shù)平滑算法進行了預測。
由二次指數(shù)平滑算法的公式可知,實際客流量的歷史記錄以加權平均的方式影響當前的預測,距離當前預測時間越久,對預測結果的影響越小。為此,設計了滑動窗口的方法。通過控制滑動窗口的大小,減少預測時的計算量。不同滑動窗口下該預測方案的誤差率變化如圖3所示。
從相關數(shù)據(jù)可以看出,在滑動窗口為6或1時,該方案的誤差率相對較小,為15%左右;考慮到充分利用歷史數(shù)據(jù)和減少誤差率的需求,本研究把滑動窗口值設定為6。
圖2 同一天不同時段的時間序列的預測結果
圖3 預測結果準確率隨計算的歷史天數(shù)的變化
此時經(jīng)過計算,該預測方案下的平均誤差率為15.31%,略高于基于同一天內的時間序列的預測方案。分析可知,在多日期同時段由于時段跨度較大,客流趨勢的規(guī)律性弱于在同一天不同時段的客流趨勢規(guī)律性,因而得到了相對較高的誤差率。在接下來的綜合方案中,會根據(jù)這一情況調整該方案所得預測結果的權重。
在上文中,無論基于單日不同時段時間序列的預測方案,還是基于多日同時段時間序列的預測方案,都只考慮了時間序列的趨勢性或者周期性因素中的一個,無法兼顧兩者。本研究提出了結合同一天內的時間序列和多日期同時段時間序列使用二次指數(shù)平滑算法進行預測的方案。假設基于多日期同時段時間序列預測結果是xi+h,基于多日期同時段時間序列的預測結果是yi+h,使用以下公式將兩個預測結果進行加權平均。其中r是可變參數(shù)。
在試驗過程中,對不同r的取值下誤差率的情況進行了試驗計算,得到了不同的r下平均誤差率的變化如圖4所示。
計算結果顯示,當r=0.63時,結合方案可以取得最低的誤差率為8.34%,相比基于同一天內的時間序列的預測方案誤差率下降了19%,相對基于多日期同時段時間序列的預測方案誤差率下降了45%。試驗結果表明,該方案確實能夠提升基于二次指數(shù)平滑算法的預測方案的準確率。
圖4 總誤差率隨參數(shù)r的變化趨勢
為了研究Wi-Fi客流統(tǒng)計數(shù)據(jù)和實際客流直接的關系,本研究在該月對該物業(yè)小區(qū)的實際客流進行了統(tǒng)計,統(tǒng)計結果顯示,實際客流與Wi-Fi探測客流之間的相關性在高峰期和低峰期有較大差別。本研究采取了有序聚類Fisher算法,劃分了每天的客流峰值區(qū)間,并建立了Wi-Fi探測客流量x和實際統(tǒng)計客流量y的回歸方程,結果如表1所示。
表1 不同時段預測客流量和實際統(tǒng)計客流量的回歸方程
每個客流量區(qū)間的回歸方程的顯著性檢驗指標|R|均大于0.85,說明Wi-Fi探測所得的客流量和實際統(tǒng)計的客流量y存在一定程度的線性相關性,可以將Wi-Fi探測數(shù)據(jù)所得的客流量通過回歸方程近似計算出實際客流量。
本文利用部署在某物業(yè)小區(qū)的Wi-Fi提供設備采集的客流數(shù)據(jù),通過對同一天不同時段的時間序列和多日期同時段的時間序列的客流數(shù)據(jù)分別應用二次指數(shù)平滑算法,并通過試驗確定了平衡參數(shù),對兩個緯度的預測結果進行加權平均,使得最后的綜合預測結果相比單一維度的預測結果平均誤差率降低19%~45%,準確率保持在92%左右。之后,通過對實際客流量進行人工統(tǒng)計并與Wi-Fi探測結果在不同的峰值區(qū)間進行回歸分析得到相應時段的回歸方程,進一步提高了預測客流量的準確率。由于時間和條件所限,本文中使用的數(shù)據(jù)量還不夠大,進行試驗驗證的樣本數(shù)量也有限,實際統(tǒng)計客流的方式也可換用更為先進的方式。在今后的研究中,還會進一步完善試驗條件從而得到更加完善的預測方案和實際效果。
[1]張明光,張鈺,陳曉婧,等.基于Holt-Winter超短期負荷預測的配電網(wǎng)狀態(tài)估計算法[J].蘭州理工大學學報,2016,42(2):92-96.
[2]朱翠濤,王艷歡.基于滑動窗口的指數(shù)平均動態(tài)電源管理預測算法[J].中南民族大學學報(自然科學版),2009,28(04):102-105.
[3]方開泰.有序樣品的一些聚類方法[J].應用數(shù)學學報,1982,5(1):94-101.
[4]楊智偉,趙騫,趙勝川,金雷,毛羿.基于公交IC卡數(shù)據(jù)信息的客流預測方法研究[J].交通標準化,2009(09):115-119.
[5]茆詩松,丁元,周紀薌.回歸分析及其試驗設計[M].上海:華東師范大學出版社,1981.