呂明+程歆
摘 要:用戶畫像分析利用用戶使用手機(jī)、PC時(shí)留下的網(wǎng)頁瀏覽痕跡等進(jìn)行分析,確定并勾勒用戶在互聯(lián)網(wǎng)中的身份,完整地構(gòu)建用戶畫像能夠相對(duì)明確地了解用戶需求,這對(duì)于互聯(lián)網(wǎng)時(shí)代提升用戶體驗(yàn)非常重要。該文通過將用戶畫像的概念轉(zhuǎn)移應(yīng)用到交通領(lǐng)域,利用多源出行數(shù)據(jù)描繪出行者與交通行為畫像,分析出行者交通選擇行為在不同交通狀況下的異同,為交通規(guī)劃決策提供量化支持和決策依據(jù)。
關(guān)鍵詞:出行者畫像 出行選擇 多源數(shù)據(jù)融合 出行鏈
中圖分類號(hào):P208 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)04(a)-0143-03
所謂用戶畫像,一是指單個(gè)用戶所有標(biāo)簽的集合,通過可以獲取的用戶的社會(huì)屬性(如性別、年齡、工作、收入等),將用戶所有的選擇偏好綜合起來,勾勒出該用戶的整體特征與輪廓;二是根據(jù)其屬性或標(biāo)簽集進(jìn)行分類和預(yù)測(cè),從而實(shí)現(xiàn)特定的目的,如信用評(píng)級(jí)、受眾類型等的劃分。用戶畫像更深層次的意義,是根據(jù)用戶數(shù)據(jù)和行為,為特定的客戶進(jìn)行按需定制。在大數(shù)據(jù)分析中對(duì)特定的用戶群體進(jìn)行分類分析,形成不同維度的屬性標(biāo)簽,從而采取不同的商業(yè)行為和措施,以達(dá)到特定的利益目標(biāo)。
對(duì)于出行者行為的畫像來說,首先需要指出的是分析的對(duì)象不是特定的某個(gè)出行者,而是每個(gè)出行者參與到整個(gè)交通系統(tǒng)中所呈現(xiàn)的群體行為,從非集計(jì)的角度來分析和研究個(gè)體行為對(duì)整個(gè)交通系統(tǒng)的影響,同時(shí)對(duì)相同交通行為的選擇結(jié)果進(jìn)行分析,找出影響群體交通選擇行為的主要因素,量化影響因素的程度和范圍。
1 多源交通數(shù)據(jù)的搜集和應(yīng)用
隨著GPS設(shè)備和智能手機(jī)應(yīng)用的普及,與交通相關(guān)的數(shù)據(jù)已經(jīng)從傳統(tǒng)的粗放型、局部性的數(shù)據(jù)逐漸細(xì)化,以下是大數(shù)據(jù)時(shí)代下產(chǎn)生的與交通相關(guān)的新型數(shù)據(jù)。
(1)GPS數(shù)據(jù)是車載GPS設(shè)備在指定的時(shí)間間隔內(nèi)記錄的速度、方向角、經(jīng)緯度信息、時(shí)間戳以及其他信息?,F(xiàn)階段GPS設(shè)備廣泛應(yīng)用于公交車輛、出租車輛、網(wǎng)約車以及其他特種車輛,記錄了車輛在運(yùn)營過程中的位置信息以及其他一些與運(yùn)營相關(guān)的信息。
(2)公交刷卡數(shù)據(jù)是指各個(gè)城市發(fā)行的針對(duì)公共交通(通常包括公交車和軌道運(yùn)輸)的IC卡在使用時(shí)所記錄的刷卡信息。刷卡數(shù)據(jù)對(duì)于公交公司優(yōu)化企業(yè)運(yùn)營、提高服務(wù)質(zhì)量有很大的幫助,同時(shí)也可以反映出出行人流在空間和時(shí)間上的移動(dòng)規(guī)律。
(3)手機(jī)信令數(shù)據(jù)是由手機(jī)信號(hào)發(fā)射和接收所產(chǎn)生的數(shù)據(jù),通常指通訊運(yùn)營商為維持移動(dòng)通訊的正常運(yùn)行而搜集和回收的數(shù)據(jù)。但是隨著GPS模塊在智能手機(jī)的廣泛運(yùn)用,部分APP也可以定期收集并上傳使用者的位置以及其他一些與交通相關(guān)的信息。
(4)網(wǎng)頁爬取數(shù)據(jù)是一個(gè)比較寬泛的概念,在這里主要是指從特定的網(wǎng)站如搜房網(wǎng)、58同城、美團(tuán)、大眾等爬取的與出行者活動(dòng)相關(guān)的設(shè)施如居住場所、辦公場所、餐館、運(yùn)動(dòng)場所、娛樂場所等。
(5)卡口數(shù)據(jù)與路網(wǎng)數(shù)據(jù)??跀?shù)據(jù)指的是在某些控制性的道路路段斷面安裝線圈、微波、紅外等設(shè)備,監(jiān)測(cè)斷面的車流量和速度等信息,是監(jiān)測(cè)交通流量的主要方法。路網(wǎng)數(shù)據(jù)指的是道路路段的基本信息,如路段長度、寬度、車道數(shù)、設(shè)計(jì)通行能力以及拓?fù)浣Y(jié)構(gòu);運(yùn)行于其上的交通管理控制設(shè)施;實(shí)時(shí)的道路運(yùn)營情況如道路大修、事故占道等信息。
與交通相關(guān)的數(shù)據(jù)還有很多,現(xiàn)階段對(duì)交通數(shù)據(jù)的處理、應(yīng)用和分析通常只是針對(duì)單數(shù)據(jù)源的。由于數(shù)據(jù)源本身的限制,導(dǎo)致數(shù)據(jù)分析的結(jié)果或多或少帶有偏差,多源數(shù)據(jù)融合的過程是將以上數(shù)據(jù)綜合起來分析,利用數(shù)據(jù)挖掘和分析的方法對(duì)整個(gè)城市的出行者的交通活動(dòng)做更精準(zhǔn)的提取、量化和擴(kuò)樣,從而盡量避免單一數(shù)據(jù)源分析所帶來的樣本偏差。
2 出行者行為畫像
2.1 多源出行數(shù)據(jù)融合畫像
出行者多源出行數(shù)據(jù)融合畫像就是基于以上的基本理論,整個(gè)多源數(shù)據(jù)融合過程其實(shí)是作為整個(gè)交通大數(shù)據(jù)應(yīng)用的一部分,使用多源數(shù)據(jù)提取出行者的詳細(xì)出行信息,形成并探討其實(shí)際出行選擇與備選方案之間的差別;對(duì)出行鏈效用方程中的參數(shù)進(jìn)行估計(jì),并將出行根據(jù)大數(shù)據(jù)以及傳統(tǒng)的城市人口數(shù)據(jù)和土地規(guī)劃等結(jié)合起來對(duì)整個(gè)城市的出行者進(jìn)行泛化和擴(kuò)樣,利用非集計(jì)模型對(duì)整個(gè)城市的出行者進(jìn)行仿真并將結(jié)果應(yīng)用到實(shí)際工作中;同時(shí),仿真模型再與大數(shù)據(jù)中的各項(xiàng)觀測(cè)數(shù)據(jù)進(jìn)行對(duì)比,矯正模型參數(shù)和精度。整個(gè)過程循環(huán)遞進(jìn)優(yōu)化,同時(shí)勾勒的出行者畫像也在不斷的迭代調(diào)優(yōu)中更加準(zhǔn)確。
2.2 出行鏈
出行者通常會(huì)按照自己的意愿或作為社會(huì)一份子而產(chǎn)生的活動(dòng)安排出行,而各項(xiàng)社會(huì)活動(dòng)或生計(jì)需求就會(huì)產(chǎn)生各種時(shí)空上的移動(dòng),把出行者的各項(xiàng)活動(dòng)之間用出行連接起來就形成了出行鏈。
一般情況下,正是大量工作開始時(shí)間相近的剛性出行活動(dòng)導(dǎo)致了交通系統(tǒng)的高峰期,而大量出行時(shí)間、地點(diǎn)等的彈性可變的非剛性出行導(dǎo)致了交通系統(tǒng)的不確定性?;诔鲂墟湹某鲂欣碚撝饕幸韵?點(diǎn):(1)出行的需求源于社會(huì)經(jīng)濟(jì)活動(dòng)的需要;(2)人的行為受時(shí)空的限制要在不同時(shí)間和地點(diǎn)進(jìn)行不同活動(dòng),并且去各個(gè)活動(dòng)地點(diǎn)都要花費(fèi)時(shí)間;(3)通常人的出行都是以家庭為基本單位,家庭影響個(gè)人的活動(dòng)和出行決策。許多決策作為家庭決策的一部分,受家庭中其他成員的限制,所以家庭類型和生活方式也影響個(gè)人的選擇;(4)活動(dòng)和出行決策是動(dòng)態(tài)的,一次決策受過去和預(yù)期事件的影響[1],同時(shí)也受到當(dāng)前環(huán)境的影響,出行計(jì)劃可能根據(jù)實(shí)際情況而實(shí)時(shí)變化;(5)出行過程中出行者將面臨一定數(shù)量的選擇,并在各個(gè)選項(xiàng)間衡量對(duì)比后做出決策,最終實(shí)施的出行計(jì)劃雖然可能由于路網(wǎng)的動(dòng)態(tài)變化和交通系統(tǒng)的不確定性導(dǎo)致與預(yù)期有所差別,但卻是決策時(shí)選擇集中效用最大的一項(xiàng)。
前文已經(jīng)提到,作為出行行為決策的出行者(或家庭)在出行活動(dòng)中面臨的一系列可以選擇的、選擇分支相互獨(dú)立的集合中,會(huì)選擇他認(rèn)為效用最大的選擇項(xiàng),這個(gè)被稱為效用最大化行為假說。而量化這一過程中目前廣泛應(yīng)用的模型為Logit模型,Logit模型正是以某次出行行為的選擇集為基礎(chǔ)設(shè)定效用函數(shù),計(jì)算各選項(xiàng)被選擇的概率并估計(jì)影響各選項(xiàng)的參數(shù),而將每一次的出行連接起來,就形成了基于一天活動(dòng)的出行鏈。其效用方程如下所示:
其中Sact為第q項(xiàng)活動(dòng)如工作所產(chǎn)生的效用值,計(jì)算方法如下:
Sdur,q為第q項(xiàng)活動(dòng)持續(xù)時(shí)間所產(chǎn)生的效用值。
Swait,q為第q項(xiàng)活動(dòng)開始前等待所產(chǎn)生的效用,通常此項(xiàng)效用為負(fù)值,即等待時(shí)間越長,其產(chǎn)生的負(fù)效用越高。
Slate.ar,q為第q項(xiàng)活動(dòng)到達(dá)活動(dòng)地點(diǎn)晚于預(yù)計(jì)時(shí)間的效用,通常用于衡量到達(dá)工作地點(diǎn)晚于規(guī)定時(shí)間的懲罰值。
Searly,dp,q為第q項(xiàng)活動(dòng)期間提前結(jié)束此項(xiàng)活動(dòng)而產(chǎn)生的效用值,通常為負(fù)。
Sshort.dur,q為第q項(xiàng)活動(dòng)停留時(shí)間的效用值,與Searly,dp,q稍有不同,通常每項(xiàng)活動(dòng)都設(shè)有一最短停留時(shí)間,有的活動(dòng)即使遲到早退,只要停留時(shí)間超過規(guī)定閥值,就不會(huì)產(chǎn)生負(fù)效用,如周日的逛街購物計(jì)劃。
Strav,mode(q)為活動(dòng)間轉(zhuǎn)換產(chǎn)生的出行效用,通常計(jì)算方法如下:
出行的計(jì)算考慮了出行模式Cmode,距離dtrav,q、出行時(shí)間ttrav,q、換乘因素Xtransfer,出行費(fèi)用mq等,而其中的參數(shù)就是描述出行者畫像的主要量化指標(biāo)。這些參數(shù)的值決定了不同出行者在面臨不同的選擇方式時(shí)的決策結(jié)果,對(duì)這些參數(shù)的估計(jì)就是多源數(shù)據(jù)融合的出行者畫像的最重要的部分,也是對(duì)出行者出行過程最精確的描述。
2.3 出行者行為分析和仿真
通過多源數(shù)據(jù)的融合,可以得到部分出行者的出行信息,再根據(jù)城市土地規(guī)劃、各區(qū)人口數(shù)據(jù)等將數(shù)據(jù)進(jìn)行泛化擴(kuò)樣,從而得到了整個(gè)城市所有出行者一天的交通活動(dòng)的初始計(jì)劃,并利用MATSim對(duì)其進(jìn)行仿真。為保證模型的仿真精度,使用MATSim對(duì)整個(gè)城市的交通系統(tǒng)的運(yùn)行狀況及出行者的出行采取開放的方式,即出行者的出行畫像、基本出行集等按照多源交通大數(shù)據(jù)進(jìn)行校正,每一次的數(shù)據(jù)矯正是建立在其他數(shù)據(jù)源的基礎(chǔ)上進(jìn)行迭代尋優(yōu),以迭代收斂為主要目標(biāo),旨在充分利用和融合各數(shù)據(jù)源,從而使模型精度不斷提高。
3 應(yīng)用
對(duì)出行者的出行行為進(jìn)行畫像,根據(jù)其選擇偏好進(jìn)行參數(shù)估計(jì),最終通過仿真模型將整個(gè)城市的模型進(jìn)行仿真,其主要的應(yīng)用可以體現(xiàn)在以下幾個(gè)方面。
3.1 交通相關(guān)政策的輔助決策
通過對(duì)如擁堵收費(fèi)、劃定公交車專用道、換乘優(yōu)惠、停車費(fèi)用調(diào)控等相關(guān)交通政策實(shí)施前后整個(gè)交通系統(tǒng)運(yùn)行狀況的仿真,可精確量化政策實(shí)施前后各項(xiàng)交通指標(biāo),如道路使用效率、出行者廣義出行費(fèi)用的變化以及出行方式變化比例等,為相關(guān)政策和措施提供決策支持。
3.2 片區(qū)交通改善的前后對(duì)比
對(duì)于某一片區(qū)交通設(shè)施、交通組織方式等的改善方案進(jìn)行仿真,針對(duì)改善目的對(duì)各個(gè)方案進(jìn)行量化評(píng)價(jià)和對(duì)比,從而選出最優(yōu)改善方案。
3.3 出行者出行的出行劃分和誘導(dǎo)建議
對(duì)整個(gè)深圳市區(qū)域內(nèi)所有出行者的仿真過程,是對(duì)出行者出行時(shí)所面臨的一系列的決策進(jìn)行分析,通過對(duì)這些離散選擇模型的分析和研究,了解其選擇過程中的決定因素,對(duì)整個(gè)系統(tǒng)對(duì)仿真和掌控了解可以很好地把握各項(xiàng)交通相關(guān)決策的臨界點(diǎn),對(duì)出行進(jìn)行誘導(dǎo),從而降低路網(wǎng)交通壓力,提高出行者出行效率。
3.4 公共交通優(yōu)化的對(duì)比與決策支持
對(duì)整個(gè)深圳市的交通系統(tǒng)進(jìn)行仿真,了解使用公交系統(tǒng)的實(shí)際情況,掌握公交、地鐵的客流集散情況,可根據(jù)實(shí)際的客流集散點(diǎn)對(duì)公交線路、班次進(jìn)行優(yōu)化,同時(shí)對(duì)比優(yōu)化前后的交通狀況。
3.5 交通狀況預(yù)測(cè)和預(yù)警
通過設(shè)置仿真時(shí)間,基于現(xiàn)狀交通進(jìn)行仿真,同時(shí)可以回?fù)芑蚣涌旆抡鎸?duì)形式、對(duì)交通狀況進(jìn)行預(yù)測(cè),對(duì)交通擁堵區(qū)域提前預(yù)警,從而可以提前采取相應(yīng)的管理、應(yīng)對(duì)方案,對(duì)整個(gè)交通的運(yùn)行狀況進(jìn)行掌控。
3.6 重大事件的交通疏散方案對(duì)比
對(duì)重大交通事件的疏散方案進(jìn)行仿真對(duì)比,對(duì)各方案的疏散效率進(jìn)行分析評(píng)價(jià),從而找出最終方案;或通過設(shè)置限定條件與疏散要求,對(duì)重大事件發(fā)生時(shí)的疏散進(jìn)行仿真,從而自動(dòng)獲取疏散方案。
3.7 車輛調(diào)控方案評(píng)價(jià)
通過仿真的手段可以了解全市機(jī)動(dòng)車擁有量逐年增加的情況下動(dòng)態(tài)和靜態(tài)交通設(shè)施的承載能力,有效地對(duì)機(jī)動(dòng)車擁有量進(jìn)行宏觀調(diào)控。
3.8 路網(wǎng)可達(dá)性、可靠性評(píng)價(jià)
通過分析出行者個(gè)人的出行鏈和出行方案,對(duì)整個(gè)深圳市的路網(wǎng)可達(dá)性以及可靠性進(jìn)行有效的量化評(píng)價(jià)。
4 結(jié)語
在“互聯(lián)網(wǎng)+”的背景下,大數(shù)據(jù)技術(shù)在交通業(yè)務(wù)領(lǐng)域的應(yīng)用不斷擴(kuò)展,而智能手機(jī)、物聯(lián)網(wǎng)等技術(shù)的不斷更新,進(jìn)一步觸發(fā)了交通規(guī)劃和管理模式的轉(zhuǎn)變。在妥善解決個(gè)人信息安全與隱私保護(hù)的前提下,多源數(shù)據(jù)的融合和應(yīng)用在未來一段時(shí)間內(nèi)將成為趨勢(shì)。利用數(shù)據(jù)融合對(duì)出行者的交通相關(guān)行為的畫像,有利于各方充分利用現(xiàn)有的數(shù)據(jù)資源,有效實(shí)現(xiàn)規(guī)劃和管理的精準(zhǔn)實(shí)施和相關(guān)政策、措施的支撐,同時(shí)在出行者行為和選擇模型方面也可進(jìn)行創(chuàng)新性的探索和實(shí)踐。
參考文獻(xiàn)
[1] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)模建——從具象到抽象[J].設(shè)計(jì)藝術(shù)研究,2014(6):60-64.
[2] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營銷細(xì)分模型研究[J].絲綢,2015(52):37-47.
[3] 張慷.手機(jī)用戶畫像在大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)方案[J].信息通信,2014(2):266-267.