劉云翔 陳斌 林濤 施偉
摘? 要: 為了有效判別行駛車輛內(nèi)車載乘客手機(jī)數(shù)量實(shí)際匹配的乘客人數(shù),提出一種將聚類算法和呼叫指紋識(shí)別算法相組合的算法(CHC?CFA)。運(yùn)用組合算法結(jié)合車輛內(nèi)乘客攜帶手機(jī)的實(shí)時(shí)軌跡數(shù)據(jù)以及歷史呼叫指紋數(shù)據(jù)建立同一用戶識(shí)別模型,有效地判別出車輛內(nèi)實(shí)際乘客人數(shù),用于判別行駛車輛是否存在超員的異常問(wèn)題,也可以對(duì)當(dāng)前HOV車道的車輛內(nèi)乘客數(shù)實(shí)時(shí)監(jiān)測(cè)提供一種新的輔助檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,該模型能有效判別行駛車輛內(nèi)車載乘客手機(jī)數(shù)量實(shí)際匹配的乘客人數(shù)并有較高的檢測(cè)準(zhǔn)確率。
關(guān)鍵詞: 同一用戶識(shí)別; 移動(dòng)大數(shù)據(jù); CHC?CFA; 數(shù)據(jù)獲取; 維度分析; 識(shí)別模型
中圖分類號(hào): TN919?34? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)06?0070?05
Same user identification analysis model based on mobile big data
LIU Yunxiang1, CHEN Bin1, LIN Tao1, SHI Wei 2
(1. School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201400, China;
2. School of Automobile Engineering, Jiangsu Automobile Technician Institute, Yangzhou 225000, China)
Abstract: A combined algorithm CHC?CFA (condensed hierarchical clustering?call fingerprint algorithm) is proposed, which combines the clustering algorithm and call fingerprint recognition algorithm, so as to effectively identify the number of passengers actually matched with the number of mobile phones of passengers in the running vehicle. The same user identification model is established with the combined algorithm in combination of the real?time trajectory data and the historical call fingerprint data of the mobile phone carried by passengers in the vehicle. It can effectively identify the actual number of passengers inside the vehicle, which can be used to identify whether the running vehicle is overloaded, and also provide a new auxiliary detection method for the real?time monitoring of the number of passengers in the current HOV lane. The experiments show that the model can effectively identify the number of passengers actually matched with the number of mobile phones of passengers in? a running vehicle, and has high detection accuracy.
Keywords: same user identification; mobile big data; CHC?CFA; data acquisition; dimensional analysis; identification model
根據(jù)國(guó)家統(tǒng)計(jì)局2018年發(fā)布的《中國(guó)改革開(kāi)放40年通信業(yè)發(fā)展報(bào)告》顯示,到2017年底,我國(guó)移動(dòng)電話用戶數(shù)量已經(jīng)達(dá)到近14.17億戶,移動(dòng)電話的普及率由1995年的0.3部/百人提高到2017年的102.5部/百人。隨著個(gè)人智能移動(dòng)手機(jī)終端的迅速普及,出行群體中手機(jī)擁有率和使用率已經(jīng)達(dá)到非常高的比例,研究學(xué)者逐步意識(shí)到個(gè)人移動(dòng)終端可以作為一種非常理想的智能交通探測(cè)平臺(tái)[1]。目前,用戶的智能移動(dòng)手機(jī)內(nèi)都集成GPS模塊、陀螺儀、加速感應(yīng)器等多種傳感器,可以為用戶提供基本的位置查詢與導(dǎo)航等相關(guān)服務(wù),通過(guò)采集出行群體中攜帶的手機(jī)相關(guān)數(shù)據(jù)可以對(duì)道路交通數(shù)據(jù)信息進(jìn)行分析,這是一種新興的智能交通動(dòng)態(tài)監(jiān)測(cè)手段[1?2]。在我國(guó),一般情況下道路行駛車輛內(nèi)車載乘客每人攜帶手機(jī)數(shù)多至兩三部,攜帶一部手機(jī)的乘客通常也會(huì)存在雙卡用戶。
針對(duì)手機(jī)時(shí)空軌跡數(shù)據(jù)以及手機(jī)信令進(jìn)行大數(shù)據(jù)模式挖掘的研究長(zhǎng)期被眾多國(guó)內(nèi)外不同領(lǐng)域?qū)<覍W(xué)者進(jìn)行分析研究,每個(gè)領(lǐng)域的研究者根據(jù)自身研究方向出發(fā),從手機(jī)時(shí)空軌跡數(shù)據(jù)及信令信息挖掘分析出眾多有價(jià)值的研究成果。但在智能交通領(lǐng)域,針對(duì)行駛車輛內(nèi)乘客人員數(shù)量監(jiān)測(cè)方面,采用車輛內(nèi)乘客手機(jī)數(shù)據(jù)信息進(jìn)行乘客實(shí)際人數(shù)判別的研究并不多見(jiàn)。為了有效判別行駛車輛內(nèi)車載乘客手機(jī)數(shù)量實(shí)際匹配的乘客人數(shù),本文將凝聚層次聚類算法與呼叫指紋識(shí)別算法進(jìn)行組合分析,通過(guò)挖掘與某一車輛相匹配的乘客手機(jī)數(shù)據(jù),根據(jù)手機(jī)乘客攜帶手機(jī)的交往圈特征(包括呼叫特征、短信特征)、位置特征、手機(jī)開(kāi)關(guān)機(jī)上報(bào)日志時(shí)間等相關(guān)特征進(jìn)行研究分析,首先通過(guò)手機(jī)開(kāi)關(guān)機(jī)上報(bào)日志時(shí)間進(jìn)行初步判斷,其次,基于凝聚層次聚類算法對(duì)位置特征進(jìn)行分析,找出疑似同一用戶的卡號(hào),再對(duì)這些卡號(hào)基于改進(jìn)的呼叫指紋識(shí)別算法得出車輛內(nèi)乘客攜帶手機(jī)數(shù)量實(shí)際對(duì)應(yīng)的乘客人數(shù)。建立同一用戶識(shí)別分析模型,可對(duì)道路上行駛車輛內(nèi)人員的分布情況進(jìn)行研究分析,可用于判別行駛車輛是否存在超員的異常問(wèn)題,也可以對(duì)當(dāng)前HOV車道的車輛內(nèi)乘客數(shù)實(shí)時(shí)監(jiān)測(cè)提供一種新的輔助檢測(cè)方法[3?6]。
算法公式如下:
式中,分子是指術(shù)語(yǔ)在該文本文檔中存在的數(shù)值;分母是所有術(shù)語(yǔ)在該篇文本文檔里出現(xiàn)的數(shù)值之和。
式中:[N]表示整個(gè)文本文檔集中所有文檔的數(shù)量;[d:ti∈d]表示整個(gè)文本文檔集中包含該術(shù)語(yǔ)的文檔數(shù)量。
本次研究中應(yīng)用改進(jìn)的[TF?IDF]算法對(duì)用戶的交際圈號(hào)碼的權(quán)重進(jìn)行分析,生成用戶的呼叫指紋。若某號(hào)碼實(shí)際生活中對(duì)用戶具有重要交往程度,則該號(hào)碼與TF值成正比,即在交際圈中出現(xiàn)的頻率成正比。與此同時(shí),在該地區(qū)出現(xiàn)的頻率成反比,與IDF值相對(duì)應(yīng),從而體現(xiàn)有效交往圈的重要性。本文在[TF?IDF]權(quán)重算法的基礎(chǔ)上進(jìn)一步改進(jìn),將語(yǔ)音頻次[TF?IDFt]與短信頻次[TF?IDFm]進(jìn)行結(jié)合,并在語(yǔ)音頻次的基礎(chǔ)上,增加通話時(shí)長(zhǎng)這一參數(shù),從而進(jìn)一步體現(xiàn)用戶交際圈號(hào)碼的權(quán)重。
余弦相似度算法主要比對(duì)通過(guò)改進(jìn)的[TF?IDF]權(quán)重算法生成的呼叫指紋之間的相似度。計(jì)算公式如下:
將每一對(duì)端號(hào)碼均作為空間中的一個(gè)維度,因此卡號(hào)交際圈中存在的對(duì)端號(hào)碼的權(quán)重集合進(jìn)而代表空間中存在的向量,通過(guò)空間向量的內(nèi)積對(duì)兩個(gè)卡號(hào)的相似度進(jìn)行分析。 當(dāng)存在兩個(gè)卡號(hào)所構(gòu)成的向量夾角越小時(shí),則這兩個(gè)卡號(hào)的交際圈就越相似,即兩個(gè)卡號(hào)屬于同一用戶的可能性越大。
3.3? 建立同一用戶識(shí)別分析模型
本次研究通過(guò)采集與車輛相匹配的乘客手機(jī)數(shù)據(jù),對(duì)采集的各類基礎(chǔ)數(shù)據(jù)進(jìn)一步篩選與標(biāo)準(zhǔn)化,對(duì)運(yùn)營(yíng)商提供的號(hào)碼中“86”、“0086”、區(qū)號(hào)等開(kāi)頭的號(hào)碼進(jìn)行標(biāo)準(zhǔn)化,將其變成規(guī)范的11位電話號(hào)碼,并對(duì)干擾語(yǔ)音和短信詳單的噪聲數(shù)據(jù)的剔除等數(shù)據(jù)預(yù)處理。其次,在用戶實(shí)際的語(yǔ)音詳單(Voice Detail)、短信詳單(SMS List)和位置信息表對(duì)數(shù)據(jù)進(jìn)行特征提取。
在完成上述處理后進(jìn)行分析,第一階段:基于獲取手機(jī)數(shù)據(jù)中的開(kāi)關(guān)機(jī)日志(attach消息和detach消息)對(duì)所需判別的卡號(hào)進(jìn)行分析,若存在兩卡號(hào)在同一時(shí)刻,向網(wǎng)絡(luò)發(fā)送attach消息(detach消息),則可以判定該兩卡號(hào)屬于同一用戶,對(duì)屬于同一用戶的卡號(hào)進(jìn)行標(biāo)記。
第二階段:讀取數(shù)據(jù)庫(kù)數(shù)據(jù),對(duì)所有卡號(hào)前一周的靜態(tài)位置信息中,每次采集的數(shù)據(jù)均進(jìn)行聚類分析,將小于或等于設(shè)定的閾值d合并為一類簇的卡號(hào)進(jìn)行標(biāo)記,即說(shuō)明合并類簇中的卡號(hào)在該時(shí)刻疑似為同一用戶所使用,將一周的標(biāo)記結(jié)果進(jìn)行匯總,若存在某些卡號(hào)一周中標(biāo)記數(shù)值不小于閾值f,則說(shuō)明這些卡號(hào)疑似屬于同一用戶。
第三階段:對(duì)這些疑似屬于同一用戶的卡號(hào)需要進(jìn)行進(jìn)一步通過(guò)其語(yǔ)音特征、短信特征等,基于改進(jìn)的呼叫指紋識(shí)別算法分析確定是否屬于同一用戶。若屬于同一用戶將其卡號(hào)劃為一類。
第四階段:最后將模型分析得出的實(shí)際用戶數(shù)與對(duì)應(yīng)的卡號(hào)送入對(duì)應(yīng)的數(shù)據(jù)庫(kù),完成同一用戶識(shí)別分析模型的建立,具體的流程圖如圖2所示。
4? 結(jié)果分析與評(píng)價(jià)
通過(guò)基于真實(shí)車輛及乘客手機(jī)相關(guān)數(shù)據(jù)的實(shí)驗(yàn)評(píng)估本文提出的同一用戶識(shí)別分析模型,采用Python實(shí)現(xiàn),運(yùn)行實(shí)驗(yàn)的PC機(jī)軟硬件配置如下: Windows10的操作系統(tǒng),PC機(jī)英特爾Xeon(至強(qiáng)) Gold 6130 @2.10 GHz,內(nèi)存64 GB(海力士2 666 MHz,主硬盤(pán)SK hynix SC311 SATA 256 GB (256 GB /固態(tài)硬盤(pán)),顯卡Nvidia TITAN X (Pascal) (12 GB/NVIDIA)。本文通過(guò)基于組合算法CHC?CFA建立同一乘客識(shí)別模型,采集上海市奉賢區(qū)奉炮公路上某一時(shí)間段內(nèi)行駛的100輛汽車內(nèi)與之相匹配的乘客手機(jī)數(shù)據(jù),以車輛A為例,與車輛A相匹配的手機(jī)卡號(hào)數(shù)共有19個(gè),設(shè)其ID為1~19。經(jīng)過(guò)模型計(jì)算可得100輛車實(shí)際乘客人數(shù)如表5所示,與實(shí)際車輛人數(shù)進(jìn)行比較,準(zhǔn)確率達(dá)到95%,滿足實(shí)際需求。
5? 結(jié)? 語(yǔ)
本文提出一種將聚類算法和呼叫指紋識(shí)別算法進(jìn)行組合的算法(CHC?CFA),運(yùn)用組合算法結(jié)合車輛內(nèi)乘客攜帶手機(jī)的實(shí)時(shí)軌跡數(shù)據(jù)以及歷史呼叫指紋數(shù)據(jù)建立同一用戶識(shí)別模型,在不需要額外基礎(chǔ)設(shè)施的情況下,有效地判別出車輛內(nèi)實(shí)際乘客人數(shù)。
最終的測(cè)試結(jié)果表明,基于CHC?CFA組合算法構(gòu)建同一用戶識(shí)別分析模型,可對(duì)行駛到道路上車輛內(nèi)實(shí)際乘客分布情況進(jìn)行分析,保證一定的準(zhǔn)確率。結(jié)合車輛信息可為城市交通以及高速公路上是否存在車輛超員提供有效的理論基礎(chǔ),也可為逐步建設(shè)HOV車道檢測(cè)問(wèn)題提出一種切實(shí)可行的輔助檢測(cè)方法。
注:本文通訊作者為陳斌。
參考文獻(xiàn)
[1] 劉爽.基于時(shí)空軌跡的交通數(shù)據(jù)分析與應(yīng)用[D].成都:電子科技大學(xué),2017.
[2] 陳令,時(shí)玉彬.獲取4G用戶身份信息的設(shè)計(jì)與實(shí)現(xiàn)[J].北京工業(yè)大學(xué)學(xué)報(bào),2018,4(23):103?114.
[3] 王瑜.成都HOV車道的實(shí)施效果分析[J].內(nèi)燃機(jī)與配件,2018(11):170?171.
[4] 陳錫清.基于大數(shù)據(jù)融合分析的雙卡槽雙卡用戶識(shí)別算法研究[J].福建電腦,2017,7(52):98?99.
[5] 張一博.基于數(shù)據(jù)挖掘的雙卡用戶識(shí)別模型研究[J].山西科技,2018,5(33):67?69.
[6] 李鐵鋼,馬駟良,王春勝.基于“呼叫指紋”的重入網(wǎng)識(shí)別算法及其在移動(dòng)市場(chǎng)占有率預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代情報(bào),2006(12):207?208.
[7] 朱成,劉海強(qiáng),朱峰,等.電信大數(shù)據(jù)的數(shù)據(jù)挖掘關(guān)鍵技術(shù)分析與探討[J].電信快報(bào),2018(6):22?24.
[8] 穆致君,何陽(yáng),楊丹.運(yùn)營(yíng)商的大數(shù)據(jù)業(yè)務(wù)發(fā)展模式分析[J].現(xiàn)代電信科技,2016,46(1):8?12.
[9] 蒲鋒,田真.基于呼叫指紋的重入網(wǎng)識(shí)別研究[J].中國(guó)新通信,2007(9):74?76.
[10] 李鐵鋼,馬駟良,王彥.改進(jìn)的呼叫指紋算法及其在重入網(wǎng)識(shí)別中的應(yīng)用[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2007,45(2): 254?255.
[11] 賀彬.電信經(jīng)營(yíng)分析系統(tǒng)重入網(wǎng)子系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2007.
[12] 劉清松,王霓虹,王偉.權(quán)重算法在計(jì)算移動(dòng)用戶重入網(wǎng)的應(yīng)用[J].自動(dòng)化技術(shù)與應(yīng)用,2009,28(2):19?21.
[13] 羅亞.移動(dòng)電話用戶重入網(wǎng)識(shí)別及營(yíng)銷建議[D].北京:北京郵電大學(xué),2010.
[14] 艾達(dá),羅愛(ài)平.移動(dòng)通信重入網(wǎng)用戶識(shí)別算法分析研究[J].西安郵電學(xué)院學(xué)報(bào),2012,17(3):30?33.
[15] 陳大力,沈巖濤,謝檳竹,等.基于余弦相似度模型的最佳教練遴選算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,35(12):1697?1700.
[16] SOLSKINNSBAKK G, GULLA J A. Combining ontological profiles with context in information retrieval [J]. Data and knowledge engineering, 2010, 69(3): 251?260.