孟東霞,何志強(qiáng),安英博
(河北金融學(xué)院 信息管理與工程系,河北 保定 071051)
基于電信大數(shù)據(jù)的流入人口統(tǒng)計(jì)研究
孟東霞,何志強(qiáng),安英博
(河北金融學(xué)院 信息管理與工程系,河北 保定 071051)
電信運(yùn)營(yíng)商在為移動(dòng)客戶提供業(yè)務(wù)服務(wù)的同時(shí),積累了用戶在身份信息、位置變化信息和消費(fèi)行為等方面的海量數(shù)據(jù),客觀反映出特定人群,特別是流動(dòng)人口的數(shù)據(jù)變化規(guī)律,在流動(dòng)人口的短周期統(tǒng)計(jì)、快速監(jiān)測(cè)等方面提供了較為準(zhǔn)確的判定依據(jù)。文章將基于電信部門(mén)獲取的數(shù)據(jù)內(nèi)容,結(jié)合大數(shù)據(jù)處理平臺(tái)和數(shù)據(jù)挖掘技術(shù)確立某一地區(qū)中流入人口的統(tǒng)計(jì)研究思路。
流動(dòng)人口;電信數(shù)據(jù);Hadoop;數(shù)據(jù)挖掘
在本文中,流入人口指使用某一特定地級(jí)市移動(dòng)通信服務(wù)的非本戶籍地群體,其數(shù)據(jù)信息在身份信息、位置變動(dòng)和通信行為方面具有特定的表現(xiàn)規(guī)律。
(1)在推行用戶實(shí)名制之后,運(yùn)營(yíng)商獲取到更加準(zhǔn)確全面的用戶身份證信息,其中前六位對(duì)應(yīng)著用戶的出生地信息,借助其與運(yùn)營(yíng)商所在地進(jìn)行比對(duì),即可確認(rèn)其是否為流入人口。
(2)若客戶身份信息有缺失或無(wú)法獲取,也可借助位置變化軌跡和通信數(shù)據(jù)進(jìn)行分析。
首先,電信部門(mén)通過(guò)基站實(shí)時(shí)采集用戶的位置信息,手機(jī)終端在移動(dòng)過(guò)程中,可根據(jù)設(shè)備通信的基站位置創(chuàng)建用戶移動(dòng)的相應(yīng)軌跡,尤其是在五一、十一、春節(jié)等長(zhǎng)假期間,我國(guó)人群一般熱衷返回戶口所在地與親人團(tuán)聚,這段時(shí)間內(nèi)運(yùn)營(yíng)商采集到的位置區(qū)域變化與人群的戶籍流動(dòng)方向呈現(xiàn)相反的趨勢(shì);其次,流動(dòng)人群大多會(huì)頻繁與戶口所在地進(jìn)行通信,而電信部門(mén)出于收費(fèi)的需要,會(huì)采集并存儲(chǔ)各個(gè)用戶的通訊信息,包括被叫用戶、被叫所在地等重要信息,這為研究人群主要通訊對(duì)象的戶籍所在地提供了數(shù)據(jù)支持。
基于以上對(duì)流入人口的電信數(shù)據(jù)判定思路,將結(jié)合Hadoop大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘技術(shù)分別對(duì)用戶身份信息和位置、通話數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)研究。本文將介紹如何借助Hadoop大數(shù)據(jù)平臺(tái)對(duì)已認(rèn)證身份信息的客戶統(tǒng)計(jì)流入人口數(shù)量;并針對(duì)未實(shí)名認(rèn)證的客戶進(jìn)行數(shù)據(jù)挖掘,根據(jù)流入人口在位置變化和通話數(shù)據(jù)方面的不同進(jìn)行分類統(tǒng)計(jì);最后介紹利用電信大數(shù)據(jù)分析流入人口的展望與建議。
在運(yùn)營(yíng)商獲取的用戶個(gè)人信息中,身份證號(hào)碼的前六位表示出生戶籍的數(shù)字地址碼,其中,第一、二位表示省、自治區(qū)等位置,第三、四位表示地級(jí)市、自治州等,五、六位表示縣級(jí)市等區(qū)域。由于本文以地級(jí)市作為特定區(qū)域進(jìn)行流入人口的研究,故選取運(yùn)營(yíng)商數(shù)據(jù)系統(tǒng)中所有實(shí)名制用戶的前四位進(jìn)行數(shù)量統(tǒng)計(jì),以北京市為例,其四位編碼是1100,與此不同的即為北京地區(qū)的流入人口。
考慮到運(yùn)營(yíng)商獲取的數(shù)據(jù)量較大,將借助大數(shù)據(jù)處理平臺(tái)Hadoop架構(gòu)中的MapReduce編程模型對(duì)身份信息進(jìn)行多節(jié)點(diǎn)的分布統(tǒng)計(jì)計(jì)算。首先將所有身份信息的輸入文件劃分為M份,將其分配到不同的節(jié)點(diǎn)中執(zhí)行Map函數(shù),Map依次遍歷所有位置信息,每遇到一個(gè)新位置編碼w,就產(chǎn)生一個(gè)中間鍵值對(duì)<w,“1”>,再次遍歷到w時(shí),增加其值,MapReduce將位置編碼w相同的鍵值對(duì)傳給reduce函數(shù),將w的值進(jìn)行累加就得到位置編碼w的出現(xiàn)次數(shù),即來(lái)自某一特定區(qū)域的人口數(shù)量。最后再對(duì)存儲(chǔ)起來(lái)的所有位置編碼的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),計(jì)算出身份信息與當(dāng)?shù)匚恢镁幋a不同的用戶所占的比例,就得到了實(shí)名制用戶中流入人口的所占比。另外,還可統(tǒng)計(jì)結(jié)果進(jìn)行深入分析,獲取流入人口的具體來(lái)源區(qū)域及所占比例。
分類是數(shù)據(jù)挖掘中重要的應(yīng)用技術(shù)之一,其研究目的是利用算法模型M對(duì)尚未確定具體類別的所有數(shù)據(jù)進(jìn)行計(jì)算,獲取其分類結(jié)果。對(duì)于尚未進(jìn)行實(shí)名制認(rèn)證的移動(dòng)用戶來(lái)說(shuō),是否為流入人口為其對(duì)應(yīng)的所屬類別,將其作為算法的預(yù)測(cè)集P。分類的總體流程為:選取合適的數(shù)據(jù)分類樣本,并確立數(shù)據(jù)集合的屬性特征X并對(duì)其進(jìn)行量化,常用屬性有類別屬性和數(shù)值屬性兩種;然后選取適當(dāng)?shù)姆诸愃惴∕進(jìn)行計(jì)算,常用分類算法包括監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)兩種,區(qū)別在于監(jiān)督算法需要將已知分類結(jié)果的數(shù)據(jù)作為訓(xùn)練集T進(jìn)行模型參數(shù)的估計(jì),再利用訓(xùn)練好的模型對(duì)預(yù)測(cè)集合進(jìn)行分類,獲取最終的分類結(jié)果,常用模型包括支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。無(wú)監(jiān)督學(xué)習(xí)需要直接對(duì)數(shù)據(jù)進(jìn)行建模,不需要訓(xùn)練集的參與,聚類算法是常用的算法之一。
3.1 用戶數(shù)據(jù)集特征的選取與構(gòu)建
對(duì)于流動(dòng)人口而言,不管其流動(dòng)方向如何,節(jié)假日期間特別是春節(jié)期間總會(huì)回到戶籍所在地與親人團(tuán)聚,另外,流動(dòng)人口一般會(huì)經(jīng)常與戶籍地留守親人進(jìn)行長(zhǎng)途通話,移動(dòng)公司由于計(jì)費(fèi)的需要,會(huì)對(duì)所有被叫進(jìn)行記錄。根據(jù)流入人口和本地人口在節(jié)假日和平日的不同表現(xiàn),選取春節(jié)七天假期間和普通一周里未認(rèn)證用戶的基站位置和通話數(shù)據(jù)作為數(shù)據(jù)集。特征代表著數(shù)據(jù)在不同屬性方面的表現(xiàn),是進(jìn)行分類的主要參考依據(jù)。以流入人口為例,其在外地通話數(shù)量、節(jié)假日位置變化等方面與本地人口有明顯的差異,可作為數(shù)據(jù)集的重要特征。如表1所示,選取以下屬性作為數(shù)據(jù)集的關(guān)鍵特征。
表1 數(shù)據(jù)集特征
在表1中,JJR-WZ為分類型屬性,若在本地其值為1,否則為0;其他屬性均為數(shù)值型,為消除數(shù)值規(guī)模差異對(duì)分類結(jié)果的影響,對(duì)其數(shù)值進(jìn)行歸一化的預(yù)處理。
3.2 選取分類算法M進(jìn)行建模
3.2.1 選取人工神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督學(xué)習(xí)
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)是一種具有自學(xué)習(xí)能力和快速計(jì)算最優(yōu)解的模仿生物神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)模型,由一系列聯(lián)接的節(jié)點(diǎn)構(gòu)造而成。模型中節(jié)點(diǎn)的作用是接受系統(tǒng)中其他節(jié)點(diǎn)的輸入信號(hào)進(jìn)行加權(quán)求和,并利用激勵(lì)函數(shù)對(duì)累加和進(jìn)行放大或限制后進(jìn)行輸出,再作為下一組節(jié)點(diǎn)的輸入信號(hào)。激勵(lì)函數(shù)通常為非線性函數(shù),在實(shí)際應(yīng)用中經(jīng)常選用Sigmoid 函數(shù)。按照神經(jīng)網(wǎng)絡(luò)中節(jié)點(diǎn)之間的互聯(lián)方式,常見(jiàn)的網(wǎng)絡(luò)結(jié)構(gòu)包括前饋神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。
單隱藏層前饋神經(jīng)網(wǎng)絡(luò)(Single-hidden Layer Feedforward Neural Network,SLFNN)是目前應(yīng)用最為廣泛的前饋神經(jīng)網(wǎng)絡(luò),由輸入層,單一隱藏層和輸出層構(gòu)成。計(jì)算時(shí),輸入信息通過(guò)輸入層進(jìn)入網(wǎng)絡(luò)后,按照輸入層-隱藏層-輸出層的單一順序流動(dòng),在經(jīng)過(guò)隱藏層加權(quán)處理后由輸出層顯示計(jì)算結(jié)果,其中不包含節(jié)點(diǎn)輸出對(duì)輸入的任何反饋和循環(huán)。
要使用人工神經(jīng)網(wǎng)絡(luò)模型對(duì)未實(shí)名認(rèn)證用戶進(jìn)行流動(dòng)人口的統(tǒng)計(jì),首先構(gòu)造訓(xùn)練集和預(yù)測(cè)集,預(yù)測(cè)集包含所有未實(shí)名認(rèn)證的通信客戶,訓(xùn)練集是標(biāo)記了是否為流入人口的數(shù)據(jù)集合,數(shù)據(jù)可從已經(jīng)統(tǒng)計(jì)出結(jié)果的所有數(shù)據(jù)中隨機(jī)選取,包含流入人口和本地人口,總體數(shù)量大于預(yù)測(cè)集。兩個(gè)集合中所有數(shù)據(jù)的屬性與確立的特征保持一致。將訓(xùn)練集數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)模型中對(duì)相關(guān)參數(shù)進(jìn)行計(jì)算和優(yōu)化,參數(shù)包括聯(lián)接輸入神經(jīng)元和隱藏層節(jié)點(diǎn)的輸入權(quán)值、隱藏層節(jié)點(diǎn)的偏置系數(shù);b.聯(lián)接隱藏層節(jié)點(diǎn)和輸出神經(jīng)元的輸出權(quán)值,從而確定分類模型并對(duì)未認(rèn)證客戶進(jìn)行分類計(jì)算。
3.2.2 應(yīng)用聚類算法進(jìn)行無(wú)監(jiān)督學(xué)習(xí)
聚類分析屬于無(wú)監(jiān)督學(xué)習(xí),它將數(shù)據(jù)看作多維樣本空間中的一個(gè)點(diǎn),依據(jù)數(shù)據(jù)屬性的相似性為基礎(chǔ)對(duì)數(shù)據(jù)進(jìn)行分類,計(jì)算的主要目標(biāo)是最大化同類對(duì)象的相似度,盡可能地縮小不同類對(duì)象的相似程度,是數(shù)據(jù)挖掘的重要算法,其中較為典型的是基于距離進(jìn)行度量的K-means聚類算法。
K-means算法進(jìn)行分類時(shí),不需要借助指定類標(biāo)簽的訓(xùn)練集建立算法模型,先根據(jù)需要設(shè)置所有數(shù)據(jù)樣本大致所屬的類別個(gè)數(shù),然后通過(guò)K-means算法將具有相同特征,或者參照某一規(guī)則將較為相似、與其他分組明顯不同的數(shù)據(jù)聚集到一起形成同一個(gè)分組。最后,依據(jù)每組數(shù)據(jù)的特點(diǎn),確實(shí)合適的類標(biāo)簽。
采用K-means算法對(duì)尚未實(shí)名認(rèn)證的所有客戶進(jìn)行分類時(shí),將依照已經(jīng)確立的屬性進(jìn)行相似性度量,具體步驟包括:
(1)將所有未實(shí)名認(rèn)證的用戶作為輸入數(shù)據(jù)集;(2)是否為流入人口是數(shù)據(jù)所屬類別,隨機(jī)選擇兩個(gè)數(shù)據(jù)作為聚類的質(zhì)心;(3)計(jì)算其他數(shù)據(jù)點(diǎn)與兩個(gè)質(zhì)心的距離,將所有數(shù)據(jù)點(diǎn)聚集成2個(gè)分組;(4)對(duì)兩個(gè)分組重新計(jì)算中心點(diǎn)作為新質(zhì)心;(5)重復(fù)執(zhí)行步驟3,4,直到質(zhì)心不變或變化很小停止聚類;(6)根據(jù)流入人口的判定思路,確定其對(duì)應(yīng)的分組,從而獲得流入人口的統(tǒng)計(jì)數(shù)量。
人口的流入數(shù)量在一定程度上反映出當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展情況,也對(duì)當(dāng)?shù)氐娜肆Y源分配、城市建設(shè)、公共設(shè)施等造成一系列的社會(huì)影響,短周期內(nèi)快速統(tǒng)計(jì)流入人口數(shù)量有利于促進(jìn)城市各方面的健康發(fā)展。
為進(jìn)一步提高識(shí)別流入人口的準(zhǔn)確性,可利用網(wǎng)絡(luò)調(diào)查問(wèn)卷,針對(duì)學(xué)生、務(wù)工者等不同群體建立通信行為模型,獲得更加精準(zhǔn)的屬性特征。根據(jù)基站位置的分布,建立基于社區(qū)、城鄉(xiāng)電信數(shù)據(jù)的抽樣統(tǒng)計(jì)方法,實(shí)現(xiàn)小區(qū)域范圍內(nèi)的流入人口統(tǒng)計(jì),根據(jù)流入人口的統(tǒng)計(jì)數(shù)量繪制城市分布密度圖,有利于促進(jìn)城市的規(guī)劃管理。另外,電信數(shù)據(jù)涉及用戶的個(gè)人隱私,有關(guān)部門(mén)在采集加工時(shí),應(yīng)注重保護(hù)數(shù)據(jù)的安全性。
[1]智勇.基于移動(dòng)通信信息資源的人口流動(dòng)趨勢(shì)研究[J].山東社會(huì)科學(xué),2013(5):102-105.
[2]趙時(shí)亮,高楊.基于移動(dòng)通信的人口流動(dòng)信息大數(shù)據(jù)分析方法與應(yīng)用[J].人口與社會(huì),2014(3):20-26.
[3]劉震,付俊輝,趙楠.基于移動(dòng)通信數(shù)據(jù)的用戶移動(dòng)軌跡預(yù)測(cè)方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013(2):10-14.
[4]張國(guó)棟.基于Hadoop技術(shù)的電信大數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)和實(shí)現(xiàn)[D].上海:上海交通大學(xué),2014.
[5]李浩.Hadoop聚類在電信客戶差異化催繳中的研究與應(yīng)用[D].南昌:南昌大學(xué),2014.
Research on statistical on the inflow of large data based on telecom data
Meng Dongxia,He Zhiqiang,An Yingbo
(Information Management and Engineering Department of Hebei Institute of Finance,Baoding 071051,China)
Telecom operators provide business services to mobile customers,at the same time accumulating user identity information,location information and data changes and consumer behavior,objectively reflect the specific populations,especially the data changes of the floating population in a short period of statistics of the floating population,providing a basis for determining more accurately rapid monitoring.The article combined data content of the telecommunications sector access with big data processing platform and data mining technology to establish the statistical research population of a region.
mobile population;telecom data;Hadoop;data mining
全國(guó)統(tǒng)計(jì)科學(xué)研究項(xiàng)目;項(xiàng)目編號(hào):2014LY080。
孟東霞(1986—),女,河北滄州。