亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電信大數(shù)據(jù)的流入人口統(tǒng)計研究

        2016-11-12 05:38:48孟東霞何志強安英博
        無線互聯(lián)科技 2016年19期
        關鍵詞:數(shù)據(jù)挖掘分類用戶

        孟東霞,何志強,安英博

        (河北金融學院 信息管理與工程系,河北 保定 071051)

        基于電信大數(shù)據(jù)的流入人口統(tǒng)計研究

        孟東霞,何志強,安英博

        (河北金融學院 信息管理與工程系,河北 保定 071051)

        電信運營商在為移動客戶提供業(yè)務服務的同時,積累了用戶在身份信息、位置變化信息和消費行為等方面的海量數(shù)據(jù),客觀反映出特定人群,特別是流動人口的數(shù)據(jù)變化規(guī)律,在流動人口的短周期統(tǒng)計、快速監(jiān)測等方面提供了較為準確的判定依據(jù)。文章將基于電信部門獲取的數(shù)據(jù)內(nèi)容,結合大數(shù)據(jù)處理平臺和數(shù)據(jù)挖掘技術確立某一地區(qū)中流入人口的統(tǒng)計研究思路。

        流動人口;電信數(shù)據(jù);Hadoop;數(shù)據(jù)挖掘

        1 對流入人口的電信數(shù)據(jù)判定思路概述

        在本文中,流入人口指使用某一特定地級市移動通信服務的非本戶籍地群體,其數(shù)據(jù)信息在身份信息、位置變動和通信行為方面具有特定的表現(xiàn)規(guī)律。

        (1)在推行用戶實名制之后,運營商獲取到更加準確全面的用戶身份證信息,其中前六位對應著用戶的出生地信息,借助其與運營商所在地進行比對,即可確認其是否為流入人口。

        (2)若客戶身份信息有缺失或無法獲取,也可借助位置變化軌跡和通信數(shù)據(jù)進行分析。

        首先,電信部門通過基站實時采集用戶的位置信息,手機終端在移動過程中,可根據(jù)設備通信的基站位置創(chuàng)建用戶移動的相應軌跡,尤其是在五一、十一、春節(jié)等長假期間,我國人群一般熱衷返回戶口所在地與親人團聚,這段時間內(nèi)運營商采集到的位置區(qū)域變化與人群的戶籍流動方向呈現(xiàn)相反的趨勢;其次,流動人群大多會頻繁與戶口所在地進行通信,而電信部門出于收費的需要,會采集并存儲各個用戶的通訊信息,包括被叫用戶、被叫所在地等重要信息,這為研究人群主要通訊對象的戶籍所在地提供了數(shù)據(jù)支持。

        基于以上對流入人口的電信數(shù)據(jù)判定思路,將結合Hadoop大數(shù)據(jù)技術和數(shù)據(jù)挖掘技術分別對用戶身份信息和位置、通話數(shù)據(jù)信息進行統(tǒng)計研究。本文將介紹如何借助Hadoop大數(shù)據(jù)平臺對已認證身份信息的客戶統(tǒng)計流入人口數(shù)量;并針對未實名認證的客戶進行數(shù)據(jù)挖掘,根據(jù)流入人口在位置變化和通話數(shù)據(jù)方面的不同進行分類統(tǒng)計;最后介紹利用電信大數(shù)據(jù)分析流入人口的展望與建議。

        2 基于Hadoop大數(shù)據(jù)平臺統(tǒng)計實名認證用戶

        在運營商獲取的用戶個人信息中,身份證號碼的前六位表示出生戶籍的數(shù)字地址碼,其中,第一、二位表示省、自治區(qū)等位置,第三、四位表示地級市、自治州等,五、六位表示縣級市等區(qū)域。由于本文以地級市作為特定區(qū)域進行流入人口的研究,故選取運營商數(shù)據(jù)系統(tǒng)中所有實名制用戶的前四位進行數(shù)量統(tǒng)計,以北京市為例,其四位編碼是1100,與此不同的即為北京地區(qū)的流入人口。

        考慮到運營商獲取的數(shù)據(jù)量較大,將借助大數(shù)據(jù)處理平臺Hadoop架構中的MapReduce編程模型對身份信息進行多節(jié)點的分布統(tǒng)計計算。首先將所有身份信息的輸入文件劃分為M份,將其分配到不同的節(jié)點中執(zhí)行Map函數(shù),Map依次遍歷所有位置信息,每遇到一個新位置編碼w,就產(chǎn)生一個中間鍵值對<w,“1”>,再次遍歷到w時,增加其值,MapReduce將位置編碼w相同的鍵值對傳給reduce函數(shù),將w的值進行累加就得到位置編碼w的出現(xiàn)次數(shù),即來自某一特定區(qū)域的人口數(shù)量。最后再對存儲起來的所有位置編碼的出現(xiàn)次數(shù)進行統(tǒng)計,計算出身份信息與當?shù)匚恢镁幋a不同的用戶所占的比例,就得到了實名制用戶中流入人口的所占比。另外,還可統(tǒng)計結果進行深入分析,獲取流入人口的具體來源區(qū)域及所占比例。

        3 基于數(shù)據(jù)挖掘技術分析未實名制用戶

        分類是數(shù)據(jù)挖掘中重要的應用技術之一,其研究目的是利用算法模型M對尚未確定具體類別的所有數(shù)據(jù)進行計算,獲取其分類結果。對于尚未進行實名制認證的移動用戶來說,是否為流入人口為其對應的所屬類別,將其作為算法的預測集P。分類的總體流程為:選取合適的數(shù)據(jù)分類樣本,并確立數(shù)據(jù)集合的屬性特征X并對其進行量化,常用屬性有類別屬性和數(shù)值屬性兩種;然后選取適當?shù)姆诸愃惴∕進行計算,常用分類算法包括監(jiān)督學習和無監(jiān)督學習兩種,區(qū)別在于監(jiān)督算法需要將已知分類結果的數(shù)據(jù)作為訓練集T進行模型參數(shù)的估計,再利用訓練好的模型對預測集合進行分類,獲取最終的分類結果,常用模型包括支持向量機、神經(jīng)網(wǎng)絡等。無監(jiān)督學習需要直接對數(shù)據(jù)進行建模,不需要訓練集的參與,聚類算法是常用的算法之一。

        3.1 用戶數(shù)據(jù)集特征的選取與構建

        對于流動人口而言,不管其流動方向如何,節(jié)假日期間特別是春節(jié)期間總會回到戶籍所在地與親人團聚,另外,流動人口一般會經(jīng)常與戶籍地留守親人進行長途通話,移動公司由于計費的需要,會對所有被叫進行記錄。根據(jù)流入人口和本地人口在節(jié)假日和平日的不同表現(xiàn),選取春節(jié)七天假期間和普通一周里未認證用戶的基站位置和通話數(shù)據(jù)作為數(shù)據(jù)集。特征代表著數(shù)據(jù)在不同屬性方面的表現(xiàn),是進行分類的主要參考依據(jù)。以流入人口為例,其在外地通話數(shù)量、節(jié)假日位置變化等方面與本地人口有明顯的差異,可作為數(shù)據(jù)集的重要特征。如表1所示,選取以下屬性作為數(shù)據(jù)集的關鍵特征。

        表1 數(shù)據(jù)集特征

        在表1中,JJR-WZ為分類型屬性,若在本地其值為1,否則為0;其他屬性均為數(shù)值型,為消除數(shù)值規(guī)模差異對分類結果的影響,對其數(shù)值進行歸一化的預處理。

        3.2 選取分類算法M進行建模

        3.2.1 選取人工神經(jīng)網(wǎng)絡進行監(jiān)督學習

        人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)是一種具有自學習能力和快速計算最優(yōu)解的模仿生物神經(jīng)網(wǎng)絡的監(jiān)督學習模型,由一系列聯(lián)接的節(jié)點構造而成。模型中節(jié)點的作用是接受系統(tǒng)中其他節(jié)點的輸入信號進行加權求和,并利用激勵函數(shù)對累加和進行放大或限制后進行輸出,再作為下一組節(jié)點的輸入信號。激勵函數(shù)通常為非線性函數(shù),在實際應用中經(jīng)常選用Sigmoid 函數(shù)。按照神經(jīng)網(wǎng)絡中節(jié)點之間的互聯(lián)方式,常見的網(wǎng)絡結構包括前饋神經(jīng)網(wǎng)絡、反饋神經(jīng)網(wǎng)絡和自組織網(wǎng)絡。

        單隱藏層前饋神經(jīng)網(wǎng)絡(Single-hidden Layer Feedforward Neural Network,SLFNN)是目前應用最為廣泛的前饋神經(jīng)網(wǎng)絡,由輸入層,單一隱藏層和輸出層構成。計算時,輸入信息通過輸入層進入網(wǎng)絡后,按照輸入層-隱藏層-輸出層的單一順序流動,在經(jīng)過隱藏層加權處理后由輸出層顯示計算結果,其中不包含節(jié)點輸出對輸入的任何反饋和循環(huán)。

        要使用人工神經(jīng)網(wǎng)絡模型對未實名認證用戶進行流動人口的統(tǒng)計,首先構造訓練集和預測集,預測集包含所有未實名認證的通信客戶,訓練集是標記了是否為流入人口的數(shù)據(jù)集合,數(shù)據(jù)可從已經(jīng)統(tǒng)計出結果的所有數(shù)據(jù)中隨機選取,包含流入人口和本地人口,總體數(shù)量大于預測集。兩個集合中所有數(shù)據(jù)的屬性與確立的特征保持一致。將訓練集數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡模型中對相關參數(shù)進行計算和優(yōu)化,參數(shù)包括聯(lián)接輸入神經(jīng)元和隱藏層節(jié)點的輸入權值、隱藏層節(jié)點的偏置系數(shù);b.聯(lián)接隱藏層節(jié)點和輸出神經(jīng)元的輸出權值,從而確定分類模型并對未認證客戶進行分類計算。

        3.2.2 應用聚類算法進行無監(jiān)督學習

        聚類分析屬于無監(jiān)督學習,它將數(shù)據(jù)看作多維樣本空間中的一個點,依據(jù)數(shù)據(jù)屬性的相似性為基礎對數(shù)據(jù)進行分類,計算的主要目標是最大化同類對象的相似度,盡可能地縮小不同類對象的相似程度,是數(shù)據(jù)挖掘的重要算法,其中較為典型的是基于距離進行度量的K-means聚類算法。

        K-means算法進行分類時,不需要借助指定類標簽的訓練集建立算法模型,先根據(jù)需要設置所有數(shù)據(jù)樣本大致所屬的類別個數(shù),然后通過K-means算法將具有相同特征,或者參照某一規(guī)則將較為相似、與其他分組明顯不同的數(shù)據(jù)聚集到一起形成同一個分組。最后,依據(jù)每組數(shù)據(jù)的特點,確實合適的類標簽。

        采用K-means算法對尚未實名認證的所有客戶進行分類時,將依照已經(jīng)確立的屬性進行相似性度量,具體步驟包括:

        (1)將所有未實名認證的用戶作為輸入數(shù)據(jù)集;(2)是否為流入人口是數(shù)據(jù)所屬類別,隨機選擇兩個數(shù)據(jù)作為聚類的質(zhì)心;(3)計算其他數(shù)據(jù)點與兩個質(zhì)心的距離,將所有數(shù)據(jù)點聚集成2個分組;(4)對兩個分組重新計算中心點作為新質(zhì)心;(5)重復執(zhí)行步驟3,4,直到質(zhì)心不變或變化很小停止聚類;(6)根據(jù)流入人口的判定思路,確定其對應的分組,從而獲得流入人口的統(tǒng)計數(shù)量。

        4 對基于電信大數(shù)據(jù)統(tǒng)計流入人口的展望

        人口的流入數(shù)量在一定程度上反映出當?shù)氐慕?jīng)濟發(fā)展情況,也對當?shù)氐娜肆Y源分配、城市建設、公共設施等造成一系列的社會影響,短周期內(nèi)快速統(tǒng)計流入人口數(shù)量有利于促進城市各方面的健康發(fā)展。

        為進一步提高識別流入人口的準確性,可利用網(wǎng)絡調(diào)查問卷,針對學生、務工者等不同群體建立通信行為模型,獲得更加精準的屬性特征。根據(jù)基站位置的分布,建立基于社區(qū)、城鄉(xiāng)電信數(shù)據(jù)的抽樣統(tǒng)計方法,實現(xiàn)小區(qū)域范圍內(nèi)的流入人口統(tǒng)計,根據(jù)流入人口的統(tǒng)計數(shù)量繪制城市分布密度圖,有利于促進城市的規(guī)劃管理。另外,電信數(shù)據(jù)涉及用戶的個人隱私,有關部門在采集加工時,應注重保護數(shù)據(jù)的安全性。

        [1]智勇.基于移動通信信息資源的人口流動趨勢研究[J].山東社會科學,2013(5):102-105.

        [2]趙時亮,高楊.基于移動通信的人口流動信息大數(shù)據(jù)分析方法與應用[J].人口與社會,2014(3):20-26.

        [3]劉震,付俊輝,趙楠.基于移動通信數(shù)據(jù)的用戶移動軌跡預測方法[J].計算機應用與軟件,2013(2):10-14.

        [4]張國棟.基于Hadoop技術的電信大數(shù)據(jù)分析平臺的設計和實現(xiàn)[D].上海:上海交通大學,2014.

        [5]李浩.Hadoop聚類在電信客戶差異化催繳中的研究與應用[D].南昌:南昌大學,2014.

        Research on statistical on the inflow of large data based on telecom data

        Meng Dongxia,He Zhiqiang,An Yingbo

        (Information Management and Engineering Department of Hebei Institute of Finance,Baoding 071051,China)

        Telecom operators provide business services to mobile customers,at the same time accumulating user identity information,location information and data changes and consumer behavior,objectively reflect the specific populations,especially the data changes of the floating population in a short period of statistics of the floating population,providing a basis for determining more accurately rapid monitoring.The article combined data content of the telecommunications sector access with big data processing platform and data mining technology to establish the statistical research population of a region.

        mobile population;telecom data;Hadoop;data mining

        全國統(tǒng)計科學研究項目;項目編號:2014LY080。

        孟東霞(1986—),女,河北滄州。

        猜你喜歡
        數(shù)據(jù)挖掘分類用戶
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        色播在线永久免费视频网站| 曰本女人牲交全视频免费播放| 少妇bbwbbw高潮| 精品卡一卡二卡3卡高清乱码| 亚洲最大的av在线观看| 福利体验试看120秒| 久久精品国产成人午夜福利| 国产成年无码久久久免费| 日本精品人妻无码77777| 帅小伙自慰videogay男男| 精品国产乱码久久免费看| 免费无码又爽又刺激网站| 亚洲av香蕉一区区二区三区| 久久综合亚洲鲁鲁五月天| 久久这里只精品国产99热| 尹人香蕉久久99天天拍| 翘臀诱惑中文字幕人妻| 国产片三级视频播放| 男女边吃奶边做边爱视频| 99久久精品费精品国产一区二| 中文字幕本久久精品一区| 手机在线中文字幕av| 久久99精品久久久久九色 | 天堂…在线最新版资源| 精品三级国产一区二区三| 国产尤物二区三区在线观看| 免费国精产品自偷自偷免费看| 久久天堂综合亚洲伊人hd妓女| 中文字幕乱码在线人妻| 久久精品女人天堂AV一个| 最近日本中文字幕免费完整| 精品国产av一区二区三区 | 国产AⅤ无码久久丝袜美腿| 区久久aaa片69亚洲| 欧美乱妇高清无乱码在线观看| 综合亚洲二区三区四区在线| 亚洲中文字幕第二十三页| 全免费a级毛片免费看| 久久夜色精品国产噜噜麻豆| 山外人精品影院| 国产精品久久久久久妇女|