徐珊珊 唐大鵬 梁偉明 董會(huì) 孫煒程
南京華蘇科技有限公司
隨著經(jīng)濟(jì)體制改革的推進(jìn),城市中外來(lái)常住人口迅速擴(kuò)大,成為了一個(gè)不可忽視的特殊群體。常住人口,作為一種統(tǒng)計(jì)口徑,主要針對(duì)地區(qū)而言,常住人口與戶籍人口的統(tǒng)計(jì)口徑不同,在社會(huì)與政府部門工作中發(fā)揮著不同的作用。在當(dāng)前流動(dòng)人口規(guī)模大、人戶分離現(xiàn)象較為普遍的情況下,常住人口更能準(zhǔn)確地反映一個(gè)地區(qū)的人口規(guī)模與現(xiàn)狀,對(duì)于政府制定相關(guān)政策與服務(wù)措施提供更為有效的信息。所以統(tǒng)計(jì)外來(lái)常住人口數(shù)量對(duì)于了解國(guó)情國(guó)力,制定人口計(jì)劃和經(jīng)濟(jì)、社會(huì)發(fā)展計(jì)劃,進(jìn)行人口科學(xué)研究,都有十分重要的意義。
但人口統(tǒng)計(jì)一直是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作?,F(xiàn)有的外來(lái)常住人口識(shí)別方法中,主要靠人工來(lái)完成,通過(guò)發(fā)放問(wèn)卷的方式或者電話外呼的方式來(lái)確認(rèn),這種方法不但耗費(fèi)人力物力,而且效率低下。部分運(yùn)營(yíng)商也會(huì)采取口徑的方式進(jìn)行定義,但此種定義規(guī)則缺乏科學(xué)解釋性。如何減少人力物力,采用更高效科學(xué)的手段對(duì)外來(lái)常住人口進(jìn)行識(shí)別是一項(xiàng)具有挑戰(zhàn)的工作。本文根據(jù)移動(dòng)手機(jī)用戶駐留數(shù)據(jù),使用大數(shù)據(jù)手段對(duì)外來(lái)常住人口進(jìn)行統(tǒng)計(jì),從而為政府提供具有科學(xué)解釋性的數(shù)據(jù)支撐,既不用像傳統(tǒng)普查方式那樣費(fèi)時(shí)費(fèi)力,也讓識(shí)別結(jié)果更具科學(xué)性。
移動(dòng)運(yùn)營(yíng)商所收集的用戶駐留信息可以統(tǒng)計(jì)用戶在本市的駐留天數(shù)、駐留時(shí)長(zhǎng)以及ECI切換數(shù)據(jù)。其中常住和非常住用戶在駐留特征上一定不同,因此通過(guò)對(duì)駐留信息進(jìn)行處理形成駐留特征變量,則可使用聚類算法對(duì)兩類用戶進(jìn)行區(qū)分。
研究結(jié)果表明,利用機(jī)器學(xué)習(xí)算法可以使用科學(xué)的方法對(duì)外來(lái)常住人口進(jìn)行識(shí)別,且識(shí)別準(zhǔn)確率較高。
人口是一個(gè)地區(qū)發(fā)展最重要的基礎(chǔ),人口的多少與質(zhì)量直接關(guān)系到所在地區(qū)的經(jīng)濟(jì)水平、生活質(zhì)量以及未來(lái)的發(fā)展?jié)摿?。人口、資源、環(huán)境三者相互影響、相互制約,人口規(guī)模的增減會(huì)直接影響地區(qū)的資源消耗與環(huán)境保護(hù)這兩項(xiàng)指標(biāo)水平的高低。其中常住人口更能準(zhǔn)確地反映一個(gè)地區(qū)的人口規(guī)模與現(xiàn)狀,對(duì)于政府制定相關(guān)政策與服務(wù)措施提供更為有效的信息。
目前大多數(shù)研究都只停留在宏觀的常住人口規(guī)模預(yù)測(cè)上,宋漢杰在多模型方法下的地區(qū)常住人口規(guī)模預(yù)測(cè)分析一文中,通過(guò)運(yùn)用一元線性回歸法、二次指數(shù)平滑法、灰色GM(1,1)模型預(yù)測(cè)法,分別對(duì)2013—2020年株洲市的常住人口進(jìn)行了短期預(yù)測(cè)。另一項(xiàng)研究也是采用Logistic模型對(duì)青島常住人口進(jìn)行預(yù)測(cè),從而了解青島人口發(fā)展趨勢(shì)。從以往這些研究中發(fā)現(xiàn),對(duì)人口微觀上的研究非常少,并沒(méi)有細(xì)分到單個(gè)常住人口的識(shí)別。
當(dāng)用戶缺乏標(biāo)簽時(shí),對(duì)用戶的劃分則需要用到非監(jiān)督機(jī)器學(xué)習(xí)算法。無(wú)監(jiān)督學(xué)習(xí)中最典型的就是聚類算法,聚類可根據(jù)用戶數(shù)據(jù)特征,將有相似特征的數(shù)據(jù)點(diǎn)聚成一組。每一個(gè)組都被稱作一個(gè)集群(簇)。對(duì)象之間的相似性可通過(guò)解析方式進(jìn)行定義。存在很多不同的聚類算法,其區(qū)別在于衡量對(duì)象相似性的標(biāo)準(zhǔn)不同:可通過(guò)距離、密度、圖論或是統(tǒng)計(jì)分布來(lái)衡量。
本文采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法,挖掘出常住人口與非常住人口的駐留行為特征,對(duì)單個(gè)用戶進(jìn)行識(shí)別,從而便于政府部門進(jìn)行管理。
本文中所研究的數(shù)據(jù)來(lái)自無(wú)錫移動(dòng)通信公司(位于中國(guó)江蘇?。?。下面,我們?cè)斒隽藷o(wú)錫移動(dòng)公司目前的相關(guān)數(shù)據(jù)情況。
在外來(lái)人口的定義上,本文根據(jù)運(yùn)營(yíng)商的要求對(duì)外來(lái)人口做出如下定義。根據(jù)手機(jī)號(hào)碼歸屬地和身份證信息共分為以下四種用戶類型,如圖1所示。
(1)本地號(hào)碼本地戶籍的用戶;
(2)本地號(hào)碼外地戶籍本地戶口的用戶;
(3)本地號(hào)碼外地戶籍外地戶口的用戶;
(4)外地號(hào)碼的用戶。
其中第一類和第二類人均不歸類為外來(lái)人口,所以常住外來(lái)人口識(shí)別只需針對(duì)第三類和第四類用戶進(jìn)行分析。
圖1 全網(wǎng)用戶分類圖
為了保護(hù)用戶隱私,目前無(wú)錫移動(dòng)僅能為我們提供一種類型的數(shù)據(jù):用戶駐留數(shù)據(jù)。駐留數(shù)據(jù)主要包括用戶在某個(gè)時(shí)刻某一小區(qū)下的駐留時(shí)長(zhǎng)。
本文用于實(shí)驗(yàn)的是無(wú)錫2月用戶駐留數(shù)據(jù)(包含2/3/4G所有數(shù)據(jù)),按照以上四類用戶共分為四個(gè)數(shù)據(jù)集,包含以下字段:用戶手機(jī)號(hào),小區(qū)唯一標(biāo)識(shí)碼,秒級(jí)駐留時(shí)長(zhǎng),時(shí)間,以及一些標(biāo)簽變量。其中第一類數(shù)據(jù)集中包含236個(gè)用戶,第二類數(shù)據(jù)集中包含182個(gè)用戶,第三類數(shù)據(jù)集中包含178個(gè)用戶,第四類數(shù)據(jù)集中包含199個(gè)用戶,共795個(gè)用戶。本文用于建模的主要為第三類和第四類用戶。
本文的目的是區(qū)分外來(lái)流動(dòng)人口和外來(lái)常住人口。但數(shù)據(jù)中缺乏標(biāo)簽,因此選擇無(wú)監(jiān)督學(xué)習(xí)中的聚類算法完成兩類人口的區(qū)分,主要分為以下幾個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理。即將數(shù)據(jù)中的異常值和缺失值從數(shù)據(jù)集中剔除;
(2)變量轉(zhuǎn)換。即對(duì)駐留數(shù)據(jù)進(jìn)行變形轉(zhuǎn)換,運(yùn)用統(tǒng)計(jì)手段處理產(chǎn)生新的可用變量;
(3)變量篩選。目的為避免某些相關(guān)性較強(qiáng)的變量影響最終的聚類結(jié)果;
(4)數(shù)據(jù)標(biāo)準(zhǔn)化。目的是為消除各變量由于量綱不同所產(chǎn)生的影響;
(5)聚類模型相關(guān)機(jī)器學(xué)習(xí)算法。
前面已經(jīng)提到,本文將使用到用戶駐留數(shù)據(jù),所以在建模前需要對(duì)數(shù)據(jù)中的缺失值和異常值進(jìn)行處理。通過(guò)對(duì)數(shù)據(jù)進(jìn)行觀察發(fā)現(xiàn),有些數(shù)據(jù)中的用戶標(biāo)識(shí)碼和小區(qū)標(biāo)識(shí)碼存在缺失,對(duì)于此類數(shù)據(jù),我們選擇行刪除的方式進(jìn)行處理。有些用戶的駐留時(shí)長(zhǎng)也會(huì)存在異常值,理論上駐留時(shí)長(zhǎng)應(yīng)該在0-3600s之間,對(duì)于大于3600s和小于0s的數(shù)據(jù)需要?jiǎng)h除。
為了保護(hù)客戶隱私,運(yùn)營(yíng)商只能提供用戶駐留數(shù)據(jù)。未經(jīng)處理的駐留數(shù)據(jù)無(wú)法用于用戶聚類分析,因此要對(duì)駐留數(shù)據(jù)進(jìn)行轉(zhuǎn)換,運(yùn)用統(tǒng)計(jì)手段處理產(chǎn)生新的可用變量。根據(jù)用戶駐留數(shù)據(jù)進(jìn)行如下統(tǒng)計(jì)分析,形成以下15個(gè)新變量∶
(1)統(tǒng)計(jì)各用戶一個(gè)月中駐留的天數(shù)總和
(2)統(tǒng)計(jì)各用戶一個(gè)月中駐留的小時(shí)數(shù)總和
(3)統(tǒng)計(jì)各用戶一個(gè)月中駐留的秒數(shù)總和
(4)統(tǒng)計(jì)各用戶工作日eci類別總數(shù)(只統(tǒng)計(jì)駐留超過(guò)10min 的 eci)
(5)統(tǒng)計(jì)各用戶休息日eci類別總數(shù)(只統(tǒng)計(jì)駐留超過(guò)10min 的 eci)
(6)統(tǒng)計(jì)各用戶工作日eci總和
(7)統(tǒng)計(jì)各用戶休息日eci總和
(8)統(tǒng)計(jì)各用戶工作日駐留的天數(shù)總和
(9)統(tǒng)計(jì)各用戶休息日駐留的天數(shù)總和
(10)統(tǒng)計(jì)各用戶工作日駐留的小時(shí)數(shù)總和
(11)統(tǒng)計(jì)各用戶休息日駐留的小時(shí)數(shù)總和
(12)統(tǒng)計(jì)各用戶工作日駐留秒數(shù)總和
(13)統(tǒng)計(jì)各用戶休息日駐留秒數(shù)總和
(14)統(tǒng)計(jì)各用戶平均每天駐留時(shí)長(zhǎng)(按小時(shí)統(tǒng)計(jì))
(15)統(tǒng)計(jì)各用戶平均每天駐留時(shí)長(zhǎng)(按秒統(tǒng)計(jì))
在進(jìn)行聚類分析時(shí),若各變量間存在強(qiáng)相關(guān)性,則會(huì)導(dǎo)致相關(guān)變量權(quán)重增大,影響最終聚類結(jié)果。因此在做聚類分析之前,需要通過(guò)相關(guān)性檢驗(yàn)對(duì)變量進(jìn)行篩選。
Pearson相關(guān)系數(shù)又叫做Pearson積矩相關(guān)系數(shù),是一種統(tǒng)計(jì)學(xué)參數(shù),一般用來(lái)定量的衡量變量之間的相關(guān)關(guān)系,其計(jì)算公式如公式(1)所示:
上式中,變量X是所有點(diǎn)的x坐標(biāo)的集合,變量Y是所有點(diǎn)的y坐標(biāo)的集合,N表示點(diǎn)的總個(gè)數(shù)。Pearson相關(guān)系數(shù)的絕對(duì)值越大,反映變量之間的相關(guān)性越強(qiáng)。當(dāng)相關(guān)系數(shù)越接近于1或-1,表示相關(guān)度越強(qiáng);當(dāng)相關(guān)系數(shù)越接近于0,表示相關(guān)度越弱。當(dāng)相關(guān)系數(shù)大于0時(shí),表示為正相關(guān);當(dāng)相關(guān)系數(shù)小于0時(shí),表示為負(fù)相關(guān)。通常情況下可以通過(guò)相關(guān)系數(shù)的絕對(duì)值取值范圍判斷變量的相關(guān)強(qiáng)度,相關(guān)系數(shù)和相關(guān)強(qiáng)度的關(guān)系如表1所示。
表1 相關(guān)系數(shù)和相關(guān)強(qiáng)度關(guān)系表
圖2為各變量之間的相關(guān)性可視化圖,通過(guò)圖形可以更直觀的看出各變量之間的相關(guān)性,根據(jù)相關(guān)系數(shù)和相關(guān)強(qiáng)度關(guān)系表可以刪除具有強(qiáng)相關(guān)的變量。
圖2 變量相關(guān)性可視化圖
由于轉(zhuǎn)換的新變量在量綱上不同,因此進(jìn)行聚類之前要先對(duì)變量進(jìn)行無(wú)量綱化的處理,本文采用了min-max標(biāo)準(zhǔn)化,即對(duì)原始數(shù)據(jù)進(jìn)行線性變換,使結(jié)果映射到[0,1]之間,公式為:
其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。
完成變量篩選及無(wú)量綱化處理后,則可對(duì)用戶進(jìn)行聚類分析。聚類就是按照事物的某些特征,把事物分成若干類或簇,使得在同一個(gè)類內(nèi)的對(duì)象之間最大程度相似,而不同類之間的對(duì)象最大程度不同。聚類作為無(wú)監(jiān)督學(xué)習(xí)方法,廣泛地應(yīng)用在了各個(gè)領(lǐng)域,本文嘗試了以下四種聚類算法:
(1)均值聚類
首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下的其他對(duì)象,則根據(jù)他們與這些聚類中心的相似度(距離),分別將他們分配給與其最相似的聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開(kāi)始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。K個(gè)聚類具有以下特點(diǎn):各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開(kāi)。
(2)Ward層次聚類
Ward層次聚類方法具體的可以分為兩大類,第一,分裂型層次聚類方法,即在聚類開(kāi)始時(shí)假定所有數(shù)據(jù)點(diǎn)都屬于同一個(gè)類,在迭代的過(guò)程中,利用相應(yīng)的準(zhǔn)則一個(gè)類被一直的分解,使之成為更小類,直到滿足預(yù)定的條件時(shí),分裂的過(guò)程停止。第二,合并型層次聚類方法,相反的,設(shè)每個(gè)樣本點(diǎn)都是一個(gè)獨(dú)立的類,之后把相似度高的類逐漸合并,當(dāng)滿足算法的終止條件時(shí),停止迭代。
(3)DBSCAN算法
是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點(diǎn)的最大集合。它本身對(duì)噪聲不敏感,并且能發(fā)現(xiàn)任意形狀的類簇。DBSCAN算法需要輸入兩個(gè)參數(shù):一個(gè)參數(shù)是半徑(Eps),表示以給定點(diǎn)p為中心的圓形領(lǐng)域的范圍;另一個(gè)參數(shù)是以點(diǎn)p為中心的領(lǐng)域內(nèi)最少點(diǎn)的數(shù)量(min_sample)。如果滿足:以點(diǎn)p為中心,半徑為Eps的鄰域內(nèi)的點(diǎn)的個(gè)數(shù)不少于min_sample,則稱點(diǎn)p為核心點(diǎn)。
(4)譜聚類
譜聚類原理上是一種基于圖論的聚類方法。將樣本看成頂點(diǎn),樣本的相似度看作帶權(quán)邊。這樣,把樣本集劃分成K個(gè)簇的過(guò)程就等同于一個(gè)圖的分割問(wèn)題。要求組間相似度低,組內(nèi)相似度高。如圖3所示,譜聚類能對(duì)任意形狀的樣本空間聚類,并能獲得全局最優(yōu)解,其基本思想是通過(guò)對(duì)樣本數(shù)據(jù)的拉普拉斯矩陣進(jìn)行特征分解而得到的特征向量進(jìn)行聚類。假定將每個(gè)數(shù)據(jù)樣本看作圖中的頂點(diǎn)V,且樣本中的數(shù)據(jù)對(duì)之間都有一定的相似性,由樣本間的相似度,將頂點(diǎn)間的邊E賦權(quán)重值W,得到一個(gè)無(wú)向加權(quán)圖G = (V,E),V = {v1,v2,…,vn}表示點(diǎn)集。圖G中,可將聚類問(wèn)題轉(zhuǎn)化為在圖G上的圖劃分問(wèn)題。圖論中的劃分準(zhǔn)則一般有Minimum Cut、Normalized Cut、Ratio Cut、Average Cut、Min-max Cut、MN Cut等,劃分準(zhǔn)則的好壞對(duì)聚類結(jié)果的優(yōu)劣產(chǎn)生很大影響。
圖3 譜聚類無(wú)向圖劃分圖
本節(jié)主要從下幾個(gè)部分展示模型的結(jié)果:
(1)列出兩到三個(gè)選擇的特征變量
(2)展示聚類中的最優(yōu)聚類個(gè)數(shù)
(3)列出兩種聚類效果的比較結(jié)果
(4)展示模型最終聚類效果
(5)對(duì)比口徑法和聚類法結(jié)果
通過(guò)相關(guān)性檢驗(yàn)對(duì)變量進(jìn)行篩選后,結(jié)合最終聚類效果共保留了十一個(gè)變量。其中用戶一個(gè)月中駐留的天數(shù)總和是最重要的特征之一。從經(jīng)驗(yàn)判斷,一般常住人口一個(gè)月中駐留的天數(shù)一般較長(zhǎng)。
用戶平均每天駐留時(shí)長(zhǎng)也是另一個(gè)重要的特征向量。一般常住人口不僅在一個(gè)月中駐留的天數(shù)較長(zhǎng),且每天的駐留時(shí)間也會(huì)比較長(zhǎng)。通過(guò)這個(gè)變量可以排除一些每天路過(guò)無(wú)錫的過(guò)路人。
在進(jìn)行聚類分析前,首先要確定最優(yōu)聚類個(gè)數(shù)。本文結(jié)合輪廓系數(shù)和業(yè)務(wù)背景對(duì)K值進(jìn)行了選擇。其中輪廓系數(shù)法結(jié)合了凝聚度和分離度,可以以此來(lái)判斷聚類的優(yōu)良性,其值在-1到+1之間取值,值越大表示聚類效果越好。于是我們可以計(jì)算在每個(gè)簇?cái)?shù)條件下的輪廓系數(shù),當(dāng)輪廓系數(shù)取最大時(shí),其相應(yīng)的簇個(gè)數(shù)是最好的。如圖4所示,輪廓系數(shù)方法建議最優(yōu)簇?cái)?shù)為K=2。結(jié)合實(shí)際情況考慮,需要人群區(qū)分為非常住和常住,也是兩類的情況。因此在最終的聚類算法中,將K值設(shè)為2。
本文嘗試了k-means、層次聚類、DBSCAN、譜聚類共四種聚類算法。以上四種算法在數(shù)據(jù)集的聚類效果上差別較大。以下圖形展示了在第三類數(shù)據(jù)集上各算法的聚類效果比較,各聚類算法在第四類數(shù)據(jù)集上的表現(xiàn)與第三類數(shù)據(jù)集類似。
下圖中的橫坐標(biāo)表示用戶一個(gè)月中的駐留天數(shù)總和,縱坐標(biāo)表示用戶平均每天駐留時(shí)長(zhǎng)。一般常住人口在行為特征上表現(xiàn)為一個(gè)月中駐留天數(shù)長(zhǎng)且每天駐留時(shí)間也較久。從各聚類結(jié)果中可以看出,只有譜聚類能夠很好地挖掘出此類行為特征。
圖4 輪廓系數(shù)圖
圖5 聚類結(jié)果二維分布圖
衡量各種聚類效果,本文最終選擇譜聚類作為最終聚類算法。譜聚類不對(duì)樣本空間的整體結(jié)構(gòu)做任何假設(shè),能夠識(shí)別樣本點(diǎn)在空間上的非凸分布。因此,譜聚類方法適用于具有任何分布形狀的樣本空間,從而求解到全局最優(yōu)解。同時(shí),譜聚類算法在實(shí)現(xiàn)上僅涉及標(biāo)準(zhǔn)的線性代數(shù)方法,易于實(shí)現(xiàn)。而傳統(tǒng)的k-means聚類中,當(dāng)樣本維數(shù)增大時(shí),k-means計(jì)算會(huì)很困難。因?yàn)樵趉-means中,輸入計(jì)算的是歐式空間中的原始向量。而且k-means求得的是一種局部最優(yōu)策略,SSE不一定是最小的。
圖6、圖7分別為第三類和第四類用戶樣本數(shù)據(jù)集的最終聚類效果圖,從圖中可以看出聚類效果較好地區(qū)分了外來(lái)常住與非常住人群。外來(lái)常住人口在特征上基本表現(xiàn)為一個(gè)月中駐留天數(shù)長(zhǎng)且每天駐留時(shí)間也較久,而非常住人口基本表現(xiàn)為駐留天數(shù)短。將聚類標(biāo)簽與運(yùn)營(yíng)商口徑法的結(jié)果進(jìn)行對(duì)比,用戶標(biāo)簽完全相同的平均占比高達(dá)92%以上。
圖6 第三類用戶聚類效果圖
圖7 第四類用戶聚類效果圖
表2、3分別為本地號(hào)碼外地戶籍外地戶口和外地號(hào)碼的結(jié)果對(duì)比。無(wú)錫移動(dòng)通過(guò)口徑法對(duì)外來(lái)常住人口進(jìn)行了判斷,認(rèn)為除本地用戶外,當(dāng)月每天晚9點(diǎn)至第二天8點(diǎn)時(shí)間內(nèi)駐留超過(guò)5小時(shí)并且駐留7天以上的人即為外來(lái)常住人口。通過(guò)對(duì)比口徑法的結(jié)果,本地號(hào)碼外地戶籍外地戶口這類用戶中,聚類法得到的結(jié)果與口徑法結(jié)果完全一致的用戶有163個(gè),占總用戶數(shù)的91.57%;在外地號(hào)碼這類用戶中,聚類法得到的結(jié)果與口徑法結(jié)果完全一致的用戶有186個(gè),占總用戶數(shù)的93.47%。
在本地號(hào)碼外地戶籍外地戶口這類用戶中,口徑法判斷為常住,而聚類法判斷為非常住的用戶有兩個(gè),從駐留原始數(shù)據(jù)中可以看出,這兩個(gè)用戶2月在無(wú)錫分別只駐留了5天和6天,且為連續(xù)駐留,理論上不應(yīng)認(rèn)為是常住人口。而口徑法判斷為非常住,聚類法判斷為常住的用戶有13個(gè),這13個(gè)用戶2月在無(wú)錫最少駐留12天,且每日駐留時(shí)間較長(zhǎng),理論上應(yīng)判斷為常住。外地號(hào)碼這類用戶中的情況也是如此。
表2 本地號(hào)碼外地戶籍外地戶口結(jié)果對(duì)比表
表3 外地號(hào)碼結(jié)果對(duì)比表
本文通過(guò)對(duì)用戶駐留數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,形成用戶駐留行為特征變量,并采用多種聚類算法對(duì)外來(lái)常住人口進(jìn)行識(shí)別。最后選取了計(jì)算速度快且能產(chǎn)生全局最優(yōu)解的譜聚類算法進(jìn)行建模預(yù)測(cè)。預(yù)測(cè)結(jié)果表明預(yù)測(cè)精度較高,與口徑法判斷結(jié)果基本一致,且能識(shí)別出口徑法中無(wú)法判斷的異常事件。此模型不僅可以為政府部門節(jié)省人力物力資源,也能有力支撐運(yùn)營(yíng)商在外來(lái)常住人口市場(chǎng)營(yíng)銷服務(wù)工作的開(kāi)展,為市場(chǎng)部門提供精細(xì)化營(yíng)銷所必須的分析支撐服務(wù)。