亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于軌跡時(shí)空詞向量的用戶年齡特征識(shí)別

        2019-08-05 02:28:20張威強(qiáng)張朋柱
        中文信息學(xué)報(bào) 2019年7期
        關(guān)鍵詞:基站軌跡標(biāo)簽

        吳 浩,張威強(qiáng),張朋柱

        (上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030)

        0 引言

        長(zhǎng)期以來(lái),用戶特征的識(shí)別作為一個(gè)重要的研究領(lǐng)域,在語(yǔ)言學(xué)、心理學(xué)和社會(huì)學(xué)中得到了廣泛研究。在移動(dòng)互聯(lián)網(wǎng)興起之前,許多不同的研究都從眾多的領(lǐng)域中搜集數(shù)據(jù)。比如從互聯(lián)網(wǎng)瀏覽行為、網(wǎng)頁(yè)文本、移動(dòng)網(wǎng)絡(luò)通信記錄(電話和短信)以及心理學(xué)問(wèn)卷測(cè)試中來(lái)預(yù)測(cè)各種各樣的用戶特征。例如,性別、年齡、收入和個(gè)性等。然而,作為能夠反映用戶行為重要數(shù)據(jù)之一的軌跡數(shù)據(jù),在過(guò)去的許多用戶特征推斷的研究中分析較少。

        近年來(lái),隨著智能手機(jī)、移動(dòng)互聯(lián)網(wǎng)和全球衛(wèi)星導(dǎo)航系統(tǒng)(global navigation satellite system, GNSS)的普及,基于位置的服務(wù)(location based service, LBS)得到了極大發(fā)展。通過(guò)移動(dòng)通訊網(wǎng)絡(luò)獲得用戶的位置信息變得更加便捷,一段連續(xù)時(shí)間內(nèi),用戶位置信息可以形成該用戶在該段時(shí)間的軌跡數(shù)據(jù)。這些軌跡數(shù)據(jù)代表著用戶某種活動(dòng)的發(fā)生,周期性的活動(dòng)反映了用戶的生活習(xí)慣和行為模式,體現(xiàn)了用戶的年齡、職業(yè)等特征。因此,軌跡分析是識(shí)別用戶年齡特征的有效途徑?,F(xiàn)有對(duì)軌跡數(shù)據(jù)的研究仍存在以下不足。

        (1) 對(duì)軌跡點(diǎn)的有效清洗不足。通過(guò)基站收集用戶歷史軌跡數(shù)據(jù)時(shí),可能會(huì)存在一些錯(cuò)誤。產(chǎn)生的原因有多種: 網(wǎng)絡(luò)信號(hào)不穩(wěn)定、硬件故障等。因此,在分析軌跡數(shù)據(jù)之前,必須先剪枝過(guò)濾這些明顯錯(cuò)誤的點(diǎn)。

        (2) 對(duì)軌跡空間語(yǔ)義的考慮不足。不同的用戶雖經(jīng)過(guò)的具體地理位置(如經(jīng)緯度)不同,但若這些地理位置具有相同的語(yǔ)義,則他們的軌跡在語(yǔ)義方面存在相似性(如1號(hào)小學(xué)與2號(hào)小學(xué),雖所在經(jīng)緯度不同,但功能語(yǔ)義均為小學(xué))。因此,這些用戶之間可能存在著身份特征或行為習(xí)慣的相似性。

        (3) 對(duì)軌跡時(shí)間語(yǔ)義的考慮不足。即使是同一區(qū)域,不同對(duì)象在不同時(shí)間的訪問(wèn),該位置的功語(yǔ)義可能不同。如在早上6:00~10:00出現(xiàn)在中餐館的用戶可能是服務(wù)人員,而中午11:00~13:00出現(xiàn)在中餐館附近的用戶可能是來(lái)就餐的周邊上班族等。現(xiàn)有部分研究通過(guò)提取軌跡點(diǎn)周邊一定范圍內(nèi)的興趣點(diǎn)(point of interest,POI),直接采用TF-IDF提取該軌跡點(diǎn)的語(yǔ)義,沒(méi)有對(duì)不同時(shí)間不同用戶的軌跡語(yǔ)義加以區(qū)分。

        針對(duì)上述問(wèn)題,本文將從以下幾個(gè)方面展開(kāi)研究。

        (1) 提出“速度—時(shí)空—角度”的軌跡剪枝方法(velocity-space-time-angle pruning, VSTA Pruning),從軌跡的速度、距離、運(yùn)動(dòng)與停留的時(shí)間、運(yùn)動(dòng)方向及其變化等方面,對(duì)原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗,過(guò)濾存在明顯錯(cuò)誤的軌跡點(diǎn)。

        (2) 提出帶有時(shí)間標(biāo)簽的TF-IDF改進(jìn)算法(term frequency-inverse document frequency with time label, TFT-IDFT),利用軌跡點(diǎn)周邊的POI信息對(duì)不同用戶不同時(shí)間不同軌跡點(diǎn)的時(shí)空語(yǔ)義進(jìn)行了分析。該方法在考慮軌跡點(diǎn)的空間語(yǔ)義的同時(shí),也將軌跡的時(shí)間語(yǔ)義納入考慮。其中,空間語(yǔ)義是指軌跡點(diǎn)的區(qū)域功能類型(如學(xué)校、公司等),時(shí)間語(yǔ)義是指不同用戶經(jīng)過(guò)某類型區(qū)域的時(shí)間,以及其對(duì)用戶身份特征和行為習(xí)慣識(shí)別的影響。

        (3) 通過(guò)將軌跡點(diǎn)的時(shí)空語(yǔ)義提取為一個(gè)個(gè)特征單詞,利用Word2vec方法進(jìn)行多組特征訓(xùn)練,獲得每個(gè)單詞的向量表達(dá),以及軌跡點(diǎn)語(yǔ)義的相關(guān)性。在此基礎(chǔ)上分析每個(gè)用戶的軌跡規(guī)律,識(shí)別用戶特征。

        1 相關(guān)文獻(xiàn)

        1.1 用戶特征識(shí)別

        早期的用戶特征識(shí)別主要通過(guò)用戶的通話數(shù)據(jù)和文本數(shù)據(jù)分析用戶的行為模式,從而判別用戶的年齡、性別等特征。Eckert[1]等認(rèn)為性別應(yīng)被視為語(yǔ)言變異和標(biāo)準(zhǔn)及非標(biāo)準(zhǔn)形式使用的重要原因。因此,可以將語(yǔ)言作為判別性別的重要特征; Koppel[2]根據(jù)文本內(nèi)容自動(dòng)分類推斷作者的性別特征。

        隨著互聯(lián)網(wǎng)的興起,基于用戶上網(wǎng)行為及其瀏覽內(nèi)容推斷用戶特征的研究開(kāi)始逐漸增多。Hu[3]等利用貝葉斯理論對(duì)用戶瀏覽的歷史記錄進(jìn)行分析,較準(zhǔn)確地預(yù)測(cè)了用戶的年齡和性別;還有基于搜索習(xí)慣來(lái)挖掘用戶特征的工作也取得不錯(cuò)的效果,如Lorigo[4]等和Bi[5]等的研究。王晶晶[6]等還通過(guò)微博用戶名和微博文本構(gòu)建基于貝葉斯融合的分類器,采用這兩種文本信息同時(shí)對(duì)用戶性別進(jìn)行判別。

        隨著移動(dòng)通訊對(duì)人們?nèi)粘I畹闹鸩綕B透,研究開(kāi)始關(guān)注移動(dòng)通訊帶來(lái)的信息在推斷用戶特征中的應(yīng)用。Ying[7]等通過(guò)用戶移動(dòng)手機(jī)端獲取了用戶每天的移動(dòng)距離、app使用情況、通話短信以及無(wú)線和藍(lán)牙使用情況的特征,應(yīng)用多層次分類模型對(duì)用戶的年齡、工作、婚姻狀況和家庭人數(shù)等人口特征進(jìn)行了分析;Sanja[8]等提取多維度的移動(dòng)手機(jī)數(shù)據(jù),主要包括應(yīng)用使用情況、通話情況、聯(lián)絡(luò)人情況以及移動(dòng)距離,測(cè)量了不同用戶之間的相似度,并在此基礎(chǔ)上對(duì)用戶的人口特征建立了分類模型。還有研究主要基于移動(dòng)設(shè)備帶來(lái)的基于位置服務(wù)(LBS)的信息來(lái)分析用戶的人口特征,Riederer[9]通過(guò)用戶在不同位置的簽到足跡,不僅使用了移動(dòng)距離等研究廣泛使用的特征,還使用了不同簽到位置的地址特征來(lái)識(shí)別用戶的人口特征。

        但這些研究并沒(méi)有充分利用用戶在不同時(shí)間不同位置的信息所反映的活動(dòng)規(guī)律和生活習(xí)慣,在這方面,李敏[10]等通過(guò)分析時(shí)空數(shù)據(jù),認(rèn)為用戶簽到的時(shí)間和地點(diǎn)存在一定的規(guī)律性;陳元娟等[11]也基于用戶移動(dòng)的時(shí)間順序和位置順序,向量化用戶本身特征,從而學(xué)習(xí)不同用戶之間的社交聯(lián)系。李源昊[12]等基于移動(dòng)社會(huì)網(wǎng)絡(luò)的理論,利用位置網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和用戶通話交互情況,建立了基于關(guān)系馬爾科夫網(wǎng)絡(luò)的用戶特征識(shí)別模型。Jing[13]等通過(guò)建立用戶在不同時(shí)間訪問(wèn)不同地質(zhì)特征的詞向量,探索用戶之間的相似性,判別城市的功能區(qū),并預(yù)測(cè)相鄰地區(qū)之間的犯罪率。但這些研究主要是基于用戶在一些特定網(wǎng)站的簽到信息來(lái)定位用戶位置,數(shù)據(jù)本身存在一定的偏差,也沒(méi)有在分析中同時(shí)考慮位置信息和語(yǔ)義信息。此外,在用戶時(shí)間、位置和活動(dòng)等的關(guān)聯(lián)方面也分析不足,未能用這些信息來(lái)反映用戶本身的特征。

        1.2 軌跡數(shù)據(jù)挖掘

        目前對(duì)軌跡數(shù)據(jù)的挖掘主要分為基于地理信息和語(yǔ)義信息兩類。前者基于諸如經(jīng)緯度等地理位置信息,認(rèn)為頻繁出現(xiàn)在相同或相鄰地理位置的用戶具有相似性。因此,Xue[14]等和Zheng[15]等通過(guò)挖掘用戶頻繁出現(xiàn)的位置經(jīng)緯度來(lái)判斷不同用戶之間軌跡的相似性,進(jìn)而實(shí)現(xiàn)對(duì)用戶的分類。但該類方法具有一定的局限性,得到的同類用戶基本在地理位置相近的范圍內(nèi)活動(dòng)。而實(shí)際上即使兩個(gè)用戶的地理位置軌跡并不相似,但二者的軌跡具有相同或相似的功能語(yǔ)義(如學(xué)校),他們的活動(dòng)軌跡也具有相似性。

        近年來(lái),出現(xiàn)了較多工作嘗試挖掘軌跡數(shù)據(jù)中豐富的語(yǔ)義信息,即地理位置隱含功能特征的提取。Yuan[16]等先通過(guò)利用城市干道對(duì)地理位置進(jìn)行劃分,再基于用戶軌跡和行為語(yǔ)義挖掘潛在地區(qū)的功能特征。但該方法對(duì)區(qū)域劃分的要求較高,若直接按照高速公路進(jìn)行劃分,會(huì)產(chǎn)生功能區(qū)域較大的問(wèn)題。Toole[17]從用戶的手機(jī)使用行為出發(fā),認(rèn)為某一地點(diǎn)的語(yǔ)義特征和用戶在此地點(diǎn)的行為有著密切關(guān)系,故而利用移動(dòng)用戶在該地的手機(jī)行為數(shù)據(jù)推斷該地點(diǎn)的功能語(yǔ)義。邱運(yùn)芬[18]等從軌跡的功能語(yǔ)義和訪問(wèn)的不確定性出發(fā),從具體的地理位置坐標(biāo)抽象出軌跡點(diǎn)語(yǔ)義,并計(jì)算訪問(wèn)不同軌跡點(diǎn)語(yǔ)義的概率,將其作為特征進(jìn)行人群分類。

        此外,基于神經(jīng)網(wǎng)絡(luò)的word2vec模型對(duì)發(fā)現(xiàn)單詞序列的語(yǔ)義關(guān)系有效性也使該模型開(kāi)始被應(yīng)用到軌跡數(shù)據(jù)分析中。Al-Dohuki[19]等通過(guò)將軌跡數(shù)據(jù)轉(zhuǎn)化為文檔模型,利用文本搜索方法對(duì)出租車軌跡數(shù)據(jù)進(jìn)行了挖掘和分析。Feng[20]等提出POI2vec模型,將每個(gè)POI映射為一個(gè)實(shí)數(shù)向量,POI之間的相似性則用向量余弦表示。與此類似,Liu[21]等使用Skip-gram模型,根據(jù)軌跡信息的上下文來(lái)分析用戶潛在的興趣點(diǎn)。Yu[22]等利用Word2vec模型計(jì)算交通工具軌跡的相似性,并對(duì)道路交通流量進(jìn)行預(yù)測(cè)。

        本文工作與上述研究有所不同: 本文從用戶的原始軌跡出發(fā)。先從速度、距離、時(shí)間、運(yùn)動(dòng)方向及其變化等方面,對(duì)原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗(VSTA Pruning)。再通過(guò)在傳統(tǒng)TF-IDF算法中添加時(shí)間標(biāo)簽,利用帶時(shí)間標(biāo)簽的TFT-IDFT方法提取軌跡點(diǎn)周邊的POI語(yǔ)義。然后,在提取出的語(yǔ)義軌跡上利用word2vec方法建立與有效軌跡點(diǎn)一一對(duì)應(yīng)的實(shí)數(shù)向量。最后,通過(guò)分類預(yù)測(cè)方法識(shí)別用戶年齡段特征。具體分析流程如圖1所示。

        圖1 分析流程圖

        2 研究方法

        2.1 軌跡數(shù)據(jù)預(yù)處理

        通過(guò)基站收集用戶歷史軌跡數(shù)據(jù)時(shí)可能會(huì)存在一些錯(cuò)誤。產(chǎn)生原因有多種: 網(wǎng)絡(luò)信號(hào)不穩(wěn)定、硬件故障等。同時(shí),軌跡數(shù)據(jù)中還可能包括用戶在高速移動(dòng)中采集到的數(shù)據(jù)。例如,某用戶乘坐地鐵等高速交通工具,這些高速移動(dòng)的軌跡點(diǎn)在本研究中并無(wú)意義。因此,也需要過(guò)濾。

        軌跡數(shù)據(jù)預(yù)處理主要是針對(duì)原始軌跡數(shù)據(jù)進(jìn)行無(wú)效點(diǎn)剪枝,剪枝條件主要有以下幾點(diǎn)。

        (1) 速度剪枝: 過(guò)濾速度大于速度閾值δv的軌跡點(diǎn),以剪除干擾研究的高速軌跡點(diǎn)。

        (2) 時(shí)空剪枝: 過(guò)濾距離小于給定的最小距離閾值δd且時(shí)間差小于給定的最小時(shí)間閾值δt1,以剪除同一地點(diǎn)短時(shí)間內(nèi)重復(fù)采集的軌跡點(diǎn)。

        (3) 角度剪枝: 在規(guī)律的軌跡上,某些軌跡點(diǎn)突然異常偏離,跳到遠(yuǎn)處又迅速跳回的軌跡點(diǎn)。具體剪除步驟如下:

        ① 按時(shí)間順序遍歷軌跡,取每相鄰3個(gè)點(diǎn)記為Trajk={Pk-1,Pk,Pk+1};

        ② 提取Trajk={Pk-1,Pk,Pk+1}三點(diǎn)的經(jīng)緯度,計(jì)算以Pk為頂點(diǎn)的夾角∠Pk-1PkPk+1和Pk-1和Pk+1的時(shí)間差Δtk;

        ③ 如果夾角∠Pk-1PkPk+1小于給定最小角度閾值δa,時(shí)間差Δtk小于給定最小時(shí)間閾值δt2,刪除中間點(diǎn)Pk。

        算法 軌跡數(shù)據(jù)預(yù)處理算法VSTA-Pruning輸入:原始軌跡序列Traj,速度閾值δv,距離閾值δd,時(shí)間閾值δt1和δt2,角度閾值δa輸出:保留有效點(diǎn)的軌跡序列Traj'1 k=1,pointNum=length[Traj],Traj'=[];2whilek

        根據(jù)實(shí)際經(jīng)驗(yàn),普通公路上的速度上限一般在60km/h~120km/h,人的步行速度一般在15km/h,同時(shí)一般而言,用戶不可能在3秒內(nèi)以任何交通工具方式形成鋒利銳角的軌跡夾角。因此,在本文中,速度閾值δv=15km/h,距離閾值δd=200m,時(shí)間閾值δt1=60s,δt2=3s,角度閾值δa=15°。

        根據(jù)上述方法和閾值,圖2左圖是某用戶某段時(shí)間的原始軌跡,圖2右圖是過(guò)濾無(wú)效軌跡點(diǎn)后的剪枝軌跡,可以看出剪枝軌跡更加清晰,可用作進(jìn)一步的研究分析。

        圖2 剪枝無(wú)效點(diǎn)前后的軌跡對(duì)比圖

        2.2 軌跡語(yǔ)義分析

        關(guān)于移動(dòng)軌跡的分析方法主要有兩類: 基于地理信息和基于語(yǔ)義信息。前者主要關(guān)注軌跡的具體位置特征,如經(jīng)緯度、移動(dòng)方向和移動(dòng)距離等;后者主要關(guān)注與軌跡緊密相關(guān)的語(yǔ)義特征。二者的關(guān)系和不同如圖3所示。

        圖3 軌跡地理圖和軌跡語(yǔ)義圖

        由圖3可知,從軌跡的形狀來(lái)看,A與C更加相似。但從軌跡的語(yǔ)義來(lái)看,A與B的相似程度高于A與C的相似程度。

        本文根據(jù)用戶移動(dòng)端上網(wǎng)時(shí)所訪問(wèn)基站的經(jīng)緯度,從國(guó)內(nèi)某知名互聯(lián)網(wǎng)地圖服務(wù)商獲取每個(gè)基站周邊的POI數(shù)據(jù),從中分析提取該軌跡點(diǎn)的語(yǔ)義代表。

        興趣點(diǎn)POI(point of interest)是地理信息系統(tǒng)中的一個(gè)術(shù)語(yǔ)。泛指一切可以抽象為點(diǎn)的地理對(duì)象,尤其是一些與人們生活密切相關(guān)的地理實(shí)體,如學(xué)校、銀行、餐館、加油站、醫(yī)院、超市等。POI的主要用途是對(duì)事物或事件的地址進(jìn)行描述。能在很大程度上增強(qiáng)對(duì)事物或事件位置的描述能力和查詢能力,提高地理定位的精度和速度。本文中使用的POI的一級(jí)標(biāo)簽共有19個(gè)。分別為: 房地產(chǎn)、公司企業(yè)、教育培訓(xùn)、酒店、交通設(shè)施、休閑娛樂(lè)、政府機(jī)構(gòu)、行政地標(biāo)、購(gòu)物、美食、金融、汽車服務(wù)、醫(yī)療、內(nèi)部樓號(hào)、運(yùn)動(dòng)健身、旅游景點(diǎn)、生活服務(wù)、文化傳媒、自然地物。二級(jí)分類共有103種有效標(biāo)簽。包括: 宿舍、公司、培訓(xùn)機(jī)構(gòu)、廠礦、寫(xiě)字樓、劇院、福利機(jī)構(gòu)、村莊、商鋪、各級(jí)政府、中餐廳、超市、住宅區(qū)、銀行、中學(xué)、健身中心等。

        通常一個(gè)基站周邊的POI會(huì)有多個(gè),故可以利用語(yǔ)義分析的詞頻-逆文檔頻率(TF-IDF)方法來(lái)找出對(duì)每個(gè)基站詞義貢獻(xiàn)最大的標(biāo)簽。因在后面的分析中,希望盡可能細(xì)分每次訪問(wèn)基站的語(yǔ)義類型,故本文采用POI二級(jí)標(biāo)簽來(lái)分析軌跡的語(yǔ)義特征。

        TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用統(tǒng)計(jì)方法。其中,TF(term frequency)表示詞條在文檔中出現(xiàn)的頻率。但只考慮詞條出現(xiàn)的頻率會(huì)對(duì)高頻詞條產(chǎn)生過(guò)大的依賴,且有可能會(huì)忽略部分僅在某類中出現(xiàn)的低頻詞條。只考慮詞頻不足以表示一個(gè)詞條對(duì)樣本類別的有用程度,故而需要計(jì)算IDF值。

        IDF(inverse document frequency)是用包含特定詞條的樣本數(shù)來(lái)計(jì)算該詞條的權(quán)重。即包含某個(gè)詞條的樣本越多,說(shuō)明該特征項(xiàng)出現(xiàn)在大部分樣本中,其代表類別的能力就越弱。也就是說(shuō)若包含某個(gè)詞條的文檔越少,則這個(gè)詞條的語(yǔ)義貢獻(xiàn)度就越大。即IDF越大。

        傳統(tǒng)TF-IDF算法如式(1)~式(3)所示。

        然而,即使是軌跡語(yǔ)義相似,不同時(shí)間的軌跡語(yǔ)義仍然有不同的代表意義。如在早上6:00~10:00出現(xiàn)在中餐館的用戶可能是服務(wù)人員,而中午11:00~13:00出現(xiàn)在中餐館附近的用戶可能是來(lái)就餐的周邊上班族。因此,本文在通過(guò)提取軌跡點(diǎn)周邊一定范圍內(nèi)的POI,直接采用TF-IDF提取軌跡點(diǎn)的語(yǔ)義的基礎(chǔ)上,提出包含訪問(wèn)時(shí)間信息的帶時(shí)間標(biāo)簽TF-IDF(term frequency-inverse document frequency with time label, 后文稱為TFT-IDFT)方法,對(duì)不同時(shí)間的軌跡語(yǔ)義加以區(qū)分。計(jì)算如式(4)所示。

        (4)

        IDFT是指時(shí)間段ti中包含POI標(biāo)簽aj的樣本數(shù)與除時(shí)間段ti之外的其他時(shí)間段包含POI標(biāo)簽aj的樣本數(shù)的比值。如果某個(gè)POI標(biāo)簽在某個(gè)時(shí)間段中的IDFT越高,說(shuō)明該P(yáng)OI標(biāo)簽在不同時(shí)間段出現(xiàn)得越不均勻,其代表意義也越強(qiáng),即該P(yáng)OI標(biāo)簽在該時(shí)間段越重要。IDFT計(jì)算如式(5)所示。

        (5)

        其中,ns(j|i)表示時(shí)間段ti中包含POI特征aj的樣本數(shù),ns(j) 表示樣本集中出現(xiàn)POI特征aj的樣本數(shù)總數(shù);為了避免IDFT不可求(分母為0),令λ=1。

        IDF算法的核心思想在于只在少量樣本中出現(xiàn)的標(biāo)簽比在大量樣本中都出現(xiàn)的標(biāo)簽重要,即IDF主要用于增強(qiáng)在少量樣本中出現(xiàn)的標(biāo)簽的代表性,減弱在大量樣本中出現(xiàn)的標(biāo)簽的代表性。不同訪問(wèn)時(shí)間的軌跡點(diǎn)語(yǔ)義提取概率如式(6)所示。

        TFT-IDFT=TFT(aj|ti)×IDFT(aj|ti)

        (6)

        為了反映人們普遍的行程規(guī)律和日常生活習(xí)慣,本文將訪問(wèn)的原始時(shí)間劃分為以下10檔,如表1所示。

        表1 訪問(wèn)基站的時(shí)間段標(biāo)簽劃分

        在此基礎(chǔ)上,將提取出的特定時(shí)間段特定軌跡點(diǎn)周邊TFT-IDFT最大的POI二級(jí)標(biāo)簽作為該時(shí)間段該軌跡點(diǎn)的語(yǔ)義代表。

        2.3 軌跡語(yǔ)義詞向量構(gòu)建

        2.3.1 模型概念

        詞向量技術(shù)的核心思想是將一個(gè)單詞表示為一個(gè)N維的實(shí)數(shù)向量,兩個(gè)向量的相似度可以用來(lái)描述其對(duì)應(yīng)單詞的語(yǔ)義相似度。

        Word2vec有兩類模型: CBOW(Contious Bag-of-Words)模型和Skip-gram模型。其區(qū)別在于CBOW利用上下文預(yù)測(cè)目標(biāo)詞,Skip-gram模型通過(guò)目標(biāo)詞來(lái)預(yù)測(cè)上下文,如圖4所示。

        圖4 CBOW和Skip-gram模型構(gòu)架圖

        本文采用Skip-gram模型,對(duì)于給定的一系列單詞w1,w2,…,wT,其目標(biāo)函數(shù)如式(7)所示。

        (7)

        其中,k為訓(xùn)練窗口大小,代表目標(biāo)詞前后各k個(gè)單詞作為目標(biāo)詞的相鄰詞;p(wt+j|wt)表示根據(jù)目標(biāo)詞wt正確預(yù)測(cè)相鄰詞wt+j的概率;T表示語(yǔ)料庫(kù)的詞總數(shù)。

        模型中每個(gè)詞都有一個(gè)輸入向量和輸出向量,分別為記為uw和vw。對(duì)于給定詞wj正確預(yù)測(cè)wi的概率如式(8)所示。

        (8)

        其中,V表示詞典中的詞總數(shù)。

        2.3.2 本文應(yīng)用

        在本文中,選擇Skip-gram模型的主要原因是傳統(tǒng)的軌跡識(shí)別和推薦方法并不能捕捉到某一位置訪問(wèn)的上下文信息。若將某一用戶連續(xù)訪問(wèn)的位置作為能夠反映其訪問(wèn)規(guī)律的軌跡,這就與其寫(xiě)一個(gè)句子來(lái)表達(dá)他的語(yǔ)義是類似的。這就使得利用自然語(yǔ)言處理方法對(duì)用戶移動(dòng)模式進(jìn)行建模分析具有合理性[13,20-21]。此外,和其他諸如主題分析等自然語(yǔ)言處理方法不同,Skip-gram模型在上下文(即前后詞語(yǔ))分析上更加適用。

        本文首先對(duì)每個(gè)用戶的訪問(wèn)數(shù)據(jù)按時(shí)間順序進(jìn)行排序,將每次訪問(wèn)的位置視為用戶整個(gè)訪問(wèn)“句子”的組成“詞語(yǔ)”,得到的所有訪問(wèn)位置就可以作為位置詞庫(kù)。在此基礎(chǔ)上,應(yīng)用Skip-gram模型去學(xué)習(xí)每個(gè)詞語(yǔ)(即每個(gè)位置)的向量表達(dá)。需要注意的是,每個(gè)位置的向量表達(dá)與其上下文密切相關(guān),即每次訪問(wèn)前后訪問(wèn)的一串位置對(duì)此次訪問(wèn)位置的語(yǔ)義向量表達(dá)也有著重要的影響。由于每個(gè)用戶的訪問(wèn)軌跡通過(guò)時(shí)間順序組織,故連續(xù)訪問(wèn)的位置之間的隱含關(guān)系已經(jīng)被包含在內(nèi)。盡管,每次訪問(wèn)后的位置在當(dāng)時(shí)并不可知。但是,在用戶特征識(shí)別過(guò)程中,可以先通過(guò)歷史軌跡進(jìn)行建模,在有新的軌跡訪問(wèn)點(diǎn)加入后繼續(xù)進(jìn)行調(diào)整。因此,通過(guò)將基站訪問(wèn)序列視為虛擬句子,每次訪問(wèn)位置及其上下文位置的關(guān)聯(lián)性可以得到更好的模擬。

        每一個(gè)用戶的軌跡由兩個(gè)平行的序列按時(shí)間順序組成: 1)基于時(shí)間段和語(yǔ)義特征的語(yǔ)義序列。2)訪問(wèn)基站的地理位置序列。序列中的點(diǎn)按時(shí)間順序一一對(duì)應(yīng),如圖5所示。

        圖5 軌跡語(yǔ)義序列和位置序列

        如果將每個(gè)用戶的軌跡作為一個(gè)文檔,其中的每個(gè)軌跡點(diǎn)就是文檔中的單詞。因每個(gè)軌跡點(diǎn)同時(shí)包含語(yǔ)義信息和位置信息,故每個(gè)軌跡點(diǎn)相當(dāng)于同時(shí)對(duì)應(yīng)了兩個(gè)單詞。即按照時(shí)間順序,每個(gè)用戶的軌跡對(duì)應(yīng)了語(yǔ)義序列和位置序列兩個(gè)文檔。通過(guò)Word2vec分別對(duì)這兩個(gè)文檔的單詞進(jìn)行訓(xùn)練,得到軌跡語(yǔ)義詞向量和位置詞向量后,再將二者用元素相加的方式結(jié)合在一起。即可以得到不同時(shí)間段軌跡點(diǎn)的向量表達(dá),并在此基礎(chǔ)上對(duì)每個(gè)用戶的軌跡進(jìn)行算數(shù)平均,得到每個(gè)用戶的向量代表,如圖6所示[13]。

        圖6 通過(guò)Word2vec方法從軌跡語(yǔ)義和位置信息得到用戶軌跡特征的流程圖

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)及數(shù)據(jù)預(yù)處理

        本文中采用的軌跡數(shù)據(jù)來(lái)自于某通訊運(yùn)營(yíng)商。隨機(jī)抽樣1 163位用戶,提取2017年1月1日至2017年8月16日的所有基站訪問(wèn)數(shù)據(jù)和含用戶年齡特征的用戶基本信息數(shù)據(jù),共計(jì)4 257 754條有效記錄。利用基站數(shù)據(jù)中的經(jīng)緯度,通過(guò)國(guó)內(nèi)某知名地圖服務(wù)商API服務(wù),得到基站相關(guān)POI記錄43 863條。在用戶ID匹配和基站經(jīng)緯度匹配的基礎(chǔ)上(圖7),通過(guò)VSDA Pruning剪枝過(guò)濾,最終整理出有效數(shù)據(jù)2 385 094條。具體說(shuō)明如表2至表4所示。

        圖7 數(shù)據(jù)之間的匹配

        表2 用戶信息表

        用戶信息的字段包括: 用戶ID和用戶年齡段。

        表3 基站訪問(wèn)數(shù)據(jù)表

        基站訪問(wèn)信息的字段包括: 用戶ID、訪問(wèn)時(shí)間、基站代碼、基站經(jīng)度、基站緯度。

        表4 基站周邊POI數(shù)據(jù)表

        基站周邊POI數(shù)據(jù)的字段包括: 基站代碼、基站經(jīng)度、基站緯度、POI經(jīng)度、POI緯度、POI距離基站距離、POI一級(jí)標(biāo)簽、POI二級(jí)標(biāo)簽。

        3.2 不同年齡段人群軌跡語(yǔ)義分布

        通過(guò)TFT-IDFT的方式對(duì)軌跡點(diǎn)周邊POI數(shù)據(jù)進(jìn)行分析,提取每個(gè)軌跡點(diǎn)最具代表性的地址特征。可以看到,在不同時(shí)間段,不同年齡段用戶的軌跡語(yǔ)義特征存在著一定的差異。

        例如,如圖8所示,工作日早上的休閑場(chǎng)所,18—25歲的青少年出現(xiàn)的頻率最高,而工作日晚上青少年出現(xiàn)的頻率最低。25—45歲的青壯年和45—65歲中年人群在兩個(gè)時(shí)間出現(xiàn)的頻率比較穩(wěn)定,且在晚上時(shí)段出現(xiàn)的頻率明顯超過(guò)其他兩個(gè)年齡段的人群。另外,如圖9所示,同樣是在工作日的早上,中青年人群在公司企業(yè)出現(xiàn)的頻率明顯高于老年人群,而老人群出現(xiàn)在急救中心的頻率遠(yuǎn)超過(guò)其他三類人群,與現(xiàn)實(shí)相符。

        圖8 各年齡段人群在工作日早上和晚上訪問(wèn)休閑廣場(chǎng)的頻率分布

        圖9 各年齡段人群在工作日早上訪問(wèn)公司企業(yè)和急救中心的頻率分布

        3.3 年齡識(shí)別方法與評(píng)價(jià)指標(biāo)

        分類模型的訓(xùn)練數(shù)據(jù)為總數(shù)據(jù)中隨機(jī)抽取的67%,剩余的33%作為測(cè)試集。采用分類算法中通用的評(píng)價(jià)指標(biāo): 精確度(Precision)、召回率(Recall)和準(zhǔn)確度(Accuracy)來(lái)評(píng)價(jià)模型的效果,如式(9)~式(11)所示。

        (9)

        表5 模型識(shí)別評(píng)分標(biāo)準(zhǔn)

        精確度又稱查準(zhǔn)率,反映了模型識(shí)別正確的正例在所有正例樣本中的占比;召回率又稱查全率,反映了模型識(shí)別正確的正例在所有識(shí)別正確樣本中的占比;準(zhǔn)確率反映了模型對(duì)整體樣本的識(shí)別能力。這三個(gè)指標(biāo)的值越高,說(shuō)明模型的識(shí)別能力越強(qiáng)。

        為了更全面地反映年齡識(shí)別效果,本文選取了常用的4種分類識(shí)別方法: K近鄰(KNN)、邏輯回歸(LR)、決策樹(shù)(DT)和隨機(jī)森林(RF)。識(shí)別預(yù)測(cè)結(jié)果如表6所示,4種方法的ROC曲線如圖10所示。

        表6 年齡段識(shí)別結(jié)果

        圖10 4種分類識(shí)別方法的ROC曲線

        從表6和圖10可以看出,對(duì)于本文劃分的4個(gè)年齡階段,決策樹(shù)(DT)和隨機(jī)森林(RF)的識(shí)別和預(yù)測(cè)結(jié)果相對(duì)更好。準(zhǔn)確率分別達(dá)到了69.78%和69.82%,好于K近鄰(KNN)65.96%和邏輯回歸(LR)51.66%的準(zhǔn)確度。在精確度和召回率上,決策樹(shù)(DT)和隨機(jī)森林(RF)也比其他幾種方法表現(xiàn)更好。

        此外,通過(guò)比較TF-IDF方法和改進(jìn)的TFT-IDFT方法提取軌跡語(yǔ)義后的年齡識(shí)別準(zhǔn)確率,如圖11所示,可以看出通過(guò)TFT-IDFT方法提取軌跡語(yǔ)義,并在此基礎(chǔ)上應(yīng)用Word2vec提取軌跡詞向量的用戶年齡段識(shí)別模型具有更高的預(yù)測(cè)準(zhǔn)確率,即說(shuō)明了TFT-IDFT的有效性。

        圖11 基于TF-IDF與TFT-IDFT的用戶年齡識(shí)別準(zhǔn)確率比較

        4 結(jié)束語(yǔ)

        用戶軌跡的功能語(yǔ)義是識(shí)別用戶特征的重要依據(jù)。通過(guò)深入挖掘不同時(shí)間段各軌跡點(diǎn)所具備的功能語(yǔ)義,研究用戶訪問(wèn)不同位置語(yǔ)義的概率,對(duì)于識(shí)別用戶特征具有重要意義。

        本文從用戶的原始軌跡出發(fā),首先從速度、距離、時(shí)間、運(yùn)動(dòng)方向及其變化等方面,對(duì)原始軌跡數(shù)據(jù)進(jìn)行有效剪枝和清洗(VSTA Pruning)。然后,通過(guò)在傳統(tǒng)TF-IDF算法中添加時(shí)間標(biāo)簽,利用帶時(shí)間標(biāo)簽的TFT-IDFT方法提取軌跡點(diǎn)周邊的POI語(yǔ)義。在提取出的語(yǔ)義軌跡上通過(guò)使用Word2vec模型,對(duì)用戶的有效軌跡點(diǎn)進(jìn)行了向量化處理,并在此基礎(chǔ)上利用分類模型對(duì)用戶的年齡段特征進(jìn)行識(shí)別和預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的TFT-IDFT方法提取軌跡語(yǔ)義的效果明顯好于傳統(tǒng)的TF-IDF方法。建立在Word2vec模型生成的軌跡點(diǎn)時(shí),時(shí)空詞向量上的分類模型(分類樹(shù)和隨機(jī)森林)對(duì)用戶年齡段的識(shí)別也具有一定的有效性。此外,由于本文使用的基站軌跡數(shù)據(jù)精確度并不高,而軌跡數(shù)據(jù)的來(lái)源廣泛,如手機(jī)的地圖App或社交App等可以獲取更加精確的GPS軌跡數(shù)據(jù)。因此,本文的研究不僅可以適用于當(dāng)前的基站軌跡數(shù)據(jù),還可以基于精確度更高的軌跡數(shù)據(jù)進(jìn)行用戶特征分析,應(yīng)用場(chǎng)景廣泛,可以為用戶識(shí)別與營(yíng)銷推薦提供有效支持。

        接下來(lái)的研究會(huì)從以下方面重點(diǎn)展開(kāi): 1)因數(shù)據(jù)限制,本文并未研究用戶的上網(wǎng)操作特征,實(shí)際上這也是用戶年齡段特征的重要識(shí)別因素。結(jié)合用戶在不同時(shí)間、不同地點(diǎn)和用戶當(dāng)時(shí)當(dāng)?shù)氐纳暇W(wǎng)鏈接和操作,可以進(jìn)一步提升分類的準(zhǔn)確率。2)通過(guò)向量化軌跡點(diǎn)的位置特征和語(yǔ)義特征,可以得到每個(gè)用戶唯一的向量化表示?;诖丝梢赃M(jìn)一步判斷用戶之間的相似性,通過(guò)聚類方式可以找出不同年齡段用戶的生活規(guī)律和行為習(xí)慣,甚至可以識(shí)別出不屬于該年齡段的上網(wǎng)行為,確定移動(dòng)端實(shí)時(shí)使用人的身份特征,為進(jìn)一步分析不同年齡段用戶上網(wǎng)行為提供支持。

        猜你喜歡
        基站軌跡標(biāo)簽
        軌跡
        軌跡
        無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        軌跡
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        進(jìn)化的軌跡(一)——進(jìn)化,無(wú)盡的適應(yīng)
        可惡的“偽基站”
        基于GSM基站ID的高速公路路徑識(shí)別系統(tǒng)
        標(biāo)簽化傷害了誰(shuí)
        小基站助力“提速降費(fèi)”
        香港日本三级亚洲三级| 国产传媒精品成人自拍| 亚洲av午夜精品无码专区| 永久免费看啪啪网址入口| 亚洲人成精品久久久久| 亚洲国产不卡免费视频| 99久久婷婷国产亚洲终合精品| 国产尤物av尤物在线观看| 高清无码一区二区在线观看吞精| av日本一区不卡亚洲午夜| 色久悠悠婷婷综合在线| 日韩精品久久久久久久电影蜜臀| 熟妇人妻AV中文字幕老熟妇| 搡老女人老妇女老熟妇69| 涩涩鲁精品亚洲一区二区| 色天使综合婷婷国产日韩av| 福利片福利一区二区三区| 一区二区三区中文字幕有码| 人妻少妇69久久中文字幕| 9 9久热re在线精品视频| 国产综合色在线视频| 亚洲国产都市一区二区| 人人人妻人人人妻人人人| 曰批免费视频播放免费直播 | 亚洲欧美日韩高清一区二区三区| 亚洲av综合av国一区二区三区| 超碰人人超碰人人| 曰本女人与公拘交酡免费视频| 精品久久久久久国产潘金莲| 中美日韩在线一区黄色大片| 性裸交a片一区二区三区 | 国产av综合影院| 中文AV怡红院| 亚洲精品综合中文字幕组合| 欧美变态另类刺激| 亚洲肥老熟妇四十五十路在线| 亚洲乱码中文字幕综合69堂| 精品国产一区二区三区av| 国产成人亚洲精品无码mp4| 天天射色综合| 中美日韩在线一区黄色大片|