基于時空Transformer-Encoder的跨社交網(wǎng)絡(luò)用戶匹配方法

2024-12-30 00:00:00張洋馬強

計算機應(yīng)用研究 2024年12期

摘要：

針對目前基于簽到時空數(shù)據(jù)的跨社交網(wǎng)絡(luò)用戶匹配方法未充分利用時空信息之間的耦合關(guān)系，導(dǎo)致時空數(shù)據(jù)特征提取困難，匹配準確率下降的問題，提出了一種基于時空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法。該方法通過網(wǎng)格映射將簽到時空信息轉(zhuǎn)換為序列數(shù)據(jù)，生成簽到序列；利用序列嵌入層將離散的簽到序列映射到連續(xù)高維空間；然后借助多頭注意力機制和卷積神經(jīng)網(wǎng)絡(luò)提取高維簽到特征，并利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)優(yōu)化多頭注意力模塊權(quán)重變換和特征融合；最后利用前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn)分類，輸出用戶匹配得分。在兩組真實社交網(wǎng)絡(luò)用戶數(shù)據(jù)集上進行大量用戶匹配實驗，與現(xiàn)有方法相比，準確率提升了0.40～10.53百分點，F(xiàn)1值提升了0.43～9.5百分點。這驗證了所提方法能夠有效提取用戶簽到耦合特征，并提高用戶匹配的性能。

關(guān)鍵詞：跨社交網(wǎng)絡(luò)；用戶匹配；Transformer-encoder；卷積神經(jīng)網(wǎng)絡(luò)

中圖分類號：TP391"" 文獻標志碼：A""" 文章編號：1001-3695（2024）12-029-3742-07

doi： 10.19734/j.issn.1001-3695.2024.05.0146

User matching method for cross social networks based on spatial-temporal Transformer-encoder

Zhang Yang， Ma Qiang

（School of Information Engineering， Southwest University of Science amp; Technology， Mianyang Sichuan 621010， China）

Abstract：

In response to the shortcomings of current cross social network user matching methods based on check-in spatial-temporal data that do not fully utilize the coupling relationship between spatial and temporal information， resulting in difficulty in feature extraction from spatial-temporal data and a decrease in matching accuracy. This paper proposed a cross social network user matching model based on spatial-temporal Transformer-encoder. This method converted check-in spatial-temporal information into sequential data through grid mapping， generated check-in sequences. It used sequence embedding layers to map discrete check-in sequences to a continuous high-dimensional space. Then， it used multi-head attention mechanism and convolutional neural network to extract high-dimensional check-in features， and used convolutional neural network to optimize multi-head attention module weight transformation and feature fusion. Finally， it used feedforward neural networks to implement classi-fication and outputting user matching scores. Extensive user matching experiments on two real social network user datasets show improvements in accuracy by 0.40 to 10.53 percentage point， and F1 value by 0.43 to 9.5 percentage point， compared to existing methods. The experiment validates that the proposed method can effectively extract user check-in coupling features and improve user matching performance.

Key words：cross social network; user matching; Transformer-encoder; convolutional neural network

0 引言

在互聯(lián)網(wǎng)迅速發(fā)展的時代背景下，社交網(wǎng)絡(luò)同樣也得到迅猛發(fā)展。由于社交網(wǎng)絡(luò)平臺功能的差異性，且各個社交網(wǎng)絡(luò)之間是相互獨立的，為了滿足自身的需求，用戶通常會在不同的社交平臺注冊賬號，與不同社交平臺的好友進行信息交互。跨社交網(wǎng)絡(luò)衍生出信息推薦、廣告?zhèn)€性化投放以及隱私保護等服務(wù)。由于實時定位技術(shù)的廣泛應(yīng)用，社交網(wǎng)絡(luò)中具有大量用戶時空簽到信息，這些時空簽到數(shù)據(jù)具有難偽造性和唯一性的特點，在用戶匹配的準確率和穩(wěn)定性方面更具有優(yōu)勢［1］。

對于跨社交網(wǎng)絡(luò)的用戶匹配，研究人員基于不同的方法和數(shù)據(jù)提出了不同的匹配方法。陳鴻昶等人［2］提出使用paragraph2vec模型抽取用戶的位置信息，通過PV-DM方法訓(xùn)練用戶軌跡，該方案為跨社交網(wǎng)絡(luò)匹配提供了新方向，但是沒有考慮到劃分子網(wǎng)格地圖語義信息。為解決此問題，Chen等人［3］提出通過檢索時間和空間的共現(xiàn)頻率，同時篩選候選用戶修剪搜索空間。馬強等人［4］提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的用戶匹配方法，通過對時間和空間信息分別提取特征，再對特征進行融合，該方法能夠有效提取用戶特征，但是沒有挖掘出時間和空間之間的耦合關(guān)系。Yin等人［5］把所用的社交網(wǎng)絡(luò)用戶映射到關(guān)系圖中，利用關(guān)系圖的集合匹配方法得到候選匹配用戶的置信度集合，以篩選出最優(yōu)匹配，但圖計算效率低，不適合大規(guī)模匹配任務(wù)。He等人［6］設(shè)計了一個二進制搜索函數(shù)，對相似的用戶軌跡進行聚類。針對用戶多對多識別中匹配精度較低的問題，Qiu等人［7］提出社交網(wǎng)絡(luò)中影響最大化的兩階段方法，以選擇一定數(shù)量有影響力的節(jié)點作為候選節(jié)點；Deng等人［8］提出了基于穩(wěn)定婚姻匹配的隨機森林確認方法，該方案通過構(gòu)建隨機森林方法對用戶相似度向量進行訓(xùn)練，對候選匹配對進行二次匹配，基于候選節(jié)點的方法對數(shù)據(jù)源有更高的要求，不具有適用性。Qi等人［9］通過構(gòu)建頻繁分布的top-n區(qū)域，利用用戶軌跡相似性度量進行匹配，忽略了用戶時序特征。戴軍等人［10］對時空簽到信息進行網(wǎng)格聚類，然后提取時空信息的特征，計算不同屬性的相似度進行匹配，但是會受到數(shù)據(jù)稀疏性的影響。針對數(shù)據(jù)稀疏性的問題，Li等人［11］提出一種基于三層注意力機制的網(wǎng)絡(luò)嵌入模型，利用一階和二階鄰居的加權(quán)結(jié)構(gòu)相似性識別用戶。此外，Zheng等人［12］提出循環(huán)一致性的對抗映射方法建立社交網(wǎng)絡(luò)中用戶的應(yīng)用關(guān)系，解決數(shù)據(jù)分布差異的問題。Han等人［13］通過比較用戶生成的位置數(shù)據(jù)將該用戶多個賬戶鏈接起來，構(gòu)建主題方法捕捉用戶在時間和空間維度上的特征，最后計算KL散度得到用戶相似度，但忽略了時間和空間之間的耦合性。Li等人［14］利用樹狀圖的思想建立匹配模型，開發(fā)不同的方法，分別在時間、空間以及內(nèi)容的維度上衡量相似度，并構(gòu)成相應(yīng)的特征向量，通過三級機器學(xué)習(xí)的級聯(lián)進行用戶識別。由于社交網(wǎng)絡(luò)中用戶行為的局限性，Nie等人［15］提出一種動態(tài)核心興趣映射方法，該方法通過用戶社交網(wǎng)絡(luò)結(jié)構(gòu)和用戶生成內(nèi)容進行建模匹配。Hao等人［16］提出了一種網(wǎng)絡(luò)物理空間用戶識別框架，對網(wǎng)絡(luò)空間和物理空間進行建模，融合兩個空間中用戶共享特征進行用戶匹配，但沒有充分利用時空信息，一定程度上提高了用戶匹配精度。也有研究者嘗試把神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖結(jié)構(gòu)數(shù)據(jù)中，Lei等人［17］采用特定的編碼方法把圖數(shù)據(jù)轉(zhuǎn)換成序列數(shù)據(jù)，然后利用Transformer-encoder提取低維序列特征，但是該模型信息量較小導(dǎo)致匹配精度下降。Tan等人［18］提出超圖流行對齊的一種新的子空間學(xué)習(xí)模型，充分利用社交網(wǎng)絡(luò)結(jié)構(gòu)將用戶映射到低維空間中。Han等人［19］將多維時空數(shù)據(jù)轉(zhuǎn)換成三部圖的方式，通過最優(yōu)圖劃分進行用戶匹配。張偉等人［20］基于循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)從時間、空間以及社交三個方面分析用戶軌跡，該方案準確率較高，但是需要大量的軌跡數(shù)據(jù)。Lee等人［21］分析社交網(wǎng)絡(luò)的拓撲信息，利用用戶之間的相似度達到識別用戶的目的。Li等人［22］基于核密度估計方法測量用戶的相似度，同時處理空間和時間數(shù)據(jù)，按照TFIDF的思想給簽到記錄分配權(quán)重，突出了有區(qū)別的用戶信息。

盡管現(xiàn)有基于時空數(shù)據(jù)的跨社交網(wǎng)絡(luò)匹配方法已被證明是有效的，但其中大多數(shù)都分別處理時間和空間信息，導(dǎo)致時間和空間信息之間的相關(guān)性丟失，存在難以耦合多維度的用戶簽到信息、特征提取困難、匹配準確率低的問題。本文提出了一種基于時空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法（user matching method for cross social networks based on spatial-temporal Transformer-encoder，UMMSTT），通過網(wǎng)格映射對用戶簽到時空信息離散化處理，生成簽到序列，通過序列嵌入層將離散的簽到序列映射到連續(xù)的高維空間中，基于Transformer-encoder和卷積神經(jīng)網(wǎng)絡(luò)對高維特征進行特征提取，利用前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征向量和用戶匹配之間的潛在聯(lián)系。在兩組真實社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進行用戶匹配測試，結(jié)果表明，準確率和F1值相較于現(xiàn)有方法均有提升，驗證了方法的有效性。

1 相關(guān)定義及數(shù)據(jù)預(yù)處理

1.1 相關(guān)定義

定義1 用戶簽到。其是指社交網(wǎng)絡(luò)中的用戶在特定的時間和地點進行登錄或打卡的信息。簽到數(shù)據(jù)是一個元組S=（id，tim，lon，lat）。其中：id表示用戶的唯一標識符；tim表示用戶簽到的時間，包括日期和時間戳；lon和lat分別表示用戶簽到的經(jīng)度和緯度。按照id構(gòu)建單個用戶的簽到數(shù)據(jù)集Fid={S1，S2，…，Sn}，Sn表示用戶的第n次簽到數(shù)據(jù)。

定義2 用戶匹配。其是指在不同的社交網(wǎng)絡(luò)平臺上，將相同用戶的賬戶進行匹配的任務(wù)。給定F1∈D1，F(xiàn)2∈D2是來自兩個不同社交網(wǎng)絡(luò)（D1和D2）的兩個簽到數(shù)據(jù)，如果F1和F2是同一個現(xiàn)實用戶產(chǎn)生的簽到數(shù)據(jù)，則F1和F2對應(yīng)的用戶id匹配成功。

1.2 簽到數(shù)據(jù)網(wǎng)格映射

將原始簽到數(shù)據(jù)轉(zhuǎn)換為離散化網(wǎng)格表示，數(shù)據(jù)簡化的同時保留特征信息，可以減少簽到數(shù)據(jù)的維度和存儲空間，即只需要存儲網(wǎng)格單元的索引或者編碼而不需要存儲具體的簽到數(shù)據(jù)。給定簽到數(shù)據(jù)S=（id，tim，lon，lat），簽到的時間和空間范圍M=（timmin，timmax，lonmin，lonmax，latmin，latmax）。其中：timmin、lonmin、latmin分別是簽到時間戳、經(jīng)度和緯度的最小值；timmax、lonmax、latmax分別是簽到時間戳、經(jīng)度和緯度的最大值。本文采用了獨立時空數(shù)據(jù)網(wǎng)格映射和聯(lián)合時空數(shù)據(jù)網(wǎng)格映射兩種時空數(shù)據(jù)網(wǎng)格映射方法。獨立時空數(shù)據(jù)網(wǎng)格映射將簽到時間和空間信息分別映射到二維空間中；聯(lián)合時空數(shù)據(jù)網(wǎng)格映射充分利用時空信息之間的耦合關(guān)系，將簽到時空信息映射到一個三維空間中。

方法1 獨立時空數(shù)據(jù)網(wǎng)格映射。簽到數(shù)據(jù)的時間網(wǎng)格表示為Ts=（xt，yt），簽到數(shù)據(jù)的空間網(wǎng)格表示為Ss=（xs，ys）。其中：xt和xs分別表示時間網(wǎng)格和空間網(wǎng)格的水平坐標序號；yt和ys分別表示時間網(wǎng)格和空間網(wǎng)格的垂直坐標序號。計算公式如下：

xt=k－f（k×timmax－tim+adjtimmax－timmin）

yt=k－f（k×（timmax－tim+adj）%timdentimden）

timden=timmax－timmink （1）

xs=k－f（k×lonmax－lon+adjlonmax－lonmin）ys=k－f（k×latmax－lat+adjlatmax－latmin）（2）

其中： f是向下取整函數(shù)；k是時間網(wǎng)格和空間網(wǎng)格的密度系數(shù)；adj是調(diào)節(jié)參數(shù)。把時間網(wǎng)格Ts和空間網(wǎng)格Ss分別轉(zhuǎn)換為子網(wǎng)格編號Ti和Si表示，計算公式如下：

Ti=xt+k（yt－1）（3）

Si=xs+k（ys－1）（4）

方法2 聯(lián)合時空數(shù)據(jù)網(wǎng)格映射。令簽到數(shù)據(jù)的時空網(wǎng)格表示為Ls=（xs，ys，zs）。xs、ys和zs分別表示時空網(wǎng)格行坐標序號、列坐標序號以及層坐標序號，計算公式如下：

xs=k－f（k×lonmax－lon+adjlonmax－lonmin）ys=k－f（k×latmax－lat+adjlatmax－latmin）zs=k－f（k×timmax－tim+adjtimmax－timmin）（5）

其中： f、k和adj的定義同式（2）。時空網(wǎng)格Ls轉(zhuǎn)換為子網(wǎng)格編號Li，計算公式如下：

Li=xs+k（ys－1）+k2（zs－1）（6）

1.3 構(gòu)建簽到序列

根據(jù)用戶簽到id，將簽到數(shù)據(jù)映射到網(wǎng)格，通過子網(wǎng)格編號鏈接簽到數(shù)據(jù)和簽到序列，每個簽到序列包含該用戶的時間和空間信息，反映了用戶在不同時間和地點的簽到行為。構(gòu)建用戶簽到序列集FM={B1，B2，B3}，Bi={L1，L2，…，Ln}，1≤i≤3，n表示序列長度，B1表示時間序列，B2表示空間序列，B3表示時空序列。簽到數(shù)據(jù)具有時空關(guān)聯(lián)特性，用戶的簽到序列融合了用戶的行為特征。本文利用時空簽到數(shù)據(jù)構(gòu)建簽到序列集，簽到序列填充算法偽代碼如算法1。

算法1 簽到序列填充算法

輸入：用戶簽到數(shù)據(jù)集S1；與S1待匹配簽到集S2；網(wǎng)格密度系數(shù)k；調(diào)節(jié)參數(shù)adj。

輸出：用戶簽到序列集FM。

a）初始化n維序列集FM={B1，B2，B3}。

b）遍歷數(shù)據(jù)集S1和S2，通過S1和S2設(shè)定時空域。 /*遍歷簽到數(shù)據(jù)集和待匹配簽到數(shù)據(jù)集設(shè)定時間和空間范圍*/

c）獲取網(wǎng)格：Ts=（xt，yt）；Ss=（xs，ys）；Ls=（xs，ys，zs）。 /*分別對簽到數(shù)據(jù)進行獨立時空數(shù)據(jù)網(wǎng)格映射和聯(lián)合時空數(shù)據(jù)網(wǎng)格映射，得到簽到數(shù)據(jù)的時間網(wǎng)格表示、空間網(wǎng)格表示和時空網(wǎng)格表示*/

d）獲取子網(wǎng)格編號：Ti，Si和Li。 /*將簽到數(shù)據(jù)的三類網(wǎng)格轉(zhuǎn)換為相應(yīng)子網(wǎng)格編號*/

e）填充序列：B1.append（Ti）；B2.append（Si）；B3.append（Li）。//將三類子網(wǎng)格編號分別填充到時間序列、空間序列和時空序列

f）輸出FM。

2 用戶匹配模型

2.1 模型框架

基于Transformer-encoder和卷積神經(jīng)網(wǎng)絡(luò)（CNN）對序列數(shù)據(jù)具有很好的特征提取能力，本文提出了如圖1的跨社交網(wǎng)絡(luò)用戶匹配模型。該模型的輸入是社交網(wǎng)絡(luò)簽到數(shù)據(jù)集，經(jīng)過網(wǎng)格映射和序列填充得到用戶簽到序列。利用序列嵌入層將離散的簽到序列映射到連續(xù)的高維空間中，得到高維特征張量。在優(yōu)化Transformer-encoder層進行特征提取過程中，將高維特征張量劃分成兩個部分并分別輸入到優(yōu)化多頭注意力模塊提取時空特征，一部分通過多頭自注意力提取時空序列特征，另一部分先添加噪聲進行數(shù)據(jù)增強操作后再通過卷積神經(jīng)網(wǎng)絡(luò)提取時空序列特征，將這兩部分的輸出進行拼接并規(guī)范化；再利用CNN2對優(yōu)化多頭注意力模塊殘差連接后的輸出進行權(quán)重變換和特征融合；通過前饋神經(jīng)網(wǎng)絡(luò)得到多頭平均注意力并轉(zhuǎn)換成嵌入序列的張量形式。利用特征展開模塊將得到的高維特征張量展開成一維特征向量，并利用前饋神經(jīng)網(wǎng)絡(luò)作為分類器，最后得到匹配結(jié)果。

2.2 序列嵌入

將用戶簽到序列集FM={B1，B2，B3}，Bi={L1，L2，…，Ln}，通過序列嵌入轉(zhuǎn)換成高維向量。序列Bi中Ln映射到整數(shù)標記索引得到向量1×V，V表示字典大小，將Bi中所有元素映射到整數(shù)標記索引，得到索引矩陣Vid，Vid∈Euclid ExtraaBpn×v。計算Vid在嵌入矩陣Wd中對應(yīng)的嵌入向量，計算方法為

3 實驗分析

3.1 數(shù)據(jù)集及評價指標

本文實驗數(shù)據(jù)集來自斯坦福大學(xué)的社交網(wǎng)絡(luò)數(shù)據(jù)集Brightkite和Gowalla［23］，它們是使用公共API收集的基于位置的社交網(wǎng)絡(luò)，每個用戶的簽到數(shù)據(jù)包括用戶id、簽到時間、簽到經(jīng)度，簽到緯度以及位置id。將社交網(wǎng)絡(luò)數(shù)據(jù)集劃分成兩個子數(shù)據(jù)集a和b，數(shù)據(jù)集a和b表示兩個社交網(wǎng)絡(luò)，進行用戶匹配。劃分方法：以相同的概率將每個用戶id的每條簽到數(shù)據(jù)劃分到a和b，同時保證劃分結(jié)束時a和b的簽到數(shù)不少于用戶總簽到數(shù)的1/4。隨機選擇50%的用戶通過用戶id鏈接構(gòu)建正例，并標記a中正例用戶id；在構(gòu)建負例時，在a中選擇未被標記的用戶id，在b中隨機選擇不同的用戶id構(gòu)成50%負例，以此保證每條數(shù)據(jù)的唯一性。模型利用嵌入后的時空簽到序列數(shù)據(jù)進行訓(xùn)練，整個數(shù)據(jù)集分成80%的訓(xùn)練集和20%的測試集。數(shù)據(jù)集信息如表1所示。該文采用準確率（acc）、精確率（pre）、召回率（rec）以及綜合評價指標F1作為衡量方法性能的評價指標，計算公式如下：

acc=tp+tntp+fp+tn+fnpre=tptp+fp+epsilonrec=tptp+fn+epsilon

F1=2×pre×recpre+rec+epsilon （28）

其中：tp表示正確預(yù)測正例的樣本數(shù)；tn表示正確預(yù)測負例的樣本數(shù)； fp表示錯誤預(yù)測正例的樣本數(shù)； fn表示錯誤預(yù)測負例的樣本數(shù)；epsilon表示調(diào)節(jié)參數(shù)。

3.2 模型參數(shù)設(shè)置

為調(diào)整模型中的超參數(shù)以及驗證模型在訓(xùn)練過程中的效果，在訓(xùn)練集中劃分出5%的數(shù)據(jù)作為驗證集。模型在不同迭代輪數(shù)（epoch）的訓(xùn)練結(jié)果曲線如圖2所示。模型訓(xùn)練結(jié)果顯示epoch超過15以后，模型的損失和準確率趨于穩(wěn)定，方法在Brightkite測試集的準確率達到99.51%；在Gowalla的測試集準確率達到99.50%。

對優(yōu)化多頭注意力模塊降低了時間復(fù)雜度進行驗證，在不同變量設(shè)置條件下使用相同的數(shù)據(jù)集，并采用模型訓(xùn)練時間作為衡量計算效率的指標。實驗將模型輸入序列長度逐步增加，訓(xùn)練時間選擇30個epoch計算時長取值。用Trans表示Transformer-encoder基本模型；用Protrans表示使用優(yōu)化多頭注意力模塊而不使用CNN2模塊的Transformer-encoder模型；UMMSTT表示同時使用優(yōu)化多頭注意力模塊和CNN2模塊的Transformer-encoder模型。不同模型訓(xùn)練時間結(jié)果如圖3所示。

本文UMMSTT訓(xùn)練時間低于Trans，這表明UMMSTT有效提高了基礎(chǔ)Transformer-encoder的計算效率；同時隨著序列長度的增加兩條曲線的差值在逐漸增大，表明特征數(shù)據(jù)序列長度越大，時間復(fù)雜度降低越明顯。Protrans的訓(xùn)練時間略低于UMMSTT，并且兩條曲線的差值相對穩(wěn)定，說明CNN2模塊帶來的額外時間復(fù)雜度較小。

此外，針對聯(lián)合時空數(shù)據(jù)網(wǎng)格映射和獨立時空數(shù)據(jù)網(wǎng)格映射對特征提取的有效性，優(yōu)化Transformer-encoder層對匹配模型性能的提升，在不同模型和數(shù)據(jù)條件下測試匹配性能。S表示獨立空間數(shù)據(jù)網(wǎng)格映射提取簽到空間特征序列；T表示獨立時間數(shù)據(jù)網(wǎng)格映射提取簽到時間特征序列；ST表示對獨立空間數(shù)據(jù)網(wǎng)格映射提取的簽到空間特征序列和獨立時間數(shù)據(jù)網(wǎng)格映射提取的簽到時間特征序列進行拼接；UN表示聯(lián)合時空數(shù)據(jù)網(wǎng)格映射提取簽到時空特征序列。消融實驗結(jié)果如表2所示。

實驗結(jié)果表明，在兩個數(shù)據(jù)集上，UN的準確率和F1值均高于ST，說明了聯(lián)合時空數(shù)據(jù)網(wǎng)格映射能夠最大限度地提取用戶的簽到特征。此外，在簽到信息聯(lián)合時空數(shù)據(jù)網(wǎng)格映射下，UMMSTT相較于基礎(chǔ)Trans，準確率提升約0.30和0.21百分點，F(xiàn)1值提升約0.19和0.22百分點；相較于Protrans，準確率提升約0.35和0.37百分點，F(xiàn)1值提升約0.37和0.38百分點，說明了UMMSTT能夠有效提高匹配性能。由于簽到信息的時間特征較弱，所以同一模型下僅使用時間特征的準確率和F1值均低于僅使用空間特征的準確率和F1值。聯(lián)合時空數(shù)據(jù)網(wǎng)格映射能夠有效耦合簽到數(shù)據(jù)中的時間和空間特征，以提高模型匹配性能。

時間網(wǎng)格、空間網(wǎng)格和時空網(wǎng)格的密度系數(shù)對數(shù)據(jù)建模的性能有重要影響，當k設(shè)置過小，序列數(shù)據(jù)的特征則很模糊，不具有區(qū)分性；設(shè)置過大時，序列數(shù)據(jù)則會引入過多噪聲，導(dǎo)致特征丟失。為了研究k的合理取值，設(shè)置了多組對照實驗，實驗結(jié)果如圖4所示。

實驗結(jié)果顯示，模型準確率隨著k值的增大而呈現(xiàn)出先增后減的趨勢，增大k值會增強序列數(shù)據(jù)的特征，模型準確率增大，當k值過大時，會在序列數(shù)據(jù)中引入過多噪聲導(dǎo)致準確率下降。因此在Brightkite和Gowalla兩個數(shù)據(jù)集中k值分別設(shè)置為6和8。模型的其他參數(shù)設(shè)置如表3所示。

3.3 方法對比分析

為了驗證本文方法在用戶匹配中的有效性，將其與多種方法進行對比，所有方法訓(xùn)練時都采用了早停策略。這里選擇了UNICORN［15］、TUMA［17］、UIDwST［22］、DLUMCN［4］作為對比方法，UNICORN將用戶簽到數(shù)據(jù)向量化，利用簽到數(shù)據(jù)向量相似性度量用戶匹配；TUMA把用戶數(shù)據(jù)映射成序列，利用Transformer-encoder提取高維序列特征，并計算特征向量的相似度；UIDwST基于核密度估計的方法，測量用戶的相似度；DLUMCN將用戶數(shù)據(jù)映射到網(wǎng)格，利用卷積神經(jīng)網(wǎng)絡(luò)提取網(wǎng)格用戶特征，并進行特征分類匹配。本文方法UMMSTT利用聯(lián)合時空數(shù)據(jù)網(wǎng)格映射將時空簽到信息映射成簽到序列，通過Transformer-encoder和CNN提取序列特征構(gòu)建匹配方法。令數(shù)據(jù)集用戶匹配對數(shù)為M，用戶簽到數(shù)最大值為n，隱藏層維度為d，在兩組數(shù)據(jù)集中不同方法的時間和空間復(fù)雜度的結(jié)果如表4所示，不同方法的評價指標對比結(jié)果如表5所示。

從表4、5不同方法的對比測試結(jié)果可以看出，UNICORN的各項評價指標均比其他方法差，這是因為UNICORN只考慮了位置信息而忽略了時間信息；UMMSTT和TUMA都是基于Transformer的方法，但是TUMA過于簡單，不能充分提取用戶時空特征，不適合大規(guī)模匹配任務(wù)，并且需要更多的訓(xùn)練時間；UIDwST在計算相似性權(quán)重時過于復(fù)雜，同樣不適合大規(guī)模數(shù)據(jù)匹配任務(wù)；UMMSTT和DLUMCN都是基于網(wǎng)格映射對簽到數(shù)據(jù)進行預(yù)處理，UMMSTT獲得更高匹配精度的同時需要耗費更多的訓(xùn)練時間，但是DLUMCN分別獨立處理時間和空間數(shù)據(jù)，忽略了時空數(shù)據(jù)之間的耦合關(guān)系。此外，模型的召回率大于精確率，這是由于簽到數(shù)據(jù)集中的極少數(shù)負例用戶被模型錯誤判別為正例所造成的。對比目前方法，所提UMMSTT的準確率和F1值均表現(xiàn)更好，驗證了所提方法的有效性。

3.4 匹配樣例分析

通過在Brightkite數(shù)據(jù)集上，設(shè)置網(wǎng)格密度系數(shù)k=9，采用聯(lián)合時空數(shù)據(jù)網(wǎng)格映射算法，訓(xùn)練并測試用戶匹配模型，將測試效果好的預(yù)訓(xùn)練模型保存到本地。本文進行了一個匹配實例驗證UMMSTT的有效性。

旅游推薦系統(tǒng)：用戶希望提供個性化的旅游景點推薦服務(wù)，為了實現(xiàn)這一目標，系統(tǒng)需要整合用戶在不同社交網(wǎng)絡(luò)上的簽到數(shù)據(jù)，以更全面地了解用戶的興趣和行為。

為了尋找旅游推薦系統(tǒng)中服務(wù)需求用戶在另一個社交網(wǎng)絡(luò)的賬戶id，將該服務(wù)需求用戶與社交網(wǎng)絡(luò)中所有用戶組成用戶匹配對，社交網(wǎng)絡(luò)包含500個用戶。利用預(yù)訓(xùn)練模型計算用戶匹配對的相似性值，并篩選出相似性值最大的匹配對，若最大相似性值大于匹配閾值，則匹配成功，否則匹配失敗，匹配閾值設(shè)置為0.95。通過對匹配結(jié)果分析，匹配成功率達到98.5%，有部分用戶的簽到數(shù)據(jù)過于稀疏，導(dǎo)致匹配失敗。

4 結(jié)束語

本文提出了一種基于時空Transformer-encoder的跨社交網(wǎng)絡(luò)用戶匹配方法。該方法針對目前基于簽到時空數(shù)據(jù)的跨社交網(wǎng)絡(luò)用戶匹配方法未充分利用時空信息之間的耦合關(guān)系，導(dǎo)致時空數(shù)據(jù)特征提取困難，匹配準確率下降的問題，將時空簽到數(shù)據(jù)進行網(wǎng)格映射生成用戶簽到序列，最大限度地融合時空信息，以便于更好地提取序列特征。利用序列嵌入層將離散的簽到序列映射到連續(xù)高維空間，得到高維特征張量。優(yōu)化多頭注意力模塊提取高維簽到特征，并基于卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)優(yōu)化多頭注意力模塊權(quán)重變換和特征融合。最后基于前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn)分類，學(xué)習(xí)用戶特征和用戶匹配之間的潛在聯(lián)系，輸出用戶匹配得分。為驗證方法的有效性，選取了兩組真實社交網(wǎng)絡(luò)用戶數(shù)據(jù)集進行用戶匹配，與現(xiàn)有方法相比，準確率提升了0.40～10.53百分點，F(xiàn)1值提升了0.43～9.5百分點，驗證了所提方法能夠有效提取用戶簽到耦合特征。下一步研究將融合更多數(shù)據(jù)特征，進一步提高模型匹配精度。

參考文獻：

［1］邢玲，鄧凱凱，吳紅海，等. 復(fù)雜網(wǎng)絡(luò)視角下跨社交網(wǎng)絡(luò)用戶身份識別研究綜述［J］. 電子科技大學(xué)學(xué)報， 2020， 49（6）： 905-917. （Xing Ling， Deng Kaikai， Wu Honghai， et al. Review of user identification across social networks： the complex network approach ［J］. Journal of University of Electronic Science and Tech-nology of China， 2020， 49（6）： 905-917.）

［2］陳鴻昶，徐乾，黃瑞陽，等. 一種基于用戶軌跡的跨社交網(wǎng)絡(luò)用戶身份識別算法［J］. 電子與信息學(xué)報， 2018， 40（11）： 2758-2764. （Chen Hongchang， Xu Qian， Huang Ruiyang， et al. User identification across social networks based on user trajectory ［J］. Journal of Electronics amp; Information Technology， 2018， 40（11）： 2758-2764.）

［3］Chen Wei， Wang Weiqiang， Yin Hongzhi， et al. User account lin-kage across multiple platforms with location data ［J］. Journal of Computer Science and Technology， 2020， 35（4）： 751-768.

［4］馬強，戴軍. 基于深度學(xué)習(xí)的跨社交網(wǎng)絡(luò)用戶匹配方法［J］. 電子與信息學(xué)報， 2023， 45（7）： 2650-2658. （Ma Qiang， Dai Jun. Deep learning based user matching method for cross social networks ［J］. Journal of Electronics amp; Information Technology， 2023， 45（7）： 2650-2658.）

［5］Yin Zhangfeng， Yang Yang， Fang Yuan. Link user identities across social networks based on contact graph and user social behavior ［J］. IEEE Access， 2022， 10： 42432-42440.

［6］He Wenqiang， Li Yongjun， Zhang Yinyin， et al. A binary-search-based locality-sensitive hashing method for cross-site user identification ［J］. IEEE Trans on Computational Social Systems， 2022， 10（2）： 480-491.

［7］Qiu Liqing， Gu Chunmei， Zhang Shuang， et al. TSIM： a two-stage selection algorithm for influence maximization in social networks ［J］. IEEE Access， 2020， 8： 12084-12095.

［8］Deng Kaikai， Xing Ling， Zhang Mingchuan， et al. A multiuser identification algorithm based on internet of things ［J］. Wireless Communications and Mobile Computing， 2019， 2019： 6974809.

［9］Qi Mengjun， Wang Zhongyuan， He Zheng， et al. User identification across asynchronous mobility trajectories ［J］. Sensors， 2019， 19（9）： 2102.

［10］戴軍，馬強. 基于用戶簽到的跨社交網(wǎng)絡(luò)用戶匹配［J］. 計算機工程與應(yīng)用， 2023， 59（2）： 76-84. （Dai Jun， Ma Qiang. Cross-social network user matching based on user check-in ［J］. Computer Engineering and Applications， 2023， 59（2）： 76-84.）

［11］Li Yao， Cui Huiyuan， Liu Huilin， et al. Triple-layer attention mecha-nism-based network embedding approach for anchor link identification across social networks ［J］. Neural Computing amp; Applications， 2022， 34（4）： 2811-2829.

［12］Zheng Conghui， Pan Li， Wu Peng. CAMU： cycle-consistent adversarial mapping model for user alignment across social networks ［J］. IEEE Trans on Cybernetics， 2022， 52（10）： 10709-10720.

［13］Han Xiaohui， Wang Lianhai， Xu Shujiang， et al. Linking social network accounts by modeling user spatiotemporal habits ［C］// Proc of IEEE International Conference on Intelligence and Security Informatics. Piscataway， NJ： IEEE Press， 2017： 19-24.

［14］Li Yongjun， Zhang Zhen， Peng You， et al. Matching user accounts based on user generated content across social networks ［J］. Future Generation Computer Systems， 2018， 83： 104-115.

［15］Nie Yuanping， Jia Yan， Li Shudong， et al. Identifying users across social networks based on dynamic core interests ［J］. Neurocompu-ting， 2016， 210： 107-115.

［16］Hao Tianyi， Zhou Jingbo， Cheng Yunsheng， et al. User identification in cyber-physical space： a case study on mobile query logs and trajec-tories ［C］// Proc of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York： ACM Press， 2016： 1-4.

［17］Lei Tianliang， Ji Lixin， Wang Gengrun， et al. Transformer-based user alignment model across social networks ［J］. Electronics， 2023， 12（7）： 1686.

［18］Tan Shulong， Guan Ziyu， Cai Deng， et al. Mapping users across networks by manifold alignment on hypergraph ［C］// Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2014： 159-165.

［19］Han Xiaohui， Wang Lianhai， Xu Lijuan， et al. Social media account linkage using user-generated geo-location data ［C］// Proc of IEEE Conference on Intelligence and Security Informatics. Piscataway， NJ： IEEE Press， 2016： 157-162.

［20］張偉，李揚，張吉，等. 融合時空行為與社交關(guān)系的用戶軌跡識別模型［J］. 計算機學(xué)報， 2021， 44（11）： 2173-2188. （Zhang Wei， Li Yang， Zhang Ji， et al. A user trajectory identification model with fusion of spatio-temporal behavior and social relation ［J］. Chinese Journal of Computers， 2021， 44（11）： 2173-2188.）

［21］Lee J Y， Hussain R， Rivera V， et al. Second-level degree-based entity resolution in online social networks ［J］. Social Network Analysis and Mining， 2018， 8： 1-8.

［22］Li Yongjun， Ji Wenli， Gao Xing， et al. Matching user accounts with spatio-temporal awareness across social networks ［J］. Information Sciences， 2021， 570： 1-15.

［23］Eunjoon C， Seth A M， Jure L. Friendship and mobility： user movement in location-based social networks ［C］// Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM Press， 2011： 1082-1090.

計算機應(yīng)用研究2024年12期

計算機應(yīng)用研究的其它文章: 基于多尺度視覺信息和非局部目標挖掘的腫瘤分割; 基于CLIP的視頻時刻檢索預(yù)訓(xùn)練模型; 多模態(tài)嵌入與軌跡修正的三維多目標跟蹤; 基于高階紋理與結(jié)構(gòu)特征交互的瓦當圖像修復(fù); 基于推遲重采樣的時空路徑復(fù)用蓄水池算法; 抗惡意敵手的多方概率門限隱私集合交集方法

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時空Transformer-Encoder的跨社交網(wǎng)絡(luò)用戶匹配方法