劉甜甜
摘要:針對現有基于用戶名的跨社交網絡用戶身份匹配算法,匹配時需要設計復雜的用戶名字符串統(tǒng)計特征用于機器學習模型輸入,本文提出了一個端到端的基于卷積神經網絡的用戶名字符級嵌入身份匹配算法。
關鍵詞:卷積神經網絡;用戶名嵌入;字符級;用戶身份匹配
1 概述
跨社交網絡用戶身份匹配技術是跨多個在線社交平臺進行信息融合的先決條件?,F有的許多跨社交網絡用戶身份匹配模型主要是基于監(jiān)督算法提出的,即給定一組標記的匹配用戶,錨鏈接推理預測問題可以建模為二分類任務。
用戶在選擇用戶名時通常會表現出某些行為模式,多個社交網絡平臺中傾向于使用具有個人特點的相似用戶名顯示自己的偏好,也具有獨特性[1],因此基于用戶名的跨社交網絡用戶身份匹配方法最簡單直觀,提取用戶名特征,設計基于相似度的學習匹配模型來預測錨鏈接。
Zafarani 等人[2]通過對多個社交網絡平臺中用戶名相似度的統(tǒng)計驗證分析,以實證的方式研究了在不同社交網絡平臺中識別相應身份的可能性。Li等人[3]利用有監(jiān)督的機器學習算法來實現用戶身份匹配,該工作僅依靠不同的用戶名命名方式來提取冗余信息特征,在此特征集上進行模型的訓練。
用戶名是最直觀、最易獲取的數據形式,基于用戶名的跨網絡用戶身份匹配方法通過挖掘取名行為習慣特征進行匹配建模(如圖 1),取得了一定的研究成果。但是特征提取方法復雜煩瑣,針對此我們提出了基于卷積神經網絡用戶名字符嵌入的深度學習模型,避免了復雜的特征提取過程,提高了模型的泛化能力。
2 基于用戶名嵌入的跨社交網絡用戶身份匹配算法
本文中提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,實現端到端的跨社交網絡用戶身份匹配。
2.1 字符卷積神經網絡
文本嵌入通常采用循環(huán)神經網絡(RNN)來進行建模,因為RNN天生的循環(huán)自回歸結構是對時間序列很好表示。而傳統(tǒng)的卷積神經網絡一般認為不太適合時序問題的建模,主要由于其卷積核大小的限制,不能很好地抓取長時的依賴信息。Zhang[4]等人于2015年首次提出基于字符級的卷積神經網絡用于文本分類任務,初次探索了文本的字符級向量表示方法。
2.2 輸入文本處理
深度神經網絡模型的輸入應是文本向量化表示形式,在將用戶名文本信息輸入神經網絡模型前,需要將文本表示為模型可處理的數字形式。對該研究問題來說,輸入樣本應該是一對社交賬號的用戶名,首先需要從數據集中進行樣本對的構建,再對樣本進行初始的字符向量化表示。
2.2.1樣本對構建
對給定的已知錨鏈接集合[AS,T], 我們首先將其中的一對匹配賬號 [(vSi,uTj)] 的用戶名通過空格連接起來,作為二分類模型框架下的一個正樣本,隨機抽取數據產生負樣本對,使正負樣本比例達到 1:1,產生可以用于模型訓練的用戶名對樣本數據集。
2.2.2字符向量化
模型輸入層要求文本數據形式為矩陣形式,首先將字符轉化為可處理的數字化向量表示。為了比較用戶名中所包含的大、小寫字母對模型特征提取的貢獻,分別采用了兩種字母表進行用戶名嵌入。一是大小為 70 的字母表,包含英文小寫字母、數字和常見符號。大寫字母通常會用在用戶名首位,或表示用戶名縮寫,為了捕捉這一特性中的隱含特征,引入英文大寫字母 26 個,將字母表擴充為 96 個,進行字符級的用戶名文本嵌入,兩種字母如表1所示,表中的字母基本包含了用戶名樣本中的所有字符。
根據相應的字母表的長度,將樣本中每一個輸入的字符初始嵌入轉化為 [m] 維向量,將用戶名字符序列轉變?yōu)楣潭ㄩL度為 [l] 的 [m] 維序列,少數不在字母表中的特殊字符和空字符轉化為維度 [m] 的全零向量,得到二維文本字符特征矩陣。對于其中的一個用戶名對的樣本 [N=(w0,w1,...,wn)],其中 [n] 表示用戶名樣本中包含的單詞的個數,[wi ]表示其中的第 [i] 個詞, [wi ]包含[ l ]個字符,每個字符的嵌入向量為 [cj],其大小為 m 維,因此可以用于輸入卷積神經網絡來處理每一個字符得到該用戶名樣本的字符級向量表示。
2.3基于卷積神經網絡的字符級用戶名嵌入匹配模型設計
卷積神經網絡的核心結構主要包括卷積層、池化層以及全連接層,卷積層和池化層組合成為特征抽取器來提取用戶名文本中蘊含的高階語義特征。本文設計的跨社交網絡用戶匹配模型框架圖如2所示。
由模型框架可知,該模型以定長的二維矩陣作為輸入層,根據字母表選取的不同,輸入的特征個數分別為 70 和 96,用戶名文本特征向量的長度為該數據集中最大樣本長度的字符數。之后與卷積核做卷積操作,對輸入文本進行局部特征提取,經過池化層對卷積層輸出的特征圖進行最大池化操作,實現局部特征再提取。本論文中的模型設計了三個卷積池化層用于提取特征,將提取到的所有特征送入三個全連接層,由一個特征空間線性變換到另一個特征空間,最后通過softmax 分類器,輸出分類結果。本論文中所提模型設計的卷積池化層和全連接層如下表 2 所示,全連接層之間加入dropout 層實現模型的正則化。
3 實驗驗證與分析
為驗證所提算法的有效性,在真實社交網絡數據集上進行了實驗。實驗數據集來源于zhang等人的論文[5], 是Foursquare 和 Twitter 兩個社交網絡。
3.1實驗設置
我們采用以下基于用戶名嵌入表示的基準算法進行了對比實驗。
CharCNN Alignment-96。字母表采用96 個字符,全連接網絡作為預測輸出層。
CharCNN Alignment-70。字母表采用70 個字符,全連接網絡作為預測輸出層。
Word2Vec + Full Connected Layers。用戶名通過 word2vec 嵌入表示,CharCNN 模型中全連接部分作為預測層。
Word2Vec + 隨機森林。用戶名通過 word2vec 嵌入表示,隨機森林作為預測模型。
Word2Vec + SVM。用戶名通過 word2vec 嵌入表示,支持向量機作為預測模型。
Word2Vec + GBDT。 用戶名通過 word2vec 嵌入表示,梯度提升樹作為預測模型。
3.2實驗結果與分析
數據集劃分為 80% 作為訓練集,20% 作為測試集,與基于 word2vec 的用戶名嵌入基準匹配方法做對比實驗,得圖3中的實驗結果,橫軸表示預測結果的評價指標,縱軸表示三種預測指標值的大小,不同的顏色分別代表了不同的用戶名嵌入匹配方法。
對比不同方法的實驗結果發(fā)現,基于卷積神經網絡字符級用戶名嵌入模型當采用 96 個字符作為字母表時,其 Precision,Recall 和 F1 值分別提升了 2.2%,3.09%,2.62%。因此實驗結果表明在用戶名嵌入研究問題下,由于用戶名字符組成結構的特異性,大寫字母對于字符組合語義特征的表達具有積極作用。除此以外,經典的 Word2Vec 文本嵌入方法無法在基于用戶名嵌入的身份匹配這一問題上獲得比較好的結果。實驗證明了本文提出的基于卷積神經網絡的字符級用戶名嵌入匹配算法的有效性。
4總結
現有基于用戶名的身份匹配算法從用戶名字符串中提取各類字符統(tǒng)計特征以捕獲用戶名選取背后的行為模式,但設計特征提取過程復雜,不同數據集間特征設計規(guī)則差異較大,缺乏通用性。本文針對用戶名數據,提出了基于卷積神經網絡的字符級用戶名嵌入匹配算法,這是一個端到端的深度模型框架,可以自動學習獲得用戶名字符組合模式的隱含特征。該模型避免了復雜的特征提取過程,同時較易對模型進行擴展,提高了模型對不同語言的泛化能力以及通用性。
參考文獻:
[1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.
[2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.
[3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.
[4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.
[5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.
【通聯編輯:光文玲】