亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模態(tài)特征融合的社交媒體賬號分類方法

        2023-11-16 10:49:30湯智偉費(fèi)高雷翟學(xué)萌胡光岷
        關(guān)鍵詞:模態(tài)分類特征

        湯智偉,明 楊,費(fèi)高雷,翟學(xué)萌,胡光岷

        (電子科技大學(xué) 信息與通信工程學(xué)院,四川 成都 611731)

        0 引言

        隨著社交媒體的興起,用戶賬號的分類成為了研究者關(guān)注的問題。這涉及檢測異常賬號和識別相關(guān)主題賬號。傳統(tǒng)方法主要從賬號文本信息或社交關(guān)系中提取特征,但存在特征單一和缺乏融合的問題[1]。

        為了更充分挖掘數(shù)據(jù)信息[2],多模態(tài)學(xué)習(xí)嶄露頭角。多模態(tài)學(xué)習(xí)充分利用不同信息類型之間的相關(guān)性與互補(bǔ)性,提供更全面的特征表示[3]。多模態(tài)融合有兩大優(yōu)點:模態(tài)之間互補(bǔ)相關(guān)[4],且系統(tǒng)具備強(qiáng)容錯性。然而,在社交媒體賬號分類領(lǐng)域,多模態(tài)研究相對較少。

        本文提出了一種多模態(tài)特征融合的社交媒體賬號分類方法。在特征提取階段,綜合考慮了賬號屬性、文本和社交關(guān)系等多模態(tài)信息。在融合過程中,采用張量方法將這些多模態(tài)特征整合,以張量分解降低數(shù)據(jù)復(fù)雜性。多模態(tài)特征融合有助于捕捉各模態(tài)之間的聯(lián)系,提高賬號分類準(zhǔn)確性和模型泛化性。

        1 相關(guān)工作

        社交媒體用戶賬號分類的關(guān)鍵在于賬號特征表示和分類方法。特征表示涉及從原始信息中選取代表性特征,通常分為基于賬號信息和基于社交關(guān)系兩種方式。

        基于賬號信息的表示可分為兩類:自身屬性和文本信息提取。對于垃圾賬號,Krishnamurthy等[5]使用關(guān)注與被關(guān)注比例分類賬號;Wang等[6]提取好友數(shù)、粉絲數(shù)特征并使用貝葉斯分類器;Mccord等[7]提取文本長度、關(guān)鍵詞、活躍時間分布比例進(jìn)行分類。對于主題賬號,Rao等[8]使用習(xí)慣用詞、標(biāo)點符號、表情符號等特征,結(jié)合n-gram模型和支持向量機(jī)分類;Vicente等[9]通過分析Twitter賬號昵稱提取特征,準(zhǔn)確預(yù)測性別。

        基于社交關(guān)系的表示將賬號看作節(jié)點,交互關(guān)系作為邊,構(gòu)建社交網(wǎng)絡(luò)圖。Pennacchiotti等[10]提取屬性、行為、文本和社交網(wǎng)絡(luò)特征分類政治傾向、種族和企業(yè)粉絲。Campbell等[11]則構(gòu)建帶權(quán)混合圖分類普通和名人賬號,使用PageRank算法提取特征。

        分類方法主要基于機(jī)器學(xué)習(xí),包括傳統(tǒng)方法如樸素貝葉斯、邏輯回歸、支持向量機(jī),以及深度學(xué)習(xí)方法。深度學(xué)習(xí)通過自動學(xué)習(xí)特征表示提高分類性能。Liu等[12]使用深度學(xué)習(xí)分類賬號地理位置。Kipf等[13]提出圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)處理社交網(wǎng)絡(luò)數(shù)據(jù)。Zhang等[14]融合文本特征使用集成的長短期記憶網(wǎng)絡(luò)進(jìn)行社交媒體賬號分類。Rahimi等[15]基于GCN提出半監(jiān)督地理定位方法。

        考慮數(shù)據(jù)復(fù)雜性,本文建議結(jié)合賬號信息、交互關(guān)系信息和文本信息構(gòu)建異質(zhì)網(wǎng)絡(luò),提高分類準(zhǔn)確性。

        2 賬號分類模型

        在基于多模態(tài)特征融合的賬號分類方法的具體實現(xiàn)中,整體流程主要分為文本預(yù)處理、特征表示、張量融合、張量分解、分類五步。其中,文本預(yù)處理和特征表示兩個模塊構(gòu)成了多模態(tài)特征提取部分;張量融合和張量分解兩個模塊構(gòu)成了多模態(tài)特征融合部分。圖1是基于多模態(tài)特征融合的賬號分類模型框架圖。

        文本預(yù)處理是對文本信息進(jìn)行分詞、正則匹配、詞性標(biāo)注和命名實體識別的預(yù)處理流程。通過預(yù)處理操作可以得到本文需要的實體信息。特征表示是從賬號社交模態(tài)、屬性模態(tài)和文本模態(tài)三方面進(jìn)行賬號的特征表示。其中,社交模態(tài)是基于賬號關(guān)注與被關(guān)注的交互信息,屬性模態(tài)是基于賬號填寫的個人信息,文本模態(tài)是基于賬號發(fā)布的文本。張量融合模塊是將提取到的三個模態(tài)特征進(jìn)行融合,構(gòu)建出每個賬號的特征張量。由于原始特征張量維度過大,存在著計算復(fù)雜、存儲量大等問題,因此使用張量分解的方法對原始特征張量進(jìn)行分解降維。最后,將分解得到的特征張量按照張量的三個模式展開,得到三個不同的特征向量,并分別輸入分類器中,采用投票法得到最終的分類結(jié)果。

        3 賬號分類方法

        3.1 多模態(tài)特征提取

        多模態(tài)特征提取主要是從賬號和賬號的文本內(nèi)容中提取能夠描述賬號類別的信息,例如:賬號自身屬性、文本以及賬號社交關(guān)系等。社交媒體平臺由于字?jǐn)?shù)限制,發(fā)布的文本中通常含有大量的縮寫詞、URL鏈接、表情符號等,因此在提取特征前,需要對這些文本進(jìn)行預(yù)處理。

        3.1.1 文本預(yù)處理

        文本預(yù)處理是指使用自然語言處理的方法對社交媒體數(shù)據(jù)中的文本數(shù)據(jù)進(jìn)行分詞、去噪、詞性標(biāo)注和命名實體識別。由于文本中既有很多有用的信息,比如實體信息,又存在著許多表達(dá)不規(guī)范的地方,因此需要對文本進(jìn)行預(yù)處理操作。

        3.1.2 特征表示

        本文主要從Hashtag(賬號文本模態(tài))、命名實體NER(賬號屬性模態(tài))以及賬號(賬號社交模態(tài))三個模態(tài)進(jìn)行特征的表示。

        Hashtag和NER用于反映賬號的主題性和內(nèi)容描述。但要確定賬號是否屬于相同類別,需要考慮社交行為。通過觀察賬號的社交關(guān)系,可以補(bǔ)充文本和屬性信息的特征表示。

        對于賬號特征,本文基于社交關(guān)系,使用關(guān)注列表和被關(guān)注列表來表示。每個賬號作為社交圖中的節(jié)點,查看其關(guān)注和被關(guān)注列表?;ハ嚓P(guān)注是指存在于兩個賬號的關(guān)注和被關(guān)注列表中,將這類賬號放入互相關(guān)注列表。最終,通過互相關(guān)注列表建立賬號之間的社交關(guān)系圖。通過這種方式,可以更全面地了解賬號之間的相似性和社交互動,從而更準(zhǔn)確地進(jìn)行賬號分類。

        通過賬號的社交關(guān)系圖,使用node2vec方法獲取賬號節(jié)點的特征向量。node2vec方法結(jié)合了廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)的采樣策略,通過隨機(jī)游走來生成節(jié)點序列,然后利用處理詞向量的技巧對這些序列進(jìn)行建模,從而獲得賬號節(jié)點的特征向量。通過node2vec算法可以得到賬號節(jié)點之間潛在的信息,最終得到賬號的特征向量U=(k1,k2,…,km),其中m表示向量的維度。

        對于Hashtag和命名實體NER而言,本文基于賬號的文本信息進(jìn)行關(guān)鍵詞的特征表示。對于Hashtag節(jié)點,本文遍歷所有標(biāo)記的訓(xùn)練集賬號發(fā)布的文本,將Hashtag在文本中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計。

        由于Hashtag數(shù)量極多,為了防止維度災(zāi)難,本文分別根據(jù)數(shù)據(jù)庫中字段count1、count0進(jìn)行從大到小的排序,選出數(shù)量最多且比另一個類別數(shù)量多的前50個Hashtag來構(gòu)成字典。例如,按照count1進(jìn)行排序時,需要滿足count1>count0的條件。之所以要將另一個類別的數(shù)量也考慮進(jìn)來對比,是因為文本中會出現(xiàn)一些中性的Hashtag。該類Hashtag由于在每一種類別中都會出現(xiàn),且在每種類別中出現(xiàn)的總次數(shù)差不多,因此,該類Hashtag不能對賬號的分類提供幫助,反而可能增加噪聲信息。因此,只有在某一類別中占比較多,且其余類別中占比較少的Hashtag才能體現(xiàn)出在某一類別中的關(guān)鍵性。

        對于命名實體NER,本文也采取同樣的操作方式進(jìn)行特征表示。與Hashtag不同,命名實體NER是從賬號的屬性信息中的自我描述字段(description)進(jìn)行提取。自我描述模塊是賬號對自己進(jìn)行描述定義最為直接的一個板塊,有的賬號會在自我描述中直接寫出自己的興趣愛好,例如運(yùn)動、寵物等。

        Hashtag和NER經(jīng)過關(guān)鍵詞提取后分別將count1排名前50的詞和count0排名前50的詞以{詞語:序號}的形式保存為一個100維的字典dict,其中,count1中的詞語序號為0~49,count0中的詞語序號為50~100。接著根據(jù)每個賬號的Hashtag和NER進(jìn)行特征表示,將Hashtag特征向量表示為H=(i1,i2,…,il),NER特征向量表示為N=(j1,j2,…,jl),其中l(wèi)表示向量的維度。

        3.2 多模態(tài)特征融合

        模態(tài)通常用來泛指某種類型的信息或者存儲信息的一種表示形式,多模態(tài)是指兩種或兩種以上的模態(tài)的各種形式組合。之所以需要對模態(tài)進(jìn)行融合,是因為不同模態(tài)的側(cè)重點不一樣,因此不同模態(tài)之間會存在一些交叉情況,這種交叉情況中既有信息冗余,也有信息互補(bǔ),如果能合理地處理并利用好多模態(tài)信息,就能得到豐富的特征信息。

        由于本文有賬號文本模態(tài)、賬號屬性模態(tài)以及賬號社交模態(tài)三個模態(tài)的特征,普通的一維向量不能很好地將三個維度的模態(tài)信息表示完整,因此,本文使用張量來表示模態(tài)特征。

        由3.1節(jié)的特征提取,得到了每個賬號的三種模態(tài)特征,分別是基于社交關(guān)系的賬號模態(tài)U=(k1,k2,…,km),其中m表示向量的維度;基于賬號文本和賬號屬性的Hashtag模態(tài)H=(i1,i2,…,il)和NER模態(tài)N=(j1,j2,…,jl),其中l(wèi)表示向量的維度。每一種模態(tài)代表張量的一個維度,通過張量的Kronecker積相乘,構(gòu)建出新的三階張量:

        X=U?H?N

        (1)

        Kronecker積也稱為直積或張量積,是一種用于組合兩個矩陣的數(shù)學(xué)運(yùn)算,給定一個大小為m1×m2的矩陣A,和一個大小為n1×n2的矩陣B,則矩陣A和矩陣B的Kronecker積如式(2)所示:

        (2)

        使用Kronecker積相乘構(gòu)建的三階張量X,不可避免地存在著數(shù)據(jù)量大、計算復(fù)雜等特點,為了解決該問題,本文采用張量分解的方式對原始張量進(jìn)行降維。張量分解是矩陣分解的高階泛化,矩陣分解是將矩陣拆解為多個矩陣的乘積,例如主成分分析(Principal Component Analysis,PCA)、奇異值分解(Singular Value Decomposition,SVD)等。在實際應(yīng)用中,可以通過矩陣分解達(dá)到降維處理、缺失值填充和隱性關(guān)系挖掘的目的。但由于現(xiàn)實問題的復(fù)雜性和多樣性,很多問題不能簡單地只靠矩陣建模解決,因此科研工作者對張量進(jìn)行研究,在矩陣分解的理論基礎(chǔ)上又推廣出了多種張量分解的模型。本文使用Tucker分解來對張量進(jìn)行分解。

        Tucker分解是把一個張量分解為一個核心張量(core tensor)和幾個因子矩陣。對于一個三階張量X∈Rl×m×n,Tucker分解的計算見式(3):

        (3)

        其中符號“°”表示的是矩陣的外積;“×k”則表示模式積,為高階張量與矩陣的乘積,計算公式如式(4)所示:

        (4)

        本文為了提高算法的泛化能力,不考慮特殊情況,因此采用Tucker分解的方式對賬號的特征張量進(jìn)行分解。Tucker分解的目的是對特征張量進(jìn)行降維,由式(3)可知,Tucker分解將原始三階張量轉(zhuǎn)變?yōu)橐粋€核心張量和三個因子矩陣的形式,降低了數(shù)據(jù)的存儲量。核心張量其實就是原始張量在保持自身結(jié)構(gòu)信息和屬性信息不變后降維得到的張量,即其低階近似表達(dá)。由式(3)可以得到核心張量的計算公式:

        (5)

        其中A、B、C分別是通過X對應(yīng)模式的奇異值分解得到的,奇異值分解的表達(dá)式如式(6)所示:

        (6)

        其中,Σk表示對角矩陣,奇異值(singular value)按照從大到小的順序依次存儲在對角矩陣中。奇異值類似于矩陣分解中的特征值,與奇異值對應(yīng)的是奇異向量。Uk和Vk分別代表X(k)的左奇異向量(left singular vector)和右奇異向量(right singular vector)。因子矩陣中的A、B、C對應(yīng)的就是左奇異向量,即A=U1,B=U2,C=U3。根據(jù)文獻(xiàn)[17]可知,在大部分情況下,前10%甚至1%的奇異值數(shù)據(jù)和幾乎等于所有的奇異值之和,因此通過使用最大的前r個奇異值和對應(yīng)的r個左奇異向量和右奇異向量相乘來達(dá)到對原始矩陣的降維。這樣的降維方式可以保留原始矩陣的信息,具體如式(7)所示:

        (7)

        其中,r要遠(yuǎn)遠(yuǎn)小于m或者n,稱為截斷的奇異值分解(truncated SVD)。

        由于高階奇異值分解算法并不能保證得到一個較好的近似張量,但可以作為迭代交替最小二乘法的迭代起點,因此本文先使用高階奇異值分解算法對賬號特征融合后的張量特征進(jìn)行一次張量分解運(yùn)算,再將分解后得到的結(jié)果作為迭代交替最小二乘法的輸入,并使用迭代交替最小二乘法來完成后續(xù)的Tucker分解過程。算法流程如圖2所示。

        4 實驗與分析

        4.1 數(shù)據(jù)來源

        本文使用Twitter數(shù)據(jù)作為數(shù)據(jù)源。將Twitter賬號所發(fā)的文本稱為推文。賬號數(shù)據(jù)和推文數(shù)據(jù)都是通過Twitter官方提供的API接口采集得到的。通過一些主題關(guān)鍵詞從社交媒體中采集了56 283個賬號,并隨機(jī)標(biāo)注2 000個賬號,用于實現(xiàn)新疆賬號和非新疆賬號的二分類任務(wù)。其中,標(biāo)記的賬號中1 000個是新疆賬號,另外1 000個是非新疆賬號。在這2 000個賬號中,訓(xùn)練集和測試集按照1∶1的比例進(jìn)行分配。

        本文采用準(zhǔn)確率和F1值兩個指標(biāo)來對算法的性能進(jìn)行評估。準(zhǔn)確率是指分類正確的樣例在所有樣本中所占的比例。F1值是為了平衡精確率和召回率的影響,能更直觀全面地看出一個算法的性能好壞。

        4.2 實驗結(jié)果與分析

        4.2.1 核心張量尺寸

        當(dāng)使用截斷的Tucker分解方法時,需要預(yù)先設(shè)定好核心張量的尺寸。由于在現(xiàn)有方法中沒有確定核心張量的尺寸的標(biāo)準(zhǔn)方法,因此,本文決定使用張量的F-范數(shù)來作為衡量張量分解的性能評估指標(biāo)。F-范數(shù)是指所有元素絕對值的平方和,以三階張量為例,給定張量X∈Rl×m×n,則該張量的F-范數(shù)表達(dá)式如式(8):

        (8)

        本文的樣本集F-范數(shù)差S計算公式如式(9)所示:

        (9)

        其中,Xi表示第i個賬號的特征張量,X′i表示第i個賬號的特征張量經(jīng)張量分解后又還原得到的張量,N表示樣本數(shù)。

        本文選取了不同大小的幾組核心張量尺寸,結(jié)果如表1所示。

        表1 張量核心尺寸

        表1數(shù)據(jù)可以表明,本文的分解方法確實有效,通過取前幾個最大的奇異值向量,可以很好地還原原始張量。同時,從表中還可以看出,隨著核心張量的尺寸越接近原始張量,則對應(yīng)的F-范數(shù)差值也越小。為了避免過多的數(shù)據(jù)丟失,同時也為了減少數(shù)據(jù)的存儲、降低后續(xù)計算的復(fù)雜度,本文選擇的核心張量的尺寸為5×10×50。

        4.2.2 多模態(tài)特征融合方法的有效性

        為了證明本文提出的多模態(tài)特征融合方法的有效性,本文分別測試了單模態(tài)、雙模態(tài)以及三模態(tài)方法的分類效果。結(jié)果如圖3所示。

        圖3 多模態(tài)分類性能對比圖

        其中,NER表示只考慮NER特征作為賬號的特征向量,UU表示只考慮賬號的好友關(guān)系作為用戶的特征向量,Hashtag表示只考慮Hashtag特征作為賬號特征的單模態(tài)特征向量。NER-Hashtag表示只融合Hashtag和NER兩個模態(tài)信息的雙模態(tài)特征,Hashtag-UU和UU-NER也是同理。tensor fusion表示將這三種特征向量使用本文的方式進(jìn)行特征融合得到賬號的三模態(tài)特征向量。

        從圖3中可以發(fā)現(xiàn),三模態(tài)的分類性能最好,其次是雙模態(tài)的分類性能,最差的是單模態(tài)的分類性能。這個結(jié)果是合理的,這是由于社交媒體數(shù)據(jù)含有多種信息,但社交媒體又不像傳統(tǒng)媒體那么嚴(yán)謹(jǐn),它的信息種類雖然多,但每種信息都具有不完整、模糊等特性,因此,單模態(tài)的分類性能較差。通過使用多模態(tài)特征融合的方式,可以更好地利用模態(tài)之間的相關(guān)性與互補(bǔ)性,達(dá)到異質(zhì)互補(bǔ)的效果。因此,融合后的雙模態(tài)分類性能要高于單模態(tài)的分類性能。隨著融合的模態(tài)數(shù)量增多,接收到的信息也越來越完整,因此,融合后的三模態(tài)分類性能要高于雙模態(tài)的分類性能,提高了賬號分類的準(zhǔn)確性。這也證明了本文提出的多模態(tài)特征融合方法的有效性。

        4.2.3 張量融合方法的有效性

        為了證明張量融合方法的有效性,本文分別測試了單獨模態(tài)、基于拼接融合和基于張量融合方法的分類效果。結(jié)果如圖4所示。

        圖4 融合分類性能對比圖

        其中,UU、NER、Hashtag與4.2.2節(jié)表示含義相同;fusion表示將Hashtag、NER、UU三種特征向量橫向拼接成一個大的長向量然后輸入分類器進(jìn)行分類;tensor fusion表示將這三種特征向量通過張量的方式進(jìn)行融合得到賬號的特征向量。由圖4可見,融合多信息的分類方法優(yōu)于單模態(tài)。在單模態(tài)特征中,基于賬號社交關(guān)系的UU特征最好,其次是基于賬號文本信息的Hashtag特征。UU特征表示賬號之間的共同話題,而Hashtag特征則基于賬號發(fā)布的文本內(nèi)容,可能包含多個主題,有時可能過于頻繁,影響分類效果。NER特征在單獨特征中表現(xiàn)最差,因為有未填寫屬性的賬號。此外,基于張量融合的多模態(tài)融合方式優(yōu)于直接拼接特征。這是由于不同特征的維度不同,直接拼接可能導(dǎo)致某些特征主導(dǎo),忽略其他特征。張量融合充分利用每種信息。為了確保核心張量結(jié)構(gòu),對核心張量進(jìn)行不同模式的展開,然后使用投票法提高分類性能,證明了方法的有效性。

        5 結(jié)論

        本文提出了一種基于多模態(tài)特征融合的賬號分類算法并給出了模型框架。在多模態(tài)特征提取階段,首先對文本進(jìn)行預(yù)處理,然后提取賬號屬性模態(tài)、賬號文本模態(tài)、賬號社交模態(tài)三種模態(tài)的特征向量。在多模態(tài)特征融合階段,對本文提取的三個模態(tài)特征進(jìn)行基于張量分解的多模態(tài)特征融合。接著本文使用機(jī)器學(xué)習(xí)的算法對賬號進(jìn)行分類,最后通過將本文的方法與傳統(tǒng)方法進(jìn)行對比,證明了本文方法的有效性。

        猜你喜歡
        模態(tài)分類特征
        分類算一算
        如何表達(dá)“特征”
        不忠誠的四個特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        計算物理(2014年2期)2014-03-11 17:01:39
        久久综合九色综合网站| 综合亚洲二区三区四区在线| 国产精品一区二区久久国产| 欧美成人片在线观看| 色吧综合网| 中文字幕亚洲精品码专区| 亚洲乱码中文字幕一线区| 成人做爰69片免费看网站野花| 欧美 日韩 国产 成人 在线观看| 国产69口爆吞精在线视频喝尿| 免费黄网站一区二区三区| 日韩精品 在线 国产 丝袜| 国产综合无码一区二区色蜜蜜| 久久精品伊人无码二区| 亚洲中文字幕乱码在线视频| 国产精品女老熟女一区二区久久夜 | 国产黄色一级到三级视频| 久久综合久久美利坚合众国| 亚洲一区二区三区日韩在线观看| 人人鲁人人莫人人爱精品| 一本一本久久a久久精品综合麻豆| 中文字幕无码高清一区二区三区 | 宅男噜噜噜| 日韩久久久黄色一级av| 亚洲一区二区日韩精品| 狼人狠狠干首页综合网| 人妻中文字幕在线中文字幕| 国产莉萝无码av在线播放| 国产亚洲欧美在线观看的| 亚洲av精品一区二区| 免费a级毛片又大又粗又黑| 中国丰满熟妇xxxx| 国产91在线|亚洲| 午夜免费观看国产视频| 亚洲国产成人久久综合| 9999精品视频| 国产大片在线观看91| 欧美黑人又粗又大xxxx| 日本一区午夜艳熟免费| 国内精品九九久久精品小草| 国产亚洲精品av一区|