亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合文本和表情符號特征的社交網(wǎng)絡用戶性別識別

        2023-01-11 00:44:14許小可
        復雜系統(tǒng)與復雜性科學 2022年4期
        關鍵詞:表情符號準確率社交

        王 浩,許小可

        (大連民族大學信息與通信工程學院,遼寧 大連 116600)

        0 引言

        近幾年來,隨著社交網(wǎng)絡的迅猛發(fā)展,越來越多的用戶通過微博、微信等社交軟件進行信息交流。社交網(wǎng)絡涵蓋以用戶社交為核心的所有網(wǎng)絡服務形式,互聯(lián)網(wǎng)是一個能夠讓用戶相互交流、相互參與的互動平臺[1]。截止到2020年,全球社交網(wǎng)絡用戶規(guī)模達到32.3億人,在互聯(lián)網(wǎng)用戶的比例達到80.7%,用戶平均每天在社交網(wǎng)絡和即時通訊應用上花費2小時24分鐘。因此,社交網(wǎng)絡數(shù)據(jù)引起了大量研究者的研究興趣[2]。

        在社交網(wǎng)絡的數(shù)據(jù)挖掘中,用戶性別識別是受到關注的研究方向之一。研究用戶屬性,準確進行用戶性別識別可以更好地進行智能營銷、個性化預測及虛假信息識別等研究[3-4]。用戶性別信息在個性化服務,定向廣告,推薦系統(tǒng)等方面具有巨大的價值。但是,用戶性別是一種個人隱私信息,部分用戶不愿意公開自己的真實性別,在注冊性別信息時故意使用假信息或者不填寫。在無法通過直接手段獲得用戶真實性別的情況下,通過特征工程結合機器學習方法對用戶的性別進行識別就很有必要。性別識別的主流方法是分析用戶文本中體現(xiàn)出的語言特征,如習慣使用的詞語類別,使用詞語的頻次統(tǒng)計以及文本中隱含的情感特征等[5-8]。目前,宋巍等[1]根據(jù)用戶興趣偏好和文本詞特征對微博用戶性別識別準確率為84%,劉寶芹等[9]利用微博情感特征和文本詞特征對用戶性別進行識別的準確率為82.8%,用戶性別識別準確率還有待提升。

        主流的性別識別方法主要是基于單個用戶的文本內容,忽略了用戶使用的表情符號以及多用戶之間的交互信息。目前表情符號已經(jīng)成為各種社交媒體中必不可少的元素,與傳統(tǒng)的文字相比,表情符號更加生動形象,可以更加直觀地表現(xiàn)出高興、悲傷、憤怒等情感[10-12]。研究表明,男性用戶和女性用戶在社交媒體中使用表情符號的喜好上存在差異,且不同性別用戶往往使用不同情感種類的表情符號[13]。此外,社交網(wǎng)絡最大的特點是多用戶之間可以進行交互,多用戶之間的交互信息可以用來識別用戶性別。例如,某條微博的評論中使用了“美女”,“漂亮”等詞語,可以判斷出發(fā)布微博的用戶為女性用戶。因此,基于用戶文本特征,融合表情符號和交互特征能否提升用戶性別識別準確性是有價值的研究問題。

        目前,關于社交網(wǎng)絡用戶的性別識別工作主要是在臉書、推特、博客等平臺上進行研究。大多數(shù)性別識別研究工作是借助用戶信息以及用戶發(fā)表的博客文本。例如,Mukherjee等[14]根據(jù)不同性別用戶的博客文本在寫作風格上的差異,對用戶的性別進行識別;Mcgee等[15]從用戶發(fā)表的博客文本中,挖掘出用戶的情感信息,利用情感特征對用戶進行性別識別。其他的研究者通過用戶的用戶名等個人信息識別用戶的性別。例如,Burger等[16]利用Twitter的用戶賬戶名、用戶全名以及用戶個人描述三項資料來識別用戶的性別。由于微博等社交網(wǎng)絡媒體的迅速發(fā)展,國內研究者開始將目光轉向中文微博用戶的性別識別。宋巍等[1]根據(jù)用戶興趣偏好對微博用戶性別進行識別。劉寶芹等[9]針對兩性用戶中文微博文本情緒上的差異,提取情緒詞特征和情緒相關的語言風格特征識別用戶性別。王晶晶等[17]分別利用用戶名特征和文本特征對用戶性別進行識別,然后將用戶名和文本特征進行融合識別用戶的性別。

        表情符號的研究大多是關于表情符號在用戶交流中的作用以及表情符號的情感傾向性分析,Mcshane等[18]研究表情符號對用戶的影響力,發(fā)現(xiàn)表情符號的出現(xiàn)會增加用戶對話題的參與度;Kelly等[19]研究表情符號如何影響朋友之間的人際關系。此外,Butterworth等[13]關注不同性別的用戶在表情符號使用習慣上的不同;Prada[20]也通過實驗證明,女性使用表情符號的頻率更高,對表情符號的使用態(tài)度也更積極。

        本文的創(chuàng)新和主要貢獻包括兩個方面: 1)提出了利用表情符號特征識別用戶性別的新思路,并融合文本和表情符號特征對用戶性別進行識別。實驗表明利用表情符號特征進行用戶性別識別是一種有效的方法,且融合表情符號特征后用戶性別識別的性能得到提升。2)提取交互信息中的文本和表情符號作為交互特征識別用戶性別,并在單個用戶特征基礎上融合交互特征識別用戶性別。實驗結果表明融合交互特征提高了用戶性別識別的精度。

        1 數(shù)據(jù)描述

        本實驗使用新浪微博微熱點大數(shù)據(jù)研究院提供的單個用戶微博數(shù)據(jù)集和用戶交互數(shù)據(jù)集。單個用戶微博數(shù)據(jù)集的用戶多為明星用戶以及粉絲量多的大V用戶,如黃渤、何炅等,微博內容大多是對生活的分享,用戶交互數(shù)據(jù)集中的用戶基本是粉絲較少的普通用戶,且微博內容多是某些話題的討論。單個用戶微博數(shù)據(jù)集共有226.3萬條微博數(shù)據(jù)。為了保證實驗的準確性,去除原始數(shù)據(jù)中的重復微博內容以及使用表情數(shù)量較少的用戶,最終選取男性用戶和女性用戶各550個,每個用戶的微博數(shù)量為1 000條,單個用戶數(shù)據(jù)中包含用戶姓名、認證類型、用戶性別、微博內容等屬性。用戶交互數(shù)據(jù)集共有174.7萬條數(shù)據(jù),過濾后選取19 000個男性用戶和19 000個女性用戶,用戶交互數(shù)據(jù)包括原創(chuàng)微博用戶名、用戶認證類型、原創(chuàng)微博用戶性別、微博轉發(fā)評論內容以及評論用戶的性別等。新浪微博將用戶分為“普通用戶”、“橙V用戶”、“藍V用戶”、“達人用戶”和“金V用戶”,“普通用戶”是指沒有經(jīng)過認證的個人用戶和企業(yè)用戶。為保證實驗結果的可靠性,本實驗數(shù)據(jù)中使用的所有微博用戶數(shù)據(jù)都是經(jīng)過新浪微博官方認證的個人用戶數(shù)據(jù)。

        2 用戶性別識別

        2.1 單個用戶文本和表情符號特征的性別識別

        2.1.1 基于文本特征的用戶性別識別

        目前通過文本識別用戶性別的主流方法有兩種,一種是通過文本中詞語的使用頻率來識別用戶性別,另一種挖掘文本中的情感信息進行用戶性別識別,本文通過文本識別用戶性別也使用了這兩種常用方法。

        分析用戶的微博文本,發(fā)現(xiàn)文本中有高性別區(qū)分性的詞語可以用來識別用戶性別,例如“兄弟”、“女朋友”、“足球”等詞語往往來自于男性用戶,“丈夫”、“姐妹”、“高跟鞋”等詞語更可能被女性用戶使用。因此,本文計算微博文本中每個詞的使用頻次作為特征識別用戶性別。

        不同性別用戶在微博中表達的情感存在著差異,女性用戶使用情緒詞的數(shù)量以及表達正向情緒的頻率都高于男性用戶,且女性比男性表達某種情感更加強烈[14]。因此,本文使用大連理工大學的情感詞匯本體庫和情感詞典統(tǒng)計用戶微博文本中使用的情感詞種類個數(shù)以及樂、好、哀、怒、懼、惡、驚七類情感每類情感詞的個數(shù)作為特征,并把七類情感詞分為積極情感和負面情感兩大類,按照文獻[15]提到的公式計算微博文本的情感詞多樣性。

        TTR=V/N

        (1)

        (2)

        (3)

        其中,V和N分別代表一個用戶微博文本中出現(xiàn)的情緒詞種類個數(shù)和情緒詞總個數(shù),x.Aggvalue表示某類情感詞相對頻率,xWords表示文本中某類情感詞的個數(shù),aWords表示微博文本單詞總長度,PosToAllRatio代表文本中積極情緒與所有情緒的比率,pos.Aggvalue和neg.Aggvalue由公式(2)給出。

        本文采用的單個用戶的性別識別文本特征如表1所示。其中,文本詞特征指的是利用信息增益的特征選擇方法計算文本中每個一元詞的IG值,IG值反映了一個特征對整個分類的重要程度,詞特征IG值越大表示這個詞特征越重要[21],本文選取IG值最高的前1 000個一元詞作為文本詞特征。

        表1 單個用戶文本特征Tab 1 Single user text features

        2.1.2 基于表情符號特征的用戶性別識別

        與文本相同,本文通過表情符號識別用戶使用了兩種方法,一種是微博中表情符號的使用頻率來識別用戶性別,另一種是利用表情符號的情感特征識別用戶性別。

        表2 使用頻率前十的表情符號Tab.2 The top 10 most frequently used emojis

        計算數(shù)據(jù)中不同性別用戶中使用頻率前十的表情符號,如表2所示,可以發(fā)現(xiàn)女性用戶和男性用戶在使用表情符號的喜好上有所不同,男性用戶更喜歡使用和等表情符號,女性用戶喜歡在微博中使用和等表情符號。因此,通過不同性別用戶使用表情符號的差異可以識別用戶性別,本文計算每個表情符號的使用頻率作為特征識別用戶性別。

        從用戶微博所表達的情感方面考慮,表情符號能生動形象地表達用戶的情緒,用戶在表達自己積極的情緒時,往往使用和等表示積極意義的表情符號。目前學界普遍將表情符號情緒劃分為正面(高興、喜愛、驚訝)、負面(悲傷、憤怒、恐懼、厭惡)、中性和其他情緒,如表3所示。本文統(tǒng)計了單個用戶數(shù)據(jù)中不同性別用戶每類情感的表情符號使用數(shù)量,如表4所示,可以看出女性用戶比男性用戶使用積極表情符號數(shù)量多,男性用戶使用消極、中性和其他三類表情符號的數(shù)量比女性用戶多。圖1表明男性用戶使用的表情符號中積極表情占58.5%,消極表情、中性表情和其他表情分別占了26.2%,8.6%和6.7%,而女性用戶使用積極表情占比達到81.1%,遠遠超過其他三類表情的使用率。因此,本文計算每個用戶微博中使用的表情符號種類個數(shù)以及積極、消極、中性、其他四類表情每類表情符號的個數(shù)作為特征。根據(jù)文本情感詞豐富性的計算公式,計算TTR.Emoji,x.EmojiAggvalue來表示表情符號情感豐富性,計算公式如式(4),(5)所示。

        (4)

        (5)

        其中,VEmoji和NEmoji分別代表一個用戶微博中出現(xiàn)的表情符號種類個數(shù)和表情符號總個數(shù),xEmojis表示微博中某類表情符號的個數(shù),aWEMojis表示微博中使用的表情符號總個數(shù),x.EmojiAggvalue表示某類表情符號的相對頻率。

        表3 表情分類[22]Tab.3 Emoji classification[22]

        表4 不同性別用戶表情符號使用情況Tab.4 Emoji usage among users of different genders

        圖1 不同性別用戶表情使用數(shù)量比例Fig.1 The proportion of emojis used by different genders

        本文采用的單個用戶的表情符號特征如表5所示。其中,表情詞特征指的是利用信息增益的特征選擇方法計算微博中每個表情符號的IG值,選取IG值最高的前100個表情符號作為表情詞特征。

        表5 單個用戶表情符號特征Tab.5 Single user emoji features

        2.2 多用戶交互特征的性別識別

        由于用戶在社交網(wǎng)絡中不是單個存在的,交互是社交最本質的核心。因此,微博提供了轉發(fā)、評論和@等機制讓用戶之間進行交流溝通。多個用戶在交互時會產(chǎn)生交互文本,這些交互文本會提供一些重要信息來識別用戶的性別。例如,一名女性用戶說:“周末快樂,準備出去看電影了”,一名男性用戶評論:“一起去呀,美女”。僅通過單個用戶微博并不容易判斷發(fā)博用戶的性別,而通過評論中的“美女”則可以判斷出發(fā)博用戶性別為女性。因此,本文將提取交互文本的詞特征對用戶性別進行識別。

        多用戶的交互文本形成了簡短的對話,F(xiàn)-measure特征已經(jīng)被證實可以應用于區(qū)分兩性在上下文表達中的差異[16]。因此,在交互中對男性用戶和女性用戶具有較好的區(qū)分度,本文將F-measure特征加入交互特征空間。該特征可以根據(jù)式(6)來獲得:

        F-measure=0.5*[(freq.noun+freq.adj+freq.prep+freq.art)-
        (fre.pron+fre.verb+freq.adv+freq.int)+100]

        (6)

        其中,freq.noun,freq.adj,freq.prep,freq.art,freq.pron,freq.verb,freq.adv,freq.int分別表示文本中名詞、形容詞、介詞、冠詞、代詞、動詞、副詞和感嘆詞的頻率。

        表情符號是用戶交互中常用的符號,對于人際交流有重要的作用。研究表明,用戶與不同性別的用戶交互中使用的表情符號存在差異[23]。例如,男性用戶在交互時經(jīng)常使用和等表情符號,而女性用戶在交互時更喜歡使用和等表情符號。此外,評論用戶的性別也是幫助我們識別用戶性別的重要信息,為了更好地挖掘不同性別用戶交互中表情符號使用的差異,提高用戶性別識別的性能,本文將提取用戶交互信息中的表情符號和評論用戶的性別進行組合作為特征來識別用戶性別。表6給出了提取表情符號和性別進行組合作為特征的例子。

        本文采用的多用戶之間的交互特征如表7所示。交互文本特征指的是利用信息增益的特征選擇方法計算交互文本中每個一元詞的IG值,選取IG值最高的前1 000個一元詞作為交互文本特征,表情符號+性別特征指的是利用信息增益的特征選擇方法計算每個表情符號與性別組合的IG值,選取IG值最高的前100個組合作為表情符號+性別特征。

        表6 表情符號和性別組合特征樣例Tab.6 Examples of emoticons and gender combination features

        表7 多用戶交互特征Tab.7 Multiple users interaction features

        3 實驗設置與結果分析

        3.1 實驗設置

        本實驗使用XGBoost算法對中文微博用戶進行性別識別,XGBoost在傳統(tǒng)的GBDT基礎上加以改進,具有可容錯、可移植、性能好等優(yōu)點。采用Jieba分詞工具對文本進行分詞處理,并根據(jù)停用詞典去除文本中的停用詞,使用正則表達式對微博中的表情符號進行提取。從篩選后的數(shù)據(jù)中,選取數(shù)據(jù)的80%為訓練數(shù)據(jù)集,20%為測試數(shù)據(jù)集,然后基于XGboost算法訓練模型,通過訓練的模型在測試集識別用戶性別。實驗結果的評測指標選用準確率、精準率、召回率、F-score。

        3.2 實驗結果與分析

        3.2.1 基于單個用戶文本和表情符號特征的性別識別結果分析

        表8中給出了使用文本特征和表情符號特征識別用戶性別的結果,可以看出文本詞特征的用戶性別識別準確率為81.0%,而文本情感特征的性別識別準確率為77.1%,比文本詞特征低了3.9個百分點,一方面因為情感特征的維數(shù)比較少,情感詞典無法包含所有的情感詞。另一方面中文有其自己的特殊性,不同情感詞在不同的中文語境里有不同的含義,進而影響了用戶性別識別的準確率。文本的情感特征+詞特征的準確率達到82.1%,比只使用文本詞特征提高了1.1個百分點。

        表情符號情感特征+詞特征的準確率達到了79.7%,僅比使用文本特征低了2.4個百分點,說明根據(jù)表情符號特征識別用戶性別是一種有效的方法。在融合表情符號特征后,用戶性別識別準確率達到了85.5%,比只使用文本特征提升了3.4個百分點,精確率上升了3個百分點,召回率和F-score分別上升了3.3和3.4個百分點,這說明表情符號特征對用戶性別識別性能是有較大幫助的。

        3.2.2 基于多用戶交互信息的性別識別結果分析

        表9中給出了通過交互特征識別用戶性別的結果,可以看出利用交互文本特征識別用戶性別的準確率為65.9%,交互表情符號特征的性別識別準確率為69.5%,交互文本特征+交互情感特征識別用戶性別的準確率為74.5%,用戶性別識別效果比單獨使用交互文本特征或者交互情感特征好,再次證明融合表情符號特征能提高用戶性別識別的準確性。在單個用戶特征的基礎上,融合交互特征后用戶性別識別的各項評價指標都有提高,準確率提高了4.2個百分點,說明融合多用戶的交互特征能有效提升用戶性別識別的準確性。

        表8 單個用戶數(shù)據(jù)融合文本和表情符號特征的用戶性別識別效果Tab.8 The gender recognition effect of combined with text and emoji features in single user data

        表9 交互數(shù)據(jù)融合交互特征的用戶性別識別效果Tab.9 The gender recognition effect of combined with interactive features in interactive data

        3.2.3 文本和表情符號特征分析

        為了進一步探究文本和表情符號特征在用戶性別識別中的具體作用,本文通過T-SNE特征降維方法將文本詞特征和表情詞特征分別降到3維,將文本情感特征和表情情感特征分別降到2維,然后對各類別特征進行特征相關性分析和特征重要性分析,結果如圖2所示。

        圖2a為各類別特征相關性分析結果,可以發(fā)現(xiàn)文本詞特征text_freq2和表情符號詞特征emoji_freq1之間具有一定的相關性,主要由于某些文本詞常和固定表情符號連用。表情符號詞特征emoji_freq2和表情符號情感特征emoji_emotion1之間也有一定的相關性,是因為用戶通常使用表情符號來表達自己的某種情感。總的來說,文本特征和表情符號特征之間相關性較小,說明這些特征之間幾乎是相互獨立的。

        圖2b為各類別特征的重要性分數(shù)排序結果,橫坐標為特征的重要性分數(shù),可以發(fā)現(xiàn)文本詞特征得分最多,對用戶性別識別影響力最大,主要是由于文本詞特征維度較大,對用戶性別識別的效果最好。表情符號詞特征和表情符號情感特征影響力相對較小,主要是由于表情符號個數(shù)較少,導致不同性別用戶使用某些表情符號的差異較小。此外,文本情感特征的影響力最小,主要是因為某些詞語在不同語境中表達不同的情感,導致與情感詞典中標注的情感不同,從而降低用戶性別識別的效果。

        圖2 特征相關性和重要性分析Fig.2 Feature correlation and importance analysis

        4 結論和展望

        本文針對提升社交網(wǎng)絡的用戶性別識別準確性進行研究。首先,提出利用表情符號識別用戶性別,并融合文本和表情符號特征對用戶性別進行識別。其次,提取交互信息中的文本和表情符號特征作為交互特征,在單個用戶特征基礎上融合交互特征識別用戶性別。實驗結果表明: 1)表情符號特征對用戶性別識別有比較好的效果,準確率達到79.7%;2)融合表情符號和交互特征能提高用戶性別識別性能,準確率提升了6.8%,性能優(yōu)于單獨使用文本特征,說明表情符號和交互特征對用戶性別識別是有效的。

        在社交網(wǎng)絡中還有其他信息對用戶性別識別有幫助,例如用戶名、用戶興趣標簽以及用戶關注網(wǎng)絡等。在下一步工作中,將考慮基于更多用戶信息進行社交網(wǎng)絡用戶性別識別,提高識別的準確性和魯棒性。

        猜你喜歡
        表情符號準確率社交
        社交之城
        英語世界(2023年6期)2023-06-30 06:28:28
        微信表情符號寫入判決:你發(fā)的每個表情都可能成為呈堂證供
        消費電子(2022年6期)2022-08-25 09:43:52
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預報參考產(chǎn)品質量檢驗分析
        社交距離
        你回避社交,真不是因為內向
        文苑(2018年17期)2018-11-09 01:29:28
        高速公路車牌識別標識站準確率驗證法
        這個表情符號,你用對了嗎
        大作文(2016年7期)2016-05-14 11:13:25
        亚洲乱码av乱码国产精品| 久久青青草原国产精品最新片| 台湾佬中文偷拍亚洲综合| 日本黄色影院一区二区免费看| 国产激情无码视频在线播放性色| 久久久久久久久久久国产| 亚洲一区二区欧美色妞影院| 白白色发布视频在线播放| 色欲av永久无码精品无码蜜桃| 国产涩涩视频在线观看| 无码不卡一区二区三区在线观看| 区二区三区亚洲精品无| 日韩无码专区| 色八a级在线观看| 欧洲一区在线观看| av一区二区三区观看| 暖暖 免费 高清 日本 在线| 精品熟女日韩中文十区| 亚洲av永久无码精品水牛影视| 日本不卡一区二区三区久久精品| 高清精品一区二区三区| 风流少妇又紧又爽又丰满| 亚洲乱码中文字幕综合69堂| 青青草国产手机观看视频| 被黑人猛躁10次高潮视频| 自拍 另类 综合 欧美小说| 国产精品中文字幕日韩精品| 92午夜少妇极品福利无码电影| 又黄又爽又色又刺激的视频| 国产成人精品aaaa视频一区| 青青草视频网站在线观看| 人妻夜夜爽天天爽| 亚洲欧洲日产国产AV无码| 91精品蜜桃熟女一区二区| 国产精品久久久久久久久绿色| 国产乱妇乱子视频在播放| 丰满少妇人妻无码超清| 蜜桃91精品一区二区三区| 久久人与动人物a级毛片| 91热国内精品永久免费观看| 最新在线观看免费的a站国产|