亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶行為的社交網(wǎng)絡(luò)人格特質(zhì)識(shí)別方法

        2023-01-27 08:28:28謝柏林黎琦魏娜鄺建
        計(jì)算機(jī)工程 2023年1期
        關(guān)鍵詞:人格特質(zhì)詞典社交

        謝柏林,黎琦,魏娜,鄺建

        (廣東外語(yǔ)外貿(mào)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣州 510006)

        0 概述

        社交網(wǎng)絡(luò)已經(jīng)深度融入到人們生活的多個(gè)方面,并成為人們獲取信息和發(fā)布信息的一個(gè)重要平臺(tái)。截至2021 年12 月,我國(guó)網(wǎng)民規(guī)模達(dá)10.32 億,其中95%以上的網(wǎng)民使用即時(shí)通信,80%以上的網(wǎng)民頻繁使用微信,將近50%的網(wǎng)民頻繁使用微博。

        黑客可以從社交網(wǎng)絡(luò)上獲取大量用戶的個(gè)人信息,目前,社交網(wǎng)絡(luò)已成為黑客發(fā)起網(wǎng)絡(luò)詐騙的主要場(chǎng)地。例如,2021 年我國(guó)將近20%的網(wǎng)民遭遇過(guò)網(wǎng)絡(luò)詐騙,其中大部分網(wǎng)絡(luò)詐騙由黑客通過(guò)社交網(wǎng)絡(luò)發(fā)起。

        近年來(lái),隨著《網(wǎng)絡(luò)安全法》的實(shí)施,國(guó)家網(wǎng)絡(luò)安全宣傳周等一系列活動(dòng)的持續(xù)開(kāi)展,以及媒體對(duì)一些網(wǎng)絡(luò)詐騙手段的報(bào)道,使我國(guó)網(wǎng)民的整體網(wǎng)絡(luò)安全意識(shí)有所提升,大部分網(wǎng)民能夠辨別一些簡(jiǎn)單的網(wǎng)絡(luò)詐騙。為了提高社交網(wǎng)絡(luò)詐騙的成功率,黑客在發(fā)起詐騙之前,通常會(huì)判別目標(biāo)用戶的主要人格特質(zhì)類(lèi)型,根據(jù)目標(biāo)用戶的主要人格特質(zhì)類(lèi)型制定與其交流的策略和詐騙手段。這類(lèi)詐騙危害大,且大部分網(wǎng)民難以識(shí)別出這類(lèi)詐騙。

        為提高用戶識(shí)別社交網(wǎng)絡(luò)詐騙的能力,面向社交網(wǎng)絡(luò)用戶的人格特質(zhì)識(shí)別方法的研究具有重要意義,以便自動(dòng)識(shí)別用戶擁有的主要人格特質(zhì)類(lèi)型,進(jìn)而得到用戶的主要人格特點(diǎn),根據(jù)用戶的主要人格特點(diǎn),提醒用戶黑客可能采取的攻擊策略,進(jìn)而提高用戶識(shí)別社交網(wǎng)絡(luò)詐騙的能力,最終達(dá)到防御社交網(wǎng)絡(luò)詐騙的目的。另外,社交網(wǎng)絡(luò)用戶人格特質(zhì)識(shí)別的研究在其他方面也有廣泛的應(yīng)用前景,例如用戶心理預(yù)警、個(gè)性化推薦[1-2]、網(wǎng)絡(luò)不良言論治理等。

        大五人格理論[3]是目前最流行的人格理論,該理論從宜人性(Agreeableness)、開(kāi)放性(Openness)、盡責(zé)性(Conscientiousness)、神經(jīng)質(zhì)(Neuroticism)和外向性(Extraversion)五個(gè)維度來(lái)刻畫(huà)用戶的人格?;谌烁裉刭|(zhì)詞典和隱半馬爾可夫模型(Hidden semi-Markov Model,HsMM),本文提出面向社交網(wǎng)絡(luò)的人格特質(zhì)識(shí)別方法。設(shè)計(jì)一種人格特質(zhì)詞典構(gòu)建方法,根據(jù)現(xiàn)有的心理學(xué)詞典和社交網(wǎng)絡(luò)上能反映用戶主要人格特質(zhì)類(lèi)型的高頻詞來(lái)構(gòu)建基準(zhǔn)詞典,基于社交網(wǎng)絡(luò)語(yǔ)料,采用word2vec、增量聚類(lèi)算法、HowNet來(lái)擴(kuò)展基準(zhǔn)詞典。通過(guò)對(duì)用戶發(fā)表或轉(zhuǎn)發(fā)的文本信息進(jìn)行動(dòng)態(tài)分析,提取能反映用戶人格特質(zhì)類(lèi)型的人格特質(zhì)詞,采用隱半馬爾可夫模型從用戶發(fā)表或轉(zhuǎn)發(fā)文本信息的行為過(guò)程中判別用戶擁有的主要人格特質(zhì)類(lèi)型。

        1 相關(guān)工作

        在社交網(wǎng)絡(luò)用戶人格特質(zhì)識(shí)別方面,文獻(xiàn)[4]提出一種面向Twitter 用戶的人格特質(zhì)識(shí)別系統(tǒng)。該系統(tǒng)首先從用戶發(fā)表的所有文本信息中提取特征值,然后利用多層感知器神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)算法來(lái)識(shí)別Twitter 用戶的主要人格特質(zhì)類(lèi)型,即判別Twitter用戶主要擁有人格特質(zhì)類(lèi)型。該系統(tǒng)選用的文本特征包括用戶朋友數(shù)或粉絲數(shù),以及每次發(fā)表博文時(shí),博文中包含的鏈接、單詞、負(fù)向情感詞、正向情感詞、情感符號(hào)、逗號(hào)、冒號(hào)、引號(hào)的平均個(gè)數(shù)等。GOLBECK 等[5]提出根據(jù)用戶的語(yǔ)言特征,以及用戶發(fā)表的平均每條博文包含的單詞、鏈接、標(biāo)簽個(gè)數(shù)等特征,并基于回歸分析算法來(lái)識(shí)別Twitter 用戶的主要人格特質(zhì)類(lèi)型。ADALI 等[6]提出利用用戶發(fā)表的博文內(nèi)容特征,以及用戶的網(wǎng)絡(luò)特征,并基于回歸分析算法來(lái)識(shí)別Twitter 用戶的主要人格特質(zhì)類(lèi)型。SKOWRON 等[7]提出一種同時(shí)面向Twitter 和Instagram 用戶的人格特質(zhì)識(shí)別方法,該方法首先把用戶分別在Twitter 和Instagram 上產(chǎn)生的數(shù)據(jù)進(jìn)行集成,然后根據(jù)用戶的粉絲數(shù)、朋友數(shù)、用戶分享圖片的亮度或色素等特征,以及用戶的語(yǔ)言特征,并基于隨機(jī)森林回歸算法來(lái)識(shí)別用戶的主要人格特質(zhì)類(lèi)型。

        LI 等[8]提出根據(jù)用戶的靜態(tài)特征和動(dòng)態(tài)特征,并基于SVM 分類(lèi)算法來(lái)識(shí)別微博用戶的主要人格特質(zhì)類(lèi)型,其中靜態(tài)特征包括用戶性別、朋友數(shù)、粉絲數(shù)等,動(dòng)態(tài)特征包括單位時(shí)間內(nèi)用戶被提及的次數(shù)、發(fā)表博文的次數(shù)等。WEI 等[9]提出利用用戶的頭像、發(fā)表的博文、表情符號(hào),以及用戶與朋友或粉絲的互動(dòng)模式中的信息,并基于深度學(xué)習(xí)算法來(lái)識(shí)別微博用戶的主要人格特質(zhì)類(lèi)型。XUE 等[10]提出利用用戶的個(gè)人信息和發(fā)表博文中的113個(gè)特征,并基于標(biāo)簽分布學(xué)習(xí)(Label Distribution Learning,LDL)算法來(lái)識(shí)別新浪微博用戶的主要人格特質(zhì)類(lèi)型。LIU 等[11]提出一種面向微博用戶的人格特質(zhì)識(shí)別方法,該方法利用用戶發(fā)表的博文語(yǔ)言行為特征,并基于深度學(xué)習(xí)算法來(lái)識(shí)別微博用戶的主要人格特質(zhì)類(lèi)型。

        WANG 等[12]提出一種面向Facebook 用戶的人格特質(zhì)識(shí)別方法,該方法利用用戶的社會(huì)網(wǎng)絡(luò)特征、語(yǔ)言特征、情感統(tǒng)計(jì)特征、話題特征,并基于Kendall相關(guān)系數(shù)來(lái)識(shí)別用戶的主要人格特質(zhì)類(lèi)型。MARKOVIKJ等[13]提出利用用戶的語(yǔ)言特征、社會(huì)網(wǎng)絡(luò)特征、屬性統(tǒng)計(jì)特征,并基于SMO 分類(lèi)算法來(lái)識(shí)別Facebook 用戶的主要人格特質(zhì)類(lèi)型。FERWERDA 等[14]提出使用徑向基函數(shù),以及用戶個(gè)人簡(jiǎn)介中的一些特征,例如工作類(lèi)型、受教育程度、工作城市、居住城市、移動(dòng)電話、出生日期、性別、宗教信仰、家庭成員等,識(shí)別Facebook 用戶的主要人格特質(zhì)類(lèi)型。BACHRACH 等[15]提出利用用戶簡(jiǎn)介中的一些特征,例如用戶的朋友數(shù)、獲得的點(diǎn)贊數(shù)、上傳的照片數(shù)等,并基于多元線性回歸模型來(lái)識(shí)別Facebook 用戶的主要人格特質(zhì)類(lèi)型。ORTIGOSA 等[16]提出利用用戶的社交互動(dòng)特征,基于分類(lèi)算法來(lái)識(shí)別Facebook 用戶的主要人格特質(zhì)類(lèi)型,其中社交互動(dòng)特征包括:最近1 個(gè)月在Facebook 上發(fā)表信息的不同朋友的個(gè)數(shù)、用戶使用Facebook 的時(shí)間等。LIU 等[17]提出利用用戶發(fā)表的所有文本的話題信息,基于擴(kuò)展的隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型來(lái)識(shí)別Facebook 用戶的主要人格特質(zhì)類(lèi)型。ZHENG 等[18]基于用戶的個(gè)人信息,利用半監(jiān)督分類(lèi)算法來(lái)識(shí)別Facebook 用戶的人格特質(zhì)類(lèi)型。

        BAI 等[19]提出一種面向人人網(wǎng)用戶的人格特質(zhì)識(shí)別方法,該方法根據(jù)用戶的41 個(gè)特征,例如用戶的性別、年齡、家鄉(xiāng)所在地、平均每次發(fā)表信息所包含的單詞個(gè)數(shù)等,然后基于C4.5 分類(lèi)算法來(lái)識(shí)別用戶的主要人格特質(zhì)類(lèi)型。王萌萌等[20]考慮到用戶人格特質(zhì)間的相關(guān)性對(duì)用戶人格特質(zhì)識(shí)別的影響,提出一種基于加權(quán)非負(fù)矩陣分解的用戶人格特質(zhì)識(shí)別模型,以識(shí)別社交網(wǎng)絡(luò)用戶的主要人格特質(zhì)類(lèi)型。XUE 等[21]提出利用深度學(xué)習(xí)方法和語(yǔ)義分析來(lái)識(shí)別社交網(wǎng)絡(luò)用戶的人格特質(zhì)類(lèi)型。ZHU 等[22]基于用戶喜愛(ài)的圖片,利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別社交網(wǎng)絡(luò)用戶的人格特質(zhì)類(lèi)型。TAREAF 等[23]提出利用用戶的喜愛(ài)和機(jī)器學(xué)習(xí)分類(lèi)算法來(lái)識(shí)別Facebook 用戶的人格特質(zhì)類(lèi)型。LAI 等[24]基于學(xué)生的在線學(xué)習(xí)行為和擴(kuò)展的最近鄰算法來(lái)識(shí)別學(xué)生的人格特質(zhì)類(lèi)型。GUAN 等[25]基于用戶發(fā)表的文本信息和Skipgram 算法來(lái)識(shí)別社交網(wǎng)絡(luò)用戶的人格特質(zhì)類(lèi)型。KUMAR 等[26]提出一種基于語(yǔ)言特征、內(nèi)容特征,并利用決策樹(shù)和SVM 分類(lèi)算法來(lái)識(shí)別用戶人格特質(zhì)類(lèi)型的系統(tǒng)。YUAN 等[27]利用博文的中文語(yǔ)言特征和機(jī)器學(xué)習(xí)分類(lèi)算法來(lái)識(shí)別新浪微博用戶的人格特質(zhì)類(lèi)型。YANG 等[28]提出一種基于圖卷積網(wǎng)絡(luò)的人格特質(zhì)識(shí)別方法。MAROUF 等[29]對(duì)比分析了5 種用于人格特質(zhì)識(shí)別的特征選擇算法。另外,張磊等[30]綜合分析了現(xiàn)有的一些社交網(wǎng)絡(luò)用戶人格特質(zhì)識(shí)別方法,指出了未來(lái)研究需要解決的一些問(wèn)題。

        以上大部分方法通過(guò)挑選一些屬性,并基于訓(xùn)練好的分類(lèi)模型來(lái)識(shí)別用戶擁有的主要人格特質(zhì)類(lèi)型。這些方法沒(méi)有考慮用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)文本信息的行為過(guò)程,而用戶的這種行為過(guò)程更能體現(xiàn)用戶的主要人格特質(zhì)類(lèi)型。本文通過(guò)構(gòu)建面向社交網(wǎng)絡(luò)的人格特質(zhì)詞典,結(jié)合隱半馬爾可夫模型[31-32]來(lái)刻畫(huà)用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)文本信息的行為過(guò)程,以識(shí)別用戶的主要人格特質(zhì)類(lèi)型。

        本文提出的社交網(wǎng)絡(luò)人格特質(zhì)識(shí)別方法,通過(guò)對(duì)用戶發(fā)表或轉(zhuǎn)發(fā)的文本信息進(jìn)行動(dòng)態(tài)分析,提取出能反映用戶人格特質(zhì)類(lèi)型的人格特質(zhì)詞,同時(shí)采用隱半馬爾可夫模型刻畫(huà)用戶發(fā)表或轉(zhuǎn)發(fā)文本信息的行為過(guò)程,以判別用戶擁有的主要人格特質(zhì)類(lèi)型。當(dāng)用戶的主要人格特質(zhì)類(lèi)型發(fā)生變化時(shí),該方法也可以動(dòng)態(tài)識(shí)別出用戶最新的人格特質(zhì)類(lèi)型。

        2 社交網(wǎng)絡(luò)用戶人格特質(zhì)識(shí)別方法

        在社交網(wǎng)絡(luò)上,用戶發(fā)表或轉(zhuǎn)發(fā)的文本信息能反映出用戶的主要人格特質(zhì)類(lèi)型,當(dāng)社會(huì)上發(fā)生某件大事時(shí),大部分具有相同主要人格特質(zhì)類(lèi)型的用戶會(huì)發(fā)表或轉(zhuǎn)發(fā)相似的文本信息。本文使用人格特質(zhì)詞典來(lái)獲取用戶發(fā)表或轉(zhuǎn)發(fā)的文本信息中能反映用戶主要人格特質(zhì)類(lèi)型的觀測(cè)值,然后采用隱半馬爾可夫模型來(lái)刻畫(huà)用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)文本信息的行為過(guò)程。

        本文的人格特質(zhì)詞典把常用的能反映用戶主要人格特質(zhì)類(lèi)型的詞分為神經(jīng)質(zhì)、宜人性、開(kāi)放性、盡責(zé)性和外向性。為此,本文提出一種面向社交網(wǎng)絡(luò)的人格特質(zhì)詞典構(gòu)建方法。人格特質(zhì)詞典的構(gòu)建流程如圖1 所示。其中最初的人格特質(zhì)基準(zhǔn)詞典是根據(jù)現(xiàn)有的心理學(xué)詞典和社交網(wǎng)絡(luò)上一些能反映用戶主要人格特質(zhì)類(lèi)型的高頻詞來(lái)建立。

        圖1 人格特質(zhì)詞典的構(gòu)建流程Fig.1 Construction process of personality trait dictionary

        具有相同主要人格特質(zhì)類(lèi)型的用戶在使用社交網(wǎng)絡(luò)過(guò)程中,其發(fā)表或轉(zhuǎn)發(fā)的文本信息中人格特質(zhì)詞的統(tǒng)計(jì)特征一般會(huì)隨著時(shí)間發(fā)生變化。例如,主要擁有開(kāi)放性人格特質(zhì)的用戶在發(fā)表或轉(zhuǎn)發(fā)某個(gè)文本信息過(guò)程中,開(kāi)放類(lèi)型人格特質(zhì)詞的加權(quán)和較大,而在另一個(gè)文本信息中開(kāi)放類(lèi)型的人格特質(zhì)詞加權(quán)和的值較小。本文將人格特質(zhì)詞的不同類(lèi)型統(tǒng)計(jì)特征作為狀態(tài),令不同狀態(tài)的個(gè)數(shù)為I(k),即由于狀態(tài)與用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息中產(chǎn)生的觀測(cè)值不具有一一對(duì)應(yīng)的關(guān)系,因此本文假定狀態(tài)的轉(zhuǎn)移過(guò)程服從隱馬爾可夫過(guò)程。

        隱馬爾可夫模型[33]的狀態(tài)持續(xù)時(shí)間概率必須服從指數(shù)分布,隱半馬爾可夫模型對(duì)此進(jìn)行了擴(kuò)展,使其狀態(tài)持續(xù)時(shí)間概率服從任何分布。因此,用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息過(guò)程中反映其人格特質(zhì)類(lèi)型的行為狀態(tài)轉(zhuǎn)移過(guò)程實(shí)際是一個(gè)隱半馬爾可夫模型。

        主要擁有第k類(lèi)人格特質(zhì)的某個(gè)用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí),其行為的狀態(tài)跳轉(zhuǎn)過(guò)程如圖2 所示。其中表示第t個(gè)觀測(cè)值,表示狀態(tài)轉(zhuǎn)移概率,表示不同狀態(tài),表示不同狀態(tài)的持續(xù)時(shí)間。

        圖2 狀態(tài)跳轉(zhuǎn)過(guò)程Fig.2 State transition process

        本文提出的人格特質(zhì)識(shí)別方法分為模型訓(xùn)練和人格特質(zhì)識(shí)別兩個(gè)階段。

        2.1 模型訓(xùn)練階段

        本文首先在社交網(wǎng)絡(luò)上采集大量用戶產(chǎn)生的相關(guān)數(shù)據(jù),然后根據(jù)現(xiàn)有的人格特質(zhì)識(shí)別方法選用一些特征,并使用K-means 聚類(lèi)算法把用戶劃分成5 個(gè)不同的簇,并對(duì)每個(gè)簇中的用戶進(jìn)行人工檢驗(yàn)和篩選,使得每一個(gè)簇中的用戶擁有相同的主要人格特質(zhì)類(lèi)型。在第k個(gè)簇中,提取出用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí)產(chǎn)生的能反映用戶主要擁有第k種人格特質(zhì)類(lèi)型的觀測(cè)序列,并作為同一模型的訓(xùn)練數(shù)據(jù)集。本文采用多序列和基于文獻(xiàn)[32]中的前向-后向算法來(lái)訓(xùn)練模型。

        其中:平滑系數(shù)ρ=I(k)D(k)(I(k)D(k)+V-2)。

        在模型訓(xùn)練結(jié)束后,得到λ(1)、λ(2)、λ(3)、λ(4)、λ(5)的值,分別表示主要擁有不同人格特質(zhì)類(lèi)型的用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí)的行為模型。

        2.2 人格特質(zhì)識(shí)別階段

        當(dāng)某個(gè)用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí),采用以下步驟對(duì)該用戶的主要人格特質(zhì)類(lèi)型進(jìn)行識(shí)別,其中t的初始值為0:

        1)在當(dāng)前時(shí)刻,如果該用戶在社交網(wǎng)絡(luò)上發(fā)表或轉(zhuǎn)發(fā)某條文本信息,則令t=t+1,并使用人格特質(zhì)詞典統(tǒng)計(jì)的值,1≤k≤5。

        3)得到使E(l)≥E(k)成立的l,1≤l≤5。當(dāng)E(l)大于某個(gè)閾值時(shí),則得到該用戶擁有的主要人格特質(zhì)類(lèi)型l,否則跳轉(zhuǎn)到第1 個(gè)步驟。

        3 實(shí)驗(yàn)測(cè)試與結(jié)果分析

        新浪微博是我國(guó)最大的微博網(wǎng)站,截至2021 年4 月,其日活躍用戶數(shù)已達(dá)到2.3 億。本文在新浪微博上選擇42 210 個(gè)活躍用戶(其發(fā)表或轉(zhuǎn)發(fā)博文的數(shù)量大于1 000 條),使用新浪微博的API 采集這些用戶發(fā)表或轉(zhuǎn)發(fā)的所有博文,并保存在數(shù)據(jù)庫(kù)中作為構(gòu)建人格特質(zhì)詞典的語(yǔ)料庫(kù)。

        3.1 人格特質(zhì)詞典構(gòu)建

        本文利用現(xiàn)有的停用詞表和一些過(guò)濾規(guī)則去除語(yǔ)料庫(kù)中的停用詞和無(wú)意義的詞,其中無(wú)意義的詞分為純數(shù)字的詞語(yǔ)和由非表情符的純標(biāo)點(diǎn)符號(hào)組成的字符串兩種。本文把預(yù)處理后語(yǔ)料庫(kù)中的詞語(yǔ)等分為Y個(gè)互不相交的子集,令y的初始值為1,則人格特質(zhì)詞典的構(gòu)建主要分為以下4 個(gè)步驟:1)使用word2vec 計(jì)算第y個(gè)子集的詞語(yǔ)與基準(zhǔn)詞典各個(gè)類(lèi)別下詞語(yǔ)的相似度;2)基于詞語(yǔ)的相似度,使用增量式聚類(lèi)算法擴(kuò)展每類(lèi)人格特質(zhì)詞語(yǔ)的規(guī)模;3)使用HowNet 與人工相結(jié)合的方式來(lái)篩選詞語(yǔ),并更新基準(zhǔn)詞典;4)如果y=Y,結(jié)束循環(huán);否則令y=y+1,并跳轉(zhuǎn)到第1 個(gè)步驟。

        經(jīng)過(guò)人工篩選,本文得到的基于新浪微博語(yǔ)料的人格特質(zhì)詞典包含2 390 個(gè)詞語(yǔ)。該詞典中各人格特質(zhì)類(lèi)別的詞語(yǔ)數(shù)量分布如表1 所示,其數(shù)據(jù)格式如表2 所示。

        表1 人格特質(zhì)詞典的詞語(yǔ)數(shù)量分布Table 1 Word quantity distribution of personality trait dictionary

        表2 人格特質(zhì)詞典的詞語(yǔ)數(shù)據(jù)格式示例Table 2 Data format example of word of personality trait dictionary

        3.2 人格特質(zhì)識(shí)別方法測(cè)試

        在采集到的新浪微博數(shù)據(jù)集中,人工篩選出主要擁有神經(jīng)質(zhì)、宜人性、開(kāi)放性、盡責(zé)性、外向性人格特質(zhì)類(lèi)型的用戶各3 000 名,使用本文構(gòu)建的人格特質(zhì)詞典提取能反映其主要人格特質(zhì)類(lèi)型的觀測(cè)序列,并分別標(biāo)注為Data(N)、Data(A)、Data(O)、Data(C)、Data(E)。

        為了訓(xùn)練得到主要擁有神經(jīng)質(zhì)人格特質(zhì)類(lèi)型的用戶行為模型(用N-HsMM 代表該模型),本文在Data(N)中隨機(jī)抽取2/3 的觀測(cè)序列用于模型訓(xùn)練,剩余1/3 的觀測(cè)序列用于模型測(cè)試。此外,本文在Data(A)中隨機(jī)抽取1/3 的觀測(cè)序列用于測(cè)試N-HsMM 的性能。同理,采用相同的方式來(lái)訓(xùn)練、測(cè)試A-HsMM、O-HsMM、C-HsMM、E-HsMM 的性能。A-HsMM 表示主要擁有宜人性人格特質(zhì)類(lèi)型的用戶行為模型,O-HsMM 表示主要擁有開(kāi)放性人格特質(zhì)類(lèi)型的用戶行為模型,C-HsMM表示主要擁有盡責(zé)性人格特質(zhì)類(lèi)型的用戶行為模型,E-HsMM 表示主要擁有外向性人格特質(zhì)類(lèi)型的用戶行為模型。各個(gè)HsMM 的訓(xùn)練集和測(cè)試集信息如表3 所示。N-HsMM 模型的ROC 曲線如圖3 所示。

        表3 HsMM 模型的訓(xùn)練集和測(cè)試集Table 3 Training and testing sets of HsMM model

        當(dāng)本文選擇模型的真正率(True Positive Rate,TPR)為0.913 時(shí),模型的假正率(False Positive Rate,F(xiàn)PR)為0.1。真正率TTPR、假正率FFPR的計(jì)算分別如式(25)和式(26)所示:

        其中:user(N)表示主要擁有神經(jīng)質(zhì)人格特質(zhì)類(lèi)型的用戶;user(A)表示主要擁有宜人性人格特質(zhì)類(lèi)型的用戶。

        A-HsMM 模型的ROC 曲線如圖4 所示,當(dāng)模型的FPR 為0.1 時(shí),模型的TPR 為0.907。

        圖4 A-HsMM 模型ROC 曲線Fig.4 ROC curve of A-HsMM model

        O-HsMM 模型的ROC 曲線如圖5 所示,當(dāng)模型的FPR 為0.1 時(shí),模型的TPR 為0.946。C-HsMM 模型的ROC 曲線如圖6 所示,當(dāng)模型的FPR 為0.1 時(shí),模型的TPR 為0.928。

        圖5 O-HsMM 模型的ROC 曲線Fig.5 ROC curve of O-HsMM model

        圖6 C-HsMM 模型ROC 曲線Fig.6 ROC curve of C-HsMM model

        E-HsMM 模型的ROC 曲線如圖7 所示,當(dāng)模型的FPR 為0.1 時(shí),模型的TPR 為0.965。

        圖7 E-HsMM 模型ROC 曲線Fig.7 ROC curve of E-HsMM model

        各個(gè)HsMM 模型的訓(xùn)練時(shí)間和測(cè)試時(shí)間對(duì)比如表4 所示。

        表4 各個(gè)HsMM 模型的訓(xùn)練時(shí)間與測(cè)試時(shí)間對(duì)比Table 4 Training time and testing time comparison among each HsMM model 單位:s

        本文提出的方法分為模型訓(xùn)練和人格特質(zhì)識(shí)別兩個(gè)階段,其中模型訓(xùn)練階段可以線下進(jìn)行。在人格特質(zhì)識(shí)別階段中,前向變量每次更新的復(fù)雜度為O(I(k)D(k)+I(k)I(k)),每次更新觀測(cè)序列相對(duì)模型的平均對(duì)數(shù)似然概率時(shí)僅涉及到幾十次乘法和幾十次加法,因此該方法具有較快的識(shí)別速度。

        實(shí)驗(yàn)結(jié)果表明,本文提出的方法具有較優(yōu)的識(shí)別性能,通過(guò)選取合適的閾值,具有較高的真正率和較低的假正率。

        4 結(jié)束語(yǔ)

        本文提出一種基于用戶發(fā)表或轉(zhuǎn)發(fā)文本信息行為的人格特質(zhì)識(shí)別方法。通過(guò)構(gòu)建人格特質(zhì)詞典,提取用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí)產(chǎn)生的人格特質(zhì)詞,使用隱半馬爾可夫模型刻畫(huà)用戶的行為過(guò)程,通過(guò)對(duì)擁有不同人格特質(zhì)類(lèi)型的用戶在發(fā)表或轉(zhuǎn)發(fā)文本信息時(shí)的行為模型進(jìn)行訓(xùn)練,并計(jì)算每個(gè)用戶產(chǎn)生的觀測(cè)序列相對(duì)于每個(gè)模型的平均對(duì)數(shù)似然概率。實(shí)驗(yàn)結(jié)果表明,該方法能準(zhǔn)確識(shí)別用戶的人格特質(zhì)類(lèi)型。下一步將優(yōu)化隱半馬爾可夫模型,以提高人格特質(zhì)識(shí)別性能并降低誤報(bào)率,使本文方法適用于實(shí)際的社交網(wǎng)絡(luò)平臺(tái)。

        猜你喜歡
        人格特質(zhì)詞典社交
        社交之城
        人格特質(zhì)對(duì)企業(yè)員工時(shí)間侵占行為的影響
        社交牛人癥該怎么治
        意林彩版(2022年2期)2022-05-03 10:25:08
        社交距離
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        選擇一張神奇的行為藝術(shù)照片,秒測(cè)你的真實(shí)人格特質(zhì)
        你回避社交,真不是因?yàn)閮?nèi)向
        文苑(2018年17期)2018-11-09 01:29:28
        評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        人格特質(zhì)對(duì)抑制表現(xiàn)的預(yù)測(cè)研究
        久久深夜中文字幕高清中文| 激情亚洲一区国产精品| 国产精品成人网站| 色爱区综合五月激情| 亚洲综合日韩中文字幕| 午夜一区二区三区免费观看| 亚洲人成网站18禁止| 7777奇米四色成人眼影| 国产目拍亚洲精品一区二区| 无码精品一区二区三区超碰| 亚洲黄片av在线免费观看| 男女av一区二区三区| 中文字幕在线亚洲日韩6页| 国产日韩久久久精品影院首页| 精品日韩av专区一区二区| 亚洲中文字幕人成乱码在线| 天堂8在线新版官网| 内谢少妇xxxxx8老少交 | 亚洲一区二区丝袜美腿| 蜜桃18禁成人午夜免费网站| 久久丫精品国产亚洲av不卡 | 亚洲电影一区二区三区| 亚洲最大视频一区二区三区| 日韩精品一区二区三区乱码| 男人的天堂无码动漫av| 久久永久免费视频| 亚洲女同恋中文一区二区| 大地资源网在线观看免费官网| 国产欧美日韩久久久久| 精品国免费一区二区三区| 亚洲精品一区二区在线免费观看| 67194熟妇人妻欧美日韩| 欧美第五页| 极品新娘高清在线观看| 无码人妻精品一区二区三区蜜桃| 亚洲巨乳自拍在线视频| 一本久久精品久久综合桃色| 蜜桃视频在线在线观看| 中文字幕网伦射乱中文| 在线天堂中文字幕| 亚洲一区二区三区高清视频|