亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于上下文語義的社交網(wǎng)絡(luò)用戶人格預(yù)測

        2020-06-04 12:31:12王江晴陳思敏劉晶孫翀畢建權(quán)
        關(guān)鍵詞:語義單詞文本

        王江晴,陳思敏,劉晶,孫翀,畢建權(quán)

        (中南民族大學 計算機科學學院,湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢 430074)

        隨著社交網(wǎng)絡(luò)用戶日益增多,網(wǎng)絡(luò)用戶行為已經(jīng)成為社交網(wǎng)絡(luò)領(lǐng)域重要的研究內(nèi)容.人格是一種心理結(jié)構(gòu),旨在從一些穩(wěn)定和可衡量的個體特征方面解釋各種各樣的人類行為[1].人格特質(zhì)作為體現(xiàn)用戶行為的重要因素,影響著人們的行為選擇和習慣偏好,對社交網(wǎng)絡(luò)用戶的人格特質(zhì)預(yù)測有許多重要的實際應(yīng)用和研究價值.例如,在個性化推薦背景下,相似人格特質(zhì)的人喜愛的產(chǎn)品也會高度相似[2];在心理問診方面,心理疾病與人格特質(zhì)存在一定的內(nèi)在聯(lián)系.在心理學領(lǐng)域,用來衡量一個人人格的最主流的模型是大五人格模型[3],大五人格模型從外向性(EXT)、神經(jīng)質(zhì)(NEU)、宜人性(AGR)、責任心(CON)以及開放性(OPN)等五個維度來分析和描述一個人的人格特質(zhì).

        已有相關(guān)研究從社交網(wǎng)絡(luò)文本中挖掘出一個人的人格特質(zhì)與行為活動之間的潛在關(guān)系,驗證了利用社交網(wǎng)絡(luò)文本識別與預(yù)測用戶大五人格的可行性[4-6].基于文本的用戶大五人格預(yù)測主要工作有用戶文本特征提取和分類模型構(gòu)造.

        大部分大五人格研究者使用到的文本特征提取方法有LIWC(Linguistic Inquiry and Word Count)、詞袋模型[7]、TF-IDF[8]等.這些方法提取到的文本特征僅僅停留在詞集的層面,很少對文本語義做研究.而文本的語義信息往往才是全面描述當前用戶所要表達信息的載體,因此,我們認為分析文本潛在語義信息,從文本語義層面出發(fā)研究用戶的大五人格,能更準確地挖掘出用戶的人格信息.然而這些文本特征提取方法沒有考慮社交短文本的上下文語義信息,使得對語義特征的提取不夠精準,可能忽略掉很多文本關(guān)鍵信息,所以我們針對特征提取方法TF-IDF,引入上下文詞語的共現(xiàn)關(guān)系來提取更多的語義信息.

        在自然語言處理(NLP)研究工作中,與傳統(tǒng)的機器學習方法相比,近幾年廣泛利用分布式表示[9]和深度學習的方法來分析和挖掘文本信息,其效果突出.深度學習的模型在基于文本的大五人格分類和預(yù)測工作中也逐漸被應(yīng)用.MAJUMDER等[10]提出了一種使用CNN從意識流文章中提取人格特質(zhì)的方法,提高了人格預(yù)測模型的精確度.WEI等[7]使用了社交網(wǎng)絡(luò)的異質(zhì)信息包括文本、用戶頭像、表情符號、用戶交互信息來預(yù)測大五人格,其中文本信息特征的提取,結(jié)合了詞袋聚類、LIWC和CNN等方法,對關(guān)鍵詞只統(tǒng)計了詞頻,沒有考慮上下文語義的有關(guān)信息,使得特征權(quán)重分配不佳.還有一些研究者使用了RNN[11,12]及其變種等方法作為預(yù)測模型,其結(jié)果與CNN相差不大.由于RNN模型計算步驟之間有前后依賴關(guān)系,并行程度不高,而CNN的所有卷積都可以并行執(zhí)行,相比RNN并行程度更高,效率更快,而且容易捕捉到一些全局的結(jié)構(gòu)信息,關(guān)鍵性短語在句子編碼過程中能保持含義不變性,因此本文采用基于文本的卷積神經(jīng)網(wǎng)絡(luò)模型(Text-CNN),結(jié)合上下文語義特征向量來對用戶文本進行訓練以預(yù)測用戶的大五人格.實驗結(jié)果證明引入上下文語義信息后的模型在預(yù)測準確率上有一定的提高.

        1 模型描述

        1.1 結(jié)合上下文語義信息的社交文本特征提取

        主流的文本特征提取方法TF-IDF沒有考慮特征詞之間的語義聯(lián)系,使得提取的特征詞表示文本語義強度不佳,為解決該問題,本文在TF-IDF計算過程中加入了上下文語義信息.

        用戶文本集表示為D={dj|j=1,2,…,N},N是用戶文本集中的文本總數(shù),詞匯表表示為V={ti|i=1,2,…,M},M是詞匯表中的特征詞總數(shù),統(tǒng)計用戶文本集中的所有單詞得到詞匯表.

        首先計算文本中每個特征詞的TF-IDF[8]值,表示為:

        tf-idfi,j=tfi,j·idfi,

        其中,tf-idfi,j表示單詞ti在文本dj中的TF-IDF值,其中tfi,j表示為:

        其中,tfi,j表示單詞ti在文本dj中的詞頻.ni,j是單詞ti在文本dj中出現(xiàn)的次數(shù),nj是詞匯表中所有單詞在文本dj中出現(xiàn)的次數(shù)之和.idfi表示為:

        其中,idfi表示單詞ti的逆向文本頻率,j:ti∈dj是包含單詞ti的文本個數(shù).

        然后統(tǒng)計詞匯表中特征詞ta與特征詞tb(b≠a)同時出現(xiàn)在用戶文本集的文本條數(shù),如果文本條數(shù)不小于2,則ta與tb是一對共現(xiàn)詞對[13],記為ta,b,此時的文本條數(shù)代表ta,b的出現(xiàn)頻率,記為fta,b.根據(jù)fta,b計算單詞的上下文語義值,公式為:

        其中,swa,j表示文本dj中單詞ta的上下文語義值,tf-idfb是文本dj中單詞tb的TF-IDF值.

        最后由單詞的上下文語義值和TF-IDF值計算出文本dj中每個詞的權(quán)值,公式為:

        twi,j=α·tf-idfi+(1-α)·swi,j,

        其中,twi,j表示文本dj中單詞ti的權(quán)值,α為權(quán)重.

        結(jié)合上下文語義信息的詞權(quán)值計算的時間復(fù)雜度分析如下:首先,計算特征詞的TF-IDF值的時間復(fù)雜度為O(n);其次,計算特征詞-特征詞共現(xiàn)詞對矩陣的時間復(fù)雜度為O(n2);然后,計算單詞的上下文語義值的時間復(fù)雜度為O(n);最后,計算文本中每個詞的最終權(quán)值的時間復(fù)雜度為O(1).綜上,結(jié)合上下文語義信息的詞權(quán)值計算的時間復(fù)雜度為O(n2).

        1.2 基于Text-CNN的人格預(yù)測模型

        上下文語義信息是人工提取的特征,與深度學習預(yù)測模型自動提取的特征相比,特征之間表達的含義不同,在預(yù)測模型中加入上下文語義特征,人格相關(guān)潛在特征得以豐富,從而達到優(yōu)化預(yù)測效果的目的.為驗證在預(yù)測模型中加入上下文語義信息是否能提高大五人格預(yù)測的準確率,我們選取Text-CNN作為人格預(yù)測模型,模型架構(gòu)如圖1所示,將卷積和池化操作得到的抽象特征向量與1.1節(jié)結(jié)合了上下文語義的特征向量連接后,送到全連接層以及輸出層進行人格分類.

        圖1 Text-CNN+context semantics模型架構(gòu)

        模型使用到的變量定義如表1所示.

        表1 符號表

        輸入層:輸入的句子通過對字典的lookup生成句嵌入,即二維矩陣,每一行表示為單詞的詞向量.因此,輸入是一個數(shù)組AW×E.

        卷積層:卷積核定義為Cn∈AK×n×E,n= 1,2,3.卷積窗口從句子矩陣最上方開始向下滑動直到句子結(jié)尾,每次滑動考慮n個單詞,通過卷積計算得到該句子的特征映射CMn∈AK×(W-n+1)×1,激活函數(shù)為ReLU.

        池化層:對CMn做平均池化操作,得到輸出特征向量PCMn∈AK,將所有的PCMn連接得到最終的池化結(jié)果PCM∈A(K×n).

        結(jié)合了上下文語義的特征向量:對于輸入的每個句子,其結(jié)合了上下文語義信息計算得到的特征向量為sj=(tw1,j,tw2,j,…,twV,j),sj∈AV.將sj與PCM連接作為下一階段的輸入向量P,P的計算公式為:

        P=concat(PCM,sj),P∈A(K×n+V).

        全連接層:將P與兩個全連接層矩陣做運算,得到更深層的特征表示,如圖1列向量F.

        輸出層:使用softmax函數(shù)對最后的人格結(jié)果進行預(yù)測,得到二分類結(jié)果如圖1列向量SO.損失函數(shù)的計算公式如下:

        其中,yi′是該人格預(yù)測的概率值,yi是人格的實際值.

        對于大五人格的五維人格特質(zhì),我們訓練5個獨立的Text-CNN模型,它們的網(wǎng)絡(luò)結(jié)構(gòu)一致.

        2 實驗及分析

        2.1 數(shù)據(jù)集

        實驗采用Facebook中myPersonality應(yīng)用的公共數(shù)據(jù)集.myPersonality中包括essay和Facebook用戶文本,發(fā)表這些文本的用戶已經(jīng)填寫了大五人格量表問卷并得到大五人格的評測結(jié)果,這些文本已標注用戶大五人格類別.我們通過人格識別計算研討會的共享任務(wù)[14]獲得Facebook的用戶文本數(shù)據(jù).其中80%的數(shù)據(jù)集用于訓練,剩下20%用于測試.

        2.2 文本預(yù)處理

        在自然語言處理中,文本分類結(jié)果的好壞,一方面取決于分類器的好壞,另一方面與文本前期的預(yù)處理工作有很大關(guān)系.文本的處理步驟如下:

        1)去掉文本中的郵箱地址和網(wǎng)址.這些信息與人格特征關(guān)系不大;

        2)拼寫檢查更正.使用pyenchant類庫檢查單詞拼寫,找出錯誤后,根據(jù)需要來更正;

        3)縮寫詞還原.如“I′m”還原成“I am”;

        4)將單詞轉(zhuǎn)化為小寫,并引入停用詞表刪除一些無效字符,以降低詞匯表的維度;

        5)去除數(shù)字和一些標點符號,并保留如“!!!”、“!!!!!!”等標點符號,因為這些重復(fù)的符號是用戶用來強調(diào)情緒的直接表現(xiàn).同理我們還保留了如“yayayaya”、“freeeeee”、“ahhhhhh”等含重復(fù)字母的單詞;

        6)詞形還原.一個單詞會有單數(shù)、復(fù)數(shù)和時態(tài)等多種不同的形式.我們使用自然語言處理工具(nltk)將文本中的單詞還原成原形形式,從而生成最終的詞匯表.

        2.3 實驗參數(shù)設(shè)置

        通過不斷調(diào)整超參數(shù)來降低隨機梯度,以使訓練的模型最佳.對輸入的句嵌入的向量維度、詞嵌入的向量維度、卷積核的核寬以及每種卷積核的個數(shù)等進行設(shè)置.對于訓練,每迭代100次進行一次驗證,并保存結(jié)果.表2展示了實驗設(shè)置的超參數(shù).

        特別地,對于實驗參數(shù)Batch_size,表示一批訓練數(shù)據(jù)的文本條數(shù),取值范圍為{20,30,40,50},選20至50之前,用更大范圍的數(shù)值訓練過模型,發(fā)現(xiàn)在20至50區(qū)間效果最好,所以在這個區(qū)間更細粒度地訓練了模型.其中每一種取值測試20組數(shù)據(jù),共測試80組,訓練五個人格維度模型則為400組.結(jié)果如表3所示,展示了每種取值下Text-CNN+context semantics各人格維度模型預(yù)測準確率的平均值和最高值.表4展示了未加入上下文語義時Text-CNN模型預(yù)測準確率的平均值和最高值.我們將預(yù)測準確率最高時的Batch_size取值作為最終生成的模型的Batch_size值,即得到的Text-CNN+context semantics五個人格維度模型的Batch_size取值分別為{20,50,50,20,20},Text-CNN五個人格維度模型的Batch_size取值分別為{40,50,50,50,30}.

        表2 實驗參數(shù)設(shè)置

        表3 Batch_size取不同值時Text-CNN+context semantics模型預(yù)測的準確率

        表4 Batch_size取不同值時Text-CNN模型預(yù)測的準確率

        2.4 評估指標

        本文以準確率(Accuracy)來評估實驗結(jié)果的好壞,其公式為:

        2.5 實驗結(jié)果分析比較

        本節(jié)將討論模型訓練中的收斂情況,以及5個人格維度上的卷積神經(jīng)網(wǎng)絡(luò)模型在引入上下文語義后,預(yù)測準確率上的差別.

        圖2給出了引入上下文語義后,開放型人格(OPN)維度上的Text-CNN+context semantics模型在訓練過程中損失率和準確率的變化折線圖.以O(shè)PN維度上的Text-CNN+context semantics模型為例,可以看出模型隨著訓練步數(shù)的增長,準確率逐漸增加,損失函數(shù)逐漸減小,在3000步左右的時候模型趨于收斂.

        圖2 Text-CNN+context semantics/OPN上的損失率和準確率

        圖3給出了引入上下文語義之前,開放型人格維度上的Text-CNN模型訓練過程中損失率和準確率的變化折線圖.可以看出Text-CNN模型在訓練步數(shù)的增長時準確率的增加以及損失函數(shù)的減小,在3800步左右的時候趨于收斂.其他4個人格維度上的兩種模型對比也有類似結(jié)果.經(jīng)過比較可以看出,Text-CNN+context semantics模型,在參數(shù)相同的情況下,模型收斂的速度要快于Text-CNN模型,因為加入上下文語義后,模型學習到有關(guān)人格特質(zhì)的特征速度更快.

        WEI[7]和MAJUMDER[10]在預(yù)測用戶大五人格時均使用了Text-CNN模型,為了驗證實驗中加入了上下文語義信息的效果,我們與Text-CNN模型進行比較.表5展示了本文方法與Text-CNN模型、文獻[8]的SMO算法以及文獻[15]的全連接架構(gòu)在用戶大五人格5個維度上的預(yù)測準確率.

        圖3 Text-CNN/OPN上的損失率和準確率

        可以看到,在五個人格維度上的準確率,Text-CNN+context semantics模型均比Text-CNN模型要高,Text-CNN+context semantics模型在外向型(OPN)人格維度上的準確率最高達到70.2%,模型預(yù)測準確率相對較高的原因在于加入上下文語義后,提取的文本語義特征更加豐富,模型學習到的有關(guān)人格特質(zhì)的特征更多,模型更精準;同時,本文方法預(yù)測大五人格準確率僅在神經(jīng)質(zhì)型人格(NEU)上的準確率比SMO低1.33%,但整體上的準確率比SMO以及只使用全連接層的神經(jīng)網(wǎng)絡(luò)要高.

        表5 不同模型準確率對比

        3 總結(jié)與展望

        傳統(tǒng)的利用文本信息來分析和預(yù)測大五人格的方法中,對于文本特征的提取階段,未充分考慮上下文語義,語義特征的提取不夠精準,會忽略掉很多文本關(guān)鍵信息,本文針對此問題引入短文本上下文的共現(xiàn)詞對,結(jié)合上下文語義權(quán)重向量與Text-CNN模型,得到Text-CNN+context semantics模型來預(yù)測用戶大五人格,實驗結(jié)果表明本文的方法在準確率上有所提高.對于加入上下文語義前后,模型最佳時的參數(shù)Batch_size在不同人格維度上的取值不同,后續(xù)工作會繼續(xù)增加Batch_size各個取值訓練的次數(shù),以探究其原因.未來我們會考慮將提取的上下文語義加入到其他深度學習模型如RNN、長短期記憶網(wǎng)絡(luò)(LSTM)中,驗證上下文語義結(jié)合到預(yù)測模型中的通用性.

        猜你喜歡
        語義單詞文本
        語言與語義
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個人都不好了
        “上”與“下”語義的不對稱性及其認知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        認知范疇模糊與語義模糊
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        日本免费一二三区在线| 亚洲大片免费| 日韩精品国产一区在线| 成年人一区二区三区在线观看视频 | 日本二区视频在线观看| 亚洲中文字幕日韩综合| 欧美性猛交99久久久久99按摩| 色www永久免费视频| 亚洲一区二区三区成人网站| 国产在线视欧美亚综合| 亚洲av色香蕉一区二区三区软件| 青青草小视频在线播放| 美女露内裤扒开腿让男人桶无遮挡| 人人妻人人澡人人爽精品欧美| 免费一区二区三区久久| 久久精品国产一区二区涩涩| 亚洲av高清天堂网站在线观看| 国自产拍偷拍精品啪啪一区二区| 日本黄页网站免费观看| 超碰日韩AV在线| 久草视频在线视频手机在线观看| 91精品久久久中文字幕| 免费高清av一区二区三区| 欧美自拍视频在线| 亚洲色偷偷偷综合网另类小说 | 久久在一区二区三区视频免费观看 | 亚洲日韩中文字幕在线播放| 国产在线无码一区二区三区| 全部免费国产潢色一级| 亚洲中文字幕第一页免费| 韩国三级在线观看久| 国产精品户露av在线户外直播| 久久99久久99精品免观看女同| 中文字幕专区一区二区| 麻豆国产精品va在线观看不卡| 国产av人人夜夜澡人人爽麻豆| 国产91网址| 日韩一区中文字幕在线| 亚洲成a人v欧美综合天堂| 国产成人乱色伦区| 无码av免费精品一区二区三区|