亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合BERT與句法依存的性格識別方法研究

        2023-09-25 08:55:46張忠林袁晨予陳麗萍吳奕霖
        計算機工程與應用 2023年18期
        關鍵詞:句法性格語義

        張忠林,袁晨予,陳麗萍,吳奕霖

        1.蘭州交通大學電子與信息工程學院,蘭州730070

        2.中國科學院自動化研究所多模態(tài)人工智能系統全國重點實驗室,北京100190

        3.中國科學院大學人工智能學院,北京100049

        隨著社交媒體和電子商務的迅速發(fā)展,中國互聯網絡信息中心發(fā)布的第50 期《中國互聯網絡發(fā)展狀況統計報告》中顯示,截至2022年6月,我國網絡購物用戶規(guī)模達8.41億,網絡視頻用戶規(guī)模為9.95億。這些用戶可以在平臺上對于產品、政策等發(fā)表評論、表達觀點,海量的用戶數據中蘊含了性格特征,深入挖掘評論及觀點的語義、識別不同的寫作風格、準確識別性格特點有助于商家及管理部門更好地理解受眾興趣、意圖及反饋,快速做出決策,提升用戶的滿意度[1-3]。

        現有基于文本的性格分析大致可分為兩類。一類是基于心理學詞典的方法[4-7],該方法利用心理語言學的先驗知識,對文本中的詞匯進行分類與統計,將不同的詞匯歸并到不同類別中,隨后對各類別中詞匯的頻率進行統計以預測性格?;谛睦碓~典的方法需要投入大量人力物力更新維護詞典。另一類基于深度學習的方法[8-10],利用卷積神經網絡或循環(huán)神經網絡自動識別關聯特征,并通過分類器進行性格識別。然而,基于深度學習的方法無法有效利用心理學特征詞匯提供的額外語義線索進行性格識別。

        近年來,預訓練模型發(fā)展迅猛,為更好地學習深度語義提供了有效的機制。以BERT為例,其特征提取和雙向的特征融合能力使其在大多數任務中取得了較好的效果。句法依存關系中,動詞作為句子的核心,經常會與其他成分建立關聯,LIWC(linguistic inquiry and word count)詞典中動詞和形容詞的占比較高,包含了更多的性格線索。因此,如何進一步有效融合預訓練模型與性格線索以提升性格識別的性能是性格識別亟須解決的關鍵技術挑戰(zhàn)。

        針對以上問題,本文提出了基于BERT與句法依存的性格識別模型BERT-SDFM(syntactic dependent fusion model),該模型利用詞性標注(part-of-speech tagging,POS)對文本進行分詞及詞性標注,提取出在句法依存分析中處于句子主導地位的這類包含更多性格線索的心理學詞匯,利用BERT分別學習文本和心理學詞匯的表征向量,設計條件融合機制將額外的性格識別線索的向量表示作為條件編碼嵌入到文本表示向量中,顯示建模兩者之間的依賴關系,以此利用額外的心理學先驗知識提高性格識別的性能。最后通過全連接網絡降維并預測性格,實現協同建模的性格預測。構建了面向中文電影評論的性格數據集,并實驗證明了本文提出的模型在面向主題的社交媒體短文本上的性格識別的有效性。

        1 相關工作

        1.1 基于文本的性格識別數據集

        目前基于大五人格理論,基于文本的性格識別數據集主要有Essays、MyPersonality、FriendsPersona 和Pandora。Essays由英文文章組成,每篇文章針對五個性格維度有一個二進制值,表示是否具備該性格特征,其次每個性格維度對應一個評分,表示對應性格得分;

        MyPersonality(https://sites.google.com/michalkosinski.com/mypersonality)是由匿名Facebook用戶的個人狀態(tài)更新組成的一個集合,包含對應性格的評分;FriendsPersona(https://github.com/emorynlp/personality-detection)是從《老友記》電視節(jié)目的對話中提取的文本數據集,包含對話中人物五個性格維度的評分標簽;Pandora(https://paperswithcode.com/dataset/pandora)是Reddit 評論數據集,包含基于大五人格理論、MBTI人格理論和九型人格理論的三種用戶人格模型以及年齡、性別和位置的人口統計數據。

        上述基于文本的性格識別數據集均是主題寬泛的多標簽數據集,當前缺乏特定主題下用戶評論的相關數據集,因此構建了兩個面向主題的數據集以分析在特定主題下用戶的性格。

        1.2 基于心理學詞典的性格識別

        在早期的研究中,Pennebaker 等人[4]發(fā)現寫作風格對于性格分析具有重要意義,隨后提出了LIWC 方法,并發(fā)布了LIWC2001[5],該方法通過對文本中的詞匯進行分類與統計,將不同的詞匯歸并到“功能詞”(如:冠詞、連詞、代詞)、“情感歷程”(如:氣憤、感恩、失望)和“認知行為”(如:理解、選擇、質疑)等類別中,然后對各類別中詞匯的頻率進行統計分析以預測性格。此后,Boot 等人[6]和Pennebaker 等人[7]對LIWC 方法進行了改進并先后發(fā)布了LIWC2007和LIWC2015。為了方便用戶在Web 上進行性格檢測,Golbeck[11]開發(fā)了Receptiviti API,該接口提供了基于LIWC的性格分析工具,支持基于大五人格理論的可視化預測結果展示。在實際運用中,崔京月等人[3]利用LIWC 心理詞典分析用戶的性格及歌詞偏好特征,發(fā)現歌詞文本的關鍵詞特征在一定程度上符合不同用戶群體的人格特點。上述研究表明,心理學詞匯與性格識別有著密切的關聯,然而,基于性格詞典的分析方法,詞典的構建及維護需要投入大量人力物力,而社交文本中性格的表達具有多樣性及動態(tài)變化的特點,僅依賴詞典中的詞難以動態(tài)捕獲上下文語義信息,導致識別性能不佳。

        1.3 基于深度學習的性格識別

        1.3.1 詞嵌入方法

        詞嵌入技術通過將詞元轉換為多維向量,以此解決獨熱編碼稀疏問題,同時語義相近的詞元會被相似的向量表示,這使得詞向量會包含少量的語義信息。Word2Vec作為詞嵌入技術的代表,Majumder等人[8]采用該技術對文本內容進行嵌入,然后通過CNN 進行性格識別。為進一步豐富詞向量的語義表示,Pennington 等人[12]提出了GloVe(global vectors for word representation),一種基于大語料庫的預訓練詞嵌入技術。Xue 等人[13]基于GloVe 對單詞進行嵌入并結合BiGRU 形成包含文本語義信息的詞向量,最后通過這些詞向量進行性格識別。

        1.3.2 神經網絡及預訓練模型

        端到端的多層神經網絡在文本的深度特征提取方面發(fā)揮了巨大作用。卷積神經網絡CNN和循環(huán)神經網絡RNN 作為最具代表性的兩大深度學習架構,已經在許多自然語言處理任務中被成功地應用。Majumder等人[8]針對Essays數據集設計了獨特的卷積神經網絡用于從文本中提取文檔級特征向量并進行基于大五人格的性格識別。Ren 等人[9]對比了CNN 和RNN 在性格分類任務中的表現,發(fā)現CNN 對于提取與位置無關的局部特征信息時的表現比RNN 更有優(yōu)勢,因此在性格識別與情感分類這類依賴關鍵詞的任務中CNN表現得往往比RNN 更好。Darliansyah 等人[10]針對MyPersonality 數據集提出了融合CNN與LSTM的NNLM(neural network language model)模型,該模型充分利用卷積神經網絡和循環(huán)神經網絡的優(yōu)點進行性格識別。

        Transformer[14]通過多頭注意力機制和前饋神經網絡優(yōu)化中文糾錯、中文翻譯、問答系統等seq2seq 任務。基于Transformer,谷歌提出了預訓練模型BERT[15],該模型通過掩碼機制和下句預測機制使其能獲取雙向語義信息,最終生成包含深層語義信息的詞向量。Ren等人[9]針對Essays數據集,利用BERT模型提取文本語義信息形成句子級嵌入,同時結合了文本情感信息進行性格識別。Yang 等人[16]針對Pandora 數據集,通過基于BERT的多級文檔編碼(Transformer-MD)機制對長文本進行語義建模,并使用維度注意力機制進行性格識別。胡任遠等人[17]提出基于BERT提取的文本語義信息融合目標領域多層次語義信息的情感分析方法。

        上述方法針對Essays 和MyPersonality 等主題較為寬泛的數據集時,都僅使用文本進行語義建模。然而,在特定主題下的用戶評論與用戶日常動態(tài)或文章存在著明顯的表達風格上的差異,例如在面向主題的情況下,用戶使用修飾詞例如程度副詞、形容詞等的頻率會明顯的提高,本文通過條件語義融合機制將POS有效融合到語義表示中,解決了當前性格模型無法利用POS作為輔助信息的問題,從而提高面向主題下短文本數據的性格識別性能。

        通過使用預訓練語言模型,捕獲文本深層語義信息,充分挖掘社交媒體短文本中包含的用戶性格特征,解決上述方法存在的針對短文本性格識別心理學詞匯缺乏的問題,從而提高了短文本數據上性格識別的性能。

        2 基于BERT與句法依存的性格識別模型(BERTSDFM)

        2.1 模型設計

        圖1所示為提出的基于BERT與句法依存的性格識別模型框架圖。主要包括基于預訓練BERT 的語義編碼層、融合文本和性格線索的語義交互層以及性格識別層三個主要部分。語義編碼層通過BERT 對文本信息和句法依存提取到的蘊含性格特征的心理學詞匯信息進行深層的語義抽取,分別形成包含二者全部語義的特征向量。語義交互層通過條件語義融合模型將心理學詞匯中抽取出的包含性格線索的向量作為外部條件融合到文本的特征向量中。性格識別層采用融合后的特征向量對性格進行識別,解決單一BERT模型缺乏領域先驗知識的挑戰(zhàn)。

        圖1 BERT-SDFM模型Fig.1 BERT-SDFM model

        2.2 基于預訓練模型BERT編碼層

        BERT模型由多層Transformer構成,通過自動掩碼機制和上下句預測任務,在無監(jiān)督目標下對大規(guī)模語料進行預訓練,有效學習文本潛在的深層語義、語法信息,獲得蘊含豐富語義的文本表征。現有研究表明心理學知識及語言詞性特征有助于提升性格識別性能[18],為了更好地挖掘性格,采用BERT學習文本和心理學詞匯的向量表示,再通過微調的方法適應性格識別任務模式。

        首先,對原始的文本數據進行預處理去除換行符、制表符等無意義的符號形成句子C,接著,通過詞性標注與心理學先驗知識提取文本中包含更多性格線索的動名詞和形容詞集合A={A1,A2,…,Ai} ,將A中的單詞進行拼接形成句子P,最后采用預訓練模型BERT分別對句子C和P進行向量化處理,計算每個單詞的上下文表示,得到對應的詞向量矩陣,表示為HC和HP。

        2.3 融合文本和性格線索的語義交互層

        基于上述生成的文本和性格線索特征向量,為了更好地體現二者之間深層次的語義交互,挖掘動態(tài)交互語義,設計了融合文本和性格線索的條件語義交互模型,該模型將性格線索特征向量作為條件信息,動態(tài)生成文本向量的增益和偏置,通過條件融合函數將增益和偏置集成到性格文本表示中,獲得詞性特征對于性格文本語義的影響程度,一定程度上解決單純編碼文本信息,無法感知文本中重要詞性特征的不足,如圖2所示。

        圖2 融合文本和性格線索的條件語義交互模型Fig.2 Conditional semantic interaction model combining text and part-of-speech features

        首先對文本詞向量矩陣HC中的每個詞向量進行標準差歸一化,其中,μ和σ代表每個詞向量的均值與方差。其次采用條件融合函數CLN 將性格線索特征向量和標準差歸一化后的文本詞向量矩陣Hnormal_C融合,得到文本和性格線索動態(tài)語義交互的條件融合矩陣Hm。Hnormal_C的條件增益向量γP和條件偏置向量βP,分別由增益效果控制矩陣Wγ和偏置效果控制矩陣Wβ與性格線索特征向量相乘,并與各自的偏置值bγ和bβ相加得到,Wγ、Wβ、bγ和bβ均在模型訓練中動態(tài)學習。

        2.4 性格預測層

        如圖3,為了進行性格預測,將條件融合矩陣Hm按詞向量維度求取平均形成條件融合向量he,并輸入到負責性格識別的全連接網絡并輸出性格識別向量ho,隨后對ho進行池化后得到性格概率向量hY?。

        圖3 條件融合矩陣降維Fig.3 Dimensional reduction of conditional fusion matrix

        其中,W表示性格特征學習矩陣,b表示偏置值,softmax表示池化函數。

        最后,采用交叉熵損失函數對模型進行優(yōu)化:

        3 實驗與分析

        3.1 實驗環(huán)境

        本文采用ubuntu18.04 操作系統,GPU 為A100,采用pytorch深度學習框架。

        3.2 實驗數據

        針對現有面向主題的性格識別研究工作中公開數據集稀缺的問題,本文構建了面向都市愛情電影《愛情神話》和面向懸疑劇情電影《揚名立萬》的性格數據集。

        《愛情神話》性格數據集采集了從2021 年12 月到2022年6月,豆瓣電影、微博、西瓜視頻的6 534條評論數據。

        《揚名立萬》性格數據集采集了從2021 年11 月到2022 年10 月,豆瓣電影、西瓜視頻、抖音、時光網的4 225條評論數據。

        將存在缺失、重復、亂碼、中文繁體等問題的數據進行刪除及簡化等預處理,對數據長度太短(<5)不能有效表達性格的以及數據長度太長(>350)導致表達冗余的數據進行清除,分別得到4 493 條、3 167 條數據。刪除不能體現性格的數據,例如“義烏小伙兒亞歷山大為觀眾留下了深刻的印象?!币约啊?022 年春節(jié),濟南,和家人”等陳述性評論數據。

        根據大五人格性格領域詞典,結合所采集電影的場景和數據,選取了大五人格中的四類性格作為標簽進行標注,分別為開放性、宜人性、責任心、神經質。四種性格的描述如表1所示。

        表1 性格描述Table 1 Description of personality

        為了保證人工標注數據的準確性,借鑒文獻[19-20]中的標注方法,邀請2 名熟悉性格領域的同學按照表1性格描述對數據進行標注。采用在心理學、社會學等常用一致性評價方法Kappa 系數[21]檢驗數據標注的一致性。兩個數據集上標注一致性Kappa系數分別為0.71、0.73,表明數據標注的一致性很高,最終得到2 331 條、2 202條實驗數據,數據集采集信息如表2所示。

        表2 實驗數據集Table 2 Experimental dataset

        對保留的數據進行特征統計,《愛情神話》數據長度分布如圖4(a)所示,分布較不均衡。《揚名立萬》數據長度分布如圖4(b)所示,與《愛情神話》數據集相比分布趨于均衡且數據長度分布范圍小。

        圖4 數據長度分布Fig.4 Data length distribution

        兩個數據集中的性格分布如表3所示,宜人性和開放性數據占比較高,責任心和神經質數據量較少。對標注后數據進行整理、合并后,按照7∶2∶1劃分訓練集、驗證集和測試集,進行實驗測試。

        表3 性格數據分布Table 3 Distribution of personality data

        3.3 評價指標與參數設置

        為了更好地度量模型的性能,采用準確率A(Acc)、精確率P(Precision)、召回率R(Recall)、F1 作為評價指標,其中,將F1 作為主要評價指標。計算公式如下:

        其中,TP表示實際為正向、模型預測結果也為正向的樣本,FP 表示實際為負向、模型預測結果為正向的樣本,TN 表示實際為負向、模型預測結果也為負向的樣本,FN表示實際為正向、模型預測結果為負向的樣本。

        本文模型BERT-SDFM 采用Google 預訓練好的“BERT-Base-Chinese”中文模型,該模型采用12層Transformer,模型總參數大小為1.1×108,批次大小設置為8,學習率為2E-5,最大序列長度355,優(yōu)化器為Adam。

        3.4 基準方法描述

        采用TEXTCNN、BERT、BERT-SDM作為基準方法:

        (1)TEXTCNN[22]:基于詞嵌入向量,經過卷積池化預測性格分類,模型結構簡單,運行高效。通過預訓練的詞嵌入初始化權重。設置3 個大小為2、3、4 的濾波器,卷積核的數量為256。

        (2)BERT[15,23]:利用預訓練模型中Transformer 結構可并行、可疊加的優(yōu)勢,高效準確地捕獲深層語義信息,提高性格預測能力。BERT 首先將句子輸入到模型中,得到每個詞的嵌入維度為768,再通過12層的Tansformer encoder結構得到富含句法語義特征的詞特征向量。將[CLS]位置的特征向量作為句子的全局表示,然后使用全連接層對其進行降維,用softmax得到性格分類結果。

        (3)BERT-SDM:利用開源工具LAC[24]得到文本中的詞性特征作為條件信息與原始文本信息拼接。利用BERT 對拼接后的文本進行編碼,使用全連接層對文本表示進行降維,用softmax得到性格分類結果。

        3.5 實驗結果與分析

        3.5.1 實驗結果

        表4所示,對于《愛情神話》數據集,與基于預訓練的詞嵌入,通過卷積、池化等實現性格語義的表示與識別的TEXTCNN 方法相比,預訓練系列的BERT 方法在精確率、召回率、F1、準確率各指標上均得到了提升,其中,精確率從0.582 7提升到了0.654 6,召回率從0.594 3提升到了0.635 2,F1 從0.578 1 提升到了0.638 6,準確率從0.583 7 提升到了0.659 4,體現了預訓練方法獲得深層次語義表示能力對于提升性格預測性能的有效性。在預訓練系列方法中,通過在BERT上引入句法依存等先驗特征信息,BERT-SDM進一步提升了BERT方法在各類指標的性能,以F1 為例,從0.638 6 提升到0.643 9,證明了融合句法依存對性格識別的有效性。提出的BERT-SDFM 方法進一步采用先驗信息條件語義融合模型改進了句法依存信息的融合方式,在精確率、召回率、F1、準確率指標上均取得了最優(yōu)的效果,分別為0.666 7、0.644 0、0.651 8、0.673 1,表明了挖掘性格語義與句法依存間的動態(tài)交互有助于捕獲更深層次的語義信息,進而提升了性格分析效果。

        表4 實驗結果Table 4 Experimental results

        對于《揚名立萬》數據集,與TEXTCNN 方法相比,預訓練系列的BERT方法的各指標同樣得到了提升,其中精確率從0.560 8 提升到了0.664 4,召回率從0.545 6提升到了0.641 8,F1 值從0.544 3 提升到了0.647 0,準確率從0.581 8提升到了0.665 7。由于《揚名立萬》短文本居多,簡單的拼接不能更好地融合句法依存關系,引入先驗特征信息后的BERT-SDM 方法在較短數據集中表現不佳。BERT-SDFM方法采用條件融合機制得到了最優(yōu)結果,指標分別為0.669 0、0.653 6、0.657 0、0.674 8。

        采用拼接方法融合句法依存信息后,BERT-SDM方法進一步提升了BERT方法在各個指標的性能。在《愛情神話》數據集中BERT-SDM 的F1 值和BERT 基準相比,分別從0.638 6 提高到了0.643 9。證明了句法依存信息對于《愛情神話》數據集效果更明顯。而在《揚名立萬》數據集中,簡單拼接難以將句法依存關系更好地與文本信息融合,BERT-SDM在部分短文本預測中表現稍弱。

        本文提出的BERT-SDFM 模型在兩個數據集下,各項指標在BERT-SDM基礎上得到了較大提升,F1值分別為0.651 8和0.657 0,準確率值分別為0.673 1和0.674 8。驗證了句法依存關系的有效性和模型的識別能力。

        3.5.2 句法依存關系的影響

        為了避免模型在小數據量的情況下出現過擬合,保證最終結果的穩(wěn)定和正確以及尋找在不同主題電影數據中最能體現性格的句法依存關系,采用K折交叉驗證對兩個數據集進行十折劃分,將十次實驗的評價指標取平均值作為了最終的評價指標。在劃分的數據集上分別進行預訓練模型在不同句法依存關系下的實驗,實驗結果如表5所示,表中數據均為十折交叉驗證取平均后的結果。在《愛情神話》數據集上,BERT模型的F1值達到了0.638 6。在BERT-SDFM模型上,形容詞和動名詞的句法依存關系達到了最優(yōu),F1值為0.651 7。在《揚名立萬》數據集上,與《愛情神話》數據集相比,BERT的F1值從0.638 6 提高到了0.647 0,表明《揚名立萬》數據集中性格表現更加分明。形容詞和動名詞的句法依存關系同樣達到了最優(yōu),F1值為0.657 0。

        表5 句法依存關系在十折交叉驗證中對F1值的影響Table 5 Effect of syntactic dependency on F1 values in ten fold cross validation

        圖5展示了句法依存關系對F1值的影響,對比了在兩個數據集中不同句法依存關系組合的效果。形容詞和動名詞組合的句法依存關系在兩個實驗數據中,均取得了最好的性格識別效果。

        圖5 句法依存關系對比Fig.5 Comparison of syntactic dependency relationship

        與其他組合相比,F1值最高,達到了0.651 7和0.657 0。動名詞是具有名詞功能的一種動詞,實驗結果表明了形容詞和動名詞的句法依存關系在文本性格識別問題中更為重要。因此,選擇形容詞和動名詞的句法依存關系作為BERT-SDFM模型的句法依存關系。

        BERT-SDFM 在兩個數據集中都取得了最好的效果,充分體現了模型的性格識別能力。表明了挖掘性格語義與句法依存信息間的動態(tài)交互有助于捕獲更深層次的語義信息,進而提升了性格分析效果。

        4 結束語

        本文針對基于BERT模型在性格識別任務中缺乏心理學先驗知識的技術挑戰(zhàn),提出了基于BERT與句法依存的性格識別模型(BERT-SDFM)并將其應用于性格識別任務中。在構建的面向中文電影評論的性格數據集上與TEXTCNN、BERT、BERT-SDM進行實驗對比,實驗結果表明所提模型BERT-SDFM具有更好的性格識別效果。未來工作會進一步完善數據集,對提出的方法進行更細致的測試,嘗試將情感、主題等更多維度的特征融合到提出的模型框架中,深入研究不同要素之間的關聯影響。

        猜你喜歡
        句法性格語義
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        貓的性格爪知道
        述謂結構與英語句法配置
        語言與語義
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        “上”與“下”語義的不對稱性及其認知闡釋
        現代語文(2016年21期)2016-05-25 13:13:44
        性格反轉
        你的性格像《哆啦A夢》中的誰
        中學生(2015年31期)2015-03-01 03:44:35
        認知范疇模糊與語義模糊
        久久久久久曰本av免费免费| 丰满少妇又爽又紧又丰满动态视频 | 中文字幕亚洲永久精品| 99精品久久99久久久久| 国产一区二区精品久久| 在线观看视频亚洲| 久久婷婷国产五月综合色| 久久一区二区国产精品| 欧美狠狠入鲁的视频777色| 一个人看的www免费视频中文| 国产aⅴ丝袜旗袍无码麻豆| 精品国产一区二区三区香| 午夜免费福利小电影| 国产亚洲精品久久久久秋霞| 亚洲日本无码一区二区在线观看| 日本专区一区二区三区| 亚洲高清精品一区二区| 每日更新在线观看av| 日本国产一区二区在线| 区一区二区三免费观看视频 | av一区二区三区综合网站| 夜夜高潮夜夜爽国产伦精品| 国产av国片精品| 视频一区视频二区亚洲免费观看| 五月婷婷六月丁香久久综合| 国产成人精品久久一区二区三区| 91麻豆精品激情在线观看最新| 日产精品一区二区在线| 亚洲一区中文字幕一区| 国产精品日本一区二区在线播放 | 国产99视频一区二区三区| 欧美乱妇高清无乱码免费| 亚洲高潮喷水无码av电影| 国产女同一区二区在线| 在线中文字幕一区二区| 欧美精品黑人粗大免费| 国产白丝网站精品污在线入口| 青青草成人原视频在线播放视频| 国产精品久免费的黄网站| 久久久久无码国产精品不卡| 日韩在线精品视频观看|