亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合Skip-gram 與R-SOPMI 的教育領(lǐng)域情感詞典構(gòu)建

        2023-12-08 13:10:02席寧麗李佳敏萬(wàn)曉容
        關(guān)鍵詞:分類情緒情感

        陳 俊,席寧麗,李佳敏,萬(wàn)曉容

        貴州師范大學(xué)教育學(xué)院,貴州貴陽(yáng)550025

        在線教育為迎合現(xiàn)實(shí)需求、滿足政策規(guī)劃,以大規(guī)模、半自主趨勢(shì)深度融入至教育生態(tài)中。在線教育在應(yīng)用過(guò)程中仍存在很多問(wèn)題,如傳統(tǒng)粗粒度的情緒二分類技術(shù)無(wú)法對(duì)不良學(xué)習(xí)情緒進(jìn)行成因分析及干預(yù),因此已不能滿足在線教育中情緒歸因研究的需要[1]。

        目前,情感分析任務(wù)大部分基于情感詞典技術(shù)完成,故高質(zhì)量的情感詞典對(duì)于提高其準(zhǔn)確率、精確率和召回率起著至關(guān)重要的作用[2]。但通用情感詞典面臨領(lǐng)域情感分析任務(wù)時(shí),存在諸多困難:1)部分情感詞存在領(lǐng)域依賴性,無(wú)情感實(shí)體詞在描述領(lǐng)域特定事物時(shí)常出現(xiàn)情感傾向,如動(dòng)詞“實(shí)踐”在實(shí)操類課程中描述學(xué)生行為時(shí)常呈現(xiàn)強(qiáng)烈的正面情感傾向;2)部分情感詞存在著領(lǐng)域特異性,如形容詞“穩(wěn)定”在描述算法性能時(shí)具有正面傾向,但用于描述后進(jìn)生成績(jī)起伏時(shí),常指停滯不前,呈現(xiàn)負(fù)面情感傾向[3],文獻(xiàn)[4] 的實(shí)驗(yàn)表明不同領(lǐng)域之間的情緒相關(guān)性很低。由此可見(jiàn),通用情感詞典在領(lǐng)域情感分析任務(wù)中性能表現(xiàn)不佳。故近年學(xué)術(shù)界對(duì)領(lǐng)域情感詞典的構(gòu)建給予越來(lái)越多的關(guān)注。

        1 相關(guān)研究

        目前,領(lǐng)域情感詞典的構(gòu)建方法有人工標(biāo)注法,這類方法較為耗時(shí)、耗力,覆蓋范圍亦較為有限[5-6]。伴隨社交媒體的數(shù)據(jù)密集型特征,越來(lái)越多的網(wǎng)絡(luò)熱詞和新詞大量涌現(xiàn),人工標(biāo)注法在日百萬(wàn)量級(jí)的新詞更新速度前失去了應(yīng)用價(jià)值,于是領(lǐng)域詞典的自動(dòng)構(gòu)建研究已成為當(dāng)下熱點(diǎn)。下面介紹一下領(lǐng)域情感詞典的自動(dòng)構(gòu)建技術(shù)。

        1.1 基于領(lǐng)域知識(shí)庫(kù)或領(lǐng)域語(yǔ)料資源的方法

        該方法依托于領(lǐng)域知識(shí)庫(kù)或領(lǐng)域語(yǔ)料資源,可分為兩類:1)基于知識(shí)庫(kù)和語(yǔ)法規(guī)則。該類方法基于現(xiàn)有的HowNet、SentiWordNet 等開源中英文情感詞典資源,作為關(guān)系或釋義的擴(kuò)充,此類方法較為簡(jiǎn)單且準(zhǔn)確率高,故在當(dāng)下情感詞典構(gòu)建任務(wù)中應(yīng)用廣泛。但該類方法對(duì)知識(shí)庫(kù)的高度依賴,因此所構(gòu)建的詞典在領(lǐng)域性上表現(xiàn)欠佳。2)基于海量語(yǔ)料和共現(xiàn)關(guān)系。該類方法中最基礎(chǔ)且常用的是逐點(diǎn)互信息技術(shù)(pointwise mutual information,PMI),它是根據(jù)詞的共現(xiàn)關(guān)系進(jìn)行基準(zhǔn)詞的擴(kuò)充,當(dāng)基于領(lǐng)域語(yǔ)料庫(kù)時(shí)可高效擴(kuò)充領(lǐng)域詞[7]。但其缺陷在于,詞典的可靠性依賴于初始手工標(biāo)注的種子詞質(zhì)量,這就要求手工標(biāo)注者對(duì)領(lǐng)域具備深刻的理解。

        1.2 基于詞向量的方法

        構(gòu)建情感詞典可采用深度學(xué)習(xí)優(yōu)化分詞、種子詞構(gòu)建和特征識(shí)別過(guò)程。深度學(xué)習(xí)技術(shù)在情感分析等自然語(yǔ)言處理中的應(yīng)用已成趨勢(shì),目前流行的深度學(xué)習(xí)模型包含卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)和注意力機(jī)制等。文獻(xiàn)[8] 通過(guò)構(gòu)建神經(jīng)網(wǎng)絡(luò)分類器,基于深度學(xué)習(xí)技術(shù)進(jìn)行二分類訓(xùn)練,得到金融領(lǐng)域情感詞典,同時(shí)提出了CNN 與RNN 方法在此類場(chǎng)景中的局限性。文獻(xiàn)[9] 使用了卷積神經(jīng)網(wǎng)絡(luò)與詞頻統(tǒng)計(jì)(convolutional neural network-term frequency,CNN-TF)結(jié)合的方法來(lái)計(jì)算種子情感詞,并使用情感傾向點(diǎn)互信息(semantic orientation pointwise mutual information,SO-PMI)方法構(gòu)建二分類農(nóng)業(yè)領(lǐng)域情感詞典。

        基于詞向量的方法能直接提取詞的相似性信息,對(duì)于文本分析相關(guān)應(yīng)用有著非常重要的意義。該方法通過(guò)詞的分布式學(xué)習(xí)進(jìn)行領(lǐng)域詞典自動(dòng)構(gòu)建,目前常采用Word2vec 模型訓(xùn)練詞向量來(lái)實(shí)現(xiàn)。模型中包含跳字(skip-gram)和連續(xù)詞袋(continue bag of words,CBOW)兩種方法,通過(guò)神經(jīng)網(wǎng)絡(luò)將詞映射到語(yǔ)義空間中。該方法具有規(guī)模大、準(zhǔn)確性高的優(yōu)點(diǎn),在情感特征任務(wù)中具有較大價(jià)值。文獻(xiàn)[10] 將人工篩選的466 個(gè)正負(fù)情感詞作為種子詞,通過(guò)Word2vec 引入的語(yǔ)義相似性信息框架自動(dòng)構(gòu)建旅游領(lǐng)域情感詞典,實(shí)驗(yàn)表明除召回率外各項(xiàng)指標(biāo)都優(yōu)于現(xiàn)有公開詞典。但是該方法的局限表現(xiàn)為用語(yǔ)義相似度來(lái)判別情感極性存在一定的誤差率。

        基于此,文獻(xiàn)[11] 提出一種擴(kuò)充CBOW 模型的分布式情感嵌入學(xué)習(xí),通過(guò)短語(yǔ)級(jí)分類器訓(xùn)練大規(guī)模Twitter 語(yǔ)料,得到二分類情感詞典,評(píng)估結(jié)果表明其各方面性能均取得較大提升。類似研究對(duì)于語(yǔ)義相似度局限性進(jìn)行了改善,但是提出的模型較為復(fù)雜[12],且該模型用于領(lǐng)域情感詞典自動(dòng)構(gòu)建的可行性還有待論證。

        本研究融合了以上兩種技術(shù)基于詞向量模型對(duì)詞語(yǔ)的語(yǔ)言特征進(jìn)行提取,引入Skip-gram方法識(shí)別低頻詞從而保證詞典的新詞覆蓋率,并提出使用“情緒對(duì)”結(jié)合提取詞語(yǔ)概率統(tǒng)計(jì)特征方法[13],融合特征進(jìn)行多分類教育領(lǐng)域情感詞典(educational-oriented sentiment lexicon,EoSL)構(gòu)建,包括語(yǔ)料預(yù)處理、語(yǔ)言概率特征提取、融合統(tǒng)計(jì)概率特征和評(píng)估修正過(guò)程,如圖1 所示。

        研究創(chuàng)新點(diǎn)為:

        1)提出特征融合的方法。在使用Skip-gram 方法基礎(chǔ)上結(jié)合本研究提出的R-SOPMI 進(jìn)行特征融合以提高情感詞典的性能指標(biāo)。

        2)提出R-SOPMI 方法。設(shè)置“情緒對(duì)”基準(zhǔn)類別集合,依據(jù)“情緒對(duì)”映射關(guān)系進(jìn)行共現(xiàn)相似度迭代計(jì)算,將二分類方法擴(kuò)充至多分類,進(jìn)而對(duì)統(tǒng)計(jì)概率特征無(wú)法識(shí)別的情感詞進(jìn)行特征融合計(jì)算,從而提高模型準(zhǔn)確率。

        2 前期準(zhǔn)備工作

        2.1 情緒類別設(shè)置

        情緒分類是情感分類下的子任務(wù),屬于細(xì)粒度文本分析任務(wù),研究所提及的情緒詞典與情感詞典均為同類詞典。目前較權(quán)威的情緒分類方法為Ekman 的情緒六分類理論,即基于面部表情將情緒分為樂(lè)、哀、怒、驚、惡和懼[14-15]。此外,針對(duì)學(xué)業(yè)情緒的特點(diǎn),研究以厭學(xué)學(xué)業(yè)情緒為依據(jù)新增“倦”類別,該情緒特征在教育領(lǐng)域中獨(dú)具價(jià)值性,與產(chǎn)品評(píng)論、股票預(yù)測(cè)等場(chǎng)景相比,“倦”在教育應(yīng)用場(chǎng)景中較為常見(jiàn),與評(píng)論者、評(píng)論對(duì)象具備顯著的情緒相關(guān)性。在學(xué)業(yè)情緒分類研究中,文獻(xiàn)[16] 依據(jù)Pekrun 的學(xué)業(yè)情緒理論,設(shè)置消極低喚醒情緒,包含厭倦、無(wú)助、沮喪、疲倦和失望,研究選取這5 個(gè)詞作為“倦”的種子詞。

        DUT 為大連理工通用情緒詞匯本體的名稱,依據(jù)Ekman 將類別擴(kuò)充為7 大類共27 466個(gè)情感詞[17]。NRC 為加拿大國(guó)家委員會(huì)詞典,包括怒、懼、驚、哀、樂(lè)、惡、期待和信任8種情緒。研究以DUT 7 個(gè)類別情緒為基礎(chǔ),選取NRC 中與DUT 交叉的6 個(gè)類別情緒并與DUT 求并集整合得到通用情緒詞典,延續(xù)DUT 情緒細(xì)分標(biāo)準(zhǔn)。采用“好-惡、樂(lè)-哀、怒-懼、驚-倦”作為目標(biāo)情緒類別,以便進(jìn)行后期R-SOPMI 處理,見(jiàn)表1。

        表1 DUT 與NRC 知識(shí)庫(kù)整合情況Table 1 Integration of DUT with NRC knowledge base

        2.2 語(yǔ)料庫(kù)構(gòu)建

        教育領(lǐng)域的公開語(yǔ)料庫(kù)資源較為匱乏,本文通過(guò)爬蟲程序構(gòu)建教育領(lǐng)域情感詞典的語(yǔ)料,包含以下內(nèi)容:1)爬取教育類微博文本,隨機(jī)爬取新浪微博中通過(guò)了平臺(tái)認(rèn)證的教育博主2018 年以來(lái)的微博;2)選取中國(guó)大學(xué)MOOC、果殼網(wǎng)和學(xué)堂在線這3 個(gè)平臺(tái),隨機(jī)爬取課程截止于2021 年5 月1 日的學(xué)生評(píng)論文本。爬取得到7 萬(wàn)余條文本用以構(gòu)建教育領(lǐng)域語(yǔ)料庫(kù),并進(jìn)行語(yǔ)料預(yù)處理:首先,采用正則表達(dá)式,完成語(yǔ)料的清洗過(guò)濾掉無(wú)意義符號(hào)字符;修正教育領(lǐng)域情感停用詞表,在原有1 893 個(gè)停用詞表中去掉帶有情感傾向的停用詞,得到含有1 625 個(gè)停用詞的停用詞表;最后,使用jieba0.42.1 工具調(diào)用上述操作得到的語(yǔ)料文本和停用詞詞表,進(jìn)行分詞。

        3 情感詞典構(gòu)建

        3.1 語(yǔ)言概率特征計(jì)算

        將預(yù)處理后的語(yǔ)料形成詞表,與DUT、NRC 整合知識(shí)庫(kù)進(jìn)行詞表交集處理,匹配情緒特征,形成各情緒類別種子詞集合,見(jiàn)表2。“倦”情緒類別仍按上文介紹的5 個(gè)種子詞進(jìn)行構(gòu)建。研究采用Word2vec 模型進(jìn)行語(yǔ)言概率特征計(jì)算,進(jìn)而計(jì)算語(yǔ)料庫(kù)詞表與種子詞集合的相似度,并進(jìn)行詞表擴(kuò)充。

        表2 情緒基準(zhǔn)詞集合數(shù)量Table 2 Number of emotional benchmark word sets

        在語(yǔ)言概率模型中,往往很難結(jié)合語(yǔ)義。Tomas Mikolov 在2013 年發(fā)布了開源的Word2vec 工具,能訓(xùn)練高維度稠密詞向量。Word2vec 包含Skip-gram 模型和CBOW 模型,能處理百萬(wàn)級(jí)別的超大數(shù)據(jù)集,訓(xùn)練高質(zhì)量詞向量。

        Skip-gram 模型是通過(guò)當(dāng)前語(yǔ)義單元來(lái)預(yù)測(cè)上下文的,如圖2 所示。CBOW 模型則是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前語(yǔ)義單位的,相較之下,Skip-gram 模型對(duì)低頻詞的敏感度更好,算法精度更高,在存在較多新詞的情況下總體性能更優(yōu),故選取Skip-gram 進(jìn)行模型訓(xùn)練。

        圖2 Skip-gram 模型結(jié)構(gòu)示意圖Figure 2 Skip-gram model structure diagram

        由圖2 可知,該模型首先將中心詞ω以one-hot 編碼方式存儲(chǔ),以上下文的損失函數(shù)之和作為目標(biāo)函數(shù),損失函數(shù)為

        式中:T為文本序列長(zhǎng)度,t為ω的索引,m為窗口大小。利用F計(jì)算已知ω的情況下上下文出現(xiàn)的概率,之后,模型采用隨機(jī)梯度下降進(jìn)行迭代,迭代子序列中的中心詞和背景詞向量計(jì)算輸入側(cè)權(quán)重,產(chǎn)生對(duì)應(yīng)行向量,作為詞的分布式向量表示。

        本實(shí)驗(yàn)調(diào)用gensim 庫(kù)、jieba 庫(kù)與re 庫(kù)來(lái)實(shí)現(xiàn)Skip-gram。結(jié)果表明,設(shè)定輸出詞向量的維度size 為140,窗口距離window 為5,采用負(fù)采樣方法且負(fù)采樣個(gè)數(shù)negative 為5,此時(shí)結(jié)果最優(yōu)。訓(xùn)練好的模型通過(guò)余弦距離判斷相似性[18],公式為

        式中:ω1和ω2分別為兩個(gè)相異詞元,該模型能很好地進(jìn)行詞之間的相似度判斷,但仍存在情感詞極性歧義,如“不厭其煩”與“棘手”在向量空間中的余弦相似度較高,為0.813 2(相似度最高不超過(guò)1),但兩詞“不厭其煩”與“棘手”分屬于“好”與“惡”類別。研究面對(duì)這一問(wèn)題提取候選關(guān)鍵詞輸出結(jié)果,取相似度大于0.6 的詞作為候選關(guān)鍵詞,篩選出其具備的語(yǔ)義特征,并依據(jù)上文已作映射的“好-惡、樂(lè)-哀、怒-懼、驚-倦”進(jìn)行候選關(guān)鍵詞庫(kù)過(guò)濾。

        3.2 統(tǒng)計(jì)概率特征

        在獲得高質(zhì)量的基準(zhǔn)詞集合后,研究通過(guò)R-SOPMI 計(jì)算詞的共現(xiàn)性以獲得其統(tǒng)計(jì)概率特征,在語(yǔ)言統(tǒng)計(jì)特征的基礎(chǔ)上使用結(jié)合技術(shù),進(jìn)行教育領(lǐng)域情緒詞典的構(gòu)建。SO-PMI 是在PMI 的基礎(chǔ)上進(jìn)行改進(jìn),公式為

        式中:ω為目標(biāo)詞,P(ω)和P(sword)分別為詞ω和sword 出現(xiàn)的概率,P(ω,sword)為詞ω與基準(zhǔn)詞sword 共同出現(xiàn)的概率,SO-PMI(ω) 為目標(biāo)詞的情感傾向點(diǎn)互信息值,PMI(ω,sword)能通過(guò)詞之間共現(xiàn)的頻繁程度表示目標(biāo)詞與基準(zhǔn)詞之間的語(yǔ)義相似度,Ssome-kind為某一類別情緒詞集合,Sothers為其他類情緒詞集合之和[19]。

        3.3 詞典擴(kuò)充

        詞典擴(kuò)充通過(guò)設(shè)置“情緒對(duì)”基準(zhǔn)類別集合,將二分類SO-PMI 方法改進(jìn)至多分類R-SOPMI 方法實(shí)現(xiàn)。具體實(shí)現(xiàn)步驟如下:

        步驟1詞向量訓(xùn)練。以某一情緒組為例,根據(jù)映射關(guān)系迭代語(yǔ)義相似度運(yùn)算,得到經(jīng)過(guò)語(yǔ)言概率特征計(jì)算的擴(kuò)充詞表。

        步驟2進(jìn)行子集的順序運(yùn)算,公式為

        式中:ωt為計(jì)算目標(biāo)詞,Si和Aj分別為上文中對(duì)應(yīng)映射組的基準(zhǔn)情緒詞集合,SO-PMI(ωt)為改進(jìn)算法中目標(biāo)計(jì)算詞的情感傾向點(diǎn)互信息值。若SO-PMI(ωt)>0 則形成Si候選情緒詞集合;若SO-PMI(ωt)<0 則形成Aj對(duì)應(yīng)類別集合;若SO-PMI(ωt)=0 則形成中性候選情緒詞集合。

        步驟3在擴(kuò)充詞表中刪除中性候選情緒詞,完成教育領(lǐng)域情感詞典EoSL 構(gòu)建。

        最終得到的教育領(lǐng)域情感詞典EoSL,包含39 138 個(gè)詞,擴(kuò)充結(jié)果見(jiàn)表3。

        表3 詞典擴(kuò)充結(jié)果對(duì)比Table 3 Comparison of dictionary expansion results

        4 評(píng)估

        為評(píng)估改進(jìn)算法性能和擴(kuò)充后的教育領(lǐng)域情感詞典性能,本文將R-SOPMI 與SO-PMI進(jìn)行對(duì)比實(shí)驗(yàn),將擴(kuò)充后的教育領(lǐng)域詞典EoSL 和融合DUT、NRC 得到的通用情緒詞典進(jìn)行對(duì)比實(shí)驗(yàn)。

        4.1 R-SOPMI 與SO-PMI 性能對(duì)比

        算法平均復(fù)雜度由算法性能、種子詞質(zhì)量和訓(xùn)練語(yǔ)料大小決定。本實(shí)驗(yàn)采用同一種子詞集合比較不同規(guī)模訓(xùn)練語(yǔ)料數(shù)據(jù)集對(duì)應(yīng)的精確率及其變化趨勢(shì),以對(duì)R-SOPMI 與SO-PMI進(jìn)行對(duì)比。SO-PMI 算法只能處理二分類問(wèn)題,故實(shí)驗(yàn)針對(duì)每一情緒類別,以單一類別為一分類,其余情緒類別為二分類方法實(shí)現(xiàn)SO-PMI 算法處理。

        實(shí)驗(yàn)結(jié)果由圖3 可知,惡、哀、怒和倦這4 類情緒隨著語(yǔ)料規(guī)模的增加,R-SOPMI 始終高于SO-PMI,整體在性能上提升顯著。語(yǔ)料規(guī)模增加過(guò)程中,情緒“樂(lè)”在[122.2,239.5] 區(qū)間內(nèi),情緒“懼”在[111.3,275.8] 區(qū)間內(nèi),R-SOPMI 的精確率低于SO-PMI 算法,隨著語(yǔ)料規(guī)模繼續(xù)增加,最終在大規(guī)模語(yǔ)料上R-SOPMI 的精確率比SO-PMI 算法分別高出14.31%和17.40%。兩類算法中情緒“驚”的精確率都處于較低水平,當(dāng)語(yǔ)料大于275.8 萬(wàn)之后,最終R-SOPMI 的準(zhǔn)確率高于SO-PMI 算法,且提高了15.09%。情緒“好”在較小語(yǔ)料時(shí)精確率略高于SO-PMI 算法,當(dāng)語(yǔ)料增大到78.6 萬(wàn)時(shí)開始低于SO-PMI 算法,其原因可能是該情緒在語(yǔ)料中分布較多,隨著語(yǔ)料的增加引入了誤差,降低了情緒類別精確率。

        圖3 R-SOPMI 精確率對(duì)比Figure 3 R-SOPMI accuracy rate comparison

        4.2 詞典性能評(píng)估

        由詞典擴(kuò)充結(jié)果可知,8 種情緒在分布上不均衡,故采用精確率PPrecision、召回率RRecall和F1 進(jìn)行評(píng)估。隨機(jī)抽取4 000 條文本作為測(cè)試集,并進(jìn)行手工標(biāo)注。對(duì)比情緒類別輸出結(jié)果與人工標(biāo)注結(jié)果,進(jìn)行精確率、召回率和F1 的計(jì)算:

        式中:TP 為輸出結(jié)果與人工標(biāo)注相匹配數(shù)量,F(xiàn)P 為輸出結(jié)果不在人工標(biāo)注數(shù)量,F(xiàn)N 為未成功識(shí)別數(shù)量。性能評(píng)估結(jié)果如表4 所示,表中通用情緒詞典指通過(guò)人工操作將DUT、NRC 中原有詞與情緒類別進(jìn)行關(guān)聯(lián)[20],粗體為較優(yōu)指標(biāo)。通用情緒詞典不包含“倦”情緒,因此表4中“倦”情緒對(duì)應(yīng)通用詞典的實(shí)驗(yàn)數(shù)據(jù)為空。

        表4 各情緒類別精確率、召回率和F1 對(duì)比圖Table 4 Comparison of PPrecision, RRecall and F1 by sentiment category %

        由表4 可知,較于融合DUT、NRC 的通用詞典,除“好”和“樂(lè)”的召回率外,各指標(biāo)性能均處于較高水平:1)各情緒類別的精確率表現(xiàn)良好,好、惡、樂(lè)、哀、驚和倦這6 類情緒的準(zhǔn)確率表現(xiàn)顯著,均高于86.84%,表明歧義詞數(shù)量少;2)情緒“驚”在3 類指標(biāo)上均有大幅提升,其中F1 提升了38.21%,綜合性能的提升在所有類別中最為顯著。其原因應(yīng)為增加“倦”情緒類別與驚情緒類別構(gòu)成“情緒對(duì)”,通過(guò)引入R-SOPMI 算法提高了各項(xiàng)性能指標(biāo);3)情緒“怒”在整體中表現(xiàn)欠佳,雖然F1 值比通用詞典提升了12.15%,但僅達(dá)到61.10%,導(dǎo)致其擴(kuò)充后性能不佳的原因是“怒”在教育領(lǐng)域中出現(xiàn)頻率較低,對(duì)于其情緒詞的領(lǐng)域內(nèi)情境依賴關(guān)系的挖掘還較欠缺,可考慮在語(yǔ)料庫(kù)中增加富含怒情緒的事件。

        根據(jù)上述指標(biāo)可以計(jì)算出詞典的宏平均準(zhǔn)確率為84.18%,較通用詞典提升了21.95%,其宏平均召回率為80.07%,較通用詞典提升了2.50%,其宏平均F1 為82.08%,較通用詞典提升了13.01%,充分證明了“情緒對(duì)”融合特征模型對(duì)于領(lǐng)域情緒知識(shí)擴(kuò)充的有效性。

        此外,將本文詞典與深度學(xué)習(xí)技術(shù)所構(gòu)建的詞典進(jìn)行比較,文獻(xiàn)[9] 使用了CNN-TF 卷積神經(jīng)網(wǎng)絡(luò)與詞頻統(tǒng)計(jì)結(jié)合的方法構(gòu)建二分類農(nóng)業(yè)領(lǐng)域情感詞典,見(jiàn)表5。本文采用了通用性較強(qiáng)的Word2vce 方法,自動(dòng)生成情感種子詞,再改進(jìn)到R-SOPMI 算法中,實(shí)現(xiàn)對(duì)細(xì)粒度情緒的情感傾向計(jì)算。盡管在表5 中京東數(shù)據(jù)集上的綜合精確率為82.88%,略好于本文中“樂(lè)”、“懼”和“倦”的精確率指標(biāo),但考慮到文獻(xiàn)實(shí)現(xiàn)的是粗粒度二分類,對(duì)比本文細(xì)粒度多分類(多分類方法對(duì)比二分類方法具備性能下降屬性)區(qū)別并不顯著;且對(duì)比文獻(xiàn)的方法使用了人工調(diào)精處理,本文方法未進(jìn)行人工篩選種子詞,故本文詞典構(gòu)建方法具備差異化優(yōu)勢(shì)。

        表5 CNN-TF 深度學(xué)習(xí)領(lǐng)域詞典實(shí)驗(yàn)結(jié)果Table 5 CNN-TF deep learning field dictionary experimental results %

        5 結(jié)語(yǔ)

        本文提出了一種基于“情緒對(duì)”融合特征模型擴(kuò)充的教育領(lǐng)域情感詞典構(gòu)建方法。首先通過(guò)詞向量進(jìn)行語(yǔ)義相似度判斷,實(shí)現(xiàn)“情緒對(duì)”擴(kuò)充,為詞典初步構(gòu)建節(jié)省時(shí)間;然后采用R-SOPMI 算法按“情緒對(duì)”進(jìn)行詞典調(diào)整,并結(jié)合統(tǒng)計(jì)概率特征對(duì)模糊詞分類。經(jīng)過(guò)實(shí)驗(yàn)評(píng)估,以上方法能得到性能良好的結(jié)果,除“怒”和“懼”外各情緒類別精確率均達(dá)到86.84%;除“怒”和“倦”外,召回率均達(dá)到72.77%;除“怒”外,F(xiàn)1 均達(dá)到78.09%。從性能提升上看,各情緒類別指標(biāo)均大幅提升,其中“驚”精確率提升了51.55%,召回率提升了24.87%,F(xiàn)1 提升了38.18%。該詞典仍然存在著改進(jìn)的空間,通用詞典中部分詞的情緒分類標(biāo)簽在教育領(lǐng)域中的適切性并不高,如“重點(diǎn)”在DUT 本體庫(kù)中劃分為懼,而“重點(diǎn)”在教育領(lǐng)域常用于強(qiáng)調(diào)能夠把握重點(diǎn)知識(shí)點(diǎn),應(yīng)屬于好這一情緒類別。因此,如何結(jié)合語(yǔ)義知識(shí)優(yōu)化教育領(lǐng)域情感詞典,將成為下一步研究目標(biāo)。

        猜你喜歡
        分類情緒情感
        分類算一算
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        分類討論求坐標(biāo)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        數(shù)據(jù)分析中的分類討論
        小情緒
        小情緒
        小情緒
        国产一品二品三区在线观看| 国产精品三区四区亚洲av| 国内永久福利在线视频图片| 亚洲精品无码精品mv在线观看| 97高清国语自产拍| 欧美色欧美亚洲另类二区不卡| 吃下面吃胸在线看无码| 日本高清视频一区二区| 国产自国产自愉自愉免费24区| 少妇人妻偷人精品免费视频| 一本大道久久精品 东京热 | 欧美黑人又粗又大久久久 | 精品成人乱色一区二区| 最近高清中文在线字幕观看| 久久久久久国产福利网站| 91在线视频视频在线| 国模91九色精品二三四| 色欲av蜜桃一区二区三| 国产精品公开免费视频| 91大神蜜桃视频在线观看| 麻豆精品一区二区综合av| 又粗又黑又大的吊av| 欧美 国产 综合 欧美 视频| 亚洲成a人片在线看| 亚洲a人片在线观看网址| 国产黄色一区二区三区av| 久久综合狠狠综合久久综合88| 中文字幕人妻偷伦在线视频| 亚洲免费无毛av一区二区三区| 国产亚洲精品90在线视频| 色avav色av爱avav亚洲色拍 | 久久aⅴ人妻少妇嫩草影院| 1717国产精品久久| 国产精品一区二区三区不卡| 国产成人亚洲一区二区| 国产亚洲精品久久久ai换| 中国极品少妇videossexhd| 亚洲av午夜福利精品一区二区| 国产亚洲成人精品久久| 人人妻人人澡人人爽精品欧美| 久久一日本道色综合久久大香|