亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合遺傳算法的特定領(lǐng)域情感詞庫(kù)構(gòu)建

        2022-08-29 09:42:44杜茂康李曉光
        關(guān)鍵詞:詞庫(kù)極性遺傳算法

        杜茂康,李曉光,劉 崠

        (重慶郵電大學(xué) 電子商務(wù)與現(xiàn)代物流重點(diǎn)實(shí)驗(yàn)室,重慶 400065)

        0 引 言

        隨著互聯(lián)網(wǎng)的深度發(fā)展及應(yīng)用,社交媒體在過(guò)去幾年迅速發(fā)展,網(wǎng)絡(luò)用戶不斷增加,使得社交媒體成為最大的輿論數(shù)據(jù)來(lái)源。在社交媒體網(wǎng)站上發(fā)布消息已成為人們最受歡迎的活動(dòng)之一[1],網(wǎng)絡(luò)上因而產(chǎn)生了海量的信息,怎樣從這些信息中獲取到用戶所需的內(nèi)容,快速而精準(zhǔn)地滿足互聯(lián)網(wǎng)用戶的個(gè)性化服務(wù)需求是當(dāng)前的一個(gè)研究熱點(diǎn)。

        文本情感分析是一種提取和評(píng)估文本意見(jiàn)的技術(shù),已被廣泛用于社交媒體的文本分析中[2-5]。文本情感不僅與主題相關(guān),而且與領(lǐng)域和時(shí)間也有聯(lián)系。一些研究者引入表情符號(hào)作為判別情感的依據(jù),并將情感維度與意見(jiàn)強(qiáng)度等結(jié)合起來(lái)進(jìn)行情感分類(lèi)[6-8],將多特征融合和上下文信息用于情感分類(lèi)和強(qiáng)度識(shí)別過(guò)程中[9]。在文本情感分析中,情感詞庫(kù)作為關(guān)鍵的資源被廣泛使用,如與NB、SVM等算法結(jié)合進(jìn)行情感分析[10-11]。當(dāng)前已有不少詞庫(kù)被用于情感分析的詞庫(kù),如英文情感詞庫(kù)General Inquirer(GI)[12]、Bing Liu詞庫(kù)[13]等;中文情感詞庫(kù),如知網(wǎng)(How Net)[14]、大連理工大學(xué)中文情感詞匯本體庫(kù)[15]等。傳統(tǒng)的情感詞庫(kù)由語(yǔ)言專(zhuān)家根據(jù)經(jīng)驗(yàn)總結(jié)并進(jìn)行標(biāo)注得到,需要耗費(fèi)大量的時(shí)間且情感詞的數(shù)量也有所限制。一些研究收集整理了網(wǎng)絡(luò)上產(chǎn)生的新詞并對(duì)這些傳統(tǒng)情感詞庫(kù)進(jìn)行擴(kuò)展[16]。此外,F(xiàn)ernández-Gavilanes等[17]整理了網(wǎng)絡(luò)上常用的表情符號(hào),并進(jìn)行標(biāo)注以構(gòu)建表情符號(hào)詞庫(kù)用于判斷用戶的觀點(diǎn)、喜好等。盡管這些方法在一定程度上提升了情感詞的覆蓋率,但由于情感詞的情感強(qiáng)度或情感極性會(huì)隨著領(lǐng)域的不同而有所差異,使得這些情感詞庫(kù)的通用性受到了限制。

        目前,很多研究針對(duì)特定領(lǐng)域構(gòu)建情感詞庫(kù)。Hung等[18]使用標(biāo)記化和消除歧義的方法,構(gòu)建了面向電影和酒店領(lǐng)域的情感詞庫(kù),較好解決了原詞庫(kù)中部分單詞語(yǔ)義不清的問(wèn)題。Wu等[19]提取目標(biāo)詞以及情感詞作為意見(jiàn)對(duì),并對(duì)其極性進(jìn)行分類(lèi)。Oliveira等[20]利用StockTwits大型標(biāo)記數(shù)據(jù)集創(chuàng)建了股票市場(chǎng)的情感詞庫(kù)。在已有情感詞庫(kù)的基礎(chǔ)上,識(shí)別出特定領(lǐng)域的情感詞,對(duì)已有情感詞庫(kù)進(jìn)行調(diào)整并進(jìn)行擴(kuò)展,在一定程度上提升了特定領(lǐng)域情感分析的性能[1,21-23]。這些方法都具有很強(qiáng)的領(lǐng)域相關(guān)性,但僅僅給出了情感詞的極性而沒(méi)有具體的情感分值。

        由于領(lǐng)域的異質(zhì)性,不少情感詞往往具有專(zhuān)業(yè)性的特點(diǎn),詞匯的情感取向因內(nèi)容領(lǐng)域的不同而存在很大差異,如“韭菜”在股市領(lǐng)域表達(dá)的是負(fù)向情感,而在其他領(lǐng)域往往與情感無(wú)關(guān)。目前,通用情感詞庫(kù)不能完全滿足特定領(lǐng)域情感分析的需求,現(xiàn)有研究構(gòu)建的特定領(lǐng)域情感詞庫(kù)存在以下問(wèn)題:耗費(fèi)大量時(shí)間、依賴(lài)于現(xiàn)有情感詞庫(kù)、方法適應(yīng)性較差、不能很好地移植到其他領(lǐng)域。為解決上述不足,本文利用遺傳算法構(gòu)建適應(yīng)于特定領(lǐng)域的情感詞庫(kù),對(duì)情感詞的分值根據(jù)情感詞庫(kù)對(duì)文本分類(lèi)的準(zhǔn)確率自適應(yīng)調(diào)整,有效提高了該領(lǐng)域文本情感分類(lèi)的準(zhǔn)確率。本文構(gòu)建情感詞庫(kù)的方法主要具有以下優(yōu)勢(shì):①耗時(shí)短;②情感詞分值可以根據(jù)領(lǐng)域的不同而自適應(yīng)調(diào)整;③方法可以很好地應(yīng)用到其他領(lǐng)域;④詞庫(kù)的構(gòu)建不依賴(lài)于現(xiàn)有情感詞庫(kù)。選取特定領(lǐng)域微博及Twitter評(píng)論文本作為語(yǔ)料,構(gòu)建特定領(lǐng)域的情感詞庫(kù),相較于現(xiàn)有詞庫(kù),在情感分析上優(yōu)勢(shì)明顯,證明了本文方法的有效性。

        1 基于遺傳算法的情感詞庫(kù)構(gòu)建框架

        與傳統(tǒng)的情感詞庫(kù)構(gòu)建方式不同,本文借助機(jī)器學(xué)習(xí)思想來(lái)構(gòu)建針對(duì)特定領(lǐng)域的文本詞庫(kù),構(gòu)建情感詞庫(kù)的框架如圖1所示。

        圖1 基于遺傳算法的情感詞庫(kù)構(gòu)建框架

        以微博文本為例,主要工作步驟如下。

        步驟1利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從新浪微博獲取關(guān)于評(píng)論的微博文本。將文本進(jìn)行必要的清洗和規(guī)整之后,對(duì)微博文本進(jìn)行情感趨向的人工標(biāo)注。形成由若干短文本構(gòu)成的關(guān)于評(píng)論的情感語(yǔ)料庫(kù)。在爬取微博文本過(guò)程中,按照關(guān)鍵詞進(jìn)行篩選,以得到特定領(lǐng)域的文本數(shù)據(jù)。

        步驟2將這些文本中出現(xiàn)的超過(guò)一定頻率的詞均視為情感詞,并隨機(jī)為這些情感詞指定初始的情感值,形成初始的情感詞庫(kù)。

        步驟3以情感詞庫(kù)對(duì)文本分類(lèi)的準(zhǔn)確率為目標(biāo),采用遺傳算法對(duì)情感分值進(jìn)行調(diào)整。

        1)計(jì)算文本的極性。對(duì)語(yǔ)料庫(kù)中的文本逐一進(jìn)行掃描,根據(jù)情感詞庫(kù),提取文本中的情感詞和情感值。將文本中所有情感詞的情感值進(jìn)行累加得到該文本的情感極性,對(duì)應(yīng)的計(jì)算式為

        (1)

        (1)式中:P為文本的整體情感值,若P大于0,則為正向文本,反之則為負(fù)向文本;n為文本中包含的情感詞總數(shù);Vw為第w個(gè)情感詞的情感值。例如股市評(píng)論文本為“歐美股市下跌,A股或會(huì)低開(kāi)”,包含情感詞“下跌”和“低開(kāi)”,對(duì)應(yīng)的情感值為-7和-3,則該文本的情感分值為-7-3=-10,表明該文本的情感極性是負(fù)向的。

        2)確定情感分類(lèi)的準(zhǔn)確率。將計(jì)算出的語(yǔ)料庫(kù)中所有文本的情感極性與人工標(biāo)注的極性進(jìn)行比較,計(jì)算情感詞庫(kù)對(duì)文本進(jìn)行情感分類(lèi)的準(zhǔn)確率。對(duì)應(yīng)的計(jì)算公式為

        (2)

        (2)式中:C為預(yù)測(cè)分類(lèi)與人工標(biāo)注分類(lèi)一致的文本數(shù);N為數(shù)據(jù)集中文本的總數(shù)。

        3)確定反饋調(diào)整的策略。盡管情感分類(lèi)的準(zhǔn)確率與情感詞庫(kù)中的情感詞和情感詞的取值密切相關(guān),但是卻難以建立它們之間的解析關(guān)系式。因此,難以使用機(jī)器學(xué)習(xí)中的一些常用的反饋方式,比如梯度下降法。為此,從計(jì)算簡(jiǎn)便的角度,采取隨機(jī)調(diào)整情感值的策略。同時(shí),為了保證調(diào)整的有效性,采用啟發(fā)式算法對(duì)情感分值進(jìn)行優(yōu)化,本文中用到的啟發(fā)式算法為遺傳算法。

        步驟4以情感分類(lèi)的準(zhǔn)確率作為優(yōu)化目標(biāo)。通過(guò)隨機(jī)的方式,嘗試調(diào)整詞庫(kù)中情感詞的情感值,并以是否增加分類(lèi)的準(zhǔn)確率作為調(diào)整方案是否可行的判定。通過(guò)反復(fù)嘗試調(diào)整情感詞的值,逐步實(shí)現(xiàn)情感詞分值調(diào)整過(guò)程。

        2 情感詞庫(kù)構(gòu)建算法

        在基于遺傳算法的情感詞庫(kù)構(gòu)建框架中,目的是找到一個(gè)情感詞庫(kù)能夠使得文本分類(lèi)的準(zhǔn)確率最大。由于優(yōu)化算法采取的是先嘗試性修改,然后再判定是否進(jìn)行更新的模式,這種模式希望優(yōu)化算法具備高效的隨機(jī)搜索能力。遺傳算法正好具備該能力,所以本文選用該算法作為基礎(chǔ),并作適當(dāng)?shù)母倪M(jìn),實(shí)現(xiàn)情感詞庫(kù)的構(gòu)建。

        在本文算法中,將一個(gè)情感詞庫(kù)對(duì)應(yīng)為種群中的一個(gè)個(gè)體。將個(gè)體的適應(yīng)度值與詞庫(kù)情感分類(lèi)的準(zhǔn)確率相關(guān)聯(lián),適應(yīng)度值高的個(gè)體所對(duì)應(yīng)的情感分類(lèi)的準(zhǔn)確率越高。利用遺傳算法強(qiáng)大的優(yōu)化功能,個(gè)體的適應(yīng)度值不斷提高,保證了所構(gòu)建的情感詞庫(kù)向著提高分類(lèi)準(zhǔn)確率的方向不斷更新,直至產(chǎn)生最終的情感詞庫(kù)。

        2.1 編碼規(guī)則與種群的初始化

        將情感詞庫(kù)編碼為一個(gè)個(gè)體,情感詞庫(kù)中的每個(gè)情感詞均被映射為個(gè)體中唯一的基因,即一個(gè)基因表示一個(gè)情感詞。初始時(shí),采取隨機(jī)方式為個(gè)體中的基因隨機(jī)賦予-10到10之間整數(shù)值。正值表示正向的情感趨向,負(fù)值則表示負(fù)向的情感趨向,10和-10分別代表了最高的正向和負(fù)向情感傾向。按照上述編碼規(guī)則,初始化種群。種群中初始化的個(gè)體示例如表1所示。

        表1 種群初始化

        2.2 適應(yīng)度值計(jì)算

        適應(yīng)度值大小反映了詞庫(kù)情感分類(lèi)準(zhǔn)確率的高低。此處,詞庫(kù)對(duì)文本的情感分類(lèi)按照(1)式進(jìn)行計(jì)算,若對(duì)文本分類(lèi)正確,則詞庫(kù)對(duì)應(yīng)個(gè)體的適應(yīng)度值加1,若分類(lèi)錯(cuò)誤,則適應(yīng)度值減去一個(gè)懲罰值。為此,當(dāng)利用個(gè)體k對(duì)訓(xùn)練集D中的第i條文本Ti進(jìn)行預(yù)測(cè)時(shí),定義此時(shí)產(chǎn)生的預(yù)測(cè)準(zhǔn)確率度量值R(k,D,Ti)表示為

        (3)

        (3)式中,ω為懲罰參數(shù)。根據(jù)(3)式定義個(gè)體k在數(shù)據(jù)集D中的適應(yīng)度表示為

        (4)

        2.3 保優(yōu)與交叉策略

        保優(yōu)策略的目的是在遺傳過(guò)程中盡可能地保留種群中優(yōu)秀的個(gè)體或個(gè)體的基因。一般有2種常用的方式:①讓種群中較優(yōu)的個(gè)體作為精英集直接進(jìn)入下一代;②選擇部分較優(yōu)的個(gè)體作為精英集,并讓精英集中的個(gè)體與非精英個(gè)體進(jìn)行交叉變異操作產(chǎn)生新的個(gè)體[24]。第1種方式能防止精英個(gè)體的基因在交叉變異操作中遭到破壞,但是沒(méi)有充分利用精英個(gè)體的基因;第2種方式充分利用了精英個(gè)體,但卻有可能破壞了精英個(gè)體的基因。因此,本文將2種方式進(jìn)行結(jié)合,設(shè)計(jì)的保優(yōu)與變異策略示意圖如圖2所示。

        圖2 保優(yōu)策略

        在產(chǎn)生子代個(gè)體時(shí),將子代個(gè)體分為2部分:①?gòu)母复刑暨x出的精英個(gè)體,未進(jìn)行任何操作直接加入子代中,從而保留了精英個(gè)體的整體性;②采用輪盤(pán)賭的方式選擇父代個(gè)體,通過(guò)交叉產(chǎn)生。在這部分子代個(gè)體中,則很大概率地利用了精英個(gè)體的基因。

        交叉過(guò)程具體為:采用輪盤(pán)賭的方式,從父代中選取個(gè)體p1,p2;根據(jù)交叉概率pc對(duì)p1,p2進(jìn)行交叉操作,即將p1,p2上相同位置的基因值進(jìn)行交換得到子代個(gè)體c1,c2。此處,交叉的位置隨機(jī)產(chǎn)生,交叉的基因個(gè)數(shù)由交叉概率進(jìn)行控制。

        2.4 變異策略

        文本的情感極性與情感詞極性之間有密切的聯(lián)系,在微博、博客等文本中,情感的表達(dá)方式是使用情感詞,通過(guò)對(duì)文本中情感詞的使用情況,就可以判斷該文本所表達(dá)的情感[25]。若某個(gè)情感詞以高概率出現(xiàn)在正向文本中,則該情感詞為正向情感詞的概率也很高。反之,則高概率為負(fù)向情感詞。在遺傳算法中,變異操作通常是隨機(jī)改變個(gè)體中某個(gè)或多個(gè)基因的值。為了更好引導(dǎo)種群的進(jìn)化,此處將文本情感極性與情感詞極性的聯(lián)系考慮到了變異策略中?;赟IGMOD函數(shù),設(shè)計(jì)了新的變異策略。

        對(duì)SIGMOD函數(shù)

        (5)

        求其反函數(shù),可得

        (6)

        由于本文情感詞分值的取值為[-10,10],并設(shè)情感詞w在數(shù)據(jù)集D中的正向文本中出現(xiàn)的概率為Pw,基于(6)式構(gòu)建的基因變異導(dǎo)向函數(shù)為

        (7)

        其對(duì)應(yīng)的函數(shù)曲線如圖3所示。

        圖3 導(dǎo)向函數(shù)f(Pw)

        從圖3可以看出,函數(shù)值為[-10,10],當(dāng)Pw∈(0.4,0.6),函數(shù)f(Pw)的值在0附近,且變化幅度不大,即當(dāng)情感詞出現(xiàn)在正向文本和負(fù)向文本中的比例差不多時(shí),函數(shù)f(Pw)對(duì)變異過(guò)程的引導(dǎo)作用就很小;當(dāng)Pw∈[0,0.2],即當(dāng)情感詞80%以上都出現(xiàn)在負(fù)向文本中,函數(shù)f(Pw)極大可能引導(dǎo)情感詞的極性為負(fù)向極性;同理,當(dāng)Pw∈[0.8,1],即當(dāng)情感詞80%以上都出現(xiàn)在正向文本中,函數(shù)f(Pw)極大可能引導(dǎo)情感詞的極性為正向極性;當(dāng)Pw∈(0.2,0.4)或Pw∈(0.6,0.8),函數(shù)對(duì)變異過(guò)程的引導(dǎo)作用相對(duì)較小。

        結(jié)合函數(shù)f(Pw)提出新的變異策略,公式表示為

        Vw=R+f(Pw)

        (8)

        (8)式中:R是一個(gè)在[-10,10]的隨機(jī)數(shù);Vw為變異后情感詞的情感分值,Vw的值若超出[-10,10],則相應(yīng)地取邊界值10或-10。

        2.5 算法描述

        步驟1對(duì)數(shù)據(jù)集進(jìn)行整理并抽取出情感詞。

        步驟2根據(jù)2.1節(jié)的編碼規(guī)則完成種群的初始化。

        步驟3根據(jù)2.2節(jié)的方法計(jì)算每個(gè)個(gè)體的適應(yīng)度值,并根據(jù)2.3節(jié)的保優(yōu)策略產(chǎn)生部分子代個(gè)體。

        步驟4采用輪盤(pán)賭的策略從父代種群中挑選出2條父染色體p1,p2,并根據(jù)2.3節(jié)的交叉策略產(chǎn)生新的子代個(gè)體c1,c2。

        步驟5針對(duì)交叉產(chǎn)生的新子代個(gè)體c1,c2,對(duì)其進(jìn)行變異操作。利用變異概率Pm控制個(gè)體中變異基因的總數(shù),變異基因的位置是隨機(jī)產(chǎn)生的。

        步驟6重復(fù)步驟4和步驟5,直到子代種群個(gè)體的數(shù)量和父代種群一樣,完成父代種群與子代種群的更替。

        步驟7重復(fù)步驟3—步驟6,直到種群收斂。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        3.1.1 數(shù)據(jù)獲取

        1)NLPCC2018數(shù)據(jù)集。中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專(zhuān)業(yè)委員會(huì)學(xué)術(shù)年會(huì)(conference on natural language processing and Chinese computing,NLPCC)2018年發(fā)布的關(guān)于微博文本情感分析的通用數(shù)據(jù)集NLPCC2018(1)http://tcci.ccf.org.cn/nlpcc.php,該數(shù)據(jù)集包含正向文本1 049條,負(fù)向文本851條,總計(jì)1 900條文本。

        2)股市評(píng)論數(shù)據(jù)集。以“上證指數(shù)”“上證綜指”“股市”“A股”等作為關(guān)鍵詞進(jìn)行搜索,利用“八爪魚(yú)采集器”從新浪微博進(jìn)行文本采集得到。總計(jì)314 827條微博數(shù)據(jù)。

        由于獲取的微博數(shù)據(jù)中摻雜了重復(fù)或無(wú)效的文本,需要對(duì)獲取的微博文本進(jìn)行清洗。清洗規(guī)則是把無(wú)個(gè)人對(duì)股市觀點(diǎn)的微博文本進(jìn)行剔除。通常需要清洗3種類(lèi)型的微博文本,如表2所示。

        表2 待清洗的文本示例

        對(duì)數(shù)據(jù)集進(jìn)行清洗之后,對(duì)數(shù)據(jù)集中的微博文本進(jìn)行人工標(biāo)注,用“1”表示積極的情感傾向,“0”表示消極的情感傾向,最后形成的股市微博文本數(shù)據(jù)集,包括正向文本1 783條、消極文本2 287條,共計(jì)4 070條文本。

        3)HCR數(shù)據(jù)集。HCR(healthcare reform dataset)數(shù)據(jù)集是關(guān)于醫(yī)療領(lǐng)域的英文情感分析數(shù)據(jù)集。該數(shù)據(jù)集包含1 286條tweets,其中,正向文本369條,負(fù)向文本917條。

        3.1.2 文本分詞

        由于文本情感分析的最小單元是詞語(yǔ),而中文文本不像英文文本那樣天然地用空格將單詞進(jìn)行了劃分,需要利用分詞工具對(duì)中文文本進(jìn)行分詞處理。在本研究中,采用jieba分詞包對(duì)文本進(jìn)行分詞處理,在分詞過(guò)程中,一些特定領(lǐng)域的專(zhuān)有詞匯,如“垃圾股”“翻綠”等,jieba分詞語(yǔ)料庫(kù)中并沒(méi)有包含,故將這部分詞匯進(jìn)行人工總結(jié)并建立相應(yīng)的詞典添加至jieba分詞包中,以有效地發(fā)現(xiàn)新的情感詞,保證模型的強(qiáng)健性和時(shí)效性。

        3.1.3 參數(shù)設(shè)定

        實(shí)驗(yàn)代碼采用Python語(yǔ)言編寫(xiě),在PyCharm環(huán)境中運(yùn)行。設(shè)置種群數(shù)為2 000,交叉概率Pc為0.8,變異概率Pm為0.10,懲罰因子ω為60,保優(yōu)概率Pe為0.1。實(shí)驗(yàn)將數(shù)據(jù)集80%作為訓(xùn)練集,20%作為測(cè)試集。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        3.2.1 通用領(lǐng)域的詞庫(kù)性能測(cè)試

        首先,本文方法構(gòu)建的詞庫(kù)具有一定的通用性。為了驗(yàn)證其在通用領(lǐng)域的有效性,在NLPCC2018數(shù)據(jù)集上進(jìn)行測(cè)試。利用本文構(gòu)建的情感詞庫(kù)、大連理工大學(xué)中文情感詞匯本體庫(kù)、清華大學(xué)情感詞庫(kù)[16]、臺(tái)灣大學(xué)情感詞庫(kù)[26]以及BosonNLP詞庫(kù)(2)https://bosonnlp.com/dev/resource在該數(shù)據(jù)集進(jìn)行了情感分析對(duì)比。采用準(zhǔn)確率和F1-Measure作為評(píng)價(jià)指標(biāo),所得結(jié)果如表3所示。

        從表3可以看出,基于本文詞庫(kù)進(jìn)行情感分類(lèi)的準(zhǔn)確率為79.53%,F(xiàn)1-Measure為78.83%,優(yōu)于其他常用的通用情感詞庫(kù)。這說(shuō)明本文方法雖然是針對(duì)特定領(lǐng)域構(gòu)建情感詞庫(kù),但所構(gòu)建的情感詞庫(kù)仍然具有良好的通用性,能夠很好地滿足情感分析的需求,為短文本的情感分析奠定了良好的基礎(chǔ)。

        表3 NPCC2018數(shù)據(jù)集準(zhǔn)確率及與F1-Measure對(duì)比

        3.2.2 特定領(lǐng)域詞庫(kù)性能測(cè)試

        1)股市領(lǐng)域?;?.1節(jié)中構(gòu)建的股市微博文本數(shù)據(jù)集,利用本文算法產(chǎn)生關(guān)于股市的情感詞庫(kù)。受文章篇幅所限,隨機(jī)選取該庫(kù)中的30個(gè)情感詞,如表4所示。從表4可以看出,由本文算法得到的情感詞可分為3類(lèi):①股市特殊情感詞,如表4中的“跌?!薄芭J小薄胺G”等詞;②通用情感詞,如“看好”“繁榮”“較差”等;③無(wú)實(shí)際作用的情感的噪聲詞,如表4中的“覺(jué)得”“調(diào)整”等詞,對(duì)這部分詞可以考慮從情感詞庫(kù)中刪除,從而精煉詞庫(kù)。

        表4 股市情感詞庫(kù)部分信息

        測(cè)試本文詞庫(kù)在股市微博文本數(shù)據(jù)集中的性能,結(jié)果如表5所示。同時(shí),為了說(shuō)明本文詞庫(kù)在特定領(lǐng)域比通用詞庫(kù)更具有優(yōu)勢(shì),采用同樣的方法,測(cè)試大連理工大學(xué)中文情感詞匯本體庫(kù)、清華大學(xué)情感詞庫(kù)、臺(tái)灣大學(xué)情感詞庫(kù)、BosonNLP詞庫(kù)在股市微博文本數(shù)據(jù)集上的性能。

        從表5可以看出,利用本文方法構(gòu)建的詞庫(kù)得到的準(zhǔn)確率和F1-Measure分別為85.70%和83.53%,高出其他通用情感詞庫(kù)20%以上。由此可見(jiàn),本文詞庫(kù)在特定領(lǐng)域更具有針對(duì)性,相對(duì)于通用詞庫(kù)的優(yōu)勢(shì)更加明顯。

        表5 股市微博數(shù)據(jù)集準(zhǔn)確率及與F1-Measure對(duì)比

        2)醫(yī)療領(lǐng)域。同樣,隨機(jī)選取HCR數(shù)據(jù)集構(gòu)建的部分情感詞,如表6所示。從表6可以看出,“obstruction”在其他領(lǐng)域不帶有情感極性,在本文方法中,則將該詞分為負(fù)向情感詞,可以表明本文方法也能有效地識(shí)別英文數(shù)據(jù)集中特定領(lǐng)域的情感詞匯。

        表6 醫(yī)療領(lǐng)域部分情感詞匯

        為了說(shuō)明本文方法在HCR數(shù)據(jù)集所構(gòu)建的情感詞庫(kù)的效果,同樣,選取英文常用的情感詞庫(kù)Bing Liu詞庫(kù)進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表7所示。

        表7 HCR準(zhǔn)確率及與F1-Measure對(duì)比

        從表7可以看出,本文方法構(gòu)建的詞庫(kù)準(zhǔn)確率為83.72%,F(xiàn)1-Measure為76.40%,優(yōu)于Bing Liu詞庫(kù)。這表明通過(guò)本文方法所構(gòu)建的詞庫(kù)在醫(yī)療領(lǐng)域仍然具有優(yōu)勢(shì)。同時(shí),也驗(yàn)證了本文方法具有很好的擴(kuò)展性和適應(yīng)性。

        在本文算法中,通過(guò)種群適應(yīng)度值判斷算法是否收斂。種群每進(jìn)行一次迭代都會(huì)更新,在HCR數(shù)據(jù)集上的算法收斂過(guò)程如圖4所示。

        圖4 算法在HCR數(shù)據(jù)集上收斂過(guò)程

        從圖4可以看出,種群在迭代140代后,適應(yīng)度值不再變化,即算法收斂。

        通過(guò)以上結(jié)果可以得到:①本文算法利用遺傳算法進(jìn)行情感詞庫(kù)構(gòu)建;②整個(gè)過(guò)程不需要外部情感詞庫(kù)資源;③能夠根據(jù)領(lǐng)域的不同構(gòu)建適應(yīng)的情感詞庫(kù),證明了本文方法的優(yōu)勢(shì)。

        4 結(jié)束語(yǔ)

        情感詞庫(kù)是進(jìn)行情感分析和情感決策的關(guān)鍵資源。針對(duì)特定領(lǐng)域急需高質(zhì)量情感詞庫(kù)的需求,提出了一種采用遺傳算法訓(xùn)練的方式,構(gòu)建專(zhuān)業(yè)領(lǐng)域情感詞庫(kù)的方法。該方法以文本分類(lèi)的準(zhǔn)確率作為學(xué)習(xí)目標(biāo),設(shè)計(jì)了針對(duì)情感詞庫(kù)構(gòu)建的遺傳算法。通過(guò)不斷調(diào)整情感詞的情感值,最終形成高質(zhì)量的情感詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在構(gòu)建情感詞庫(kù)上不僅具有良好的通用性,而且對(duì)股市、醫(yī)療等特定領(lǐng)域具有很好的針對(duì)性,綜合性能優(yōu)于傳統(tǒng)的情感詞庫(kù),能夠?yàn)榛谖谋镜那楦蟹治黾皼Q策提供良好的支持,具有很好的應(yīng)用價(jià)值。

        未來(lái)的工作中,可考慮從以下方面進(jìn)一步完善:引入同義詞的度量方法,進(jìn)一步優(yōu)化情感詞庫(kù);對(duì)情感詞的選取進(jìn)行專(zhuān)門(mén)研究,精煉情感詞庫(kù)中的情感詞。

        猜你喜歡
        詞庫(kù)極性遺傳算法
        跟蹤導(dǎo)練(四)
        基于自適應(yīng)遺傳算法的CSAMT一維反演
        一種基于遺傳算法的聚類(lèi)分析方法在DNA序列比較中的應(yīng)用
        基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測(cè)
        詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
        表用無(wú)極性RS485應(yīng)用技術(shù)探討
        基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
        一種新型的雙極性脈沖電流源
        環(huán)境變了,詞庫(kù)別變
        電腦迷(2014年14期)2014-04-29 00:44:03
        QQ手機(jī)輸入法如何導(dǎo)入分類(lèi)詞庫(kù)
        電腦迷(2012年15期)2012-04-29 17:09:47
        亚洲av午夜成人片精品| 国产乱妇无乱码大黄aa片| 国产成人涩涩涩视频在线观看| 妺妺窝人体色www在线图片| 国产精品国产三级国产AvkTV| 日韩精品国产精品亚洲毛片| 国产午夜片无码区在线播放| 熟妇人妻无乱码中文字幕| 中文字幕无码专区一VA亚洲V专| 久久无人码人妻一区二区三区| 91九色成人蝌蚪首页| 超清精品丝袜国产自在线拍| 国产精品综合日韩精品第一页| 日本中文字幕一区二区在线观看| 亚洲视频在线免费不卡| 久久久亚洲欧洲日产国码αv | 人妻少妇精品久久久久久| 99久久人人爽亚洲精品美女| 亚洲国产精品久久久性色av| 永久免费看黄网站性色| 亚洲成av人在线观看网址| 亚洲精品无码不卡av| 无码伊人久久大杳蕉中文无码| 亚洲熟妇av一区二区在线观看| 久久天天躁狠狠躁夜夜躁2014| 亚洲产国偷v产偷v自拍色戒| 国产三级伦理视频在线| 婷婷色国产精品视频二区| 欧美裸体xxxx极品少妇| 国产xxxxx在线观看免费| 国产精品一区二区蜜臀av| 性无码一区二区三区在线观看| 午夜福利视频合集1000| 人人妻人人澡av| 97成人精品视频在线| 又长又大又粗又硬3p免费视频| 亚洲人成人99网站| 国产av一啪一区二区| 真实人与人性恔配视频| 日本a在线看| 国产日本精品一区二区|