亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向電影評(píng)論的情感詞典構(gòu)建方法研究*

        2022-05-10 07:28:20張?jiān)佘S
        關(guān)鍵詞:詞匯文本情感

        汪 韜 張?jiān)佘S

        (江蘇科技大學(xué) 鎮(zhèn)江 212003)

        1 引言

        電影評(píng)價(jià)文本信息是觀影者接觸較為廣泛的網(wǎng)絡(luò)文本信息形式,是觀眾了解電影動(dòng)態(tài)、把握劇情梗概的重要手段之一。電影產(chǎn)品是我們生活中一種較為特殊的商品。在用戶觀看電影的過程中,觀看用戶在視聽方面的親身體驗(yàn)將影響其他用戶對(duì)電影產(chǎn)品的消費(fèi),因此電影產(chǎn)品如果在用戶中評(píng)價(jià)良好將會(huì)吸引很多潛在顧客。網(wǎng)絡(luò)評(píng)論信息由于實(shí)時(shí)性非常強(qiáng),如果對(duì)于負(fù)面評(píng)價(jià)不及時(shí)響應(yīng),往往對(duì)即將上映或者正在熱映的電影造成負(fù)面影響,所以在電影宣發(fā)過程中十分重視電影網(wǎng)絡(luò)評(píng)價(jià)的主動(dòng)引導(dǎo)[1]。分析這些數(shù)量巨大的評(píng)論需要一種有效的方法,每一個(gè)觀看電影的用戶根據(jù)自己觀看電影的感受對(duì)電影進(jìn)行評(píng)論,電影宣傳方針對(duì)這些評(píng)論去挖掘出用戶真實(shí)的情感傾向,就可以幫助電影的宣傳方找出電影宣傳方向中存在的不足,及時(shí)采取相應(yīng)的補(bǔ)救措施,從而可以提高潛在觀影者的期待度,為企業(yè)產(chǎn)生有價(jià)值的信息,吸引觀眾觀看[2]。

        對(duì)于電影廠商與電影宣傳單位,電影觀眾的觀后評(píng)價(jià)數(shù)據(jù)一般在相應(yīng)的互聯(lián)網(wǎng)平臺(tái)上展示出來。廠商可以通過分析這些評(píng)價(jià)數(shù)據(jù)來判斷用戶的電影喜好,從而避免花費(fèi)大量的人力物力去做問卷調(diào)查。通過現(xiàn)代化的數(shù)據(jù)挖掘、情感提取分析來分析觀影用戶的評(píng)論、喜好和行為[3],能夠幫助電影廠商確定電影的方向和提高電影的質(zhì)量。例如,各大制片商通過在電影評(píng)論區(qū)的內(nèi)容信息,采用相關(guān)技術(shù)分析數(shù)據(jù)中隱藏的價(jià)值信息,如用戶在電影類型、電影劇情、演員陣容等方面的意見和建議,為制片商確定觀影者類型與情節(jié)喜好,選擇能取得更多觀眾喜愛的演員陣容,并根據(jù)分析得到的結(jié)果為以后的電影拍攝提供參考,真正把握市場(chǎng)動(dòng)向,從而提高影片票房[4]。

        對(duì)于普通觀影者,當(dāng)前經(jīng)濟(jì)社會(huì)飛速發(fā)展,每天都會(huì)有大量國(guó)內(nèi)外各語種、各類型的電影大片發(fā)布,數(shù)量如此多的電影,讓觀眾應(yīng)接不暇。網(wǎng)絡(luò)上其他觀影者的評(píng)論信息成為潛在觀眾獲取電影評(píng)價(jià)信息的重要渠道,同時(shí)這些用戶的評(píng)價(jià)也是其他消費(fèi)者選擇影片時(shí)的參照,直接影響潛在觀影者是否選擇觀看這部電影。越來越多的觀影者在決定是否看某部電影前,會(huì)主動(dòng)瀏覽關(guān)于此部電影的各方面評(píng)價(jià),包括演員陣容、劇情、畫面效果等[5]。評(píng)價(jià)不好的電影就沒有花錢買罪受的必要,而口碑票房俱佳的電影必將成為茶余飯后的談資,必須去刷,電影評(píng)論成為選擇是否觀看電影的重要依據(jù)。在紛繁復(fù)雜的評(píng)論信息中需要找到高質(zhì)量的評(píng)價(jià)并非易事,使用情感分析技術(shù)可以減少消費(fèi)者大量查詢時(shí)間[6]。

        2 構(gòu)建電影評(píng)論情感詞典

        2.1 通用情感詞詞典

        本文綜合選取知網(wǎng)詞典和臺(tái)灣大學(xué)情感詞典中的褒貶義詞,將二者進(jìn)行優(yōu)化合并得到適用于通用語境下的通用情感詞詞典。通用情感詞詞典刪去了兩個(gè)詞典中有歧義的詞匯,整理使用二者中情感傾向度較為準(zhǔn)確的正面和負(fù)面情感詞,形成一個(gè)新的積極情感詞詞典,和一個(gè)新的消極情感詞詞典,最后由積極與消極情感詞詞典共同組成通用情感詞詞典。由于HowNet[7]和NTUSD[8]不像英文情感詞典那樣,不僅區(qū)分了詞匯的情感極性,還描述了詞匯的情感強(qiáng)度。這兩個(gè)情感詞典僅僅區(qū)分了情感詞的正面與負(fù)面情感傾向性,因此將自主構(gòu)建的通用情感詞詞典中的正向情感詞語的權(quán)值設(shè)置為1,而負(fù)面的情感詞語的權(quán)值設(shè)置為-1。

        2.2 程度副詞詞典

        程度副詞一般位于要修飾的副詞或者形容詞前,其主要作用就是限定這些詞的情感程度[9]。程度副詞通過與情感詞結(jié)合影響整個(gè)語句的情感程度,可以強(qiáng)化情感詞的情感傾向性,也可以產(chǎn)生減弱的作用。比如說:“電影很好看,劇情非常感人”,這句話中出現(xiàn)了兩個(gè)程度副詞“很”和“非?!保^影者在想要表達(dá)電影“好看”的同時(shí)加上了程度副詞“很”來加強(qiáng)“好看”的情感程度。但是在基礎(chǔ)情感詞典中,“很”既不屬于正向情感詞匯也不屬于負(fù)面情感詞匯,若不考慮程度副詞對(duì)情感傾向性的影響,會(huì)導(dǎo)致在實(shí)際計(jì)算情感值時(shí)使整個(gè)句子丟失一定的情感得分。因此在對(duì)整個(gè)句子進(jìn)行情感傾向性判斷時(shí),本文將程度副詞所帶來的影響納入考慮范圍。在整理過程中,發(fā)現(xiàn)不同的程度副詞對(duì)情感傾向性的影響是不同的。例如:“人物塑造令人很失望,劇情有點(diǎn)拖沓”,“很”加強(qiáng)了“失望”表達(dá)的情感“有點(diǎn)”削弱了“拖沓”表達(dá)的情感。本文考慮到程度副詞對(duì)情感詞的修飾程度的不同,根據(jù)修飾程度強(qiáng)弱進(jìn)行分級(jí),共有極、高、中、低四個(gè)等級(jí)也對(duì)應(yīng)著2、1.7、1.2、0.8四個(gè)權(quán)值,如表1所示。

        表1 程度副詞

        2.3 否定詞詞典

        單獨(dú)使用的否定詞是不存在感情色彩的,它的實(shí)際作用是修飾情感一類的詞,它與程度副詞有一定的區(qū)別,程度副詞的有兩方面作用,一方面可以加強(qiáng)情感詞的情感強(qiáng)度,也可以削弱情感詞的情感強(qiáng)度。否定詞的作用只有一個(gè),它與情感詞結(jié)合使用會(huì)使原本的情感詞語義發(fā)生反轉(zhuǎn)[10]。若否定詞修飾的是個(gè)正面積極的情感詞,那么就會(huì)使整個(gè)句子的情感表達(dá)傾向性變?yōu)橄麡O。若否定詞修飾的是個(gè)負(fù)面消極的情感詞,那么在加入否定詞后整個(gè)句子的情感表達(dá)傾向性就成積極的[11]。中文文本中否定詞的數(shù)量也是靈活多變的,可以含有兩個(gè)否定詞甚至多個(gè)。含有偶數(shù)個(gè)否定詞的句子,句子的整體情感傾向不會(huì)發(fā)生改變。含有奇數(shù)個(gè)否定詞的句子,句子的整體情感傾向發(fā)生逆轉(zhuǎn)。當(dāng)一個(gè)句子中出現(xiàn)的否定詞加上程度副詞時(shí),句子的情感傾向性不會(huì)發(fā)生改變,只會(huì)影響情感強(qiáng)度。結(jié)合電影評(píng)論文本語料和中文日常表達(dá)方式,本文直接采用人工收集的方法構(gòu)建了包含45個(gè)否定詞的否定詞詞典,如表2所示。

        表2 否定詞

        2.4 使用SO-LPMI算法擴(kuò)建電影領(lǐng)域情感詞典

        一般來說,任何一個(gè)基礎(chǔ)的情感詞典都不會(huì)完全適用于某一個(gè)特定領(lǐng)域,其對(duì)于含有領(lǐng)域?qū)I(yè)詞匯句子的情感分析會(huì)大打折扣[12]。例如:“這劇情真狗血”?!肮费痹趯?shí)際生活中只是一個(gè)名詞,表示狗這個(gè)動(dòng)物的血液,但是在電影評(píng)論中就表示劇情太過夸張、近乎胡扯,表達(dá)了觀眾的不滿情緒。為了使情感詞典能在電影評(píng)論領(lǐng)域有一個(gè)比較全面的文本傾向性分析能力。采用計(jì)算詞匯間點(diǎn)互信息的方法可以很大程度地?cái)U(kuò)展基情感詞典,而且可以有效地提高情感分析的效率。

        在信息論中,如果要計(jì)算兩個(gè)詞語x1與x2的PMI值[13],計(jì)算方法如式(1)所示。

        其中,p(x1)表示文本里詞語x1出現(xiàn)的概率,p(x2)表示文本里詞語x2出現(xiàn)的概率。p(x1x2)表示詞語x1和詞語x2一起出現(xiàn)的概率。在信息論的點(diǎn)互信息算法中,使用情感詞典中正向和負(fù)向的種子詞與待定情感詞的關(guān)系來判定一個(gè)詞語的情感極性,計(jì)算方法如式(2)所示。

        其中,ω是指等待確定情感傾向的詞語,ω+是指具有正向情感的種子詞語,ω-是指具有負(fù)向情感的種子詞語。

        建立在點(diǎn)互信息基礎(chǔ)上的SO-PMI算法描述為:選擇具有代表性的正向情感詞語和負(fù)向情感詞語分別作為正向和負(fù)向的種子詞語集合,分別記為集合P={p1,p2,p3,…,pn},和集合N={n1,n2,n3,…,nn},詞語x為我們需要判斷情感傾向的詞語,式(3)如下。

        通常情況下,采用0作為臨界值,從而能夠得到三種結(jié)果:S O-P MI(x)>0,則表示這個(gè)詞語具有正向情感,稱之為褒義詞語;S O-P M I(x)=0,則表示這個(gè)詞語具有中性情感,稱之為中性詞語;SO-PMI(x)<0,則表示這個(gè)詞語具有負(fù)向情感,稱之為負(fù)向詞語[14]。

        采用SO-PMI算法來計(jì)算詞語情感值的時(shí)候,要人為地從情感語料中選取一定數(shù)量高質(zhì)量的基準(zhǔn)詞,從而確定一組具有正向情感的詞語和一組具有負(fù)向情感的詞語來作為基準(zhǔn)詞集合。最終計(jì)算需要判斷的情感詞與種子詞語之間的點(diǎn)互信息差值,與閾值進(jìn)行比較后將詞語添加到相應(yīng)的情感詞典里面,從而實(shí)現(xiàn)對(duì)情感詞典的擴(kuò)充[15]。

        本文在原先PMI計(jì)算點(diǎn)互信息時(shí)引入共現(xiàn)詞語間的距離關(guān)系,更細(xì)致地計(jì)算點(diǎn)互信息:若兩個(gè)詞之間的距離較短,那么它們的關(guān)聯(lián)性越大;若兩個(gè)詞之間的共現(xiàn)距離越長(zhǎng),那么它們的關(guān)聯(lián)性越小。實(shí)際運(yùn)用到情感分析中就是在一段文本中兩個(gè)詞語離得越近,這兩個(gè)詞的情感傾向性就越趨同。共現(xiàn)距離按照兩詞之間相隔的字符的數(shù)量來進(jìn)行計(jì)算。如式(4)所示。

        其中Lw1表示在一條評(píng)論中從評(píng)論開始字符到兩個(gè)詞排序較為靠前的詞語的最后一個(gè)字符的字符數(shù)量,Lw2表示在一條評(píng)論中從評(píng)論開始字符到兩個(gè)詞排序較為靠后的詞語的第一個(gè)字符的字符數(shù)量。

        引入詞間距的PMI計(jì)算公式改進(jìn)為L(zhǎng)PMI,如式(5)所示。

        WL為x1與x2之間的字符組成的字符串,轉(zhuǎn)折詞如表3所示。

        表3 轉(zhuǎn)折詞表

        SO-PMI也相應(yīng)地改進(jìn)為SO-LPMI算法,如式(6)所示。

        本文從電影評(píng)論數(shù)據(jù)集中人工篩選出電影劇情、電影畫面、演員陣容、演技等多個(gè)方面詞頻較高且情感色彩鮮明的基準(zhǔn)情感詞匯,并將這些詞按照消極與積極的詞性劃分為正向種子集與負(fù)向種子集。使用引入詞間距的SO-LPMI算法計(jì)算待定詞和基準(zhǔn)詞的SO-LPMI值,以SO-LPMI值的正負(fù)性為依據(jù),把待定詞錄入電影領(lǐng)域情感詞典中,其中選取的基準(zhǔn)詞部分如表4所示。

        表4 基準(zhǔn)詞

        SO-LPMI算法擴(kuò)充電影領(lǐng)域情感詞典,具體方法步驟如下。

        第一步:通過八爪魚網(wǎng)絡(luò)爬蟲軟件爬取豆瓣電影網(wǎng)上的電影短評(píng),把這些原始數(shù)據(jù)中無用的數(shù)據(jù)與噪聲去除,再利用中文分詞技術(shù)將實(shí)詞切分出來并存放在一起。

        第二步:用通用情感詞詞典匹配上一步中搜集到的詞匯。將匹配結(jié)果分為三類,第一類是匹配到的褒義詞,第二類是匹配到的貶義詞,第三類是不存在于通用情感詞典中的詞匯,把這三類詞分別存儲(chǔ)在三個(gè)集合中。

        第三步:輔以人工的方式,分別在褒義詞集合和貶義詞集合中,挑選出在評(píng)論文本中出現(xiàn)次數(shù)較高并且保證個(gè)數(shù)相同的褒義詞與貶義詞作為基準(zhǔn)詞。

        第四步:根據(jù)SO-LPMI算法來計(jì)算基準(zhǔn)詞與在通用情感詞典不匹配的詞匯間的SO-LPMI值。

        第五步:使用第四步中得到的SO-LPMI值將不匹配詞匯分為褒義詞與貶義詞,分別存于電影領(lǐng)域褒義詞詞典和電影領(lǐng)域貶義詞詞典中,二者共同構(gòu)成電影領(lǐng)域情感詞典。

        情感詞典總體構(gòu)成如圖1所示。

        圖1 情感詞典構(gòu)成

        3 實(shí)驗(yàn)過程

        本文實(shí)驗(yàn)語料使用網(wǎng)絡(luò)爬蟲爬取的電影評(píng)論語料集,囊括正向、負(fù)向的評(píng)論各3000條。通過比較不同的情感詞典在電影評(píng)論數(shù)據(jù)集中的分類效果完成對(duì)比實(shí)驗(yàn)。查詢語料中所有情感詞匯與否定詞和程度副詞的搭配情況,按照提出的情感詞與否定詞、程度副詞權(quán)值計(jì)算方式,綜合計(jì)算每條電影評(píng)論的整體情感值。以情感值的大小作為分類的依據(jù),當(dāng)情感值大于0時(shí)認(rèn)為文本為正面情感傾向性情感,當(dāng)情感值小于0時(shí)認(rèn)定文本為負(fù)面傾向性情感。

        整個(gè)實(shí)驗(yàn)中使用了本文構(gòu)建的電影領(lǐng)域情感詞典、NTUSD詞典和知網(wǎng)詞典。在保持?jǐn)?shù)據(jù)集不變的情況下,分別使用上述三種情感詞典進(jìn)行情感分析,由此可以分析對(duì)比實(shí)驗(yàn)效果。

        對(duì)比實(shí)驗(yàn)按照以下方式進(jìn)行:

        1)針對(duì)電影評(píng)論語料集完成文本預(yù)處理操作。

        2)使用情感詞典來分析電影評(píng)論語料的情感值。主要考察語句中的情感詞和否定詞以及程度副詞如何搭配的,根據(jù)不同的搭配情況,使用不同的權(quán)值計(jì)算方式帶入其中,計(jì)算各個(gè)詞語搭配的情感值權(quán)重。

        3)把步驟2)中得到的情感值權(quán)重進(jìn)行求和計(jì)算,得到一整條評(píng)論的整體情感值。在情感總值大于零的情況下,由此得出該評(píng)論文本為具有積極情感的文本;在情感總值小于零的情況下,由此得出該評(píng)論文本為具有消極情感的文本。

        4)利用分類指標(biāo)對(duì)分類結(jié)果進(jìn)行評(píng)測(cè)。對(duì)比三個(gè)詞典在電影評(píng)論的不同表現(xiàn),以比較出三種詞典在電影評(píng)論領(lǐng)域情感分析的有效性。

        4 實(shí)驗(yàn)結(jié)果分析

        使用三種不同詞典對(duì)電影評(píng)論進(jìn)行情感分析,得到了不同的精確率、召回率和F1值的數(shù)據(jù),如表5所示。

        表5 三種詞典實(shí)驗(yàn)結(jié)果

        在使用完全相同的電影評(píng)論語料集時(shí),由于本文所構(gòu)建的電影領(lǐng)域詞典涵蓋的情感詞能合理匹配電影評(píng)論中的情感詞,使用本文所構(gòu)建的詞典進(jìn)行情感分類的效果明顯優(yōu)于其他兩種詞典。但是三個(gè)詞典在負(fù)面評(píng)價(jià)的電影評(píng)論文本中的判別效果均高于正面評(píng)價(jià)文本。導(dǎo)致這種現(xiàn)象發(fā)生的原因可能是中文文本中的含蓄表達(dá)方式。中文表達(dá)中,有時(shí)不會(huì)直接用負(fù)面詞匯表達(dá)某方面的不好,而是會(huì)對(duì)正面詞匯加以修飾來含蓄表達(dá)出自己的負(fù)面情感,這就導(dǎo)致文本表面上是正面情感,但其真實(shí)內(nèi)涵是負(fù)面情感,機(jī)器不能進(jìn)行有效識(shí)別。負(fù)面文本中,一般不會(huì)出現(xiàn)這種情況,所以負(fù)面文本分類效果相比于正面文本會(huì)好一點(diǎn)。

        5 結(jié)語

        本文重點(diǎn)介紹了如何構(gòu)建電影領(lǐng)域情感詞典的全部過程,再與常用中文情感詞典進(jìn)行對(duì)比實(shí)驗(yàn)分析結(jié)果。首先是通用詞典的構(gòu)建,其由Hownet詞典和NTUSD詞典中的情感詞匯通過篩選得到。然后構(gòu)建了程度副詞詞典和否定詞詞典,這兩者都是根據(jù)現(xiàn)有詞典經(jīng)過人工選取得到的。接著構(gòu)建電影領(lǐng)域?qū)S迷~典,若用傳統(tǒng)的SO-PMI算法進(jìn)行領(lǐng)域詞典的擴(kuò)充僅考察詞語間的共現(xiàn)概率,沒考慮語義表達(dá)中的詞間距關(guān)系,基于此,通過引入詞共現(xiàn)距離來改進(jìn)SO-PMI算法。使用改進(jìn)后的SO-LPMI對(duì)電影領(lǐng)域情感詞典進(jìn)行擴(kuò)充,將擴(kuò)展后的電影領(lǐng)域情感詞典與通用詞典、程度副詞詞典和否定詞詞典結(jié)合為電影評(píng)論情感詞典。實(shí)驗(yàn)證明,通過適用于電影領(lǐng)域的情感詞典進(jìn)行電影評(píng)論的情感分析相較于用通用的情感詞典分析電影評(píng)論有更好的分類效果。

        猜你喜歡
        詞匯文本情感
        本刊可直接用縮寫的常用詞匯
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        一些常用詞匯可直接用縮寫
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        欧美牲交videossexeso欧美| 日本一区二区视频免费观看| 日韩伦理av一区二区三区| 蜜桃精品人妻一区二区三区| 小蜜被两老头吸奶头在线观看| 人妻在卧室被老板疯狂进入国产| 日韩欧美亚洲国产一区二区三区| 色视频不卡一区二区三区| 无码人妻一区二区三区免费看| 亚洲成av人片在线观看无码| 欧美中文字幕在线看| 免费看黄片视频在线观看| 久久中文骚妇内射| 精品熟女日韩中文十区| 无码 免费 国产在线观看91| 久久久精品亚洲人与狗| 亚洲av日韩av天堂久久| 亚洲精品国产综合一线久久| 日韩人妻系列在线视频| 可免费观看的av毛片中日美韩| 国产无套内射久久久国产| 亚洲区日韩精品中文字幕| 视频一区二区免费在线观看| 丰满熟妇乱又伦精品| 亚洲av无码一区二区三区性色| 亚洲AV无码一区二区三区少妇av| 国产一区二区三免费视频| 中文字幕无码毛片免费看| 黄色资源在线观看| 少妇久久高潮不断免费视频| 欧美高清视频手机在在线| 亚洲自偷自拍熟女另类| 日本韩国三级aⅴ在线观看 | 99综合精品久久| 高清不卡av一区二区| 野外亲子乱子伦视频丶| 在线精品国内视频秒播| 日本熟妇视频在线中出| 日本精品久久久久中文字幕| 亚洲AV无码不卡无码国产 | 亚洲一区二区不卡日韩|