亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的劇本角色情感識(shí)別研究

        2023-04-07 14:47:03蔡校育邱美蘭李德旺
        軟件工程 2023年4期

        蔡校育 邱美蘭 李德旺

        關(guān)鍵詞:劇本角色;支持向量機(jī);樸素貝葉斯;情感識(shí)別

        中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A

        1引言(Introduction)

        對(duì)于影視制片人來說,劇本的好壞直接決定其商業(yè)價(jià)值和社會(huì)意義,因此,對(duì)劇本文本分析成為不可或缺的環(huán)節(jié),其中劇本角色的情感識(shí)別是劇本分析中一個(gè)非常重要的任務(wù)。劇本角色情感識(shí)別是將劇本中涉及角色的對(duì)白和動(dòng)作描述識(shí)別為某一種具體的情感傾向,屬于情感分析[1]中句子級(jí)別的范疇,輸入為劇本中的角色對(duì)白或動(dòng)作描述的句子,輸出其對(duì)應(yīng)的情感傾向。

        基于機(jī)器學(xué)習(xí)的情感分析是一種有監(jiān)督的學(xué)習(xí)方法,屬于文本機(jī)器學(xué)習(xí)[2]的范疇,目前常見的基于機(jī)器學(xué)習(xí)情感分析的算法有支持向量機(jī)(SVM)[3]、樸素貝葉斯[4]和邏輯回歸[5]等,研究人員也開展了與此相關(guān)的大量研究工作[6]。本文將對(duì)非結(jié)構(gòu)化的劇本數(shù)據(jù)使用情感分析技術(shù)進(jìn)行處理,從而減少人工處理數(shù)據(jù)的工作量,利用機(jī)器學(xué)習(xí)算法快速挖掘非結(jié)構(gòu)化數(shù)據(jù)中的價(jià)值,依據(jù)情感預(yù)測的結(jié)果為劇本分析提供有價(jià)值的參考,對(duì)影視作品的發(fā)展具有一定的指導(dǎo)意義。

        2 劇本角色情感識(shí)別(Emotion recognition ofscreenplay characters)

        2.1數(shù)據(jù)集介紹

        本文研究所需數(shù)據(jù)來源于DataFountain平臺(tái)舉辦的劇本角色情感識(shí)別競賽所提供的數(shù)據(jù)集,該數(shù)據(jù)集的主要數(shù)據(jù)來源于一部電影劇本,通過人工的情感標(biāo)注,同時(shí)對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理,使之劃分為三種情感(1:正向情感;0:中性;-1:負(fù)向情感)。該數(shù)據(jù)集共有36,612 條數(shù)據(jù)樣本,而中性數(shù)據(jù)對(duì)于本文模型的研究用處不大,也易產(chǎn)生分歧,所以剔除中性數(shù)據(jù),只保留正、負(fù)向情感,共10,143 條數(shù)據(jù)樣本,部分?jǐn)?shù)據(jù)內(nèi)容如表1所示。

        2.2數(shù)據(jù)預(yù)處理

        因?yàn)橹形恼Z篇中詞語不存在空隙,所以必須采用分詞的方法進(jìn)行識(shí)別,而在分詞過程中,某些對(duì)分類不起作用的信息也要去掉,即刪除停用詞,最后將那些能傳達(dá)重要信息的關(guān)鍵詞從文本中抽取出來,并將文本表示為這些關(guān)鍵詞的集合。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、文本分詞、刪除停用詞等。

        2.2.1文本分詞

        由于中文文本與英文不同,中文文本分詞是預(yù)處理中不可缺少的關(guān)鍵步驟,因此在分類過程中使用詞語表示文本時(shí)必須先進(jìn)行分詞處理。目前的分詞技術(shù)已經(jīng)逐步完善,其中jieba分詞具有準(zhǔn)確率高、性能優(yōu)越及可擴(kuò)展性等特點(diǎn),是一款當(dāng)下流行的中文分詞技術(shù)。

        jieba分詞可以分為三種類型:精確模式、全模式和搜索引擎模式。其中,精確模式實(shí)現(xiàn)了對(duì)被分詞文本的準(zhǔn)確分割,并且不存在冗余詞,本文將運(yùn)用jieba分詞工具中的精確模式進(jìn)行分詞操作,分詞效果如表2所示。

        2.2.2去停用詞

        對(duì)于文本分類而言,有些詞語在文本中出現(xiàn)的次數(shù)并不能反映該詞語在文本中的重要性。比如“一二三四”“你我他”“這個(gè)”“的”,這些沒有特殊語義并且出現(xiàn)頻繁的詞語,即停用詞。本文主要研究中文文本所體現(xiàn)的情感,這些停用詞在很大程度上會(huì)對(duì)該研究產(chǎn)生影響,因此應(yīng)該將這些停用詞從文本中清除掉,避免它們對(duì)后續(xù)分類產(chǎn)生干擾。去停用詞效果如表3所示。

        通過對(duì)本文的數(shù)據(jù)集內(nèi)容進(jìn)行相應(yīng)的預(yù)處理之后,可以繪制正、負(fù)向情感關(guān)鍵詞詞云圖,如圖1和圖2所示。

        從圖1和圖2兩個(gè)詞云圖中可以看出,“看著”“坐在”“我要”“畫外音”“爸爸”等詞語在兩種情感中都是高頻詞,對(duì)本文的研究會(huì)產(chǎn)生相應(yīng)的影響。因此,在停用詞表中需添加這些詞語,可以減少誤差,提升模型預(yù)測的準(zhǔn)確率。

        2.4模型建立

        本文將使用Sklearn庫(python中的機(jī)器學(xué)習(xí)庫)中的支持向量機(jī)和樸素貝葉斯兩種分類算法構(gòu)建分類模型。因此,在完成數(shù)據(jù)預(yù)處理和特征工程相關(guān)工作后,接下來需對(duì)數(shù)據(jù)集進(jìn)行劃分、交叉檢驗(yàn)、模型訓(xùn)練及分類預(yù)測等相關(guān)操作。

        2.4.1劃分?jǐn)?shù)據(jù)集

        機(jī)器學(xué)習(xí)的分類方法需要大量的數(shù)據(jù)用于訓(xùn)練,特別是對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。在進(jìn)行機(jī)器學(xué)習(xí)時(shí),數(shù)據(jù)集被分為兩類,一類是訓(xùn)練集,另一類是測試集。本次實(shí)驗(yàn)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集。有時(shí)為了保證模型的精度,往往需要先進(jìn)行k 折交叉驗(yàn)證。k 折交叉驗(yàn)證實(shí)質(zhì)上是把一個(gè)數(shù)據(jù)集分成k 份,每次選k-1 份為訓(xùn)練集,剩余的1 份作為驗(yàn)證集,然后取k 個(gè)模型的平均測試結(jié)果作為最終的模型效果。本文將以10 折交叉驗(yàn)證為基礎(chǔ),嘗試探索兩種分類模型的有效性。

        2.4.2 交叉驗(yàn)證及結(jié)果

        通過對(duì)樸素貝葉斯(Naive Bayes)和支持向量機(jī)(SVM)兩種機(jī)器學(xué)習(xí)模型進(jìn)行10 折交叉驗(yàn)證,并將10 次的交叉驗(yàn)證的準(zhǔn)確率作為最終的結(jié)果。兩種分類模型10 次運(yùn)行對(duì)應(yīng)的準(zhǔn)確率如表4所示,根據(jù)表4的結(jié)果繪制如圖3所示的箱型圖。

        從圖3中可以看出,兩種模型相比,線性支持向量機(jī)的平均準(zhǔn)確率要比樸素貝葉斯的準(zhǔn)確率略高,但準(zhǔn)確率較為分散,即存在不穩(wěn)定性。因此,本文通過設(shè)置超參數(shù)的不同取值,進(jìn)一步研究樸素貝葉斯算法的綜合性能。

        2.5模型評(píng)估

        本文利用混淆矩陣對(duì)樸素貝葉斯分類算法的性能進(jìn)行評(píng)估,其中包括準(zhǔn)確率、精確率、召回率、F1值和AUC指標(biāo)[8-9]。

        根據(jù)樸素貝葉斯的拉普拉斯平滑法[10]選取不同的拉普拉斯平滑系數(shù)α ,對(duì)樸素貝葉斯分類模型進(jìn)行實(shí)驗(yàn),得到實(shí)驗(yàn)結(jié)果如表5所示。從表5可以看出,最佳的拉普拉斯平滑系數(shù)介于0.1—0.5。通過調(diào)整超參數(shù),可以使算法的性能變得更好。

        通過前面模型分析及超參數(shù)的對(duì)比實(shí)驗(yàn),運(yùn)用樸素貝葉斯算法以及設(shè)置超參數(shù)拉普拉斯平滑系數(shù)α = 0.2進(jìn)行學(xué)習(xí),分別采用訓(xùn)練集和測試集進(jìn)行預(yù)測[11],得到如圖4和圖5所示的兩種情況預(yù)測結(jié)果。

        從圖4和圖5兩個(gè)混淆矩陣得出,樸素貝葉斯算法對(duì)測試集樣本的預(yù)測結(jié)果準(zhǔn)確度接近于80%,訓(xùn)練集樣本的預(yù)測結(jié)果高達(dá)93%。

        3結(jié)論(Conclusion)

        本文主要建立了基于支持向量機(jī)和樸素貝葉斯算法的兩種情感分類與識(shí)別模型,對(duì)劇本中每句對(duì)白和動(dòng)作描述中涉及的每個(gè)角色從多個(gè)維度進(jìn)行分析并識(shí)別出情感。

        首先,根據(jù)劇本角色情感文本的特點(diǎn),對(duì)所獲取的數(shù)據(jù)文本進(jìn)行預(yù)處理,包括文本分詞、去停用詞、繪制詞云圖、特征抽取等,建立了基于支持向量機(jī)和樸素貝葉斯算法的兩種情感分類與識(shí)別模型。其次,利用10 折交叉驗(yàn)證得出兩種模型的預(yù)測準(zhǔn)確率,分析了兩種機(jī)器學(xué)習(xí)情感識(shí)別模型的預(yù)測效果,并通過不斷調(diào)整模型中超參數(shù)的取值對(duì)模型進(jìn)行優(yōu)化。最后,根據(jù)研究結(jié)果得出樸素貝葉斯識(shí)別模型在劇本角色情感識(shí)別方面的效果要優(yōu)于支持向量機(jī)的識(shí)別模型,并且,當(dāng)超參數(shù)拉普拉斯平滑系數(shù)α = 0.2時(shí),樸素貝葉斯識(shí)別模型的預(yù)測準(zhǔn)確率接近于80%。

        本研究的不足之處是盡管模型的訓(xùn)練有較好的擬合效果,但由于數(shù)據(jù)存在樣本不均衡的現(xiàn)象,正向情感數(shù)據(jù)在總樣本數(shù)據(jù)中所占的比重偏低,存在一定的過擬合現(xiàn)象。因此,在后續(xù)的研究中,應(yīng)該增大正向情感的樣本數(shù)據(jù)量,從而對(duì)本文的研究做進(jìn)一步的改進(jìn)和優(yōu)化,使得預(yù)測結(jié)果更加準(zhǔn)確、更具有可解釋性。

        作者簡介:

        蔡校育(1998-),男,本科生.研究領(lǐng)域:機(jī)器學(xué)習(xí),大數(shù)據(jù)分析.

        邱美蘭(1980-),女,博士,講師,人工智能高級(jí)工程師.研究領(lǐng)域:數(shù)據(jù)科學(xué)與計(jì)算,機(jī)器學(xué)習(xí),深度學(xué)習(xí).本文通信作者.

        李德旺(1976-),男,博士,講師.研究領(lǐng)域:經(jīng)濟(jì)統(tǒng)計(jì),大數(shù)據(jù)統(tǒng)計(jì)分析.

        国产精品伦一区二区三级视频| 免费在线不卡黄色大片| 扒开美女内裤舔出白水| 18黑白丝水手服自慰喷水网站| 免费人成再在线观看网站| 久久精品国产亚洲AV古装片| 中文日本强暴人妻另类视频| 国产又大又硬又粗| 亚洲一区二区观看播放| 国产av无码专区亚洲aⅴ| 中文字幕一区二区三区日日骚| 97日日碰曰曰摸日日澡| 99久久久无码国产精品9| 三级在线看中文字幕完整版| 久久精品国产热| 亚洲色图偷拍自拍亚洲色图| 亚洲av综合色区无码另类小说| 50岁熟妇的呻吟声对白| 亚洲嫩模高清在线视频| 亚洲性日韩一区二区三区| 亚洲人成精品久久久久| 日韩精品一区二区三区视频| 久久综合一本中文字幕| 黄射视频在线观看免费| 日本乱偷人妻中文字幕在线| 久久久久久久妓女精品免费影院| 久久久免费精品国产色夜| 国产午夜免费高清久久影院| 区久久aaa片69亚洲| 亚洲AV无码日韩一区二区乱| 少妇人妻字幕精品毛片专区| 看黄a大片日本真人视频直播| 伊人精品无码AV一区二区三区| 日本加勒比一道本东京热| 成年美女黄的视频网站| 国产人澡人澡澡澡人碰视频| 国产三级黄色片子看曰逼大片 | 午夜精品一区二区三区的区别 | 亚洲视频在线中文字幕乱码| 精品熟人妻一区二区三区四区不卡| av无码免费永久在线观看|