亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電影網(wǎng)站短評數(shù)據(jù)的網(wǎng)絡(luò)輿情文本挖掘與情感分析

        2023-04-29 00:00:00賀海玉
        現(xiàn)代信息科技 2023年21期

        收稿日期:2023-04-07

        DOI:10.19850/j.cnki.2096-4706.2023.21.029

        摘" 要:對電影短評數(shù)據(jù)進(jìn)行情感分析的目的是為了獲取觀眾對某部電影的情感傾向,同時還可幫助電影制作者通過了解觀眾的情感傾向,從而改善電影的制作。文章采用的方法是通過python代碼爬取電影網(wǎng)站上的評論數(shù)據(jù),對爬取的數(shù)據(jù)進(jìn)行多項數(shù)據(jù)預(yù)處理技術(shù)得到較為規(guī)范的評論數(shù)據(jù),再利用TF-IDF算法計算出短評數(shù)據(jù)的關(guān)鍵詞及權(quán)重并給關(guān)鍵字詞云圖,然后使用SnowNLP庫計算出短評數(shù)據(jù)的情感分值,并運(yùn)用LDA模型對電影網(wǎng)站短評數(shù)據(jù)主題分類,最終給出電影網(wǎng)站短評數(shù)據(jù)情感分析的可視化評價結(jié)果。

        關(guān)鍵詞:情感分析;Jieba分詞;TF-IDF算法;SnowNLP分析;LDA主題模型

        中圖分類號:TP391" 文獻(xiàn)標(biāo)識碼:A" 文章編號:2096-4706(2023)21-0126-06

        Text Mining and Emotion Analysis of Online Public Opinion Based on Short Review Data of Film Websites

        HE Haiyu

        (Information Technology Department of Dazhong Newspaper Group, Ji'nan" 250014, China)

        Abstract: The purpose of conducting emotion analysis on film short review data is to obtain the audience's emotional tendencies towards a certain film. At the same time, it can help filmmakers improve film production by understanding the audience's emotional tendencies. The method used in this paper is to crawl the review data on film websites through Python code, perform multiple data preprocessing techniques on the crawled data to obtain more standardized review data, then use TF-IDF algorithm to calculate the keywords and weights of the short review data and give keywords cloud maps. Then, it uses SnowNLP library to calculate the emotional score of the short review data, and uses LDA model to classify the short review data theme of the film websites. Finally, it provides a visual evaluation result of emotion analysis of short review data on film websites.

        Keywords: emotion analysis; Jieba participle; TF-IDF algorithm; SnowNLP analysis; LDA topic model

        0" 引" 言

        國家新聞出版廣電總局公布的數(shù)據(jù)顯示,2021年中國電影總票房達(dá)472.58億元,其中國產(chǎn)片票房399.27 億元,占總票房的84.49%。由此可見,我國在注重經(jīng)濟(jì)發(fā)展的同時,也加大了對文化產(chǎn)業(yè)的扶持力度,電影市場規(guī)模也逐年增長,城市院線觀影人次達(dá)11.67億人次,年度總票房和銀幕總數(shù)繼續(xù)保持全球第一,電影票房、銀幕數(shù)量、銀幕數(shù)均創(chuàng)歷史新高,電影逐漸融入大眾生活,已成為廣大市民休閑娛樂的重要方式。與此同時,隨著“互聯(lián)網(wǎng)+”和大數(shù)據(jù)技術(shù)的迅猛發(fā)展,也促使各種網(wǎng)絡(luò)社交平臺迅速崛起,越來越多的網(wǎng)民通過網(wǎng)絡(luò)社交平臺表達(dá)個人的意見看法和情感態(tài)度,電影領(lǐng)域的社交平臺也應(yīng)運(yùn)而生,比如豆瓣、貓眼等影評網(wǎng)站,順應(yīng)了中國電影行業(yè)的發(fā)展。當(dāng)眾多網(wǎng)民看完影片后,可以在電影網(wǎng)站上對影片進(jìn)行評價打分,這些評價往往以文字的形式呈現(xiàn)在網(wǎng)絡(luò)平臺上,于是就形成了一種線下觀看、線上評論的模式。但觀眾對某一部電影的評價往往帶有明顯的主觀判斷,同一部電影,不同的觀眾有著截然不同的評價,褒貶不一,很難形成統(tǒng)一有效的評價。讓觀眾選擇一部符合自己觀影需求的影片,如果僅憑幾個影評或評分就決定是否觀影,顯然過于片面[1]。因此,研究如何從海量的影評數(shù)據(jù)中挖掘出觀眾的潛在情感特征進(jìn)行情感分析是非常必要的,這不僅可以客觀呈現(xiàn)出電影觀眾對某部電影的情感傾向,而且還能幫助電影制作者了解觀眾對電影的情感反饋,為提升電影制作品質(zhì)提供重要依據(jù)。由于豆瓣電影平臺擁有龐大的用戶基數(shù),影評數(shù)量多且專業(yè)性較強(qiáng),使之成為海量體現(xiàn)觀眾觀影感受數(shù)據(jù)的代表網(wǎng)站之一,因而具有較大的研究價值。有鑒于此,本文以豆瓣電影網(wǎng)站短評數(shù)據(jù)為研究對象進(jìn)行文本挖掘和情感分析。

        1" 研究設(shè)計

        本文研究設(shè)計思路:第一步,對電影網(wǎng)站的影評數(shù)據(jù)進(jìn)行采集并進(jìn)行數(shù)據(jù)預(yù)處理是利用python語言編寫網(wǎng)絡(luò)爬蟲程序進(jìn)行的;第二步,使用Jieba中文分詞庫對影評數(shù)據(jù)進(jìn)行分詞、去掉停詞等處理,得到比較規(guī)范的影評數(shù)據(jù),并將影評數(shù)據(jù)的高頻關(guān)鍵詞和權(quán)重按照TF-IDF算法進(jìn)行提取和計算,然后將經(jīng)過中文分詞處理過的影評數(shù)據(jù)通過調(diào)用WordCloud庫進(jìn)行詞云圖可視化呈現(xiàn);第三步,使用SnowNLP庫計算出影評數(shù)據(jù)的情感分值并運(yùn)用LDA模型進(jìn)行主題詞提?。坏谒牟剑鶕?jù)計算出的情感分?jǐn)?shù)進(jìn)行統(tǒng)計,得出正面、中性、負(fù)面的情緒比例以及影評數(shù)據(jù)中的主題分類,最終給出可視化的評價結(jié)果,如電影網(wǎng)站的短評數(shù)據(jù)正負(fù)傾向統(tǒng)計圖,情感分析占比圖,情感分析直方圖,情感分析波動圖,以及主題分類圖等。具體實現(xiàn)流程如圖1所示。

        2" 相關(guān)理論

        文本數(shù)據(jù)挖掘(Text Mining)是指利用計算機(jī)處理技術(shù)將有價值的信息和知識從文本數(shù)據(jù)中提取出來[2]。而作為文本數(shù)據(jù)挖掘重要方向的情感分析(又稱觀點挖掘)則是運(yùn)用自然語言處理、文本挖掘、計算機(jī)語言等手段對帶有感情色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程,其應(yīng)用到的相關(guān)理論如下。

        2.1" Jieba分詞器

        中文分詞是中文文本處理的一個基礎(chǔ)步驟,也是中文人機(jī)自然語言交互的基礎(chǔ)模塊,在進(jìn)行中文自然語言處理時,通常需要先進(jìn)行分詞。Jieba分詞器是目前python中最好的中文分詞組件,它主要利用中文詞庫來確定漢字相互之間的關(guān)聯(lián)概率,從而產(chǎn)生正確的分詞結(jié)果,這種分詞方法的正確率較高,可以很好地幫助用戶完成關(guān)鍵詞提取、潛在主題發(fā)現(xiàn)等工作,尤其是在中文文本分類。同時,Jieba分詞器也支持用停用詞典和用戶詞典的功能,可以大大提高分詞結(jié)果的準(zhǔn)確性,對于分詞結(jié)果不理想的詞語,可以通過引入自定義詞典進(jìn)行處理。因此,本文選擇使用Jieba分詞器對影評的文本數(shù)據(jù)進(jìn)行分詞,停用詞,統(tǒng)計高頻詞。

        2.2" TF-IDF算法

        TF-IDF算法的目的是評估一個詞對文本的重要性,如果該詞或短語在一篇文章中出現(xiàn)頻率較高,文檔集中出現(xiàn)頻率較低,則認(rèn)為該詞或短語具有較好的類別區(qū)分能力[3,4]。TF-IDF由兩部分組成:詞頻(TF)和逆文檔頻率(IDF)。

        詞頻(TF)是指文件中出現(xiàn)某一具體詞語的頻率:

        (1)

        逆文檔頻率(IDF)即文檔總數(shù)與包含某一具體詞語文檔數(shù)比值的對數(shù)值:

        (2)

        假如某個關(guān)鍵詞i在文本d中出現(xiàn)的詞頻為tfi(d),ni為含有關(guān)鍵詞i的文本數(shù),則TF-IDF函數(shù)為:

        (3)

        因此,本文通過TF-IDF算法可以提取并計算出某篇文本里的關(guān)鍵詞以及權(quán)重。

        2.3" SnowNlp情感分析

        SnowNLP是Python編寫的自然語言處理庫,主要可實現(xiàn)中文分詞、詞性標(biāo)注、情感分析、文字分類、拼音轉(zhuǎn)換、繁體轉(zhuǎn)簡體、提取文字關(guān)鍵詞、提取摘要、分隔語句、文本相似等功能。它是一個可讀性很好的中文文本處理庫,簡單易懂,易于實現(xiàn)。SnowNLP庫不需要NLTK,它自帶語料庫和情感字典,本身就可以實現(xiàn)所有的算法,不需要下載大量的情感詞庫和構(gòu)建各種情感詞庫,有一定的準(zhǔn)確率。故本文選取SnowNLP進(jìn)行影評數(shù)據(jù)的情感分析。

        SnowNLP情感分析基本原理如下:假設(shè)情感分析的分類有正面評價c1和負(fù)面評價c2兩類,且每一條評論中有w1, w2, …, wn共n個相互獨立的文本空間,通過樸素貝葉斯公式分別計算出屬于正面評價P(c1 | w1, …, wn)和負(fù)面評價P(c 2 | w1, …, wn)的條件概率,其計算公式可表示為:

        (4)

        并根據(jù)全概率公式P(B) = P(B | A)P(A) + P(B | A′)P(A′),可將P(w1, …, wn)表示為:

        (5)

        進(jìn)而可將公式轉(zhuǎn)換為:

        (6)

        其計算得到概率值的范圍在0到1之間,當(dāng)概率值越接近1表示正向,當(dāng)概率值越接近0表示負(fù)向,該式即為SnowNLP在情感分析過程中使用的計算算法[5]。

        2.4" LDA主題模型

        LDA(Latent Dirichlet Allocation)潛在狄利克雷分布主題模型是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題并生成分類。它采用了詞袋(bag of words)的方法,通過構(gòu)建“文檔-主題-詞”三層貝葉斯概率模型,可以獲取每個主題下的詞語分布概率,以及文檔對應(yīng)的主題概率,從而根據(jù)所得的概率進(jìn)行主題分類,如圖2所示。

        在LDA模型中,一個文檔的生成過程如下:

        1)從狄利克雷分布(Dirichlet)α中取樣,生成文檔di對應(yīng)的主題分布θi。

        2)文檔i第j個詞的主題Zi, j是從主題的多項式分布θi中取樣生成。

        3)從狄利克雷分布(Dirichlet)β中取樣,生成主題Zi, j對應(yīng)的詞語分布 。

        4)綜合主題Zi, j對應(yīng)詞語多項式分布" 生成詞語Wi, j。

        其中,參數(shù)α、β和主題對應(yīng)的主題數(shù)K一般事先給出,圖中表示依存關(guān)系的是向量邊,表示重復(fù)的是長方形,表示重復(fù)的是字母M、N、K,在長方形中表示重復(fù)的次數(shù)。因此,若要生成一個文檔,文檔中每個詞出現(xiàn)的條件概率公式如下:

        (7)

        表示每個文檔中每個單詞出現(xiàn)的概率為P(w | d);表示每個主題中每個單詞的出現(xiàn)頻率是P(w | z);表示每個文檔中每個主題出現(xiàn)的概率為P(z | d)。當(dāng)給定文本集,可通過對文本集中的每個文本進(jìn)行分詞,計算各個文本中每個詞語的詞頻可以得到“文檔-詞語”矩陣。LDA主題模型就是通過“文檔-主題-詞語”三層,以一定的概率推斷文檔的主題[6]。

        3" 實驗分析

        本文采用2023年1月22日在中國大陸上映,由張藝謀導(dǎo)演,沈騰、易烊千璽、張譯、雷佳音、岳云鵬、王佳怡領(lǐng)銜主演的《滿江紅》電影影評數(shù)據(jù)作為實驗數(shù)據(jù)源進(jìn)行文本挖掘與情感分析。

        3.1" 數(shù)據(jù)采集

        對《滿江紅》影評數(shù)據(jù)的采集是利用Python編寫的網(wǎng)絡(luò)爬蟲程序進(jìn)行的。該網(wǎng)絡(luò)爬蟲程序是在window 7操作系統(tǒng)中,利用Anaconda3集成開發(fā)環(huán)境,通過Python語言進(jìn)行開發(fā)的。其Python作為一種開源軟件,為編譯爬蟲程序提供了大量的完善的基礎(chǔ)代碼庫以及功能強(qiáng)大的第三方資源庫,使得系統(tǒng)開發(fā)更為簡單便捷。在編寫的影評網(wǎng)絡(luò)爬蟲程序引入了Python語言的Requests、lxml、BeautifulSoup、jieba、csv、SnowNLP等第三方資源庫。該爬蟲程序首先以要訪問的《滿江紅》電影評論頁面URL為入口,通過Requests庫模擬瀏覽器向服務(wù)器發(fā)送請求獲取響應(yīng)數(shù)據(jù);然后通過lxml庫將獲取的響應(yīng)數(shù)據(jù)進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換,再經(jīng)BeautifulSoup庫進(jìn)行數(shù)據(jù)解析和提取,獲得影評數(shù)據(jù),包括昵稱、評分、日期、地域、短評、有用等數(shù)據(jù);最后將爬取到的1 200條網(wǎng)絡(luò)評論數(shù)據(jù)以.csv格式保存下來,用于后續(xù)的情感分析,如圖3所示。

        3.2" 數(shù)據(jù)清洗

        一般網(wǎng)絡(luò)爬蟲程序采集下來的影評數(shù)據(jù),存在較多的臟數(shù)據(jù),為了避免數(shù)據(jù)不夠規(guī)范導(dǎo)致結(jié)果出錯,需要進(jìn)行數(shù)據(jù)清洗、中文分詞、去除停用詞、高頻詞統(tǒng)計等一系列的數(shù)據(jù)預(yù)處理操作。例如我們初次爬取下來的影評數(shù)據(jù)就存在較多的干擾信息,如重復(fù)冗余評論,帶有HTML標(biāo)簽和帶有emotion(表情)的評論以及空格等。對帶有HTML標(biāo)簽、表情符號以及空格可使用Python正則表達(dá)式的方法re.sub()匹配去除。對重復(fù)冗余的文本數(shù)據(jù)則是使用drop_duplicates()方法將網(wǎng)絡(luò)評論數(shù)據(jù)中重復(fù)的部分過濾掉,從而起到去除無用的、重復(fù)的網(wǎng)絡(luò)評論目的。然后對處理好后的影評數(shù)據(jù)再使用Jieba分詞庫的cut()方法的精準(zhǔn)模式對網(wǎng)絡(luò)評論數(shù)據(jù)進(jìn)行切句、分詞。經(jīng)過分詞后的數(shù)據(jù)還有很多干擾項,在評論數(shù)據(jù)中還會存在著頻率出現(xiàn)極高一些詞匯,如:“在”“的”“萬一”“?”“!”等,以及一些中文標(biāo)點符號,這些詞匯本身沒有什么實際意義。因此,選用哈工大停用詞表并將其加載到Jieba分詞庫的停用詞庫中,將沒有具體意義的詞刪去,從而生成較為規(guī)范化的數(shù)據(jù)文本,然后根據(jù)TF-IDF算法提取并計算出影評數(shù)據(jù)的高頻關(guān)鍵詞如“反轉(zhuǎn)、電影、滿江紅、喜劇、劇情”等以及權(quán)重,如表1所示。

        同時,調(diào)用WordCloud庫將經(jīng)過數(shù)據(jù)清洗過的影評數(shù)據(jù)進(jìn)行詞云圖可視化。如圖4所示。通過詞云圖,可以得出“滿江紅電影最后反轉(zhuǎn)真的很喜劇”這樣的評論。

        3.3" 情感分析

        對清洗過的影評數(shù)據(jù)進(jìn)行情感分析時,主要是由SonwNLP庫來實現(xiàn)的。通過調(diào)用SnowNLP庫的sentiment()方法對文本進(jìn)行情感分析,就能夠獲取每條評論的對應(yīng)情感分值,同時還可以通過設(shè)定正負(fù)評價類型閥值,將情感分值劃分成三個情感類型區(qū)間,當(dāng)情感分值在[0,0.4)區(qū)間時為消極,情感分值在[0.4,0.6)區(qū)間時為中性,情感分值在[0.6,1]區(qū)間時為積極,如圖5所示。

        并且通過SnowNLP情感分析,可以得到與“滿江紅”相關(guān)的影評數(shù)據(jù)的情感分析占比圖、直方圖以及波動圖,如圖6~圖9所示。

        圖6顯示了觀眾按照一星、二星、三星、四星、五星(即很差、較差、還行、推薦、力薦)的評價標(biāo)準(zhǔn)對該電影的好壞進(jìn)行評價,其占比值為4.2%,6.9%,18.6%,39.9%,30.4%,其中四星和五星所占比例較大,因此可以看出大多數(shù)觀眾對此電影持推薦態(tài)度,電影值得一看。圖7顯示了所有影評數(shù)據(jù)中屬于積極、中性及消極情感分析分類的占比,從此圖可以直觀地看到積極占比為79.3%,中性占比為5.7%,消極占比為15%,屬于積極的占比較大,因此可判斷出觀眾對該電影的評論也是趨于積極的評價。圖8以直方圖的形式呈現(xiàn)出感情分的區(qū)間分布,整體的感情分分布由圖中可以看出靠右,這也顯示出觀眾呈現(xiàn)出更積極的態(tài)度來評價這部影片。圖9以波動圖的形式呈現(xiàn)了評論數(shù)量與情感得分的關(guān)系,從圖中可見波動曲線整體分布靠上,且隨著評論數(shù)量的增加越發(fā)穩(wěn)定在上側(cè)區(qū)間,由此可看出觀眾對該電影的評價也大多持積極態(tài)度的。

        3.4" LDA主題分析

        LDA主題分析是對情感分析的進(jìn)一步解釋,是一種基于詞語語義特征提取文章主題的方法,在各自的主題下,可以根據(jù)概率值列舉出對應(yīng)的特征詞,將具有相同主題的詞語匯聚在一起。在LDA主題分析中,使用第三方工具包Gensim庫將非結(jié)構(gòu)化的文本信息轉(zhuǎn)化成Gensim模型可以理解的稀疏向量,然后通過LdaModel()方法將影評數(shù)據(jù)的主題設(shè)定為4類,從而得到各主題包含的主題詞分類,如表2所示,圖10為得到的主題1的可視化結(jié)果。

        通過對比LDA進(jìn)行主題分析獲取的主題詞與jieba分詞獲得的關(guān)鍵詞以及WordCloud繪制的詞云圖,可以看出觀眾對該電影的關(guān)注焦點是一致的。

        4" 結(jié)" 論

        隨著電影行業(yè)飛速發(fā)展,電影已經(jīng)逐漸融入大眾生活,成為休閑娛樂的重要方式,電影無疑已經(jīng)進(jìn)入了全民關(guān)注,全民討論時代。因電影評分網(wǎng)站上蘊(yùn)含了大量的電影評論、排行、評分等主觀傾向性信息,所以通過對用戶評論和評分?jǐn)?shù)據(jù)的情感分析,可以給觀眾提供更好的觀影體驗和為電影業(yè)帶來更大的商業(yè)價值,因此對電影影評數(shù)據(jù)進(jìn)行收集和情感分析研究具有非常重要的意義。本文通過對電影影評數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)爬取、中文分詞、詞頻統(tǒng)計、關(guān)鍵詞提取,SnowNLP情感分析和LDA主題分類等步驟后,獲得的詞云圖、情感分析占比圖、直方圖、波動圖及LDA主題分類圖等可視化圖表可以較好地呈現(xiàn)觀眾對電影的情感傾向和關(guān)注焦點,同時還能為電影制作者提供觀眾對于國產(chǎn)電影的偏好反饋信息,為國產(chǎn)電影的發(fā)展提供決策依據(jù)。

        參考文獻(xiàn):

        [1] 余洋.豆瓣電影評論文本的情感分析及主題提取研究 [D].昆明:云南財經(jīng)大學(xué),2018.

        [2] 夏海峰,陳軍華.基于文本挖掘的投訴熱點智能分類 [J].上海師范大學(xué)學(xué)報:自然科學(xué)版,2013,42(5):470-475.

        [3] 趙亞歐,張家重,李貽斌,等.融合基于語言模型的詞嵌入和多尺度卷積神經(jīng)網(wǎng)絡(luò)的情感分析 [J].計算機(jī)應(yīng)用,2020,40(3):651-657.

        [4] 葉雪梅.文本分類TF-IDF算法的改進(jìn)研究 [D].合肥:合肥工業(yè)大學(xué),2019.

        [5] 白健,洪小娟.基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析 [J].軟件工程,2022,25(11):44-48.

        [6] 劉惠,趙海清.基于TF-IDF和LDA主題模型的電影短評文本情感分析——以《少年的你》為例 [J].現(xiàn)代電影技術(shù),2020(3):42-46.

        作者簡介:賀海玉(1977—),男,漢族,河南衛(wèi)輝人,高級工程師,碩士,研究方向:新媒體大數(shù)據(jù)技術(shù)及分析、網(wǎng)絡(luò)輿情。

        欧美精品黄页在线观看视频| 亚洲成熟女人毛毛耸耸多| 久久久久人妻一区精品| 精品人妻系列无码一区二区三区| 少妇的诱惑免费在线观看| 国产91成人自拍视频| 亚洲一区在线观看中文字幕| 国产色无码精品视频国产| 亚洲夜夜骑| 精品国产乱来一区二区三区| 亚洲婷婷久悠悠色悠在线播放| 麻豆一区二区三区蜜桃免费| 亚洲av无码乱码国产麻豆穿越| 久草视频在线这里只有精品| av网站免费在线浏览| 中文字幕日本人妻久久久免费| 美女高潮无遮挡免费视频 | 久草视频华人在线观看| 青青草手机在线观看视频在线观看| 久久午夜无码鲁丝片午夜精品 | 不卡的av网站在线观看| 中国农村熟妇性视频| 国产在线无码免费视频2021| 亚洲蜜臀av一区二区三区漫画| 精品久久久久久亚洲综合网| 亚洲国产av导航第一福利网| 亚洲VR永久无码一区| 日本黄色影院一区二区免费看| 人妻少妇出轨中文字幕| 亚洲国产精品无码久久电影| 日韩人妻中文字幕一区二区| 亚洲av日韩一区二区| 久热这里只有精品视频6| 1精品啪国产在线观看免费牛牛| 口爆吞精美臀国产在线| 婷婷色香五月综合缴缴情| 中文乱码人妻系列一区二区| 男女上床视频在线观看| 国产精品视频自拍在线| 日出水了特别黄的视频| 国产欧美亚洲另类第一页|