亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Python自然語言處理方法在文本情感分析中的應(yīng)用

        2020-02-22 03:35:44張永成王懷彬
        電腦知識(shí)與技術(shù) 2020年36期
        關(guān)鍵詞:自然語言處理情感分析深度學(xué)習(xí)

        張永成 王懷彬

        摘要:文本情感分析又被稱之為意見挖掘,其基本原理是利用自然語言處理方法、文本挖掘方法以及計(jì)算機(jī)語言學(xué)方法等,對(duì)需要挖掘的主觀信息進(jìn)行識(shí)別和提取。通過開展Python自然語言處理方法在文本情感分析中的應(yīng)用研究,從基于Python自然語言處理的文本預(yù)處理、文本情感特征降維、文本情感分類,提出一種全新的文本情感分析方法。通過實(shí)驗(yàn)證明,該方法與傳統(tǒng)文本情感分析方法相比可有效降低對(duì)文本的判錯(cuò)率,保證最終情感分析的準(zhǔn)確性,以期為Python自然語言處理方法的廣泛應(yīng)用提供新的路徑。

        關(guān)鍵詞:深度學(xué)習(xí);自然語言處理;情感分析;Python

        中圖分類號(hào):TP181? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)36-0087-02

        文本情感分析是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、推理等操作。文本情感分析自提出以來,受到了極大的關(guān)注,雖然在提出之前,該領(lǐng)域研究人員便已對(duì)情感分析進(jìn)行了深入的 研究,但由于當(dāng)時(shí)互聯(lián)網(wǎng)并未得到廣泛的應(yīng)用,因此可以進(jìn)行分析的數(shù)據(jù)量較少,所以當(dāng)時(shí)情感分析并未得到大規(guī)模的研究。大數(shù)據(jù)時(shí)代的到來,使得網(wǎng)絡(luò)環(huán)境中的信息量不斷增加,如何更加便捷地從海量的文本當(dāng)中挖掘出更加有意義的信息,是當(dāng)前情感分析領(lǐng)域中最受關(guān)注的研究話題。Python自然語言處理方法與其他情感分析技術(shù)相比,具有易學(xué)、易讀和易維護(hù)的優(yōu)勢(shì),針對(duì)海量的文本信息進(jìn)行分析可以在保證傳統(tǒng)編譯語言的強(qiáng)大性以及通用性的基礎(chǔ)上,借鑒更加簡(jiǎn)單的腳本與解釋語言的易用性[1]。除此之外,Python自然語言處理方法還具有網(wǎng)絡(luò)爬蟲功能以及強(qiáng)大的數(shù)據(jù)分析功能,將大多數(shù)編程語言融為一體。雖然其算法的本質(zhì)仍然是采用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或機(jī)器學(xué)習(xí),但從應(yīng)用角度可以看出,其在實(shí)際應(yīng)用中操作更加簡(jiǎn)單,并且更加容易產(chǎn)生結(jié)果。綜合上述分析,本文基于Python自然語言處理,提出一種全新的文本情感分析方法。

        1 基于Python自然語言處理的文本情感分析方法

        1.1 基于Python自然語言處理的文本預(yù)處理

        在對(duì)海量文本信息進(jìn)行情感分析時(shí),第一步要對(duì)文本進(jìn)行預(yù)處理,基本操作步驟是對(duì)文本信息當(dāng)中所有包含詞匯進(jìn)行劃分,并在劃分階段采用Python自然語言處理方法實(shí)現(xiàn)。Python自然語言處理可實(shí)現(xiàn)對(duì)文本分詞、句法分析、語義分析以及篇章分析等功能,與字符相比,詞是最小可以進(jìn)行獨(dú)立活動(dòng),并且含有一定意義的文本組成成分。因此,本文在對(duì)文本進(jìn)行預(yù)處理時(shí),采用將文本信息劃分為多個(gè)詞的形式,針對(duì)文本信息中的分詞預(yù)處理可分為人工分詞和機(jī)械分詞兩種,但由于傳統(tǒng)人工分詞會(huì)出現(xiàn)效率低、速度慢的問題[2]。因此,本文采用機(jī)械分詞方法,結(jié)合計(jì)算機(jī)技術(shù)實(shí)現(xiàn)對(duì)文本的自動(dòng)分詞。利用Python自然語言處理中的字符串匹配分詞,將文本中一串完整的字符串最長(zhǎng)詞條包含字符數(shù)量為x個(gè),將其進(jìn)行正向最大匹配,并進(jìn)行分詞預(yù)處理,按照從左到右的順序提出x個(gè)字符,并將這x個(gè)字符看作是一個(gè)字符串,與對(duì)應(yīng)的文本進(jìn)行比較。若該字符串當(dāng)中所有字符均與相應(yīng)的文本匹配,則說明通過將文本詞條分離處理后的詞條為分詞結(jié)果[3]。再從詞條的第x個(gè)字符之后的一個(gè)字符開始,按照從左至右的順序,再次尋找x個(gè)字符,并將尋找到的字符組成一個(gè)詞條,再重新進(jìn)行上述匹配操作。若匹配未成功,則將這一組x個(gè)字符組成詞條,并將最后一個(gè)字符去掉。再從詞條的第x個(gè)字符前一個(gè)字符開始,重復(fù)上述操作進(jìn)行匹配,直到完成對(duì)文本中所有詞差分為止[4]。針對(duì)存在兩個(gè)或多個(gè)詞條的互現(xiàn)文本,對(duì)其詞條的共同出現(xiàn)概率可用公式(1)表示:

        公式(1)中,L(M1,M2)表示為文本當(dāng)中詞語M1和詞語M2出現(xiàn)相鄰情況時(shí)的概率;L(M1)表示為詞M1在語料庫當(dāng)中出現(xiàn)的次數(shù);L(M2)表示為詞M2在語料庫當(dāng)中出現(xiàn)的次數(shù)。根據(jù)公式(1)計(jì)算得出的結(jié)果可以充分將兩個(gè)或多個(gè)詞條之間的緊密程度反映。當(dāng)?shù)贸龅挠?jì)算結(jié)果越高,說明該字符串能夠構(gòu)成一組完成詞語的概率越大。

        1.2 文本情感特征降維

        利用Python自然語言處理完成對(duì)文本的預(yù)處理后,還需要對(duì)文本中的情感特征進(jìn)行降維,通常情況下,對(duì)文本進(jìn)行詞條分類時(shí),需要將每個(gè)詞條看作是一個(gè)維度,因此對(duì)于篇幅較長(zhǎng)、詞條較多的文本,經(jīng)過處理后會(huì)形成一個(gè)維度較高的特征空間[5]。通過文本情感特征降維可以有效提高分類算法的效率并將受到外界環(huán)境噪聲的影響降到最低,使最終的分類準(zhǔn)確度更高。根據(jù)卡方統(tǒng)計(jì)量計(jì)算公式,按照統(tǒng)計(jì)量衡量詞條與情感標(biāo)簽之間存在的關(guān)聯(lián)度,得出其公式如下:

        公式(2)中,[χ2]表示統(tǒng)計(jì)量;[ai]表示為衡量詞條;[Dj]表示為情感分類標(biāo)簽;[N]表示為訓(xùn)練文本當(dāng)中共包含的文本量;[S]表示為包含在情感分類標(biāo)簽[Dj]并同時(shí)文本中也有詞條[ai]的文檔數(shù)量;[T]表示為不包含在情感分類標(biāo)簽[Dj]但文本中有詞條[ai]的文檔數(shù)量;[U]表示為包含在情感分類標(biāo)簽[Dj]但文本中沒有詞條[ai]的文檔數(shù)量;V表示為不包含在情感分類標(biāo)簽[Dj]并且文本中也沒有詞條[ai]的文檔數(shù)量。假設(shè)在計(jì)算過程中詞條[ai]與情感分類標(biāo)簽[Dj]二者均滿足有一階自由度的[χ2]分布,則通過公式(2)得出的結(jié)果數(shù)值大,則表示詞條與情感分類標(biāo)簽之間的關(guān)聯(lián)程度大,其中攜帶的信息量也較多。反之,說明該詞條與該類的關(guān)聯(lián)程度小,所攜帶的該類別的信息量少。

        1.3 文本情感分類

        在本文提出的基于Python自然語言處理的文本情感分析方法中,文本情感分類是影響最終分析結(jié)果的主要因素,本文采用最簡(jiǎn)單、最基本的K近鄰分類算法作為本文分析方法中的文本情感分類算法[6]。結(jié)合概率統(tǒng)計(jì)算法,對(duì)文本進(jìn)行情感分類,利用得出的結(jié)果對(duì)各個(gè)待分析的本文所屬情感類別可能性進(jìn)行預(yù)測(cè)。最終根據(jù)計(jì)算結(jié)果得出數(shù)值最大的情感類別作為最終結(jié)果。假設(shè),給定一個(gè)已經(jīng)完成降維處理后的文本測(cè)試數(shù)據(jù)集。定義一種距離的度量方式,并在訓(xùn)練過程中查找出距離最近的K個(gè)訓(xùn)練樣本。則在這K個(gè)訓(xùn)練樣本當(dāng)中,某一類的訓(xùn)練樣本最多,根據(jù)概率統(tǒng)計(jì)將輸入的訓(xùn)練樣本歸為一個(gè)情感分類標(biāo)簽[7]。具體計(jì)算過程為:第一步,輸入訓(xùn)練文文本測(cè)試數(shù)據(jù)集:Q={(a1,d1),(a2,d2),…,(an,dn)},其中a∈A表示為輸入訓(xùn)練文本中的特征向量,d∈D表示為所屬情感類別。第二步,輸出與訓(xùn)練文本a相對(duì)應(yīng)的情感類別d。第三步,根據(jù)分類前事先給定的計(jì)算距離數(shù)值,在文本測(cè)試數(shù)據(jù)集當(dāng)中找出與設(shè)定距離最近的K個(gè)點(diǎn),將覆蓋所有點(diǎn)的區(qū)間定義為a的領(lǐng)域。第四步,在a的領(lǐng)域當(dāng)中根據(jù)投票規(guī)則,按照少數(shù)服從多數(shù),判斷a所述的情感類別。第五步,由輸入的訓(xùn)練文本的K個(gè)鄰近訓(xùn)練文本中的大多數(shù)決定所述的情感標(biāo)簽,實(shí)現(xiàn)文本情感分類。

        2 實(shí)驗(yàn)論證分析

        選取某部電影的評(píng)論詞條組成一個(gè)完整的文本,將該文本作為實(shí)驗(yàn)對(duì)象,實(shí)驗(yàn)對(duì)象中字符為2434個(gè),需要進(jìn)行分析的字符為1200個(gè)。分別利用傳統(tǒng)文本情感分析方法與本文提出的基于Python自然語言處理的文本情感分析方法對(duì)該文本進(jìn)行情感分析。針對(duì)電影文本當(dāng)中主體的特殊性以及機(jī)器分析的機(jī)械性,為保證實(shí)驗(yàn)結(jié)果的有效性,利用兩種方法分析時(shí),將文本中“一個(gè)”這樣類似的無效詞匯自動(dòng)屏蔽。將兩種分析方法得到的結(jié)果進(jìn)行記錄,并繪制成如表1所示的實(shí)驗(yàn)結(jié)果對(duì)比表。

        由表1可以看出,本文方法與傳統(tǒng)方法在對(duì)含有1200個(gè)字符的文本進(jìn)行情感分析時(shí),隨著字符數(shù)的增加,兩種方法判錯(cuò)率均隨著字符數(shù)的增加而表現(xiàn)出降低的趨勢(shì)。但從整體來看,本文在對(duì)1200個(gè)字符的文本進(jìn)行情感分析時(shí)判錯(cuò)字符量明顯少于傳統(tǒng)方法,并且在對(duì)600個(gè)字符進(jìn)行分析后,基本可以實(shí)現(xiàn)準(zhǔn)確的判斷與分析。因此,通過實(shí)驗(yàn)證明,本文提出的基于Python自然語言處理的文本情感分析方法判錯(cuò)率更低,對(duì)文本情感分析準(zhǔn)確,并且隨著文本中的字符數(shù)增加,分析更準(zhǔn)確。

        3 結(jié)束語

        本文結(jié)合Python自然語言處理方法,提出了一種全新的文本情感分析方法,在實(shí)際應(yīng)用中可以在一定程度上,有效降低在文本分詞過程中信息的缺失程度,提高最終分析結(jié)果的準(zhǔn)確性。但本文采用了K近鄰分類算法在實(shí)際應(yīng)用中會(huì)受到K值選擇、文本長(zhǎng)度等因素的影響,仍然存在分析受到影響的情況。利用機(jī)器處理實(shí)現(xiàn)對(duì)文本情感分析仍然是從數(shù)學(xué)統(tǒng)計(jì)的角度融合自然語言處理,而情感是一個(gè)十分復(fù)雜的研究課題。因此,在后續(xù)的研究中還將針對(duì)機(jī)器對(duì)人類情感深入、細(xì)膩的把握與分析進(jìn)行更加深入的研究,并采取更加精確的分類算法,實(shí)現(xiàn)對(duì)文本的無判錯(cuò)情感分析。

        參考文獻(xiàn):

        [1] 陳珂,梁斌,左敬龍,等.一種用于中文微博情感分析的多粒度門控卷積神經(jīng)網(wǎng)絡(luò)[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2020,52(3):21-26,33.

        [2] 徐紅霞,于倩倩,錢力. 基于主題模型和情感分析的話題交互數(shù)據(jù)觀點(diǎn)對(duì)抗性分析[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,42(7):110-117.

        [3] 楊秀璋,武帥,夏換,等.基于主題挖掘和情感分析的 “新冠肺炎疫情” 輿情分析研究[J].計(jì)算機(jī)時(shí)代,2020(8):31-36.

        [4] 成永坤,朱菊芳,牟向前. 滑雪游客的產(chǎn)品認(rèn)知、情感表達(dá)及滿意度——基于網(wǎng)絡(luò)評(píng)價(jià)文本分析[J].體育成人教育學(xué)刊,2020,36(4):15-21.

        [5] 楊莉,王敏,程宇.基于LDA和XGBoost模型的環(huán)境公共服務(wù)微博情感分析[J].南京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019,21(6):23-39.

        [6] 李佳晶,尹華光. 基于網(wǎng)絡(luò)文本分析的張家界市旅游酒店游客生態(tài)文化感知研究[J].旅游縱覽(下半月),2019,31(12):62-64,67.

        [7] 劉惠,趙海清.基于TF-IDF和LDA主題模型的電影短評(píng)文本情感分析 ——以《少年的你》為例[J].現(xiàn)代電影技術(shù),2020(3):42-46.

        【通聯(lián)編輯:梁書】

        猜你喜歡
        自然語言處理情感分析深度學(xué)習(xí)
        基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
        基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評(píng)論情感屬性的動(dòng)態(tài)變化
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        文本觀點(diǎn)挖掘和情感分析的研究
        日韩亚洲欧美中文在线| 久久国产偷| 人妻被猛烈进入中文字幕| 中文无码日韩欧免费视频| 一本久久伊人热热精品中文| 中文字幕人妻激情在线视频| 国产桃色一区二区三区| 成人影院视频在线免费观看| 成人午夜福利视频| 日本最大色倩网站www| 日本丰满熟妇bbxbbxhd| 成人免费毛片内射美女-百度 | 精品人体无码一区二区三区| 亚洲一区综合精品狠狠爱| 国产精品,在线点播影院| 亚洲av毛片一区二区久久| 亚洲国产精品成人av网| 亚洲中文字幕无码av| 久久亚洲av成人无码国产| 久久久久久岛国免费网站| 亚洲精品天堂日本亚洲精品| 中文无码人妻有码人妻中文字幕 | 最近日韩激情中文字幕| 99久久超碰中文字幕伊人| 无码啪啪熟妇人妻区| 亚洲人成精品久久熟女| 可免费观看的av毛片中日美韩| 国产乱人激情h在线观看| 亚洲va中文字幕无码| 亚洲美腿丝袜综合一区| 国产网友自拍亚洲av| 亚洲综合视频一区二区| 成年站免费网站看v片在线| 精品国产v无码大片在线观看| 人妻少妇精品无码专区二| 宅宅午夜无码一区二区三区| 中文字幕日本在线乱码| 在线观看视频日本一区二区| 中文字幕在线精品视频入口一区| 在线免费观看国产精品| 玩弄放荡人妻一区二区三区|