亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞典的文本極性計算及分類研究

        2020-04-13 01:26:00薛興榮靳其兵
        網絡安全技術與應用 2020年4期
        關鍵詞:分類文本情感

        ◆薛興榮 靳其兵

        (北京化工大學信息科學與技術學院 北京 100029)

        伴隨著網絡技術的飛速發(fā)展,網絡上積累著海量的評論資源,通過對這些評論文本的分析和挖掘,從中可以識別出評論者的情感態(tài)度,進而可以掌握消費者的消費習性、了解人們對熱點話題的看法、預測輿情的發(fā)展趨勢等。因此對網絡輿論的情感自動識別和分類進行研究不論對于個人、企業(yè)還是政府都非常有意義。情感自動分類就是通過自動識別評論文本中的某些關鍵信息后,對評論文本自動劃分為差評、中評、好評等類別,它的研究對象主要是網絡上存在的各類評論文本,然后以分析這些文本中蘊含的情感態(tài)度為目的。針對網絡評論這一具有鮮明情感色彩的數據資源,本文首先利用爬蟲技術爬取國內某電商網店平臺上關于“999 感冒藥”的銷售評論文本數據,然后對采集的評論文本做預處理,接著使用本文提出的基于語義詞典的方法對預處理后的數據進行情感分類及極性值計算,最后依據準確率、召回率及F1值等指標對該方法進行性能分析。

        1 相關工作

        近年來,網絡文本情感分類方面的研究已取得大量的研究成果,而且還在吸引越來越多的研究者投入其中,但是與國內相比,國外在這方面的研究要更早且涉及的領域也更廣。目前,情感傾分類研究的最小單位粒度分為詞語、句子、文檔三個層次,但是大部分是以詞作為最小單位粒度。主要采用機器學習和詞典匹配等方法來實現(xiàn)文本情感識別。其中,屬于無監(jiān)督分類方案的基于語義詞典的方法,它需要先從語料文本中通過構建的各類詞典識別情感詞,根據相關的判斷規(guī)則或算法計算該文本的整體情感值,對該文本的情感類別作出判斷[1]。這種方法雖然簡單有效,但是需要人為地構建各類詞典,且對詞典的質量有著嚴格的要求。而屬于有監(jiān)督學習的機器學習分類方法,雖然更容易建模,但是該方法對特征選擇及訓練數據的規(guī)模都非常依賴,且在處理復雜問題時泛化能力也受到很大的限制。深度學習的快速興起為這類問題提供了一種新的解決方案[2]。由于本文的任務之一是實現(xiàn)文本的情感極性計算,所以本次選用基于詞典的方法。

        在情感詞典構建方面,國外主要有WordNet[3]、SentiWordNet[4]等詞典,此外,國外研究者也對情感詞典的構建也展開了相關研究[5]。國內的情感詞典主要有Hownet[6]、NTSUD[7]、情感詞匯本體[8]等,與此同時,還對網絡流行語等領域情感詞典的構建進行了相關研究[9-11]。在對詞典的自動擴展方面,為了分析新詞的情感類別,朱嫣嵐等人采用了Hownet 詞典并標注部分已知的種子詞的方法[12]。還有的學者考慮將多個不同類型的詞典進行合并從而達到詞典擴充的目的。例如,王勇等人在基礎情感詞典中融入了符號詞典、否定詞典,以此來實現(xiàn)詞典的合并任務,最后還利用合并后的新詞典結合相關規(guī)則來對微博評論文本的情感類別進行分析,他們的實驗證明,這種融合多個詞典的方法有更高的準確率[13]。此外,還有學者對未登錄詞的情感極性進行了研究,如Turney 等人采用計算詞語間的點互信息來實現(xiàn)將未登錄詞加入情感詞典以實現(xiàn)詞典的擴充和文本的情感分類任務[14]。

        2 方法

        本文的文本情感分類及極性值計算流程如圖1 所示,主要包含以下幾個步驟:

        (1)利用爬蟲技術抓取電商網站上的商品評論數據。

        (2)加載用戶自建的用戶詞典,并對評論文本進行繁簡轉化、重復數據過濾、中文分詞和去停用詞等預處理操作。

        (3)對未登錄詞進行識別。在分詞過程中出現(xiàn)未登錄詞時,利用fastText 算法進行新詞識別,并將其添加到用戶詞典中,接著使用本文的情感極值計算算法確定其情感極性,最后再將其添加至語義情感詞典中。

        (4)提取情感特征信息。加載各類已經構建完成的語義詞典,然后把分詞后的語料與各個詞典進行匹配,得到以情感詞為中心,程度副詞和否定詞等為輔助的匹配結構,最后再以標點符號完成斷句。

        圖1 基于語義詞典的情感分類流程

        (5)評論文本情感值極性計算。先對評論中各詞的情感值進行確定,然后通過累加求均值的方法確定評論中每個句子的情感值,最后再對各句的情感值累加求均值最終得到評論整體的情感極性值。

        (6)評論情感分類。判斷最終得到的情感極性值是否大于設定的閾值,若大于閾值則評論為正面文本,小于則為負面文本,否則為中性文本。

        2.1 文本數據預處理

        首先對數據進行清洗,主要是刪除沒有意義的數據以及一些重復數據。刪除這類數據可以使用Excel 中的函數或者使用正則表達式完成。接下來對文本進行切分、分詞和去停用詞等操作。由于評論文本內容通常比較簡短,故只進行分詞和去停用詞即可,分詞就是把句子切分為一個個單獨的詞語,它是進行文本分類的基礎。分詞完成之后還需進行名詞、形容詞、副詞等詞性標注。在分詞時需要加載用戶詞典,用戶詞典由未登錄詞、候選情感詞以及用戶自己構建的詞典組成。在中文中,一篇文本的內容是通過名詞、動詞、形容詞、代詞、介詞和連詞等詞匯構成,其中,名詞等實詞對文本情感極性計算有極大的幫助作用;而介詞、連詞、冠詞等虛詞以及一些常用詞匯則不能提供太多的幫助,將這些對文本情感極性計算幫助不大的詞稱作停用詞。在進行文本處理時往往都需要去停用詞,比如英文中的“the、of、and、to、for”等,漢語中如“的,地,這個,那個”等助詞。在本文中針對研究內容共收集停用詞 1208 個,部分如表1 所示。分詞和去停用詞可以使用jieba 完成。至此,實現(xiàn)文本的預處理操作,粗略篩選出有用詞條。

        表1 部分停用詞

        2.2 各類語義詞典構建

        2.2.1 基礎情感詞典構建

        情感詞是指能表達出意見持有者情感傾向的詞匯,它是情感計算過程的基礎,包括名詞、動詞、形容詞、副詞以及成語等。本文將臺灣大學NTUSD 情感詞典、大連理工大學的中文情感詞匯本體庫,和中國知網的Hotnet 情感詞典作為基礎詞典,分別合并這三個詞典中的正向和負向情感詞,過濾掉情感極性不明顯、存在情感傾向歧義以及重復的情感詞,最終得到正、負向基礎情感詞典,構建過程如圖2 所示。

        圖2 基礎情感詞典構建流程圖

        首先,將《中文情感詞匯本體庫》里面極性為正的詞添加到正向基礎情感詞典中,同理,得到負向基礎情感詞典。然后分別遍歷NTUSD 和Hotnet 的褒義詞和貶義詞,若是新詞則添加到對應的基礎情感詞典,實現(xiàn)基礎情感詞典的構建。

        利用基于詞典的方法進行文本情感極性計算,結果依賴于情感詞典的準確性和全面性,但是僅考慮情感詞是不全面的,此外,還需考慮程否定詞和度副詞等其他詞性的影響。

        2.2.2 程度副詞詞典構建

        程度副詞的影響體現(xiàn)在它可以對文本的情感進行一定程度的加強或減弱,它在情感詞的前后位置均可出現(xiàn)。在分詞結束并確定情感詞后,以情感詞為中心先逆向搜索再正向搜索,搜索的同時確定該情感詞附近是否有程度副詞出現(xiàn),若出現(xiàn)則根據該程度副詞對該情感詞的加強或減弱作用的幅度對該情感詞的極性值進行變更,一旦遇到斷句的標點符號時則停止搜索。另外,如果在評論中遇到總結性的詞匯,如:總而言之、綜上所述等,這類詞也屬于程度副詞,同時賦予一個較高的權值。本文共整理了221 個程度副詞,并劃分為±1、±2、±3、±4、±5 五個情感強度等級。當不能區(qū)分其極性程度時,則統(tǒng)一標注正面詞的極性程度為+3,負面詞的極性程度為-3。

        2.2.3 否定詞詞典的構建

        否定詞可以改變句子極性,因此,它對文本情感的影響非常大。否定詞在文本中一般是作為前綴來對情感詞進行修飾,故對文本進行分詞和確定情感詞后,搜索該情感詞前面是否出現(xiàn)了否定詞,若出現(xiàn)則將該情感詞的極性置反,當為雙重否定時則其極性保持不變。本研究一共收集了29 個否定詞。

        圖3 情感詞典擴充的流程

        2.2.4 情感詞典的擴充

        情感詞典的質量對基于語義詞典的文本情感極性計算具有非常大的影響。由于使用人工方式對情感詞典進行擴充需要大量的人力、物力及時間周期較長等緣故,目前大家更加傾向于情感詞典自動構建的方法。本文從未登錄詞中實現(xiàn)情感詞典擴充的流程如圖3 所示。

        借助Google 開源工具word2vec 得到分詞后語料和基礎情感詞典的向量表示,然后計算語料和基礎情感詞典的語義相似度距離來判斷語料中未登錄詞的情感傾向,再利用極性判斷算法將該未登錄詞劃分到與之最相近的基礎情感詞典中,實現(xiàn)自動判斷語料中未登錄詞的情感傾向和擴充基礎情感詞典的目的。其中,語義相似度距離可以通過計算兩個詞向量的余弦值得到,余弦值越大,表示兩個詞語的語義越相近。

        大規(guī)模語料情感詞典自動擴充的難點是如何表達己知的基礎情感詞典和用戶詞典之間的語義相似度,即通過對兩個詞匯的情感相似度計算,進而識別語料中的情感詞并實現(xiàn)情感詞典的自動擴充。基于“相似的詞匯出現(xiàn)在相似的上下文語境中”的分布性假設[15],本文采用計算兩個詞向量的余弦值方法實現(xiàn)語料中情感詞的自動提取與基礎情感詞庫的自動擴充,情感詞的極性由EO(w)與預設的閾值決定,當EO(w)大于閾值時,w的情感極性為正向;小于閾值時,w的情感極性為負。向其擴充算法描述如表2 所示。

        構建好的新情感詞典中既包含了原來的基礎情感詞,又包含了新增的情感詞。最終整理得到的各個詞典信息如表3 所示。

        表3 最終整理得到的各個詞典信息

        2.3 標點符號處理規(guī)則

        有些標點符號對文本的情感分析也會有一定的影響,如“!”和“?”。當句末有“!”時,通常是對整個句子起強調作用,如果句末出現(xiàn)則把整個句子的極性強度再擴大一倍。當句末有“?”時,既可能是疑問句也可能是反問句,反問句語氣強烈會對文本內容起到強調作用,進而也會影響情感分析,但疑問句不會造成大的影響,對句末帶“?”的句子,通過搜索查找該句中是否存在反問句標記詞,若存在則為反問句并把整個句子的極性置反。

        2.4 文本情感極性計算

        (1)計算句子中每個詞的情感值

        首先要對句子進行主觀性和客觀性區(qū)分。具有情感色彩或者表達了作者的某種態(tài)度的語句視為主觀性句子;客觀性句子通常是指沒有任何感情色彩的語句,因此可以將其過濾掉。通過情感詞典對分詞后的句子進行匹配,若匹配過程中出現(xiàn)了情感詞則為主觀句,然后對該主觀句中的各個詞賦予對應的情感權值,各類語義詞典的情感值權重大小如表4 所示。

        表4 各類詞典的情感值權重

        (2)計算評論中每個句子的情感均值

        可以通過加權求和的方法來計算每個句子的情感均值。每個句子經過預處理之后表示為Sj={W1,W2,…,Wi,…,Wn},則任意一個句子的情感均值計算如下:

        其中,Neg為句子中的否定詞個數,n為句子中的情感詞個數,EO(Wi)表示句子中每個詞的情感值,m是對應的第i個情感詞的修飾詞個數,modj是對應第j個修飾詞的權重。

        (3)計算整篇文本的情感均值

        文本D一般是由多個句子組成,即D= {S1,S2,…,Sj,…,Sy},可以通過斷句的標點符號對文章進行分句,這里只考慮“,”、“?!?、“!”、“?”、“;”、“……”這六種符號。其中當為“!”時,整個句子的情感得分乘2;當為“?”且含有反問句標記詞時,整個句子的得分乘-1;當為其他標點符號時,句子的得分保持不變。

        最后,對評論的各個句子的得分再加權求和作為整個評論的情感得分。本文中將情感閾值T設為0,當最終的情感得分Score(D)大于T時,則評論為正面評論,小于T則為負面評論,否則為中性評論。計算公式如下:

        3 實驗

        3.1 語料

        本次實驗使用的語料數據是利用爬蟲技術爬取某大型電商平臺上關于“999 感冒藥”銷售的評論數據,去除不規(guī)范文本,最終選出2550 條評論數據。手工對所有數據進行情感傾向性標注,然后把所有語料分為兩部分,其中2100 條評論作為訓練語料,其余的450 條作為測試語料,語料基本信息如表5 所示。圖4 為語料的句子長度分布,圖5 以詞云的形式展示了語料的一些關鍵信息。

        圖4 語料句子長度分布

        圖5 語料關鍵信息詞云圖

        表5 語料信息

        3.2 實驗環(huán)境

        本次實驗在Spyder 開發(fā)環(huán)境下使用Python 語言完成的,實驗環(huán)境配置信息如表6 所示。

        表6 實驗環(huán)境配置

        3.3 評價指標

        衡量文本分類問題的分類性能可以從準確度方面進行考慮,準確度可以由準確率(P)、召回率(R)和F1值三個指標來衡量。

        其中,TP為真正率,TF為真負率,F(xiàn)N為假負率,F(xiàn)P為假正率,關系如表7 所示。

        表7 評價指標的參數關系

        3.4 實驗結果

        最終的實驗結果如表8 所示,驗證結果如表9 所示。

        表8 基于詞典的文本極性計算模型評價指標結果

        表9 基于詞典的文本極性計算模型驗證結果

        3.5 結果討論

        由表8 中數據可以看出,本文提出的方法在網絡評論文本分類和情感極性值計算任務中,對實驗語料的正面情感類別劃分的準確率為75%,負面語料準確率為79%,但中性語料的準確率只有65%,說明本文的方法單從準確性角度考慮,對具有正面和負面情感傾向的評論文本有更好的識別作用;在從召回率角度來看,正面、中性、負面的召回率依次為79%、74%、64%,說明該方法在查全性方面只對正面和中性的評論更有作用;最后再從F1 值的角度來看,正面評論的F1值為77%,略高于負面評論的71%以及中性情感傾的70%。此外,還可以發(fā)現(xiàn)模型的總體準確率、召回率、F1值均在為73%,這表明本文的方法在電子商務在線評論文本情感極性計算及分類任務中,分類效果較為理想。

        表9 展示了本文模型的驗證效果,模型基本上以100%的準確率實現(xiàn)了評論數據的正確分類。此外,當情感值為正時,表示該評論為好評,為負時表示為差評,等于0 時表示中評,情感值既可以進一步確定分類的準確性,又可以實現(xiàn)文本情感的數字化衡量。

        4 結束語

        雖然基于詞典的方法實施簡單并且計算速度快,但是其缺點也是非常顯著的。隨著機器學習尤其是深度學習的發(fā)展,為解決這些問題提供了一種有效的方法,因此下一步的工作是融合這兩種方法,充分發(fā)揮各自的優(yōu)勢進一步提高中文文本信息挖掘能力。

        猜你喜歡
        分類文本情感
        分類算一算
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        分類討論求坐標
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        數據分析中的分類討論
        教你一招:數的分類
        国产女厕偷窥系列在线视频| 国产午夜福利短视频| 亚洲av电影天堂男人的天堂| 无遮挡网站| 国产高清精品在线二区| 国产一区二区黄色的网站| 影视av久久久噜噜噜噜噜三级| 国自产偷精品不卡在线| 日韩AV不卡一区二区三区无码| 精品久久久久久无码不卡| 日韩一区二区三区天堂| 色婷婷色丁香久久婷婷| 国产在线 | 中文| 影视先锋av资源噜噜| 国产午夜精品久久久久99| 日本在线无乱码中文字幕| 亚洲av毛片在线免费看| 亚洲人成无码区在线观看| 蜜臀av免费一区二区三区| 极品粉嫩小仙女高潮喷水视频| 久久综合精品国产丝袜长腿| 国产精品无码无在线观看| 免费国产交换配乱淫| 五码人妻少妇久久五码| 99国产精品久久一区二区三区| 欧美性色黄大片手机版| 亚洲欧美日韩专区一| 亚洲男女视频一区二区| 一边摸一边做爽的视频17国产 | 人妻少妇精品视频三区二区一区| 日本强好片久久久久久aaa| 国产日韩一区二区精品| av色一区二区三区精品| 人妻中文无码久热丝袜| 全免费a级毛片免费看| 中文字幕日本在线乱码| 亚洲综合网国产精品一区| 亚洲人成未满十八禁网站| 国产精品成人午夜久久| 亚洲国产一区二区,毛片| 草草地址线路①屁屁影院成人|