亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文情感分析研究

        2021-03-07 06:22:09閆婷婷王恒
        關(guān)鍵詞:歧義詞典詞語

        ◆閆婷婷 王恒

        中文情感分析研究

        ◆閆婷婷 王恒通訊作者

        (寧夏大學(xué)信息工程學(xué)院 寧夏 750000)

        情感分析作為自然語言處理領(lǐng)域比較熱門的研究方向,備受研究人員的關(guān)注。本文從情感分析的任務(wù)出發(fā),對(duì)情感分類、情感信息抽取、情感信息的檢索與歸納三個(gè)任務(wù)進(jìn)行了介紹,重點(diǎn)闡述了情感分類研究中基于詞典、基于機(jī)器學(xué)習(xí)的情感分類方法,最后本文介紹了情感分析的應(yīng)用和情感分析的研究難點(diǎn)。

        情感分析;情感分類;情感信息抽??;情感信息的檢索與歸納

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國(guó)逐步向全面互聯(lián)網(wǎng)時(shí)代邁進(jìn),根據(jù)2020年4月中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第45次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,截至2020年3月,我國(guó)網(wǎng)民規(guī)模達(dá)9.04億,互聯(lián)網(wǎng)普及率達(dá)64.5%。越來越多的人喜歡在微博、貼吧、論壇上對(duì)熱點(diǎn)話題、國(guó)家政策、產(chǎn)品服務(wù)等內(nèi)容進(jìn)行交流討論,發(fā)表個(gè)人意見、觀點(diǎn),表達(dá)情緒,從而產(chǎn)生了大量的主觀性文本。對(duì)這些文本捕捉進(jìn)行分析從而得到公眾對(duì)事件或事物的看法,能夠幫助政府部門獲得相關(guān)輿情信息,消費(fèi)者也能在購(gòu)買產(chǎn)品時(shí)將獲取相關(guān)評(píng)價(jià)內(nèi)容作為參考依據(jù)。因此有效挖掘此類文本信息對(duì)輿情監(jiān)控、電子商務(wù)、信息預(yù)測(cè)具有重要價(jià)值。文本情感分析成為目前學(xué)術(shù)界研究的一個(gè)熱點(diǎn)。

        2 情感分析研究?jī)?nèi)容

        文本情感分析是指對(duì)用戶表示的主觀性文本進(jìn)行分析和挖掘,是對(duì)網(wǎng)上各種新聞資訊、社會(huì)媒體和用戶評(píng)論內(nèi)容進(jìn)行提取、分析、處理、歸納和推理的過程。根據(jù)處理文本粒度的不同,情感分析可分為詞語級(jí)、短語級(jí)、句子級(jí)、篇章級(jí)等研究?jī)?nèi)容;根據(jù)情感分析研究的任務(wù)類型可分為情感信息提取、情感分類以及情感信息的檢索和歸納等問題[2]。

        2.1 情感分類

        情感分類又稱情感傾向性分析,主要用來判別文字中所表達(dá)的觀點(diǎn)、喜好等相關(guān)信息。情感分類按照不同的劃分方法導(dǎo)致劃分結(jié)果也不同,可分為主、客觀類,褒、貶類。按照分類粒度進(jìn)行劃分,可分為詞語級(jí)、段落級(jí)和篇章級(jí)。本文主要從基于詞典和語義規(guī)則的情感分類方法以及基于機(jī)器學(xué)習(xí)的情感分類方法進(jìn)行說明。

        2.2.1基于詞典和語義規(guī)則的情感分類方法

        基于詞典和語義規(guī)則的情感分類結(jié)合語法結(jié)構(gòu)、設(shè)計(jì)的判別規(guī)則以情感詞典作為判斷情感傾向的主要依據(jù)。基于詞典和語義規(guī)則的情感分類對(duì)文本進(jìn)行情感分析的主要思路[3]是首先對(duì)文本進(jìn)行預(yù)處理,使用標(biāo)點(diǎn)符號(hào)進(jìn)行分割,得到分句,經(jīng)過設(shè)定好的情感詞典、否定詞典、程度副詞詞典,在不同的分句中,標(biāo)注這些詞出現(xiàn)的位置。按照不同的組合方式制定不同的權(quán)值計(jì)算方法。分析句間關(guān)系,通過對(duì)不同句型的處理強(qiáng)化情感分析的合理性,最終得到整體的情感分值,根據(jù)閾值來對(duì)文本分類?;谠~典的情感分類關(guān)鍵在于詞典的構(gòu)建,目前國(guó)內(nèi)外的情感詞典的構(gòu)建方法主要是在已有的情感詞典的基礎(chǔ)上擴(kuò)充所需要的情感詞典。顧宇杰在論文[4]中提到爬取微博評(píng)論數(shù)據(jù)進(jìn)行過濾、分詞、詞性標(biāo)注,其從微博評(píng)論數(shù)據(jù)中提取一部分詞建立適合對(duì)明星微博評(píng)論進(jìn)行情感分析的基礎(chǔ)情感詞典、程度副詞詞典和否定詞詞典,并設(shè)計(jì)了一套情感打分規(guī)則。從微博評(píng)論中選取1000條進(jìn)行人工標(biāo)注,使用詞典和打分規(guī)則進(jìn)行情感打分,通過計(jì)算正確率、召回率和F-測(cè)度值來驗(yàn)證文中構(gòu)建的情感詞典以及打分規(guī)則的有效性。

        2.2.2基于機(jī)器學(xué)習(xí)的情感分類方法

        基于機(jī)器學(xué)習(xí)的情感分類關(guān)鍵在于特征選擇、特征權(quán)重量化以及分類模型等要素。常用的特征選擇方法有信息增益法、基于文檔頻率的特征提取法、主成分分析法等。常用的特征量化方法有熵權(quán)重、布爾權(quán)重、TF-IDF方法等。常用的分類器模型有樸素貝葉斯、支持向量機(jī)、K近鄰等。張柳等人[5]基于詞云統(tǒng)計(jì)對(duì)文本內(nèi)容進(jìn)行特征分析,獲取用戶評(píng)論高頻詞,通過對(duì)高頻詞的降維高效訓(xùn)練樸素貝葉斯分類器,完成文本情感分類。最后展示出微博環(huán)境下的高校輿情情感演化圖譜。

        隨著深度學(xué)習(xí)理論的不斷發(fā)展,基于深度學(xué)習(xí)的算法被應(yīng)用在各種領(lǐng)域,許多學(xué)者也將其用在文本處理中來試圖提高文本分類的效果。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中發(fā)展的新領(lǐng)域。深度學(xué)習(xí)通過構(gòu)建網(wǎng)絡(luò)模型對(duì)文本分析、自動(dòng)學(xué)習(xí)文本特征,優(yōu)化模型輸出來提高文本分類的準(zhǔn)確性。秦欣在其論文[6]情感分析中對(duì)N-Gram切詞生成的元組使用鄰接熵和互信息進(jìn)行邊界自由度以及內(nèi)部凝固度度量后得到的候選詞集,使用詞典過濾后得到新詞集,將新詞加入分詞系統(tǒng)中來提高分詞的準(zhǔn)確性,基于BERT詞向量改善語義欠缺和文本特征稀疏的問題,提出基于注意力機(jī)制的BiGUR-Att模型并進(jìn)行情感分析,為進(jìn)一步強(qiáng)化文本情感特征,引用注意力機(jī)制對(duì)BiGUR層輸出結(jié)果分配權(quán)重,從而提高對(duì)微博文本情感分類的準(zhǔn)確率。

        2.2 情感信息抽取

        情感信息抽取是情感分析的底層任務(wù),抽取情感評(píng)論文本中有意義的信息單元。情感信息抽取主要研究的問題包括觀點(diǎn)持有者的抽取、評(píng)論對(duì)象的抽取和評(píng)論詞語的抽取和判別。觀點(diǎn)持有者的抽取目的在于辨別情感文本的意見主體。在產(chǎn)品評(píng)論以及社交媒體的評(píng)論中,觀點(diǎn)持有者通常是評(píng)論員或者作者,可以查看其登錄賬號(hào),所以觀點(diǎn)持有者的抽取相對(duì)簡(jiǎn)單。

        評(píng)價(jià)對(duì)象是指某段評(píng)論中所討論的主題,是評(píng)論文本中評(píng)價(jià)詞語修飾的對(duì)象。蔣盛益[7]等人在評(píng)論對(duì)象研究綜述中對(duì)評(píng)價(jià)對(duì)象方法進(jìn)行了歸納、總結(jié),并對(duì)基于模板規(guī)則、基于頻率、基于圖論和基于深度學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取等方法進(jìn)行重點(diǎn)分析,對(duì)評(píng)價(jià)對(duì)象抽取的評(píng)測(cè)情況以及可用資源進(jìn)行回顧,對(duì)評(píng)價(jià)對(duì)象抽取的難點(diǎn)從跨句子評(píng)價(jià)對(duì)象和隱式評(píng)價(jià)對(duì)象兩個(gè)角度進(jìn)行了討論。評(píng)價(jià)詞語的抽取和判別是對(duì)評(píng)價(jià)詞語的識(shí)別和極性的判斷。

        2.3 情感信息的檢索與歸納

        情感信息檢索是為用戶檢索出主題相關(guān)且蘊(yùn)含情感信息的文檔,情感信息歸納是為減少用戶瀏覽相關(guān)文檔的事件,針對(duì)大量主題相關(guān)含有情感信息的文檔進(jìn)行分析和整理,將情感分析的結(jié)果提供給客戶作為參考。因此情感信息歸納是對(duì)情感信息檢索的進(jìn)一步加工。

        3 情感分析的應(yīng)用

        文本情感分析根據(jù)文本數(shù)據(jù)所提供的特征信息來計(jì)算文本的情感傾向,從而為決策的制定提供有力的依據(jù)。文本情感分析作為自然語言處理的基本任務(wù),是人工智能的關(guān)鍵技術(shù)之一,被廣泛用于醫(yī)療衛(wèi)生、輿情分析、政府管理、國(guó)防建設(shè)等領(lǐng)域。例如隨著電子商務(wù)的高速發(fā)展,在線商品的評(píng)論數(shù)量急劇增加,商品評(píng)論中蘊(yùn)含著具有商業(yè)價(jià)值的用戶偏好信息,對(duì)這些具有主觀性評(píng)論信息進(jìn)行挖掘和分析,消費(fèi)者可以了解到商品的詳細(xì)信息以便更好做出選擇,生產(chǎn)商和銷售商也可以通過消費(fèi)者反饋過來的信息掌握自己的優(yōu)劣勢(shì),通過改進(jìn)產(chǎn)品或服務(wù)贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。

        4 情感分析的研究難點(diǎn)

        情感分析作為自然語言處理的子領(lǐng)域,其研究難點(diǎn)有著自然語言處理的共性及其自身的特殊性。情感分析的研究難點(diǎn)有分詞歧義、詞性標(biāo)注歧義和情感語義歧義等[8]。分詞需要面臨歧義切分以及新詞發(fā)現(xiàn)的問題。歧義切分是指在分詞時(shí)面臨多種分詞方式,可以根據(jù)詞語在字典中出現(xiàn)的概率等方法來進(jìn)行判斷,但新詞不存在字典當(dāng)中可能會(huì)導(dǎo)致切分錯(cuò)誤。詞性標(biāo)注歧義,詞性標(biāo)注產(chǎn)生的歧義問題是同一個(gè)詞語在不同的句子中有著不同的詞性類別。情感語義歧義有一詞多義和反義表達(dá)等,一詞多義是指相同的詞語在不同的語境下所表達(dá)的情感傾向并不相同,并且詞性相同、語法相近,所以通過句法分析很難識(shí)別詞語本義。反義表達(dá)是指貶義詞褒用、褒義詞貶用的表達(dá)方式。

        5 總結(jié)

        隨著互聯(lián)網(wǎng)和自媒體時(shí)代的到來,網(wǎng)上出現(xiàn)了大量的帶有主觀性的文本,對(duì)這些文本進(jìn)行分析,能夠?yàn)閭€(gè)人生活、企業(yè)運(yùn)行、社會(huì)改革以及國(guó)家政策的制定提供支持。情感分類按照不同的劃分方法劃分結(jié)果也不同,本文從情感分析的任務(wù)出發(fā),對(duì)情感分類、情感信息抽取、情感信息的檢索與歸納三個(gè)任務(wù)進(jìn)行了介紹。對(duì)情感分析的應(yīng)用現(xiàn)狀進(jìn)行了總結(jié)。同時(shí)情感分析的研究中依然存在著許多問題和挑戰(zhàn),值得我們進(jìn)一步進(jìn)行研究。

        [1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第45次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告,2020(4).

        [2]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(08):1834-1848.

        [3]孔杏,林慶.主觀性文本情感分類研究綜述[J].信息技術(shù),2018,42(08):126-130+134.

        [4]顧宇杰.面向微博評(píng)論的中文文本情感分類研究[D].云南財(cái)經(jīng)大學(xué),2018.

        [5]張柳,王晰巍,王鐸,韋雅楠.微博環(huán)境下高校輿情情感演化圖譜研究——以新浪微博“高校學(xué)術(shù)不端”話題為例[J].現(xiàn)代情報(bào),2019,39(10):119-126+135.

        [6]秦欣.基于深度學(xué)習(xí)的微博短文本情感分析技術(shù)研究[D].西安建筑科技大學(xué),2020.

        [7]蔣盛益,郭林東,王連喜,符斯慧.評(píng)價(jià)對(duì)象抽取研究綜述[J].自動(dòng)化學(xué)報(bào),2018,44(07):1165 -1182.

        [8]薛益定.中文情感分析研究綜述[J].電腦編程技巧與維護(hù),2016(05):22-24.

        猜你喜歡
        歧義詞典詞語
        容易混淆的詞語
        找詞語
        米沃什詞典
        文苑(2019年24期)2020-01-06 12:06:50
        eUCP條款歧義剖析
        評(píng)《現(xiàn)代漢語詞典》(第6版)
        詞典例證翻譯標(biāo)準(zhǔn)探索
        English Jokes: Homonyms
        詞語欣賞
        “那么大”的語義模糊與歧義分析
        一枚詞語一門靜
        国产精品狼人久久影院软件介绍| 99热久久这里只精品国产www| 亚洲熟女综合一区二区三区| 亚洲产国偷v产偷v自拍色戒| 日韩中文字幕一区二区高清| 国产美女av一区二区三区| 手机在线观看成年人视频| 日本a级黄片免费观看| 人人澡人人妻人人爽人人蜜桃麻豆 | 中文字幕巨乱亚洲| 亚洲成av人片在线天堂无| 亚洲av熟女传媒国产一区二区| 亚洲av天堂免费在线观看| 国产色xx群视频射精| 国产无套护士在线观看| 亚洲午夜成人片| 魔鬼身材极品女神在线| 少妇又骚又多水的视频| 国产国语按摩对白av在线观看| 大陆国产乱人伦| 最近免费mv在线观看动漫| 国产精品无码日韩欧| 亚洲日韩精品久久久久久| 男女视频网站免费精品播放| 精品久久有码中文字幕| 东京无码熟妇人妻av在线网址| 老汉tv永久视频福利在线观看 | 成人做爰黄片视频蘑菇视频| 女人色熟女乱| 国产一区免费观看| 日本不卡一区二区三区在线| 亚洲中文字幕人妻av在线| 人妻丰满熟妇av无码片| 国产一区二区三区精品久久呦| 国产精女同一区二区三区久| 国产三级在线观看完整版| 八区精品色欲人妻综合网| 日本一区二区三区的免费视频观看 | 91精品国自产拍老熟女露脸| 无码国产福利av私拍| 精品人妻无码中文字幕在线|