亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        維吾爾語情感傾向性分析研究綜述

        2022-05-30 10:48:04劉若蘭年梅楊建萍
        電腦知識與技術(shù) 2022年28期

        劉若蘭 年梅 楊建萍

        摘要:情感分析技術(shù)旨在獲取評論文本包含的情感信息和知識,被廣泛應(yīng)用在眾多領(lǐng)域。伴隨維吾爾語網(wǎng)絡(luò)內(nèi)容的快速增長,維吾爾文傾向性分析研究的重要性日益凸顯,本文針對維吾爾語情感傾向性分析研究的現(xiàn)狀和進展進行總結(jié)。文章從詞語級、句子級兩個粒度層面介紹當(dāng)前維吾爾文情感分析的主要技術(shù)和方法,句子層級又細(xì)分為粗粒度情感分析、細(xì)粒度情感分析兩個層次介紹相關(guān)研究工作,最后總結(jié)了維吾爾語情感分析面臨的研究難點和未來的研究方向。

        關(guān)鍵詞:維吾爾語;情感分析;詞匯極性判斷;句子情感分析

        中圖分類號:TP301 ? ? ? ?文獻標(biāo)識碼:A

        文章編號:1009-3044(2022)28-0004-03

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)和社交軟件的普及,越來越多的維吾爾族網(wǎng)民也從互聯(lián)網(wǎng)信息的獲取者轉(zhuǎn)變?yōu)閯?chuàng)造者,通過網(wǎng)絡(luò)在線交流、獲取信息、共享資源、發(fā)表評論。伴隨信息技術(shù)的飛速發(fā)展,大量面向維吾爾語的網(wǎng)站、博客、論壇等平臺不斷建立,這些平臺中發(fā)布了大量維吾爾語主觀性文本,表達網(wǎng)民對產(chǎn)品或服務(wù)的評價、對新聞事件或國家政策的態(tài)度。其中難免有一些帶有負(fù)面情感的消極信息,這類負(fù)能量信息將對社會造成負(fù)面影響,如果持續(xù)發(fā)酵、逐步擴散,甚至?xí)ι鐣€(wěn)定和經(jīng)濟發(fā)展造成嚴(yán)重危害。借助情感傾向性分析技術(shù)快速準(zhǔn)確分析公眾對于新聞事件、國家政策的看法,能夠及時掌握網(wǎng)民的輿論傾向和動態(tài),幫助政府有關(guān)部門有效監(jiān)控輿情走向,盡早采取針對性措施凈化網(wǎng)絡(luò)環(huán)境、傳播正能量, 發(fā)揮保障新疆地區(qū)社會安定、經(jīng)濟發(fā)展的重要作用。

        中英文情感傾向性分析研究起步較早,國內(nèi)外已有眾多學(xué)者進行了大量研究,并取得了一系列顯著成果。文獻[1-3]主要從情感分析面臨的主要任務(wù)、使用的主流方法等方面,對英文文本情感分析研究進行概括和介紹。文獻[4-5]主要介紹中文文本情感傾向性分析的主流技術(shù)和研究進展。相比之下,針對維吾爾語這種小語種的情感分析研究起步晚,研究成果也較少,介紹維吾爾語情感分析研究進展及現(xiàn)狀的綜述性文獻也十分匱乏。因此,本文主要介紹針對維吾爾語文本的情感分析主流方法。按照分析文本粒度的不同,文本情感分析可以分為詞語級、短語級、句子級、篇章級等幾個研究層次。由于維吾爾語情感分類研究時間較短,目前相關(guān)研究主要集中在詞匯級、句子級分類方面,并且其研究成果可以應(yīng)用、擴展到篇章級的情感分類研究。因此本文接下來主要介紹詞語級、句子級維吾爾語情感分類工作的相關(guān)研究進展。

        2 不同粒度的維吾爾語文本情感分析

        2.1 維吾爾語詞語的情感極性判別

        維吾爾語和其他語言一樣,詞語是構(gòu)成句子的最基本單元,詞語的情感極性判別是文本情感分析的基礎(chǔ)工作。通常詞語的情感可劃分為褒義詞、貶義詞、中性詞三種。目前,維吾爾語詞匯的情感極性判別主要借鑒中英文詞匯的極性判別算法,主要采用基于語料庫的方法。

        基于語料庫判別情感詞的方法,主要是利用大規(guī)模語料中詞語之間的搭配、共現(xiàn)和統(tǒng)計等特征計算詞語的情感極性。禹龍[6]等人首先分析維吾爾語主觀語料中情感詞匯的表現(xiàn)特征,然后依據(jù)該語言規(guī)律設(shè)計5類特征模板,最后利用條件隨機場模型(CRF) 從維文情感語料中自動識別情感詞匯。文獻[7]在構(gòu)建維吾爾語情感詞典的過程中,基于中文情感分析的現(xiàn)有成果,構(gòu)建維文情感種子詞和維文候選情感詞,利用表征詞語共現(xiàn)特征的點互信息算法,基于大規(guī)模維文語料,計算候選詞的情感極性后加入褒貶情感詞典中。文獻[8]以文獻[7]構(gòu)建的維吾爾語褒貶情感詞典為基礎(chǔ),總結(jié)并利用連詞、程度副詞與情感詞的搭配規(guī)律從維文語料中提取候選情感詞,再運用連詞連接極性詞匯的特點,設(shè)計利用搜索引擎從互聯(lián)網(wǎng)海量語料中獲取候選詞情感極性的算法。瑪爾哈巴·艾賽提[9]等人基于維吾爾語語法特點,研究總結(jié)維吾爾語情感詞匯在上下文語境中的表現(xiàn)特征,構(gòu)建4類維吾爾語新增特征模型,與帶詞權(quán)重的TF-IDF算法相結(jié)合,實現(xiàn)維吾爾語情感詞匯的獲取和極性判別。

        與中英文判別詞匯情感極性的算法相比,由于維吾爾語尚沒有像英文WordNet和中文HowNet等語義知識網(wǎng)資源,因此利用語義詞典判別中英文詞匯情感類別的方法根本無法在維吾爾語中運用,只能依靠統(tǒng)計等方法來進行極性分類,故自動判別維吾爾語情感詞匯較中英文更加困難。

        2.2 維吾爾語句子的情感分析

        句子情感分析的主要任務(wù)是判斷評論文本屬于正面評價還是負(fù)面評價,以此挖掘作者對評價對象的真實看法是肯定還是否定,是積極還是消極。針對句子水平的情感分析可以進一步劃分為兩類,一類是分析句子整體的情感傾向,也可稱為粗粒度情感分析。另一類是分析句子中各主題意見對的情感類別,也叫細(xì)粒度情感分析,這類分析方法可以識別出用戶對產(chǎn)品或服務(wù)屬性的具體態(tài)度,以便獲知被用戶給予差評的具體屬性,提出針對性的產(chǎn)品服務(wù)改進方案。

        2.2.1 維吾爾語句子整體的情感傾向分析

        句子總體的情感分類,根據(jù)采用的技術(shù)可以分為四類:基于情感詞典的方法、基于機器學(xué)習(xí)的方法、基于詞典和機器學(xué)習(xí)相結(jié)合的方法、基于深度學(xué)習(xí)的方法。

        基于情感詞典的方法,主要思路是依靠情感詞典計算詞語的情感極值,再結(jié)合維文中影響句子極性的表達特征,判別句子的最終極性。黃俊[10]等人在文獻[6]制定特征集的基礎(chǔ)上,增加詞干特征,使用CRF模型自動標(biāo)注維吾爾語情感詞,根據(jù)語料中各類情感詞詞頻設(shè)置情感類別權(quán)重,將句子中各類情感詞的出現(xiàn)次數(shù)與情感類別權(quán)重相結(jié)合為每種情感類別賦分,最后結(jié)合影響句子情感基調(diào)的轉(zhuǎn)折連詞、否定成分等完成情感傾向的修正。年梅[11]等人首先利用中文情感詞典、維吾爾語同義詞詞典資源構(gòu)建維文情感詞典,然后分析總結(jié)各種修飾成分對句子情感極性的影響,并賦予相應(yīng)權(quán)重,最后與極性情感詞共同確定句子的情感極性。

        基于機器學(xué)習(xí)的方法,把情感分類問題視為特殊的文本分類任務(wù),將標(biāo)注好的訓(xùn)練數(shù)據(jù)集輸入支持向量機(SVM) 等機器學(xué)習(xí)模型中訓(xùn)練,獲得情感分類器,再利用分類器對待分類數(shù)據(jù)的傾向性進行預(yù)測。文獻[12]運用樸素貝葉斯(NB) 、最大熵(ME) 、支持向量機(SVM) 三種機器學(xué)習(xí)算法進行維吾爾語句子的情感分類,特征表示分別采用UniGram(一元)、BiGrams(二元)和TriGrams(三元)三類語言模型,特征函數(shù)選擇了互信息(MI) 、信息增益(IG) 和文檔頻率(DF) ,實驗結(jié)果表明,維吾爾語的UniGram語言模型效果最優(yōu),ME和SVM的分類效果接近,NB的效果最差。羅亞偉等人[13]研究隱式情感的識別,提出基于CRFs模型的維吾爾語句子級隱式情感分析方法。文獻[14]研究如何提取富含情感信息的區(qū)分性關(guān)鍵詞,并作為特征項輸入SVM分類器對維吾爾語句子進行情感分析。阿不都薩拉木·達吾提[15]等人在區(qū)分性關(guān)鍵詞特征的基礎(chǔ)上,結(jié)合情感詞典特征,進一步優(yōu)化情感分類性能。文獻[16]考慮到標(biāo)注大量語料人工耗費大,探索基于小規(guī)模標(biāo)注語料,結(jié)合樣本差異性、聚類代表性、和分類不確定性三種主動學(xué)習(xí)策略使用SVM模型進行維吾爾語句子的情感分類。文獻[17]利用信息增益提取表達情感信息的組合詞,將其作為特征項,輸入樸素貝葉斯、邏輯回歸、隨機森林分類器進行情感傾向性分析。文獻[18]總結(jié)詞性搭配規(guī)則提取文本中具有相鄰關(guān)系的兩個單詞作為Bi-tagged特征,運用支持向量機分類器對維吾爾語語料進行正、負(fù)二元分類。

        基于詞典和機器學(xué)習(xí)相結(jié)合的方法,這類方法將二者相結(jié)合,彌補機器學(xué)習(xí)方法對語料領(lǐng)域的敏感性,以及詞典方法對詞典質(zhì)量的高度依賴性。一些研究者將詞典和標(biāo)注語料相結(jié)合訓(xùn)練分類模型,一些研究者則先基于詞典判斷文本傾向性,然后根據(jù)分類結(jié)果生成新的情感分類器,再對前次的分類結(jié)果進行修改。文獻[19]則采用第二種方法進行維吾爾語句子的情感分類研究。首先構(gòu)建了包含情感短語、情感習(xí)語、否定詞、程度副詞、疑問詞或詞綴、感嘆詞、語氣詞的基礎(chǔ)情感詞典,在此基礎(chǔ)上,利用中文情感詞典HowNet、NTUSD、維漢雙語詞典擴充基礎(chǔ)情感詞典;其次基于情感詞典對句子進行褒貶分類,通過設(shè)置閾值把語料分為classified group和uncertain group,與此同時,根據(jù)語言特點從語料中提取候選情感詞,并以其在褒貶語句中的出現(xiàn)頻次判斷傾向性,實現(xiàn)對情感詞典的迭代更新;然后把classified group作為訓(xùn)練語料,uncertain group作為測試語料,輸入GNB、SVM等機器學(xué)習(xí)算法進行情感分類;最后結(jié)合詞典分類結(jié)果和機器學(xué)習(xí)分類結(jié)果確定句子最終的褒貶類別。

        基于深度學(xué)習(xí)的方法,深度學(xué)習(xí)是相對于淺層機器學(xué)習(xí)而言的,通過模擬人腦機制進行復(fù)雜數(shù)據(jù)的解釋,從無標(biāo)注數(shù)據(jù)中自動學(xué)習(xí)詞向量、提取特征、訓(xùn)練分類模型。文獻[20]提出基于棧式自編碼神經(jīng)網(wǎng)絡(luò)(SEA) 的維吾爾語語句情感傾向分析的方法,為更好表達文本語義,該方法將富含上下文信息的句向量和情感組合特征相融合。李冬白等人[21]探索運用深度學(xué)習(xí)方法對隱式情感進行分類,通過Word2Vec工具獲取詞語的向量表示,基于詞向量構(gòu)造句向量,再與詞性向量融合,輸入棧式自編碼(SEA) 模型完成維吾爾語隱式情感分類器的訓(xùn)練和測試。王樹恒[22]等人基于word embedding,運用雙向LSTM深度學(xué)習(xí)算法構(gòu)建維吾爾語情感分類模型,實驗結(jié)果證明該模型的性能優(yōu)于RNN、CNN等神經(jīng)網(wǎng)絡(luò)模型以及SVM等機器學(xué)習(xí)模型。文獻[23]針對維吾爾語句子的情感五分類任務(wù),提出一種基于deep belief nets(DBN) 的句子級情感分析方法,該方法首先通過對維吾爾語表達特點的分析研究,總結(jié)出情感詞匯和句法結(jié)構(gòu)兩類情感特征;然后把富含詞匯語義信息的word embedding特征和八項情感特征拼接結(jié)合;最后輸入深度信念網(wǎng)絡(luò)進行訓(xùn)練,完成情感傾向性分析任務(wù)。文獻[24]提出了一種融合多種特征,結(jié)合注意力機制、雙向長短記憶網(wǎng)絡(luò)和CNN的維吾爾文情感分類方法。該方法在詞向量表示層將詞性向量、音節(jié)向量、位置向量與詞向量拼接,然后輸入BiLSTM層進行訓(xùn)練,訓(xùn)練結(jié)果作為注意力層的輸入,注意力層的輸出依次經(jīng)過CNN層和情感計算層即可獲得最終的情感分類結(jié)果。文獻[25]將LDA主題概率模型和深度學(xué)習(xí)相結(jié)合進行維吾爾文情感二分類和五分類,實驗結(jié)果表明該方法提高了情感分類性能。文獻[26]提出基于注意力機制的BiRNN情感分類模型,該模型在詞向量表示層將詞向量、詞性向量、韻律短語向量相融合,作為BiRNN網(wǎng)絡(luò)層的輸入,然后采用注意力層凸顯韻律短語對情感分類的影響,提高情感傾向判別的準(zhǔn)確率。

        2.2.2 維吾爾語句子的細(xì)粒度情感傾向分析

        句子的細(xì)粒度情感傾向性分析,旨在識別評論文本中涉及產(chǎn)品各屬性的情感傾向。由于維吾爾語在情感分析領(lǐng)域的研究起步晚,現(xiàn)有的大部分研究主要集中在分析句子整體的情感類別,對于意見陳述細(xì)粒度級的情感分析研究還比較少。文獻[27]提出了一種基于雙層CRFs模型的細(xì)粒度意見挖掘維吾爾文情感分析方法。該方法使用詞性、詞干、程度副詞、互信息特征描述文本,輸入第一層CRFs模型識別語句中的主題詞和意見詞,將第一層的輸出特征,以及動態(tài)意見詞、否定成分輸送到第二層CRFs模型,識別出意見陳述的情感傾向。

        3 結(jié)束語

        文本情感分析技術(shù)能夠為輿情監(jiān)控、民意調(diào)查、市場調(diào)研等眾多工作提供參考,幫助相關(guān)部門發(fā)掘網(wǎng)民的真實想法及輿論傾向,快速準(zhǔn)確采取針對性措施控制輿論、調(diào)整政策、改良產(chǎn)品。與中英文相比,維吾爾語的語言形態(tài)更為豐富、語法結(jié)構(gòu)更加復(fù)雜,且維吾爾語標(biāo)準(zhǔn)語料庫、語義詞典等資源匱乏,致使針對中英文情感傾向性分析的一些技術(shù)不適合直接應(yīng)用在維吾爾文中。本文參考維吾爾語情感分析研究的相關(guān)文獻,從詞語級、句子級兩個層面對相關(guān)工作進行介紹,與中英文相比,相關(guān)研究在數(shù)量上還比較少,在深度上還比較淺,在范圍上還比較窄。目前維吾爾文情感分析相關(guān)工作面臨難度大、起步較晚的研究現(xiàn)狀,因此維吾爾語文本情感分析還有很多研究空間和值得研究的課題。未來需要深入研究的問題主要有:(1) 構(gòu)建文本情感分析的基礎(chǔ)性資源,如建立標(biāo)準(zhǔn)維吾爾文本語料庫,構(gòu)建發(fā)布類似HowNet、WordNet等維吾爾語情感詞典資源。(2) 現(xiàn)有的相關(guān)研究大部分集中在粗粒度層面,后續(xù)加強細(xì)粒度情感分析技術(shù)研究,精準(zhǔn)識別對評價對象的具體情感態(tài)度。(3) 結(jié)合維吾爾語的語言特點,在維吾爾文自然語言處理領(lǐng)域開發(fā)新技術(shù)或新方法更好支撐文本情感分析研究工作。

        參考文獻:

        [1]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計算機應(yīng)用,2008,28(11):2725-2728.

        [2] 姚天昉,程希文,徐飛玉,等.文本意見挖掘綜述[J].中文信息學(xué)報,2008,22(3):71-80.

        [3] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848.

        [4] 陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機應(yīng)用研究,2012,29(6):2014-2017.

        [5] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應(yīng)用,2011,31(12):3321-3323.

        [6] 禹龍,田生偉,馮冠軍.維吾爾語情感詞匯自動識別[J].計算機工程,2011,37(7):213-215.

        [7] 年梅,范祖奎,劉若蘭.維吾爾語褒貶情感詞典構(gòu)建研究[J].計算機工程與應(yīng)用,2017,53(4):152-155,162.

        [8] 劉若蘭,年梅,瑪爾哈巴·艾賽提.基于連詞的維吾爾語情感詞庫擴展研究[J].中文信息學(xué)報,2018,32(3):49-54.

        [9] 瑪爾哈巴·艾賽提,艾孜爾古麗,玉素甫·艾白都拉.基于語法的維吾爾語情感詞匯自動獲取[J].中文信息學(xué)報,2017,31(1):126-132,139.

        [10] 黃俊,田生偉,禹龍,等.基于維吾爾語情感詞的句子情感分析[J].計算機工程,2012,38(9):183-185.

        [11] 年梅,劉若蘭,瑪爾哈巴·艾賽提,等.加權(quán)維吾爾語句子傾向性分析[J].計算機系統(tǒng)應(yīng)用,2016,25(7):171-175.

        [12] 田生偉,禹龍,王宇光.維吾爾語情感分類算法[J].計算機工程與應(yīng)用,2011,47(36):147-150.

        [13] 羅亞偉,田生偉,禹龍,等.意見挖掘中維吾爾語文本隱式情感分析[J].計算機工程與設(shè)計,2014,35(9):3295-3300.

        [14] 熱依萊木·帕爾哈提,孟祥濤,艾斯卡爾·艾木都拉.基于區(qū)分性關(guān)鍵詞模型的維吾爾文本情感分類[J].計算機工程,2014,40(10):132-136,142.

        [15] 阿不都薩拉木·達吾提,于斯音·于蘇普,艾斯卡爾·艾木都拉.類別區(qū)分詞與情感詞典相結(jié)合的維吾爾文句子情感分類[J].清華大學(xué)學(xué)報(自然科學(xué)版),2017,57(2):197-201.

        [16] 李響,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,等.基于主動學(xué)習(xí)的SVM維吾爾語情感分析研究[J].新疆大學(xué)學(xué)報(自然科學(xué)版),2015,32(4):447-452.

        [17] 伊爾夏提·吐爾貢,吾守爾·斯拉木,熱西旦木·吐爾洪太.基于有監(jiān)督分詞方法的維吾爾文情感分析[J].計算機工程與設(shè)計,2017,38(11):3143-3146,3178.

        [18] 熱西旦木·吐爾洪太,吾守爾·斯拉木.基于Bi-tagged特征的維吾爾文情感分類方法研究[J].中文信息學(xué)報,2018,32(8):80-90.

        [19] 熱西旦木·吐爾洪太,吾守爾·斯拉木,伊爾夏提·吐爾貢.詞典與機器學(xué)習(xí)方法相結(jié)合的維吾爾語文本情感分析[J].中文信息學(xué)報,2017,31(1):177-183,191.

        [20] 李敏,禹龍,田生偉,等.基于深度學(xué)習(xí)的維吾爾語語句情感傾向分析[J].計算機工程與設(shè)計,2016,37(8):2213-2217.

        [21] 李冬白,田生偉,禹龍,等.深度學(xué)習(xí)的維吾爾語語句隱式情感分類[J].計算機工程與設(shè)計,2016,37(9):2577-2581.

        [22] 王樹恒,吐爾根·依布拉音,卡哈爾江·阿比的熱西提,等.基于BLSTM的維吾爾語文本情感分析[J].計算機工程與設(shè)計,2017,38(10):2879-2886.

        [23] 衣馬木艾山·阿布都力克木,李敏,李自臣,等.基于deep belief nets的維吾爾語句子級情感分析[J].計算機應(yīng)用研究,2018,35(7):2066-2070.

        [24] 買買提阿依甫,吾守爾·斯拉木,艾斯卡爾·艾木都拉,楊文忠,等.基于多特征和深度神經(jīng)網(wǎng)絡(luò)的維吾爾文情感分類[J].計算機應(yīng)用研究,2020,37(5):1368-1374,1379.

        [25] 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,等.基于LDA與深度神經(jīng)網(wǎng)絡(luò)的維吾爾文情感分類[J].計算機仿真,2019,36(10):194-201,205.

        [26] 帕麗旦·木合塔爾,買買提阿依甫,楊文忠,等.基于BiRNN的維吾爾語情感韻律短語注意力模型[J].電子科技大學(xué)學(xué)報,2019,48(1):88-95.

        [27] 羅亞偉,田生偉,禹龍,等.細(xì)粒度意見挖掘中維吾爾語文本情感分析研究[J].中文信息學(xué)報,2016,30(1):140-147,169.

        【通聯(lián)編輯:王力】

        日韩女优在线一区二区| 精品国产91久久久久久久a| 妞干网中文字幕| 亚洲高清国产品国语在线观看| 91自国产精品中文字幕| 国产一区二区三区乱码在线| 免费看片的网站国产亚洲| 在线观看一区二区中文字幕| 日韩有码中文字幕第一页| 男的和女的打扑克的视频| 亚洲天堂av黄色在线观看| 日韩av一区二区三区激情在线| 亚洲精品国产电影| 日本高清视频wwww色| 国产精品美女久久久久久| 丰满岳乱妇久久久| 日韩高清毛片| 2020亚洲国产| 亚洲黄色一插一抽动态图在线看| 日本在线免费不卡一区二区三区| 97cp在线视频免费观看| 欧美村妇激情内射| 亚洲AV永久无码制服河南实里| 亚洲熟妇乱子伦在线| 中日韩字幕中文字幕一区| 四季极品偷拍一区二区三区视频| 久久亚洲精品中文字幕| 亚洲精品乱码久久久久久久久久久久| 精品国产成人亚洲午夜福利| 久久福利资源国产精品999| 精品熟妇av一区二区三区四区| 国产在线91精品观看| 国产av久久久久精东av| 人人爽人人澡人人人妻| 亚洲碰碰人人av熟女天堂| 国产精品亚洲一区二区杨幂| 无码AV大香线蕉伊人久久| 亚洲av日韩av天堂久久不卡| 日韩人妻精品中文字幕专区| 国产精品无码午夜福利| 亚洲中文字幕乱码|