亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文情感分析中的方面抽取研究

        2020-09-28 07:05:41郭朋朋
        電腦知識(shí)與技術(shù) 2020年16期
        關(guān)鍵詞:情感分析

        郭朋朋

        摘要:近年來(lái),基于方面的情感分析研究受到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。此類(lèi)研究的難點(diǎn)在于如何抽取出情感所針對(duì)的方面。關(guān)于方面抽取的研究有很多,但這些研究往往只關(guān)注詞句本身的信息,而忽略了詞性所蘊(yùn)含的信息。由此,該研究基于雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)提出了一種新的網(wǎng)絡(luò)模型。該模型通過(guò)引入預(yù)訓(xùn)練詞性向量的方法將詞性信息融入模型中,這使得模型對(duì)文本信息的提取更加的全面。最后通過(guò)實(shí)驗(yàn)對(duì)這種方法的有效性進(jìn)行了評(píng)估。

        關(guān)鍵詞:情感分析;方面;雙向的長(zhǎng)短期記憶網(wǎng)絡(luò);條件隨機(jī)場(chǎng);詞性向量

        中圖分類(lèi)號(hào):TP391.1? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)16-0086-03

        Abstract:In recent years, the research on aspect-based sentiment analysis has received extensive attention from academia and industry. The difficulty of this research is how to extract the aspects that emotions have expressed on. There are many studies on aspect extraction, but these studies often only focus on the information of the sentence, and ignore the information contained in the part of speech. Therefore, this study proposed a new network model based on bilateral long short-term memory, fully connected layer, and conditional random fields. The model also incorporates part-of-speech information into the model by pre-trained part-of-speech vector. This makes the model's extraction of text information more comprehensive. Finally, the effectiveness of this method was evaluated through experiments.

        Key words: sentiment analysis;aspect;bilateral long short-term memory;conditional random fields; part-of-speech

        1引言

        基于方面的情感分析(Aspect-Based Sentiment Classification)是情感分析的一種,相較于基于段落(Wang et al.,2019[1]; Wu et al.,2017[2])和基于篇章(Tang and Qin,2015[3]; Rhanoui et al.,2019[4])的情感分析,基于方面的情感分析更具有挑戰(zhàn)性。解決這一問(wèn)題的前提在于如何從文本中抽取出評(píng)論針對(duì)的方面,這里所說(shuō)的方面是指評(píng)論的對(duì)象。以中文商品評(píng)論為例:“手機(jī)收到了,電池很好,很耐用,外觀中規(guī)中矩可以接受,就是價(jià)格有點(diǎn)略貴?!?,在這句評(píng)論中“電池”“外觀”和“價(jià)格”即是所謂的方面。針對(duì)方面抽取問(wèn)題的研究方法有很多,大致可分為兩類(lèi),分別是基于無(wú)監(jiān)督學(xué)習(xí)的方法(Liao et al.,2019[5];He et al.,2017[6])和基于有監(jiān)督學(xué)習(xí)的方法(Li and Lam,2017[7];Xu et al.,2019[8])。在這些研究中,基于神經(jīng)網(wǎng)絡(luò)的方法越來(lái)越受到研究者的青睞。這種方法的主要思路是將方面抽取任務(wù)轉(zhuǎn)換成序列標(biāo)注任務(wù),通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行自動(dòng)標(biāo)注,從而實(shí)現(xiàn)對(duì)方面的抽取。其中比較有代表性的研究有很多,如Li and Lam(2017)[7]利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)對(duì)評(píng)論中的方面進(jìn)行抽取,實(shí)驗(yàn)證明這種方法的抽取效果大幅度超過(guò)當(dāng)時(shí)主流的條件隨機(jī)場(chǎng)(CRF)(Lafferty,2001[9])算法。Xu等人(2019)[8]利用兩次詞嵌入配合多層卷積神經(jīng)網(wǎng)絡(luò)(CNN)結(jié)構(gòu)來(lái)實(shí)現(xiàn)對(duì)方面的抽取,同樣也可以取得比較好的效果。此外,還有研究者同時(shí)使用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)兩種神經(jīng)網(wǎng)絡(luò)用于方面抽取。

        2模型介紹

        該研究提出的模型結(jié)構(gòu)圖如圖1所示,模型分別由Embedding層、Bi-LSTM層、全連接層和CRF層組成,下面將對(duì)這些結(jié)構(gòu)進(jìn)行詳細(xì)介紹。

        Embedding層:Embedding層的作用是將詞和其對(duì)應(yīng)的詞性進(jìn)行向量化。這層的輸出W由詞向量和詞性向量通過(guò)拼接而來(lái)。即W=(w1,w2···wn),其中wi=xi+yi,xi和yi分別代表一句話(huà)中第i個(gè)詞的詞向量和詞性向量。這里的詞性向量不是采用簡(jiǎn)單的one-hot編碼獲得,詞性向量和詞向量一樣都是過(guò)word2vector預(yù)訓(xùn)練獲得。詞性向量的訓(xùn)練語(yǔ)料是文本語(yǔ)料對(duì)應(yīng)的詞性序列。

        Bi-LSTM層:長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是由Hochreiter和Schmidhuber(1997)提出,單個(gè)LSTM單元是由三個(gè)門(mén)結(jié)構(gòu)組成,其分別為輸入門(mén)、忘記門(mén)和輸出門(mén)。門(mén)結(jié)構(gòu)的引入能夠選擇性的記住和遺忘歷史信息,這能夠有效的避免由于序列過(guò)長(zhǎng)而產(chǎn)生的梯度消失問(wèn)題。雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)可以同時(shí)保留前向和后向兩個(gè)方向的信息,這種能力將有助于該研究對(duì)方面的抽取。

        全連接層:這里只使用了一層的全連接層,所以參數(shù)W和b的形狀由Bi-LSTM層輸出維度和標(biāo)簽數(shù)決定。

        CRF層:條件隨機(jī)場(chǎng)(CRF)由Lafferty等人(2001)[9]提出,其結(jié)合了最大熵模型和隱馬爾科夫模型的特點(diǎn),它是一種典型的判別式模型,經(jīng)常被用在序列標(biāo)注類(lèi)任務(wù)中。本文使用CRF替代softmax函數(shù),這樣可以為最后預(yù)測(cè)的標(biāo)簽添加一些約束來(lái)保證預(yù)測(cè)標(biāo)簽的合法性。

        3試驗(yàn)

        3.1數(shù)據(jù)集

        由于沒(méi)有專(zhuān)門(mén)的中文評(píng)論數(shù)據(jù)集,該實(shí)驗(yàn)通過(guò)編寫(xiě)爬蟲(chóng)程序從京東商城上抓取評(píng)論數(shù)據(jù)。為了避免單一商品數(shù)據(jù)集的局限性,該實(shí)驗(yàn)分別抓取了五種商品的評(píng)論數(shù)據(jù)混合后用于實(shí)驗(yàn)。這些商品分別為襯衫、紅酒、洗衣液、手機(jī)和電腦。評(píng)論數(shù)據(jù)共計(jì)119M,進(jìn)行清洗后,使用北京大學(xué)開(kāi)源的分詞工具pkuseg(Sun et al.,2012[10]; Xu et al.,2016[11])對(duì)其進(jìn)行分詞和詞性標(biāo)注。分詞后的語(yǔ)料將用于詞向量的訓(xùn)練,對(duì)應(yīng)詞性序列集用于詞性向量的訓(xùn)練。此外,分別從五種商品評(píng)論中各隨機(jī)挑選出500條評(píng)論,共計(jì)2500條評(píng)論用于手工標(biāo)注。手工標(biāo)注采用BIO方法進(jìn)行標(biāo)注。標(biāo)注后按照6:2:2的比例隨機(jī)劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.2模型超參數(shù)

        通過(guò)多次實(shí)驗(yàn),選定了模型的超參數(shù)。預(yù)訓(xùn)練詞向量維度選定為150維,詞性向量選定為50維。Bi-LSTM中的隱藏神經(jīng)元個(gè)數(shù)num_units設(shè)為100,激活函數(shù)選擇tanh函數(shù)。

        3.3對(duì)比實(shí)驗(yàn)

        為了驗(yàn)證該研究提出模型的有效性,實(shí)驗(yàn)添加了五組對(duì)比實(shí)驗(yàn),其分別為:

        Bi-LSTM+FC:模型輸入只有詞向量信息,模型由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)和全連接層(FC)構(gòu)成。

        POS(one-hot)+Bi-LSTM+FC:模型輸入除了詞向量信息以外還添加了詞性信息,詞性向量采用one-hot離散表示,模型由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)和全連接層(FC)構(gòu)成。

        POS(word2vector)+Bi-LSTM+FC:模型輸入除了詞向量信息以外還添加了詞性信息,詞性向量通過(guò)word2vector預(yù)訓(xùn)練得到,模型由雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)和全連接層(FC)構(gòu)成。

        Bi-LSTM+FC+CRF:模型輸入只有詞向量信息,模型由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)、全連接層(FC)和條件隨機(jī)場(chǎng)(CRF)構(gòu)成。

        POS(one-hot)+Bi-LSTM+FC+CRF:模型輸入除了詞向量信息以外還添加了詞性信息,詞性向量采用one-hot離散表示,模型由雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)、全連接層(FC)和條件隨機(jī)場(chǎng)(CRF)構(gòu)成。

        3.4試驗(yàn)結(jié)果及分析

        各模型F1評(píng)估值如表1所示,其中前五組模型為對(duì)照模型,模型6為該研究提出的模型。

        通過(guò)觀察模型評(píng)估值F1可以發(fā)現(xiàn),模型2和模型3的F1值都明顯高于模型1,模型5和模型6的F1值都明顯高于模型4。兩類(lèi)基礎(chǔ)模型在添加了詞性信息后,F(xiàn)1值都有很大的提升,這說(shuō)明在模型中引入詞性信息是有效的。模型3的F1值高于模型2,模型6的F1值高于模型5,這說(shuō)明采用預(yù)訓(xùn)練詞性向量引入詞性信息的方法比采用one-hot方式獲得的詞性向量引入詞性信息的方法更為有效。同時(shí),相較于前5個(gè)對(duì)照模型,該研究提出的模型抽取效果最佳,F(xiàn)1值可達(dá)86.91。

        4 結(jié)論

        在中文方面抽取任務(wù)中,該實(shí)驗(yàn)基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)、全連接網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)構(gòu)建的網(wǎng)絡(luò)模型在融入預(yù)訓(xùn)練的詞性信息后,其模型性能優(yōu)于普通的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型。

        參考文獻(xiàn):

        [1] Hao Wang,Bing Liu,Chaozhuo Li,et al.Learning with Noisy Labels for Sentence-level Sentiment Classification[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics,2019: 6285-6291.

        [2] Fangzhao Wu, Jia Zhang, Zhigang Yuan,et al.Sentence-level Sentiment Classification with Weak Supervision[C]//SIGIR '17: The 40th International ACM SIGIR conference on research and development in Information Retrieval. Tokyo,Japan: Association for Computing Machinery,2017:973-976.

        [3] Duyu Tang, Bing Qin, Ting Liu. Learning Semantic Representations of Users and Products for Document Level Sentiment Classification[C]//S Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, China: Association for Computational Linguistics,2015: 1014-1023.

        [4] Maryem Rhanoui, Mounia Mikram, Siham Yousfi,et al. A CNN-BiLSTM Model for Document-Level Sentiment Analysis[J]. Machine Learning and Knowledge Extraction, 2019,1(3):832-847.

        [5] Ming Liao, Jing Li, Haisong Zhang,et al. Coupling Global and Local Context for Unsupervised Aspect Extraction[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Hong Kong, China: Association for Computational Linguistics, 2019: 4578-4588.

        [6] Ruidan He, Wee Sun Lee, Hwee Tou Ng,et al.An Unsupervised Neural Attention Model for Aspect Extraction[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics,2017:388-397.

        [7] Xin Li, Wai Lam. Deep multi-task learning for aspect term extraction with memory interaction[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017:2886–2892.

        [8] Hu Xu, Bing Liu, Lei Shu,et al.Double Embeddings and CNN-based Sequence Labeling for Aspect Extraction[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics,2019:592-598.

        [9] Lafferty J D, Andrew McCallum,Pereira F C N. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, United States: Morgan Kaufmann Publishers,2001: 282-289.

        [10] Xu Sun, Houfeng Wang, Wenjie Li. Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Jeju Island, Korea: Association for Computational Linguistics, 2012:253-262.

        [11] Jingjing Xu, Xu Sun. Dependency-based Gated Recursive Neural Network for Chinese Word Segmentation[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016: 567-572.

        【通聯(lián)編輯:朱寶貴】

        猜你喜歡
        情感分析
        基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
        面向應(yīng)用比較的用戶(hù)評(píng)論挖掘工具的設(shè)計(jì)與實(shí)現(xiàn)
        基于微博文本的情感傾向分析
        軟件工程(2016年12期)2017-04-14 02:05:53
        基于word2vec擴(kuò)充情感詞典的商品評(píng)論傾向分析
        基于語(yǔ)義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
        基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評(píng)論情感屬性的動(dòng)態(tài)變化
        歌曲《我的深情為你守候》的情感分析與演唱詮釋
        色婷婷精品久久二区二区蜜臀av | 精品国产乱来一区二区三区| 精品极品视频在线观看| 噜噜噜噜私人影院| 国产尤物精品福利视频| av无码天一区二区一三区| 丰满少妇一区二区三区专区| 精品亚洲第一区二区三区| 人妻少妇偷人精品无码| 国产天堂网站麻豆| 婷婷精品国产亚洲av| 日本一区二区三区中文字幕最新| 免费在线日韩| 特级黄色大片性久久久| 精品国产乱码久久久久久婷婷| 日韩好片一区二区在线看| 99re国产电影精品| 精品老熟女一区二区三区在线| 又紧又大又爽精品一区二区| 久久棈精品久久久久久噜噜| 国产永久免费高清在线观看视频| 粗一硬一长一进一爽一a视频| 伊人久久大香线蕉av五月| 日本久久高清一区二区三区毛片| 日韩精品中文字幕无码一区| 国产成年无码aⅴ片在线观看| 毛片精品一区二区二区三区| 国内精品久久久久国产盗摄| 丝袜足控一区二区三区| 中文字幕麻豆一区二区| 成人久久久精品乱码一区二区三区| 帮老师解开蕾丝奶罩吸乳网站| 国产91成人精品亚洲精品| 国产av普通话对白国语| 国产亚洲自拍日本亚洲| 久久综合九色综合欧美狠狠| 亚洲精品国产老熟女久久| av免费在线国语对白| 人妻少妇中文字幕乱码| 无码一区二区三区老色鬼| 久久无码精品精品古装毛片|