亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)購(gòu)農(nóng)產(chǎn)品評(píng)論中的消費(fèi)者情感標(biāo)簽抽取方法研究

        2018-08-16 06:32:06李良強(qiáng)李開明白梨霏曹云忠
        關(guān)鍵詞:分詞語(yǔ)料詞語(yǔ)

        □李良強(qiáng) 李開明 白梨霏 曹云忠 吳 亮

        [1.四川農(nóng)業(yè)大學(xué) 都江堰 611830;2.貴州師范大學(xué) 貴陽(yáng) 550001]

        引言

        隨著“互聯(lián)網(wǎng)+”理念的提出和最近幾年“中央1號(hào)文件”的政策支持,農(nóng)業(yè)、農(nóng)村、農(nóng)產(chǎn)品電子商務(wù)蓬勃發(fā)展,農(nóng)產(chǎn)品的在線交易量逐年增加。消費(fèi)者利用互聯(lián)網(wǎng)購(gòu)買、消費(fèi)農(nóng)產(chǎn)品的同時(shí),利用Web2.0的相關(guān)應(yīng)用技術(shù)在互聯(lián)網(wǎng)上發(fā)表自己關(guān)于農(nóng)產(chǎn)品消費(fèi)體驗(yàn)的看法和觀點(diǎn),從而形成農(nóng)產(chǎn)品的在線用戶評(píng)論。這些蘊(yùn)含在用戶評(píng)論中的用戶評(píng)價(jià)對(duì)象及其內(nèi)容中反映出來(lái)的用戶情感,對(duì)農(nóng)產(chǎn)品銷售平臺(tái)、企業(yè)和其他潛在消費(fèi)者的決策,都具有重要的參考意義[1]。隨著農(nóng)產(chǎn)品用戶評(píng)論的累積,不可避免地形成信息過(guò)載的問(wèn)題。因此,有必要采用自動(dòng)方法從農(nóng)產(chǎn)品的海量用戶評(píng)論中提取出用戶評(píng)論的對(duì)象和用戶情感傾向,從而形成有意義的情感標(biāo)簽。

        從這些評(píng)論中抽取消費(fèi)者的情感標(biāo)簽,也稱為情感分析。情感分析一般定義為找出作者對(duì)特定實(shí)體的看法,具體來(lái)講主要體現(xiàn)在分析人們關(guān)于特定元素(話題、產(chǎn)品、個(gè)人、組織和服務(wù))的情感、觀點(diǎn)、態(tài)度、情緒等[1~3]。對(duì)在線用戶評(píng)論文本的情感分析,是計(jì)算機(jī)領(lǐng)域的熱門研究話題,超過(guò)7000篇文章研究相關(guān)方向。不少創(chuàng)業(yè)公司也提供了情感分析解決方案和開發(fā)出相應(yīng)的軟件包。通過(guò)情感分析,企業(yè)組織實(shí)時(shí)地感知其在社交媒體和零售網(wǎng)站上的風(fēng)險(xiǎn)、聲譽(yù),實(shí)時(shí)地監(jiān)控給在零售網(wǎng)站和社交媒體上的消費(fèi)者反饋,并且實(shí)時(shí)做出應(yīng)對(duì)措施。大量的研究表明在線評(píng)論文本中表現(xiàn)出情感對(duì)產(chǎn)品的銷售有直接顯著的影響[4],也影響其他用戶對(duì)該評(píng)論的有用性評(píng)價(jià)[5]。

        對(duì)文本中情感分析和情感標(biāo)簽的提取,學(xué)者們提出了各種各樣的方法[6],例如利用情感詞典,利用句子或詞語(yǔ)語(yǔ)法,利用機(jī)器學(xué)習(xí)的方法,利用深度學(xué)習(xí)的方法以及組合方法等。但是這些方法存在著一些缺點(diǎn):需要大量?jī)?yōu)質(zhì)的情感詞典進(jìn)行模型訓(xùn)練;復(fù)雜的模型訓(xùn)練和參數(shù)調(diào)整,需要較強(qiáng)的計(jì)算資源等。與常見的文本中相比,農(nóng)產(chǎn)品的在線用戶評(píng)論體現(xiàn)了以下一些特點(diǎn):(1)領(lǐng)域性強(qiáng),有很多專業(yè)名詞;(2)評(píng)論文本中句子長(zhǎng)度短小,信息含量少;(3)消費(fèi)者表達(dá)口語(yǔ)化明顯,網(wǎng)絡(luò)用語(yǔ)、流行詞的使用較多,寫作方式自由。但是對(duì)于農(nóng)產(chǎn)品的評(píng)論,用戶對(duì)評(píng)價(jià)對(duì)象的不同維度或?qū)傩灾g的觀點(diǎn)評(píng)價(jià)明顯存在一定的潛在關(guān)聯(lián)性。例如,如果用戶認(rèn)為購(gòu)買的檸檬味道很不錯(cuò),就會(huì)自然而然地對(duì)檸檬的其他屬性進(jìn)行褒義評(píng)價(jià)。產(chǎn)生“檸檬+不錯(cuò)”“大小+不錯(cuò)”“冰袋+不錯(cuò)”等關(guān)聯(lián)性較強(qiáng)的一系列情感標(biāo)簽。本文從農(nóng)產(chǎn)品領(lǐng)域評(píng)論語(yǔ)料中對(duì)情感標(biāo)簽進(jìn)行抽取,著重考慮評(píng)價(jià)詞與評(píng)級(jí)對(duì)象之間的關(guān)聯(lián)性。

        為了能夠更好地解決農(nóng)產(chǎn)品領(lǐng)域消費(fèi)者在線評(píng)論的情感分析任務(wù),本文提出了一種結(jié)合TF-IDF算法和PMI算法的抽取農(nóng)產(chǎn)品在線評(píng)論中消費(fèi)者情感特征方法框架。該方法框架的主要步驟為:TFIDF特征抽取方法對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞進(jìn)行關(guān)鍵詞過(guò)濾再利用PMI計(jì)算出各個(gè)關(guān)聯(lián)詞的共現(xiàn)性,根據(jù)用戶評(píng)分建立規(guī)則判斷情感詞傾向性,獲得情感標(biāo)簽集合的有關(guān)農(nóng)產(chǎn)品在線評(píng)論中的特征。通過(guò)利用真實(shí)農(nóng)產(chǎn)品評(píng)論的數(shù)據(jù)驗(yàn)證,獲得較高的抽取準(zhǔn)確率和召回率,說(shuō)明這種方法能夠有效地抽取農(nóng)產(chǎn)品評(píng)論中的消費(fèi)者情感,具有較好的領(lǐng)域適應(yīng)性。

        一、相關(guān)研究工作

        從海量在線用戶評(píng)論中抽取用戶評(píng)論的情感傾向,生成情感標(biāo)簽,主要包括兩個(gè)方面的工作:(1)評(píng)價(jià)詞或評(píng)價(jià)對(duì)象抽取方法及技術(shù);(2)評(píng)價(jià)詞或評(píng)價(jià)句情感極性計(jì)算。學(xué)者們已經(jīng)利用情感詞典[7]、句子或詞語(yǔ)的語(yǔ)法、機(jī)器學(xué)習(xí)的方法、利用深度學(xué)習(xí)的方法以及組合方法等來(lái)完成這方面的工作。

        在利用情感詞典方面,戴敏等構(gòu)建了一個(gè)中文情感信息抽取語(yǔ)料庫(kù),為中文情感信息抽取任務(wù)提供語(yǔ)料基礎(chǔ)[8]。馮倉(cāng)龍等將情感要素詞典及聚類代碼引入CRF模型中,實(shí)現(xiàn)情感對(duì)象和情感詞同步抽取[9]。Liang等通過(guò)半人工的方法建立情感詞典來(lái)測(cè)量消費(fèi)者評(píng)論中關(guān)于產(chǎn)品質(zhì)量和服務(wù)質(zhì)量的維度[10]。Daniel等使用基于詞典的無(wú)監(jiān)督學(xué)習(xí)情感計(jì)算器分析社交網(wǎng)絡(luò)Twitter空間里金融社區(qū)發(fā)布事件的情感極性,從而構(gòu)成金融交易的事件流行算法[11]。

        在利用句子語(yǔ)法和詞語(yǔ)詞性方面,Popescu等人抽取評(píng)論中頻繁出現(xiàn)的名詞和名詞短語(yǔ)作為候選產(chǎn)品特征,同時(shí)借助搜索引擎計(jì)算互信息值來(lái)對(duì)候選特征進(jìn)行評(píng)估針對(duì)中文產(chǎn)品評(píng)論的特點(diǎn)[12]。王洪偉等選取詞性、詞性組合、N–gram作為情感文本的潛在特征項(xiàng),利用文檔頻率法對(duì)特征項(xiàng)降維處理,采用布爾權(quán)重法構(gòu)建特征向量,并采用SVM分類器進(jìn)行網(wǎng)絡(luò)評(píng)論的情感分類[13]。李良強(qiáng)等綜合了語(yǔ)法搭配(詞性搭配)和最大頻繁模式,提出了一種從海量在線評(píng)論數(shù)據(jù)自動(dòng)抽取出用戶對(duì)該產(chǎn)品/服務(wù)的主要評(píng)論內(nèi)容的文本處理技術(shù)[14]。杜思奇等則通過(guò)引入漢語(yǔ)組塊分析對(duì)評(píng)論文本進(jìn)行初始化處理,對(duì)名詞性信息以及形容詞性信息進(jìn)行抽取。通過(guò)最大熵對(duì)初始化集合進(jìn)行過(guò)濾,從而獲得最終的情感標(biāo)簽集合[15]。王娟等在短語(yǔ)的內(nèi)部結(jié)構(gòu)和句法功能基礎(chǔ)上,分析了評(píng)價(jià)對(duì)象及其對(duì)應(yīng)的評(píng)價(jià)短語(yǔ)在句中的句法位置,結(jié)合情感句中詞性和詞對(duì)間的依存關(guān)系完成情感評(píng)價(jià)單元的抽取[16]。江騰蛟等提出了基于淺層語(yǔ)義與語(yǔ)法分析相結(jié)合的評(píng)價(jià)對(duì)象–情感詞對(duì)抽取方法,用于中文金融評(píng)論的情感識(shí)別[17]。孫曉和唐陳意將評(píng)論的句法信息、語(yǔ)義信息等引入CRFs模型,把情感對(duì)象和情感詞的深層詞義及情感詞的基本情感傾向等特征引入到SVM中,構(gòu)建出基于條件隨機(jī)場(chǎng)模型(CRFs)和支持向量機(jī)(SVM)的層疊模型,從商品評(píng)論中獲取情感關(guān)鍵信息:(情感對(duì)象,情感詞,情感傾向性)三元組[18]。Penalver-Martinez等使用語(yǔ)義本體來(lái)提高特征抽取效率,然后利用基于向量分析的方法用于電影評(píng)論的情感分析[19]。Zhao等探討了“特征–觀點(diǎn)”的關(guān)聯(lián)結(jié)構(gòu),提出了一個(gè)“先聚類,后抽取”的無(wú)監(jiān)督模型,然后利用這個(gè)結(jié)構(gòu)的屬性去抽取情感[20]。

        在利用機(jī)器學(xué)習(xí)方面的情感分析,主要用到機(jī)器學(xué)習(xí)的主要算法,比如貝葉斯算法,支持向量機(jī),最大熵,概率主題模型等。Yu等利用樸素貝葉斯算法(Na?ve Bayes algorithm,NB)來(lái)分析一個(gè)特定公司的每日在社交每天上的總體情感,從而探尋社交媒體和傳統(tǒng)媒體對(duì)公司短期股票表現(xiàn)的相對(duì)重要性和相互關(guān)聯(lián)性[21]。Manek等實(shí)現(xiàn)了利用基于Gini指數(shù)的特征抽取方法和支持向量分類器(Support Vector Machine,SVM)來(lái)對(duì)海量電影評(píng)論的情感分類,在分類效果上取得了較好的精確率和錯(cuò)誤減少率[22]。Akhtar等提出一個(gè)級(jí)聯(lián)框架用于特征選擇的剪枝和壓縮,然后采用粒子群優(yōu)化的集成了最大熵、條件隨機(jī)場(chǎng)和支持向量分類器用于情感分析,通過(guò)在兩個(gè)不同領(lǐng)域的特征抽取和情感分析驗(yàn)證了方法的有效性[23]。Colace等采用基于潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)的概率方法作為抽取工具來(lái)抽取社交網(wǎng)絡(luò)和協(xié)同學(xué)習(xí)環(huán)境中的情感觀點(diǎn),也取得了滿意的結(jié)果[24]。張建華和梁正友提出一種基于情感詞抽取與LDA特征表示的情感分析方法,對(duì)產(chǎn)品評(píng)論進(jìn)行褒貶二元分類[25]。近年來(lái),人工智能的發(fā)展使得深度學(xué)習(xí)的相關(guān)方法也逐漸應(yīng)用到對(duì)文本的情感分析。Giatsoglou提出把文本文檔用詞典表示、詞嵌入表示以及混合向量表示方法,然后用于訓(xùn)練文檔情感極性分類的機(jī)器學(xué)習(xí)模型,該方法能夠快速、靈活、通用地探測(cè)人們用不同語(yǔ)言在文本中表達(dá)出來(lái)的觀點(diǎn)[26]。

        現(xiàn)有文獻(xiàn)對(duì)于農(nóng)產(chǎn)品評(píng)論處理的研究相對(duì)較少,與本文研究最為相關(guān)的為文獻(xiàn)[27]。作者利用現(xiàn)成的文本挖掘工具對(duì)在線用戶評(píng)論進(jìn)行內(nèi)容分析,挖掘出消費(fèi)者網(wǎng)購(gòu)生鮮農(nóng)產(chǎn)品的影響因素,但側(cè)重于方法的應(yīng)用結(jié)果,沒(méi)有涉及到具體的評(píng)論文本抽取方法[27]。

        二、研究方法框架

        本文提出的農(nóng)產(chǎn)品評(píng)論中消費(fèi)者情感抽取系統(tǒng),主要包括數(shù)據(jù)的獲取與預(yù)處理、評(píng)價(jià)對(duì)象的特征抽取、情感傾向判定、情感標(biāo)簽的生成。圖1描述了整個(gè)流程。經(jīng)過(guò)數(shù)據(jù)預(yù)處理過(guò)程,把雜亂無(wú)章的原始語(yǔ)料,轉(zhuǎn)化成一個(gè)干凈的語(yǔ)料庫(kù)。然后經(jīng)過(guò)分詞并標(biāo)注詞性,通過(guò)特征抽取方法選出評(píng)價(jià)對(duì)象,通過(guò)PMI算法對(duì)用戶評(píng)分中的情感標(biāo)注實(shí)現(xiàn)對(duì)情感詞的過(guò)濾。最后根據(jù)用戶對(duì)產(chǎn)品的評(píng)分設(shè)置規(guī)則,判斷情感詞的情感傾向與情感強(qiáng)烈程度,最終形成情感標(biāo)簽集,主要體現(xiàn)為評(píng)價(jià)對(duì)象與評(píng)價(jià)詞語(yǔ)之間的搭配,如“味道+不錯(cuò)”、“大小+合適”。

        圖1 農(nóng)產(chǎn)品評(píng)論的情感抽取方法框架

        (一)文本預(yù)處理

        文本預(yù)處理主要包括三個(gè)步驟:(1)數(shù)據(jù)清理;(2)分詞;(3)詞性標(biāo)注。

        數(shù)據(jù)清理是將通過(guò)程序抓取的原始語(yǔ)料去掉重復(fù)記錄、清理不相關(guān)的評(píng)論、清除無(wú)意義的符號(hào)、文本的大小寫轉(zhuǎn)化等歸一化處理,從而形成干凈的原始語(yǔ)料庫(kù)。

        由于中文與英文不同,詞語(yǔ)詞之間沒(méi)有空格或者其他的分隔符來(lái)進(jìn)行間隔,因此不能直接對(duì)中文進(jìn)行統(tǒng)計(jì)分析。在對(duì)中文文本處理之前,需要把中文文本按照一定的規(guī)則或者算法把詞語(yǔ)分割開。例如給定的用戶評(píng)論句子r∈R,分詞就是利用分詞算法和分詞工具把句子r中的基本元素進(jìn)行標(biāo)注,最后用詞項(xiàng)Wr=(w1,w2,...)表示分詞結(jié)果。其中詞元素之間的關(guān)系滿足表1給出部分分詞結(jié)果示例。不同的分詞軟件采用的分詞算法不同,其分詞結(jié)果也是不一致的。

        分詞結(jié)束后,語(yǔ)料中包含有各類詞性,帶有大量沒(méi)有實(shí)意的虛詞和類別色彩不強(qiáng)的中性詞。因此,需要利用詞性標(biāo)注和過(guò)濾來(lái)處理一些無(wú)意義的詞,讓分詞語(yǔ)料中只保留一些重要的、有意義的詞。例如表1中的“了”就可以進(jìn)行刪除。為了能夠高效地從農(nóng)產(chǎn)品評(píng)論中抽取出消費(fèi)者的情感觀點(diǎn),我們可以通過(guò)只是保留評(píng)價(jià)對(duì)象和表達(dá)觀點(diǎn)的詞語(yǔ),從而來(lái)降低運(yùn)算的復(fù)雜度。消費(fèi)者評(píng)價(jià)對(duì)象和表達(dá)情感觀點(diǎn)的詞一般表現(xiàn)為:名詞、動(dòng)名詞、副詞、形容詞、命名實(shí)體等。通過(guò)分詞和詞性標(biāo)注,把語(yǔ)料形成保留詞和詞性的符合項(xiàng)集,即“詞+詞性”,為下一步的數(shù)據(jù)分析做好基礎(chǔ)。

        表1 分詞結(jié)果示例

        (二)特征抽取

        特征抽取,體現(xiàn)為從眾多混合有用、無(wú)用詞匯的原始語(yǔ)料中,提取出少量、具有代表性的特征,但是特征的類型沒(méi)有變化[28]。如果某個(gè)詞在廣義語(yǔ)料很少出現(xiàn),但是在某個(gè)特定語(yǔ)料中出現(xiàn)多次,那么它在很大程度上體現(xiàn)了這個(gè)語(yǔ)料的特征,這個(gè)詞就是需要被抽取出來(lái)的特征關(guān)鍵詞。

        本文中利用TF-IDF算法來(lái)實(shí)現(xiàn)語(yǔ)料的文本特征抽取。TF-IDF是一種基于統(tǒng)計(jì)的方法,廣泛應(yīng)用于信息檢索和文本特征抽取的加權(quán)技術(shù)和文檔降維。它可以用來(lái)評(píng)估文檔中的字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中某一份文件的重要程度。某一特定文件內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)文件集合中的低文檔頻率,可以產(chǎn)生出高權(quán)重的TFIDF[29]。因此,TF-IDF傾向于過(guò)濾掉常見的詞語(yǔ),保留重要的詞語(yǔ),從而達(dá)到抽取文本關(guān)鍵詞的目的。

        TF-IDF算法主要包含三個(gè)步驟:(1)計(jì)算詞頻(Term Frequency,TF);(2)計(jì)算計(jì)算逆文檔頻率(Inverse Document Frequency,IDF);(3)計(jì)算TF-IDF值。每個(gè)步驟的具體計(jì)算公式分別如下:

        (1)計(jì)算詞頻(Term Frequency,TF):

        (2)計(jì)算逆文檔頻率(Inverse Document Frequency,IDF):

        (3)計(jì)算TF-IDF值:

        式(1)中count(wordi)表示文檔中包含詞語(yǔ)wordi的個(gè)數(shù),式(2)中count(sentencewordi)表示包含詞語(yǔ) wordi評(píng)論條數(shù), sentencem表示評(píng)論m的條數(shù)。通過(guò)對(duì)評(píng)論集中每個(gè)詞語(yǔ)進(jìn)行上述步驟的計(jì)算,得到每條評(píng)論中每個(gè)詞語(yǔ)的TF-IDF值。然后通過(guò)此過(guò)程為所有評(píng)論文本建立一個(gè)TF-IDF向量模型,基于此篩選目標(biāo)關(guān)鍵詞。

        將式(3)中計(jì)算出的詞同時(shí)放在集合W1和W2中,保留W1中的名詞和形容詞,W2不變,再進(jìn)行下一步PMI的計(jì)算。目的是為了對(duì)比詞性抽取在PMI計(jì)算前后對(duì)結(jié)果產(chǎn)生的影響。因?yàn)橐坏?duì)詞性剪枝后,會(huì)對(duì)整個(gè)句法結(jié)構(gòu),詞語(yǔ)間距離等產(chǎn)生影響,從而影響最終結(jié)果。

        (三)特征情感共現(xiàn)計(jì)算

        逐點(diǎn)互信息(Pointwise Mutual Information,PMI),在信息理論和統(tǒng)計(jì)領(lǐng)域被廣泛用于計(jì)算兩個(gè)事物之間的關(guān)聯(lián)程度。在計(jì)算文檔相似性時(shí),PMI可以從統(tǒng)計(jì)的角度判斷兩個(gè)詞語(yǔ)貢獻(xiàn)情況來(lái)分析詞語(yǔ)之間是否存在語(yǔ)義相關(guān)或者主題相關(guān),以及相關(guān)的程度。通過(guò)計(jì)算兩個(gè)詞語(yǔ)在所有評(píng)論文本中共現(xiàn)的概率,判斷兩個(gè)詞語(yǔ)之間的語(yǔ)義相關(guān)性,如修飾關(guān)系[30]。PMI的計(jì)算公式表示如下:

        PMI的計(jì)算公式中,p(wordi,wordj)表示wordi與wordj共現(xiàn)的概率,p(wordi)為wordi在所有評(píng)論語(yǔ)料中出現(xiàn)的概率,p(wordj)表示wordj在語(yǔ)料庫(kù)中出現(xiàn)的概率。當(dāng)兩個(gè)詞語(yǔ)同時(shí)出現(xiàn)在多個(gè)評(píng)論文本中,則兩個(gè)詞語(yǔ)的共現(xiàn)概率較大。共現(xiàn)概率較大的詞組在語(yǔ)義上有一定的相關(guān)性,PMI值表示兩個(gè)詞語(yǔ)在文本上的關(guān)聯(lián)度。

        分別計(jì)算W1和W2兩個(gè)集合的共現(xiàn)概率PMI值,由于W1在抽取名詞和形容詞后句法結(jié)構(gòu)以及詞語(yǔ)之間的距離發(fā)生了改變,對(duì)共現(xiàn)距離產(chǎn)生影響,所以W1與W2中詞組的 PMI值存在顯著差異,很顯然觀察出W2結(jié)果的共現(xiàn)系數(shù)更為準(zhǔn)確。但是W2中仍存在噪聲,將W2中帶有名詞和形容詞的情感單元抽出,通過(guò)設(shè)定閾值的方法過(guò)濾掉PMI值過(guò)大和過(guò)小的詞組,形成新的集合W3。

        (四)評(píng)價(jià)對(duì)象情感強(qiáng)度和傾向性的判定

        用戶對(duì)農(nóng)產(chǎn)品的體驗(yàn)情感在一定程度上可以通過(guò)其給出的數(shù)字評(píng)分來(lái)體現(xiàn)。例如京東商城的用戶評(píng)分由1~5分構(gòu)成,根據(jù)前人研究中的成果和用戶的評(píng)價(jià)打分習(xí)慣可以把數(shù)字打分劃分出相應(yīng)的情感傾向和強(qiáng)度:把1分、2分的評(píng)論語(yǔ)句看成負(fù)面的評(píng)價(jià)(情感強(qiáng)烈程度1分>2分),把3分、4分、5分的評(píng)論語(yǔ)句看成正面的評(píng)價(jià)(情感強(qiáng)烈程度5分>4分>3分)。對(duì)于評(píng)價(jià)對(duì)象情感強(qiáng)度和傾向性的判定方法,我們采用兩個(gè)步驟:(1)形成不同情感強(qiáng)度中的特征和情感強(qiáng)度種子詞集合。具體做法為:在原始語(yǔ)料中針對(duì)不同情感程度中的特征屬性詞和情感詞進(jìn)行PMI計(jì)算,形成每個(gè)情感類別的最大關(guān)聯(lián)度詞集合(Maximum Related Word Sets,MRWS),也就是不同強(qiáng)度情感詞的種子標(biāo)簽集合。(2)利用種子詞集合,對(duì)新語(yǔ)料中的特征情感和強(qiáng)度進(jìn)行識(shí)別。具體做法為:首先對(duì)評(píng)論語(yǔ)料進(jìn)行分詞,按相關(guān)詞性進(jìn)行組合,形成詞組;新的詞組分別與每個(gè)情感強(qiáng)度中的種子詞組進(jìn)行匹配,得到不同分值下所對(duì)應(yīng)的關(guān)聯(lián)度,選擇關(guān)聯(lián)度最大的類別作為評(píng)論語(yǔ)料的情感類別。評(píng)論對(duì)象情感判定算法的具體實(shí)現(xiàn)過(guò)程如算法1所示。

        算法1 新語(yǔ)料中評(píng)論對(duì)象情感傾向判定

        1.輸入:種子庫(kù)中各情感類別i對(duì)應(yīng)詞組最大關(guān)聯(lián)度集 MRWSi,新語(yǔ)料Comment-New;

        2.輸出:新語(yǔ)料情感類別。

        3.過(guò)程:for eachComment-New do

        4.word = word.segment(Comment-New)

        5. word-group = PMI(wordi, wordj)

        6. for word-group ∈ MRWSi

        7.i=max(MRWSi)

        8. returni

        9. end for

        10. end for

        三、實(shí)驗(yàn)結(jié)果

        本文選取的數(shù)據(jù)來(lái)源為國(guó)內(nèi)著名的電商平臺(tái)(京東商城)生鮮農(nóng)產(chǎn)品類別下檸檬類別產(chǎn)品,使用Python自行編寫的爬蟲程序抓取用戶的評(píng)論。數(shù)據(jù)總量為7954條,時(shí)間跨度為2016年6月2日~2017年5月5日,所有評(píng)論數(shù)據(jù)都為中文撰寫。抓取的數(shù)據(jù)字段包括:產(chǎn)品名稱、用戶ID、用戶數(shù)字評(píng)分、用戶評(píng)論文本等。在獲得評(píng)論后,對(duì)它進(jìn)行一定的預(yù)處理工作:去除評(píng)論語(yǔ)料中的重復(fù)項(xiàng);去除與農(nóng)產(chǎn)品不相關(guān)的評(píng)論,比如“hhhhhhhh”、“手機(jī)很好用,一次舒心的購(gòu)物體驗(yàn)”等;共去除無(wú)效評(píng)論1319條,剩余6635條有效評(píng)論。有效評(píng)論中文本內(nèi)容的分布情況如表2所示。經(jīng)過(guò)預(yù)處理后的語(yǔ)料具有較高的準(zhǔn)確性和相關(guān)性,其用戶對(duì)產(chǎn)品的評(píng)分也具有較高的真實(shí)性,適合作為實(shí)驗(yàn)的語(yǔ)料數(shù)據(jù)。

        表2 評(píng)論文本的內(nèi)容分布

        (一)分詞結(jié)果

        在實(shí)驗(yàn)中,我們采用Jieba分詞的Python版本實(shí)現(xiàn)了對(duì)農(nóng)產(chǎn)品在線評(píng)論數(shù)據(jù)的分詞和詞性標(biāo)注。結(jié)果發(fā)現(xiàn)少數(shù)詞語(yǔ)的詞頻較高,占據(jù)了排名靠前的位置;剩下的大部分詞語(yǔ)頻次較低,呈現(xiàn)出一種典型的長(zhǎng)尾分布。這種現(xiàn)象表明消費(fèi)者在評(píng)價(jià)農(nóng)產(chǎn)品時(shí)候的用語(yǔ)表達(dá)相當(dāng)稀疏,因此在特征抽取和情感貢獻(xiàn)計(jì)算時(shí)候,需要設(shè)置恰當(dāng)?shù)拈撝怠?/p>

        (二)基于TF-IDF與PMI的情感標(biāo)簽抽取

        用戶在發(fā)表評(píng)論的時(shí)候,會(huì)根據(jù)其情感強(qiáng)烈程度和正負(fù)情緒給出一個(gè)數(shù)字評(píng)分。一般表示為1~5分5個(gè)不同的等級(jí),分別對(duì)不同等級(jí)的語(yǔ)料進(jìn)行分詞與詞性標(biāo)注。在此基礎(chǔ)上,將在語(yǔ)料中出現(xiàn)頻率較多的評(píng)價(jià)對(duì)象作為屬性種子詞,出現(xiàn)頻率較多的評(píng)價(jià)詞作為情感種子詞。例如:“滿意”這個(gè)詞,在5分語(yǔ)料中出現(xiàn)了46次,則將它作為5分評(píng)論的種子情感詞。經(jīng)過(guò)以上處理得到5個(gè)等級(jí)的種子詞集S,297個(gè)情感詞,如表3所示:

        表3 情感種子詞表示例

        使用TF-IDF抽取關(guān)鍵詞的方法對(duì)分詞過(guò)后的結(jié)果進(jìn)行計(jì)算,經(jīng)反復(fù)實(shí)驗(yàn)得出抽取式(3)中排名前十的詞作為關(guān)鍵詞,能夠很好地過(guò)濾掉常見且無(wú)實(shí)意的詞,保留語(yǔ)料中重要的詞。接著使用PMI算法計(jì)算評(píng)價(jià)對(duì)象與評(píng)價(jià)詞之間的相似性,輸出相似性大于1.5的詞組。但由于詞語(yǔ)距離和搭配的問(wèn)題,結(jié)果仍然會(huì)出現(xiàn)“很棒,方便”這樣的“評(píng)價(jià)詞”搭配的詞組,所以我們需要對(duì)目標(biāo)詞性詞組進(jìn)行抽取。根據(jù)前文對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞的詞性界定,在算法中設(shè)定抽取評(píng)價(jià)對(duì)象(名詞)和評(píng)價(jià)詞(形容詞)搭配的詞組。每一類等級(jí)都有該等級(jí)的評(píng)價(jià)詞組,我們可以將“京東 信賴”“京東 好評(píng)”“京東 滿意”等有相同評(píng)價(jià)對(duì)象(屬性)的評(píng)價(jià)詞形成情感標(biāo)簽集,如表4所示。

        表4 情感標(biāo)簽集

        (三)結(jié)果評(píng)價(jià)

        為驗(yàn)證我們提出方法的有效性,我們把采用人工情感詞抽取方法和本文提出的抽取方法在一批新的語(yǔ)料上進(jìn)行了對(duì)比。采用的評(píng)價(jià)指標(biāo)分別為:抽取準(zhǔn)確率(Precision,p)、召回率(Recall,R)和F值(F-measure,F(xiàn))來(lái)進(jìn)行評(píng)價(jià),F(xiàn)值為正確率和召回率的調(diào)和平均值,三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

        利用新采集到的1024條5分檸檬評(píng)論作為語(yǔ)料庫(kù),對(duì)這1024條檸檬評(píng)論分別進(jìn)行分詞、提取情感標(biāo)簽。人工標(biāo)注這批語(yǔ)料與自動(dòng)提取的情感標(biāo)簽進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。本組實(shí)驗(yàn)通過(guò)將篩選關(guān)鍵詞個(gè)數(shù)作為大的分組條件,并在每組內(nèi)部分別計(jì)算包含全部顯性情感標(biāo)簽與隱性情感標(biāo)簽、全部顯性情感標(biāo)簽與隱性屬性詞標(biāo)簽和顯性情感標(biāo)簽,它們所對(duì)應(yīng)的準(zhǔn)確率、召回率和F值。

        表5 實(shí)驗(yàn)結(jié)果

        通過(guò)實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以得到結(jié)論,在采用TFIDF篩選關(guān)鍵詞時(shí),閾值設(shè)置為5,即每條評(píng)論選取5個(gè)關(guān)鍵詞能夠得到最高的準(zhǔn)確率。這是因?yàn)?,農(nóng)產(chǎn)品評(píng)論文本具有引言部分所述的三個(gè)特點(diǎn),5個(gè)關(guān)鍵詞即可以滿足篩選到必要關(guān)鍵詞,又可以過(guò)濾掉諸如停用詞等其他非標(biāo)簽詞匯。同時(shí)在5個(gè)關(guān)鍵詞組內(nèi),我們發(fā)現(xiàn)顯性隱式屬性詞組具有最大的準(zhǔn)確率、召回率和F值。在標(biāo)記測(cè)試文本時(shí),我們發(fā)現(xiàn)有20%的評(píng)論包含隱式屬性詞。所以,在標(biāo)記評(píng)論文本時(shí),將隱式屬性詞提取出來(lái),可以使得自動(dòng)標(biāo)記效果增強(qiáng),并且不會(huì)降低召回率,即提取到的屬性詞有很大概率是正確的,從而使得方法的可靠性即F值明顯上升,表明結(jié)果可靠。

        四、結(jié)論

        本文提出了一種在農(nóng)產(chǎn)品在線用戶評(píng)論中抽取消費(fèi)者情感標(biāo)簽的方法,提高了特定領(lǐng)域網(wǎng)絡(luò)評(píng)論文本情感分析效果。該方法具有以下一些特點(diǎn):(1)通過(guò)TF-IDF篩選關(guān)鍵詞和PMI計(jì)算屬性詞與情感詞的相關(guān)性的方法抽取出不同屬性下特定的情感詞,解決了同一評(píng)價(jià)詞與不同屬性詞搭配時(shí)所表達(dá)情感不同的問(wèn)題。(2)根據(jù)用戶評(píng)分來(lái)劃分情感極性,具有較好的準(zhǔn)確性和可靠性。(3)該方法是在一些成熟的算法上改進(jìn),使得方法易于理解,便于實(shí)驗(yàn),且本方法在前期不需要大量人工標(biāo)注即可取得較好的效果;(4)該方法為盡可能利用評(píng)論文本所包含的信息如評(píng)分,可以最大程度利用現(xiàn)有信息,減少人工干預(yù),從而提高效率與準(zhǔn)確性。

        但本研究還是存在這一些不足:由于商品評(píng)論語(yǔ)料屬于評(píng)價(jià)對(duì)象比較稀疏的短文本,使用TFIDF算法在抽取特征關(guān)鍵詞存在一定缺陷,造成抽取結(jié)果的精度誤差。未來(lái)的研究會(huì)集中解決提高關(guān)鍵情感詞抽取的正確率,以及優(yōu)化情感極性判斷的算法,從而抽取出更為準(zhǔn)確的情感標(biāo)簽。

        猜你喜歡
        分詞語(yǔ)料詞語(yǔ)
        容易混淆的詞語(yǔ)
        找詞語(yǔ)
        結(jié)巴分詞在詞云中的應(yīng)用
        詞語(yǔ)欣賞
        基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
        值得重視的分詞的特殊用法
        華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
        一枚詞語(yǔ)一門靜
        《苗防備覽》中的湘西語(yǔ)料
        國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
        人妻暴雨中被强制侵犯在线| 二区三区日本高清视频| 狠狠cao日日橹夜夜十橹| 精品无码人妻一区二区三区不卡| 国产美女精品aⅴ在线| 绿帽人妻被插出白浆免费观看| 亚洲av熟女中文字幕| 青青草国产精品一区二区| 亚洲色大成网站www尤物| 欧美亚洲另类 丝袜综合网| 亚洲精品女同一区二区三区| 天天碰免费上传视频| 国产精品高潮呻吟av久久无吗| 亚洲无码美韩综合| 婷婷色精品一区二区激情| 永久免费看黄网站性色| 精品久久久久久综合日本| 中文字幕久无码免费久久| 日本精品免费一区二区三区| 网红尤物泛滥白浆正在播放| 中文字幕在线观看| 欧美熟妇精品一区二区三区| 国产强伦姧在线观看| 男女搞事在线观看视频| 香港台湾经典三级a视频| 精品欧美乱子伦一区二区三区| 日韩人妻有码中文字幕| 中文字幕国产精品一二三四五区| 午夜精品一区二区三区的区别| 国产在线视欧美亚综合| 强迫人妻hd中文字幕| 色欲人妻综合aaaaa网| 亚洲第一网站免费视频| 日韩一区二区三区天堂| 亚洲综合国产成人丁香五月激情| 中文字幕av无码一区二区三区 | 精品亚洲av乱码一区二区三区| 制服丝袜中文字幕在线| 久久久精品国产亚洲成人满18免费网站| 国产一区二区高清不卡在线| 久久久99精品免费视频|