亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于商品評(píng)論信息的情感傾向性分析模型

        2016-06-29 03:10:46黃秋義丁婷婷浙江傳媒學(xué)院信息管理與信息系統(tǒng)310018
        電子制作 2016年8期
        關(guān)鍵詞:傾向性文本情感

        黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018

        ?

        基于商品評(píng)論信息的情感傾向性分析模型

        黃秋義 丁婷婷 楊 帆 浙江傳媒學(xué)院信息管理與信息系統(tǒng) 310018

        【文章摘要】

        為了獲取評(píng)論信息中的客戶(hù)隱藏情感傾向信息,基于網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)商品評(píng)論信息進(jìn)行抓取,通過(guò)基于語(yǔ)義分解利用數(shù)學(xué)向量空間模型對(duì)信息進(jìn)行情感傾向性分析,構(gòu)建一款針對(duì)電商平臺(tái)中商品和服務(wù)評(píng)論信息的客戶(hù)意見(jiàn)挖掘以及情感傾向性分析的系統(tǒng)模型。

        【關(guān)鍵詞】

        網(wǎng)絡(luò)爬蟲(chóng);情感傾向性分析;商品評(píng)論;電子商務(wù)

        0 引言

        在這個(gè)以互聯(lián)網(wǎng)為代表的新興媒體時(shí)代,電子商務(wù)在其中也迅速崛起,各大電商平臺(tái)如京東、天貓等。平臺(tái)上推出的商品類(lèi)種琳瑯滿(mǎn)目,商品數(shù)量也在層層累積,作為顧客難以抉擇品質(zhì)優(yōu)良的商品,同時(shí)作為電商企業(yè)也無(wú)法準(zhǔn)確捕捉到顧客的興趣。然而在電商交易產(chǎn)生的評(píng)論信息中,往往隱含著顧客的情感傾向。合理有效地分析這些信息,有助于電商企業(yè)及時(shí)地改善產(chǎn)品,并指定恰當(dāng)?shù)臓I(yíng)銷(xiāo)方式,優(yōu)化服務(wù)態(tài)度,從而收益用戶(hù)量。

        鑒此,本文將針對(duì)京東、天貓等電子商務(wù)平臺(tái)中的商品評(píng)論信息以及其服務(wù)的態(tài)度和評(píng)價(jià)進(jìn)行情感傾向性分析,研究開(kāi)發(fā)一款針對(duì)電商平臺(tái)中商品及服務(wù)評(píng)價(jià)信息的客戶(hù)意見(jiàn)挖掘并對(duì)其進(jìn)行情感傾向性分析的程序,系統(tǒng)主要功能模塊包括評(píng)論信息采集、情感詞典管理、情感傾向性分析等功能模塊。圍繞系統(tǒng)開(kāi)發(fā),本文將對(duì)面向商品評(píng)論信息的采集技術(shù)、情感傾向性分析模型、面向手機(jī)等商品評(píng)價(jià)情感詞典構(gòu)建等相關(guān)技術(shù)進(jìn)行研究。

        1 相關(guān)理論及關(guān)鍵技術(shù)

        1.1京東、天貓等電商平臺(tái)中商品及服務(wù)評(píng)論信息的采集技術(shù)

        通過(guò)網(wǎng)頁(yè)的結(jié)構(gòu)特性分析,對(duì)現(xiàn)有的網(wǎng)絡(luò)爬蟲(chóng)程序進(jìn)行合理性的調(diào)整,并加以運(yùn)用,從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿(mǎn)足系統(tǒng)的一定停止條件,從而獲得評(píng)論頁(yè)面的內(nèi)容。

        1.2情感詞典構(gòu)建與評(píng)價(jià)短語(yǔ)分析

        基于前期已研究過(guò)的情感詞典構(gòu)建技術(shù),構(gòu)建一個(gè)包含基礎(chǔ)情感詞的情感詞典,并對(duì)其進(jìn)行專(zhuān)有情感詞典、情感符號(hào)模塊的擴(kuò)展,從而構(gòu)建一個(gè)針對(duì)手機(jī)等商品及服務(wù)評(píng)價(jià)信息的情感詞典。

        由于評(píng)價(jià)短語(yǔ)由情感詞和副詞主導(dǎo)其情感,語(yǔ)句由句子主要的短語(yǔ)以及句子整體主導(dǎo)其情感,通過(guò)情感詞的匹配,對(duì)評(píng)論短語(yǔ)和評(píng)論句子進(jìn)行傾向性分析,并得出文本的情感傾向性分析結(jié)果。

        1.3基于情感分析的評(píng)論挖掘

        系統(tǒng)將采集的眾多評(píng)論信息文本劃分為句子的集合作為傾向性分析的對(duì)象,并保存在數(shù)據(jù)庫(kù)中,將句子集合中的每個(gè)句子按照句式分類(lèi)并進(jìn)行切詞,抽取句子中的評(píng)價(jià)對(duì)象,依次對(duì)評(píng)價(jià)對(duì)象、短語(yǔ)、句子進(jìn)行情感分析計(jì)算并得出結(jié)果。

        1.4情感分析過(guò)程

        1.4.1文本特征的分類(lèi)

        在中文文本中,一個(gè)詞語(yǔ)往往是包含多重意思的“集合”,多義詞在語(yǔ)言學(xué)中是重要的特征。辨別多義詞詞義并對(duì)其進(jìn)行消除歧義,是眾多情感分析和觀點(diǎn)挖掘的基本研究對(duì)象。在眾多詞匯中,依照詞性可分為名詞、動(dòng)詞、形容詞、副詞、代詞六大基本詞類(lèi),以及具有漢語(yǔ)特色的成語(yǔ)和方言文化形成的慣用詞。較之中文的語(yǔ)法特征,以“主謂賓”的句式為眾,以名詞、動(dòng)詞、形容詞、副詞的組合為首,其中“名詞+副詞+形容詞”、“副詞+形容詞”、“名詞+形容詞”在實(shí)際應(yīng)用中較為廣泛,例如“手機(jī)很好用”、“十分優(yōu)秀”、“性能好”等。

        圖1 商品評(píng)論挖掘與情感傾向性分析模型

        1.4.2文本預(yù)處理

        首先對(duì)評(píng)論文本進(jìn)行基本的情感分析過(guò)程:

        (1)對(duì)評(píng)論文本進(jìn)行分句,把長(zhǎng)文本分割成短文本形式的觀點(diǎn)句;

        (2)對(duì)觀點(diǎn)句進(jìn)行切詞,并作詞性標(biāo)注;

        (3)抽取文本中的評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ);

        1.4.3向量空間模型

        利用數(shù)學(xué)里的向量空間作為基本模型框架,將文本中的每一個(gè)特征項(xiàng)與向量空間中的維度一一對(duì)應(yīng),其特征項(xiàng)的權(quán)重即就是向量空間中坐標(biāo)值,記為wij,如此就能用坐標(biāo)點(diǎn)的方式把文本的各項(xiàng)權(quán)重以“圖形化”,從而實(shí)現(xiàn)文本的數(shù)據(jù)化模型。

        1.4.4量化分布結(jié)果

        商品特征值以及評(píng)論傾向性的基礎(chǔ)是商品評(píng)論集的獲取,通過(guò)爬蟲(chóng)技術(shù)將一個(gè)頁(yè)面的商品評(píng)論信息集合為數(shù)集Ti,其中一共有N條評(píng)論信息,通過(guò)仿向量空間模型,Ti=(w1,i,w2,i,…,Wn,i),i=1,…,N,其中wij表示特征詞的權(quán)重,由此可推出商品評(píng)論信息集的中心向量坐標(biāo)為d(c)=(d1,i,d2,i,…,dn,i),c=1,…,K,其中djr=,r=1,…,s,表某前特征中所有評(píng)論信息中出現(xiàn)詞wj的平均權(quán)重,s表示某特征中信息評(píng)論集的數(shù)目。

        通過(guò)向量空間模型對(duì)觀點(diǎn)句進(jìn)行不同情感傾向量化分布的具體步驟為:

        (1)依次獲取各個(gè)評(píng)論信息集的中心向量坐標(biāo);

        (2)將特征詞兩兩構(gòu)成二維平面獲得若干個(gè)權(quán)重值點(diǎn)分布圖;

        (3)選取實(shí)驗(yàn)?zāi)繕?biāo)所需要的特征詞二維權(quán)重分布圖;

        (4)通過(guò)離散性隨機(jī)變量算法得出對(duì)某特征和某特征的情感分布。若值越大,則表示該特征的評(píng)論信息的情感傾向?yàn)榭隙ā?/p>

        2 情感傾向性分析程序設(shè)計(jì)

        商品評(píng)論挖掘與情感傾向性分析模型見(jiàn)圖,模型共分為五個(gè)部分:文本輸入、信息基本處理、詞表構(gòu)建、情感傾向性分析和結(jié)果可視化。

        系統(tǒng)主要模塊包括:

        (1)文本輸入模塊:自動(dòng)將所需要進(jìn)行情感傾向性分析的文本導(dǎo)入程序。使用中文自動(dòng)分詞與詞性標(biāo)注工具對(duì)文本進(jìn)行分詞和詞性標(biāo)注。

        (2)信息基本處理模塊:對(duì)獲取的句子文本進(jìn)行分句、切詞、抽取評(píng)價(jià)短語(yǔ),抽取評(píng)價(jià)對(duì)象等操作。

        (3)情感詞典管理模塊:對(duì)情感詞典的詞條進(jìn)行管理,包括添加、刪除、修改等

        (4)情感傾向性分析模塊:通過(guò)在情感詞典中查找該詞語(yǔ),如果匹配則確定極性,如果不匹配則默認(rèn)其極性為中性。計(jì)算詞語(yǔ)極性強(qiáng)度,根據(jù)已經(jīng)確定的極性和修飾程度進(jìn)行計(jì)算。最終得出每個(gè)單句的傾向性并求和作為該文本的傾向性。

        (5)分析結(jié)果輸出模塊:輸出該文本的傾向性分析結(jié)果。

        3 實(shí)驗(yàn)結(jié)果與分析

        將開(kāi)源的句法分析代碼導(dǎo)入Java運(yùn)行環(huán)境中,進(jìn)行評(píng)論的句法分析。將分析結(jié)果按上述的步驟進(jìn)行極性值計(jì)算,主題詞分為三類(lèi)進(jìn)行極性值累加,將結(jié)果用可視化的形式表示出來(lái)。

        3.1基于爬蟲(chóng)的信息獲取

        所選數(shù)據(jù)來(lái)自京東商城,利用爬蟲(chóng)采集技術(shù),對(duì)京東平臺(tái)中電子產(chǎn)品的URL的網(wǎng)頁(yè)進(jìn)行信息獲取,篩選并識(shí)別出“華為榮耀7 PLKAL10/全網(wǎng)通”手機(jī)評(píng)論信息網(wǎng)頁(yè)的URL,處理HTML的文本信息,最終抽取獲得網(wǎng)頁(yè)中顧客的評(píng)價(jià)內(nèi)容,在所有評(píng)論中隨機(jī)抓取1500條評(píng)論作為試驗(yàn)基礎(chǔ)數(shù)據(jù)。

        3.2情感分析過(guò)程

        (1)商品特征詞提取。基于關(guān)聯(lián)規(guī)則算法從這1500條評(píng)論信息中提取商品特征,人工剔除無(wú)用詞,最終得到的商品特征為外觀、鍵盤(pán)、觸摸屏、電池、價(jià)格、功能、靈敏度、相機(jī)、分辨率、系統(tǒng)、內(nèi)存。

        (2)觀點(diǎn)句子提取與情感得分計(jì)算。本次實(shí)驗(yàn)基于“手機(jī)系統(tǒng)”這一特征進(jìn)行評(píng)論文本篩選,共提取到與系統(tǒng)特征有關(guān)的200 個(gè)觀點(diǎn)句子,并計(jì)算出其情感得分。

        (3)不同情感傾向的量化分布。基于這200 個(gè)觀點(diǎn)句子的情感得分,構(gòu)建得分值得向量空間模型,選取特征詞為功能和靈敏度的二維分布圖,利用離散性隨機(jī)變量算法確定關(guān)于功能和靈敏度的情感得分,最終得到這 200個(gè)觀點(diǎn)句子的情感量化分布結(jié)果

        同時(shí),對(duì)本文給出的計(jì)算情感傾向量化分布的方法進(jìn)行了驗(yàn)證

        從實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),中立傾向情感分布的計(jì)算準(zhǔn)確率偏低,主要原因是肯定傾向和中立傾向往往相輔相成,其觀點(diǎn)句也具有很大的相似性,即使是人工判斷都不可避免有所偏差。由此可見(jiàn)數(shù)據(jù)的區(qū)分程度對(duì)實(shí)驗(yàn)結(jié)果也有一定的影響。

        事后對(duì)200條觀點(diǎn)句進(jìn)行了人工判斷實(shí)驗(yàn)驗(yàn)證,從實(shí)驗(yàn)結(jié)果分析得知顧客對(duì)于京東平臺(tái)的服務(wù)認(rèn)可度較高,但對(duì)于手機(jī)性能和外觀有較多意見(jiàn)。該結(jié)果與實(shí)驗(yàn)選取的數(shù)據(jù)文本有密切的關(guān)系,本次實(shí)驗(yàn)爬取的是京東平臺(tái)中顧客在購(gòu)買(mǎi)了手機(jī)后的評(píng)論信息文本,評(píng)論中大多是提及手機(jī)產(chǎn)品的不足之處,而對(duì)手機(jī)產(chǎn)品有認(rèn)可態(tài)度的顧客僅選用五星來(lái)評(píng)價(jià),省略了具體描述。而對(duì)服務(wù)的評(píng)論大多針對(duì)的是該購(gòu)物網(wǎng)站本身的服務(wù),比如物流,而較少涉及手機(jī)產(chǎn)品的售后服務(wù)。從結(jié)果來(lái)看,顧客對(duì)于京東平臺(tái)的物流速度廣泛比較認(rèn)可,但對(duì)于退換貨這一服務(wù),大多數(shù)認(rèn)為“處理得不及時(shí)、不主動(dòng)“。

        4 結(jié)論

        隨著網(wǎng)絡(luò)社會(huì)化趨勢(shì)日益明顯,由用戶(hù)發(fā)布的對(duì)所購(gòu)產(chǎn)品的評(píng)論信息成為企業(yè)競(jìng)爭(zhēng)情報(bào)分析的重要數(shù)據(jù)來(lái)源。該類(lèi)信息有篇幅短小、信息密度大及表達(dá)情感明顯等特點(diǎn),傳統(tǒng)數(shù)據(jù)挖掘方法作用有限,對(duì)其進(jìn)行情感分析能取得較好的分析效果??紤]到一般情感分析方法的不足,本文采用共詞聚類(lèi)和基于句法分析的情感詞極性傳遞法進(jìn)行分析。首先,對(duì)收集的評(píng)論數(shù)據(jù)分詞處理,構(gòu)建語(yǔ)義共詞矩陣。其次,應(yīng)用分析軟件對(duì)其進(jìn)行共詞聚類(lèi),定量分析用戶(hù)關(guān)注的產(chǎn)品維度。再根據(jù)聚類(lèi)結(jié)果人工構(gòu)建分類(lèi)詞表、情感詞表和情感強(qiáng)度詞表。最后,將評(píng)論進(jìn)行句法分析,按照句法結(jié)構(gòu)進(jìn)行主題詞極性值計(jì)算,最終得到產(chǎn)品各維度情感分析的結(jié)果。本文提出的方法在一定程度上實(shí)現(xiàn)了對(duì)評(píng)論信息的處理,但還存在不足。比如,分類(lèi)詞表的構(gòu)建需人工參與,且僅從聚類(lèi)分析中提取主題詞遠(yuǎn)遠(yuǎn)不夠;網(wǎng)絡(luò)上評(píng)論語(yǔ)句的用詞和結(jié)構(gòu)不規(guī)范,中文表達(dá)方式較含蓄,文中總結(jié)的句子結(jié)構(gòu)特征不完全,主題詞極性值計(jì)算規(guī)則有待完善。

        【參考文獻(xiàn)】

        [1]楊玉珍.基于Web評(píng)論信息的傾向性分析關(guān)鍵技術(shù)研究[D].山東,山東師范大學(xué)博士論文,2014.

        [2]唐曉波.基于情感分析的評(píng)論挖掘模型研究[J].中文信息學(xué)報(bào).2013.36(7):100-105.

        [3]王祖輝,姜維,李一軍.在線(xiàn)評(píng)論情感分析中固定搭配特征提取方法研究[J].管理工程學(xué)報(bào).2014.28(4)∶180-186.

        [4]余文喆.電子商務(wù)中的商品推薦系統(tǒng)[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版).2013.(3)∶46-53.

        [5]龐海杰.面向文本情感分析的商品評(píng)價(jià)信息檢測(cè)[J].計(jì)算機(jī)應(yīng)用.2012.32(7)∶2038-2040.

        [6]周民.基于商品特征的商品評(píng)論信息挖掘方法[J].計(jì)算機(jī)與現(xiàn)代化.2014(6)∶98-105

        黃秋義,女,本科,信息管理與信息系統(tǒng)專(zhuān)業(yè);

        丁婷婷,女,本科,信息管理與信息系統(tǒng)專(zhuān)業(yè);

        楊帆,女,實(shí)驗(yàn)師,碩士研究生,研究方向:數(shù)據(jù)挖掘。

        基金項(xiàng)目:浙江傳媒學(xué)院創(chuàng)新基金立項(xiàng)項(xiàng)目。

        【作者簡(jiǎn)介】

        猜你喜歡
        傾向性文本情感
        基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
        “沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
        国产AV国片精品有毛| 在教室伦流澡到高潮hgl动漫| 亚洲av噜噜狠狠蜜桃| 久久国产精品超级碰碰热| 亚洲va欧美va人人爽夜夜嗨| 99综合精品久久| 丁香九月综合激情| 东京热日本道免费高清| 成a人片亚洲日本久久| 国产女主播福利一区二区 | 女同一区二区三区在线观看| 日韩少妇人妻精品中文字幕| 手机久草视频福利在线观看 | 国产午夜精品一区二区| 窝窝午夜看片| 欧美成人一区二区三区在线观看| 女同久久精品国产99国产精品| 人妻少妇精品无码系列| 亚洲精品国产主播一区二区 | 色爱无码av综合区| 国产高潮刺激叫喊视频| 无码av免费一区二区三区试看| 蜜臀久久99精品久久久久久小说| 国产成人无码精品午夜福利a | 丰满少妇又爽又紧又丰满动态视频 | 99久久久无码国产精品秋霞网| 亚洲av久久久噜噜噜噜| a级毛片免费完整视频| 天堂а√在线中文在线新版| 国产自产c区| 亚洲av永久无码精品成人| av网址大全在线播放| 一区二区三区日本久久| 亚洲精品一区二区成人精品网站| 精品一区二区三区婷婷| 亚洲日韩欧美一区、二区| 无码一区二区三区亚洲人妻| 午夜短视频日韩免费| 男人天堂av在线成人av| 偷拍女厕尿尿在线免费看| 日本女优激情四射中文字幕|