亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于評(píng)論短句計(jì)算特征的觀點(diǎn)挖掘

        2017-10-16 10:06:28王倩樂(lè)山職業(yè)技術(shù)學(xué)院
        新商務(wù)周刊 2017年3期
        關(guān)鍵詞:短句副詞權(quán)重

        文/王倩,樂(lè)山職業(yè)技術(shù)學(xué)院

        基于評(píng)論短句計(jì)算特征的觀點(diǎn)挖掘

        文/王倩,樂(lè)山職業(yè)技術(shù)學(xué)院

        為提高產(chǎn)品評(píng)論挖掘的準(zhǔn)確率,本文通過(guò)計(jì)算細(xì)粒度屬性詞和程度副詞以及情感詞的詞匯的語(yǔ)義傾向度,設(shè)計(jì)了一種結(jié)合權(quán)重和評(píng)論短句計(jì)算特征的粗粒度情感傾向分析方法,由細(xì)粒度到粗粒度判定web評(píng)論的情感傾向性。本文設(shè)計(jì)了一種基于評(píng)論短句計(jì)算特征的情感分析方法,把結(jié)合屬性詞和副詞權(quán)重計(jì)算方法的結(jié)果進(jìn)行二次分類,結(jié)果表明相對(duì)于直接分類或細(xì)粒度的情感分析結(jié)果,本文設(shè)計(jì)的結(jié)合權(quán)重和評(píng)論短句計(jì)算特征的情感分析方法,分類效果有所提升。

        屬性提??;評(píng)論短句;觀點(diǎn)挖掘;語(yǔ)義傾向度

        引言

        隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的快速發(fā)展,國(guó)內(nèi)外電子商務(wù)公司也得到了迅猛發(fā)展,網(wǎng)絡(luò)購(gòu)物成為很多人購(gòu)物的重要方式。在實(shí)際應(yīng)用中,利用觀點(diǎn)挖掘技術(shù)能發(fā)現(xiàn)顧客的喜好及商品的不足之處,能夠使商家改善服務(wù)質(zhì)量,提高商品性能,并且其他用戶也可以根據(jù)分析結(jié)果進(jìn)行是否購(gòu)物的參考。在中文評(píng)論挖掘中,情感傾向分析一般有詞典方式和分類算法兩類。詞典方式是根據(jù)詞匯的語(yǔ)義傾向性加權(quán)擴(kuò)展到整句,在語(yǔ)義的基礎(chǔ)上研究;分類算法利用現(xiàn)成的工具提取特征,使用分類算法進(jìn)行分類?;谠~典的方法準(zhǔn)確率較高,但依賴性較高。而基于分類算法的普適性相對(duì)較好,缺點(diǎn)是在分類特征不明顯時(shí),容易造成誤判。單一采用上述的某一種算法的準(zhǔn)確率不高,因此結(jié)合兩種方法進(jìn)行分析,,即使用評(píng)論短句這個(gè)計(jì)算特征,送到分類器中進(jìn)行二次分類,提高判定結(jié)果的準(zhǔn)確率。而在這個(gè)過(guò)程中,基于詞典的情感分析方法通過(guò)對(duì)詞匯的極性和權(quán)重的計(jì)算,謀求整句的情感傾向。因此,研究的開(kāi)始,詞匯的極性和權(quán)重成為研究的重點(diǎn)。

        1 分析

        使用TF或者TF-IDF算法作為屬性詞權(quán)重的方法忽略了屬性詞與屬性詞之間對(duì)于用戶而言也存在著不同的重要程度,文獻(xiàn)[1]采用出現(xiàn)次數(shù)的比例作為屬性詞權(quán)重的方式簡(jiǎn)單易行,忽略了當(dāng)出現(xiàn)次數(shù)的比例較小時(shí),容易趨向于0而導(dǎo)致屬性詞之間的區(qū)分度不高。程度副詞的權(quán)重研究基本直接使用知網(wǎng)發(fā)布的情感詞集bata版中的副詞詞典,通過(guò)根據(jù)語(yǔ)感直接對(duì)其賦值的方式進(jìn)行。

        2 前期準(zhǔn)備

        評(píng)論是使用網(wǎng)絡(luò)爬蟲(chóng)下載的電商網(wǎng)站的評(píng)論,對(duì)評(píng)論進(jìn)行初步去噪。本節(jié)主要介紹算法的前期準(zhǔn)備工作,包含情感詞、屬性詞、評(píng)論短句提取過(guò)程,為算法的實(shí)現(xiàn)提供重要的基礎(chǔ)準(zhǔn)備過(guò)程。1、提取情感詞存入本地?cái)?shù)據(jù)庫(kù)中進(jìn)行處理,主要有以下3類:評(píng)價(jià)性的形容詞;情感動(dòng)詞;網(wǎng)絡(luò)新詞。2、屬性詞一般是名詞或名詞短語(yǔ),在提取候選屬性詞時(shí),對(duì)候選的屬性詞用頻數(shù)模型進(jìn)行篩選,出現(xiàn)的次數(shù)降次排列,濾除少于3次的名詞。將附近位置存在情感詞的屬性詞提取為候選屬性。實(shí)驗(yàn)表明窗口長(zhǎng)度閾值選為5。

        3 提取評(píng)論短句

        評(píng)論短句則指忽略次要因素,從紛雜的詞匯群中直接取出能夠明確表達(dá)評(píng)論者的情感傾向和主觀感受的句子。中文評(píng)論挖掘領(lǐng)域的研究者通過(guò)分析中文表達(dá)方式,從短語(yǔ)搭配的角度考慮提取過(guò)程。如侯敏等人[1]歸納總結(jié)出的普通詞和評(píng)價(jià)詞的組合搭配問(wèn)題,分析了評(píng)價(jià)詞語(yǔ)的情感傾向。林政等人[2]則考慮了句子的位置信息,將句子分為關(guān)鍵句和細(xì)節(jié)句,從他們的研究工作得到啟發(fā),結(jié)合商品評(píng)論的短文本分類的特點(diǎn),本文采用規(guī)則模板的方法提出評(píng)論短句。通過(guò)對(duì)評(píng)論句的詳細(xì)歸納和歸總,提取以下四種規(guī)則模板:

        (1)情感詞單獨(dú)成句、情感詞疊加

        模板的表達(dá)方式:sent,sent+sent;如“不錯(cuò)”、“小巧可愛(ài)”;

        (2)包含屬性詞、程度副詞及情感詞的規(guī)則模板

        模板的表達(dá)方式:feature+adverb+sentiment,adverb+senti?ment+feature;

        經(jīng)典的表達(dá)模式,涵蓋了描述對(duì)象、強(qiáng)度修飾、情感表達(dá)三個(gè)方面的內(nèi)容。如“外觀很漂亮”、“很不錯(cuò)的東西”等;

        (3)包含屬性詞、情感詞的規(guī)則模板

        模板的表達(dá)方式:feature+sentiment,sentiment+feature

        如“產(chǎn)品不錯(cuò)”、“粗糙的做工”等;

        (4)包含程度副詞和情感詞的規(guī)則模板

        模板的表達(dá)方式:adverb+sentiment,adverb+sentiment;

        常用的表達(dá)模式,涵蓋了強(qiáng)度修飾、情感表達(dá)的兩方面的內(nèi)容,盡管沒(méi)有直接出現(xiàn)屬性詞,隱含了描述的對(duì)象為產(chǎn)品本身,因此需要提取。例如“很喜愛(ài)”、“不好”等;以上四種規(guī)則模板表達(dá)方式可以提取八種表達(dá)方式,涵蓋了大部分的中文評(píng)論的表達(dá)方式,對(duì)于相對(duì)表達(dá)比較規(guī)范的商品評(píng)論而言,能夠提取大部分的中文表達(dá)。

        4 權(quán)重設(shè)置

        4.1 屬性詞權(quán)重設(shè)置

        屬性詞的權(quán)重設(shè)置主要解決分句的極性一正一反時(shí),情感極性的傾向值。如對(duì)于評(píng)論句“相機(jī)像素很差,但是價(jià)格很好”類型的句子,使用均一的權(quán)重衡量方式就不能正確的檢測(cè)出來(lái),判定的結(jié)果為0;本文設(shè)計(jì)的屬性方法可以判定出其極性傾向值。

        4.2 程度副詞權(quán)重設(shè)置

        本文在侯敏等人研究的基礎(chǔ)上進(jìn)行改進(jìn)。首先對(duì)知網(wǎng)情感詞典中的程度級(jí)別詞語(yǔ)進(jìn)行人工賦值,以此作為基準(zhǔn)副詞。對(duì)于給定副詞,作如下考慮:先查找基準(zhǔn)程度副詞表,若該副詞存在表中,直接取出其權(quán)重;若不存在,則使用語(yǔ)義相似度計(jì)算,先計(jì)算該副詞與全部基準(zhǔn)副詞的語(yǔ)義相似度,取計(jì)算的語(yǔ)義相似度值最高的10個(gè)值(Top10)的均值,作為該副詞的權(quán)重。

        4.3 評(píng)論短句極性計(jì)算

        根據(jù)我們?cè)诘?節(jié)的采取的規(guī)則模板方法提取出的評(píng)論短句,在數(shù)據(jù)庫(kù)中查詢各評(píng)論短句對(duì)應(yīng)的相關(guān)詞匯的權(quán)重,計(jì)算評(píng)論短句的極性,最后加權(quán)求和得到最后的整句的情感傾向,有以下規(guī)則:

        (1)如果是在評(píng)論短句之內(nèi)的,也就是處在同一個(gè)評(píng)論短句之內(nèi)的詞匯的權(quán)重值進(jìn)行加權(quán)乘積,如果在一個(gè)評(píng)論短句內(nèi)的詞語(yǔ)數(shù)為m個(gè),分別找出它們的權(quán)重值wt(wordj),進(jìn)行加權(quán)乘積:

        其中,word(j)指評(píng)論斷句中的第j個(gè)詞語(yǔ),j=1,2,3…,m;m指該評(píng)論短句中包含的詞語(yǔ)數(shù),wt(word(j))第j個(gè)詞語(yǔ)對(duì)應(yīng)的權(quán)重值。

        (2)由于在一個(gè)整句的評(píng)論句中,不止包含一個(gè)評(píng)論短句,設(shè)有n個(gè)評(píng)論短句,依照公式1分別求出每一個(gè)評(píng)論短句對(duì)應(yīng)的極性值,wt(fs)1、wt(fs)2…wt(fs)n,對(duì)這些評(píng)論短句加權(quán)求和,最終得到整句的情感傾向計(jì)算值Wt(sentence)為:

        其中,Wt(sentence)指整句的最終情感極性傾向值,n指一個(gè)整句中所有評(píng)論短句的個(gè)數(shù),wt(fs)i指第i個(gè)評(píng)論短句的情感傾向權(quán)重值,i=1,2,3…,n。

        5 利用fs計(jì)算特征的情感傾向分析

        5.1 分類器特征提取

        綜合以上分析以上算法的優(yōu)缺點(diǎn),算法在普適性、分類的準(zhǔn)確度方面有缺陷,且有人工參與,因此為了提高算法的普適性和分類的精度,減少人工干預(yù)度,從提取句子特征的角度對(duì)評(píng)論進(jìn)行傾向性分析。歸納出了三類特征,這三類特征的來(lái)源的示意圖如圖1所示。

        圖1 分類器特征來(lái)源示意圖

        5.2 結(jié)果分析

        5.2.1 數(shù)據(jù)集

        實(shí)驗(yàn)使用的數(shù)據(jù)集Dataset1是從本地已下載評(píng)論中隨機(jī)抽取的不同領(lǐng)域商品的評(píng)價(jià)信息,考慮了數(shù)據(jù)集的平衡性,各抽取正負(fù)極性的句子3016條,合計(jì)6132條。

        數(shù)據(jù)集二Dataset2是混合數(shù)據(jù)集,包含COAE中文傾向性評(píng)測(cè)公開(kāi)的微博的數(shù)據(jù)集和1000條電商網(wǎng)站的商品評(píng)論信息,共計(jì)3152條,混合數(shù)據(jù)集綜合考慮了微博類和電商網(wǎng)站的商品評(píng)論信息,相對(duì)單一考慮電商網(wǎng)站的商品評(píng)論信息而言,更具有代表意義。

        5.2.2 使用評(píng)論短句計(jì)算特征對(duì)結(jié)果的影響

        在Dataset 1和混合數(shù)據(jù)集Datase 2上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,將評(píng)論短句計(jì)算特征作為分類算法的特征送入分類器中,結(jié)果如表1所示:實(shí)驗(yàn)結(jié)果表明,加上fs計(jì)算特征后,在各分類算法上分類都有所提升,說(shuō)明我們提出的結(jié)合fs計(jì)算特征的有效性。

        表1 評(píng)論短句特征在Dataset2上的影響

        6 結(jié)論

        本文主要研究產(chǎn)品評(píng)論情感傾向的判定,為了提高分類的準(zhǔn)確率,本文中結(jié)合屬性詞和副詞權(quán)重的情感傾向分析方法的基礎(chǔ)上設(shè)計(jì)了一種利用評(píng)論短句計(jì)算特征的情感傾向分析方法,在不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,結(jié)果表明設(shè)計(jì)方法的有效性。本文設(shè)計(jì)情感傾向性分析方法仍然存在著不足之處,如在負(fù)面評(píng)價(jià)的判定上有著準(zhǔn)確度不高的問(wèn)題,規(guī)則模板提取評(píng)論短句的方法還存在著覆蓋不全的缺點(diǎn),對(duì)多極性的情感分析未能在其他數(shù)據(jù)集上進(jìn)行驗(yàn)證等等問(wèn)題,需要在未來(lái)的研究中進(jìn)一步改進(jìn)。

        [1]侯敏,滕永林,陳毓麒.評(píng)價(jià)短語(yǔ)的傾向性分析研究[J].中文信息學(xué)報(bào),2013,27(6):103-109.

        猜你喜歡
        短句副詞權(quán)重
        The Wheels on the Bus
        短句,讓表達(dá)更豐富
        十幾歲(2022年34期)2022-12-06 08:06:24
        副詞“好容易”及其詞匯化成因
        權(quán)重常思“浮名輕”
        短句—副詞+謂語(yǔ)
        短句—謂語(yǔ)+賓語(yǔ)
        為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
        基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
        副詞和副詞詞組
        層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
        河南科技(2014年15期)2014-02-27 14:12:51
        熟女熟妇伦av网站| 蜜桃在线播放免费一区二区三区| 91久国产在线观看| av网站免费观看入口| 久久中文字幕亚洲综合| 久久99国产精品久久99| 99偷拍视频精品一区二区| 日韩视频第二页| 国产高清黄色在线观看91| 丰满少妇一区二区三区专区| 国产在线视频一区二区三区| 国产免费人成视频在线| 久久狠狠色噜噜狠狠狠狠97| 48沈阳熟女高潮嗷嗷叫| av中文字幕不卡无码| 日本二区三区视频免费观看| 成人免费在线亚洲视频| 国产精品国产三级国av在线观看| 久久无码一二三四| 亚洲一区二区三区久久久| 色吧噜噜一区二区三区| 朝鲜女人大白屁股ass孕交 | 免费无码国产v片在线观看| 国产香蕉尹人综合在线观| 视频二区精品中文字幕| 日韩美女av一区二区三区四区| 丰满少妇被粗大猛烈进人高清| 亚洲gv白嫩小受在线观看| 开心激情站开心激情网六月婷婷 | 日韩人妻无码精品二专区| 久久久人妻丰满熟妇av蜜臀| 久久一区二区国产精品| 国产永久免费高清在线| 福利一区视频| 一道本中文字幕在线播放| 日韩免费视频| 插b内射18免费视频| 欧美婷婷六月丁香综合色| 久久无码高潮喷水抽搐| 九九久久精品国产免费av| 久久96国产精品久久久|