亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)互聯(lián)網(wǎng)電商評(píng)論特征詞典的輿情觀點(diǎn)分類

        2017-05-24 10:39:33房滿林董超俊
        科技創(chuàng)新與應(yīng)用 2017年13期
        關(guān)鍵詞:互信息特征提取

        房滿林+董超俊

        摘 要:電商評(píng)論數(shù)據(jù)往往都是以短文本(在電商領(lǐng)域這種用戶的聲音稱為源聲)形式存在,它在一定程度上會(huì)影響商家的知名度,因此對(duì)源聲的輿情分析尤為重要。源聲分類技術(shù)的出現(xiàn)正是為了滿足商家的這種需求,針對(duì)源聲特征稀疏以及觀點(diǎn)多樣性特征點(diǎn),而且輿情觀點(diǎn)錯(cuò)誤識(shí)別的問題,提出一種改進(jìn)互信息的方法實(shí)現(xiàn)特征約簡,從而創(chuàng)建一個(gè)特征詞典集合,對(duì)源聲進(jìn)行觀點(diǎn)分類,并作了大量實(shí)驗(yàn)驗(yàn)證該思想的可靠性。

        關(guān)鍵詞:特征提取;源聲;詞典集合;互信息

        引言

        本文將深入闡述在互聯(lián)網(wǎng)電商評(píng)論短文本信息分類領(lǐng)域的研究,構(gòu)建一個(gè)特征詞組-分類的map(k,v)集合,觀點(diǎn)是消費(fèi)者從自身立場出發(fā)對(duì)某產(chǎn)品的看法,由于產(chǎn)品領(lǐng)域的多樣性,產(chǎn)品各個(gè)領(lǐng)域都會(huì)成為評(píng)價(jià)的對(duì)象,因此同一條源聲會(huì)有多個(gè)觀點(diǎn),可以將源聲以分隔符進(jìn)行拆分,短文本通過分隔符由內(nèi)向外并行分類方法,從而避免錯(cuò)誤輸出,并針對(duì)此多分類問題,構(gòu)建多映射的hash map集合。

        1 短文本結(jié)構(gòu)

        1.1 源聲組成

        在對(duì)源聲觀點(diǎn)識(shí)別時(shí)常常將源聲拆分3種布局方式:“產(chǎn)品”+“評(píng)價(jià)”的形式;“領(lǐng)域”+“評(píng)價(jià)”的形式被稱為二元觀點(diǎn);“產(chǎn)品”+“領(lǐng)域”+“評(píng)價(jià)”被稱為三元觀點(diǎn)。拆分示意圖如下所示:

        1.2 源聲觀點(diǎn)輸出

        VR眼睛這款產(chǎn)品涉及的領(lǐng)域細(xì)分有85種。進(jìn)行源聲分類時(shí),如上述源聲特征“很差”和“外觀”兩個(gè)特征項(xiàng)構(gòu)成的單詞序列連續(xù)出現(xiàn)時(shí),機(jī)器很容易理解成“很差的外觀”,造成分類觀點(diǎn)錯(cuò)誤的輸出。對(duì)于源聲“VR眼鏡體驗(yàn)效果真心很差,可是外觀確實(shí)漂亮”,很容易錯(cuò)誤輸出觀點(diǎn)如圖2所示:

        2 特征選擇與特征約簡

        特征選擇是在不丟失文本信息的情況下保留那些最能夠代表文檔類別的特征,往往對(duì)電商評(píng)論數(shù)據(jù)進(jìn)行觀點(diǎn)分類時(shí),起關(guān)鍵作用的不到3個(gè)關(guān)鍵詞,本文提出一種改進(jìn)互信息方法提取組成源聲文本的前3個(gè)強(qiáng)相關(guān)特征分別代表“領(lǐng)域”“前綴否定”“評(píng)價(jià)”。這樣可以提高文本分類精度同時(shí)減輕計(jì)算量和內(nèi)存的消耗。在構(gòu)建類標(biāo)簽特征詞典時(shí),本文提出一種改進(jìn)互信息方法對(duì)源聲文本進(jìn)行特征提取。

        2.1 特征選擇

        特征詞和類別的互信息可表示為特征詞和類別同時(shí)出現(xiàn)的概率與特征詞和類別各自分別出現(xiàn)的概率的比值取對(duì)數(shù),主題詞和類別的互信息可表示為主題詞和類別共同出現(xiàn)的頻率與特征詞和類別各自分別出現(xiàn)的頻率的比值取對(duì)數(shù)[1],計(jì)算公式:

        p(wr)表示主題詞出現(xiàn)的頻率,p(ck)表示類別出現(xiàn)的頻率,p(wr,ck)表示主題詞wr與類別ck共同出現(xiàn)的頻率[2]。

        2.2 特征約簡

        本文提出一種在給定類標(biāo)簽條件下兩兩不相關(guān)特征詞之間的改進(jìn)MI的計(jì)算方式:

        (2)

        (3)

        式中wd代表領(lǐng)域詞,wp代表前綴否定、we代表樣本的評(píng)價(jià)特征詞,p(wd,we)表示代表源聲文本觀點(diǎn)的“領(lǐng)域”和“評(píng)價(jià)共同出現(xiàn)的概率”,p(wd|ci)和p(we|ci)分別代表在類標(biāo)簽ci條件下領(lǐng)域特征詞wd和評(píng)價(jià)詞we出現(xiàn)的概率。p(wd,wp,we)表示代表源聲文本觀點(diǎn)的3個(gè)特征詞“領(lǐng)域”“前綴否定”“評(píng)價(jià)”在該篇文本中共同出現(xiàn)的概率。

        3 改進(jìn)特征詞典構(gòu)建

        Bag of Words算法稱為詞袋模型,它首先假設(shè)組成文本的每個(gè)特征詞是相互獨(dú)立的,不關(guān)心每個(gè)特征詞出現(xiàn)的順序,將源聲當(dāng)做多個(gè)特征詞組成的集合[3]。由于源聲觀點(diǎn)的多樣性以及觀點(diǎn)的誤分性,利用Bag of Words容易產(chǎn)生錯(cuò)誤輸出。而map鍵值對(duì)特性易于理解方便存儲(chǔ),領(lǐng)域與評(píng)價(jià)強(qiáng)關(guān)聯(lián)的詞組組成一個(gè)map集合,即map(key,value),其中value表示對(duì)應(yīng)類標(biāo)簽,即value={v1,v2,…vn},其中v代表鍵值類標(biāo)簽。

        3.1 詞典訓(xùn)練階段

        對(duì)每一個(gè)類別構(gòu)建一個(gè)類別詞典,如輿情觀點(diǎn)分類是“外觀不好看”,則經(jīng)過特征篩選組成該類標(biāo)簽的詞典是dictionary1={“色澤”,“外觀”,“外表”,“沒有”,“不”,“好看”,“靚麗”,“上檔次”,“鮮艷”,“精美”},將源聲經(jīng)過特征提取后經(jīng)過每個(gè)類標(biāo)簽匹配,若出現(xiàn)該特征詞用“1”表示,否則用“0”表示,對(duì)于有些源聲多個(gè)類別,對(duì)每個(gè)鍵值使用hash函數(shù),采用鏈?zhǔn)酱鎯?chǔ)法進(jìn)行存儲(chǔ)。舉例:源聲“這款VR外觀不太好看”,根據(jù)dictionary1匹配到當(dāng)前類別向量是Vector=[0,1,0,0,1,1,0,0,0,0],將匹配到的向量作為map集合的key值存儲(chǔ)[4]。

        3.2 分類階段

        訓(xùn)練好的詞典存儲(chǔ)在HDFS分布式文件集群上,對(duì)每個(gè)文件分配一個(gè)Reduce作業(yè),以測試樣本為輸入,每條樣本分詞后與詞典集合進(jìn)行匹配,采用分布式可對(duì)多個(gè)樣本集進(jìn)行并行的測試[5]。

        3.3 算法偽代碼(見圖3)

        4 實(shí)驗(yàn)

        訓(xùn)練樣本數(shù)據(jù)集和測試樣本數(shù)據(jù)集是在各大電商網(wǎng)站等渠道經(jīng)過爬蟲抓取的VR眼鏡數(shù)據(jù)集,主要包含從互聯(lián)網(wǎng)電商上抓取評(píng)論數(shù)據(jù),在源聲去噪后,提取對(duì)訓(xùn)練樣本庫有效的源聲信息,最后根據(jù)人工判讀來確認(rèn)源聲樣本庫的分類標(biāo)簽。

        本文同樣使用覆蓋率,準(zhǔn)確率,其中準(zhǔn)確率和覆蓋率分別定義了兩個(gè)不同側(cè)重點(diǎn)的分類精度,準(zhǔn)確率代表組合分類器正確輸出的源聲觀點(diǎn)與已知組合模型輸出的比值,覆蓋率代表所有實(shí)際屬于該類的源聲中,有多大比率被組合模型準(zhǔn)確分到這個(gè)類中。為避免出現(xiàn)查全率或查準(zhǔn)率其中一端為1而另一端為0的極端情況出現(xiàn),本文運(yùn)用了F1測度值對(duì)模型精度的整體評(píng)價(jià)[6],公式如下:

        (6)

        將采集到16400條的電商數(shù)據(jù)集按照3:1比例作為訓(xùn)練樣本和測試樣本,模型觀點(diǎn)輸出的結(jié)果文件以.csv文件存儲(chǔ),匯總輸出觀點(diǎn)量化指標(biāo)。表1給出了訓(xùn)練樣本經(jīng)過map特征詞典集合觀點(diǎn)輸出匯總結(jié)果:

        表2給出了測試樣本經(jīng)過map特征詞典集合觀點(diǎn)輸出匯總結(jié)果:

        5 結(jié)束語

        本文將爬取下來互聯(lián)網(wǎng)電商評(píng)論作為數(shù)據(jù)集,對(duì)這種短文本數(shù)據(jù)進(jìn)行觀點(diǎn)分類,主要工作有:針對(duì)觀點(diǎn)錯(cuò)誤分類的原因進(jìn)行了闡述;在處理源聲觀點(diǎn)分類時(shí),源聲數(shù)據(jù)首先經(jīng)過數(shù)據(jù)預(yù)處理,去除沒有觀點(diǎn)的噪聲數(shù)據(jù)并分析每條源聲X拆分后的形式;提出了一種改進(jìn)源聲特征選擇以及特征提取方法;構(gòu)建了文本特征詞典同時(shí)構(gòu)建n個(gè)map(k,v)分類集合用于與詞典匹配從而進(jìn)行分類。

        參考文獻(xiàn)

        [1]鄧彩鳳.中文源聲分類中MI特征選擇方法研究[D].成都:西南大學(xué),2011.

        [2]郭泗輝,樊興華.一種改進(jìn)的貝葉斯網(wǎng)絡(luò)短文本分類算法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,28(3):140-143.

        [3]Uijlings,J.R R,Smeulders,et al.Real-time bag of words,approximately[J].Proc.acm Int'l Conf.image&Video Retrieval,2009(3):375.

        [4]劉紅光,魏小敏.Bag of Words算法框架的研究[J].艦船電子工程,2011,31(9):125-128.

        [5]熊傳宇.基于Map-Reduce的海量數(shù)據(jù)約簡算法研究[D].武漢:武漢理工大學(xué),2013.

        [6]宋楓溪,高林.文本分類器性能評(píng)估指標(biāo)[J].計(jì)算機(jī)工程,2004,30(13):107-109.

        猜你喜歡
        互信息特征提取
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
        Bagging RCSP腦電特征提取算法
        采用目標(biāo)區(qū)域互信息的星空?qǐng)D像配準(zhǔn)
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        改進(jìn)的互信息最小化非線性盲源分離算法
        電測與儀表(2015年9期)2015-04-09 11:59:22
        基于增量式互信息的圖像快速匹配方法
        成年无码av片在线| 日产一区一区三区区别| 国产精品一区久久综合| 中国娇小与黑人巨大交| 国产成本人片无码免费2020| 久久夜色撩人精品国产小说| 级毛片无码av| 午夜一区二区三区福利视频| 99视频在线精品免费观看6| 最新精品国偷自产在线| 免费成人福利视频| 国产后入内射在线观看| 亚洲男人的天堂av一区| 小说区激情另类春色| 日本熟妇色xxxxx欧美老妇| 日本在线观看不卡| 高清少妇一区二区三区| 美女很黄很色国产av| 少妇被粗大的猛烈进出免费视频 | 福利一区二区三区视频在线| 人妻有码av中文幕久久| 色综合久久久无码中文字幕| 丰满熟女人妻中文字幕免费| 久久久久成人精品免费播放| 亚洲av成人波多野一区二区| 欧美午夜理伦三级在线观看| 一本一道av中文字幕无码| 国产亚洲欧洲AⅤ综合一区| 久久精品国产亚洲av成人网| 国产极品裸体av在线激情网| 国产精品第一国产精品| 99在线视频精品费观看视| 国产av熟女一区二区三区蜜臀 | 欧美日韩中文国产一区发布| 亚洲国产综合专区在线电影| 亚洲成在人线天堂网站| 人妻中文字幕乱人伦在线| 国产成人无码一区二区在线观看| 国产亚洲精品hd网站| 久久综合亚洲色社区| 国产精品久久夜伦鲁鲁|