亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電商產(chǎn)品評論數(shù)據(jù)的情感分析

        2020-02-03 05:48:12張美頎
        電子技術(shù)與軟件工程 2020年11期
        關(guān)鍵詞:數(shù)據(jù)挖掘文本情感

        張美頎

        (沈陽化工大學(xué) 遼寧省沈陽市 110142)

        互聯(lián)網(wǎng)行業(yè)的高速發(fā)展,帶來的是人們越來越喜歡在網(wǎng)絡(luò)上公開分享自己對某一事物的看法或情緒,因此微博、商品評論、電影評論等文本信息大量出現(xiàn)。利用信息,并深入的挖掘和分析,可以為消費(fèi)者和企業(yè)提供相關(guān)的參照依據(jù),為提高產(chǎn)品的服務(wù)與質(zhì)量提供了數(shù)據(jù)依據(jù),也可以為政府提供輿情監(jiān)測和分析。由于網(wǎng)絡(luò)上的文本信息量過于龐大,光靠人力是不能夠解決問題的,這時(shí)就需要運(yùn)用當(dāng)今的信息技術(shù)。利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù)對網(wǎng)絡(luò)上大量的文本評論進(jìn)行處理,然后分析其表達(dá)的情感傾向,這就是情感分析。主要的工作有抽取評價(jià)對象與短語以及搭配關(guān)系。

        1 確定評論分析目標(biāo)

        首先通過爬蟲技術(shù)從京東商城上爬取了“西門子”品牌冰箱的用戶評論數(shù)據(jù),并根據(jù)評論數(shù)據(jù)集建立基于商品評論數(shù)據(jù)的情感分析數(shù)據(jù)挖掘模型,需要進(jìn)行數(shù)據(jù)挖掘建模的目標(biāo)如下:

        (1)根據(jù)評論數(shù)據(jù)分析出“西門子”冰箱用戶使用后的情感傾向;

        (2)根據(jù)所爬取的評論數(shù)據(jù)挖掘出“西門子”冰箱所具有的優(yōu)缺點(diǎn);

        (3)根據(jù)對“西門子”品牌冰箱的評論分析,提煉出其它品牌冰箱的賣點(diǎn)。

        2 商品評論分析的方法和過程

        本文結(jié)合從京東商城上以爬蟲技術(shù)爬取的“西門子”冰箱的用戶評論數(shù)據(jù)為基礎(chǔ)建立模型,分別從數(shù)據(jù)抽取、數(shù)據(jù)探索與預(yù)處理、建模&診斷、結(jié)果&反饋等幾個方面對商品評論數(shù)據(jù)進(jìn)行分析,然后通過建立以為語義網(wǎng)絡(luò)或LDA算法為基礎(chǔ)的數(shù)據(jù)挖掘模型[3],分析出評論數(shù)據(jù)情感傾向的分類問題以及其深層次的隱藏含義。分析的流程圖如圖1 所示。

        3 數(shù)據(jù)預(yù)處理

        根據(jù)圖1 中商品評論數(shù)據(jù)挖掘分析流程圖可知,數(shù)據(jù)預(yù)處理可分為以下3 個部分,分別為:文本去重復(fù)、壓縮去詞、刪除短句。

        3.1 商品評論數(shù)據(jù)文本去重復(fù)

        此步驟的目的主要是為了去除商品評論數(shù)據(jù)中的重復(fù)部分,這樣可以起到去除無用評論和重復(fù)評論的目的。一般的文本去重算法的主要思想是利用算法分析文本之間的相似程度,然后根據(jù)相似程度的深淺進(jìn)行文本去重。這類算法包括Simhash 算法、距離去重等。其中距離去重算法是通過計(jì)算兩條不同語句間的編輯距離,然后分別對其計(jì)算得到的距離閾值進(jìn)行判斷,如果計(jì)算得到的編輯距離與閾值之差為負(fù)數(shù),那么將進(jìn)行去重處理。但是當(dāng)遇到所要表達(dá)意思相近的語句時(shí),該語句也可能因?yàn)槿ブ厮惴ǘ粍h點(diǎn),這樣就會導(dǎo)致錯刪的情況出現(xiàn)。為了避免錯刪,這里我們采用較為簡單的去重思路,那就是只對完全重復(fù)的語句進(jìn)行去重。

        圖1:商品評論數(shù)據(jù)挖掘分析流程圖

        圖2:CBOW 模型

        圖3:Skip-gram 模型

        圖4:LDA 生成模型

        表1:數(shù)據(jù)集描述

        3.2 機(jī)械壓縮和短句刪除

        雖然進(jìn)行了文本去重,但是遠(yuǎn)未達(dá)到數(shù)據(jù)清洗的目的,因?yàn)楝F(xiàn)實(shí)中有一些評論數(shù)據(jù)中含有一些連續(xù)重復(fù)的語句,而這些語句并沒有什么實(shí)際的意義,所以需要對其進(jìn)行壓縮,以去掉一些不必要的表達(dá),東西好用好用好用,只需要壓縮為東西好用即可。短句刪除的思想來自于,當(dāng)機(jī)械壓縮完成去詞處理后,應(yīng)該將過短的句子進(jìn)行刪除。

        3.2.1 壓縮去重復(fù)詞

        機(jī)械壓縮可以去除語句中重復(fù)的詞語,在一般的評論中時(shí)常會出現(xiàn)一些連續(xù)重復(fù)的開頭和結(jié)尾,因此我們只需要對文本的開頭和結(jié)尾進(jìn)行處理即可。例如:“安裝費(fèi)怎么這么這么這么貴”。壓縮去重也有其規(guī)則,我們可以通過建立兩個字符列表來完成,當(dāng)讀取到重復(fù)詞后,先將重復(fù)詞放置在第一個列表中,再將下一個重復(fù)詞放置到第二個列表中,以此類推讀取重復(fù)字符,當(dāng)情況不同時(shí)觸發(fā)相應(yīng)的詞語壓縮準(zhǔn)則,如果再次出現(xiàn)與列表1 和列表2 完全相同的次則對其進(jìn)行壓縮。根據(jù)以上詞語壓縮規(guī)則,既可以對開頭或結(jié)尾重復(fù)的語句進(jìn)行壓縮處理,這樣即可得到較為精煉的語句。

        3.2.2 刪除較短的評論

        對短句進(jìn)行刪除就是通過設(shè)置評論字?jǐn)?shù)的最小限制,當(dāng)評論語句字?jǐn)?shù)小于此最低門限字?jǐn)?shù)限制時(shí)即對其進(jìn)行刪除。

        4 商品評論情感分析數(shù)據(jù)挖掘建模

        4.1 結(jié)合情感傾向建立模型

        首先對現(xiàn)有文本進(jìn)行訓(xùn)練,得到相應(yīng)的詞向量,這樣就可以將文本符號數(shù)學(xué)化[4],使文本情感分析的問題轉(zhuǎn)化成了一個深度學(xué)習(xí)的問題。通常用獨(dú)熱編碼、分布式表示來表示詞向量,例如word2vec 模型就是一個分布式表示方法[5]。Word2vec 的核心思想是通過詞的上下文得到詞的向量化表示,利用深度學(xué)習(xí)的思想,將對文本內(nèi)容的處理,用向量運(yùn)算表示,即文本語義上的相似度可以用得到的向量空間上的相似度來表示。Word2vec 包含兩種框架:

        (1)CBOW(通過附近詞預(yù)測中心詞),本文使用CBOW 框架,結(jié)構(gòu)如圖2 所示。

        (2)Skip-gram(通過中心詞預(yù)測附近詞)結(jié)構(gòu)如圖3 所示。

        4.2 人工標(biāo)注數(shù)據(jù)集

        在通過詞向量構(gòu)建得到相應(yīng)結(jié)果后,還需對商品評論文本數(shù)據(jù)的子集進(jìn)行人工標(biāo)注,如果是對商品進(jìn)行正面積極的評論,那么此評論被標(biāo)記為1,反之,若此評論語句是對商品進(jìn)行反面消極的評論,那么此評論則會被標(biāo)記為-1。評論與向量是一一映射的關(guān)系,將語句中所有分詞的詞向量相加之后取平均值,最終得到的詞向量的情感傾向值可以判定為評論的情感傾向[6]。

        4.3 基于LDA算法模型對文本主題進(jìn)行分析

        如果從統(tǒng)計(jì)學(xué)的觀點(diǎn)出發(fā),我們將文本中的主題詞和特征詞進(jìn)行統(tǒng)計(jì),并對其出現(xiàn)的頻率進(jìn)行量化。在本文中,運(yùn)用LDA 算法模型,可以挖掘到更多不同品牌評論中的深層信息。在機(jī)器學(xué)習(xí)和自然語言處理中,LDA算法模型常被用來統(tǒng)計(jì)一些抽象的統(tǒng)計(jì)模型。LDA 算法是一種無監(jiān)督深度學(xué)習(xí)算法。LDA 模型是一種生成模型,如圖4 所示。

        LDA 算法模型也叫層貝葉斯概率模型,將文本分為了文檔、語句、詞語的層次結(jié)構(gòu),可以有效的建立起相應(yīng)的文本概率分析模型。根據(jù)LDA 算法模型[7]的分析,能夠從文本中挖掘到其潛在的主題,進(jìn)而能夠重點(diǎn)關(guān)注文本中的特征詞,精確的把控住文本的大概含義。LDA 模型的生成過程是:先確定一篇文檔D,文檔和主題、主題和詞匯表中的詞分別滿足兩個帶有超參數(shù)α 和β 的多項(xiàng)式分布。θ 代表文檔的主題分布,ψ 代表詞分布,其過程就是從θ 中抽取主題,再從其對應(yīng)的ψ 中抽取一個詞,進(jìn)行N 次上述操作后得到文檔。這樣,就可以把抽象的文本信息轉(zhuǎn)化成能夠建立相關(guān)數(shù)學(xué)模型的數(shù)字信息[8]。其概率模型公式如公式(1)所示。

        5 實(shí)驗(yàn)與結(jié)論

        本文采用的數(shù)據(jù)是從京東商城上爬取下來的用戶購買使用后對于西門子冰箱的評論數(shù)據(jù),約15000 條,主要信息包括用戶信息,冰箱信息以及文字信息。其中用戶信息包括用戶的名稱、等級;冰箱信息包括外觀外形、制冷效果、保鮮效果、容量大小、噪音大小等;文字信息包括評論者、使用反饋、物品評分、純文字等,表1 是數(shù)據(jù)的描述。

        在數(shù)據(jù)挖掘、文本聚類等方面,LDA 算法模型被廣泛的應(yīng)用[9]。相比于其它的文本情感分析神經(jīng)網(wǎng)絡(luò)模型,它引入了狄利克萊函數(shù)的先驗(yàn)概率信息,因此在文本情感分析過程中,該模型有較強(qiáng)的泛化能力,很少產(chǎn)生過擬合。并且該方法是一種無監(jiān)督的深度學(xué)習(xí)方法,在只要提供預(yù)料數(shù)據(jù)集的情況下,就可以自動分析并訓(xùn)練出情感文本[10]的各種情感傾向概率。此算法對于電商評論的情感分析能起到較好的作用。

        猜你喜歡
        數(shù)據(jù)挖掘文本情感
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        如何在情感中自我成長,保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        朝鲜女子内射杂交bbw| 日韩一区二区三区人妻免费观看| 精选二区在线观看视频| 亚洲捆绑女优一区二区三区| 蜜桃视频一区二区在线观看| 一本色道久久99一综合| a一区二区三区乱码在线 | 欧洲| 一区二区三区国产美女在线播放| 国产91精品自拍视频| 成人久久黑人中出内射青草| 99久久人妻无码精品系列| 夜夜未满十八勿进的爽爽影院| 欧美成人在线A免费观看 | 69久久精品亚洲一区二区| 精品厕所偷拍一区二区视频| 国产成人精品综合在线观看| 亚洲 国产 哟| 日本高清在线一区二区三区| 国产人妖乱国产精品人妖| 色一情一乱一伦| 越南女子杂交内射bbwbbw| 在线观看av国产自拍| 亚洲av男人的天堂在线| 成人a级视频在线播放| 无码一区二区三区在线| 久久99精品久久久久久野外| 国产内射视频在线播放| 自由成熟女性性毛茸茸应用特色 | 亚洲av无码精品色午夜蛋壳| 国产超碰人人一区二区三区| 国产精品又湿又黄九九九久久嫩草| 亚洲av中文无码乱人伦在线观看| 亚洲乱亚洲乱妇| 这里只有久久精品| 在线偷窥制服另类| 久久精品国产69国产精品亚洲| 在线观看视频播放| 激情五月婷婷综合| 国产一区二区av在线观看| 欧美亚洲一区二区三区| 国产suv精品一区二区883|