亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于商品評論文本的情感分析研究

        2018-07-12 13:23:42陶莉娜李超萍李健高榮
        現代信息科技 2018年4期
        關鍵詞:情感分析數據挖掘

        陶莉娜 李超萍 李健 高榮

        摘 要:隨著互聯網絡科技的迅速發(fā)展,越來越多的用戶開始網上購物,網絡中的商品評論數據也隨之增加。如何在大量的評論數據中提取有用的信息,使數據價值最大化是值得重視的問題。本文針對京東網站商品的評論數據進行了情感分析,從中提取有用的信息,幫助商家了解消費者的需求,發(fā)現商品的不足之處,并制定改進方案,以提高商品的競爭力。

        關鍵詞:數據挖掘;商品評論;情感分析

        中圖分類號:TP391.1 文獻標識碼:A 文章編號:2096-4706(2018)04-0019-03

        Abstract:With the rapid development of internet technology,more and more users have begun to shop online,and the product review data on the internet has also increased. However,how to extract useful information from a large amount of review data and maximize the value of data is a problem worthy of attention. This article analyzes the sentiment data of JD.com website products,provides useful information to help businesses understand the needs of consumers,discovers the inadequacies of products,and formulates improvement programs to improve the competitiveness of products.

        Keywords:data mining;commodity reviews;sentiment analysis

        1 主要技術實現

        1.1 網絡爬蟲

        網絡的迅速發(fā)展使互聯網成為大量信息的載體,有效地提取并利用這些信息對我們來說是一個很大的挑戰(zhàn)。為了快速的提取有用信息,我們采取網絡爬蟲技術,它的好處是獲取成本小,可以將網頁上的內容按照一定的格式規(guī)范進行有針對性地獲取。

        1.2 基于文本情感分析

        文本的情感分析是指利用計算機語言、自然語言處理和文本挖掘來辨別文本主觀情感信息的一種手段。一般來說,情感分析是對說話者當時的言語評論或建議的一個情感狀況辨析。其研究內容包括非結構化文本的分詞、情感傾向性分類和情感強度等,它涉及到自然語言處理、文本分詞、機器學習等多個研究領域。本文的研究重點是對商品評論文本所表達的正向或負向情感進行分類[1]。

        根據情感分析可明顯發(fā)現商品的某些不足之處,對應地采取有效措施提高商品質量,比如采集的榨汁機評論信息,從多數評論中可以看出,用戶對榨汁機的噪音大表現出不滿意,那么產品的生產廠家可做出針對性地改進,以贏得更多客戶的信賴,提高商家形象,可更好地維護與客戶之間的關系[2]。

        1.3 評論挖掘算法

        Apriori算法能夠快速處理數據,并能進行商品價格對用戶行為等的預測。Apriori算法是一種挖掘關聯規(guī)則的頻繁項集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集。

        它是Agrawal[3]等設計的一個基本算法,采用兩階段的思想,并且基于多次掃描事務庫來執(zhí)行。我們運用的是Apriori算法的改良版,即FP Tree算法。FP Tree算法改進了Apriori算法的I/O瓶頸,巧妙地利用了樹結構,提高了算法運行速度。

        2 基于京東網站評論的情感分析

        2.1 數據準備

        利用Python語言編寫的數據抓取程序具有高效率的特點,此次研究使用python語言編寫程序,爬取京東每類排名前六的商品的評論,保存進數據庫作為數據原料庫。

        其中用到Python的一個庫Beautiful Soup,它在用戶爬取網頁信息的時候具有高效的網頁解析效率,能快速從網頁中抓取數據,同時使用多線程來處理網絡請求,加快數據的爬取速度,這樣的開發(fā)方式的優(yōu)點是不但使數據采集系統(tǒng)在大數據量傳輸時的速度有明顯提高,而且該系統(tǒng)的性能也得到了顯著的提升[4]。本系統(tǒng)數據爬取流程圖如圖1所示。

        圖1 數據采集流程

        2.2 數據的采集過程

        數據采集過程主要利用網絡爬蟲技術。使用Python語言來實現數據采集,在爬蟲中使用相應的庫,如request、re、bs4等。數據采集過程為通過獲取目標網頁鏈接,再利用XPath和CSS Selector匹配相應標簽,從而獲取相應的評論信息。但由于數據的龐大,單線程模式無法滿足所需的爬取速度,所以采取多線程模式來爬取商品評論信息,提高爬蟲的整體運行效率。

        利用數據采集程序爬取京東某品牌榨汁機商品的部分評論信息樣例如表1所示。

        2.3 數據預處理

        2.3.1 規(guī)范數據

        以京東獲取的商品評論作為數據分析庫。但評論信息的隨意性很容易造成數據的噪音。比如現在的網絡用語、錯別字、詞不對意等。這些噪音很容易給情感分析造成一定的影響。所以對商品的評論信息做預處理十分重要。預處理要把一些錯意句、網絡用語和錯別字等用規(guī)范的語言修改,最終得到語法與表達規(guī)范的評論。網絡用語通過在自定義字典的添加,可以在分詞時分析出情感值。

        數據處理中采用結巴分析算法,主要原因是它處理速度快,分詞準確,并帶有新詞發(fā)現功能。結巴分詞中提供的詞性(part-of-speech)是詞匯基本的語法范疇,主要用來描述一個詞在上下文的作用。然后利用Aprior算法,計算商品的屬性值。該算法應用廣泛,可用于分析消費市場商品的價格,得出商品的情感值等數據,如表2所示,表中數據為不同品牌的榨汁機、熱水器商品的屬性值。

        2.3.2 計算情感值

        根據運行的結果可以得到三方面的信息:首先我們可以根據情感值來了解用戶對商品的喜愛程度;其次,可根據情感值的平均值來推測出該商品的總評價趨向;最后,可根據情感值的大小繪制每類特征的情感的波動情況。根據情感值的正負,我們將評價粗略地分成正面評價、中性評價和負面評價。從結果集里選出感情值較為平穩(wěn)的,看出對該商品的喜愛程度達到70%-80%,可根據其情感區(qū)間為負數的商品的不足進行改進。比如,該商品是榨汁機,負面評論大多數為“噪音大”,商家據此改進榨汁機的噪音,改進不足。通過數據分析,得出商品的情感值,圖2為針對某品牌榨汁機噪音小的情感值分布。

        3 結 論

        本文以京東網為例,研究了如何對產品評論進行情感分析,并闡述了結果對實際的指導意義。本文對評論信息的抽樣數據進行的情感分析結果顯示,以“榨汁機”為例,該款榨汁機噪音大等特征方面的情感值的負面情緒較為明顯,說明消費者對于這部分的評價總體來看是不滿意的,生產者需要對此引起足夠的重視,對產品的不足之處進行改進,以滿足客戶的需求,留住這些表現為負面情緒的用戶,從而提升企業(yè)競爭力。在競爭激烈的當前社會,企業(yè)的響應速度往往決定了企業(yè)的未來,根據產品評論信息對商品做出及時反饋的速度大大高于傳統(tǒng)的人工方式,也比較準確。本文使用的方式將會得到廣泛的應用。

        參考文獻:

        [1] 張衛(wèi).互聯網商品評論情感分析研究 [D].重慶:重慶大學,2016.

        [2] 馬妍.商品評論情感分析系統(tǒng)的設計與實現 [D].北京:北京交通大學,2015.

        [3] Agrawal R,Srikant R. Fast algorithms for mining association rules [A]. In:Proceedings of the 20th International Conference Very Large Data Base,Santiago,Chile,1994:487-499.

        [4] 李弈星.多線程技術的優(yōu)勢及其在測控系統(tǒng)中的應用 [J].技術與市場,2016,23(11):92.

        作者簡介:陶莉娜(1997.04-),女,廣西桂林人,本科。研究方向:數據采集與分析;李超萍(1997.06-),女,廣西來賓人,本科。研究方向:數據采集與分析;李健(1998.05-),男,廣西柳州人,本科。研究方向:數據采集與分析;通訊作者:高榮(1979.02-),男,山東濰坊人,講師。研究方向:數據挖掘。

        猜你喜歡
        情感分析數據挖掘
        探討人工智能與數據挖掘發(fā)展趨勢
        基于并行計算的大數據挖掘在電網中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于語義的互聯網醫(yī)院評論文本情感分析及應用
        基于雙向循環(huán)神經網絡的評價對象抽取研究
        基于SVM的產品評論情感分析系統(tǒng)的設計與實現
        基于詞典與機器學習的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預測(2016年5期)2016-12-26 17:16:57
        數據挖掘技術在中醫(yī)診療數據分析中的應用
        文本觀點挖掘和情感分析的研究
        一種基于Hadoop的大數據挖掘云服務及應用
        性感人妻一区二区三区| 一二三四在线观看免费视频| 国产成+人+综合+亚洲 欧美| 亚洲乱精品中文字字幕| 视频女同久久久一区二区| 久久96国产精品久久久| 亚洲av无码乱码国产精品fc2| 亚洲片在线视频| 亚洲一区二区三区在线最新| 成 人 免 费 黄 色| 76少妇精品导航| 伊人色综合九久久天天蜜桃 | 亚洲美女啪啪| 日本成人在线不卡一区二区三区| 淫片一区二区三区av| 无码少妇一区二区性色av| 欧美日韩亚洲国产千人斩| 国产精品污一区二区三区在线观看 | 在教室轮流澡到高潮h免费视| 亚洲av无码乱码在线观看裸奔| 亚洲图区欧美| 天堂a版一区二区av| 综合国产婷婷精品久久99之一| 国产精品免费观看久久| 精品综合久久久久久8888| 中文字幕有码久久高清| 一本色道久久综合狠狠躁篇| 四虎成人精品无码永久在线| 日本第一区二区三区视频| 少妇一区二区三区久久| 精品深夜av无码一区二区老年| 国产一区二区精品久久凹凸| 蜜桃成熟时日本一区二区| 欧美成人看片一区二区三区尤物 | 日本中文字幕人妻精品| 人人超碰人人爱超碰国产| 亚洲巨乳自拍在线视频| 亚洲精品国产精品av| 国产乱理伦在线观看美腿丝袜| 88久久精品无码一区二区毛片| 久久国产乱子精品免费女|