亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        運用NLP算法和BP神經網絡系統(tǒng)分析商品評論數據

        2020-09-03 02:26:02謝易宏
        無線互聯科技 2020年12期
        關鍵詞:文本情感分析

        謝易宏

        (上海師范大學,上海 200234)

        1 新技術應用的必要性

        隨著科技的發(fā)展,網購已經成為人們主流的購物方式之一,據聯合國貿易和發(fā)展會議(United Nations Conference on Trade and Development,UNCTAD)2019年3月29日發(fā)布的數據顯示,2017年全球電子商務(Electronic Commerce,EC)交易額比上年增加13%,達到29.367萬億美元。通過網購獨有的評級、評論、幫助性評級和評論時間等,來提出在線銷售戰(zhàn)略,確定潛在的重要設計特征,以增強產品的吸引力,成了公司線上銷售部所必須要解決的問題之一。

        自然語言處理在實體抽取,情感分析等任務上的準確度不斷提高[1],為精確處理評論數據提供了可能。通過對評論的關鍵詞提取以及情感分析,可以有效地從大量的評論數據中獲取有效信息,從而獲得對商品的有效反饋,可以針對性地改進產品質量,制定營銷策略。

        2 模型設計

        2.1 模型概覽

        模型首先通過爬蟲在電商平臺上獲取相應的評論數據,再利用自然語言處理工具(Natural Language Toolkit,NLTK)對數據依次進行清洗、分詞,根據詞頻——逆文本頻率指數(Term Frequency-Inverse Document Frequency,TF-IDF)算法對關鍵信息進行抽取,最后同樣利用NLTK對關鍵信息進行情感標注,獲取情感傾向。對于時域上的評論數量的變化,利反向傳播(Back Propagation,BP)神經網絡對未來的數據進行預測,從而有效地對評論數據進行分析和預測,如圖1所示。

        2.2 數據來源

        本數據集來自美國亞馬遜電商平臺,文章利用Python中的request包爬取了2004——2019年吹風機和奶嘴商品的11 417條評論記錄。評論數據按照商品編號、購買時間、星級、評論文本存儲在MySQL數據庫中。

        2.3 關鍵詞提取

        NLTK是一套基于Python的自然語言處理工具集,能實現分詞、詞性標注、詞頻分析、情感分析等豐富的功能[3]。將數據導入程序,進行文本清洗,分句和分詞處理后,對相應的分詞進行詞形歸一化,去除標點以及去除停用詞,以最大程度地保留有用數據。隨后采用TF-IDF算法進行關鍵信息提取。

        TF指詞頻,表示在一段文本中單詞出現的頻繁程度。假設在一段文本W={w1,w2,…,wn}中,共n個詞,其中單詞x出現了m次,那么單詞x的詞頻就是:

        IDF指逆文檔頻率,表示在所有文本中單詞出現的不頻繁程度。假設N代表語料庫中所有的文本,N(x)表示語料庫中包含詞x的文本總數,那么該詞x的IDF為:

        在得到TF和IDF之后,一個詞x的TF-IDF值計算為:通過在scikit-learn中使用TfidfVectorizer實現TF-IDF,從而得到相應的文本關鍵詞。

        2.4 情感標注

        情感分析或觀點挖掘是通過計算來識別作者對某段文本的態(tài)度是積極、消極還是中性的過程[2]。此反饋可能很有用,比如在自然語言評論中挖掘對某款產品或服務的觀點時。NTLK包含一個簡單的基于規(guī)則的情感分析模型,其中組合了詞匯特征來識別情感強度[3-4]。導入必要模塊(包括Vader情感分析器),創(chuàng)建一個函數來接受某個句子并呈現情感分類。該函數首先對SentimentIntensityAnalyzer執(zhí)行實例化,然后使用傳遞的句子來調用polarity_scores方法。結果是一組浮點值,表示輸入文本的正或負價態(tài)。這些浮點值是為4個類別(正、中性、負和表示一個聚合分數的化合態(tài))而發(fā)出的。該腳本最后調用傳遞的參數來識別情感,最終得到每一條評論對應的情感指數。

        2.5 數據預測

        BP神經網絡具有任意復雜的模式分類能力和優(yōu)良的多維函數映射能力,解決了簡單感知器無法解決的排他性OR,XOR和其他一些問題。在結構上,BP網絡有輸入層、隱藏層和輸出層。本質上,BP算法以網絡的平方誤差作為目標函數,采用梯度下降法計算目標函數的最小值[5]。

        模型統(tǒng)計每一年的評論數量并繪制趨勢圖,再利用BP神經網絡對數據進行擬合,從而可以對未來的數據進行預測。

        3 實驗部分

        3.1 關鍵詞提取

        通過TF-IDF算法,得到了相應的關鍵詞,從中抽去了20條并根據出現頻率進行排序,命名后存入txt文檔中,如圖2所示。

        圖2 關鍵詞提取

        3.2 情感標注

        針對每一條評論,分別給出其相應的情感指數,其中正數代表正向情感,負數相反。指數越接近1,說明傾向性越顯著,如圖3所示。

        圖3 情感標注

        3.3 趨勢預測

        針對按年統(tǒng)計的評論數量,劃分出訓練數據和測試數據,并對數據進行了擬合,結果顯示出不錯的擬合效果,如圖4所示。

        圖4 擬合效果

        4 結語

        該模型較好地對商品評論數據進行了分析處理,同時也存在以下一些缺點:(1)情感分析的粒度相對粗糙,缺乏層次分析和對情感因素的深層探討。(2)數據量相對較少,容易出現過擬合現象,難以對更長時間的數據進行準確預測。

        猜你喜歡
        文本情感分析
        隱蔽失效適航要求符合性驗證分析
        如何在情感中自我成長,保持獨立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨立
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
        国产91在线免费| 丰满少妇被猛男猛烈进入久久| 蜜桃视频网站在线观看一区| 日本丰满老妇bbw| 国产av旡码专区亚洲av苍井空| 欧洲一卡2卡三卡4卡免费网站| 粗大的内捧猛烈进出在线视频| 天天燥日日燥| 最近免费中文字幕| 国产精品亚洲一区二区杨幂| AV中文字幕在线视| 一区二区三区夜夜久久| 日本亚洲系列中文字幕| 国产精品久久久久久久久电影网| 51看片免费视频在观看| 国产高清一区二区三区视频| 国产av无码专区亚洲av| 国产av成人精品播放| 中文天堂一区二区三区| 丝袜美腿在线观看视频| 亚洲人妻调教中文字幕| 大学生粉嫩无套流白浆| 中国农村妇女hdxxxx| 夜夜揉揉日日人人| 成在线人免费无码高潮喷水| 国产偷闻女邻居av在线观看| 丰满少妇在线播放bd| 久久婷婷五月综合色欧美| 99国内精品久久久久久久| 日韩爱爱网站| 中文字幕亚洲区第一页| 亚洲国产一区二区视频| 国产精品成人亚洲一区| 久久久久国产综合av天堂| 国产成人麻豆精品午夜福利在线| 欧美极品第一页| 午夜婷婷国产麻豆精品| 欧美嫩交一区二区三区| 少妇无码av无码一区| 亚洲精品成人片在线观看| 亚洲精品一区二区在线播放|