亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)爬蟲的電商評價數(shù)據(jù)可視化

        2020-11-06 14:36:04孫媛張俊芳
        現(xiàn)代信息科技 2020年12期

        孫媛 張俊芳

        摘 ?要:文章通過網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集方式獲取電商平臺《弟子規(guī)》書籍的評價數(shù)據(jù),利用Python的jieba中文分詞組件對電商評價文本數(shù)據(jù)進行分詞、去除停用詞、詞頻統(tǒng)計等數(shù)據(jù)處理,采用詞云圖的形式將用戶評價信息進行數(shù)據(jù)可視化展現(xiàn),試圖幫助人們了解數(shù)據(jù)背后的價值。從大量網(wǎng)絡(luò)評論中提取反映評論褒貶極性的特質(zhì)詞語,避免消費者所需信息被大量的評論噪音掩蓋,從而為消費者的購買決策和企業(yè)的營銷策略提供支持。

        關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;弟子規(guī);數(shù)據(jù)可視化

        中圖分類號:TP391.1;TP277 ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2020)12-0095-03

        Abstract:This paper obtains the evaluation data of the e-commerce platform “Di Zi Gui” through the data collection of web crawler,uses Python jieba Chinese word segmentation component to process the e-commerce evaluation text data,such as word segmentation,removal of stop words,word frequency statistics,etc.,and uses the word cloud chart to visualize the user evaluation information,trying to help people understand the price behind the data. From a large number of online reviews,the characteristic words reflecting the polarity of reviews are extracted. In order to avoid the information that consumers need to be covered by a large number of comments noise,it can provide support for consumerspurchase decisions and enterprisesmarketing strategies.

        Keywords:web crawler;Di Zi Gui;data visualization

        0 ?引 ?言

        如今,網(wǎng)上購物已成為大眾生活中的重要消費途徑之一。人們在電商平臺瀏覽、購買商品,隨之產(chǎn)生的是海量用戶行為數(shù)據(jù),如對產(chǎn)品的評價數(shù)據(jù)。這些線上評論數(shù)據(jù)的根據(jù)是消費者購買并使用產(chǎn)品后的自身感受,數(shù)據(jù)間接地反映了所購買的商品或服務(wù)的實用性、質(zhì)量、性價比、適用群體等內(nèi)容。面對這些碎片化、非結(jié)構(gòu)化、信息量密集的數(shù)據(jù),可利用網(wǎng)絡(luò)爬蟲這種互聯(lián)網(wǎng)數(shù)據(jù)收集方式,爬取電商平臺的用戶評價數(shù)據(jù),為電商商品的評價情感分析提供數(shù)據(jù)支撐。

        根據(jù)西安交通工程學(xué)院“思想品德優(yōu)、專業(yè)基礎(chǔ)實、實踐能力強、綜合素質(zhì)高、具有創(chuàng)新精神和社會責(zé)任感”的人才培養(yǎng)目標(biāo)定位,及中興通信學(xué)院大數(shù)據(jù)管理與應(yīng)用專業(yè)的建設(shè)需求,結(jié)合作者在數(shù)據(jù)可視化領(lǐng)域的發(fā)展方向,本文將以京東平臺《弟子規(guī)》書籍評價為例,闡述數(shù)據(jù)采集、預(yù)處理和可視化過程。希望通過本項目的研究,使作者掌握扎實的專業(yè)知識,為更好地進行教育教學(xué)做鋪墊。

        1 ?背景與目標(biāo)

        大數(shù)據(jù)技術(shù)是信息技術(shù)幾十年發(fā)展和積累催生的產(chǎn)物。目前,網(wǎng)絡(luò)購物盛行、產(chǎn)品競爭激烈、用戶體驗度要求高、產(chǎn)品評論信息價值高,這是大數(shù)據(jù)時代對電商領(lǐng)域發(fā)起的挑戰(zhàn),也是電商領(lǐng)域發(fā)展的動力和前進的方向?!兜茏右?guī)》作為熱門國學(xué)經(jīng)典,講述了豐富深刻的人生哲理,可以潛移默化地培養(yǎng)孩子的文化修養(yǎng)。該書籍深受家長和孩子們的喜愛,因而在京東平臺的銷量高。作為銷售商,需要根據(jù)消費者海量的評論文本數(shù)據(jù)更好地了解用戶的個人喜好,從而提高書籍質(zhì)量、改善服務(wù),獲取市場上的競爭優(yōu)勢。而作為消費者,需要在沒有看到書籍實體、做出購買決策之前,根據(jù)其他購買者的評論了解書籍的質(zhì)量、性價比等信息,為購物抉擇提供參考依據(jù)。

        本文對《弟子規(guī)》書籍評價數(shù)據(jù)的分析流程如圖1所示。

        因此,本文研究的目標(biāo)是獲得產(chǎn)品評價數(shù)據(jù)、進行數(shù)據(jù)處理并將結(jié)果直觀地展示出來,為銷售商和消費者們提供依據(jù)。通過網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),采集到的數(shù)據(jù)為文本形式的非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)預(yù)處理包含中文分詞、去除停用詞和詞頻統(tǒng)計,數(shù)據(jù)可視化利用詞云圖將用戶評論的文本數(shù)據(jù)中出現(xiàn)頻率較高的詞提取出來,將用戶評價數(shù)據(jù)通過豐富的圖形或圖像進行內(nèi)容展示。

        2 ?數(shù)據(jù)分析實戰(zhàn)

        2.1 ?數(shù)據(jù)爬取

        《弟子規(guī)》書籍下的評價數(shù)據(jù)為網(wǎng)絡(luò)文本數(shù)據(jù),通過網(wǎng)絡(luò)爬蟲采集數(shù)據(jù),過程即像蜘蛛一樣在互聯(lián)網(wǎng)上“爬行”,先“爬”至評價網(wǎng)頁上,然后把需要的評價數(shù)據(jù)“鏟”下來,將數(shù)據(jù)存儲到本地。

        在對網(wǎng)絡(luò)文本數(shù)據(jù)爬取的過程中,首先需要了解數(shù)據(jù)獲取方法,然后利用PyCharm編輯器編寫代碼,通過網(wǎng)絡(luò)爬蟲的方法模擬瀏覽器發(fā)送請求、提取有用信息、將提取到的數(shù)據(jù)存儲在本地,其數(shù)據(jù)獲取的具體過程如下。

        2.1.1 ?了解數(shù)據(jù)獲取方法

        (1)打開京東商城,搜索《弟子規(guī)》,以銷量排名靠前的書籍為例,點擊商品評價。

        (2)單擊右鍵,點擊檢查,借助谷歌瀏覽器的Web開發(fā)者工具找到評論數(shù)據(jù)存放的位置。

        (3)打開網(wǎng)絡(luò)(Network)面板,可以看到從網(wǎng)絡(luò)上下載資源的實時信息。

        (4)單擊商品評價信息并刷新,可看到網(wǎng)絡(luò)(Network)面板顯示加載出來的資源。

        (5)單擊JS,通過name排序或size排序找到product-PageComments.action。

        (6)在右側(cè)顯示Headers標(biāo)簽下的Request URL和Request Method。

        (7)在右側(cè)顯示Preview標(biāo)簽下的comments資源具體內(nèi)容。

        (8)右鍵點擊productPageComments.action,選擇Open in new tab,可在新標(biāo)簽頁更仔細(xì)地查看該資源。

        上述數(shù)據(jù)獲取方法的具體操作過程,如圖2所示。

        2.1.2 ?采集評論數(shù)據(jù)

        (1)模擬瀏覽器發(fā)送請求。首先使用GET方法向url= f'https://club.jd.com/comment/productPageComments.action? callback=fetchJSON_comment98&productId=12349364&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1發(fā)送請求并添加表頭;然后將編碼方式修改為'gbk';再利用JSON將字符串轉(zhuǎn)換為鍵值對形式的字典。

        (2)提取有用信息。獲得服務(wù)器響應(yīng)后,提取網(wǎng)站有用信息(用戶昵稱、產(chǎn)品名、用戶評價和發(fā)布時間)并組成數(shù)據(jù)框。其代碼為:data_jd = pd.DataFrame ({'nickname': nickname, 'productColor': productColor,'content': content, 'referenceTime': referenceTime})。

        (3)數(shù)據(jù)存儲到本地。采用逆向分析法,利用循環(huán)的方式爬取100頁(共1 000條)評價數(shù)據(jù),將數(shù)據(jù)保存到本地命名為“弟子規(guī)用戶評價數(shù)據(jù)”的Excel表格中,其代碼為:all_data.to_excel ('./弟子規(guī)用戶評價數(shù)據(jù).xlsx', index=None)。

        2.2 ?數(shù)據(jù)預(yù)處理

        需要對通過爬蟲采集到的文本數(shù)據(jù)進行預(yù)處理,具體流程如下。

        2.2.1 ?中文分詞

        在對數(shù)據(jù)進行分析之前,需要對采集到的文本數(shù)據(jù)進行分詞處理。所謂的分詞其實是將連續(xù)的詞句按照一定的規(guī)范重新排列組合并分割成單個詞序列的過程。本文采用基于詞典的分詞方法,即從左向右取待切分漢語句子的字符并查找詞典與之進行匹配,若匹配成功,則將這個匹配字段作為一個詞切分出來;若匹配不成功,則將這個匹配字段的最后一個字去掉,剩下的字符串作為新的匹配字段再次進行匹配,重復(fù)匹配直到切分出所有詞為止。

        (1)安裝Python第三方庫——jieba庫,在https://github.com/fxsjy/jieba網(wǎng)站中下載jieba并安裝,jieba是目前常用的Python中文分詞組件。對于一長段文字,首先要用正則表達式將中文段落粗略分成句子,然后尋求最佳切分方案將句子劃分為詞組。

        (2)使用jieba.cut方法進行分詞:data_cut = all_data ['content'].apply (jieba.lcut)。

        2.2.2 ?去除停用詞

        停用詞是指文本數(shù)據(jù)中使用頻率不高或?qū)Ρ疚奶卣鞯谋硎緵]有價值的詞,如空格、回車、標(biāo)點符號等。本文首先下載停用詞表stoplist.txt,然后在已下載好的停用詞表中根據(jù)需要手動建立新停用詞(空格和換行符號):stop = [' ', '\n'] + stop,進行分詞后通過比較停用詞將價值不高的詞刪除。

        2.2.3 ?詞頻統(tǒng)計

        詞頻統(tǒng)計是對去除停用詞之后的每個詞組的頻率進行統(tǒng)計,為后續(xù)數(shù)據(jù)可視化做鋪墊。本文導(dǎo)入Tkinter自帶函數(shù)_flatten,對去除停用詞后的中文詞組進行頻率統(tǒng)計,其代碼為:num = pd.Series (_flatten (list (data_after))).value_counts ()。

        2.3 ?數(shù)據(jù)可視化

        數(shù)據(jù)可視化可讓京東《弟子規(guī)》評價信息中挖掘到的價值清晰呈現(xiàn)。本文利用詞云圖將預(yù)處理后的數(shù)據(jù)根據(jù)詞組的出現(xiàn)頻率直觀地展示出來,生成的詞云圖中詞組字體的大小與詞組出現(xiàn)的頻率成正比。詞云圖生成過程如下。

        (1)下載并安裝第三方庫——wordcloud庫。

        (2)設(shè)置詞云,包括背景顏色、字體路徑及背景形狀等。

        (3)根據(jù)詞頻統(tǒng)計結(jié)果,調(diào)用Matplotlib.pyplot繪制詞云圖,其中Matplotlib.pyplot是Python的繪圖庫,包含了一系列類似MATLAB中繪圖函數(shù)的相關(guān)函數(shù)。

        詞云圖生成結(jié)果如圖3所示。

        3 ?結(jié) ?論

        本文以京東平臺《弟子規(guī)》書籍評價數(shù)據(jù)可視化為例,研究網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集方式,安裝jieba和wordcloud庫,實現(xiàn)文本數(shù)據(jù)的分詞、去停用詞、詞頻統(tǒng)計,根據(jù)詞頻統(tǒng)計結(jié)果、繪制詞云圖,完成用戶評價文本數(shù)據(jù)的可視化分析、采用詞云圖展示用戶對該產(chǎn)品的評價。從詞云圖中可以直觀、清晰地看到用戶對該產(chǎn)品的評價的高頻詞語,并能獲取以下有用信息。

        (1)該產(chǎn)品為書。

        (2)多數(shù)用戶評價為喜歡、質(zhì)量、不錯。

        (3)適用對象為寶寶、小朋友、孩子。

        (4)多數(shù)用戶對京東平臺價格或物流表示滿意等。

        總之,對《弟子規(guī)》評價數(shù)據(jù)進行可視化展現(xiàn),可為消費者提供購買決策,協(xié)助商家指導(dǎo)客戶購買產(chǎn)品,讓商家更好地發(fā)現(xiàn)用戶的需求,進而改進產(chǎn)品、提升用戶體驗。

        參考文獻:

        [1] 宋永生,黃蓉美,王軍.基于Python的數(shù)據(jù)分析與可視化平臺研究 [J].現(xiàn)代信息科技,2019,3(21):7-9.

        [2] 韓寶國,張良均.R語言商務(wù)數(shù)據(jù)分析實戰(zhàn) [M].北京:人民郵電出版社,2018:145-168.

        [3] 馮與詰.詞云生成系統(tǒng)的構(gòu)建 [J].通訊世界,2019,26(3):190-192.

        [4] 高宇,楊小兵.基于聚焦型網(wǎng)絡(luò)爬蟲的影評獲取技術(shù) [J].中國計量大學(xué)學(xué)報,2018,29(3):299-303.

        作者簡介:孫媛(1992—),女,漢族,陜西西安人,專職教師,助教,碩士,研究方向:計算機通信。

        人妻丰满熟妇一二三区| 色偷偷88888欧美精品久久久 | 国产一品二品精品在线| 好吊妞无缓冲视频观看| 久久精品国产亚洲精品| 亚洲精品成人网线在线播放va| 国成成人av一区二区三区| 亚洲男女内射在线播放| 男男性恋免费视频网站| 久久精品免费无码区| 亚洲av国产精品色a变脸| 少妇激情av一区二区三区| 亚洲av无码精品色午夜在线观看| 亚洲性啪啪无码AV天堂| 国产精品高清一区二区三区人妖| 久久久国产精品无码免费专区 | 国产精品嫩草影院AV| 国产在线观看精品一区二区三区| 熟妇人妻精品一区二区视频免费的| 影音先锋色小姐| 尤物99国产成人精品视频| 国产一区二区在线观看视频免费| 亚洲综合日韩一二三区| 在线看片免费人成视频久网下载 | 99久久久人妻熟妇精品一区二区| 欧美四房播播| 伊人99re| 中文字幕久久熟女人妻av免费| 国产毛片黄片一区二区三区 | 欧美黑人又粗又大久久久| 厕所极品偷拍一区二区三区视频| 一本一道久久综合久久| 亚洲欧美综合区自拍另类| 国产哟交泬泬视频在线播放| 国产午夜激情视频在线看| 欧洲成人一区二区三区| 国产精品久久久久电影网| 91极品尤物在线观看播放| 国产成人高清在线观看视频| 无码国模国产在线观看| 免费国产一级特黄aa大片在线|