亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Scrapy框架京東網(wǎng)站筆記本電腦評(píng)論數(shù)據(jù)爬取和分析

        2020-04-22 20:36:14方芳
        電腦知識(shí)與技術(shù) 2020年6期
        關(guān)鍵詞:數(shù)據(jù)預(yù)處理數(shù)據(jù)可視化

        方芳

        摘要:該文基于Scrapy框架對(duì)京東網(wǎng)站上筆記本電腦的評(píng)論數(shù)據(jù)進(jìn)行了爬取,共爬取了32種品牌,選取其中的“聯(lián)想(Leno-vo)拯救者Y7000P”筆記本電腦評(píng)論數(shù)據(jù)進(jìn)行分析,通過(guò)pandas提供的模糊匹配方法提取數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行去重、分詞和停用詞過(guò)濾等處理,使用wordcloud庫(kù)繪制詞云圖,呈現(xiàn)出的情感數(shù)據(jù)為商家和用戶提供進(jìn)一步的決策。

        關(guān)鍵詞:Scrapy框架;Python;數(shù)據(jù)預(yù)處理;數(shù)據(jù)可視化

        中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)06-0007-03

        1背景

        1999年底,隨著互聯(lián)網(wǎng)高潮來(lái)臨。中國(guó)網(wǎng)絡(luò)購(gòu)物的用戶規(guī)模不斷上升。2010年中國(guó)網(wǎng)絡(luò)購(gòu)物市場(chǎng)延續(xù)用戶規(guī)模、交易規(guī)模的雙增長(zhǎng)態(tài)勢(shì)。智能手機(jī)的普及更使得網(wǎng)上購(gòu)物越來(lái)越流行,足不出戶就能買到性價(jià)比高的商品,享受著帶來(lái)的各項(xiàng)便利和服務(wù)。

        現(xiàn)在人們對(duì)于網(wǎng)上購(gòu)物的需求變得越來(lái)越高,這讓京東,淘寶,蘇寧易購(gòu),當(dāng)當(dāng)網(wǎng)等電商平臺(tái)得到了很大的發(fā)展機(jī)遇。從近期的數(shù)據(jù)來(lái)看,天貓2017年“雙11”這一天的最終交易額就達(dá)到1682億,創(chuàng)下歷史新高。京東全球好物節(jié)從同年的11月1日到11月11日24時(shí)累計(jì)下單金額達(dá)1271億元。

        巨大的交易額將產(chǎn)生大量的用戶評(píng)論數(shù)據(jù),多數(shù)消費(fèi)者熱衷于在網(wǎng)站上留下對(duì)產(chǎn)品的真實(shí)看法和體驗(yàn),很多消費(fèi)者也習(xí)慣于在購(gòu)買產(chǎn)品之前先瀏覽下用戶的評(píng)論信息,從而幫助自己選擇合適的產(chǎn)品。而各大電商平臺(tái)也面臨著激烈的競(jìng)爭(zhēng)的同時(shí),除了提高商品質(zhì)量,壓低商品價(jià)格外,也需要得到用戶的反饋,而反饋信息可以從商品的評(píng)論區(qū)的文本數(shù)據(jù)信息得到。

        本文將京東電商平臺(tái)上的筆記本電腦評(píng)論信息作為研究對(duì)象進(jìn)行相關(guān)文本分析研究,從中得到有用的情感數(shù)據(jù),這些數(shù)據(jù)反映了用戶對(duì)產(chǎn)品的整體意見和態(tài)度,具有很高應(yīng)用價(jià)值。這些情感數(shù)據(jù)的獲取,有利于電商改進(jìn)營(yíng)銷策略和提升服務(wù)質(zhì)量,促進(jìn)產(chǎn)品銷量,也有利于對(duì)應(yīng)商品的生產(chǎn)廠家產(chǎn)品質(zhì)量的提升,也有利于消費(fèi)者了解商品的好壞,是否值得購(gòu)買。

        2相關(guān)技術(shù)介紹

        2.1python

        如今,Python已經(jīng)成為一種再主流不過(guò)的編程語(yǔ)言了。它天生麗質(zhì),易于讀寫,非常實(shí)用,從而贏得廣泛的群眾基礎(chǔ),被譽(yù)為“宇宙最好的編程語(yǔ)言”。Python是一種跨平臺(tái)、開源、免費(fèi)的解釋型高級(jí)動(dòng)態(tài)編程語(yǔ)言。Python擁有大量的庫(kù),且易于學(xué)習(xí),可以用來(lái)高效的開發(fā)各種應(yīng)用程序。Python語(yǔ)言目前廣泛應(yīng)用于網(wǎng)絡(luò)爬蟲、計(jì)算與數(shù)據(jù)分析、人工智能、自動(dòng)化運(yùn)維、云計(jì)算等領(lǐng)域。

        2.2Scrapy框架

        Scrapy是用純Python實(shí)現(xiàn)的一個(gè)開源網(wǎng)絡(luò)爬蟲框架,是為了高效地爬取網(wǎng)站數(shù)據(jù)、提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。它是一個(gè)“5+2”結(jié)構(gòu),5個(gè)模塊是指engine,scheduler,item pipe-lines,spiders和downloader。2個(gè)模塊是engine和spiders以及en_gine和downloader之間的兩個(gè)中間件模塊。

        Scrapy的優(yōu)點(diǎn)有以下幾點(diǎn):

        1)開發(fā)者在Scrapy框架中只需要將爬取規(guī)則添加到代碼中就會(huì)自動(dòng)開始數(shù)據(jù)的采集。

        2)開發(fā)者使用Scrapy框架開發(fā)并不需要接觸核心代碼。

        3)Scrapy是一種跨平臺(tái)的框架。

        3爬蟲模塊

        3.1抓取模塊

        3.1.1新建Scrapy項(xiàng)目

        首先需要在配置Pvthon3.7的pycharm中安裝Scrapy庫(kù)。然后在pycharm終端進(jìn)入建立Scrapy項(xiàng)目的目錄,輸入命令scrapy starpmjiect項(xiàng)目名稱,命令執(zhí)行后生成項(xiàng)目的完成目錄。

        3.1.2明確爬取目標(biāo)

        本次爬蟲目標(biāo)是獲取京東網(wǎng)站上筆記本電腦的評(píng)論信息,利用Chrome瀏覽器對(duì)目標(biāo)網(wǎng)站的頁(yè)面源碼結(jié)構(gòu)進(jìn)行分析。首先打開京東網(wǎng)站首頁(yè),在搜索框中輸入筆記本,點(diǎn)擊搜索,進(jìn)入筆記本搜索一級(jí)頁(yè)面,根據(jù)網(wǎng)頁(yè)源碼信息得到每個(gè)店鋪的URL地址,根據(jù)URL地址進(jìn)入商品詳情頁(yè)面(又稱為二級(jí)頁(yè)面),從頁(yè)面中獲取筆記本電腦品牌和相關(guān)評(píng)論信息。整個(gè)爬蟲的流程是,構(gòu)造筆記本搜索頁(yè)面初始url→采集店鋪地址url→構(gòu)造商品詳情頁(yè)面URL→抓取評(píng)論信息一通過(guò)循環(huán)模擬翻頁(yè)獲取下一頁(yè)的url。

        3.1.3制作Spiders爬取網(wǎng)頁(yè)

        制作spiders也就是負(fù)責(zé)爬取和提取數(shù)據(jù)的爬蟲。首先在工程中目錄下在終端中輸入命令創(chuàng)建一個(gè)爬蟲,在爬蟲中編寫代碼。具體定義的方法分別是start_requestsO、ProducturlO、Pro-ducrCommentO、ParseO。

        3.2存儲(chǔ)模塊

        數(shù)據(jù)爬取后通過(guò)Pipeline.Py將爬取到的數(shù)據(jù)用戶ID,產(chǎn)品,用戶評(píng)論三個(gè)字段存儲(chǔ)到CSV文件中,爬取結(jié)果的部分?jǐn)?shù)據(jù)如下圖1所示。

        4文本預(yù)處理

        4.1數(shù)據(jù)篩選

        通過(guò)對(duì)“產(chǎn)品”這列的統(tǒng)計(jì),共爬取了32種品牌電腦。本文選取了32種品牌中的“聯(lián)想(Lenovo)拯救者Y7000P”電腦進(jìn)行分析,通過(guò)pandas提供的模糊匹配方法提取數(shù)據(jù),另外使用map方法將產(chǎn)品劃分成“品牌”和“型號(hào)”兩列,并且去掉了“產(chǎn)品”列,同時(shí)調(diào)整了列的排放順序,依次為用戶ID,品牌,型號(hào),用戶評(píng)價(jià)四列,最后另存為jdnew.csv,CSV如圖2所示。

        具體代碼如下所示:

        4.2去重

        利用pandas的duplicated0方法檢查重復(fù)的數(shù)據(jù),經(jīng)檢測(cè),發(fā)現(xiàn)很多行中出現(xiàn)True標(biāo)記,例如行索引74925,74926,74927,74928,74929對(duì)應(yīng)的值都是True,表明這些行的數(shù)據(jù)都是重復(fù)的,需要進(jìn)行處理。我們使用drop_duplicatesO函數(shù)完成去重。

        4.3分詞

        采用python中的中文分詞包“iieba”(結(jié)巴分詞),對(duì)CSV文檔中的用戶評(píng)論數(shù)據(jù)進(jìn)行中文分詞處理?!敖Y(jié)巴分詞”提供分詞、詞性標(biāo)注、未登錄詞識(shí)別等功能。經(jīng)過(guò)相關(guān)測(cè)試,結(jié)巴分詞的精度高達(dá)97%以上。它支持三種分詞模式:1)全模式:把文中所有可能的詞語(yǔ)都掃描出來(lái),存在冗余;2)精確模式:把文本精準(zhǔn)的分開,不存在冗余;3)搜索引擎模式:在精準(zhǔn)模式的基礎(chǔ)上,再次對(duì)長(zhǎng)詞進(jìn)行切分。此處通過(guò)lcutO函數(shù)進(jìn)行分詞,共需要提供兩個(gè)參數(shù),第一個(gè)參數(shù)表示需要分詞的字符串,第二個(gè)參數(shù)用來(lái)控制是否采用全模式分詞,這里采用精確模式,代碼如下所示。

        words=jieba.1cut(str(comment.values),cut_all=False)

        4.4過(guò)濾停用詞

        停用詞是指在信息搜索中,為了提高搜索效率和節(jié)約存儲(chǔ)空間,過(guò)濾掉某些沒有具體意義的字和詞,這些字或詞被稱為停用詞。對(duì)于中文的停用詞,常用的停用詞表有哈工大停用詞表、四川大學(xué)機(jī)器學(xué)習(xí)智能實(shí)驗(yàn)室停用詞庫(kù)、百度停用詞表。本文采用的是哈工大停用詞表過(guò)濾。

        5數(shù)據(jù)可視化

        使用matplotlib庫(kù)完成數(shù)據(jù)可視化,同時(shí)結(jié)合了wordcloud庫(kù)繪制詞云圖。wordcloud模塊會(huì)將文本中出現(xiàn)頻率比較高的詞語(yǔ)進(jìn)行放大顯示,而出現(xiàn)頻率比較低縮小顯示。本文在繪制詞云圖時(shí)使用了背景圖片,背景圖片是用PIL的庫(kù)里的imread(1函數(shù)來(lái)加載的。

        從圖中可以看出,用戶評(píng)論比較多的是外形外觀,包裝保護(hù),運(yùn)行速度,畫面品質(zhì)等等。圖中“不錯(cuò)”,“開機(jī)流暢”,“喜歡”這幾個(gè)字證實(shí)用戶對(duì)此款電腦整體是比較滿意的,沒有出現(xiàn)負(fù)面評(píng)論的詞。

        6結(jié)束語(yǔ)

        本文使用Scrapy框架爬取了京東網(wǎng)站上的筆記本電腦評(píng)論數(shù)據(jù),使用Pandas庫(kù)提取了“聯(lián)想(Lenovo)拯救者Y7000P”筆記本電腦的評(píng)論數(shù)據(jù),通過(guò)Pyilion語(yǔ)言完成了去重,分詞,停用詞等數(shù)據(jù)預(yù)處理工作,最后利用matplotlib和wordcloud完成了詞云圖的展示,從圖可以看到用戶對(duì)此款電腦整體是比較滿意。

        猜你喜歡
        數(shù)據(jù)預(yù)處理數(shù)據(jù)可視化
        大數(shù)據(jù)時(shí)代背景下本科教學(xué)質(zhì)量動(dòng)態(tài)監(jiān)控系統(tǒng)的構(gòu)建
        可視化:新媒體語(yǔ)境下的數(shù)據(jù)、敘事與設(shè)計(jì)研究
        我國(guó)數(shù)據(jù)新聞的發(fā)展困境與策略研究
        科技傳播(2016年19期)2016-12-27 14:53:29
        基于R語(yǔ)言的大數(shù)據(jù)審計(jì)方法研究
        芻議電力系統(tǒng)規(guī)劃設(shè)計(jì)在電力工程設(shè)計(jì)中的應(yīng)用
        慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
        中醫(yī)方劑數(shù)據(jù)庫(kù)文本挖掘數(shù)據(jù)預(yù)處理的嘗試
        白白白色视频在线观看播放| 亚洲精品国产精品国自产观看| 亚洲天堂第一区| 日韩精品有码在线视频| 国产精品成人av大片| 潮喷大喷水系列无码久久精品| 黄又色又污又爽又高潮动态图| 国产免费无码9191精品| 亚洲啪啪色婷婷一区二区| 亚洲精品无码永久在线观看| 国产乱人伦偷精品视频| 国产成年无码AⅤ片日日爱| 国产精品女主播在线播放| 疯狂做受xxxx高潮视频免费| 国产一区二区三区av在线无码观看| 国产精品不卡无码AV在线播放| 日本一区二区高清精品| aa片在线观看视频在线播放| 男人无码视频在线观看| 天堂av在线免费播放| 国产剧情一区二区三区在线| 性大毛片视频| 国产精品久久久久久久久免费观看 | 麻豆一区二区99久久久久| 男性一插就想射是因为啥| 一区二区亚洲精品国产精| 全黄性性激高免费视频| 无码夜色一区二区三区| 亚洲伊人久久综合精品| 蜜臀av毛片一区二区三区| 国产免费人成视频在线观看| 国产成+人+综合+亚洲专| 国产精品美女一区二区av| 国产午夜精品av一区二区麻豆 | 国产亚洲欧美精品一区| 日本一区二区免费看片| 特黄大片又粗又大又暴| 国产女人成人精品视频| 免费av在线视频播放| 亚洲国产精品成人久久久| 国产精品免费久久久久影院仙踪林 |