摘要:本研究基于Scrapy爬蟲框架從懂車帝網站上爬取新能源汽車評論數(shù)據,并進行了數(shù)據分析和情感分類。研究發(fā)現(xiàn),用戶對新能源汽車主要關注性能、續(xù)航能力、外觀設計、購車體驗和售后服務等方面。情感分析顯示用戶普遍持積極態(tài)度,但亦存在對價格和購車過程中的問題的不滿。本研究為新能源汽車行業(yè)發(fā)展和市場需求提供了數(shù)據支持,為互聯(lián)網時代大數(shù)據分析提供了一個實踐案例。
關鍵詞:新能源汽車;短評論;網絡爬蟲;數(shù)據分析;情感分類;可視化
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2024)19-0033-03
0 引言
在互聯(lián)網時代,網絡數(shù)據量呈現(xiàn)爆炸性增長的趨勢。截至2023年12月,我國網民規(guī)模達10.92億人,較2022年12月新增網民2 480萬人,互聯(lián)網普及率達77.5%[1]。在這個背景下,伴隨著國內汽車行業(yè)的蓬勃發(fā)展,新能源汽車作為其中的主力軍之一,吸引了大量消費者的關注。懂車帝網站作為汽車領域的重要信息交流平臺,匯集了眾多用戶對不同新能源汽車的評論與觀點。
然而,面對互聯(lián)網上海量的文本數(shù)據,僅依靠人工篩選數(shù)據已不再現(xiàn)實。高效地從海量數(shù)據中提取有價值信息成了研究人員和企業(yè)關注的焦點。自動化網絡爬蟲技術因其在不同領域的廣泛應用而備受矚目。本文基于Python編寫程序,采用Scrapy作為爬蟲框架,從懂車帝網站上爬取當下新能源汽車的評論數(shù)據。通過對爬取的數(shù)據進行清洗與整理,提取其中的有價值信息,并運用可視化技術進行展示。同時,還對評論進行了情感分析,以探索用戶對新能源汽車的態(tài)度與情感傾向。
本文旨在利用網絡爬蟲技術,探索并挖掘新能源汽車領域的用戶評論數(shù)據,為汽車行業(yè)的發(fā)展和市場需求提供數(shù)據支持,同時為互聯(lián)網時代大數(shù)據分析提供一個實踐案例。
1 主要技術
1.1 爬蟲原理
網絡爬蟲是一種基于獲取不同URL的核心支撐,用于搜索和抓取該URL下的各種文章、鏈接和圖片等內容的技術。在給定的URL中,網絡爬蟲會持續(xù)從中提取URL,并對當前URL的內容進行篩選和獲取。當一個URL的內容被完全檢索后,網絡爬蟲會自動轉到下一個URL,重復這一過程,直到所有URL都被檢索一次。在技術層面上,網絡爬蟲通過程序模擬瀏覽器請求站點的行為,將站點返回的數(shù)據(如HTML代碼、JSON 數(shù)據或二進制數(shù)據)存儲在本地,以供后續(xù)使用。根據不同的需求,網絡爬蟲可以針對性地進行爬取,并增加目標定義和過濾機制。
本文采用Scrapy爬蟲框架進行數(shù)據采集。Scrapy 是一個基于Python開發(fā)的高層次、快速的網頁抓取框架,用于抓取網站信息并從頁面中提取結構化數(shù)據[2]。在數(shù)據挖掘、監(jiān)測和自動化測試等不同場景下,Scrapy 具有廣泛應用。
1.2 數(shù)據分析流程
數(shù)據分析是應用統(tǒng)計、計算機科學、機器學習和領域專業(yè)知識等技術和方法,對大量數(shù)據進行收集、清洗、處理和分析,以發(fā)現(xiàn)有意義的信息、趨勢和模式,并從中獲得見解,從而支持決策制定、問題解決和創(chuàng)新的過程。
本文使用numpy、pandas、jieba分詞、gensim、pyL? DAvis、matplotlib 和wordcloud 等技術工具,對懂車帝比亞迪海豹新能源車的評論信息進行數(shù)據分析、情感分類及可視化。具體流程如圖1所示。
2 功能實現(xiàn)
2.1 爬蟲模塊
我們根據懂車帝網站評論頁面的URL結構,定義了URL規(guī)則。在URL中發(fā)現(xiàn),每一個車型的汽車在 `/ community` 評論頁URL之后的數(shù)字對應了每一個車型的汽車,每個車型汽車數(shù)字后面則為評論頁頁碼。評論首頁URL如下所示。
https://www.dongchedi.com/community/5579/1
通過構造相應的URL,循環(huán)生成并遍歷每個URL來模擬瀏覽器翻頁過程。本文設定爬取的目標頁數(shù)為前400頁,具體代碼如下所示: