吳伯利,李善玉,王美樺,鄧伊琳,劉小紅
(惠州學(xué)院 旭日廣東服裝學(xué)院,廣東 惠州 516007)
隨著信息技術(shù)時代的來臨與電子商務(wù)時代的飛速發(fā)展,不計(jì)其數(shù)的信息資源已成為電商平臺的顯著標(biāo)志和價值體現(xiàn)。服裝領(lǐng)域是電子商務(wù)最為突出的細(xì)分產(chǎn)物,縱觀電商數(shù)據(jù),服裝產(chǎn)品發(fā)展迅猛,多年穩(wěn)居電商零售市場前列[1]。在大數(shù)據(jù)浪潮中,營銷數(shù)據(jù)與企業(yè)的營銷模式深度捆綁[2],以往靠人工采集數(shù)據(jù)的方式不但效率和成本難以平衡,而且數(shù)據(jù)量并不理想,有時還需要結(jié)合多種數(shù)據(jù)采集方式。為了更高效、精準(zhǔn)地獲取所需數(shù)據(jù),網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)運(yùn)而生。對于線下門店,特別是在服裝領(lǐng)域的競爭對手之間,銷售數(shù)據(jù)屬于行業(yè)內(nèi)的商業(yè)機(jī)密,收集難度很高,但服裝電商的出現(xiàn)很好地解決了這一難題,天貓作為全國最大的綜合性購物網(wǎng)站之一,為消費(fèi)者和網(wǎng)店經(jīng)營者提供了大量具有信息價值的網(wǎng)購數(shù)據(jù)[3]。面對海量的網(wǎng)購大數(shù)據(jù)和“千人千面”的搜索結(jié)果,本研究旨在提供一種方便快捷、節(jié)約成本的數(shù)據(jù)采集方式,并在冗雜的網(wǎng)購數(shù)據(jù)中整理挖掘潛在價值。
為了采集天貓平臺男裝九分牛仔褲完整的網(wǎng)購數(shù)據(jù),本研究選擇python網(wǎng)絡(luò)爬蟲技術(shù),通過編程實(shí)現(xiàn)網(wǎng)購數(shù)據(jù)的自動采集。python語法十分優(yōu)美簡潔,具有較強(qiáng)的可讀性和可維護(hù)性[4],網(wǎng)絡(luò)爬蟲Scrapy框架就是python語言。Selenium是使用最廣泛的開源Web用戶界面(UI)自動化測試套件之一,支持phantomJS無界面瀏覽器[5]。在數(shù)據(jù)采集過程中,發(fā)現(xiàn)天貓搜索最多只顯示80頁商品信息,一次搜索結(jié)果最多包含4 800個商品信息,而且搜索結(jié)果“千人千面”。針對這種情況,本研究選擇了基于價格子集劃分的數(shù)據(jù)采集策略,即將價格劃分為22子集,每個子集內(nèi)的商品信息數(shù)量不超過4 800個,這時就需要根據(jù)統(tǒng)一資源定位系統(tǒng)(Uniform Resource Locato,URL)的結(jié)構(gòu)規(guī)律構(gòu)造出22個符合要求的URL[6],通過瀏覽器請求獲取頁面超文本標(biāo)記語言(HTML)代碼,提取網(wǎng)頁中需要的信息,將爬取數(shù)據(jù)存入excel表格中進(jìn)行數(shù)據(jù)清洗處理。
網(wǎng)頁抓取是每個網(wǎng)絡(luò)爬蟲程序最先執(zhí)行的步驟,也是網(wǎng)頁信息獲取的關(guān)鍵。在爬取之前,要在命令提示符(CMD)中打開一個Chrome瀏覽器并啟用端口給selenium調(diào)用。除此之外,還應(yīng)明確需要爬取的信息種類,比如商品名稱、價格、月銷量和評價人數(shù)等,且要想快速爬取出網(wǎng)頁中需要的商品信息,必須查看網(wǎng)頁源代碼了解信息具體所在位置。此外,針對網(wǎng)頁反爬機(jī)制,需要根據(jù)網(wǎng)址的結(jié)構(gòu)規(guī)律構(gòu)造出一個滿足翻頁需求的URL。
通過爬蟲獲取網(wǎng)站的響應(yīng)內(nèi)容一般分為兩種:非結(jié)構(gòu)化的數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù)。經(jīng)過解析庫轉(zhuǎn)換后是一個復(fù)雜的樹形結(jié)構(gòu),里面并不是所有的信息都有用,這時就需要進(jìn)一步提取出有價值的數(shù)據(jù),這個過程便是網(wǎng)頁處理。網(wǎng)頁處理的方式通常由正則表達(dá)式、XPath與BeautifulSoup來完成。這里以天貓商城搜索結(jié)果頁面源代碼分析,所要爬取的商品信息其實(shí)都隱藏在網(wǎng)頁源代碼中,有些是標(biāo)簽的屬性,有些是標(biāo)簽里面的文本內(nèi)容。在設(shè)計(jì)爬蟲程序時,有很多解析庫可以使用,根據(jù)需要選擇合適的抓取工具來提取相應(yīng)的信息,這樣處理網(wǎng)頁信息便會事半功倍。
數(shù)據(jù)存儲的方式有很多種,其中使用廣泛的是存入數(shù)據(jù)庫。對于爬取大量的數(shù)據(jù)信息而言,數(shù)據(jù)庫是一個非常不錯的選擇,但對于爬取數(shù)據(jù)量不大的新手來說,存入excel表中不失為一個不錯的選擇,后續(xù)操作起來也得心應(yīng)手,特別是后面對數(shù)據(jù)的去重處理,去重的依據(jù)是商品的詳情網(wǎng)址,因?yàn)樵斍榫W(wǎng)址上有且只有唯一的商品編號,即商品的ID??偟膩碚f,數(shù)據(jù)儲存模塊主要借助python語言,將數(shù)據(jù)按照一定的邏輯規(guī)則導(dǎo)入數(shù)據(jù)庫,為后續(xù)實(shí)現(xiàn)對數(shù)據(jù)的深入分析和解讀、保證數(shù)據(jù)的完整奠定堅(jiān)實(shí)的基礎(chǔ)。
本次爬取天貓男裝九分牛仔褲商品數(shù)據(jù)共計(jì)53 485條,其中,有效數(shù)據(jù)為53 326條,采集店鋪數(shù)量為3 562家,數(shù)據(jù)類型包括商品名稱、月銷量、價格、評價人數(shù)、店鋪名稱以及商品詳情鏈接,這些原始數(shù)據(jù)需要做進(jìn)一步整理與數(shù)據(jù)挖掘。
數(shù)據(jù)整理可歸納為3個部分:數(shù)據(jù)收集、數(shù)據(jù)評估和數(shù)據(jù)清洗。因?yàn)樘熵埓嬖谧ト∪瘮?shù)據(jù)的局限性,所以數(shù)據(jù)清洗方式為剔除缺失數(shù)據(jù)與數(shù)據(jù)去重。在采集的商品名稱、價格、月銷量、評價人數(shù)和店鋪名稱中,有任何一處出現(xiàn)數(shù)據(jù)缺失,則該商品全部信息都要剔除。數(shù)據(jù)去重則是以商品詳情頁的URL為依據(jù),去除重復(fù)的商品。
2.3.1 市場整體情況分析
根據(jù)天貓平臺提供的商品月銷量和累計(jì)評價數(shù)兩個指標(biāo),可對市場整體情況進(jìn)行分析。天貓平臺的商品月銷量和累計(jì)評價數(shù)除了給買家看,也是賣家要多花心思的地方,如果這些數(shù)據(jù)比較好看,更能激發(fā)消費(fèi)者的購買欲望,進(jìn)而持續(xù)帶動后續(xù)銷量。通過對天貓平臺男裝九分牛仔褲月銷量和累計(jì)評價人數(shù)的統(tǒng)計(jì)分析,在前20名銷售單品中,近30天男裝九分牛仔褲的銷量峰值為1萬多件,累計(jì)評價數(shù)峰值為11萬,表明該商品近兩年的購買熱度較高。進(jìn)一步觀察發(fā)現(xiàn),月銷量前20名的店鋪中有個別評論數(shù)與月銷量差距較大,一種原因可能是商家刷單以積累信譽(yù);另一種原因就是該商品在近期參加促銷活動的新品銷量較多,而買家的評論還沒顯示出來。
從前20名銷售單品的價位來看,主要分布在150元以下,屬于中低端消費(fèi)價位。因此,男裝九分牛仔褲在中低價位更受消費(fèi)者喜愛,這個價位的市場會更大,但品牌競爭也會更激烈。
2.3.2 男裝九分牛仔褲價位分析
根據(jù)男裝九分牛仔褲價位總體分布情況,將價位區(qū)間劃分為55元以下、55~100元、100~200元、200~355元和355元以上,統(tǒng)計(jì)各個價位區(qū)間的月銷量、月銷售金額和累計(jì)評價可知對應(yīng)占比情況,結(jié)果如表1所示。由表1可見,30天男裝九分牛仔褲市場總銷量為640 274件,月銷售金額達(dá)到62 174 016元,評價人數(shù)為5 437 886,相較于其他服裝品類成績較好,可見男裝九分牛仔褲市場還是非常大,消費(fèi)者購買力度和基數(shù)都很大。從價位銷售分布情況來看,無論是月銷量、月銷量金額還是累計(jì)評價,主要的價位都在55~100元和100~200元這兩個區(qū)間,且月銷量、月銷量金額以及累計(jì)評價在這兩個價位區(qū)間總占比分別達(dá)到81.2%、80.3%和84.2%,占比均在80.0%以上。
表1 價位分布情況
2.3.3 品牌店鋪競爭力綜合分析
服裝網(wǎng)店的經(jīng)營者不僅需要了解市場的整體情況,還要對競爭品牌甚至是每個銷售同品類服裝店鋪的營銷數(shù)據(jù)有比較清晰的了解,與此同時,也應(yīng)該對自己的店鋪在同品類市場競爭中的地位和自身優(yōu)劣情況有大致的了解,這樣才能真正做到“知己知彼”,在日后的營銷決策上會有更多的主動權(quán)。為了分析品牌店鋪競爭力,本研究選擇了月銷量、月銷量金額、評價人數(shù)、品種數(shù)、新品種數(shù)(新品種認(rèn)定依據(jù)為月銷量和評價數(shù)同時為0)等5個指標(biāo),計(jì)算月銷量、月銷量金額、評價人數(shù)的排名,并以這3個指標(biāo)排名之和作為綜合排名指標(biāo)。分析結(jié)果如表2所示,給出了天貓平臺男裝九分牛仔褲整體排名情況。
表2 品牌店鋪競爭力綜合分表
在上述分析基礎(chǔ)上,進(jìn)一步分析了傳統(tǒng)品牌的排名情況,在月銷量、月銷售額和評價數(shù)的3個排名中,在前50名品牌中,傳統(tǒng)品牌店鋪數(shù)量在5家以內(nèi);在前100名品牌中,傳統(tǒng)品牌店鋪數(shù)量在20家以內(nèi),其中,綜合表現(xiàn)不錯的傳統(tǒng)品牌有花花公子、南極人、JackJones和A21,尤其是花花公子和南極人,在各排序中店鋪數(shù)量最多,而這些都得益于其品牌授權(quán)的經(jīng)營模式。其他傳統(tǒng)品牌,如真維斯、七匹狼、海瀾之家、李維斯和羅蒙等,市場競爭力并不理想,有的月銷量甚至在個位數(shù),說明在男裝九分牛仔褲市場,傳統(tǒng)品牌發(fā)展不均衡且競爭優(yōu)勢不明顯。
(1)應(yīng)用python的selenium自動化測試框架采集天貓男裝九分牛仔褲全部商品信息,高效便捷,節(jié)省成本。通過selenium+chrome的方式,向服務(wù)器發(fā)起正常請求獲取數(shù)據(jù),可以很大程度地繞過天貓平臺的多重反爬機(jī)制,但也限制了爬蟲的速度。(2)天貓男裝九分牛仔褲整體市場很大且消費(fèi)者基數(shù)大,消費(fèi)人群主要集中在55~200元中低端價位。(3)市場競爭力較強(qiáng)的品牌有越度龍、邁特優(yōu)、Wvb、瑞威拉和古角牛。在傳統(tǒng)品牌中,競爭力較強(qiáng)的是花花公子、南極人、A21、JackJones和優(yōu)衣庫。