數(shù)據(jù)挖掘技術(shù)應(yīng)用于淘寶網(wǎng)客戶獲得、客戶細(xì)分、客戶維系、個(gè)性化服務(wù)、市場預(yù)測等方面。通過基于淘寶網(wǎng)評論數(shù)據(jù)自動分詞的數(shù)據(jù)挖掘方法,對一款一體機(jī)的商品評論數(shù)據(jù)進(jìn)行分析,旨在于根據(jù)各項(xiàng)相關(guān)指標(biāo)挖掘出有價(jià)值的商業(yè)信息,基于淘寶用戶的評價(jià),發(fā)現(xiàn)消費(fèi)者的消費(fèi)水平與消費(fèi)者消費(fèi)關(guān)注度與影響因素是否不,提高經(jīng)濟(jì)效益。
1.首先在八爪魚數(shù)據(jù)采集頁面輸入需要采集的淘寶店鋪網(wǎng)址https://detail.tmall.com/item.htm?spm=a230r.1.14.200.j4t24A&id=544107804633&ns=1&abbucket=18),在輸入網(wǎng)址點(diǎn)擊“轉(zhuǎn)到”,采集平臺上則會跳轉(zhuǎn)至網(wǎng)址所對應(yīng)的淘寶界面。
2.在淘寶商品頁面中選中“累計(jì)評價(jià)”,頁面彈出內(nèi)容如圖1所示:
圖1 執(zhí)行動作頁面
圖2 八爪魚數(shù)據(jù)采集操作頁面
在上述頁面中,我們點(diǎn)擊“點(diǎn)擊這個(gè)元素”,再針對剛剛點(diǎn)擊的元素進(jìn)行一定的設(shè)置。設(shè)置結(jié)束點(diǎn)擊“保存”之后,頁面則會跳轉(zhuǎn)至累計(jì)評論界面,所有客戶對寶貝的評論都在此展示,將評論頁面下滑,在評論下方頁碼處,選擇點(diǎn)擊“下一頁”,頁面彈出窗口中,我們選擇“循環(huán)點(diǎn)擊下一頁”選項(xiàng)。點(diǎn)擊完“循環(huán)點(diǎn)擊下一頁”之后,我們在設(shè)置窗口選擇自定義,我們選擇“元素文本=下一頁”,然后點(diǎn)擊“確定”。接著我們在評論區(qū)域,隨意點(diǎn)擊一條客戶評論內(nèi)容,彈出窗口后選擇繼續(xù)添加,然后再選中一條評論內(nèi)容點(diǎn)擊之后,彈出的窗口則會自動搜集呈現(xiàn)該頁所有的評論。在彈出窗口中點(diǎn)擊“創(chuàng)建列表完成”,在頁面跳轉(zhuǎn)圖中,我們點(diǎn)擊圖中的“循環(huán)”按鈕。點(diǎn)擊“循環(huán)”后,我們繼續(xù)在頁面隨意點(diǎn)擊一條客戶的評論,在彈出的窗口中選擇“抓取該文本”,將點(diǎn)擊的評論成為我們需要抓去的數(shù)據(jù)字段,點(diǎn)擊“保存”,運(yùn)用上述方法我們采集到了某淘寶店鋪該商品的235條評論,本次評論數(shù)據(jù)采集工作就基本完成了。
通過八爪魚數(shù)據(jù)采集器采集的評論是沒有規(guī)則的、隨機(jī)的。并且格式混亂,在進(jìn)行數(shù)據(jù)篩選和數(shù)據(jù)分析之前我們需要對淘寶評論數(shù)據(jù)進(jìn)行預(yù)處理。這里我們主要做的處理工作時(shí),對一句一句的淘寶評論分成一個(gè)詞一個(gè)詞,采用EXCEL的分詞處理技術(shù),編寫分詞的VB代碼,代碼函數(shù)如圖3,參數(shù)說明如表1將數(shù)據(jù)導(dǎo)入EXCEL中,EXCEL自動根據(jù)所編代碼將詞語進(jìn)行分詞。
圖3 分詞VB代碼函數(shù)參數(shù)
表1 分詞VB代碼函數(shù)參數(shù)說明
通過取得的挖掘結(jié)果,對數(shù)據(jù)進(jìn)行分析,找出聯(lián)系,發(fā)現(xiàn)之間的規(guī)律。由于樣本容量過大,分析起來需要有一定的難度,所以在本次論文分析實(shí)例中,我們著重選取評論中較為有代表性,評論較為鮮明具有特色的20條進(jìn)行詳細(xì)的分析研究。圖4是分詞之后的詞語,去除評論中與分析無關(guān)的詞語,保留能夠體現(xiàn)店鋪特征的評論詞語,例如安裝、質(zhì)量、正品、物流、價(jià)格、功能、畫面等詞語。
圖4 淘寶評論分詞
分詞處理完成之后我們進(jìn)行詞頻統(tǒng)計(jì)。我們運(yùn)用EXCEL進(jìn)行詞頻統(tǒng)計(jì)。編寫相應(yīng)的VB程序,對詞頻進(jìn)行統(tǒng)計(jì)。統(tǒng)計(jì)詞語為動詞、形容詞、名詞這三類,將每個(gè)店鋪評論再進(jìn)行詞語初步屬性分類。詞語初步屬性分類如表2。將這些詞語初步分為五類,分別是質(zhì)量、物流、體驗(yàn)、價(jià)格、服務(wù)。將詞語中的質(zhì)量、運(yùn)行、操作、高端、大氣、上檔次等歸類為質(zhì)量屬性,將物流、速度、很快等歸類為物流屬性,將畫面、清晰、流暢、手感等歸類為體驗(yàn)屬性,將價(jià)格、實(shí)惠、便宜、值得等歸類為價(jià)格屬性,將服務(wù)、態(tài)度等歸為服務(wù)屬性。
表2 詞語初步分類
經(jīng)過對我們篩選后的的淘寶評論數(shù)據(jù)高頻詞的分類分析,我們發(fā)現(xiàn)出五個(gè)類別客戶類型:
第一種類型是價(jià)格物流型,這類消費(fèi)者會將商品的價(jià)格作為他們選擇商品的重要因素,并且會將該商品的價(jià)格與實(shí)體店的價(jià)格進(jìn)行對比,其次會考慮物流,因?yàn)殡娔X屬于貴重物品且在物流運(yùn)輸過程中極有可能受到損壞,所以該類型的消費(fèi)者會將物流作為首要考慮的條件之一;第二種類型是價(jià)格質(zhì)量型,也就是說這類消費(fèi)者在質(zhì)量與價(jià)格方面的關(guān)注度比較強(qiáng),而在物流體驗(yàn)方面表現(xiàn)為中度關(guān)注,對服務(wù)方面表現(xiàn)為弱度關(guān)注;第三種類型注重體驗(yàn)價(jià)格,這類消費(fèi)者表現(xiàn)為對商品的價(jià)格和體驗(yàn)會優(yōu)先考慮,對質(zhì)量物流服務(wù)這些方面的關(guān)注度會稍微弱一點(diǎn);第四種類型表現(xiàn)為對服務(wù)與質(zhì)量關(guān)注較高;第五種類型則是服務(wù)體驗(yàn)型,這類消費(fèi)者在消費(fèi)過程中,尤其注重賣家的服務(wù)水平以及產(chǎn)品本身的體驗(yàn),而對商品的價(jià)格等方面不甚關(guān)心。
這五種類型消費(fèi)者在購買商品時(shí)對產(chǎn)品的關(guān)注度也存在著明顯的差異,這就告訴我們賣家,在面對不同類型以及不同消費(fèi)層次消費(fèi)者時(shí),我們所采用的營銷策略是有差異的。在本案例中,面對價(jià)格質(zhì)量型的消費(fèi)者,這類消費(fèi)者大部分消費(fèi)層次中等偏下,他們對產(chǎn)品的要求其實(shí)就概括為物美價(jià)廉,所以賣家在對這種類型消費(fèi)者進(jìn)行營銷的時(shí)候,我們需要從性價(jià)比方面著手,他們著重關(guān)注于商品的價(jià)格,要求價(jià)格實(shí)惠并且質(zhì)量不錯(cuò),而對商品的體驗(yàn)并沒有太多的要求;而對于服務(wù)體驗(yàn)型的消費(fèi)者而言,這類消費(fèi)者的消費(fèi)能力大多不差,在進(jìn)行營銷的時(shí)候就不能采用價(jià)格優(yōu)勢來吸引他們,而應(yīng)該從產(chǎn)品的外觀、用戶的極致體驗(yàn)等方面來做文章。
(湖南女子學(xué)院信息技術(shù)系,湖南 長沙 410004)