安 翔,李世鑫 ,白 雪 ,杜禹墨
(哈爾濱商業(yè)大學a.基礎(chǔ)科學學院;b.經(jīng)濟學院,哈爾濱150028)
隨著電子商務的快速發(fā)展,使得網(wǎng)絡(luò)購物成為人們選購商品的重要途徑之一京東、淘寶、天貓等電商平臺崛起,使得互聯(lián)網(wǎng)上集中出現(xiàn)大量的商品評論信息。與線下實體店購物不同,網(wǎng)絡(luò)購物時人們會更關(guān)注網(wǎng)絡(luò)上的商品評價信息。這些信息包含了已購買者對商品各方面的主觀評價,對商品的褒貶評價在很大程度上影響著人們的購買決策。
北大荒米業(yè)智淘電子商務有限公司為黑龍江省北大荒米業(yè)集團有限公司下屬子公司,業(yè)務范圍涉及京東、淘寶、天貓超市、蘇寧、一號店等國內(nèi)主流電子商務平臺,以及跨境電商等業(yè)務。該公司分析了2017年銷售收入增長較慢的主要原因,并提出相應對策:“指定主要競爭對手:中糧和十月稻田,針對其主打產(chǎn)品,調(diào)整產(chǎn)品包裝和品類,搶占市場份額,調(diào)整產(chǎn)品結(jié)構(gòu)?!?/p>
本項目針對以上對策,從相應電商平臺爬取上述競爭對手產(chǎn)品的評論數(shù)據(jù),進行文本挖掘,為北大荒米業(yè)提供決策依據(jù)。
網(wǎng)絡(luò)爬蟲又稱作網(wǎng)絡(luò)蜘蛛或者網(wǎng)頁追逐者等,其主要負責網(wǎng)絡(luò)上的數(shù)據(jù)的收集工作。網(wǎng)絡(luò)爬蟲為人們批量獲取互聯(lián)網(wǎng)信息提供了可能性。
在本文中,網(wǎng)絡(luò)爬蟲的任務是從天貓超市和京東商城網(wǎng)頁中把海量的消費者文本評論數(shù)據(jù)提取下來,為本文的情感分析提供最原始的分析數(shù)據(jù)。而傳統(tǒng)的爬蟲方式存在后期處理任務冗余、目的性不強、資源浪費等缺點。因此,筆者引入了現(xiàn)代網(wǎng)絡(luò)爬蟲方式。
現(xiàn)代網(wǎng)絡(luò)爬蟲技術(shù)大多可以自動生成爬蟲,節(jié)省時間。但就操作性而言,集搜客爬蟲網(wǎng)站專注于網(wǎng)頁數(shù)據(jù)采集,它能比較方便地爬取網(wǎng)頁數(shù)據(jù),它是先通過MS謀數(shù)臺是用來制作網(wǎng)頁抓取規(guī)則,包括模擬點擊、翻頁規(guī)則、抓取內(nèi)容等,再利用DS打數(shù)機根據(jù)建立的規(guī)則采集網(wǎng)頁數(shù)據(jù)。所以集搜客屬于“易用型”,它主要通過模仿用戶的網(wǎng)頁操作進行數(shù)據(jù)采集,只需要指定數(shù)據(jù)采集邏輯和可視化選擇采集的數(shù)據(jù),即可完成采集規(guī)則的制定。
1.數(shù)據(jù)來源
參考2017年電商平臺大米銷量的綜合排名,以北大荒米業(yè)主要競爭對手為主,選擇出了三種具有代表性的大米產(chǎn)品,它們分別是:中糧出品的蘇軟香、十月稻田出品的長粒香以及稻花香。本項目分別在天貓超市和京東商城中抓取了以上三種大米產(chǎn)品的消費者文本評論,每種大米產(chǎn)品的約在五千條評論,以此作為研究對象。
2.使用工具
一是集搜客。GooSeeker是一個集Web網(wǎng)頁抓取、數(shù)據(jù)抽取、提取頁面信息等功能于一體的工具包,主要由 MetaStudio、DataScraper、MetaCamp、DataStore構(gòu)成。該工具能依照操作人的意愿,從網(wǎng)頁頁面上篩選出所需信息,并輸出含有語義結(jié)構(gòu)的提取結(jié)果文件。鑒于集搜客目前的功能較為穩(wěn)定,使用面較廣,而且操作上較為簡易。因此,本項目選用的抓取工具是集搜客。
二是R語言。在數(shù)據(jù)挖掘分析中,本項目選擇使用R語言實現(xiàn)。相比于其他專業(yè)統(tǒng)計分析軟件,R語言使用免費且不失專業(yè)性??梢源蠓冉档统杀?、提高數(shù)據(jù)分析效率。
得到產(chǎn)品評論數(shù)據(jù)之后,由于大多評論數(shù)據(jù)是用戶的口語化表達,不乏錯別字以及冗余的信息存在。因此,需要對抓取的數(shù)據(jù)進行預處理。本項目根據(jù)實際需求和查閱相關(guān)文獻,得到以下數(shù)據(jù)預處理的具體方法。數(shù)據(jù)預處理模塊主要由兩個部分組成:對評論數(shù)據(jù)進行文本去重和壓縮去詞。
1.文本去重
先對測試數(shù)據(jù)集進行數(shù)據(jù)去重與清洗,去重是指去除數(shù)據(jù)中重復或廣告等惡意評論;清洗是為了清除數(shù)據(jù)中基于特定模板的垃圾信息,從而得到較為純凈的無歧義的評論集。文本去重的方法有很多,包括編輯距離去重、Simhash算法去重等,但是大多都存在一些缺陷,經(jīng)過研究對比后,本文采用比較刪除法這種相對簡單的文本去重思路。文本去重過程主要針對以下三類評論。
一是電商系統(tǒng)自動評論。一些電商平臺往往會在客戶長時間不進行評論時,會有系統(tǒng)自動替客戶做出評論,這種評論沒有任何意義并且完全相同,所以有必要對這些數(shù)據(jù)進行去重處理。
二是同一個人可能會出現(xiàn)重復的評論。可能會出現(xiàn)相同的顧客購買多種大米,然后在進行評論的過程在多個大米中采用同樣或相近的評論。
三是存在無意義數(shù)據(jù)。除了上述惡意重復的數(shù)據(jù)外,一些其他無意義的數(shù)據(jù)也要進行刪除。如廣告鏈接和標簽等,廣告通常都是一條網(wǎng)址鏈接形式,可能存在符號、文字等無意義的信息。標簽中含有的無法匹配的情感詞也會對后續(xù)數(shù)據(jù)分析工作產(chǎn)生影響。
2.壓縮去詞
壓縮去詞主要針對含有冗余的信息、語法錯誤及成分殘缺的句子進行人工的濾除和修正。為了更好的提高數(shù)據(jù)的準確性,本文有必要對評論句子進行壓縮去詞。例如,評論:“好吃好吃好吃好吃好吃好吃好吃”經(jīng)過壓縮去詞處理,就變成:“好吃”。
為了探索上述三種不同大米的評論文本集包含的信息,進而挖掘出這三種不同大米的特征,從中更好地提煉出大米的賣點,本文基于R語言統(tǒng)計高頻詞并且制作詞云,通過可視化技術(shù)進行分析,將評論文本數(shù)據(jù)轉(zhuǎn)換成直觀的、可交互的展現(xiàn)形式,以利于更好的發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式。本文將每種品牌大米預處理得到的評論看做一個整體,作為初始文本數(shù)據(jù),利用R語言進行編程設(shè)計,得到結(jié)果如下表。
表1 對稻花香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)
表2 對長粒香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)
表3 對蘇軟香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)
至此,已經(jīng)由R語言分詞,去除無用詞后,統(tǒng)計詞頻得到了三種品牌大米的特征詞,可以看到,提取的特征詞包括了大米的各個方面,因為本文中評論都來自于電商平臺,自然地“物流”一次成為最主要的關(guān)注點,但值得注意的是,這并不屬于大米的特征詞;除此之外,味道、質(zhì)量、包裝、優(yōu)惠活動都是消費者較為關(guān)注的特征。但是這些特征詞一共有幾百多個不同的詞語,十分分散,無法直接利用這些分散的特征詞作為評價大米的指標。為了明確在所有的評論中消費者具體關(guān)注了大米的哪些方面的問題,本文接下來考慮采用LDA主題模型,提取大米電商評論中的共同主題,通過評論中包含的共同主題反映消費者的關(guān)注點,并以此作為下文情感傾向標注的指標體系。
如果一篇文檔有多個主題,則一些特定的可代表不同主題的詞語會反復出現(xiàn),此時,運用主題模型,能夠發(fā)現(xiàn)文本中使用詞語的規(guī)律,并且把規(guī)律相似的文本聯(lián)系到一起,以尋求非結(jié)構(gòu)化的文本集中的有用信息。例如,對于大米的商品評論,代表大米特征的詞語如“口感”、“包裝”、“質(zhì)量”等會頻繁地出現(xiàn)在評論中,運用主題模型,將與大米代表性特征相關(guān)的情感描述性詞語,同相應的特征詞語聯(lián)系起來,從而深入了解大米評價的聚焦點即生成相應的主題詞。LDA模型作為其中一種主題模型,屬于無監(jiān)督的生成式主題概率模型。
本文使用LDA模型的目的在于,從網(wǎng)絡(luò)評論中發(fā)現(xiàn)消費者主要關(guān)注的大米屬性,并找出屬性包含的大米特征詞,以便將分散的大米特征詞歸并為少數(shù)幾個大米屬性之中,即主題詞。
本文實現(xiàn)LDA模型采用的是R語言中l(wèi)da程序包。類似K-Mean方法,LDA模型也要預先設(shè)定提取的主題個數(shù)。由于三種不同品牌的大米特點各不相同,銷售方式也略有差別,消費者對于不同品牌的大米評論可能存在較大差異,因此本文查閱相關(guān)資料,經(jīng)過多次試驗對比,將提取的主題個數(shù)設(shè)置為5個的提取效果最佳,這樣提取主題詞,更有利于后期情感傾向標注。利用R語言進行編程設(shè)計,得到的主題詞如下表。
表4 所有消費者評論的前五個主題結(jié)果
物流——指消費者通過電商平臺購買某種大米之后,對于發(fā)貨速度以及到貨所需時間的滿意程度,雖然該詞不屬于大米的特征,但由于網(wǎng)購的自身特點,該詞也是影響評論情感傾向的一個重要因素。該主題詞涉及的評論如:“物流快,非常好!”“物流快。購物方便?!?/p>
口感——指消費者食用了該大米之后,作出的相關(guān)評價。相當于是實際使用之后,再進行的一種評論,所以參考價值較高。并且,該詞本身也是食品類商品的重要特征詞,自然地,該詞出現(xiàn)的頻率也較高。該主題詞涉及的評論如下:“半年多以來,一直買這種大米,家人都說好吃,口感好,又是2017年的新米,好評!”“經(jīng)常吃這大米,很香,熬粥粘稠,特好吃。”
品質(zhì)——指大米產(chǎn)品的綜合指標,包括大米是否新鮮、包裝是否完好等,一系列大米產(chǎn)品的特征。該主題詞涉及的評論如下:“喜歡,質(zhì)量好,包裝好,一直很滿意。”“一直吃這款大米,質(zhì)量好,味道香,日期新鮮,東北大米,香好吃?!?/p>
價格——指消費者對某種大米價格的看法。因為價格是與商品聯(lián)系最為緊密的一個屬性,該詞包含的特征詞出現(xiàn)的頻率也較高,但大體上只分為兩種“物有所值”或“質(zhì)次價高”。該主題詞涉及的評論如下:“很好,比超市便宜很多,經(jīng)常買,值得推薦。”“不怎么好吃,但是價格也不便宜”
活動——指電商平臺或者商家自身推出的優(yōu)惠活動、節(jié)日促銷活動等,有些消費者若是正好趕上某種優(yōu)惠活動,可能就會作出更多的積極評價。而且,對于商家,也是一個增加銷量的機會。該主題詞涉及的評論如下:“搞活動時很便宜,實惠”“米的味道不錯,吃起來口感挺好的,有優(yōu)惠下次還買?!薄盎顒淤I的,價格便宜。品質(zhì)好,效率高。”
結(jié)合上文的結(jié)果,本小節(jié)對五個大米主題詞進行情感標注,據(jù)此可以判斷主題詞包含特征詞的情感傾向,進而得到積極評論所占百分比,即消費者對于某個主題的滿意度。分別得到三種不同品牌大米在同一主題詞下的消費者滿意度,觀察彼此之間的異同,就可以對比得出不同品牌大米的特點。
本文采用了基于情感詞典的方法對大米特征詞的情感傾向進行判斷。借鑒目前極性詞典建設(shè)過程中的成功做法,本文著手構(gòu)建一部滿足該研究需要的情感詞典,該詞典包括:知網(wǎng)(HowNet)詞典、大連理工大學的情感本體詞匯、程度詞詞典、同義詞詞林。
基于情感詞典方法的主要思想如下。
一是對于情感詞典內(nèi)包含的詞語,直接依靠情感詞典進行標注。
二是對于情感詞典內(nèi)未包含的詞語,利用同義詞林,計算其與HowNet中詞語的相似度,據(jù)此對該詞進行標注。
三是否定詞處理,一句話中若出現(xiàn)奇數(shù)次否定詞,則該句話的情感傾向應發(fā)生轉(zhuǎn)變。所以,統(tǒng)計出否定詞出現(xiàn)次數(shù)的奇偶性判斷是否需要轉(zhuǎn)變情感傾向。
在R語言中進行編程設(shè)計之后,得到三種不同品牌大米在同一主題詞下的消費者滿意度,如圖所示。
圖 消費者對各主題滿意度的直方圖
由上圖可知:
一是在物流方面,由于抓取的評論來源于不同的電商平臺,在某種程度上,物流之間的評論并不能完全體現(xiàn)出差別,所以三種不同品牌的大米消費者對于物流之間的差距甚微、滿意度基本持平,各品牌之間的差異不大,均在72.5%。
二是在口感方面,三種品牌大米就有了較為明顯的差異。其中,屬于東北米的長粒香大米獲得了83.3%消費者的青睞,反觀稻花香和蘇軟香大米,在口感方面,消費者滿意度分別為41.8%與63.2%。
三是在品質(zhì)方面,蘇軟香大米獲得消費者滿意度最高,為72.1%,主要體現(xiàn)在該類評論中:“包裝是真空袋,不易破損、漏氣”由于包裝好,所以大米新鮮,消費者滿意度自然就提高了。反觀,稻花香大米,它獲得的滿意度最低,為43.5%,與蘇軟香大米相比較,主要是由于包裝不好,導致破損,漏氣,從而影響消費者的滿意度。雖然長粒香大米的口感最好,但在綜合品質(zhì)方面,其消費者滿意度也僅為一半。
四是在價格方面,呈現(xiàn)出與在品質(zhì)方面類似的趨勢。蘇軟香大米滿意度仍為最高,為62.9%。稻花香大米依然最低,為42.6%。長粒香大米表現(xiàn)也中規(guī)中矩,為51.8%。
五是在活動方面,出現(xiàn)了反常的態(tài)勢,稻花香大米滿意度最高,長粒香與蘇軟香相差無幾,均在一半左右。
對北大荒米業(yè)提出以下建議。
一是作為東北地區(qū)的米業(yè)公司,必須要牢固把握自身產(chǎn)品的特色。重所周知,東北米晶瑩剔透、顆粒飽滿。無論是煮粥還是做米飯,都軟糯香甜。所以,東北米的質(zhì)量無論是在口感還是外觀上,都是蘇北米以及其它地區(qū)的大米不能比擬的。強調(diào)這一事實,符合消費者購物的求實心理,從而在競爭激烈的米業(yè)市場能擁有一片天地。
二是產(chǎn)品的包裝不容忽視。上文曾提到,雖然蘇軟香大米口感欠佳,但它的包裝做的好,所以也能更多地吸引消費者的注意。故本文建議北大荒米業(yè)在原有的包裝技術(shù)基礎(chǔ)上,盡可能地提升自己產(chǎn)品的包裝質(zhì)量,以及美觀程度,從求異心理的角度深深吸引消費者的眼光。
三是同種產(chǎn)品價格越低滿意度越高,企業(yè)應想盡方法降低成本、壓低價格為消費者提供更大的優(yōu)惠,薄利多銷實現(xiàn)雙贏。
四是對于產(chǎn)品的相關(guān)促銷活動也不能少,無論是線下,還是線上,都應適量舉行促銷活動,提高產(chǎn)品知名度和影響力,從而一定程度上提升產(chǎn)品競爭軟實力。