亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        北大荒米業(yè)競爭對手產(chǎn)品評論數(shù)據(jù)挖掘

        2018-08-01 11:11:48李世鑫杜禹墨
        北方經(jīng)貿(mào) 2018年8期
        關(guān)鍵詞:特征詞爬蟲主題詞

        安 翔,李世鑫 ,白 雪 ,杜禹墨

        (哈爾濱商業(yè)大學a.基礎(chǔ)科學學院;b.經(jīng)濟學院,哈爾濱150028)

        一、研究的背景與意義

        隨著電子商務的快速發(fā)展,使得網(wǎng)絡(luò)購物成為人們選購商品的重要途徑之一京東、淘寶、天貓等電商平臺崛起,使得互聯(lián)網(wǎng)上集中出現(xiàn)大量的商品評論信息。與線下實體店購物不同,網(wǎng)絡(luò)購物時人們會更關(guān)注網(wǎng)絡(luò)上的商品評價信息。這些信息包含了已購買者對商品各方面的主觀評價,對商品的褒貶評價在很大程度上影響著人們的購買決策。

        北大荒米業(yè)智淘電子商務有限公司為黑龍江省北大荒米業(yè)集團有限公司下屬子公司,業(yè)務范圍涉及京東、淘寶、天貓超市、蘇寧、一號店等國內(nèi)主流電子商務平臺,以及跨境電商等業(yè)務。該公司分析了2017年銷售收入增長較慢的主要原因,并提出相應對策:“指定主要競爭對手:中糧和十月稻田,針對其主打產(chǎn)品,調(diào)整產(chǎn)品包裝和品類,搶占市場份額,調(diào)整產(chǎn)品結(jié)構(gòu)?!?/p>

        本項目針對以上對策,從相應電商平臺爬取上述競爭對手產(chǎn)品的評論數(shù)據(jù),進行文本挖掘,為北大荒米業(yè)提供決策依據(jù)。

        二、網(wǎng)絡(luò)爬蟲

        (一)傳統(tǒng)網(wǎng)絡(luò)爬蟲

        網(wǎng)絡(luò)爬蟲又稱作網(wǎng)絡(luò)蜘蛛或者網(wǎng)頁追逐者等,其主要負責網(wǎng)絡(luò)上的數(shù)據(jù)的收集工作。網(wǎng)絡(luò)爬蟲為人們批量獲取互聯(lián)網(wǎng)信息提供了可能性。

        在本文中,網(wǎng)絡(luò)爬蟲的任務是從天貓超市和京東商城網(wǎng)頁中把海量的消費者文本評論數(shù)據(jù)提取下來,為本文的情感分析提供最原始的分析數(shù)據(jù)。而傳統(tǒng)的爬蟲方式存在后期處理任務冗余、目的性不強、資源浪費等缺點。因此,筆者引入了現(xiàn)代網(wǎng)絡(luò)爬蟲方式。

        (二)現(xiàn)代網(wǎng)絡(luò)爬蟲

        現(xiàn)代網(wǎng)絡(luò)爬蟲技術(shù)大多可以自動生成爬蟲,節(jié)省時間。但就操作性而言,集搜客爬蟲網(wǎng)站專注于網(wǎng)頁數(shù)據(jù)采集,它能比較方便地爬取網(wǎng)頁數(shù)據(jù),它是先通過MS謀數(shù)臺是用來制作網(wǎng)頁抓取規(guī)則,包括模擬點擊、翻頁規(guī)則、抓取內(nèi)容等,再利用DS打數(shù)機根據(jù)建立的規(guī)則采集網(wǎng)頁數(shù)據(jù)。所以集搜客屬于“易用型”,它主要通過模仿用戶的網(wǎng)頁操作進行數(shù)據(jù)采集,只需要指定數(shù)據(jù)采集邏輯和可視化選擇采集的數(shù)據(jù),即可完成采集規(guī)則的制定。

        三、評論文本的采集與預處理

        (一)數(shù)據(jù)的采集

        1.數(shù)據(jù)來源

        參考2017年電商平臺大米銷量的綜合排名,以北大荒米業(yè)主要競爭對手為主,選擇出了三種具有代表性的大米產(chǎn)品,它們分別是:中糧出品的蘇軟香、十月稻田出品的長粒香以及稻花香。本項目分別在天貓超市和京東商城中抓取了以上三種大米產(chǎn)品的消費者文本評論,每種大米產(chǎn)品的約在五千條評論,以此作為研究對象。

        2.使用工具

        一是集搜客。GooSeeker是一個集Web網(wǎng)頁抓取、數(shù)據(jù)抽取、提取頁面信息等功能于一體的工具包,主要由 MetaStudio、DataScraper、MetaCamp、DataStore構(gòu)成。該工具能依照操作人的意愿,從網(wǎng)頁頁面上篩選出所需信息,并輸出含有語義結(jié)構(gòu)的提取結(jié)果文件。鑒于集搜客目前的功能較為穩(wěn)定,使用面較廣,而且操作上較為簡易。因此,本項目選用的抓取工具是集搜客。

        二是R語言。在數(shù)據(jù)挖掘分析中,本項目選擇使用R語言實現(xiàn)。相比于其他專業(yè)統(tǒng)計分析軟件,R語言使用免費且不失專業(yè)性??梢源蠓冉档统杀?、提高數(shù)據(jù)分析效率。

        (二)數(shù)據(jù)的預處理

        得到產(chǎn)品評論數(shù)據(jù)之后,由于大多評論數(shù)據(jù)是用戶的口語化表達,不乏錯別字以及冗余的信息存在。因此,需要對抓取的數(shù)據(jù)進行預處理。本項目根據(jù)實際需求和查閱相關(guān)文獻,得到以下數(shù)據(jù)預處理的具體方法。數(shù)據(jù)預處理模塊主要由兩個部分組成:對評論數(shù)據(jù)進行文本去重和壓縮去詞。

        1.文本去重

        先對測試數(shù)據(jù)集進行數(shù)據(jù)去重與清洗,去重是指去除數(shù)據(jù)中重復或廣告等惡意評論;清洗是為了清除數(shù)據(jù)中基于特定模板的垃圾信息,從而得到較為純凈的無歧義的評論集。文本去重的方法有很多,包括編輯距離去重、Simhash算法去重等,但是大多都存在一些缺陷,經(jīng)過研究對比后,本文采用比較刪除法這種相對簡單的文本去重思路。文本去重過程主要針對以下三類評論。

        一是電商系統(tǒng)自動評論。一些電商平臺往往會在客戶長時間不進行評論時,會有系統(tǒng)自動替客戶做出評論,這種評論沒有任何意義并且完全相同,所以有必要對這些數(shù)據(jù)進行去重處理。

        二是同一個人可能會出現(xiàn)重復的評論。可能會出現(xiàn)相同的顧客購買多種大米,然后在進行評論的過程在多個大米中采用同樣或相近的評論。

        三是存在無意義數(shù)據(jù)。除了上述惡意重復的數(shù)據(jù)外,一些其他無意義的數(shù)據(jù)也要進行刪除。如廣告鏈接和標簽等,廣告通常都是一條網(wǎng)址鏈接形式,可能存在符號、文字等無意義的信息。標簽中含有的無法匹配的情感詞也會對后續(xù)數(shù)據(jù)分析工作產(chǎn)生影響。

        2.壓縮去詞

        壓縮去詞主要針對含有冗余的信息、語法錯誤及成分殘缺的句子進行人工的濾除和修正。為了更好的提高數(shù)據(jù)的準確性,本文有必要對評論句子進行壓縮去詞。例如,評論:“好吃好吃好吃好吃好吃好吃好吃”經(jīng)過壓縮去詞處理,就變成:“好吃”。

        四、評論的特征分析與主題詞提取

        (一)基于詞云的可視化分析

        為了探索上述三種不同大米的評論文本集包含的信息,進而挖掘出這三種不同大米的特征,從中更好地提煉出大米的賣點,本文基于R語言統(tǒng)計高頻詞并且制作詞云,通過可視化技術(shù)進行分析,將評論文本數(shù)據(jù)轉(zhuǎn)換成直觀的、可交互的展現(xiàn)形式,以利于更好的發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式。本文將每種品牌大米預處理得到的評論看做一個整體,作為初始文本數(shù)據(jù),利用R語言進行編程設(shè)計,得到結(jié)果如下表。

        表1 對稻花香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)

        表2 對長粒香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)

        表3 對蘇軟香評論的詞頻統(tǒng)計結(jié)果(前30個特征詞)

        至此,已經(jīng)由R語言分詞,去除無用詞后,統(tǒng)計詞頻得到了三種品牌大米的特征詞,可以看到,提取的特征詞包括了大米的各個方面,因為本文中評論都來自于電商平臺,自然地“物流”一次成為最主要的關(guān)注點,但值得注意的是,這并不屬于大米的特征詞;除此之外,味道、質(zhì)量、包裝、優(yōu)惠活動都是消費者較為關(guān)注的特征。但是這些特征詞一共有幾百多個不同的詞語,十分分散,無法直接利用這些分散的特征詞作為評價大米的指標。為了明確在所有的評論中消費者具體關(guān)注了大米的哪些方面的問題,本文接下來考慮采用LDA主題模型,提取大米電商評論中的共同主題,通過評論中包含的共同主題反映消費者的關(guān)注點,并以此作為下文情感傾向標注的指標體系。

        (二)基于LDA模型提取主題詞

        如果一篇文檔有多個主題,則一些特定的可代表不同主題的詞語會反復出現(xiàn),此時,運用主題模型,能夠發(fā)現(xiàn)文本中使用詞語的規(guī)律,并且把規(guī)律相似的文本聯(lián)系到一起,以尋求非結(jié)構(gòu)化的文本集中的有用信息。例如,對于大米的商品評論,代表大米特征的詞語如“口感”、“包裝”、“質(zhì)量”等會頻繁地出現(xiàn)在評論中,運用主題模型,將與大米代表性特征相關(guān)的情感描述性詞語,同相應的特征詞語聯(lián)系起來,從而深入了解大米評價的聚焦點即生成相應的主題詞。LDA模型作為其中一種主題模型,屬于無監(jiān)督的生成式主題概率模型。

        本文使用LDA模型的目的在于,從網(wǎng)絡(luò)評論中發(fā)現(xiàn)消費者主要關(guān)注的大米屬性,并找出屬性包含的大米特征詞,以便將分散的大米特征詞歸并為少數(shù)幾個大米屬性之中,即主題詞。

        本文實現(xiàn)LDA模型采用的是R語言中l(wèi)da程序包。類似K-Mean方法,LDA模型也要預先設(shè)定提取的主題個數(shù)。由于三種不同品牌的大米特點各不相同,銷售方式也略有差別,消費者對于不同品牌的大米評論可能存在較大差異,因此本文查閱相關(guān)資料,經(jīng)過多次試驗對比,將提取的主題個數(shù)設(shè)置為5個的提取效果最佳,這樣提取主題詞,更有利于后期情感傾向標注。利用R語言進行編程設(shè)計,得到的主題詞如下表。

        表4 所有消費者評論的前五個主題結(jié)果

        物流——指消費者通過電商平臺購買某種大米之后,對于發(fā)貨速度以及到貨所需時間的滿意程度,雖然該詞不屬于大米的特征,但由于網(wǎng)購的自身特點,該詞也是影響評論情感傾向的一個重要因素。該主題詞涉及的評論如:“物流快,非常好!”“物流快。購物方便?!?/p>

        口感——指消費者食用了該大米之后,作出的相關(guān)評價。相當于是實際使用之后,再進行的一種評論,所以參考價值較高。并且,該詞本身也是食品類商品的重要特征詞,自然地,該詞出現(xiàn)的頻率也較高。該主題詞涉及的評論如下:“半年多以來,一直買這種大米,家人都說好吃,口感好,又是2017年的新米,好評!”“經(jīng)常吃這大米,很香,熬粥粘稠,特好吃。”

        品質(zhì)——指大米產(chǎn)品的綜合指標,包括大米是否新鮮、包裝是否完好等,一系列大米產(chǎn)品的特征。該主題詞涉及的評論如下:“喜歡,質(zhì)量好,包裝好,一直很滿意。”“一直吃這款大米,質(zhì)量好,味道香,日期新鮮,東北大米,香好吃?!?/p>

        價格——指消費者對某種大米價格的看法。因為價格是與商品聯(lián)系最為緊密的一個屬性,該詞包含的特征詞出現(xiàn)的頻率也較高,但大體上只分為兩種“物有所值”或“質(zhì)次價高”。該主題詞涉及的評論如下:“很好,比超市便宜很多,經(jīng)常買,值得推薦。”“不怎么好吃,但是價格也不便宜”

        活動——指電商平臺或者商家自身推出的優(yōu)惠活動、節(jié)日促銷活動等,有些消費者若是正好趕上某種優(yōu)惠活動,可能就會作出更多的積極評價。而且,對于商家,也是一個增加銷量的機會。該主題詞涉及的評論如下:“搞活動時很便宜,實惠”“米的味道不錯,吃起來口感挺好的,有優(yōu)惠下次還買?!薄盎顒淤I的,價格便宜。品質(zhì)好,效率高。”

        五、情感傾向標注

        結(jié)合上文的結(jié)果,本小節(jié)對五個大米主題詞進行情感標注,據(jù)此可以判斷主題詞包含特征詞的情感傾向,進而得到積極評論所占百分比,即消費者對于某個主題的滿意度。分別得到三種不同品牌大米在同一主題詞下的消費者滿意度,觀察彼此之間的異同,就可以對比得出不同品牌大米的特點。

        本文采用了基于情感詞典的方法對大米特征詞的情感傾向進行判斷。借鑒目前極性詞典建設(shè)過程中的成功做法,本文著手構(gòu)建一部滿足該研究需要的情感詞典,該詞典包括:知網(wǎng)(HowNet)詞典、大連理工大學的情感本體詞匯、程度詞詞典、同義詞詞林。

        基于情感詞典方法的主要思想如下。

        一是對于情感詞典內(nèi)包含的詞語,直接依靠情感詞典進行標注。

        二是對于情感詞典內(nèi)未包含的詞語,利用同義詞林,計算其與HowNet中詞語的相似度,據(jù)此對該詞進行標注。

        三是否定詞處理,一句話中若出現(xiàn)奇數(shù)次否定詞,則該句話的情感傾向應發(fā)生轉(zhuǎn)變。所以,統(tǒng)計出否定詞出現(xiàn)次數(shù)的奇偶性判斷是否需要轉(zhuǎn)變情感傾向。

        在R語言中進行編程設(shè)計之后,得到三種不同品牌大米在同一主題詞下的消費者滿意度,如圖所示。

        圖 消費者對各主題滿意度的直方圖

        由上圖可知:

        一是在物流方面,由于抓取的評論來源于不同的電商平臺,在某種程度上,物流之間的評論并不能完全體現(xiàn)出差別,所以三種不同品牌的大米消費者對于物流之間的差距甚微、滿意度基本持平,各品牌之間的差異不大,均在72.5%。

        二是在口感方面,三種品牌大米就有了較為明顯的差異。其中,屬于東北米的長粒香大米獲得了83.3%消費者的青睞,反觀稻花香和蘇軟香大米,在口感方面,消費者滿意度分別為41.8%與63.2%。

        三是在品質(zhì)方面,蘇軟香大米獲得消費者滿意度最高,為72.1%,主要體現(xiàn)在該類評論中:“包裝是真空袋,不易破損、漏氣”由于包裝好,所以大米新鮮,消費者滿意度自然就提高了。反觀,稻花香大米,它獲得的滿意度最低,為43.5%,與蘇軟香大米相比較,主要是由于包裝不好,導致破損,漏氣,從而影響消費者的滿意度。雖然長粒香大米的口感最好,但在綜合品質(zhì)方面,其消費者滿意度也僅為一半。

        四是在價格方面,呈現(xiàn)出與在品質(zhì)方面類似的趨勢。蘇軟香大米滿意度仍為最高,為62.9%。稻花香大米依然最低,為42.6%。長粒香大米表現(xiàn)也中規(guī)中矩,為51.8%。

        五是在活動方面,出現(xiàn)了反常的態(tài)勢,稻花香大米滿意度最高,長粒香與蘇軟香相差無幾,均在一半左右。

        六、結(jié)論

        對北大荒米業(yè)提出以下建議。

        一是作為東北地區(qū)的米業(yè)公司,必須要牢固把握自身產(chǎn)品的特色。重所周知,東北米晶瑩剔透、顆粒飽滿。無論是煮粥還是做米飯,都軟糯香甜。所以,東北米的質(zhì)量無論是在口感還是外觀上,都是蘇北米以及其它地區(qū)的大米不能比擬的。強調(diào)這一事實,符合消費者購物的求實心理,從而在競爭激烈的米業(yè)市場能擁有一片天地。

        二是產(chǎn)品的包裝不容忽視。上文曾提到,雖然蘇軟香大米口感欠佳,但它的包裝做的好,所以也能更多地吸引消費者的注意。故本文建議北大荒米業(yè)在原有的包裝技術(shù)基礎(chǔ)上,盡可能地提升自己產(chǎn)品的包裝質(zhì)量,以及美觀程度,從求異心理的角度深深吸引消費者的眼光。

        三是同種產(chǎn)品價格越低滿意度越高,企業(yè)應想盡方法降低成本、壓低價格為消費者提供更大的優(yōu)惠,薄利多銷實現(xiàn)雙贏。

        四是對于產(chǎn)品的相關(guān)促銷活動也不能少,無論是線下,還是線上,都應適量舉行促銷活動,提高產(chǎn)品知名度和影響力,從而一定程度上提升產(chǎn)品競爭軟實力。

        猜你喜歡
        特征詞爬蟲主題詞
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        基于改進TFIDF算法的郵件分類技術(shù)
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應用
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        面向文本分類的特征詞選取方法研究與改進
        我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        2014年第16卷第1~4期主題詞索引
        在线观看一区二区三区国产| 午夜a福利| 免费jjzz在线播放国产| 国产亚洲午夜精品| AV在线毛片| 久久精品国产亚洲av一| 亚洲一区二区自偷自拍另类| 在线视频一区二区在线观看| 国产精品亚洲精品专区| 日韩精品免费在线视频一区| 一本色道久久亚洲综合| 精品久久久久久无码中文野结衣| 欧美日韩精品一区二区三区高清视频| 国产内射在线激情一区| 国内精品一区视频在线播放| 亚洲精品天堂av免费看| 亚洲香蕉av一区二区蜜桃 | 青青河边草免费在线看的视频| 日本免费视频| 乱中年女人伦av一区二区| 亚洲国产日韩欧美一区二区三区| 国产亚洲精久久久久久无码77777 丝袜足控一区二区三区 | 少妇无码太爽了在线播放| 成年女人免费视频播放体验区 | 国产又滑又嫩又白| 免费一级毛片麻豆精品| 无码AⅤ最新av无码专区| 日本高清在线一区二区三区| 亚洲av少妇高潮喷水在线| 日韩精品无码一区二区三区四区 | 富婆如狼似虎找黑人老外| 九九久久国产精品大片| 国产中文字幕亚洲综合| 男人的天堂av你懂得| 国产亚洲成人av一区| 亚洲熟妇无码一区二区三区导航| 亚洲国产精品久久久久秋霞1| 国产精品无码专区综合网| 区一区一日本高清视频在线观看| 熟妇人妻精品一区二区视频| 丰满人妻被两个按摩师|