亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義分析的電子商務客戶評價研究

        2017-07-05 18:06:32姬軒楊丹蕾熊冠銘褚伯然
        商場現(xiàn)代化 2017年11期
        關鍵詞:語義分析多元回歸爬蟲

        姬軒+楊丹蕾+熊冠銘+褚伯然

        摘 要:電子商務迅速發(fā)展的背景下,電子商務用戶大數(shù)據(jù)的應用備受關注,其中用戶對商品的評價信息具有較高的研究價值。本文以天貓平臺特定男士T恤為例,使用爬蟲工具Selenium對用戶評價信息進行了爬取,并通過預處理、建立情感詞典、產(chǎn)品特征提取與特征強度計算等方式,對獲取的數(shù)據(jù)進行語義分析。在此基礎上,篩選有效數(shù)據(jù),建立經(jīng)濟計量模型以探究主要因素與銷量之間的關系,得出目前對銷量有顯著影響的因素,并且依據(jù)模型所得出彈性給予企業(yè)針對提高銷量的合理性建議。

        關鍵詞:用戶評價;爬蟲;語義分析;多元回歸;柯布道格拉斯效用函數(shù)

        一、引言

        互聯(lián)網(wǎng)在我國普及度逐步提升,人們對于網(wǎng)絡的依賴性越來越強。面對不斷產(chǎn)生的海量數(shù)據(jù),傳統(tǒng)人工處理的方式己經(jīng)不能適應現(xiàn)代社會的需求。生產(chǎn)商、銷售商希望能夠簡潔直觀的了解用戶對產(chǎn)品的反饋,從而有針對性地對產(chǎn)品或服務進行改進;潛在的消費者希望通過現(xiàn)有的評價來調整個人的購買意向。因此,分析消費者評價,即帶有個人情感傾向的文本便具有相對重要的價值。

        在國內觀點挖掘領域中,有如下研究。劉群等人提出了基于WordNet詞匯語義相似度計算方法,成為目前中文詞語情感極性強度計算得主要根據(jù);HuM等人研究了評論對象特征識別問題,他們提出利用關聯(lián)規(guī)則方法挖掘評論穩(wěn)重隱藏的特征屬性,并提出了根據(jù)句子語義傾向對商品進行總體評價。本文創(chuàng)新點在于利用前人的研究成果,結合TF-IDF算法對評論特征的重要程度量化標注,分別計算出產(chǎn)品特征的總值作為模型建立的基礎。依據(jù)經(jīng)濟學意義進行數(shù)據(jù)篩選并建立模型,將影響銷量的各個因素的顯著性定量表示,并且進一步探究各個影響因素與銷量之間的彈性關系。把彈性作為企業(yè)調提高銷量的依據(jù),最后按照經(jīng)濟學理論對企業(yè)提出可行性建議。

        本文以天貓旗艦店中價格在100元-200元區(qū)間內,且數(shù)據(jù)采集時評價總量在300條以上的品牌男士短袖T恤作為研究對象。主要工作有:一是構建了常用于衣服評價的網(wǎng)絡用語詞典,二是構建了識別特定格式用于服裝評論挖掘結果分類的正則表達式,三是根據(jù)處理過的數(shù)據(jù)進行經(jīng)濟計量模型構建,探究影響銷量因素的顯著性及彈性,四是依據(jù)經(jīng)濟學原理為銷售該類服裝的電商提出合理建議。

        二、研究框架

        本文研究過程大致可以分為四個部分,用戶評論信息采集、數(shù)據(jù)預處理(數(shù)據(jù)清洗、分詞、詞性標注、刪除停用詞)、評論挖掘(產(chǎn)品特征提取、評論觀點極性判斷,評論的強度計算)、回歸分析數(shù)據(jù)預處理、多元回歸模型建立、模型擬合優(yōu)度檢驗、誤差原因分析及經(jīng)濟學意義分析。研究路線如圖1所示。

        三、主要步驟及及關鍵點分析

        1.數(shù)據(jù)爬取。通過WEB自動化工具,編寫爬蟲軟件,將電商平臺上的相應物品評價爬取

        (1)數(shù)據(jù)清洗。網(wǎng)絡評論中有大量網(wǎng)絡化、口頭化的詞語等。所以需要先對數(shù)據(jù)集合進行清洗,主要工作有刪除無用信息、重復信息等。

        (2)分詞。中文分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。中文分詞是文本挖掘的基礎,對于輸入的一段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。分詞的好壞直接決定了語義分析的準確性。

        (3)詞性標注。詞性標注(Part-of-Speech tagging或POS tagging),又稱詞類標注或者簡稱標注,是指為分詞結果中的每個單詞標注一個正確的詞性的程序,也即確定每個詞是名詞、動詞、形容詞或其他詞性的過程。有效提取出產(chǎn)品特點,并對用戶觀點進行極性判斷。

        (4)刪除停用詞。在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞。評論集合中存在大量頻率高,但無實際意義的詞語,例如“了”、“呢”等,將其刪除可以提高分析程序的運行效率。

        2.評論挖掘過程。用戶評論信息挖掘用戶評論信息挖掘包含產(chǎn)品特征提取、評論觀點極性判斷、特征強度計算三個部分。

        (1)產(chǎn)品特征提取。產(chǎn)品特征提取的目的是基于分詞和詞性標注后將產(chǎn)品的特征提取出來,其產(chǎn)品特征包括質量、性價比、外觀等等。

        (2)評論觀點極性判斷。評論觀點極性判斷是指確定用戶對該商品評論的極性,分為褒義和貶義。

        判斷評論觀點的極性,有兩種方法,即基于詞典的方法和基于語料的方法?;谠~典的方法需要建立一個情感極性詞典,以獲得一個詞的極性?;谡Z料的方法是在大量語料基礎上,分析詞之間的語法形式或共現(xiàn)形式來判斷詞的極性。本文采用基于詞典的方法,需要根據(jù)所有評論數(shù)據(jù)建立兩個詞典,分別為褒義詞和貶義詞詞典,然后用詞典再對評論進行一次詞性的標注。

        (3)特征強度計算。TF-IDF(term frequency-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術。它能將文本表示為文中出現(xiàn)的n個加權詞項組成的向量。因此,我們用它來評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。

        詞頻頻率(TF)是某一詞在某一文檔中出現(xiàn)的頻率,因此,tf是關于文檔的統(tǒng)計數(shù)據(jù),它因文檔的不同而異,其作用是試圖度量該詞在文檔中的重要性。

        以上式子中分子nij是詞匯ti在評論dj中的出現(xiàn)次數(shù),而分母則是在評論dj中所有詞匯出現(xiàn)次數(shù)之和。

        逆向文檔頻率(IDF)是指,一個詞匯的普遍重要性度量。某一特定詞匯ti的逆向文檔頻率idfi,可以由總文檔數(shù)目N除以包含該詞匯的文檔數(shù)目{j:ti∈dj},再將得到的商取對數(shù),得到:

        3.挖掘結果匯總

        挖掘結果匯總是指利用統(tǒng)計學、圖表等形式對結果進行展示和分析。

        逐條評論計算強度之后通過正則表達式匹配。將每一個特征詞所包含極性詞的短句提取出來。例如將“快遞沒得說,那是一個快啊”處理成“{@快遞@WL@0.262@}沒得說/PRO#,那是一個快啊。”(/PRO表示褒義詞)這樣的格式,通過正則表達式提取出“{@快遞@WL@0.262@}沒得說/PRO#”,將其算作物流正向評價一個單位,計算出所有特征正面、負面的強度,使得分相加,就是購買該商品用戶對其特征的情感強度,將此結果利用圖表形式顯示,并綜合起來進行多元回歸分析。

        4.回歸分析方法概述

        (1)多元線性回歸。在最初建立模型時使用最小二乘多元線形回歸的方法探究銷量與各變量之間的關系。假設某一因變量y受k個自變量X1,X2,...,Xk的影響,其n組觀測值為(ya,x1a,x2a,……,xka)那么多元線性回歸模型的結構形式為:

        式中:β0,β1,...,βk為待定參數(shù);εa為隨機變量。為消除隨機變量不確定性,我們采用最小二乘法將回歸模型優(yōu)化。最小二乘(OLS)法使殘差(誤差項的估計值)平方和達到最小值來估測代訂參數(shù)的擬合值。

        本研究借助柯布-道格拉斯生產(chǎn)函數(shù)分析效用的特性對于基礎模型加以改進,將原模型中的產(chǎn)量換為產(chǎn)品的銷量,技術、資本、勞動轉換并擴充為與服裝銷量相關的質量、價格、物流等因素,使其能夠適用于本研究。

        四、實驗與結果分析

        1.網(wǎng)絡評論的采集。我們在天貓購物平臺上采集25件價格為100元-200元男士t恤的全部評論,采集時間截止到2016年7月9日22點12分,累計采集到43553條服裝評論信息。根據(jù)收集到的信息建立產(chǎn)品評論語料庫。

        2.數(shù)據(jù)預處理。經(jīng)過數(shù)據(jù)清洗后,利用哈工大LTP語言云平臺以及武漢大學ROSTCM6進行分詞、詞性標注以及刪除停用詞的工作。

        3.評論挖掘。本文根據(jù)分詞結果,統(tǒng)計名詞出現(xiàn)頻率并按降序排列,得到了形容衣服特性以及電商服務方面的多個名詞,將其歸入特征詞匯的名詞集合,共有8個不同的特征詞集合,見表1。

        4.挖掘結果顯示與分析。本文根據(jù)上文的正則表達式匹配方式,可將“質量”等八個產(chǎn)品特征進行同類詞語識別,這樣就可以得到盡可能多的且準確的產(chǎn)品特征。

        以“產(chǎn)品特征詞+褒義/貶義詞”的方法,采用“質量”這一特征為例,結果如表2所示。

        按照上表的方式,提取出評論中的版型、包裝、價格、客服、面料、圖案、物流、質量這8個因素作為關鍵的影響銷量的因素從評論中分離出來,并且分別將每個因素的正負影響通過強度系數(shù)表示出來,作為回歸分析的基礎數(shù)據(jù)(由于數(shù)據(jù)量較多,取小數(shù)點后一位)。

        5.多元回歸結果展示與分析。由于質量這一因素本身包含“性價比”的含義,所以我們將質量和價格兩個因素綜合作為性價比處理。在處理過程中,為了保證性價比這一因素數(shù)據(jù)的準確性,將性價比低的情況分為質量好價格不合理,質量不好價格不合理和質量不好價格合理,將性價比高的情況描述為質量好價格合理,并將數(shù)據(jù)進行加權求和。

        6.模型的建立及擬合度檢驗。第一個模型為線性回歸模型,將銷量作為因變量Y,面料好,面料差,物流快,物流慢,性價比高,性價比低6個變量分別作為自變量X1至X6。利用最小二乘法對于數(shù)據(jù)進行多元回歸,得到圖2的模型:

        模型表達式為:

        Y=59X1-246X2+194X3-350X4-197X5+156X6-1698

        R2值為0.76,擬合度較好,調整過的R2值為0.67出現(xiàn)了一些下降,說明存在一定的相對無關參數(shù),F(xiàn)值為9.46,其相伴的概率為0.000092擬合度較好。

        由于多元線性模型只能反映各個關鍵因素對于銷量影響的顯著性,是相對靜態(tài)的模型,如果企業(yè)想要對于某種因素進行調整,需要得出各個因素的彈性及投資的效用,以保證收益的最大化。

        為實現(xiàn)這一目的,我們引入柯布-道格拉斯效用函數(shù),并且將其自變量分別定義為為面料好,面料差,物流快,物流慢,性價比高,性價比低,將經(jīng)對數(shù)處理后的數(shù)據(jù)通過最小二乘法進行回歸,得到圖3所示結果:

        模型方程為:

        Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2

        R2值為0.74,擬合度較好,調整過的R2值為0.65出現(xiàn)了一些下降,說明存在一定的相對無關參數(shù),F(xiàn)值為8.75,其相伴的概率為0.000150擬合度較好。

        7.數(shù)據(jù)處理結果簡述。(1)最小二乘法多元回歸分析結果。模型表達式為:Y=59X1-246X2+194X3-350X4-197X5+156X6-1698,因變量Y是銷量,自變量X1至X6分別是面料好,面料差,物流快,物流慢,性價比高,性價比低這六個變量。

        對銷量的正面影響最顯著的是物流快,其次是性價比低,面料好。對銷量有顯著負面影響的首先是物流慢,其次是面料差,性價比高。

        (2)柯布-道格拉斯效用函數(shù)結果。模型表達式為Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2,因變量Y是銷量,自變量分別定義為為面料好,面料差,物流快,物流慢,性價比高,性價比低。

        銷售正彈性最大的是性價比低,其次是面料好,第三是物流快。銷售負彈性最顯著的是性價比高,其次是物流慢。

        8.模型的經(jīng)濟學意義。本研究運用兩個模型進行綜合分析,第一個模型運用OLS對現(xiàn)有數(shù)據(jù)進行回歸分析得出各個因素在此時間節(jié)點對于銷量影響的顯著性;第二個模型運用道格拉斯效用函數(shù)的變形結合最小二乘回歸分析得到各個因素影響銷量的彈性大小,從而得到各個因素變化多少對于銷量改變的影響程度。兩個模型結合分析即能夠就現(xiàn)狀進行有效把握,又能夠探究因素的變動對銷量的影響。

        以下將結合數(shù)據(jù)處理結果,針對在天貓旗艦店中出售價格在100元-200元區(qū)間內,且數(shù)據(jù)采集時評價總量在300條以上的品牌男士短袖T恤的商家,從經(jīng)濟學角度提出在正常營業(yè)情況下,即非降價促銷情況下提高銷量的合理性建議。

        (1)合理提高質量——基于性價比考慮。性價比顯示了性能和價格的比例關系,在衣服這種產(chǎn)品中性能表現(xiàn)為質量,因此可以用質量/價格作為性價比的量化公式。

        面對性價比降低的兩種情況需要進一步考慮消費者偏好,即由原T恤價格質量同時上升或同時下降產(chǎn)生的兩種新T恤中更傾向于哪一個。面對性價比消費者往往先考慮質量再考慮價格,即消費者更偏向于質量好的產(chǎn)品,若該產(chǎn)品的價格在價格區(qū)間內,消費者將優(yōu)先購買。

        綜上所述商家在保證利潤的情況下要提高銷量可以選擇同時提高質量和價格,且在消費者承受能力范圍內價格提升幅度大于質量。

        (2)優(yōu)化面料選擇。優(yōu)化面料的選擇可以從三個方面進行:面料厚度,紡織工藝,成分含量。

        就面料厚度來講,要針對該服裝的穿著季節(jié),穿著人群,服裝風格等因素進行綜合考慮。面料過薄會影響著裝的得體性。

        就紡織工藝而言,為了使服裝不至于因為洗滌變形或脫線,應保證其紡織線密度不低于一定標準,并且根據(jù)利潤空間進行設置,控制生產(chǎn)成本。

        就成分含量來看,主要依據(jù)現(xiàn)有消費者的消費偏好,如果消費者傾向于穿著舒適而不過多在意服裝穿著后是否變形,則可以提高服裝棉含量。

        (3)提升物流服務。在數(shù)據(jù)處理結果中除去產(chǎn)品本身質量外,服務質量中的物流質量對銷量也有顯著影響。消費者認可商品后會對服務產(chǎn)生要求,較快的物流速度會使產(chǎn)品對消費者更有吸引力。

        通過改進補貨模式可以維持一定水平庫存,縮短因缺貨導致的客戶等待時間,提高客戶滿意度,同時選擇適當?shù)难a貨模式可以降低庫存成本、訂貨成本和短缺成本。選擇補貨模式主要考慮庫存檢查周期,訂貨量,以及訂貨點,根據(jù)商家自身庫存規(guī)模,銷售預測和缺貨訂貨成本來制定具體模式。采用計算機系統(tǒng)來管理庫存也是提升物流效率的有效方法。

        建立多地點倉庫需要投入較多成本。商家對消費者收貨地點進行統(tǒng)計,在購買密集的地區(qū)建立分倉庫,通過分散庫存來提高物流速度。如果已有多個倉庫,應提高各個倉庫之間的信息共享程度。

        五、總結與不足

        本文挖掘了產(chǎn)品的用戶評論并應用在電商服裝的分析中,結合多元回歸分析,并以100元-200元價格區(qū)間的男士t恤為例,進行了系統(tǒng)的分析實踐。根據(jù)實驗結果,本文采用的方法可用有效挖掘出產(chǎn)品的各類特征并提取其優(yōu)劣,經(jīng)過分析后對該類服裝的改進提出了建議,對產(chǎn)品情報分析以及改進策略具有現(xiàn)實意義。

        本研究通過回歸分析最終得出的結論是可以通過合理提高質量、優(yōu)化面料選擇及提升物流服務三種方式提升服裝銷量。商家需要在保證利潤的情況下要提高銷量可以選擇同時提高質量和價格,且在消費者承受能力范圍內價格提升幅度大于質量。而提高質量是一個比較模糊的建議通過對數(shù)據(jù)的處理發(fā)現(xiàn)在質量中面料對于銷量的影響最為顯著,所以在質量提升時應優(yōu)先選擇面料的優(yōu)化。物流方面的影響也十分顯著,提升物流速度的渠道根據(jù)成本投入由少到多可以分別從選擇合作物流商,改進庫存補貨機制,建立多地點倉庫三個方面來進行。具體的措施還需根據(jù)成本、收益、未來經(jīng)營規(guī)劃等進行綜合考慮。

        本文的研究存在一些不足之處,首先采集數(shù)據(jù)時樣本量稍小,而且樣本內容也偏簡單,在今后研究中可以加入更多的變量信息,如銷售時間,月銷量等;其次由于網(wǎng)絡評論句式過于自由化,本文利用正則表達式提取的句式比較簡單、單一,可能會影響數(shù)據(jù)的準確度,針對這一方面,建立的正則表達式還有待于進一步改進。

        參考文獻:

        [1]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[A].臺北第三屆漢語詞匯語義學研討會論文集,2002:59-76.

        [2]Hu M,Liu B.Mining and summarizing Customer Reviews[C].In:Proc of KDD-2004,2004:168-177.

        [3]趙會芬.電商營銷過程中的商品評價體系研究[D].吉林大學,2015.

        [4]唐先富.電子商務網(wǎng)站的評價研究[D].安徽大學,2014.

        [5]孫鐵利,楊鳳芹.根據(jù)用戶隱式反饋建立和更新用戶興趣模型[J].東北師大學報自然科學版,2003,35(3):101.

        [6]Greengrass E. Information retrieval: a survey[EB/OL].http://dewey.yonsei.ac.kr/ir/data/Greengrass-IR.report.120600.book.pdf,2000- 18-14.

        [7]翟東升,徐穎,黃魯成等.基于產(chǎn)品評論挖掘的競爭產(chǎn)品優(yōu)勢分析[J].情報雜志,2013,32(2):45-52.

        [8]孫建旺,呂學強,張雷瀚.基于詞典與機器學習的中文微博情感分析研究[J].計算機應用與軟件,2014,31(7):177-181.

        [9]吳金源,冀俊忠,趙學武.基于特征選擇技術的情感詞權重計算[J].北京工業(yè)大學學報,2016,42(1):142-151.

        猜你喜歡
        語義分析多元回歸爬蟲
        利用網(wǎng)絡爬蟲技術驗證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡爬蟲和反爬蟲技術研究
        利用爬蟲技術的Geo-Gnutel la VANET流量采集
        電子測試(2018年1期)2018-04-18 11:53:04
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡爬蟲技術
        電子制作(2017年9期)2017-04-17 03:00:46
        江蘇省實施稅收優(yōu)惠政策促進科技創(chuàng)新的實效性研究
        我國大學生人生規(guī)劃自主性的現(xiàn)狀和影響因素
        大學教育(2016年12期)2017-01-03 19:51:15
        基于LDA模型的95598熱點業(yè)務工單挖掘分析
        中國裝備制造業(yè)階段競爭力研究
        新興“被+X”結構探析
        上證綜指收益率的影響因素分析
        時代金融(2016年27期)2016-11-25 17:21:02
        亚洲成a人片在线观看中| 午夜免费福利小电影| 亚洲av无码专区首页| 久久精品国波多野结衣| 国产不卡一区在线视频| 国产情侣亚洲自拍第一页| 国产av一区二区三区天堂综合网| 国产成a人亚洲精v品无码性色| 国产午夜视频免费观看| 少妇性l交大片免费1一少| 日韩大片高清播放器大全| 97久久香蕉国产线看观看| 亚洲三级香港三级久久| 91精品国产综合久久国产| 免费观看成人欧美www色| 黑人玩弄人妻中文在线| 日韩毛片久久91| 久久日本视频在线观看| 国产成人亚洲综合无码品善网 | 国产精品人人爱一区二区白浆| 在线观看亚洲av每日更新影片| 亚洲精品乱码8久久久久久日本| 91在线精品老司机免费播放| 国产精品综合色区av| 手机在线观看日韩不卡av| 又长又大又粗又硬3p免费视频| 成黄色片视频日本秘书丝袜| 成人亚洲av网站在线看| 日本真人边吃奶边做爽动态图| 亚洲欧洲中文日韩久久av乱码| 国产极品喷水视频| 亚洲国产av一区二区三区| 99久久免费国产精品| 亚洲中文字幕无码二区在线| 人妻秘书被社长浓厚接吻| 乱老年女人伦免费视频| 乱码一二三入区口| 国产成人福利av一区二区三区| 中文字幕人妻饥渴浪妇| 狠狠色噜噜狠狠狠狠色综合久| 国产精品亚洲综合天堂夜夜|