亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于電商評(píng)論的網(wǎng)購商品特征提取及價(jià)格預(yù)測

        2021-07-27 11:13:36普晟昱
        關(guān)鍵詞:隨機(jī)森林特征提取

        普晟昱

        摘? 要:隨著電子商務(wù)的不斷革新,網(wǎng)購消費(fèi)者在眾多同類型商品中挑選一件物美價(jià)廉的商品需要耗費(fèi)大量時(shí)間和精力。本文以京東商城羽毛球商品為例,通過LDA主題模型從暢銷商品的電商評(píng)論中挖掘用戶購買羽毛球商品的需求信息,據(jù)此提取商品特征作為建立模型所需的解釋變量,建立對(duì)商品價(jià)格的回歸預(yù)測模型。得出結(jié)論,基于電商評(píng)論提取商品特征建立價(jià)格預(yù)測模型的方法可以較準(zhǔn)確地預(yù)測商品平均價(jià)格,優(yōu)化消費(fèi)者購買決策過程,提升電商平臺(tái)運(yùn)營服務(wù)能力。

        關(guān)鍵詞:電商評(píng)論? LDA主題分析? 特征提取? 價(jià)格預(yù)測? 隨機(jī)森林

        中圖分類號(hào):F713.36? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? 文章編號(hào):1674-098X(2021)02(a)-0124-06

        Feature Extraction and Price Forecasting of Online Commodities Based on E-commerce Comments

        PU Chengyu

        (School of Mathematics and Statistics, Nanjing University of Information Science & Technology, Nanjing, Jiangsu Province, 210044 China)

        Abstract: With the continuous innovation of e-commerce, online shopping consumers need to spend a lot of time and energy to choose a product attractive in price and quality among many similar products. Taking the badminton commodities of Jingdong Mall as an example, this paper uses the LDA theme model to mine the demand information of users to buy badminton commodities from the e-commerce comments of popular commodities, and then extracts the commodity features as the explanatory variables needed to build the model and establishes a regression prediction model for commodity prices. The conclusion is that the method of building a price prediction model based on the extraction of commodity features based on e-commerce comments can forecast the average price of commodities more accurately, optimize the purchasing decision-making process of consumers, and improve the operation and service capability of the e-commerce platform.

        Key Words: E-commerce comments; LDA theme analysis; Feature extraction; Price forecasting; Random forest

        隨著電子商務(wù)技術(shù)的不斷革新,網(wǎng)絡(luò)購物現(xiàn)如今已經(jīng)成為百姓購物的主要方式之一。截至2020年6月,我國網(wǎng)絡(luò)購物用戶規(guī)模達(dá)7.49億,較2018年底增長1.39億[1]。電子商務(wù)的開放性和便利性讓消費(fèi)者用戶足不出戶就能“貨比三家”,買到物美價(jià)廉的商品,商家也能獲取到傳統(tǒng)線下運(yùn)營模式不能比擬的市場規(guī)模,越來越多的商家進(jìn)駐電商平臺(tái)使得商品數(shù)量和類型呈現(xiàn)井噴式增長。研究發(fā)現(xiàn),用戶是否購買商品,主要取決于在線商品性價(jià)比與消費(fèi)者需求訴求[2]。從消費(fèi)者的角度來看,繁多的同類型商品給消費(fèi)者的選擇帶來困難,挑選一件性價(jià)比高的商品需要耗費(fèi)用戶大量的時(shí)間與精力。從電商平臺(tái)的角度看,改善用戶選擇流程,提升用戶購物體驗(yàn)?zāi)軌蝻@著提升平臺(tái)用戶忠誠度和推廣購買轉(zhuǎn)化率。

        數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用越來越廣泛,在電子商務(wù)智能推薦服務(wù)中的關(guān)聯(lián)規(guī)則算法[3],基于電商產(chǎn)品評(píng)論數(shù)據(jù)的文本挖掘方法[4],針對(duì)不同消費(fèi)群體網(wǎng)購決策影響因素研究的聚類分析算法[5]等在電商大數(shù)據(jù)發(fā)展中起到重要作用。目前學(xué)者在針對(duì)電子商務(wù)領(lǐng)域的用戶評(píng)論研究大多集中于評(píng)論本身所包含的信息,鮮有學(xué)者將電商評(píng)論挖掘出的信息更進(jìn)一步運(yùn)用到回歸預(yù)測模型中。如嚴(yán)建援等針對(duì)在線評(píng)論內(nèi)容對(duì)評(píng)論有用性的影響的研究[6],李涵昱等針對(duì)商品評(píng)論進(jìn)行的情感傾向性分析研究[7],國顯達(dá)等提出Gaussian LDA主題模型挖掘京東商城等在線評(píng)論中用戶所表達(dá)可能的主題的研究[8]。

        本文以京東商城的羽毛球商品為例,基于暢銷商品評(píng)論挖掘用戶需求,提取商品特征作為模型解釋變量,建立商品價(jià)格的回歸預(yù)測模型。為用戶購買高性價(jià)比羽毛球商品提供參考,也為電商平臺(tái)改善用戶體驗(yàn)提供思路。

        1? 研究方法介紹

        1.1 基于電商評(píng)論的商品特征提取及價(jià)格預(yù)測模型

        本文提出了基于電商評(píng)論的網(wǎng)購商品價(jià)格預(yù)測模型,主要包括六個(gè)步驟,如圖1所示。

        (1)暢銷商品評(píng)論抓?。鹤ト≡u(píng)論過萬的暢銷商品的最近評(píng)論,包含評(píng)論的內(nèi)容、評(píng)論所屬商品等信息。

        (2)評(píng)論文本處理:包括文本去重、機(jī)械壓縮去詞、短句刪除和文本分詞等步驟。

        (3)LDA主題分析獲取用戶需求:運(yùn)用基于Gibbs抽樣的LDA主題模型分析店商評(píng)論中用戶可能的多個(gè)主題傾向,即用戶需求。

        (4)商品特征抓?。焊鶕?jù)得到的用戶需求在電商平臺(tái)中抓取所有與之相關(guān)的商品特征數(shù)據(jù),作為預(yù)測模型的解釋變量,包括商品價(jià)格、店鋪類型、評(píng)論數(shù)量等信息。

        (5)變量預(yù)處理:對(duì)響應(yīng)變量和解釋變量進(jìn)行預(yù)處理,包括正則表達(dá)式處理、缺失值處理和異常值處理等。

        (6)建立商品價(jià)格預(yù)測模型:建立預(yù)測模型、評(píng)價(jià)模型。

        1.2 LDA主題模型

        LDA主題模型是Blei等于2003年提出的無監(jiān)督生成式主題模型[9],假設(shè)待分析文檔集D由M個(gè)文檔組成,即;其中每個(gè)文檔由個(gè)詞組成,即;M個(gè)文檔共分布了K個(gè)主題。

        對(duì)于分布方面LDA模型假設(shè)主題在文檔中的分布服從一個(gè)參數(shù)為的多項(xiàng)分布,詞在主題中的分布服從一個(gè)參數(shù)為的多項(xiàng)分布,參數(shù)和分別來自服從超參數(shù)和的狄利克雷先驗(yàn)分布。則可定義一篇文檔的生成過程如下:對(duì)于某個(gè)文檔,首先從主題分布中抽取一個(gè)主題,再從主題z對(duì)應(yīng)的詞分布中抽取一個(gè)單詞,如此重復(fù)次即得到文檔。該生成過程可由圖2中的模型結(jié)構(gòu)示意圖表示。在文檔 條件下生成詞W1的概率可以表示為:

        (1)

        其中表示詞w1屬于第s個(gè)主題的概率,表示第S個(gè)主題在文檔dj中的概率。

        基于該原理,利用Gibbs采樣算法對(duì)參數(shù)和進(jìn)行估計(jì)即可得到主題在文檔中的多項(xiàng)分布和詞在主題中的多項(xiàng)分布[10]:

        (2)

        其中,表示文檔中包含的主題的個(gè)數(shù);表示詞在主題中出現(xiàn)的次數(shù)。

        2? 實(shí)例分析

        2.1 暢銷商品的評(píng)論獲取

        本文數(shù)據(jù)來源于京東商城體育用品分類下的羽毛球商品,利用八爪魚網(wǎng)絡(luò)爬蟲工具爬取用戶評(píng)論數(shù)據(jù)??紤]到評(píng)論過萬的暢銷商品包含優(yōu)質(zhì)評(píng)論的數(shù)量更多,更有利于從中提取用戶需求信息,因此分別抓取這些暢銷商品的最近評(píng)論,共收集到13419條評(píng)論數(shù)據(jù),包含評(píng)論的內(nèi)容、評(píng)論所屬商品、評(píng)論時(shí)間等信息。

        2.2 商品評(píng)論文本處理

        文本預(yù)處理方法中的文本去重、機(jī)械壓縮去詞和短句刪除被廣泛運(yùn)用于電商評(píng)論分析中,圖3所示為上述預(yù)處理方法的步驟和示例。預(yù)處理后的評(píng)論語料用Jieba分詞中的混合模型進(jìn)行分詞,它結(jié)合使用最大概率法和隱式馬爾科夫模型,對(duì)中文文本的分詞效果好。分詞后的文本還需刪除停用詞,即刪除“我”、“的”、“說”等不包含實(shí)際意義的詞,以提升分析效率,減少噪聲。經(jīng)過上述評(píng)論文本的處理后,根據(jù)每個(gè)詞在所有評(píng)論中出現(xiàn)的頻率做出如圖4所示的詞云圖,圖中詞的字體越大表示該詞在所有文本中出現(xiàn)的頻次越高。

        2.3 LDA主題分析獲取用戶需求

        由圖4的用戶評(píng)論詞云圖可以看出,經(jīng)過分詞后的評(píng)論確實(shí)能夠反映出用戶對(duì)于產(chǎn)品的需求,例如商品的包裝、外觀,球的飛行、速度、羽毛,物流情況等,因此進(jìn)一步采用LDA主題分析模型將用戶需求信息提取出來。本文用R軟件topicmodels包中基于Gibbs抽樣的LDA模型實(shí)現(xiàn)用戶評(píng)論的主題分析。LDA主題模型建立的關(guān)鍵是確定主題數(shù)量,運(yùn)用十折交叉驗(yàn)證方法計(jì)算平均困惑度和平均對(duì)數(shù)似然值,結(jié)果見圖5。根據(jù)極小化困惑度和極大化對(duì)數(shù)似然值下減少主題數(shù)的原則確定提取主題數(shù)為15。

        經(jīng)LDA主題分析后輸出每個(gè)主題對(duì)應(yīng)的前十個(gè)高頻特征詞,限于篇幅,僅于表1中列出7個(gè)主題(每個(gè)主題5個(gè)詞)的結(jié)果。結(jié)合實(shí)際意義,將每個(gè)主題對(duì)應(yīng)的高頻特征詞分別總結(jié)凝練為一個(gè)主題詞來概括表示該主題,如表1主題1中所示的高頻特征詞“配送、慢、收到”等詞表達(dá)了用戶對(duì)快遞配送的需求,因此將該主題歸為“快遞”需求。依此類推本文分別得到的15個(gè)主題詞(即用戶需求)為快遞、材質(zhì)、耐打、服務(wù)、評(píng)價(jià)、做工、羽毛、球頭、手感、包裝、球速、飛行、品牌、店鋪和售后。

        2.4 商品特征抓取和變量預(yù)處理

        在LDA主題模型確定的15個(gè)用戶需求指導(dǎo)下,可以有目的性地從消費(fèi)者的角度提取商品特征作為預(yù)測模型的解釋變量,優(yōu)化模型的變量選擇過程。綜合考慮專業(yè)運(yùn)動(dòng)員對(duì)羽毛球性能的解釋和商品特征數(shù)據(jù)的易獲取性,諸如表1中用戶需求“售后”可由“售后服務(wù)分?jǐn)?shù)”來反映;用戶需求“耐打”主要取決于羽毛球的羽毛材質(zhì)和庫存存放時(shí)間長短即上市時(shí)間;用戶需求“飛行”主要由羽毛球的羽毛材質(zhì)、毛片形狀、球頭材質(zhì)和商品毛重等多重因素決定等等。本文利用八爪魚爬蟲工具從電商平臺(tái)商品詳情網(wǎng)頁中共提取到14個(gè)反映用戶需求的商品特征作為模型解釋變量,商品特征與用戶需求的對(duì)應(yīng)關(guān)系如圖6所示。

        由于商品名稱的特殊性,所爬取到的商品詳情信息中存在“羽毛球拍”、“羽毛球服”等無關(guān)商品信息,本文利用自然語言處理的正則表達(dá)式將這些信息剔除。另外為了分析的量綱一致性,商品售賣單位統(tǒng)一為市面常售的12只一桶裝的鵝毛或鴨毛材質(zhì)羽毛球。經(jīng)初步篩選后,共保留1620條羽毛球商品詳情數(shù)據(jù)。對(duì)于數(shù)值型變量缺失情況采用均值填充;分類型變量缺失情況將其他變量作為解釋變量,缺失變量作為響應(yīng)變量建立隨機(jī)森林模型,用預(yù)測值填充缺失值。對(duì)于數(shù)據(jù)偏斜很大的評(píng)論數(shù)變量進(jìn)行離散化,將評(píng)論數(shù)0~50記為銷量較差、50~200為銷量一般、200~1000為銷量較好、1000~10000為銷量很好、大于10000為暢銷商品。預(yù)處理后的變量類型和取值見表2。

        2.5 商品價(jià)格預(yù)測模型

        根據(jù)LDA主題分析提取的解釋變量對(duì)羽毛球商品價(jià)格建立回歸預(yù)測模型??紤]商品特征中同時(shí)包含數(shù)值型變量和分類型變量,為確定合適的預(yù)測回歸模型,本文分別選用統(tǒng)計(jì)上常用的集成學(xué)習(xí)、核方法和線性方法中最具代表性的隨機(jī)森林模型、支持向量回歸模型和多元線性回歸模型對(duì)變量進(jìn)行擬合,評(píng)估各模型在實(shí)際應(yīng)用中的表現(xiàn),選擇最優(yōu)模型。本文基于十折交叉驗(yàn)證方法,計(jì)算統(tǒng)計(jì)回歸中常用的均方根誤差(RMSE)和平均絕對(duì)百分比誤差(MAPE)評(píng)估模型的泛化能力于表3列出。結(jié)果證明基于集成學(xué)習(xí)的隨機(jī)森林模型在表現(xiàn)上優(yōu)于支持向量回歸和多元線性回歸模型,因此最終建立基于隨機(jī)森林的羽毛球商品價(jià)格模型,模型擬合優(yōu)度為0.85,擬合效果較好。

        圖7顯示了各解釋變量在模型中的重要性條形圖,可見前五個(gè)影響羽毛球商品價(jià)格的因素分別是商品品牌、評(píng)價(jià)數(shù)量、毛片分類、售后服務(wù)和物流履約。其中羽毛球商品的品牌在模型中重要度最高,其次是商品評(píng)價(jià)數(shù)量。是否京東自營和店鋪類型在模型中重要度較低,說明羽毛球商品的價(jià)格與線上經(jīng)營渠道的相關(guān)性不大。結(jié)合表2中各變量所描述類別來看,羽毛球商品價(jià)格主要由商品自身屬性和售后服務(wù)決定,店鋪的銷售渠道和方式對(duì)其影響微乎其微。

        3? 結(jié)論

        本文通過LDA主題模型從暢銷商品的電商評(píng)論中挖掘用戶購買羽毛球商品的需求信息,據(jù)此提取商品特征作為建立模型所需的解釋變量。運(yùn)用十折交叉驗(yàn)證方法計(jì)算對(duì)比隨機(jī)森林模型、支持向量回歸模型和多元線性回歸模型的泛化能力,最終建立了基于電商評(píng)論的商品特征提取及價(jià)格預(yù)測模型。模型顯示影響羽毛球商品價(jià)格的因素可以分為商品自身屬性和售后服務(wù)兩方面。對(duì)于商品自身屬性而言,羽毛球品牌對(duì)價(jià)格影響最大,消費(fèi)者在網(wǎng)購羽毛球商品時(shí)若選購不同品牌的羽毛球其價(jià)格差異會(huì)比較大,可根據(jù)自身水平?jīng)Q定購買何種檔次,如大眾品牌紅雙喜的羽毛球商品主要定位低端市場,價(jià)格總體較低,適合業(yè)余健身愛好者購買;而如日本品牌尤尼克斯的羽毛球商品主打中高端市場,價(jià)格總體偏高。針對(duì)水平較高的業(yè)余愛好者或者專業(yè)羽毛球運(yùn)動(dòng)員,可以進(jìn)一步根據(jù)自身對(duì)羽毛球如飛行穩(wěn)定性、耐打程度等性能要求,運(yùn)用該模型計(jì)算出符合相應(yīng)需求的羽毛球大致價(jià)位,對(duì)自己的購買提供參考,以達(dá)成更優(yōu)質(zhì)的運(yùn)動(dòng)體驗(yàn)。對(duì)于售后服務(wù)而言,商品包裝、商家默認(rèn)快遞公司的服務(wù)、是否包郵等都對(duì)商品價(jià)格有一定影響,如京東自營的商品物流履約度極高,但價(jià)格相對(duì)同樣產(chǎn)品的其他商家更高,且需要額外支付郵費(fèi)。

        綜上所述,本文基于電商評(píng)論提取商品特征建立價(jià)格預(yù)測模型的方法可以較準(zhǔn)確地給出商品平均價(jià)格,消費(fèi)者在購買羽毛球商品時(shí)可以根據(jù)自身對(duì)售后服務(wù)和商品屬性的要求結(jié)合預(yù)測價(jià)格選擇適合自己的羽毛球商品,優(yōu)化消費(fèi)者購買決策過程。對(duì)電商平臺(tái)而言,建立上述預(yù)測模型有利于提升用戶購物體驗(yàn),增強(qiáng)用戶粘度,有助于提升平臺(tái)對(duì)商品價(jià)格的管控,保質(zhì)保價(jià)的同時(shí)提升平臺(tái)運(yùn)營服務(wù)能力,也能夠幫助廠家認(rèn)識(shí)消費(fèi)者需求與價(jià)格之間的相關(guān)關(guān)系,為廠家生產(chǎn)運(yùn)營升級(jí)提供有效支撐。

        參考文獻(xiàn)

        [1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC). 第46次中國互聯(lián)網(wǎng)絡(luò)發(fā)展現(xiàn)狀統(tǒng)計(jì)報(bào)告[R]. 2020-09.

        [2] 韋建國,王玉瓊.基于網(wǎng)購平臺(tái)大數(shù)據(jù)的電子商務(wù)用戶行為分析與研究[J].湖北理工學(xué)院學(xué)報(bào), 2019, 35(3):34-38,57.

        [3] Marcin Szymkowiak, Tomasz Klimanek, Tomasz Józefowski. Applying Market Basket Analysis to Official Statistical Data[J]. Econometrics, 2018, 22(1):39-57.

        [4] 陳義.文本挖掘在網(wǎng)購用戶評(píng)論中的應(yīng)用研究[D]. 杭州:浙江工商大學(xué), 2018.

        [5] 陳梅梅,薛陽陽.基于消費(fèi)群體聚類的網(wǎng)絡(luò)購買決策關(guān)鍵影響因素分析[J].統(tǒng)計(jì)與決策,2015(3):49-51.

        [6] 嚴(yán)建援,張麗,張蕾.電子商務(wù)中在線評(píng)論內(nèi)容對(duì)評(píng)論有用性影響的實(shí)證研究[J].情報(bào)科學(xué),2012,30(5): 713-716.

        [7] 李涵昱,錢力,周鵬飛.面向商品評(píng)論文本的情感分析與挖掘[J].情報(bào)科學(xué),2017,35(1):51-55.

        [8] 國顯達(dá),那日薩,高歡,等.基于Gaussian LDA的在線評(píng)論主題挖掘研究[J].情報(bào)學(xué)報(bào),2020,39(6):630-639.

        [9] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research (JMLR), 2003(3): 993–1022.

        [10] 張良均,云偉標(biāo),王路,等.R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版社,2015.

        [11] Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

        [12] 劉敏,郎榮玲,曹永斌.隨機(jī)森林中樹的數(shù)量[J]. 計(jì)算機(jī)工程與應(yīng)用,2015(5):126-131.

        猜你喜歡
        隨機(jī)森林特征提取
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識(shí)別
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        Bagging RCSP腦電特征提取算法
        隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
        基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測
        欧美人与动人物牲交免费观看久久| 一区二区三区精彩视频在线观看| 久久精品国产白丝爆白浆| 亚洲国产综合精品中久| 久久久精品中文字幕麻豆发布| 日韩欧美成人免费观看| 亚洲色偷拍区另类无码专区| 最新欧美一级视频| 极品新娘高清在线观看| 一区二区三区国产黄色| 亚洲人成欧美中文字幕| 精品国产aⅴ无码一区二区| 色欲AV无码久久精品有码| 日韩一二三四区免费观看| 日本a爱视频二区三区| 性无码一区二区三区在线观看| 成人爽a毛片免费网站中国| 看女人毛茸茸下面视频| 久久精品国产精品亚洲| 少妇放荡的呻吟干柴烈火动漫| 色窝窝无码一区二区三区2022| 中文字幕中文一区中文字幕| 中国男男女在线免费av| 久久精品亚洲精品国产色婷| 亚洲中文字幕无码爆乳| 国产高清精品自在线看| av在线男人的免费天堂| 老熟女富婆激情刺激对白| 久久久久免费看成人影片| 丰满人妻熟妇乱又伦精品视| 日本一本草久国产欧美日韩| 精品国产女主播一区在线观看| 亚洲大尺度无码无码专区| 欧美大屁股xxxx| 中文字幕巨乱亚洲| 少妇人妻中文字幕在线| 极品粉嫩小仙女高潮喷水网站| 久久香蕉国产线看观看精品yw| 国内露脸中年夫妇交换| 亚洲视频在线观看青青草| 亚洲国产中文字幕一区|