亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)及高斯過(guò)程的價(jià)格預(yù)測(cè)分析

        2019-09-24 02:00:29田大偉陳其強(qiáng)
        電腦知識(shí)與技術(shù) 2019年19期
        關(guān)鍵詞:回歸分析大數(shù)據(jù)

        田大偉 陳其強(qiáng)

        摘要:近年來(lái),隨著機(jī)器學(xué)習(xí)及大數(shù)據(jù)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)商品的價(jià)格預(yù)測(cè)分析也逐漸成為研究的熱點(diǎn)。本文主要針對(duì)網(wǎng)絡(luò)商品的價(jià)格預(yù)測(cè)問(wèn)題,提出利用高斯過(guò)程對(duì)商品價(jià)格進(jìn)行建模,根據(jù)商品的歷史銷售數(shù)據(jù),提取影響價(jià)格的特征向量,結(jié)合高斯過(guò)程回歸方法預(yù)測(cè)未來(lái)商品價(jià)格。將該方法用于實(shí)際的母嬰產(chǎn)品銷售數(shù)據(jù)并進(jìn)行回歸分析,實(shí)驗(yàn)結(jié)果表明,基于高斯過(guò)程的價(jià)格預(yù)測(cè)方法對(duì)于實(shí)際商品的價(jià)格預(yù)測(cè)具有一定的指導(dǎo)意義。

        關(guān)鍵詞:大數(shù)據(jù);高斯過(guò)程;回歸分析;價(jià)格預(yù)測(cè)

        中圖分類號(hào):TP391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2019)19-0024-03

        Abstract: Recently, with the rapid development of machine learning and big data technology, the price prediction for the electronic business has been a focus gradually. With respect to the price prediction problem, we model the product price using Gaussian process, construct the features about the price according to the historical sale data, and estimate the future price by Gaussian process regression. Applying the proposed method to the real maternal and child products, the results show that, the price prediction method based on the Gaussian process makes sense for the real product price prediction to some extent.

        Key words: big data; Gaussian process; regression analysis; price prediction

        1研究背景

        1.1價(jià)格預(yù)測(cè)研究背景

        隨著云計(jì)算等新興技術(shù)的高速發(fā)展,大數(shù)據(jù)時(shí)代也正式到來(lái),預(yù)測(cè)分析作為其核心在商業(yè)和社會(huì)中得到了廣泛的應(yīng)用[1]。在科技與全球化飛速發(fā)展背景下,傳統(tǒng)的營(yíng)銷方式已發(fā)生變革,由消費(fèi)者購(gòu)買(mǎi)行為堆砌成的大量數(shù)據(jù)被作為原始數(shù)據(jù),在計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的基礎(chǔ),原始數(shù)據(jù)被整理、挖掘并得出一定規(guī)律,企業(yè)根據(jù)其規(guī)律做出未來(lái)的價(jià)格預(yù)測(cè),并在此基礎(chǔ)上做出準(zhǔn)確的營(yíng)銷決策,這就是價(jià)格預(yù)測(cè)的本質(zhì)[2]。因此,在這沒(méi)有“秘密”的消費(fèi)時(shí)代,現(xiàn)代企業(yè)要想讓營(yíng)銷策略更精確,日常經(jīng)營(yíng)更有效,競(jìng)爭(zhēng)優(yōu)勢(shì)更強(qiáng)勁,就必須首先進(jìn)行價(jià)格預(yù)測(cè),這是必不可少的一步,價(jià)格預(yù)測(cè)為企業(yè)未來(lái)發(fā)展奠定了最堅(jiān)實(shí)的基石[3]。

        1.2價(jià)格預(yù)測(cè)方法介紹

        隨著人們對(duì)價(jià)格數(shù)據(jù)復(fù)雜性的認(rèn)識(shí)不斷深入,數(shù)據(jù)處理技術(shù)不斷發(fā)展,價(jià)格預(yù)測(cè)方法也隨之得以迅速發(fā)展。經(jīng)研究發(fā)現(xiàn),依據(jù)研究對(duì)象的不同,預(yù)測(cè)方法系統(tǒng)可以分為兩大類別,第一類是單一預(yù)測(cè)方法;第二類是組合預(yù)測(cè)方法體系。

        1)單一預(yù)測(cè)方法

        該類方法主要運(yùn)用在石油、農(nóng)產(chǎn)品等敏感商品價(jià)格研究,主要包括:(1)傳統(tǒng)計(jì)量經(jīng)濟(jì)與統(tǒng)計(jì)分析方法,如多元回歸分析、時(shí)間序列分析等。這些方法最大的優(yōu)點(diǎn)是方法簡(jiǎn)便且更新發(fā)展很快。但該方法使用時(shí)由于難以對(duì)數(shù)據(jù)進(jìn)行全面分析,直接使用時(shí)容易產(chǎn)生誤差,影響預(yù)測(cè)的精度。(2)后期發(fā)展的現(xiàn)代預(yù)測(cè)方法,如灰色理論模型、馬爾科夫鏈、小波分析以及人工神經(jīng)網(wǎng)絡(luò)模型等[4]。這些模型對(duì)數(shù)據(jù)復(fù)雜性特征的刻畫(huà)能力較強(qiáng),通常不需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理即可直接用于價(jià)格預(yù)測(cè)。同時(shí),它們也存在一定的問(wèn)題,就是方法更為復(fù)雜。

        2)組合預(yù)測(cè)方法

        組合預(yù)測(cè)方式是在單一預(yù)測(cè)方法的基礎(chǔ)上發(fā)展起來(lái)的,充分利用單一方法的優(yōu)點(diǎn),追求更高的預(yù)測(cè)精度。然而也有證據(jù)表明部分組合方法的預(yù)測(cè)精度要比一些單一預(yù)測(cè)方法要低,這就顯示出恰當(dāng)選擇對(duì)組合方法體系構(gòu)建具有突出重要性,但恰當(dāng)選擇的難度性較大,實(shí)際操作更為復(fù)雜。

        本文以母嬰商品為例,運(yùn)用高斯過(guò)程對(duì)商品價(jià)格進(jìn)行建模,結(jié)合高斯過(guò)程回歸方法對(duì)未來(lái)價(jià)格進(jìn)行預(yù)測(cè)。將該方法用于淘寶商品的價(jià)格預(yù)測(cè),通過(guò)抓取母嬰商品6個(gè)月的數(shù)據(jù)進(jìn)行分析,實(shí)驗(yàn)結(jié)果表明,本文所提出的方法在母嬰商品的價(jià)格預(yù)測(cè)上有一定的指導(dǎo)意義。

        2高斯分布

        高斯分布(Gaussian distribution)又稱正態(tài)分布(Normal distribution),是一個(gè)在各數(shù)理領(lǐng)域中最廣泛運(yùn)用的一種分布,對(duì)統(tǒng)計(jì)學(xué)有著重要的影響作用。

        在高斯分布中,考慮隨機(jī)變量的均值隨著變量數(shù)量的增加,當(dāng)增加到足夠大時(shí),變量均值就越接近于高斯分布,因此二項(xiàng)分布在[N]趨近于無(wú)窮大時(shí)也就會(huì)變成高斯分布,從幾何學(xué)角度來(lái)看,高斯分布中二次多項(xiàng)式的形式:

        [Δ2=(x-μ)TΣ-1(x-μ)]

        [Δ]為[μ]從到[x]的馬哈拉諾比斯距離(Mahalanobis distance),當(dāng)[Σ]是單位陣的時(shí)候可以規(guī)約為歐幾里得距離(Euclidean distance)。若高斯分布中任意元素的均值為[0],那么只考慮協(xié)方差矩陣。

        3方法研究

        3.1? 問(wèn)題建模

        1) 對(duì)價(jià)格進(jìn)行追蹤,對(duì)其歷史數(shù)據(jù)進(jìn)行抓取,在此基礎(chǔ)上對(duì)影響其價(jià)格的數(shù)據(jù)進(jìn)行分析,構(gòu)建影響價(jià)格的特征向量為[x]:[x]包括市場(chǎng)平均價(jià)格、價(jià)格方差、最低價(jià)格、最高價(jià)格等。其向量表示為:[Φ(x)=[?1(x),?2(x),…,?n(x)]],這里假設(shè)[y]是商品價(jià)格,目標(biāo)是構(gòu)建[x]和[y]之間的映射函數(shù),對(duì)未知數(shù)[x]估計(jì)其[y]值。

        2) 在該問(wèn)題中,為了對(duì)未來(lái)商品進(jìn)行估計(jì),前提是對(duì)影響價(jià)格的相關(guān)因素進(jìn)行量化,假設(shè)在[t]時(shí)刻,價(jià)格因素向量為[xt],則目標(biāo)是根據(jù)[xt]估計(jì)下一個(gè)時(shí)刻[t+1]的價(jià)格[yt+1]。因此,在該問(wèn)題中,根據(jù) [xt]去估計(jì)[yt+1],為了描述方便,將[t+1]時(shí)刻的價(jià)格標(biāo)記為[yt]。

        3) 該問(wèn)題的難點(diǎn)是對(duì)價(jià)格特征的合理提取及量化,即[Φ(x)=[?1(x),?2(x),…,?n(x)]]。

        3.2基于高斯過(guò)程的價(jià)格預(yù)測(cè)方法

        1) 設(shè)數(shù)據(jù)集[S=x1,y1,x2,y2,......xn,yn],其中[xn]為多維的輸入矢量[5],[Φ(x)=[?1(x),?2(x),…,?n(x)]] 為多維的輸入矩陣,[yn]則為相應(yīng)的輸出變量,該模型主要任務(wù)就是用輸入[x]與輸出[y]之間的映射關(guān)系,預(yù)測(cè)出與新測(cè)試點(diǎn)[x*]對(duì)應(yīng)的最有可能的輸出值[y*]。

        2)設(shè)高斯過(guò)程中任意元素的均值為[0],協(xié)方差為[k(x,x*)],且選取高斯核函數(shù):[σ*Exp-x-x*2/2],其中[σ]是最大協(xié)方差[6]。

        3)根據(jù)以上假設(shè),則[y=N0,k],其中

        [k=kx1x2…kxnx1???kx1x…kxnxn]

        4)令所估計(jì)的對(duì)象為[y],其所對(duì)應(yīng)的協(xié)方差向量為:

        [K*=kx*x1,kx*x2,kx*x3……kx*xn][K**=Kkx*x(n)]

        5)將[y]與[y*]寫(xiě)成聯(lián)合分布的形式[7],則[y*y=Νk*k-1y,k**-k*k-1kT],其中[k*k-1y]為[y*]的估計(jì)均值,[k**-k*k-1kT]為[y*]方差。

        4實(shí)驗(yàn)分析

        為了驗(yàn)證算法的有效性,將本文所提出的方法用于淘寶母嬰商品的價(jià)格預(yù)測(cè)。數(shù)據(jù)集來(lái)自于淘寶母嬰商品的真實(shí)數(shù)據(jù),實(shí)驗(yàn)中的商品的銷售數(shù)據(jù)是從2015年1月1日到2015年的6月30日,并隨機(jī)選取兩類商品——意大利代購(gòu)進(jìn)口BONOMELLI蜂蜜橙子茶以及嬰兒多功能收納包。

        實(shí)驗(yàn)過(guò)程中利用某一日期前七天的歷史數(shù)據(jù)進(jìn)行價(jià)格特征因素的提取,主要包括當(dāng)前天的價(jià)格[cp]、當(dāng)前天的銷量[cs]、前七天的平均價(jià)格[avgp]、前七天的平均銷量[avgs]、前七天的最高價(jià)格[maxp]以及前七天的最高銷量[maxs]。假設(shè)當(dāng)前為第[t]天,則歷史信息的特征向量為[xt=[cp,cs,avgp,avgs,maxp,maxs]T]。擬利用前七天的歷史數(shù)據(jù)所提取的特征向量對(duì)第二天商品的價(jià)格進(jìn)行預(yù)測(cè),則與[xt]所對(duì)應(yīng)的實(shí)際輸出為第二天的價(jià)格[yt+1]。

        圖1和圖2分別是對(duì)兩件商品的價(jià)格預(yù)測(cè)結(jié)果,其中橫坐標(biāo)是天數(shù)(因?yàn)樾枰x擇前7天的數(shù)據(jù)進(jìn)行特征提取,因此圖中橫坐標(biāo)0表示是2015年1月7日,之后以此類推),縱坐標(biāo)表示商品價(jià)格。圖中離散的十字星——“+”表示的訓(xùn)練樣本,實(shí)線表示的測(cè)試樣本(其中前156個(gè)樣本與訓(xùn)練樣本一致,后20個(gè)樣本為新測(cè)試樣本),陰影面積表示95%的價(jià)格置信區(qū)間。從圖1可以看出,方法對(duì)于蜂蜜橙子茶的價(jià)格預(yù)測(cè)還是比較理想的,無(wú)論是訓(xùn)練集還是測(cè)試集,商品的實(shí)際價(jià)格都是處于95%的置信區(qū)間的價(jià)格區(qū)間中,并且方法對(duì)于后20個(gè)新測(cè)試樣本也具有較好的預(yù)測(cè)性能。而對(duì)于嬰兒多功能收納包的價(jià)格預(yù)測(cè),從預(yù)測(cè)曲線上看,預(yù)測(cè)準(zhǔn)確度要弱于對(duì)于蜂蜜橙子茶的價(jià)格預(yù)測(cè),這主要是由于在嬰兒多功能收納包的銷售數(shù)據(jù)中存在一定的具有較大價(jià)格變化的噪點(diǎn)數(shù)據(jù)(可能是由于商家的促銷而導(dǎo)致價(jià)格及銷量的變化),而方法對(duì)于其中價(jià)格波動(dòng)較小的數(shù)據(jù)還是具有較好的預(yù)測(cè)性能。因此,基于兩個(gè)商品價(jià)格的預(yù)測(cè)分析,本文所使用的基于高斯過(guò)程的商品價(jià)格預(yù)測(cè)方法對(duì)于實(shí)際商品價(jià)格的預(yù)測(cè)還是具有一定的指導(dǎo)意義。

        5結(jié)論

        本文主要針對(duì)商品數(shù)據(jù)的價(jià)格預(yù)測(cè)問(wèn)題,提出利用高斯過(guò)程對(duì)商品的價(jià)格進(jìn)行建模,并利用高斯過(guò)程回歸對(duì)商品價(jià)格進(jìn)行回歸分析,對(duì)未來(lái)商品價(jià)格進(jìn)行預(yù)測(cè)。在問(wèn)題求解過(guò)程中,將過(guò)去七天的銷售數(shù)據(jù)作為對(duì)未來(lái)價(jià)格預(yù)測(cè)的歷史信息,并給予該歷史信息進(jìn)行特征提取,主要包括當(dāng)前天的價(jià)格、當(dāng)前天的銷量、前七天的平均價(jià)格、前七天的平均銷量、前七天的最高價(jià)格以及前七天的最高銷量。

        將基于高斯過(guò)程的價(jià)格預(yù)測(cè)方法用于實(shí)際的淘寶商品銷售數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,該方法對(duì)于實(shí)際商品的價(jià)格預(yù)測(cè)具有一定的指導(dǎo)意義。但是,本文所提出的特征提取方法相對(duì)比較簡(jiǎn)單,沒(méi)有考慮相關(guān)類似商品的價(jià)格變化對(duì)于所預(yù)測(cè)商品價(jià)格的影響,且所利用的歷史數(shù)據(jù)量較少,因此,下一步的工作考慮如何有效地對(duì)歷史信息特征數(shù)據(jù)進(jìn)行提取,提高價(jià)格預(yù)測(cè)的準(zhǔn)確性。

        參考文獻(xiàn):

        [1] 誒里克·西格爾. 大數(shù)據(jù)預(yù)測(cè)[M]. 北京: 中信出版社,2014.

        [2] Costonis M. Big Data[J]. Best's Review, 2012, 113(1): 36-115.

        [3]? 李國(guó)杰. 大數(shù)據(jù)研究的科學(xué)價(jià)值[J]. 中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊, 2012, 8(9): 8-15.

        [4] 范曉. 我國(guó)價(jià)格預(yù)測(cè)方法文獻(xiàn)研究[J]. 財(cái)政與金融, 2014, 5: 105-109

        [5] 何志昆, 劉光斌, 趙曦晶,等. 高斯過(guò)程回歸方法綜述[J]. 控制與決策, 2013, 8: 1121-1129.

        [6] 朱齊丹, 李科, 張智,等.改進(jìn)混合高斯自適應(yīng)背景模型[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2010, 31(10): 1348-1353.

        [7] 傅啟明, 劉全, 伏玉琛,等. 一種高斯過(guò)程的帶參近似策略迭代算法[J]. 軟件學(xué)報(bào), 2013, 32(1): 66?72.

        【通聯(lián)編輯:梁書(shū)】

        猜你喜歡
        回歸分析大數(shù)據(jù)
        中國(guó)經(jīng)濟(jì)發(fā)展?fàn)顩r與大學(xué)生就業(yè)情況的相關(guān)性研究
        城鄉(xiāng)居民醫(yī)療費(fèi)用的相關(guān)性與回歸分析
        基于變形監(jiān)測(cè)的金安橋水電站壩體穩(wěn)定性分析
        森林碳匯影響因素的計(jì)量模型研究
        河北省城鎮(zhèn)居民人均可支配收入與消費(fèi)統(tǒng)計(jì)分析
        商(2016年27期)2016-10-17 05:53:09
        大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        河南省經(jīng)濟(jì)增長(zhǎng)質(zhì)量與創(chuàng)新能力關(guān)系的實(shí)證分析
        日韩女同一区在线观看| 久久人妻少妇嫩草av蜜桃| 欧美色图中文字幕| 人妻少妇喷水意淫诱惑| 放荡成熟人妻中文字幕| 人人爽人人爽人人片av| 国产美女在线精品免费观看网址| 成人综合久久精品色婷婷| 91快射视频在线观看| 中文人妻av久久人妻水蜜桃| 国产福利酱国产一区二区| 国产日韩精品一区二区在线观看播放| 中文字幕人妻在线少妇完整版| 无码精品一区二区三区在线| 成熟丰满熟妇高潮xxxxx视频| 妺妺窝人体色www在线直播| 青青草视频在线观看视频免费| 亚洲乱码一区二区三区在线观看| 国产成人无码a区在线观看视频| 亚洲中文字幕在线一区二区三区| 久久老熟女乱色一区二区| 精品欧美一区二区三区久久久| 欧美精品中文字幕亚洲专区| 国产女人91精品嗷嗷嗷嗷| 青青久久精品一本一区人人 | 亚洲欧美国产日韩天堂在线视| 日本精品一区二区在线看| 久久久精品亚洲一区二区国产av| 三叶草欧洲码在线| 久久无码人妻一区=区三区| 国产91大片在线观看| 亚洲中文字幕无码爆乳app| 精品久久亚洲中文无码| 国产成人久久精品流白浆| 亚洲av熟女一区二区三区站| 香港三级精品三级在线专区| 动漫在线无码一区| 丝袜美腿亚洲综合在线播放| 97碰碰碰人妻无码视频| 亚洲av无码av在线播放| 日本在线播放不卡免费一区二区|