亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        亞馬遜競(jìng)價(jià)型云服務(wù)定價(jià)策略的分析

        2019-06-06 06:18:10李雪菲榮國(guó)平
        關(guān)鍵詞:競(jìng)價(jià)亞馬遜實(shí)例

        李雪菲,李 錚,張 賀,榮國(guó)平

        1(南京大學(xué) 軟件學(xué)院,南京 210046)2(隆德大學(xué) 電氣與信息技術(shù)系,瑞典 隆德 22363)

        1 引 言

        亞馬遜是云服務(wù)行業(yè)最早開(kāi)發(fā)業(yè)務(wù)的領(lǐng)先巨頭,其彈性云更是受到廣泛應(yīng)用.其中,彈性云的定價(jià)模式共有三種:按需、預(yù)定以及競(jìng)價(jià)[1,2].

        1)按需:消費(fèi)者根據(jù)固定使用單元,為其使用的虛擬機(jī)來(lái)付費(fèi),不需長(zhǎng)期承諾.

        2)預(yù)定:消費(fèi)者為服務(wù)提前支付一定費(fèi)用,并從其使用情況獲得折扣和更低價(jià)格.

        3)競(jìng)價(jià):消費(fèi)者為資源競(jìng)價(jià),當(dāng)投標(biāo)價(jià)超過(guò)定價(jià)則消費(fèi)者方可獲得使用權(quán).

        競(jìng)價(jià)型云服務(wù)以其低廉的價(jià)格和易用性受到廣泛歡迎,可以在花費(fèi)最少的情況下使用高性能的計(jì)算資源.

        由于商業(yè)保密等原因,亞馬遜公司并不向外公布其定價(jià)模式[3].但是,由于競(jìng)價(jià)型云服務(wù)的巨大潛力,研究該種定價(jià)模式一方面可以幫助云服務(wù)供應(yīng)商參考并提供類(lèi)似的定價(jià)模式,另一方面,可以幫助使用競(jìng)價(jià)型云服務(wù)的用戶選擇合適自身的消費(fèi)組合,以達(dá)到節(jié)約其成本的目的[4].

        本次研究以從亞馬遜官方網(wǎng)站獲得的價(jià)格歷史作為樣本,對(duì)數(shù)據(jù)進(jìn)行了整理、篩選和清洗,獲得了1053種云服務(wù)的價(jià)格歷史,每條價(jià)格歷史的價(jià)格數(shù)量從幾百條到五十萬(wàn)條不等.之后,對(duì)應(yīng)繪制了走勢(shì)圖,完成了云服務(wù)價(jià)格歷史的可視化,像股票走勢(shì)一樣,可以直觀地判斷價(jià)格的變化.

        為了挖掘數(shù)據(jù)中隱藏的規(guī)律和特征,采用兩種分類(lèi)方法:KNN分類(lèi)算法和k-means聚類(lèi)算法,對(duì)競(jìng)價(jià)型云服務(wù)做了分類(lèi).結(jié)果顯示,可以很好地對(duì)云服務(wù)進(jìn)行分類(lèi),可從中比較出較為典型的價(jià)格實(shí)例.同時(shí),對(duì)于源數(shù)據(jù)和過(guò)程產(chǎn)生的數(shù)據(jù)進(jìn)行了樸素統(tǒng)計(jì)分析,從中發(fā)現(xiàn)了大量的規(guī)律.

        綜上,本文對(duì)亞馬遜官方提供的大量混雜數(shù)據(jù)做了整理、篩選和清洗,以及可視化、分類(lèi)和數(shù)據(jù)挖掘.繼而,對(duì)價(jià)格歷史繪制了相應(yīng)的走勢(shì),并以?xún)煞N分類(lèi)方法對(duì)云服務(wù)做出了分類(lèi).未來(lái)將以此為基礎(chǔ),繼續(xù)總結(jié)價(jià)格的典型規(guī)律,尋找價(jià)格走勢(shì)共同的特點(diǎn),從而獲得更多對(duì)于定價(jià)策略的認(rèn)識(shí),以達(dá)到為云服務(wù)提供商的定價(jià)參考和對(duì)用戶的消費(fèi)建議的目的.

        2 課題背景及國(guó)內(nèi)外研究現(xiàn)狀

        2.1 云服務(wù)定價(jià)研究現(xiàn)狀

        隨著計(jì)算機(jī)水平的發(fā)展,云計(jì)算技術(shù)和云計(jì)算理念正在不斷發(fā)展.云計(jì)算以一種新型的商業(yè)模式,聯(lián)合基礎(chǔ)設(shè)施、平臺(tái)以及軟件作為服務(wù)的內(nèi)容,通過(guò)網(wǎng)絡(luò)租賃的方式提供給用戶使用.

        黎春蘭[5]等根據(jù)即用即付費(fèi)(pay-per-use)和預(yù)訂(subscription)這兩種定價(jià)模型及其四種形式:每單位定價(jià)、分級(jí)定價(jià)、預(yù)訂定價(jià)和動(dòng)態(tài)定價(jià),以服務(wù)內(nèi)容為依據(jù),進(jìn)一步分析了 IaaS、PaaS和SaaS三種基本的云服務(wù)模型的定價(jià)策略;殷秀葉[6]等提出一種刺激機(jī)制,可以通過(guò)歷史資源使用情況制定預(yù)定價(jià)格.

        2.2 競(jìng)價(jià)型實(shí)例研究現(xiàn)狀

        Javadib等[7]認(rèn)為,在公共云的現(xiàn)貨市場(chǎng)中,隨機(jī)調(diào)度算法和容錯(cuò)機(jī)制是競(jìng)價(jià)型實(shí)例的特征,并通過(guò)最大期望算法和混合高斯分布為競(jìng)價(jià)型實(shí)例提出了一個(gè)數(shù)學(xué)模型[8],這種模型可以擬合競(jìng)價(jià)型實(shí)例的價(jià)格歷史,但由于定價(jià)政策在不斷變化,該存在著一定的局限性;Wee[9]將競(jìng)價(jià)型實(shí)例視為具有實(shí)時(shí)定價(jià)性質(zhì)的計(jì)算資源;Orna Agmon等人[10]認(rèn)為價(jià)格并不是由市場(chǎng)驅(qū)動(dòng)的,有時(shí)可能是由亞馬遜官方指定、提前假設(shè)好;Vivek等[11]提供了一種現(xiàn)貨價(jià)格預(yù)測(cè)算法,以盡可能地延長(zhǎng)連續(xù)使用云服務(wù)的時(shí)間,這一研究非常具有現(xiàn)實(shí)意義.

        Saha[12]提出了一些關(guān)于中小型企業(yè)使用實(shí)例的推薦、Sangho Yi[13]則采用研究斷點(diǎn)的方式,以及Mattess等[14]等研究都針對(duì)于減少用戶成本.

        而William[15]提出了一種資源分配策略,能夠快速地在間歇性的虛擬機(jī)池上運(yùn)行計(jì)算密集型作業(yè);陳冬林[16]等運(yùn)用數(shù)學(xué)模型求解出最優(yōu)定價(jià)區(qū)間,通過(guò)算例驗(yàn)證了價(jià)格變動(dòng)對(duì)市場(chǎng)需求和利潤(rùn)的影響,并分析了需求價(jià)格彈性對(duì)利潤(rùn)的敏感性.

        3 難點(diǎn)分析與解決方案

        1)數(shù)據(jù)集含有大量數(shù)據(jù),實(shí)例種類(lèi)混雜,需要分析的源數(shù)據(jù)總量達(dá)到15.5G以上,析出云服務(wù)種類(lèi)達(dá)1053條.僅根據(jù)數(shù)據(jù)集文本,難以直接判斷單個(gè)實(shí)例的價(jià)格變動(dòng)歷史和價(jià)格變動(dòng)趨勢(shì).

        2)整理以后,析出1053種云服務(wù)實(shí)例,發(fā)現(xiàn)許多實(shí)例具有相似的走勢(shì)形狀,然而,難以直接判斷價(jià)格的共同特征.這意味著,需要對(duì)實(shí)例進(jìn)行分類(lèi),許多實(shí)例有可進(jìn)一步分析的相似之處.然而,使用監(jiān)督學(xué)習(xí)類(lèi)的KNN分類(lèi)方法對(duì)1053種云服務(wù)分類(lèi),較為依賴(lài)主觀的人工標(biāo)簽.

        3)另外,數(shù)據(jù)蘊(yùn)含著許多隱藏規(guī)律,需要找出這些規(guī)律.

        4)由于不同云服務(wù)產(chǎn)生價(jià)格的時(shí)刻不同,因此,在比較不同云服務(wù)實(shí)例時(shí),用歐氏距離判斷遠(yuǎn)近有一定的誤差.

        對(duì)于難點(diǎn)1),可編寫(xiě)程序,整理數(shù)據(jù)集,將每條實(shí)例的價(jià)格歷史整理、篩選、清洗出來(lái).

        對(duì)于難點(diǎn)2),將對(duì)實(shí)例的價(jià)格歷史繪制走勢(shì)圖做好可視化,其次,對(duì)實(shí)例做分類(lèi),挖掘不同云服務(wù)實(shí)例價(jià)格歷史的共同數(shù)據(jù)規(guī)律.對(duì)于人工標(biāo)簽的誤差,將引入k-means算法共同分類(lèi),選取兩種分類(lèi)結(jié)果的交集,作為比較典型的分類(lèi)結(jié)果.

        對(duì)于難點(diǎn)3),將使用樸素統(tǒng)計(jì)方法對(duì)官方原始數(shù)據(jù)以及程序運(yùn)行過(guò)程中獲得的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,獲取最值、方差等等,挖掘數(shù)據(jù)的內(nèi)部規(guī)律.

        對(duì)于難點(diǎn)4),將補(bǔ)齊價(jià)格產(chǎn)生的時(shí)間.

        4 數(shù)據(jù)整理與處理

        從亞馬遜官方網(wǎng)站下載的原始數(shù)據(jù)集,是根據(jù)時(shí)間排列而混雜排布的,如表1所示.因此,第一步需要將按照種類(lèi)、運(yùn)行的操作系統(tǒng),以及數(shù)據(jù)中心所在的地區(qū)這三個(gè)條件組合,篩選出單條組合價(jià)格歷史,以便后續(xù)對(duì)其進(jìn)行更細(xì)致的分析.

        由于亞馬遜官方網(wǎng)站只提供過(guò)去兩個(gè)月內(nèi)的數(shù)據(jù),因此需要在距離上次下載不到兩個(gè)月的時(shí)間內(nèi),下載新的數(shù)據(jù)集,這樣可以保證數(shù)據(jù)集能在時(shí)間上完整地覆蓋.因此數(shù)據(jù)集與數(shù)據(jù)集之間,含有許多重復(fù)的數(shù)據(jù).

        首先,整理和篩選了官方網(wǎng)站下載的混亂數(shù)據(jù)集,獲得了1053種云服務(wù)的購(gòu)買(mǎi)組合方式,每一種云服務(wù)組合都含有一條價(jià)格歷史.其次,對(duì)于價(jià)格歷史做了可視化整理,發(fā)現(xiàn)許多云服務(wù)有相似的價(jià)格軌跡.將基于逐條整理的云服務(wù)價(jià)格歷史做進(jìn)一步的分析,以反向推導(dǎo)的方式推測(cè)其定價(jià)策略.

        4.1 單條數(shù)據(jù)集整理

        由于數(shù)據(jù)集中實(shí)例僅按照價(jià)格產(chǎn)生時(shí)間點(diǎn)排列,因此難于直接分析每個(gè)實(shí)例的特點(diǎn)和歷史.從內(nèi)容來(lái)看,種類(lèi)、系統(tǒng)、地區(qū)三個(gè)條件唯一決定一條實(shí)例,因此,程序依次遍歷這三個(gè)條件,將相同種類(lèi)、使用相同系統(tǒng)、運(yùn)行在相同數(shù)據(jù)中心的實(shí)例數(shù)據(jù)集合到一起.表1是需要整理的數(shù)據(jù)集,來(lái)自2015年9月8日的官網(wǎng).對(duì)其運(yùn)行單條實(shí)例整理程序,析出的某一條實(shí)例的價(jià)格歷史如表2所示,由于篇幅有限僅展示部分.

        在整理數(shù)據(jù)以后,可獲得規(guī)定時(shí)段內(nèi)的、通過(guò)條件組合篩選的價(jià)格歷史.

        4.2 數(shù)據(jù)清洗與可視化

        由于每個(gè)數(shù)據(jù)集的大小從0.2GB到4GB不等,因此如果直接執(zhí)行拼接所有數(shù)據(jù)集并剔除重復(fù)數(shù)據(jù)的程序,會(huì)使得整個(gè)數(shù)據(jù)集異常龐大,不利于擴(kuò)展使用.因此,使用一種不斷擴(kuò)充的方法.首先,對(duì)數(shù)據(jù)集分別執(zhí)行實(shí)例整理程序.在2015年11月4日下載的數(shù)據(jù)集中,獲得了879個(gè)實(shí)例,最后一個(gè)數(shù)據(jù)集,即為從2016年11月19日下載的數(shù)據(jù)集中,獲得了1050個(gè)數(shù)據(jù).

        表1 從亞馬遜網(wǎng)站獲得的云服務(wù)競(jìng)價(jià)型實(shí)例的歷史價(jià)格(部分)
        Table 1 Price history of Amazon spot instance from their official website

        價(jià)格價(jià)格產(chǎn)生的時(shí)間點(diǎn)實(shí)例類(lèi)型操作系統(tǒng)地區(qū)0.27242015-09-08T15:32:31+0200cc2.8xlargeLinux/UNIX(Amazon VPC)us-east-1b0.41802015-09-08T15:32:30+0200r3.8xlargeLinux/UNIX(Amazon VPC)us-east-1a0.37772015-09-08T15:32:30+0200r3.8xlargeLinux/UNIX(Amazon VPC)us-east-1b0.27932015-09-08T15:32:30+0200m3.2xlargeWindowsus-east-1b0.05122015-09-08T15:32:28+0200c1.mediumWindowsus-east-1b0.07522015-09-08T15:32:28+0200m2.xlargeWindowsus-east-1a0.01132015-09-08T15:32:27+0200m1.mediumLinux/UNIXus-east-1c0.07082015-09-08T15:32:26+0200m3.xlargeSUSE Linuxus-east-1e0.06642015-09-08T15:32:26+0200m3.xlargeSUSE Linuxus-east-1c0.08712015-09-08T15:32:25+0200m3.2xlargeLinux/UNIX(Amazon VPC)us-east-1c

        表2 經(jīng)整理us-east-1a地區(qū)的c1.medium 在Linux/Unix(Amazon VPC)系統(tǒng)運(yùn)行的價(jià)格歷史
        Table 2 Price history of c1.medium at us-east-1a zone with Linux/Unix OS

        價(jià)格時(shí)間點(diǎn)價(jià)格實(shí)例類(lèi)型操作系統(tǒng)地區(qū)2015-09-07T22:08:09+02000.0162c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-06T22:07:56+02000.0162c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-05T22:05:56+02000.0162c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-04T22:02:47+02000.0162c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-04T21:56:04+02000.0161c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-04T21:49:24+02000.0162c1.mediumLinux/UNIX(Amazon VPC)us-east-1a2015-09-04T19:39:49+02000.0161c1.mediumLinux/UNIX(Amazon VPC)us-east-1a

        在清洗數(shù)據(jù)的過(guò)程中,還顯示了數(shù)據(jù)產(chǎn)生或結(jié)束的時(shí)段.比如實(shí)例cc1.4xlarge Windows us-east-1b在9月28號(hào)以后就不再產(chǎn)生數(shù)據(jù)了,然而,實(shí)例i2.4xlarge Windows us-east-1a從2015年11月12日開(kāi)始才產(chǎn)生數(shù)據(jù).

        結(jié)果,截至2016年11月19日下載的數(shù)據(jù)集,共從中整理出了1053種實(shí)例的價(jià)格歷史.

        圖1 來(lái)自美國(guó)東部數(shù)據(jù)中心運(yùn)行在Linux/Unix系統(tǒng)上的c1.medium實(shí)例價(jià)格軌跡圖例Fig.1 Plot of price history from c1.medium instance at us-east-1a zone with Linux/Unix OS

        在獲得全年價(jià)格歷史以后,我們?nèi)匀粺o(wú)法直觀地判斷價(jià)格變動(dòng)的歷史.因此,對(duì)其可視化,繪制走勢(shì)圖,將會(huì)直觀反映出實(shí)例在一年以?xún)?nèi)的變化歷史,這將有助于判斷云服務(wù)的類(lèi)型,直觀顯示它的特點(diǎn).圖像中,時(shí)間為橫軸,價(jià)格為縱軸.走勢(shì)圖形式如圖1所示.

        繪圖程序會(huì)自動(dòng)根據(jù)價(jià)格的最大值和最小值來(lái)決定圖像坐標(biāo)軸的數(shù)據(jù)大小.可視化以后,可以對(duì)數(shù)據(jù)的走勢(shì)有更為直觀的判斷和了解.

        另外,實(shí)現(xiàn)了用哈希碼判斷圖像相似度的比較算法[17],可以通過(guò)漢明距離判斷兩個(gè)實(shí)例是否相似.哈希值表征為64位01數(shù)字序列.一般認(rèn)為,漢明距離大于10,可以直接判斷這兩個(gè)圖像不相似,而如果漢明距離小于5,可認(rèn)為兩張圖像非常相似.

        5 KNN分類(lèi)算法

        在繪制了上文中圖中所示的走勢(shì)圖之后,可以發(fā)現(xiàn),許多實(shí)例有著相同的走勢(shì)歷史.因此,對(duì)實(shí)例價(jià)格走勢(shì)進(jìn)行進(jìn)一步的分類(lèi),可以將某一些可以分成一類(lèi)的云服務(wù)特點(diǎn)歸納起來(lái),以求找到比較典型的特點(diǎn).[18]KNN是一種監(jiān)督學(xué)習(xí)算法,因此需要先驗(yàn)知識(shí),首先,需要對(duì)實(shí)例手工標(biāo)注標(biāo)簽.

        參照實(shí)例圖像走勢(shì)情況,給1053個(gè)數(shù)據(jù)中的48個(gè)做了標(biāo)簽,共有7種標(biāo)簽,每種6至8個(gè),由于共析出1053條數(shù)據(jù),因此人工判斷是否相近會(huì)有一定誤差,在這里,筆者選取了認(rèn)為走勢(shì)最為典型的實(shí)例并將其劃分為可確定的7種類(lèi)型.在選取典型實(shí)例作標(biāo)簽以后,使用哈希碼計(jì)算了漢明距離,以確認(rèn)類(lèi)中各實(shí)例確實(shí)相似.典型類(lèi)別的走勢(shì)縮略如下:

        A類(lèi):后三個(gè)月顯著增長(zhǎng)且波動(dòng)穩(wěn)定;B類(lèi):后三個(gè)月顯著增長(zhǎng)且波動(dòng)劇烈;C類(lèi):有少量穩(wěn)定出現(xiàn)的固定值;D類(lèi):無(wú)固定峰值,波動(dòng)劇烈,但是存在穩(wěn)定變化的區(qū)間;E類(lèi):波動(dòng)劇烈且不存在穩(wěn)定變化的區(qū)間;F類(lèi):價(jià)格呈段式變化;G類(lèi):固定峰值出現(xiàn)頻率極高.典型類(lèi)別與其代表圖像如圖2所示.根據(jù)已標(biāo)注標(biāo)簽樣本測(cè)試數(shù)據(jù)的分類(lèi).通過(guò)交叉驗(yàn)證,可以證明,在K=15的情況下,準(zhǔn)確度可以達(dá)到85%以上.每個(gè)類(lèi)別含有實(shí)例數(shù)量表格如表3所示.

        表3 每個(gè)類(lèi)別含有實(shí)例數(shù)量
        Table 3 Instance type and amount

        實(shí)例類(lèi)別實(shí)例數(shù)量A182B220C273D81E47F3G199

        可以發(fā)現(xiàn),測(cè)試的結(jié)果中,F類(lèi)別僅有3個(gè)實(shí)例.然而,數(shù)量比較多的實(shí)例類(lèi)別大概為200-300左右.這顯示出,人工標(biāo)注的某些類(lèi)別可能含有的實(shí)例較少,而類(lèi)別含實(shí)例數(shù)量較多的,很有可能可以從中細(xì)分出一些子類(lèi)別.

        6 k-means聚類(lèi)算法

        KNN分類(lèi)算法需要獲得先驗(yàn)知識(shí),屬于一種監(jiān)督學(xué)習(xí)算法.在KNN分類(lèi)算法中,我們需要對(duì)數(shù)據(jù)標(biāo)注分類(lèi),這會(huì)產(chǎn)生一些由于人為造成的誤差.與分類(lèi)算法不同的是聚類(lèi)算法.聚類(lèi)算法不需要人工為樣本標(biāo)注標(biāo)簽,是一種將相似點(diǎn)集合到一起的無(wú)監(jiān)督學(xué)習(xí)算法.

        圖2 典型類(lèi)別與其代表圖像Fig.2 Classical types and trend plots

        可以很好地避免掉由于人為產(chǎn)生的誤差.k-means算法作為最經(jīng)典的一種聚類(lèi)算法,結(jié)構(gòu)簡(jiǎn)明,運(yùn)行效率高,且可以展現(xiàn)出較好的聚類(lèi)結(jié)果.

        表4 K-means 每種
        類(lèi)別實(shí)例數(shù)量統(tǒng)計(jì)
        Table 4 Result of k-means
        and instance amount

        實(shí)例類(lèi)別實(shí)例個(gè)數(shù)02051927310041085566103721181299411084

        在確定k值時(shí),使用簇半徑和平均質(zhì)心距離作為判定標(biāo)準(zhǔn),測(cè)試k值從2到30,對(duì)于每個(gè)k值做了50次k-means計(jì)算,取平均值作為判斷依據(jù),結(jié)果顯示如表4所示.

        隨著k值的增大,類(lèi)別的數(shù)量會(huì)越來(lái)越大.另一方面,平均質(zhì)心距離則會(huì)不斷減小.為了權(quán)衡平均質(zhì)心和k值的關(guān)系,計(jì)算了平均質(zhì)心距離的下降速度.可發(fā)現(xiàn),從k=2開(kāi)始平均質(zhì)心距離迅速下降,在k=11時(shí)下降到0.874左右,在此期間,質(zhì)心距離差從0.27迅速下降到0.05左右.之后,質(zhì)心距離差下降速度非常慢,基本維持在0.01-0.02左右.因此,本次研究中,k-means算法中的k值取11.聚類(lèi)的每個(gè)類(lèi)別含有的實(shí)例組合購(gòu)買(mǎi)方式的數(shù)量如表5所示.

        受機(jī)器學(xué)習(xí)中Boosting方法啟發(fā),使用多種分類(lèi)器,然后采用投票的方式,最終將多種分類(lèi)器整合到一起以加強(qiáng)分類(lèi)效果.兩種方法比較,可以選取分類(lèi)結(jié)果的交集,通過(guò)投票法獲得最終結(jié)果,這部分類(lèi)型便會(huì)是潛在的典型價(jià)格類(lèi)別.

        7 補(bǔ)齊法

        競(jìng)價(jià)型云服務(wù)產(chǎn)生價(jià)格的時(shí)間點(diǎn)不完全相同,因此直接計(jì)算價(jià)格分類(lèi)會(huì)產(chǎn)生一些誤差.有學(xué)者在研究時(shí)間序列時(shí)按照周或日的時(shí)間單位,如果云服務(wù)產(chǎn)生價(jià)格的時(shí)間點(diǎn)全部相同,那么就能夠更加精準(zhǔn)地判斷云服務(wù)的分類(lèi).使用補(bǔ)齊法,將沒(méi)有價(jià)格的時(shí)間點(diǎn)用變化之前的價(jià)格補(bǔ)充進(jìn)去,就能使得不同的云服務(wù)在相同的時(shí)間點(diǎn)上都有價(jià)格.

        按照亞馬遜對(duì)動(dòng)態(tài)定價(jià)云服務(wù)的使用規(guī)則說(shuō)明,在價(jià)格再次浮動(dòng)之前,用戶可按照當(dāng)前價(jià)格購(gòu)買(mǎi)云服務(wù).換句話說(shuō),我們?cè)谘a(bǔ)充的虛構(gòu)數(shù)據(jù)采集時(shí)間點(diǎn)上的價(jià)格可以視作下一次變動(dòng)之前的“當(dāng)前價(jià)格“,亦即上一次變動(dòng)后一直沒(méi)再改變的價(jià)格.這一補(bǔ)充數(shù)據(jù)的處理方法除了帶來(lái)數(shù)據(jù)量的增加,對(duì)真實(shí)時(shí)間序列上的價(jià)格數(shù)據(jù)走勢(shì)并未做任何本質(zhì)上的改動(dòng),故此應(yīng)該是可以接受的.這一目的是為了能夠讓不同云服務(wù)實(shí)例的價(jià)格數(shù)據(jù)在相同的時(shí)間序列上嚴(yán)格公允地對(duì)比.

        此外,經(jīng)過(guò)分析和瀏覽已獲得的價(jià)格歷史數(shù)據(jù),發(fā)現(xiàn)存在著不同的實(shí)例,他們的價(jià)格范圍不同但是變動(dòng)趨勢(shì)相似,因此也將被歸為同一類(lèi).為此,在KNN算法中,可用補(bǔ)齊后的數(shù)據(jù)做差,以標(biāo)準(zhǔn)差做為判斷樣本遠(yuǎn)近的條件.

        由于全年數(shù)據(jù)量達(dá)到10G以上,因此在測(cè)試程序之初只使用了2016年11月18日的價(jià)格數(shù)據(jù).從中發(fā)現(xiàn),即使是以天為單位做計(jì)算,僅對(duì)兩個(gè)實(shí)例補(bǔ)齊,使用標(biāo)準(zhǔn)差做分類(lèi)判別依據(jù)時(shí),計(jì)算時(shí)長(zhǎng)仍然可達(dá)到16小時(shí)以上.然而,如果僅以天作為樣本單位,那么全年的數(shù)據(jù)將會(huì)失去其本身的全局意義.

        表5 K-means 最佳k值選擇測(cè)試結(jié)果
        Table 5 Determine the optimal number of clusters in a dataset

        k值平均質(zhì)心距離類(lèi)簇半徑k值平均質(zhì)心距離類(lèi)簇半徑k值平均質(zhì)心距離類(lèi)簇半徑21.78596277.422658376120.8579416445.062190141220.6950251034.40473745431.5109948526.704772864130.8314372424.855551549230.6960980584.30238814841.2726391586.388680257140.8185823224.791342623240.6825492754.23618649751.2491980255.84864931150.8022433464.463512342250.6582042414.1693276261.1322707835.66575769160.8024003724.558108948260.6613133854.18726427471.0570068845.615079648170.7606917494.596851188270.6423600563.93589368981.0108023795.393959469180.7527539784.576849456280.6429504124.23576851690.9614493755.225730334190.7473217854.364603997290.6346306864.137234481100.9098293215.165907359200.7299064874.425607615110.8741819515.09299484210.7091923044.519128251

        對(duì)于聚類(lèi)算法的數(shù)據(jù),應(yīng)對(duì)全局進(jìn)行補(bǔ)齊,可以推測(cè),其運(yùn)行的時(shí)間更長(zhǎng).測(cè)試全局補(bǔ)齊程序僅使用了從2016年1月1日至2016年1月7日一周的數(shù)據(jù).測(cè)試以后發(fā)現(xiàn),測(cè)試時(shí)長(zhǎng)過(guò)長(zhǎng),總時(shí)間點(diǎn)數(shù)量達(dá)到了24萬(wàn)個(gè),占到一周時(shí)間點(diǎn)總數(shù)(60萬(wàn))的大約三分之一.

        在測(cè)試的過(guò)程中,還計(jì)算了相同的時(shí)間點(diǎn).從中發(fā)現(xiàn),即便是肉眼可判斷為相似的實(shí)例,其產(chǎn)生價(jià)格的時(shí)間點(diǎn)相同度也非常低.測(cè)試挑選了四個(gè)實(shí)例做測(cè)試(c1.mediumSUSE Linux(Amazon VPC)us-east-1a實(shí)例、c1.mediumSUSE Linux(Amazon VPC)us-east-1b實(shí)例、c1.mediumSUSE Linux(Amazon VPC)us-east-1c實(shí)例以及c1.mediumSUSE Linux(Amazon VPC)us-east-1e).這些實(shí)例是經(jīng)過(guò)人工挑選的相近實(shí)例,經(jīng)計(jì)算,對(duì)應(yīng)的標(biāo)準(zhǔn)差極小但重復(fù)時(shí)間點(diǎn)個(gè)數(shù)占比仍不足20%.因此補(bǔ)齊法在理論上可行,但由于工程上計(jì)算時(shí)間過(guò)長(zhǎng),所以當(dāng)前可行性不大.為解決該問(wèn)題,可以壓縮價(jià)格基本不變的區(qū)間,避免補(bǔ)齊帶來(lái)的大量重復(fù)數(shù)據(jù).只對(duì)價(jià)格變動(dòng)大的部分進(jìn)行價(jià)格在時(shí)間維度上的補(bǔ)齊.

        綜上,通過(guò)補(bǔ)齊法可分類(lèi),但由于時(shí)間過(guò)長(zhǎng),因此現(xiàn)階段雖然具有理論可行性,但是其算法卻需要優(yōu)化.

        8 數(shù)據(jù)特點(diǎn)分析與總結(jié)

        實(shí)驗(yàn)所使用的數(shù)據(jù)來(lái)源于亞馬遜的官方網(wǎng)站,從2015年9月開(kāi)始,到2016年11月為止.在測(cè)試的過(guò)程中,從原始數(shù)據(jù)、衍生數(shù)據(jù)以及經(jīng)過(guò)計(jì)算得到的數(shù)據(jù)中,發(fā)現(xiàn)了許多特點(diǎn)和規(guī)律.本節(jié)將著重描述從數(shù)據(jù)本身發(fā)現(xiàn)的規(guī)律和特點(diǎn).

        從這些規(guī)律中,可以發(fā)現(xiàn):

        1)價(jià)格變化更頻繁,產(chǎn)生得更密集;服務(wù)種類(lèi)不斷增加,由2015年11月的879個(gè)增加到2016年11月的1050個(gè).如表6所示.

        2)樸素?cái)?shù)據(jù)統(tǒng)計(jì),[15]從數(shù)值統(tǒng)計(jì)表中可發(fā)現(xiàn),不同實(shí)例有相似值.例如相同的最值、中位數(shù),或是相近的方差,這說(shuō)明亞馬遜官方很可能設(shè)置了固定的價(jià)格.

        3)許多實(shí)例存在著“固定價(jià)格”,這里是指:某個(gè)固定的價(jià)格出現(xiàn)多次.可以在許多其他的實(shí)例中發(fā)現(xiàn)相同的現(xiàn)象這個(gè)固定值可能是最高值,或者是最低值,或者是某個(gè)中間值,它會(huì)在一段或多段時(shí)間內(nèi)大量反復(fù)地出現(xiàn).

        表6 文件大小和實(shí)例數(shù)量統(tǒng)計(jì)表
        Table 6 Size of source files and types amount

        序號(hào)起始時(shí)間數(shù)據(jù)集大小/MB實(shí)例數(shù)量/個(gè)12015.09.23256.287922015.10.26510.897232015.12.06596.597242016.01.2071697252016.02.17854.897162016.04.181177.697272016.06.041546.2498182016.06.151628.1698192016.06.161638.4981102016.08.032539.521041112016.09.214300.81050

        4)產(chǎn)生價(jià)格的時(shí)間點(diǎn)則不同,從現(xiàn)在的價(jià)格數(shù)據(jù)歷史可以看出,有一些實(shí)例的價(jià)格變動(dòng)的時(shí)間間隔已經(jīng)大大縮小,并且越來(lái)越趨于無(wú)規(guī)律化;然而,有一些實(shí)例的價(jià)格在全局時(shí)間內(nèi)甚至沒(méi)有變化過(guò).有一些實(shí)例的價(jià)格變動(dòng)的時(shí)間間隔已經(jīng)不是過(guò)去的一個(gè)小時(shí)或兩三個(gè)小時(shí),而是變得更加密、更加無(wú)序.

        5)計(jì)算每個(gè)月的平均價(jià)格發(fā)現(xiàn),許多實(shí)例的價(jià)格數(shù)據(jù)在很長(zhǎng)一段時(shí)間內(nèi)都維持在固定價(jià)格或有小幅波動(dòng):在2015年11月至2016年8月間,有相當(dāng)一部分實(shí)例的價(jià)格沒(méi)有發(fā)生變化,這說(shuō)明在2015年11月左右,以及2016年8月左右,亞馬遜對(duì)競(jìng)價(jià)型實(shí)例的定價(jià)策略做了一定的調(diào)整.在2016年9月至2016年11月期間,可以發(fā)現(xiàn),價(jià)格區(qū)間明顯變小,數(shù)據(jù)量明顯增多.許多實(shí)例的價(jià)格開(kāi)始升高.這說(shuō)明,在2015年11月和2016年8月亞馬遜很有可能修改了其定價(jià)策略.

        9 總 結(jié)

        經(jīng)過(guò)對(duì)數(shù)據(jù)整理、合并、剔除重復(fù)數(shù)據(jù),現(xiàn)有程序可以完美地整合數(shù)據(jù),并可以將從亞馬遜官方網(wǎng)站上新下載的數(shù)據(jù)做新一輪的整合.同時(shí),可以根據(jù)實(shí)例歷史數(shù)據(jù)繪制對(duì)應(yīng)的價(jià)格變動(dòng)歷史走勢(shì)圖像,通過(guò)圖像相似度判定的算法判定兩個(gè)實(shí)例是否相似.另外,還計(jì)算了月平均數(shù)據(jù),從中發(fā)現(xiàn),亞馬遜公司在2015年11月左右和2016年8月左右對(duì)其價(jià)格政策做出了調(diào)整.

        亞馬遜目前的動(dòng)態(tài)定價(jià)云服務(wù)共有1053種實(shí)例類(lèi)型,其歷史價(jià)格走勢(shì)多數(shù)雜亂無(wú)章參差不齊,故此在未來(lái)工作中對(duì)全部云服務(wù)實(shí)例進(jìn)行研究是不現(xiàn)實(shí)的,對(duì)這1053種云服務(wù)實(shí)例的價(jià)格走勢(shì)進(jìn)行分類(lèi),可以幫助我們挑選出最典型的、最具有代表性的價(jià)格數(shù)據(jù),參與到下一步基于歷史數(shù)據(jù)的云服務(wù)價(jià)格預(yù)測(cè)及定價(jià)模式的挖掘分析工作中.

        現(xiàn)在已有的兩種分類(lèi)聚類(lèi)算法,KNN分類(lèi)算法和k-means聚類(lèi)算法可以對(duì)實(shí)例進(jìn)行劃分類(lèi)別,分類(lèi)算法需要人工判斷部分樣本類(lèi)別并對(duì)剩余樣本判斷分類(lèi),聚類(lèi)則根據(jù)樣本自身性質(zhì)將樣本適當(dāng)?shù)貏澐殖刹煌念?lèi)別.兩種方法并行實(shí)施,采用Boosting算法,可以對(duì)云服務(wù)的分類(lèi)結(jié)果進(jìn)行分析,使用多種分類(lèi)器,采用投票的方式,最終將多種分類(lèi)器整合到一起以加強(qiáng)分類(lèi)效果.選擇兩個(gè)分類(lèi)中都會(huì)產(chǎn)生的類(lèi)別,那么這部分一定就是最典型的類(lèi)型.

        然而,每種云服務(wù)購(gòu)買(mǎi)組合產(chǎn)生價(jià)格的時(shí)間點(diǎn)都不同,這會(huì)對(duì)分類(lèi)結(jié)果的判斷產(chǎn)生一定偏差.因此,引入了補(bǔ)齊法和以標(biāo)準(zhǔn)差作為判斷樣本距離的標(biāo)準(zhǔn),能夠讓不同的服務(wù)有相同的時(shí)間點(diǎn),減少計(jì)算的誤差.設(shè)計(jì)實(shí)現(xiàn)的補(bǔ)齊法雖然在理論上與實(shí)踐上均可行,但由于補(bǔ)齊法產(chǎn)生的時(shí)間點(diǎn)過(guò)多,所以運(yùn)行時(shí)間過(guò)長(zhǎng),在工程上缺乏可建設(shè)性.

        如果能夠?qū)?shù)據(jù)補(bǔ)齊算法進(jìn)行優(yōu)化,將會(huì)使看起來(lái)沒(méi)有關(guān)系的價(jià)格數(shù)據(jù)顯示出更多的相似之處,可以減少因?yàn)闀r(shí)間點(diǎn)不一致而帶來(lái)的誤差.

        未來(lái)將繼續(xù)以亞馬遜競(jìng)價(jià)型云服務(wù)的價(jià)格歷史作為樣本,結(jié)合云計(jì)算和機(jī)器學(xué)習(xí)算法知識(shí)進(jìn)行深入研究.我們將繼續(xù)深入分析價(jià)格歷史、并相應(yīng)地展開(kāi)預(yù)測(cè)模型的構(gòu)建等相關(guān)工作.我們將著手于在下一步的工作中分析典型的價(jià)格軌跡,運(yùn)用統(tǒng)計(jì)分析以及建模的方式獲得其價(jià)格的變動(dòng)特性與特征.進(jìn)而,通過(guò)回歸測(cè)試或其他方法擬合價(jià)格的生成算法,以期對(duì)亞馬遜競(jìng)價(jià)型云服務(wù)的價(jià)格做出一定的預(yù)測(cè),并給出一個(gè)確切的預(yù)測(cè)準(zhǔn)確度.

        猜你喜歡
        競(jìng)價(jià)亞馬遜實(shí)例
        亞馬遜雨林在燃燒
        亞馬遜賣(mài)的最好的100款玩具
        玩具世界(2019年5期)2019-11-25 07:40:12
        節(jié)儉又“浪費(fèi)”的亞馬遜
        管道天然氣競(jìng)價(jià)交易引發(fā)的思考
        能源(2017年10期)2017-12-20 05:54:25
        碰撞:惡意競(jìng)價(jià)與隱孕求職
        亞馬遜推薦:TOP 25熱銷(xiāo)玩具清單
        玩具世界(2017年12期)2017-02-06 01:11:04
        完形填空Ⅱ
        完形填空Ⅰ
        国产欧美精品在线一区二区三区| 国产精品久久久天天影视| 无码人妻精品一区二区三区9厂| 囯产精品一品二区三区| 99久久国产亚洲综合精品| 一区二区三区成人av| 尤物在线观看一区蜜桃| 久久和欧洲码一码二码三码| 伊人精品无码AV一区二区三区 | 亚洲av中文无码乱人伦在线观看| 精品久久欧美熟妇www| 国产av成人精品播放| 中文字幕丰满人妻有码专区| 国产精品视频自拍在线| 成人性生交大全免费看| 香港aa三级久久三级| 国内露脸少妇精品视频| 人妻丰满多毛熟妇免费区| 久久久国产精品五月天伊人| 日韩中文字幕熟女人妻| 成人欧美一区二区三区在线观看 | 含紧一点h边做边走动免费视频 | 成年男女免费视频网站点播| 69国产成人精品午夜福中文| 久久精品国产亚洲av大全| 天啦噜国产精品亚洲精品| 久久婷婷综合色一区二区| 日本熟妇色xxxxx日本妇| 四虎国产精品永久在线无码| 日韩精品免费在线视频| 国产桃色一区二区三区| 日本高清h色视频在线观看| 久久精品中文字幕极品| 在线亚洲妇色中文色综合| 天天夜碰日日摸日日澡性色av| 九九九精品成人免费视频小说| 亚洲在线一区二区三区四区| 久久精品国产亚洲av四叶草| 国产成熟人妻换╳╳╳╳ | 91精品人妻一区二区三区蜜臀| 丝袜美腿在线观看一区|