亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        杭州共享住宿入住影響因素分析及預(yù)測(cè)*
        ——基于Airbnb愛彼迎平臺(tái)數(shù)據(jù)

        2018-03-05 07:11:30薛潔姚雨萌吳霞
        關(guān)鍵詞:分類模型

        □薛潔 姚雨萌 吳霞

        隨著全球化和自由化進(jìn)程的加快,越來越多的人熱衷于體驗(yàn)共享生活。繼滴滴出行打開共享交通出行市場(chǎng)之后,人們紛紛把目光投向了共享住宿。針對(duì)杭州市共享住宿問題,借助國(guó)際住宿分享平臺(tái)Airbnb愛彼迎,研究杭州市共享住宿的發(fā)展?fàn)顩r,并且利用XGBoost算法對(duì)杭州市共享住宿的入住率進(jìn)行預(yù)測(cè)。結(jié)果表明,杭州市共享住宿的入住率受入住時(shí)間、訪問量和評(píng)論數(shù)的影響較大,并且提出的基于機(jī)器學(xué)習(xí)算法XGBoost的預(yù)測(cè)模型對(duì)入住率的擬合效果較好,可以作為消費(fèi)者和共享住宿房東做決策的模型依據(jù)。

        引言

        隨著“互聯(lián)網(wǎng)+”和社會(huì)生產(chǎn)力水平的不斷發(fā)展,衍生了一種新的經(jīng)濟(jì)形態(tài)——共享經(jīng)濟(jì)。共享經(jīng)濟(jì)是利用互聯(lián)網(wǎng)等現(xiàn)代技術(shù),實(shí)現(xiàn)資源優(yōu)化再配置,減少資源浪費(fèi),降低成本的模式[1]。我國(guó)的共享經(jīng)濟(jì)相較國(guó)外雖然開展的較晚,但卻發(fā)展迅速,展現(xiàn)了良好的生機(jī)。2018年6月21日,國(guó)務(wù)院總理李克強(qiáng)主持召開國(guó)務(wù)院常務(wù)會(huì)議,部署促進(jìn)分享經(jīng)濟(jì)健康發(fā)展,推動(dòng)創(chuàng)業(yè)創(chuàng)新便利群眾生產(chǎn)生活。據(jù)國(guó)家信息中心分享經(jīng)濟(jì)研究中心估計(jì),我國(guó)共享經(jīng)濟(jì)保持高速增長(zhǎng),2017年我國(guó)共享經(jīng)濟(jì)市場(chǎng)交易額約為49205億元,比上年增長(zhǎng)47.2%,到2020年中國(guó)的共享經(jīng)濟(jì)的總規(guī)模將占到中國(guó)GDP的10%左右,到2025年中國(guó)的共享經(jīng)濟(jì)的交易總規(guī)模將達(dá)到GDP的20%左右[2]。由此看出,共享經(jīng)濟(jì)在未來對(duì)我國(guó)的經(jīng)濟(jì)發(fā)展貢獻(xiàn)巨大。

        隨著共享經(jīng)濟(jì)實(shí)踐與理論的不斷發(fā)展,國(guó)內(nèi)住房分享日漸普及,行業(yè)持續(xù)升溫,在市場(chǎng)交易規(guī)模、融資量、參與人數(shù)等方面都取得了重大突破。初步估算,2017年我國(guó)共享住宿市場(chǎng)交易規(guī)模達(dá)145.6億元,比上年增長(zhǎng)70.6%,融資額約為5.4億美元,比上年增長(zhǎng)約180%[3]。目前,國(guó)內(nèi)共享住宿市場(chǎng)整體處于起步階段,未來發(fā)展?jié)摿薮??!?018中國(guó)共享住宿發(fā)展報(bào)告》中提到2017年主要共享住宿平臺(tái)的房源數(shù)量約300萬套,參與者人數(shù)約為7800萬人,其中房客7600萬人。報(bào)告中還提到,我國(guó)共享住宿行業(yè)初具規(guī)模,業(yè)務(wù)創(chuàng)新不斷涌現(xiàn),整體處于快速上升階段,頭部企業(yè)正在脫穎而出[3]。

        目前對(duì)于共享住宿的研究,從概念、運(yùn)營(yíng)模式、發(fā)展進(jìn)程到社會(huì)影響等各個(gè)方面都做了很多工作,成為了一個(gè)跨學(xué)科綜合性課題。國(guó)外JonesD.等人(2011)在調(diào)查中國(guó)香港游客對(duì)中國(guó)大陸分享住房的偏好時(shí),發(fā)現(xiàn)年輕、接受中高等教育、中等收入水平的女性是大陸分享住房的主要目標(biāo)群體[4];Chen L.等人(2013)對(duì)中國(guó)臺(tái)灣游客的調(diào)查發(fā)現(xiàn),選擇分享住房的游客呈現(xiàn)出核心家庭、獲得良好教育及中低階層的特征[5];ZhihuaZhang等(2017)利用地理位置加權(quán)法對(duì)影響Airbnb平臺(tái)房?jī)r(jià)的主要因素進(jìn)行了定量研究[6]。國(guó)內(nèi)的共享住宿研究主要以定性分析為主,顧彥(2017)指出目前住房分享市場(chǎng)成立較早、規(guī)模較大的活躍平臺(tái)大概可以分為三個(gè)梯隊(duì):第一梯隊(duì)是小豬短租、途家網(wǎng)等;第二梯隊(duì)包括Airbnb、中國(guó)、木鳥網(wǎng)等;第三梯隊(duì)主要包括大量的、長(zhǎng)尾的特色品牌和民宿聯(lián)盟等[7]。而王漪(2017)則指出現(xiàn)階段國(guó)內(nèi)住房分享平臺(tái)呈現(xiàn)途家、小豬、Airbnb三足鼎立的局面[8]。雖然共享住宿已經(jīng)廣受市場(chǎng)認(rèn)可,但其發(fā)展仍面臨諸多問題,如邱榕等(2016)從國(guó)情、房源及市場(chǎng)這些因素出發(fā)分析了Airbnb在我國(guó)發(fā)展存在的問題,其中信任缺失和房源質(zhì)量參差不齊這兩個(gè)問題最為嚴(yán)重[9]。

        因此,針對(duì)國(guó)內(nèi)共享住宿定量研究的不足,本文以歷來有“上有天堂,下有蘇杭”美譽(yù)的杭州市作為研究對(duì)象,分析杭州市共享住宿的發(fā)展、入住率等影響因素,提出基于XGBoost算法的共享住宿入住率預(yù)測(cè)模型,從而為杭州共享住宿發(fā)展提供科學(xué)建議和決策支持。

        數(shù)據(jù)來源

        官方界定共享住宿主要指以互聯(lián)網(wǎng)平臺(tái)為依托,整合、分享海量的、分散的住宿資源,滿足多樣化住宿需求的各種經(jīng)濟(jì)活動(dòng)的總和[3]。由此可見,互聯(lián)網(wǎng)平臺(tái)在共享住宿中的重要性。目前,國(guó)內(nèi)共享住宿業(yè)務(wù)開展較好的互聯(lián)網(wǎng)平臺(tái)有Airbnb、途家、小豬短租等。其中,Airbnb平臺(tái)作為共享住宿平臺(tái)的主力軍,占整個(gè)中國(guó)用戶群體的83%,其中房東平均年齡32歲,30歲以下房東占比45%[3]。

        表1 各變量的具體描述

        由于本案例研究對(duì)象的發(fā)展尚處起步階段,不利于開展問卷調(diào)查,因此本文以Airbnb作為研究共享住宿的數(shù)據(jù)平臺(tái),獲取網(wǎng)站上展示的杭州市307個(gè)共享住宿信息,以及2018年第一季度的每日住房可訂情況,將每月的不可訂比例作為每月的入住率。

        經(jīng)過數(shù)據(jù)收集及整理發(fā)現(xiàn),評(píng)論數(shù)為空的房源在總房源中所占比例較低,且房源的入住率也較低,可以認(rèn)為,評(píng)論數(shù)為空是新房源的緣故,因此,直接刪除評(píng)論數(shù)為空的房源?;诖?,本文最終確定了281個(gè)不重復(fù)房源。通過對(duì)房源入住率的分析,發(fā)現(xiàn)約七成房源的入住率超過60%,如圖1所示。從圖中也可發(fā)現(xiàn):入住率低于20%的房源僅占3.6%,整體而言,杭州市在線房源的入住率較好,說明現(xiàn)階段杭州市共享住宿的發(fā)展較為樂觀,從而研究杭州市房源的入住率具有重要的現(xiàn)實(shí)意義。

        圖1 杭州市在線房源入住率餅圖

        為了便于消費(fèi)者更加直觀的判斷房源,在接下來的模型構(gòu)建中,因變量入住率則根據(jù)計(jì)算出來的數(shù)值大小將其轉(zhuǎn)換成高、中、低三個(gè)程度,即入住率低于0.33設(shè)為低,0.33到0.66設(shè)為中,高于0.66則設(shè)為高。

        而為了具體分析杭州市共享住宿入住的影響因素,本文利用網(wǎng)絡(luò)爬蟲技術(shù)獲取每個(gè)房源的特征信息作為自變量,共計(jì)22個(gè)。自變量大致分為兩類:一類為“硬件設(shè)施”,即描述房屋內(nèi)部特征,比如臥室數(shù)、床數(shù)、衛(wèi)生間數(shù)和最多可住人數(shù);另一類為“軟件設(shè)施”,描述房屋的各性能,比如價(jià)格、評(píng)論數(shù)、圖片數(shù)等。具體描述如表1所示。其中,綜合評(píng)分取值為4、4.5和5三種,且以4.5和5居多,鑒于此,對(duì)于綜合評(píng)分變量采取隨機(jī)替換為4.5和5的隨機(jī)填補(bǔ)法;瀏覽數(shù)變量,采用均值填補(bǔ)法補(bǔ)充缺失值。

        接下來,本文將基于XGBoost算法構(gòu)建多分類預(yù)測(cè)模型,具體分析上述因素對(duì)杭州市共享住宿入住率的影響,并對(duì)入住率進(jìn)行預(yù)測(cè),評(píng)估模型的預(yù)測(cè)效果。

        共享住宿入住率的多分類預(yù)測(cè)

        由TianqiChen在2015年提出的XGBoost算法作為如今的新起之秀,在數(shù)據(jù)挖掘領(lǐng)域熠熠生輝。XGBoost全名 ExtremeGradient Boosting,作為監(jiān)督學(xué)習(xí),可以處理回歸和分類兩類問題[10]。因此本文選用XGBoost算法作為預(yù)測(cè)模型。

        XGBoost是在GBDT基礎(chǔ)上發(fā)展起來的,通常以決策樹或者回歸作為基學(xué)習(xí)器[11]。XGBoost是遞歸模型,每次建立模型都是在上一次的模型基礎(chǔ)上建立的,并且以損失函數(shù)(lossfunction)作為模型建立參考,損失函數(shù)越大,則說明模型越不穩(wěn)定。每一次建立模型的目的就是要減少誤差,如果建立的模型能夠讓損失函數(shù)不斷的下降,則說明模型性能在不斷的提高。

        模型的目標(biāo)函數(shù)表示為:

        其中,L(Θ)為訓(xùn)練誤差,Ω(Θ)為正則項(xiàng)。優(yōu)化誤差項(xiàng),以便于減小誤差,提高模型的精度;優(yōu)化正則項(xiàng)是為了簡(jiǎn)化模型,簡(jiǎn)單模型往往未來變動(dòng)較小,預(yù)測(cè)更加穩(wěn)定。但是沒有辦法同時(shí)訓(xùn)練很多樹,所以采取逐步增加的方式,先固定之前學(xué)習(xí)到的,再在其基礎(chǔ)上添加一顆新的樹[12]。

        表2 Booster參數(shù)之分類模型參數(shù)

        則目標(biāo)函數(shù)可以改寫成:

        const表示常數(shù)項(xiàng),對(duì)目標(biāo)函數(shù)進(jìn)行泰勒展開,如:

        對(duì)泰勒展開的目標(biāo)函數(shù),遍歷每個(gè)特征的分裂點(diǎn),計(jì)算該分裂條件下的前后目標(biāo)函數(shù)變量值,最后確定目標(biāo)函數(shù)變化值最大的為分類條件。

        (一)模型構(gòu)建

        目前很多平臺(tái)可以實(shí)現(xiàn)XGBoost算法,常見的如R,python,Java等。本文選用Python作為實(shí)現(xiàn)工具,對(duì)Airbnb網(wǎng)站的共享住宿數(shù)據(jù)進(jìn)行模型構(gòu)建。模型的優(yōu)化選擇本質(zhì)上就是模型的參數(shù)選擇過程,為模型選擇最優(yōu)參數(shù),才能不斷提高模型的性能。XGBoost算法的參數(shù)大致分為三種類型:通用參數(shù),Booster參數(shù)和學(xué)習(xí)目標(biāo)參數(shù)[13]。其中Booster作為控制每一步迭代的參數(shù),對(duì)模型的性能影響較大,對(duì)模型具體的參數(shù)解釋如表2所示。在建立模型之前將281條數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集為221條數(shù)據(jù),測(cè)試集為60條數(shù)據(jù)。

        上述參數(shù)中,對(duì)模型影響最大的參數(shù)為eta(學(xué)習(xí)速率)和n_eati-mators(迭代次數(shù))。對(duì)模型而言,n_eatimators越大說明學(xué)習(xí)越充分,模型的性能也會(huì)提高,但是,過大的迭代次數(shù)會(huì)浪費(fèi)資源,也會(huì)導(dǎo)致過擬合現(xiàn)象。所以選擇合適的迭代次數(shù)顯得尤為重要,既可以讓模型處在一個(gè)良好的性能,同時(shí),也可以達(dá)到最好的效率。eta參數(shù)的設(shè)置和n_eatimators的參數(shù)選擇有關(guān),為了能夠快速的迭代找到其他最優(yōu)的參數(shù),通常先將eta設(shè)置較大,當(dāng)其他參數(shù)確定了之后再盡可能的選擇較小的學(xué)習(xí)速率以獲得最優(yōu)的性能。

        選擇最優(yōu)參數(shù)的過程,實(shí)際是參數(shù)的排列組合過程,不同的參數(shù)組合擬合程度也是不同的。為了找出最優(yōu)的參數(shù)組合,本文利用網(wǎng)格搜索法,通過遍歷所有的參數(shù)組合選定最優(yōu)的參數(shù)組合(調(diào)參過程如圖2所示),分別設(shè)置樹的最大深度、最小葉子節(jié)點(diǎn)樣本權(quán)重和、gamma值、類別數(shù)目、訓(xùn)練模型的子樣本占樣本的比例和每棵樹隨機(jī)采樣的列數(shù)的占比為[3,10]、[1,10]、[0,0.5]、[3,8],[0.6,1]和[0.6,1],搜索步長(zhǎng)從大到小。對(duì)每一個(gè)參數(shù)進(jìn)行網(wǎng)格搜索法調(diào)參,最終獲得最佳參數(shù)如表3所示。

        表3 模型最終確定參數(shù)

        圖2 網(wǎng)格搜索調(diào)參流程圖

        圖3 模型特征重要性排序

        表4 模型混淆矩陣

        (二)結(jié)果及分析

        XGBoost模型作為預(yù)測(cè)模型,算法較為復(fù)雜,只能得到最終的預(yù)測(cè)結(jié)果,其中自變量和因變量之間的關(guān)系無從得知。因此,本文利用XGBoost包中的important函數(shù)來獲取各變量的重要性大小,從而得出各變量對(duì)預(yù)測(cè)結(jié)果所貢獻(xiàn)的權(quán)重比重。如圖3所示:

        從圖中可以看出特征重要性依次為:入駐時(shí)間,訪問量,評(píng)論數(shù),價(jià)格,圖片數(shù),瀏覽數(shù),服務(wù)費(fèi),清潔費(fèi),回復(fù)率,是否超贊房東,是否整套,是否有自我介紹,最多可住人數(shù),衛(wèi)生間數(shù),是否可以自助服務(wù),床數(shù),是否有交通介紹,星級(jí)評(píng)分,是否有助手,語言數(shù),臥室數(shù),是否有房屋介紹。

        其中,入駐時(shí)間、訪問量、評(píng)論數(shù)、價(jià)格、圖片數(shù)、瀏覽數(shù)、服務(wù)費(fèi)、清潔費(fèi)、回復(fù)率和是否超贊房東,對(duì)入住率高低的影響較為重要,也體現(xiàn)出了房客選擇房源的著重點(diǎn)所在。而星級(jí)評(píng)分、是否有助手、語言數(shù)、臥室數(shù)和是否有房屋介紹這五個(gè)因素的重要性最低,不僅說明了這些變量對(duì)入住率高低的影響較低,也體現(xiàn)了如今Airbnb的主要客源還是國(guó)內(nèi)。

        (三)模型評(píng)估

        利用測(cè)試集對(duì)模型進(jìn)行檢驗(yàn),可得混淆矩陣如表4所示:

        1.總體模型評(píng)估。模型的總體準(zhǔn)確率為:p總=100%=86.67%,該模型的總體準(zhǔn)確率為86.67%,認(rèn)為該模型的預(yù)測(cè)效果較好。

        Hammingloss(漢明損失)是描述多分類的評(píng)價(jià)指標(biāo),表示所有分類中錯(cuò)誤樣本的比例,所以該值越小則模型的分類能力越強(qiáng)。其中,|D|表示樣本總數(shù),|L|表示標(biāo)簽總數(shù),xi和yi分別表示真實(shí)結(jié)果和預(yù)測(cè)結(jié)果,xor表示異或運(yùn)算。根據(jù)公式得出模型的Hammingloss(漢明損失)為:HammingLoss(xi,yi)=

        顯示模型的整體分類錯(cuò)誤較低,模型的整體擬合程度較好。

        2.各分類評(píng)估。研究了模型的整體效能之后,對(duì)每一個(gè)分類進(jìn)行討論。本文所研究的是三分類問題,對(duì)于多分類問題需要對(duì)二分類做類似推廣,將每個(gè)類別單獨(dú)視為“正”,其他類別視為“負(fù)”,得出每個(gè)類別的精確度、召回率,以及精確度與召回率的調(diào)和平均值F1,如表5所示:

        表5 不同類別的精確度、召回率和F1

        可以看出,入住率中和高的各項(xiàng)指標(biāo)都較高,顯示該模型對(duì)這兩類的擬合程度較好,而與入住率為中和高相比,入住率為低的召回率較低,但是F1值和精確度較高。由于F1值是對(duì)精確度和召回率的調(diào)和平均值,是綜合了兩個(gè)指標(biāo)的評(píng)判指標(biāo),F(xiàn)1值越高,則說明模型較理想。入住率為低的F1值為1.96,較高。則說明XGBoost模型不僅在整體上表現(xiàn)優(yōu)異,在每個(gè)類別上也表現(xiàn)良好。

        結(jié)論

        本文基于Airbnb網(wǎng)站上281個(gè)房源信息,運(yùn)用XGBoost算法對(duì)杭州市的共享住宿進(jìn)行入住率預(yù)測(cè)。

        考慮到共享住宿入住率目前研究的不足,提出使用XGBoost算法對(duì)入住率進(jìn)行多分類預(yù)測(cè),從模型的各項(xiàng)評(píng)判指標(biāo)來看,模型的擬合效應(yīng)較好,可以作為判斷入住率高低的依據(jù),從而為消費(fèi)者提前選擇合適的共享住宿提供參考。為了提高模型的性能,本文使用網(wǎng)格搜索法,尋找最優(yōu)參數(shù)組合,提高模型的預(yù)測(cè)準(zhǔn)確度。

        從模型的特征重要性評(píng)估結(jié)果顯示:(1)重要性排名前三名的為入駐時(shí)間,訪問量和評(píng)論數(shù),也說明了在共享住宿的選擇上價(jià)格并不是影響消費(fèi)者的重要因素,選擇共享住宿,是為了體驗(yàn)時(shí)下年輕人十分注重的社交體驗(yàn)機(jī)會(huì)。入駐時(shí)間可以體現(xiàn)房源的存在價(jià)值,時(shí)間越久,消費(fèi)者會(huì)更加傾向該房源。訪問量和評(píng)論數(shù)可以作為評(píng)判房源吸引力的直接指標(biāo),是房源預(yù)訂與否的重要因素。(2)重要性排名后三名的是語言數(shù),臥室數(shù),是否有房屋介紹。其中,語言數(shù)直接體現(xiàn)了我國(guó)的國(guó)外市場(chǎng)沒有打開,為了讓我國(guó)的共享住宿事業(yè)有更好的發(fā)展,應(yīng)適當(dāng)?shù)耐卣箛?guó)外客戶,吸引國(guó)外消費(fèi)者的青睞;臥室數(shù)和是否有房屋介紹則顯示了消費(fèi)者對(duì)于房間的具體構(gòu)造關(guān)注度較低,人文情懷才是人們選擇共享住宿的著重點(diǎn)。

        本文提出的共享住宿入住率預(yù)測(cè)模型有助于共享住宿房東針對(duì)不同時(shí)期的入住采取措施,制定對(duì)應(yīng)的策略,也可以查缺補(bǔ)漏,在有關(guān)方面采取針對(duì)性的提高策略,以更好的達(dá)到共享。另一方面,為消費(fèi)者提前制定出行計(jì)劃提供數(shù)據(jù)支持,致力于讓更多的消費(fèi)者可以選擇到滿意的共享住宿,讓出行更加便利。

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        青青草手机免费播放视频| 香蕉视频www.5.在线观看| 91久久久久无码精品露脸| 白白视频在线免费观看| 日韩美女av一区二区三区四区| 五月综合激情婷婷六月| 老师翘臀高潮流白浆| 亚州AV无码乱码精品国产| 亚洲国产精品成人av| 日韩精品极品免费视频观看| 亚洲精品tv久久久久久久久久| 永久免费观看的毛片手机视频| 成人免费无码视频在线网站| 日本亚洲视频免费在线看| 亚洲日韩中文字幕在线播放| 野花社区www高清视频| 精品91精品91精品国产片| 熟女少妇av一区二区三区| 无码国产精品一区二区av| 7777精品伊人久久久大香线蕉| 精精国产xxx在线视频app| 久久少妇高潮免费观看| 免费无码精品黄av电影| 亚洲暴爽av人人爽日日碰| 亚洲AV无码乱码一区二区三区| 亚洲av高清不卡免费在线 | 成人国产精品一区二区视频| 国产成人精品午夜福利在线| 一区二区三区国产视频在线观看 | 久久精品国内一区二区三区| 日韩激情网| 国产精品一区二区熟女不卡| 欧美日韩精品久久久免费观看| 亚洲天堂在线视频播放| 日韩色久悠悠婷婷综合| 色翁荡息又大又硬又粗视频| 人妻少妇邻居少妇好多水在线 | 日本激情一区二区三区| 久久久久亚洲精品无码系列| 亚洲欧美日韩综合久久| 亚洲午夜无码久久久久软件|