亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LRF方法的在線短租房源價(jià)格特征選擇研究

        2020-09-02 06:31:23張浩朱晨龍
        軟件導(dǎo)刊 2020年8期
        關(guān)鍵詞:隨機(jī)森林特征選擇

        張浩 朱晨龍

        摘 要:為解決單一特征選擇方法的局限性問(wèn)題,提出Lasso-RF(LRF)混合特征選擇方法,并應(yīng)用于在線短租房源價(jià)格問(wèn)題研究?;贏irbnb房源數(shù)據(jù),實(shí)驗(yàn)首先通過(guò)Lasso回歸進(jìn)行特征選擇,處理特征之間的多重共線性;然后采用隨機(jī)森林算法精選剩余特征,最終得到35個(gè)重要特征,并帶入4個(gè)預(yù)測(cè)模型中進(jìn)行比較。結(jié)果表明,特征之間的多重共線性會(huì)影響隨機(jī)森林算法對(duì)特征重要度的度量;LRF-RF預(yù)測(cè)模型與RF-RF預(yù)測(cè)模型相比,評(píng)價(jià)指標(biāo)R2和MSE分別提高了0.005、0.006,同時(shí)運(yùn)行時(shí)間縮短0.267秒,表明LRF混合特征選擇方法優(yōu)于單一的RF特征選擇方法。

        關(guān)鍵詞:特征選擇;Lasso;隨機(jī)森林;在線短租;房源價(jià)格

        DOI:10. 11907/rjdk. 192596 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

        中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)008-0001-05

        Abstract: To solve the problem of the limitation of single feature selection method, a mixed feature selection method for Lasso-RF (LRF) is proposed, and is applied to the listings price of home-sharing accommodation. Based on the data of Airbnb, the experiment does the feature selection by Lasso regression firstly, dealing with the multicollinearity between features. Then the experiment selects the residual features by Random forest. Finally, 35 important features are selected out and used in four prediction models in order to evaluate and compare the results. The results show that the multicollinearity between the features will affect the measurement of the importance of the random forest to the features. Comparison between LRF-RF prediction model and RF-RF prediction model shows that evaluation indexes R2 and MSE was increased by 0.005 and 0.006 respectively, and the running time was reduced by 0.267 seconds. The evaluation result show that LRF hybrid feature selection method is better than single RF feature selection method.

        Key Words: feature selection; Lasso; random forest; home-sharing accommodation; listings price

        0 引言

        分享經(jīng)濟(jì)的核心是通過(guò)協(xié)作和分享的方式與他人分享商品、服務(wù)的使用權(quán)[1]。近年來(lái),隨著通訊技術(shù)的廣泛應(yīng)用,人們可以通過(guò)在線平臺(tái)分享并交換有形和無(wú)形資產(chǎn)[2]。在線短租基于分享經(jīng)濟(jì)模式,通過(guò)在線平臺(tái)把需出租閑置資產(chǎn)的房東和需臨時(shí)住宿的旅客聯(lián)系起來(lái)[3]。這種商業(yè)模式風(fēng)靡全球,中外學(xué)者針對(duì)在線短租房源價(jià)格進(jìn)行了研究。如Ikkala等[4]用定性研究的方法探討了在線短租房源聲譽(yù)資本與房源價(jià)格的關(guān)系,發(fā)現(xiàn)房東可把積累的聲譽(yù)資本轉(zhuǎn)換為房源價(jià)格;Gibbs等[5]通過(guò)多元回歸方法,發(fā)現(xiàn)房源特征、房東特征顯著影響房源價(jià)格,但有趣的是評(píng)論數(shù)越多,表現(xiàn)出的卻是房源價(jià)格越低;Wang等[6]根據(jù)33個(gè)城市在線房源數(shù)據(jù),應(yīng)用OLS和分位數(shù)回歸方法,研究了房東特征、房源特征、配套設(shè)施及服務(wù)、租賃規(guī)則、在線評(píng)論評(píng)級(jí)5大類特征對(duì)房源價(jià)格的影響;吳曉雋等[7]在已有研究基礎(chǔ)上,針對(duì)中國(guó)市場(chǎng),加入信任度與社交度兩大類特征,同樣應(yīng)用OLS和分位數(shù)回歸方法對(duì)房源價(jià)格影響因素作進(jìn)一步分析。結(jié)果表明,不同城市房東關(guān)注的房源價(jià)格影響因素有所不同?,F(xiàn)有研究主要運(yùn)用傳統(tǒng)回歸分析方法,探索房源價(jià)格和其影響因素的關(guān)系,然而在線短租房源價(jià)格影響因素眾多,數(shù)據(jù)集中常包含大量文本信息,傳統(tǒng)研究方法無(wú)法有效處理高維且含文本信息的數(shù)據(jù),如果直接刪除,必將損失大量有價(jià)值信息。所以,如何從高維數(shù)據(jù)中選取合適的特征,將其運(yùn)用于房源價(jià)格影響因素研究和價(jià)格預(yù)測(cè),成為在線房源價(jià)格研究的關(guān)鍵。

        隨機(jī)森林算法(Random Forest,RF)是一種優(yōu)秀的非線性建模工具,泛化能力強(qiáng),準(zhǔn)確性高,而且隨機(jī)森林算法還可測(cè)量特征重要度,在特征選擇方面應(yīng)用較多[8]。但是,隨機(jī)森林算法并不能解決特征之間的多重共線性,當(dāng)數(shù)據(jù)中存在大量特征,這些特征之間的多重共線性很可能影響隨機(jī)森林對(duì)特征重要度的度量,影響模型預(yù)測(cè)結(jié)果。所以本文提出Lasso-RF(LRF)混合特征選擇方法解決高維數(shù)據(jù)中存在特征多重共線性的問(wèn)題,并應(yīng)用于在線房源價(jià)格研究。首先,本文確定初始特征,帶入Lasso回歸中進(jìn)行第一次特征選擇,解決特征之間的多重共線性;然后,利用隨機(jī)森林對(duì)第一次選擇的特征進(jìn)行特征重要度測(cè)量,并在隨機(jī)森林預(yù)測(cè)模型中對(duì)特征進(jìn)行精選;最后,將得到的最佳特征子集應(yīng)用于房源價(jià)格預(yù)測(cè)模型,對(duì)不同預(yù)測(cè)模型結(jié)果進(jìn)行比較,證明本文提出的LRF混合特征選擇方法具有更好的特征選擇效果。技術(shù)流程如圖1所示。

        2.3.3 預(yù)測(cè)結(jié)果比較

        實(shí)驗(yàn)建立4個(gè)房源價(jià)格預(yù)測(cè)模型,其中RF模型表示直接進(jìn)行隨機(jī)森林預(yù)測(cè),RF-RF表示經(jīng)RF特征選擇的隨機(jī)森林預(yù)測(cè),LRF-RF表示經(jīng)Lasso-RF特征選擇的隨機(jī)森林預(yù)測(cè),LRF-XGb表示經(jīng)Lasso-RF特征選擇的XGBoost預(yù)測(cè)。實(shí)驗(yàn)中,RF和LRF特征選擇均選取前35個(gè)重要特征,評(píng)價(jià)結(jié)果如表3所示。從表3可以看出,經(jīng)特征選擇的預(yù)測(cè)模型運(yùn)行效率明顯優(yōu)于不經(jīng)特征選擇的預(yù)測(cè)模型;LRF-RF模型中,R2為0.736,MSE為0.278,運(yùn)行時(shí)間等于1.810 s,3個(gè)指標(biāo)均優(yōu)于RF-RF模型,說(shuō)明LRF-RF不僅具有較高的預(yù)測(cè)精度,而且學(xué)習(xí)效率更高;LRF-XGboost模型預(yù)測(cè)也取得了較好預(yù)測(cè)結(jié)果,說(shuō)明基于LRF特征選擇方法比較穩(wěn)定,適用性強(qiáng)。

        3 結(jié)語(yǔ)

        隨機(jī)森林是一種非線性建模工具,對(duì)數(shù)據(jù)具有較高的容忍度,在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用廣泛,但對(duì)于特征之間的多重共線性是否會(huì)對(duì)RF產(chǎn)生影響,目前很少有研究進(jìn)行實(shí)驗(yàn)論證。本文基于Airbnb房源數(shù)據(jù),進(jìn)行在線短租房源價(jià)格特征選擇,對(duì)照實(shí)驗(yàn)LRF特征選擇和RF特征選擇的前15個(gè)重要特征排序存在的明顯差異,證明特征之間的多重共線性確實(shí)會(huì)影響隨機(jī)森林建模工具。與此同時(shí),本文還建立了4個(gè)房源價(jià)格預(yù)測(cè)模型,評(píng)價(jià)結(jié)果顯示LRF混合特征選擇方法優(yōu)于RF特征選擇方法,LRF混合特征選擇應(yīng)用于預(yù)測(cè)模型中具有更高的預(yù)測(cè)精度和學(xué)習(xí)效率。最終,基于Airbnb房源數(shù)據(jù),應(yīng)用LRF混合特征選擇方法,從輸入數(shù)據(jù)的127個(gè)特征中提取了35個(gè)重要的房源價(jià)格特征,并在預(yù)測(cè)模型上取得了較好的預(yù)測(cè)結(jié)果。本文方法為在線短租管理和房源定價(jià)提供了參考。本文研究思路是基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法,在大量數(shù)據(jù)中尋找規(guī)律,但并不能說(shuō)明特征和目標(biāo)之間的因果關(guān)系。后續(xù)研究可將機(jī)器學(xué)習(xí)方法同傳統(tǒng)回歸分析相結(jié)合,完善機(jī)器學(xué)習(xí)方法的不足。

        參考文獻(xiàn):

        [1] 雷切爾·博茨曼, 路·羅杰斯. 共享經(jīng)濟(jì)時(shí)代: 互聯(lián)網(wǎng)思維下的協(xié)同消費(fèi)商業(yè)模式[M]. 上海: 上海交通大學(xué)出版社, 2015.

        [2] NETTER S,PEDERSEN E R G,LüDEKE-FREUND F. Sharing economy revisited: towards a new framework for understanding sharing models[J]. Journal of Cleaner Production, 2019(221): 224-233.

        [3] 王曉雪. 共享經(jīng)濟(jì)背景下商業(yè)模式的變革與創(chuàng)新——基于三大典型案例的啟示[J]. 商業(yè)經(jīng)濟(jì)研究,2018(30): 30-32.

        [4] IKKALA T,LAMPINEN A. Defining the price of hospitality: networked hospitality exchange via airbnb[C]. Proceedings of the Companion Publication of the 17th ACM Conference on Computer Supported Cooperative Work & Social Computing. ACM, 2014: 173-176.

        [5] GIBBS C,GUTTENTAG D,GRETZEL U, et al. Pricing in the sharing economy: a hedonic pricing model applied to airbnb listings[J]. Journal of Travel & Tourism Marketing, 2018, 35(1): 46-56.

        [6] WANG DAN,NICOLAU J L. Price determinants of sharing economy based accommodation rental: a study of listings from 33 cities on airbnb.com[J]. International Journal of Hospitality Management, 2017(62): 120-131.

        [7] 吳曉雋,裘佳璐. 愛(ài)彼迎房源價(jià)格影響因素研究—基于中國(guó)36個(gè)城市的數(shù)據(jù)[J]. 旅游學(xué)刊,2019,34(4): 13-28.

        [8] 劉忻梅,唐俊,段翀. AUCRF算法在信用風(fēng)險(xiǎn)評(píng)價(jià)中的特征選擇研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2018, 35(4): 299-301+315.

        [9] 沈?qū)W華,周志華,吳建鑫,等. Boosting和Bagging綜述[J]. 計(jì)算機(jī)工程與應(yīng)用,2000,36(12): 31-33.

        [10] 方匡南,吳見(jiàn)彬,朱建平,等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇,2011,26(3): 32-38.

        [11] 富越. 網(wǎng)紅微博中商品鏈接點(diǎn)擊量影響因素研究[D]. 武漢:武漢大學(xué),2017.

        [12] 崔晨,鄧趙紅,王士同. 基于Lasso稀疏學(xué)習(xí)的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型[J]. 計(jì)算機(jī)工程,2019, 45(2): 173-177.

        [13] 邱南南. 基于Lasso改進(jìn)的一般因果關(guān)系檢驗(yàn)[J].統(tǒng)計(jì)與信息論壇,2008,23(2): 18-22.

        [14] TIBSHIRANI R. Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society,1996,58(1): 267-288.

        [15] 趙松山. 對(duì)擬合優(yōu)度R2的影響因素分析與評(píng)價(jià)[J]. 東北財(cái)經(jīng)大學(xué)學(xué)報(bào),2003,(3): 56-58.

        [16] 侍建國(guó),張亦飛. 拉依達(dá)準(zhǔn)則在處理區(qū)域水文數(shù)據(jù)異常值中的應(yīng)用[J]. 海河水利,2016, (5): 49-51.

        [17] 梁杰, 陳嘉豪, 張雪芹,等. 基于獨(dú)熱編碼和卷積神經(jīng)網(wǎng)絡(luò)的異常檢測(cè)[J]. 清華大學(xué)學(xué)報(bào),2018(25): 1-7.

        (責(zé)任編輯:江 艷)

        猜你喜歡
        隨機(jī)森林特征選擇
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        Kmeans 應(yīng)用與特征選擇
        電子制作(2017年23期)2017-02-02 07:17:06
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        基于GA和ELM的電能質(zhì)量擾動(dòng)識(shí)別特征選擇方法
        聯(lián)合互信息水下目標(biāo)特征選擇算法
        基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
        基于隨機(jī)森林算法的B2B客戶分級(jí)系統(tǒng)的設(shè)計(jì)
        基于多視角特征融合與隨機(jī)森林的蛋白質(zhì)結(jié)晶預(yù)測(cè)
        亚洲区日韩精品中文字幕| 亚洲av乱码一区二区三区按摩| 中文字幕丰满乱子无码视频| 无码av中文一区二区三区| 亚洲精品无码成人a片| 欧美成人www免费全部网站| 国产丝袜精品丝袜一区二区| 亚洲av成熟国产精品一区二区| 天堂8在线新版官网| 亚洲熟少妇在线播放999| 野外三级国产在线观看| 亚洲人妻中文字幕在线视频 | 中文字幕一二区中文字幕| 激情五月婷婷六月俺也去| 国产三级不卡一区不卡二区在线| 亚洲最新无码中文字幕久久| 久久午夜夜伦鲁鲁片免费无码| 精品久久久久久久无码| 国产粉嫩高清| 九七青青草视频在线观看| 亚洲gay片在线gv网站| 精品人妻少妇一区二区三区不卡| 在线视频99| 中文字幕成人精品久久不卡| 日韩极品视频免费观看| 无码尹人久久相蕉无码| 日本视频中文字幕一区在线| 蜜桃成人永久免费av大| 二区视频在线免费观看| 少妇仑乱a毛片| 国产欧美久久久另类精品| 一级a免费高清免在线| 国产99久久久国产精品~~牛| 国产老熟女狂叫对白| 精品国产高清一区二区广区| 亚洲精品乱码久久麻豆| 一个人看的www片免费高清视频 | 国产精品白浆免费观看| 很黄很色的女同视频一区二区| 亚洲另类欧美综合久久图片区| 国内精品久久久久久无码不卡|