亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Adaboost的隨機(jī)森林算法在醫(yī)療銷售預(yù)測(cè)中的應(yīng)用①

        2018-03-02 06:16:17常曉花
        關(guān)鍵詞:預(yù)測(cè)器決策樹神經(jīng)網(wǎng)絡(luò)

        常曉花,熊 翱

        (北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院,北京 100876)

        1 引言

        銷售量是衡量一個(gè)公司銷售業(yè)績好壞的重要標(biāo)志.銷售量的多少不僅影響著公司的盈利和發(fā)展,同時(shí)也影響著整個(gè)國家的經(jīng)濟(jì)命脈.因此,銷售量預(yù)測(cè)的精確性和科學(xué)性具有重要的研究價(jià)值.

        銷售數(shù)據(jù)是一種動(dòng)態(tài)的、非線性的、不規(guī)則的時(shí)間序列數(shù)據(jù),受季節(jié)氣候、突發(fā)事件、經(jīng)銷商的銷售能力、下級(jí)經(jīng)銷商的數(shù)量等等各種因素的影響.國內(nèi)外學(xué)者對(duì)各行各業(yè)銷售量預(yù)測(cè)的方法,主要有神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法[1]、聚類預(yù)測(cè)[2]方法等.傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)方法,容易陷入局部極小值,而達(dá)不到預(yù)測(cè)的精度;基于聚類的銷量預(yù)測(cè)方法,初始聚類中心的選擇對(duì)聚類結(jié)果的影響較大,并且需要不斷調(diào)整聚類中心,所以數(shù)據(jù)量較大時(shí),算法時(shí)間開銷也會(huì)非常大.

        本文針對(duì)上述問題,提出了基于改進(jìn)Adaboost算法[3]的隨機(jī)森林預(yù)測(cè)方法,該方法不存在神經(jīng)網(wǎng)絡(luò)算法會(huì)陷入局部極小值的缺點(diǎn),且在數(shù)據(jù)量較大和較小時(shí)都能夠維持一定的預(yù)測(cè)精度,對(duì)不平衡數(shù)據(jù)集來說,能夠平衡誤差,同時(shí)訓(xùn)練速度快,能夠?qū)崿F(xiàn)并行化.本文利用該改進(jìn)的Adaboost隨機(jī)森林預(yù)測(cè)方法,對(duì)某醫(yī)療器械銷售公司的實(shí)際銷售數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了本文所提方法的有效性.

        2 隨機(jī)森林算法和Adaboost算法

        2.1 隨機(jī)森林算法原理

        隨機(jī)森林[4]是Bagging算法和改進(jìn)的決策樹算法的結(jié)合.

        Bagging算法是多個(gè)個(gè)體弱學(xué)習(xí)器各自學(xué)習(xí),然后通過集合策略來得到最終的強(qiáng)學(xué)習(xí)器,個(gè)體弱學(xué)習(xí)器之間不存在依賴關(guān)系,個(gè)體弱學(xué)習(xí)器的訓(xùn)練集通過隨機(jī)采樣得到,隨機(jī)采樣表示每次從訓(xùn)練集中采集固定個(gè)數(shù)的樣本,但是采集后都將樣本放回;普通的決策樹算法,會(huì)在節(jié)點(diǎn)所有樣本特征中選擇一個(gè)最優(yōu)的特征來做決策樹的左右子樹劃分.但是,隨機(jī)森林中所用的決策樹算法,則是通過隨機(jī)選擇節(jié)點(diǎn)上的一部分樣本特征,再在其中選擇一個(gè)最優(yōu)的特征來做決策樹的左右子樹劃分.

        隨機(jī)森林算法,就是將改進(jìn)的決策樹算法作為弱學(xué)習(xí)器,然后使用Bagging算法對(duì)弱學(xué)習(xí)器進(jìn)行集成學(xué)習(xí)而得到的.該算法結(jié)合了Bagging算法的隨機(jī)采樣以及決策樹算法的隨機(jī)特征選擇,這兩個(gè)“隨機(jī)”性,因而其泛化能力強(qiáng),不容易陷入過擬合.同時(shí),由于Bagging算法中弱學(xué)習(xí)器之間相互獨(dú)立,隨機(jī)森林中的決策樹可以并行學(xué)習(xí),因而,隨機(jī)森林算法的時(shí)間效率高.

        隨機(jī)森林的訓(xùn)練過程如下:

        (1)給定訓(xùn)練集S,測(cè)試集T,特征維數(shù)F.確定參數(shù):使用到的CART的數(shù)量t,每棵樹的深度d,每個(gè)節(jié)點(diǎn)使用到的特征數(shù)量f.終止條件:節(jié)點(diǎn)上最少樣本數(shù)s,節(jié)點(diǎn)上最少的信息增益m.

        對(duì)于第1-t棵樹,i=1-t:

        乳腺肉瘤是發(fā)生于乳腺間葉組織的惡性腫瘤,按其組織來源分為間葉組織類,主要包括乳腺脂肪肉瘤,血管肉瘤及纖維組織肉瘤等;混合組織類,主要為乳腺葉狀囊肉瘤和癌肉瘤。

        (2)從S中有放回的抽取大小和S一樣的訓(xùn)練集S(i),作為根節(jié)點(diǎn)的樣本,從根節(jié)點(diǎn)開始訓(xùn)練.

        (3)如果當(dāng)前節(jié)點(diǎn)上達(dá)到終止條件,則設(shè)置當(dāng)前節(jié)點(diǎn)為葉子節(jié)點(diǎn),如果是分類問題,該葉子節(jié)點(diǎn)的預(yù)測(cè)輸出為當(dāng)前節(jié)點(diǎn)樣本集合中數(shù)量最多的那一類c(j),概率p為c(j)占當(dāng)前樣本集的比例;如果是回歸問題,預(yù)測(cè)輸出為當(dāng)前節(jié)點(diǎn)樣本集各個(gè)樣本值的平均值.然后繼續(xù)訓(xùn)練其他節(jié)點(diǎn).如果當(dāng)前節(jié)點(diǎn)沒有達(dá)到終止條件,則從F維特征中無放回的隨機(jī)選取f維特征.利用這f維特征,尋找分類效果最好的一維特征k及其閾值th,當(dāng)前節(jié)點(diǎn)上樣本第k維特征小于th的樣本被劃分到左節(jié)點(diǎn),其余的被劃分到右節(jié)點(diǎn).繼續(xù)訓(xùn)練其他節(jié)點(diǎn).

        (4)重復(fù)(2),(3),直到所有節(jié)點(diǎn)都訓(xùn)練過了或者被標(biāo)記為葉子節(jié)點(diǎn).

        (5)重復(fù)(2),(3),(4),直到所有CART都被訓(xùn)練過.

        利用隨機(jī)森林的預(yù)測(cè)過程如下:

        對(duì)于第1-t棵樹,i=1-t:

        (1)從當(dāng)前樹的根節(jié)點(diǎn)開始,根據(jù)當(dāng)前節(jié)點(diǎn)的閾值th,判斷是進(jìn)入左節(jié)點(diǎn)還是進(jìn)入右節(jié)點(diǎn),直到到達(dá),某個(gè)葉子節(jié)點(diǎn),并輸出預(yù)測(cè)值.

        (2)重復(fù)執(zhí)行(1),直到所有t棵樹都輸出了預(yù)測(cè)值.如果是分類問題,則輸出為所有樹中預(yù)測(cè)概率總和最大的那一個(gè)類,即對(duì)每個(gè)c(j)的p進(jìn)行累計(jì);如果是回歸問題,則輸出為所有樹的輸出的平均值.

        表1 Bagging框架的參數(shù)

        表2 CART決策樹的參數(shù)

        2.2 Adaboost算法原理

        Adaboost是一種迭代算法.其主要過程分為三步,首先對(duì)訓(xùn)練樣本進(jìn)行權(quán)重初始化;然后對(duì)弱學(xué)習(xí)器進(jìn)行訓(xùn)練,如果某個(gè)樣本點(diǎn)的預(yù)測(cè)值達(dá)到了所要求的精度,那么在構(gòu)造下一個(gè)訓(xùn)練集時(shí),它的權(quán)重就降低,相反,則權(quán)重提高,接著權(quán)重更新過的樣本集被用于訓(xùn)練下一個(gè)學(xué)習(xí)器,整個(gè)訓(xùn)練過程如此迭代進(jìn)行;最后將各個(gè)學(xué)習(xí)器組合成強(qiáng)學(xué)習(xí)器[5].

        Adaboost算法最終得到的強(qiáng)學(xué)習(xí)器,由各個(gè)弱學(xué)習(xí)器與其權(quán)重結(jié)合而成,弱學(xué)習(xí)器的權(quán)重由每個(gè)弱學(xué)習(xí)器的誤差率決定,誤差率小的弱學(xué)習(xí)器,其權(quán)重則大,這使其在最終的強(qiáng)學(xué)習(xí)器函數(shù)中起較大的決定作用.

        因此,Adaboost算法中的個(gè)體學(xué)習(xí)器之間有很強(qiáng)的依賴關(guān)系,也因此導(dǎo)致其有預(yù)測(cè)精度高的優(yōu)點(diǎn).并且,Adaboost算法[6]提供的是一個(gè)學(xué)習(xí)框架,這使其應(yīng)用非常靈活,可以使用各種分類回歸模型來構(gòu)建弱學(xué)習(xí)器.

        2.3 基于改進(jìn)Adaboost的隨機(jī)森林銷售量預(yù)測(cè)模型

        本文將隨機(jī)森林算法與Adaboost算法框架結(jié)合,提出了一種改進(jìn)Adaboost算法的隨機(jī)森林銷售量預(yù)測(cè)算法,以下稱為預(yù)測(cè)算法.

        該算法詳細(xì)步驟如下:

        (2)隨機(jī)森林弱預(yù)測(cè)模型[8]預(yù)測(cè).通過選取合適隨機(jī)森林算法參數(shù)值,構(gòu)造不同的隨機(jī)森林弱預(yù)測(cè)器,對(duì)于t=1,...,T進(jìn)行T次迭代,在訓(xùn)練第t個(gè)弱預(yù)測(cè)器時(shí),使用隨機(jī)森林回歸類對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,建立回歸模型gt(x)→y.具體步驟如下:

        5)進(jìn)行第t+1次迭代;

        6)如果迭代次數(shù)達(dá)到T,則繼續(xù)7),否則返回1),直到達(dá)到最大迭代次數(shù);

        最終強(qiáng)預(yù)測(cè)器函數(shù)的輸出公式如下:

        本文提出的基于Adaboost的隨機(jī)森林預(yù)測(cè)算法,結(jié)合了隨機(jī)森林算法和Adaboost算法的優(yōu)點(diǎn),時(shí)間效率高,泛化能力強(qiáng),同時(shí)由于Adaboost的迭代,預(yù)測(cè)精度較高.預(yù)測(cè)算法使用了弱學(xué)習(xí)器中每次學(xué)習(xí)后的預(yù)測(cè)錯(cuò)誤率以及樣本的平均相對(duì)誤差作為影響弱學(xué)習(xí)器權(quán)重的因子,使得在下一個(gè)學(xué)習(xí)器中能夠更注重上一個(gè)學(xué)習(xí)器預(yù)測(cè)誤差較大的樣本,從而提高了預(yù)測(cè)的精度.

        3 實(shí)驗(yàn)與結(jié)果分析

        本文的實(shí)驗(yàn)數(shù)據(jù)來自某醫(yī)療器械銷售公司的銷售數(shù)據(jù).共有240組樣本數(shù)據(jù),部分?jǐn)?shù)據(jù)如表3所示,tmp_max表示最高氣溫均值,tmp_min表示最低氣溫均值,prob_rain表示降雨概率(已做處理),lstwk_sales表示上周的銷量,lsttwo_sales表示上上周的銷量,單位為實(shí)際銷售單位EA.

        表3 實(shí)驗(yàn)部分?jǐn)?shù)據(jù)

        選取樣本中的150組數(shù)據(jù)進(jìn)行訓(xùn)練,其余90組作為測(cè)試樣本.然后用本文提出的方法進(jìn)行訓(xùn)練.實(shí)驗(yàn)采用python[9,10]進(jìn)行仿真,實(shí)驗(yàn)過程中,隨機(jī)森林決策樹個(gè)數(shù)設(shè)為100,隨機(jī)森林其余參數(shù)均選擇默認(rèn)值,構(gòu)成弱預(yù)測(cè)器.根據(jù)本文提出的預(yù)測(cè)方法,設(shè)置Adaboost算法的最大迭代次數(shù)T為20,調(diào)整系數(shù)k為1.1,相對(duì)誤差率閾值設(shè)0.1.

        表4所示為部分預(yù)測(cè)值及相對(duì)誤差,圖1是使用改進(jìn)Adaboost方法和未使用Adaboost方法的預(yù)測(cè)結(jié)果對(duì)比圖.實(shí)驗(yàn)結(jié)果表明,預(yù)測(cè)數(shù)據(jù)誤差率小于0.1,使用基于Adaboost改進(jìn)后的算法能夠比改進(jìn)之前的預(yù)測(cè)率提高約12%,證明了本文提出的算法的有效性.

        表4 室內(nèi)光流擾動(dòng)效應(yīng)檢測(cè)

        圖1 改進(jìn)前后銷量預(yù)測(cè)對(duì)比圖

        4 結(jié)論與展望

        近年來,隨著醫(yī)療技術(shù)的不斷更新發(fā)展,醫(yī)療器材的需求量也不斷增加,大量的銷售數(shù)據(jù)銷售信息有待挖掘,本文利用改進(jìn)的Adaboost方法,初始化訓(xùn)練樣本權(quán)重,并利用隨機(jī)森林算法訓(xùn)練得到若預(yù)測(cè)器,后又結(jié)合多個(gè)弱預(yù)測(cè)器,形成強(qiáng)預(yù)測(cè)器的方法,對(duì)銷售數(shù)據(jù)集進(jìn)行了分析和研究,同時(shí)提升了隨機(jī)森林算法的回歸性能,但是本文提出的方法,只是通過改進(jìn)Adaboost算法結(jié)合隨機(jī)森林算法來提高算法的回歸性能,并沒有考慮通過改進(jìn)隨機(jī)森林算法本身來提高算法的有效性,所以未來還有很大的提升改進(jìn)空間.

        1陳蓉.基于BP神經(jīng)網(wǎng)絡(luò)的零售產(chǎn)品銷量預(yù)測(cè)方法.經(jīng)營管理者,2015,(4):10-11.

        2王建偉.基于商品聚類的電商銷量預(yù)測(cè).計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(10):162-168.[doi:10.15888/j.cnki.csa.005423]

        3曹瑩,苗啟廣,劉家辰,等.AdaBoost算法研究進(jìn)展與展望.自動(dòng)化學(xué)報(bào),2013,39(6):745-758.

        4丁君美,劉貴全,李慧.改進(jìn)隨機(jī)森林算法在電信業(yè)客戶流失預(yù)測(cè)中的應(yīng)用.模式識(shí)別與人工智能,2015,28(11):1041-1049.

        5李翔,朱全銀.Adaboost算法改進(jìn)BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)研究.計(jì)算機(jī)工程與科學(xué),2013,35(8):96-102.

        6張禹,馬駟良,張忠波,等.基于Adaboost算法與神經(jīng)網(wǎng)絡(luò)的快速虹膜檢測(cè)與定位算法.吉林大學(xué)學(xué)報(bào)(理學(xué)版),2006,44(2):233-236.

        7李翔,朱全銀.基于Adaboost算法和BP神經(jīng)網(wǎng)絡(luò)的稅收預(yù)測(cè).計(jì)算機(jī)應(yīng)用,2012,32(12):3558-3560,3568.

        8李威威,李春青,聶敬云,等.膜生物反應(yīng)器膜污染的隨機(jī)森林預(yù)測(cè)模型.計(jì)算機(jī)應(yīng)用,2015,35(SI):135-137.

        9Richert W,Coelho LP.Python語言構(gòu)建機(jī)器學(xué)習(xí)系統(tǒng).南京:東南大學(xué)出版社,2016.

        10Hetland ML.Python基礎(chǔ)教程.2版.司維,曾軍崴,譚穎華,譯.北京:人民郵電出版社,2014.

        猜你喜歡
        預(yù)測(cè)器決策樹神經(jīng)網(wǎng)絡(luò)
        輸入延遲系統(tǒng)的切換偽預(yù)測(cè)鎮(zhèn)定控制器
        一種改進(jìn)型TAGE分支預(yù)測(cè)器的實(shí)現(xiàn)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識(shí)別
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        成人特黄特色毛片免费看| 亚洲欧美日韩在线不卡 | 四虎影视免费观看高清视频| 午夜性刺激免费视频| 国产高跟丝袜在线诱惑| 澳门蜜桃av成人av| 国产色在线 | 亚洲| 久青草国产视频| 日韩精品一区二区av在线| 日韩一级黄色片一区二区三区| 国产av无码专区亚洲av蜜芽| 亚洲午夜精品久久久久久人妖 | 午夜精品久久久久久久| 中文字幕一区二区人妻| 一本一本久久a久久精品综合| 隔壁人妻欲求不满中文字幕| 欧美老妇交乱视频在线观看| 欧美性性性性性色大片免费的| 亚洲片在线视频| 五月婷婷开心五月激情| 国产综合久久久久久鬼色| 日本黄页网站免费大全| 激情内射亚洲一区二区| 我要看免费久久99片黄色| аⅴ资源天堂资源库在线| 日韩欧美国产亚洲中文| 国产在线视频一区二区三| 天天爽夜夜爽夜夜爽精品视频| 国产精品卡一卡二卡三| 国产精品国产三级国产an | 国产精品人成在线765| 午夜久久久久久禁播电影| 99精产国品一二三产品香蕉| 无码区a∨视频体验区30秒| 国产精品老熟女乱一区二区| 亚洲熟妇无码一区二区三区导航| 日本欧美在线播放| 狠狠久久av一区二区三区| 国产乡下妇女做爰| 一本色综合亚洲精品蜜桃冫| 情色视频在线观看一区二区三区|