亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向高維數(shù)據(jù)的隨機森林算法優(yōu)化探討

        2016-03-24 20:41:50羅超
        2016年4期
        關(guān)鍵詞:優(yōu)化

        作者簡介:羅超,2003年畢業(yè)于湘潭大學測控技術(shù)與儀器專業(yè);2013年至2016年,就讀于人民大學統(tǒng)計學院;現(xiàn)任職于霍尼韋爾航空航天部門,專注于航空航天和空中交通管理大數(shù)據(jù)方向的研究和挖掘。

        摘要:面向高位數(shù)據(jù)的隨機森林算法屬于數(shù)據(jù)挖掘領域中的一部分內(nèi)容,做好隨機森林算法的優(yōu)化工作,對于高維數(shù)據(jù)的分析及處理效率的提高有著極大的促進作用。文章主要論述的便是有關(guān)這方面的內(nèi)容。首先,文章針對隨機森林算法的定義及其泛化誤差進行了簡要的概述,繼而在此基礎上分析了高維數(shù)據(jù)的可視化及基于隨機森林的有監(jiān)督降維技術(shù),最后,文章對整個實驗的結(jié)果進行了分析,得出了最終優(yōu)化結(jié)論,希望能夠為數(shù)據(jù)挖掘領域提供具有參考價值的意見,同時也為面向高維數(shù)據(jù)的隨機森林算法優(yōu)化奠定堅實的基礎。

        關(guān)鍵詞:高維數(shù)據(jù);隨機森林算法;優(yōu)化

        一、引言

        互聯(lián)網(wǎng)技術(shù)的出現(xiàn)及發(fā)展使得計算機逐漸進入了千家萬戶,并成為了各個領域處理數(shù)據(jù)的一個主要手段,目前,隨著社會的不斷進步,高維數(shù)據(jù)的增長速度也開始越來越快,海量的高維數(shù)據(jù)為其分析與處理過程帶來了困難。就目前的情況看,我國在對高維小樣本數(shù)據(jù)進行挖掘時還存在一定的問題,而將隨機森林算法應用到高維數(shù)據(jù)的處理方面對其準確性以及分析效率的提高都具有重要作用,因此,相關(guān)領域必須認識到這一點,要做好其利用與優(yōu)化工作,這樣才能最大程度的保證我國數(shù)據(jù)挖掘技術(shù)的進一步提高。

        二、隨機森林算法

        想要做好面向高維數(shù)據(jù)的隨機森林算法優(yōu)化工作,首先就必須要對隨機森林算法達到一定程度的了解,這是優(yōu)化工作的基礎,同時也是工作人員必須具備的基礎性知識。

        (一)隨機森林算法定義

        總的來說,隨機森林是一個樹形分類器的集合,其中元分類器是使用CART算法來構(gòu)建的未剪枝的分類回歸樹,在樹形分類器的集合中,分別存在代表輸入向量的部分以及代表獨立同分布的隨機向量的部分,一般情況下,想要得出隨機森林算法的結(jié)果,主要應通過投票法來實現(xiàn)。

        隨機森林這一算法的核心特點體現(xiàn)在其隨機性,主要表現(xiàn)為以下兩方面:首先,在選取訓練樣本集時,隨機森林算法要求必須用Bagging算法來實現(xiàn),且必須要隨機對樣本進行選擇,這是這一算法隨機性的第一點體現(xiàn)。其次,在對隨機森林算法進行應用時,需要選取分裂屬性集,而這一算法隨機性的第二點體現(xiàn)便在于對分裂屬性集的選取方面。例如:假設樣本一共存在X個屬性,可以指定其中一個屬性數(shù)Y小于等于X,這樣一來,可以通過全部樣本X中隨機抽取Y個屬性,將其作為分裂屬性集,而分裂方式則可以有多種選擇,通常情況下,為提高分裂效率,節(jié)省分裂時間,相關(guān)人員往往會選擇最容易分裂的方式進行分裂。

        (二)隨機森林的泛化誤差

        作為隨機森林算法中的一項重要內(nèi)容,對隨機森林泛化誤差進行了解對于了解以及應用整個隨機森林算法具有重要作用。

        對此,可以對學習器的輸入向量以及輸出標記進行假設,前者可以假設為X,后者可以假設為Y,除此之外,還需要對角色樹節(jié)點特征的隨機向量進行表示,通過對各向量的整合,可以得出隨機向量的間隔函數(shù),如下所示:

        mg(X,Y)=Pθ(h(X,Θ)=j)

        在函數(shù)中,等號前邊的mg(X,Y)通常用來表示樣本數(shù)據(jù)被分對與分措的概率之差,因此,對隨機森林泛化性能的確定便可以通過分類器的分類效果來確定,而分類器的分類效果則可以通過間隔函數(shù)看出,通常情況下,三者成正比。

        分類器集合的泛化誤差如下所示:

        PE*=PX,Y(mg(X,Y)<0)

        隨機森林分類強度如下所示:

        S=EX,Y(mg(X,Y))

        隨機森林的泛化誤差的估計結(jié)果如下所示:

        PE*≤P〖TX-〗(1-S2)/S2

        根據(jù)對隨機森林泛化誤差估計結(jié)果的分析,可以發(fā)現(xiàn),隨著隨機森林中分類樹數(shù)目的增長,這一算法不會導致過擬合。

        三、基于隨機森林的可視化

        (一)高維數(shù)據(jù)可視化

        人們在對世界已經(jīng)事物的了解過程中,往往首先利用的感覺器官便為眼睛,高維數(shù)據(jù)的可視化便利用了人類的這一特征。目前,面對海量的高維數(shù)據(jù),其數(shù)據(jù)挖掘過程十分困難,高維數(shù)據(jù)的可視化可以將數(shù)據(jù)以直觀的圖像形式呈現(xiàn)給工作人員,這對于其了解數(shù)據(jù)的特征及分布情況具有重要意義,因此對于數(shù)據(jù)挖掘的結(jié)果也便能夠很好的理解。高維數(shù)據(jù)的可視化充分利用了人腦功能,相對于以往傳統(tǒng)的分析方法講得到了很大程度的進步。

        在數(shù)據(jù)挖掘領域,應用效果較好的高維數(shù)據(jù)可視化方法包括很多種,其中平行坐標法便屬于其中一種,所謂的平行坐標法主要指的是通過對多為空間的各屬性對應映射到二位空間中等距離的多個平行坐標軸上的方法,去使每個樣本都能夠用多個坐標軸上點之間的連接線段連接來表示??偟膩碚f,平行坐標法具有使用簡單、容易理解的特點,因此得到了數(shù)據(jù)挖掘領域足夠的重視。

        臉譜圖也是高維數(shù)據(jù)可視化中的一種方法,這一方法是通過事先設置好的人臉去對多維信息進行表示的一種方法,其中,每一個設置好的人臉中,其器官都是存在差別的,根據(jù)對不同人臉器官大小以及形狀方面差別的分析,便可以得出多維信息不同的屬性。臉譜圖這一方法充分利用了人眼睛這一器官的特性,由于眼睛對于人臉種種特征的分析及處理具有相當精確的特點,因此,利用臉譜圖的方法對多維數(shù)據(jù)進行分析也會較其他方法更為精確,同時,可視化的特點也使其分析效率得到了極大程度的提高。

        可視化的方法對于多維數(shù)據(jù)屬性等方面的分析具有巨大價值,但一旦數(shù)據(jù)達到了更高的維度,其分析過程便會相應變得困難,此時,傳統(tǒng)的可視化方法明顯已經(jīng)無法滿足具體的分析需要,將PCA與平行坐標的數(shù)據(jù)可視化結(jié)合起來進行應用對于解決這一方面的困難具有重要價值。PCA的應用可以將高維數(shù)據(jù)降維,這樣一來,可視化方法的應用便能夠很好的發(fā)揮其效果。

        (二)基于隨機森林的有監(jiān)督降維技術(shù)

        從本質(zhì)上講,隨機森林算法屬于一種分類器算法,這一算法作用的實現(xiàn)是在分類與回歸樹兩者結(jié)合的基礎上完成的,總的來說,隨機森林是采用Bagging這一方法去對分類樹進行創(chuàng)建的,并利用隨機子空間方法對上述分類樹進行處理。所謂的隨機子空間方法主要指的是通過對特征的隨機選擇來將其作為每個節(jié)點處的候選特征個數(shù)的一種方法,通過這一方法的定義可以看出,其主要特征是具有隨機性,這一性質(zhì)是造成其分類樹之間差異度巨大的一個主要原因,因此在對數(shù)據(jù)進行分類的過程中會較容易。巨大的差異度使得這一方法別越來越多的應用在了實踐過程中,同時其應用均取得了良好的效果。

        四、實驗和結(jié)果分析

        實驗過程對于分析面向高維數(shù)據(jù)的隨機

        森林算法優(yōu)化的實現(xiàn)具有重要作用。實驗過程首先需要對數(shù)據(jù)及實驗進行設計,繼而可以通過對圖像的繪制對隨機森林可視化結(jié)果進行分析,最后將其與無監(jiān)督降維可視化進行對比,分析出哪一種更適應可視化過程的完成。

        (一)數(shù)據(jù)和實驗設置

        實驗所采用的樣本集如下:

        通過樣本集列表可以看出,本次實驗主要采用了五個高維數(shù)據(jù)集,分別是Prostate Tumor、Leukemia、SRBCT、LungCancer以及Madelon五種、前四個高維數(shù)據(jù)集的來源為基因數(shù)據(jù)庫網(wǎng)站,而后者的主要來源則是UCI數(shù)據(jù)庫。

        本次試驗是在R語言的基礎上完成的,實驗對象主要為帶類標的數(shù)據(jù)集,數(shù)據(jù)集中數(shù)據(jù)的分類情況較為清晰,同時也遵循可視化方法應用的原理,因此通過本次實驗以及對實驗結(jié)果的分析,是有條件得出可視化的應用水平及效果的,同時也能夠得出面向高維數(shù)據(jù)的隨機森林算法優(yōu)化的方法。

        (二)基于隨機森林的可視化結(jié)果與分析

        對降維前后數(shù)據(jù)可視化結(jié)構(gòu)的分析是基于隨機森林的可視化結(jié)構(gòu)分析的基礎??偟膩碚f,未經(jīng)降維的原樣本集具有非線性復雜度,因此,必須要對未經(jīng)降維的數(shù)據(jù)進行散點圖矩陣可視化。在上述過程完成之后,相關(guān)人員需要做的便是利用RF對源數(shù)據(jù)進行進行有監(jiān)督的降維處理。降維處理的過程需要通過對圖像的繪制來完成,通過對繪制過后圖像的分析,各類數(shù)據(jù)能夠被有效分開,這對于可視化過程的順利實現(xiàn)十分有利。

        上述降維過程主要針對前四個數(shù)據(jù)集,而對于第五個數(shù)據(jù)集來說,由于其具有可分性差的特點,因此也就對降維過程提出了很大的挑戰(zhàn),大量的實驗以及實踐經(jīng)驗表明,基于RF默認參數(shù)的降維方法對于這一數(shù)據(jù)集可視化的實現(xiàn)并不適用,因此,有必要對RF參數(shù)進行調(diào)整,使其可視化過程能夠得到最大程度的保證。對RF參數(shù)進行調(diào)整以計算出最適合Madelon數(shù)據(jù)集的可視化的過程同樣需要通過對圖像的繪制來完成,通過各個參數(shù)下所繪制的圖像的對比,工作人員可以很容易看出哪一參數(shù)對于其可視化的完成比較有利。

        (三)與無監(jiān)督降維可視化結(jié)果對比與分析

        作為高維數(shù)據(jù)可視化中的一種降維方法,RF不僅可以實現(xiàn)有監(jiān)督降維,同時也適用于無監(jiān)督降維,所謂的無監(jiān)督降維主要指的是通過無監(jiān)督學習后得出的樣本相似度度量。相對于有監(jiān)督降維來說,無監(jiān)督降維的主要特點是沒有真實數(shù)據(jù)的參與,通過繪制完成的圖像可以發(fā)現(xiàn),相對于有監(jiān)督降維可視化技術(shù)來說,無監(jiān)督降維可視化技術(shù)在有效性方面還有所欠缺。因此,在對RF降維技術(shù)進行利用的過程中,要盡可能的利用有監(jiān)督降維可視化技術(shù)來完成,如果其中存在諸如Madelon這種數(shù)據(jù)集,則可以通過對RF參數(shù)進行修改的方式來實現(xiàn)降維,從而實現(xiàn)對有監(jiān)督降維可視化技術(shù)的應用。

        五、結(jié)束語

        通過上述文章可以看出,在高維數(shù)據(jù)不斷出現(xiàn)并發(fā)展的今天,對數(shù)據(jù)進行分析已近成為了數(shù)據(jù)挖掘領域的一大難題。將隨機森林算法應用到高維數(shù)據(jù)的分析中,對于分析結(jié)果準確性及有效性的保證十分重要。高維數(shù)據(jù)的可視化對于其分析效率的提高具有重要作用,可視化過程可以通過RF降維來實現(xiàn),而RF降維又包括有監(jiān)督降維由無監(jiān)督降維兩種,實驗結(jié)果證明,前者相對于后者來說具有更高的利用價值。在利用隨機森林算法對高維數(shù)據(jù)進行分析與運算的過程中需要嚴格保證其隨機性,這對于計算過程十分重要。(作者單位:霍尼韋爾航空航天部門)

        參考文獻:

        [1]姚登舉;楊靜;詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學學報(工學版),2014(01).

        [2]吳瀟雨;和敬涵;張沛;胡駿.基于灰色投影改進隨機森林算法的電力系統(tǒng)短期負荷預測[J].電力系統(tǒng)自動化,2015(12).

        [3]黃哲學;曹付元;李俊杰;陳小軍.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J].網(wǎng)絡新媒體技術(shù),2012(06).

        [4]尹華;胡玉平.基于隨機森林的不平衡特征選擇算法[J].中山大學學報(自然科學版),2014(05).

        [5]吳瓊;李運田;鄭獻衛(wèi).面向非平衡訓練集分類的隨機森林算法優(yōu)化[J].工業(yè)控制計算機,2013(07).

        [6]張雷;王琳琳;張旭東;劉世榮;孫鵬森;王同立.云南松分布模擬為例[J].生態(tài)學報,2014(03).

        猜你喜歡
        優(yōu)化
        超限高層建筑結(jié)構(gòu)設計與優(yōu)化思考
        PEMFC流道的多目標優(yōu)化
        能源工程(2022年1期)2022-03-29 01:06:28
        民用建筑防煙排煙設計優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
        圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
        事業(yè)單位中固定資產(chǎn)會計處理的優(yōu)化
        消費導刊(2018年8期)2018-05-25 13:20:08
        4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
        幾種常見的負載均衡算法的優(yōu)化
        電子制作(2017年20期)2017-04-26 06:57:45
        少妇伦子伦情品无吗| 日韩久久无码免费看A| 亚洲精品在线观看一区二区| 日韩av一区二区蜜桃| 亚洲黄色天堂网站在线观看禁18| 国产精品久久久久9999吃药| 色婷婷综合中文久久一本| 中文乱码字幕高清在线观看| www插插插无码免费视频网站| 精品久久综合一区二区| 91在线视频视频在线| 精品av一区二区在线| 亚洲自拍偷拍色图综合| 医院人妻闷声隔着帘子被中出 | 免费a级毛片无码a∨免费软件| 成人无码视频在线观看网站| 久久精品国产精品亚洲婷婷| 国产一区二区三区色区| 午夜视频一区二区三区四区| 国产精品国产三级国产av剧情| 国内精品人妻无码久久久影院导航| 国产精品久久久久久久久免费观看 | 日本乱子人伦在线视频| 无码高潮久久一级一级喷水| 五月婷婷丁香视频在线观看| 伊人情人色综合网站| 人妻少妇精品无码专区二区| 欧美一区二区午夜福利在线yw| 中文字幕视频二区三区| 亚洲一区二区三区日本久久九| 亚洲av片在线观看| 国产精品9999久久久久| 亚洲AV成人无码久久精品四虎| 亚洲国产黄色在线观看| 亚洲最新国产av网站| 国产乱子伦农村xxxx| 全球av集中精品导航福利| 亚洲va在线va天堂va四虎| 男人一插就想射的原因| 亚洲线精品一区二区三区| a级毛片100部免费看|