亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BI的報表系統(tǒng)的數(shù)據(jù)挖掘優(yōu)化

        2020-04-22 20:36:14程旭王萌齊新
        電腦知識與技術(shù) 2020年6期
        關(guān)鍵詞:決策樹增益數(shù)據(jù)挖掘

        程旭 王萌 齊新

        摘要:伴隨著大數(shù)據(jù)的發(fā)展,各大企業(yè)都在成立自己的數(shù)據(jù)中心,目的是為了統(tǒng)一處理各大部門的數(shù)據(jù)信息,打造一個數(shù)據(jù)中臺來提升企業(yè)的綜合實力。BI系統(tǒng)應用而生,BI主要是通過對大數(shù)據(jù)的收集,提取,分析vx2c~,-7;.等操作,過濾之后的信息以各種圖形化的方式展示出來,幫助領(lǐng)導以及企業(yè)做出正確的決斷。通過對國內(nèi)的大部分數(shù)據(jù)中心進行觀察發(fā)現(xiàn)了以下問題:海量的數(shù)據(jù)不能正確的處理,復雜的圖表展示,大量冗余的信息使得企業(yè)不得做出正確的決定。故該文主要針對報表系統(tǒng)的數(shù)據(jù)挖掘模型進行優(yōu)化設(shè)計與分析。

        關(guān)鍵詞:報表系統(tǒng);數(shù)據(jù)挖掘

        中圖分類號:TP391 文獻標識碼:A

        文章編號:1009-3044(2020)06-0005-02

        1背景

        BI又被稱為商務(wù)智能,譯為Business Intelligence,在1989年,Howard Dresner稱為“使用基于事實的決策系統(tǒng),來解決業(yè)務(wù)決策的一套理論和方法”,主要是通過數(shù)據(jù)倉庫,數(shù)據(jù)挖掘以及報表系統(tǒng)集合來打造一個系統(tǒng)。將多種來源的數(shù)據(jù)整合并提取出共性數(shù)據(jù),然后對數(shù)據(jù)進行清洗,分析以及整理,這個數(shù)據(jù)處理就叫作ETL過程,ETL過程可以完善數(shù)據(jù)的正確性。然后對數(shù)據(jù)進行分類整理呈現(xiàn)給決策者或者存人數(shù)據(jù)倉庫。目前國內(nèi)的BI系統(tǒng)發(fā)展迅速,大部分企業(yè)的數(shù)據(jù)分析技術(shù)也很強,但是大家對于BI的認知不同導致設(shè)計系統(tǒng)的側(cè)重點也是不同的,在此僅針對BI系統(tǒng)部分的數(shù)據(jù)挖掘進行優(yōu)化。

        2數(shù)據(jù)挖掘模型

        2.1數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是對數(shù)據(jù)進行抽取,分析,處理之后形成的數(shù)據(jù)倉庫,之后再對數(shù)據(jù)倉庫中的數(shù)據(jù)進一步挖掘的過程。

        2.2數(shù)據(jù)模型之決策樹

        決策樹結(jié)構(gòu)如圖2所示。

        決策樹是樹形結(jié)構(gòu),每個節(jié)點是一個簡單的線性決策器,節(jié)點屬性依據(jù)取值的不同劃分為不同的種類,其中決策樹的任意一個非葉子節(jié)點有兩個特點:一個訓練子集和一個分割屬性,每個節(jié)點的訓練子集互不相交。

        決策樹的構(gòu)造:

        在初始時刻構(gòu)建樹根節(jié)點,且樹根節(jié)點擁有所有的訓練數(shù)據(jù),任一節(jié)點Ni,選擇數(shù)據(jù)的某一個屬性A,以A的不同值,把節(jié)點Ni擁有的數(shù)據(jù)Di劃分為全部沒有交集的集合,每個集合變成Ni的一個子節(jié)點,當某個節(jié)點的所有訓練數(shù)據(jù)都屬于同一個類時,該節(jié)點的劃分過程結(jié)束,生成葉節(jié)點只有一個屬性,它的父節(jié)點擁有的數(shù)據(jù)集所屬的類標號。

        ID3算法:

        決策樹的重點在于如何最有效的去劃分子節(jié)點,也就是選擇劃分的屬性使得從數(shù)據(jù)集中找到最重要的數(shù)據(jù),我們可以用數(shù)據(jù)的不純性來描述數(shù)據(jù)分割的能力,“純”代表著分割之后的子集異類數(shù)目越少越好,因此衍生出了ID3算法,采取信息增益這個量來作為純度的度量,

        算法流程:

        1)計算信息熵,對于給定的變量擁有的概率分布向量(p1,p2,p3……),我們可以計算出信息熵是概率分布向量的對數(shù)期望值:H=-f(x)=-∑npn logpn,主要是來衡量隨機變量的不確定性;

        2)計算熵不純度:對決策數(shù)的節(jié)點N定義熵不純度為i(N)=H(N);

        3)對于節(jié)點的不同取值,都進行子節(jié)點的信息增益計算:IG(N/Ai)=H(N)-∑I Ni/NH(Ni)=H(N)-H(N/Ai),可選取信息增益最大的屬性作為當前劃分屬性,之后再從第一步開始循環(huán),直到葉子節(jié)點。

        以信息的增益為例,我們一般會選取屬性相同多的屬性,這樣做的后果是會造成對取值數(shù)目的屬性和個數(shù)有所偏好,為了減少這種偏好取值所帶來的影響,我們可以采用C4.5算法來消除這種影響,使用屬性增益率來劃分最適合屬性,對最適合的信息增益屬性取權(quán)值再求熵,作為最后的增益率劃分屬性。

        C4.5算法:

        與ID3算法不同的是,C4.5算法劃分重點轉(zhuǎn)移到信息增益率上,信息增益率可以表示為:IGR=IG(N/Ai)/H(N/Ai),息增益除以分割后的信息熵,它通過信息增益率的選擇分裂屬性可以解決ID3算法中通過信息增益傾向擁有多個屬性值的屬性進行分割的不足,同時也可以將連續(xù)性的屬性進行離散化的處理,屬性離散化處理流程:將屬性A的N個屬性按照一定的規(guī)則排序,然后將屬性A的所有量化屬性通過二分法劃分為兩個部分,可以計算出共有N-1種劃分的方法,劃分的值取相近的屬性取平均值,計算出每一種劃分方式的信息增益值,然后對比信息增益的結(jié)果,將信息增益值最大的劃分方式的閾值作為屬性A的二分閾值。也就是當前節(jié)點的劃分方式。

        算法流程:

        1)將當前節(jié)點上的屬性A的值作為所有樣本的數(shù)據(jù),然后將數(shù)據(jù)進行排序,得到屬性A的排列屬性(xA1,..xAN)。

        2)對于屬性A的排序(xA1,...xAN)中共有N-1種劃分方法,總計可以產(chǎn)生N-1個劃分閾值。假設(shè)針對第i種劃分方式,取其二分閾值為θi=(xAi+xAi)/2??梢詫⒃摴?jié)點上的原始數(shù)據(jù)集劃分為2個子數(shù)據(jù)集(xA1,...,xAi)(xAi+1,...,xAN)。然后計算該劃分方法下的信息增益。

        3)統(tǒng)計N-1種劃分結(jié)果下的信息增益值,選取信息增益值最優(yōu)的方式作為對屬性A的劃分方式。

        2.3決策樹算法優(yōu)化

        為了提高決策樹的性能,避免決策樹的分支太多造成泛化的能力太差,可以在構(gòu)建決策樹時采用剪枝的方式:停止樹的構(gòu)建,不在分割某個節(jié)點,直接構(gòu)建葉子節(jié)點,葉節(jié)點的標號為父節(jié)點的占優(yōu)類或者類分布,比如設(shè)置信息增益的閾值,分割時不能超過閾值則分割停止?;蛘呶覀冊跇?gòu)建決策樹之后在進行剪枝。達到優(yōu)化性能的目的。C4.5算法使用PEP剪枝法,是一種自上而下的剪枝法,這里就不再細述。

        伴隨著數(shù)據(jù)集的規(guī)模越來越大,可能會出現(xiàn)再一次內(nèi)存中無法存放所有的訓練集,這時我們可以采用隨機讀人數(shù)據(jù)放入內(nèi)存中進行訓練數(shù)據(jù)子集,在獲取的子集上構(gòu)造決策樹,同時可以重復采樣,獲取多棵決策樹,最后再用集成學習的方式綜合多棵決策樹的結(jié)果獲取最終的分割屬性。

        3結(jié)束語

        針對數(shù)據(jù)挖掘模型做出優(yōu)化,可以極大地改善數(shù)據(jù)提取的效率和精準度,對于大型企業(yè)的冗余信息提取具有重大的意義,同時由于BI系統(tǒng)依賴大數(shù)據(jù)的特性,數(shù)據(jù)挖掘算法也成為BI系統(tǒng)中很重要的一步,可以為后續(xù)的BI系統(tǒng)信息展示提供良好的支撐作用。

        猜你喜歡
        決策樹增益數(shù)據(jù)挖掘
        基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于單片機的程控增益放大器設(shè)計
        電子制作(2019年19期)2019-11-23 08:41:36
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        基于Multisim10和AD603的程控增益放大器仿真研究
        電子制作(2018年19期)2018-11-14 02:37:02
        決策樹和隨機森林方法在管理決策中的應用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹的出租車乘客出行目的識別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應用
        基于肺癌CT的決策樹模型在肺癌診斷中的應用
        日韩精品中文一区二区三区在线| 国产一级淫片a免费播放口 | 嫖妓丰满肥熟妇在线精品| 日日摸日日碰人妻无码老牲| 性感人妻中文字幕在线| 亚洲97成人在线视频| 国内精品伊人久久久久网站| 国产精品户露av在线户外直播| 91极品尤物国产在线播放| 中文字幕一区乱码在线观看| 欧洲熟妇色xxxx欧美老妇性| 久久久精品欧美一区二区免费| 欧美日韩亚洲综合久久久| 一区二区三区高清视频在线| 亚洲av中文无码乱人伦在线视色| 少妇无码一区二区三区| 免青青草免费观看视频在线| 日韩在线视频专区九区| 久久99精品久久久久久噜噜| 伊人蕉久中文字幕无码专区| 国产成人久久精品77777综合| 黑丝美腿国产在线观看| 24小时日本在线视频资源| 亚洲国产综合人成综合网站| 秀人网嫩模李梓熙大尺度| av免费在线免费观看| 亚洲av永久精品爱情岛论坛| 国产无套视频在线观看香蕉| 青青草成人免费播放视频| 公与淑婷厨房猛烈进出| 国产精品视频一区二区三区四| 国产精品天干天干在线观蜜臀| 久久精品蜜桃亚洲av高清| 人人爽久久涩噜噜噜丁香| 亚洲 国产 哟| 熟女高潮av一区二区| 18岁日韩内射颜射午夜久久成人| 97人人超碰国产精品最新o| 国产一级片内射在线视频| 日本女优在线一区二区三区| 国产精品熟女一区二区|