亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)預測處理模式研究

        2017-03-24 11:15:33王金海
        卷宗 2016年11期
        關(guān)鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

        摘 要:大數(shù)據(jù)的時代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵,在日新月異的應(yīng)用背后,產(chǎn)生的是數(shù)據(jù)爆炸式增長和來自大數(shù)據(jù)分析的挑戰(zhàn),如何有效的利用這些數(shù)據(jù)也是一個難題。所以研究大數(shù)據(jù)各種預測的模型的研究就尤為重要,本文結(jié)合大數(shù)據(jù)時代的數(shù)據(jù)特點,研究大數(shù)據(jù)的預測處理模式,提出一種算法融合的模型框架,并通過實驗數(shù)據(jù)集驗證模式。

        關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;特征工程;模型融合;Hadoop

        1 研究背景及意義

        大數(shù)據(jù)時代當前面臨的挑戰(zhàn)是根據(jù)大數(shù)據(jù)進行預測[1]研究,利用已知數(shù)據(jù)進行預測的模式產(chǎn)出,本文對大數(shù)據(jù)預測處理模式進行研究,同時創(chuàng)新性的提出一種融合算法模型框架,最后用數(shù)據(jù)集[3]來驗證模型的準確性。

        2 預測處理模式研究

        基本處理模式

        本文研究的大數(shù)據(jù)[4]預測處理模式主要分為幾個過程,如下:

        1.問題與業(yè)務(wù)理解

        問題與業(yè)務(wù)的理解是對數(shù)據(jù)挖掘的需求進行確認,對預測與挖掘目標有一個明確的定義。

        2.數(shù)據(jù)收集與預處理

        原始的數(shù)據(jù)要傾國清洗或者預處理的方式,才能使最終的結(jié)果準確或者可用。

        3.數(shù)據(jù)挖掘

        a)特征工程

        b)模型訓練

        c)模型評估

        4.結(jié)果解釋和評估

        特征工程

        特征工程[5]是將原始數(shù)據(jù)轉(zhuǎn)化為特征,在進行特征工程的時候,影響其預測結(jié)果有三大因素:模型的選取是否合適,可以用的數(shù)據(jù)是否好用,提取的特征是否實用。

        數(shù)據(jù)預處理

        對數(shù)據(jù)進行挖掘之前,必須首先準備好挖掘的數(shù)據(jù),需要對數(shù)據(jù)進行預處理,提高分類或預測的準確性、效率和可擴展性。

        1.數(shù)據(jù)清理。數(shù)據(jù)清理是指在消除或者減少數(shù)據(jù)中噪聲和處理缺失值數(shù)據(jù)預處理。

        2.相關(guān)性分析。猶豫數(shù)據(jù)集中的許多屬性與挖掘任務(wù)本身可能是無關(guān)的。

        3.數(shù)據(jù)轉(zhuǎn)換。利用概念分成,可以將數(shù)據(jù)泛化到更高層次的概念。

        特征選擇

        特征選擇是根據(jù)有意義的特征輸入數(shù)據(jù)挖掘的算法和模型進行訓練。特征選擇是特征處理的核心部分。包括以下幾種方法:

        1.過濾特征[6]:該思路是自變量和目標變量之間的關(guān)聯(lián)。

        2.封裝特征:該思路是通過目標函數(shù)來看是否加入一個變量。

        3.嵌入特征:該思路是學習器來自動選擇特征。

        算法框架

        本問研究內(nèi)容創(chuàng)新性采用算法模型的融合方式,即多模融合的學習算法框架 ,建立組合預測方法,得到優(yōu)選的預測處理模式,克服單個預測算法的缺點,提升了算法預測的準確性。

        GBDT

        GBDT算法是Boosting算法的一種具體實現(xiàn)形式,它是一種非線性的模型,每次迭代都是在減少殘差的梯度方向新建一顆決策樹,迭代多少次就會生成多少決策樹。

        LR

        LR是廣義的線性模型。LR模型可以很好的并行化,其是一種線性模型,其可以處理上億條的訓練樣本。但是這種線性模型限制它的的學習能力,不能處理大量的特征。

        GBDT與LR的融合

        GBDT的決策樹的通道可以直接作為LR輸入特征使用。所以本文將兩種算法結(jié)合,提出一種GBDT與LR融合的算法模型。這種模型相比如人工尋找特征和特征組合,這種方法省時省力,效率更高。經(jīng)過融合算法模型進行特征和特征組合的自動發(fā)現(xiàn),LR的輸入特征來自GBDT生成的特征。

        模型評價

        模型評價是驗證特征工程與算法框架的重要評測環(huán)節(jié)。一般采用均方根誤差評價法。

        其計算公式如下。

        3 實驗數(shù)據(jù)集分析

        數(shù)據(jù)分析

        通過分析某省部分公交線路的歷史公交卡交易數(shù)據(jù),分析推測乘客的出行習慣和偏好,從而建立模型,預測未來公交客流。即:根據(jù)公交線路歷史刷卡數(shù)據(jù),預測不同公交線路6點-21點各時段的客流情況。

        特征工程

        原始數(shù)據(jù)包含特征Use_city features、Line_name features、Terminal_id features、Card_id features、Create_city features、Deal_time features、Card_type features、Weather features。特征按照具體的內(nèi)容又可以分為:計數(shù)、比值、Flag、時間間隔、時間層級、規(guī)則、排序、地理特征等八種。由于篇幅有限,這里不詳細介紹各特征。

        算法框架

        算法采用GBDT和LR融合算法,基本原理見圖1,GBDT作為主要分類器,表3得到的訓練參數(shù)是經(jīng)過模型訓練得到的。其中,GBDT3是單模型中評價效果最好的模型。經(jīng)過GBDT生成的特征,下一步使用LR對GBDT生成的模型進行融合,把每個GBDT 模型對測試集的預測結(jié)果合并作為LR的訓練集。

        結(jié)果評價

        模型結(jié)果評價采用RMSE評測,公式如下:

        經(jīng)過線下的預測集測試,7模型混合GBDT特征模型與LR融合的算法框架最終得到82%的評分值,說明整個預測模式效果很好。

        4 結(jié)論

        本文研究基于大數(shù)據(jù)的預測處理模式,研究了包括特征工程、算法框架、模型評價等大數(shù)據(jù)預測處理的關(guān)鍵步驟,提出多模融合算法:GBDT與LR融合算法,相比于傳統(tǒng)算法,多模的融合算法結(jié)合了LR速度快、效率高,是一種精確、有效的預測處理算法。最后本文用真實的數(shù)據(jù)集驗證了所研究的處理模式和多模算法的正確性。

        參考文獻

        [1] 孟小峰, 慈祥, MengXiaofeng,等. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013, 50(1):146-169.

        [2] 李建中, 劉顯敏. 大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J]. 計算機研究與發(fā)展, 2013, 50(6):1147-1162.

        [3] 應(yīng)毅, 劉亞軍, 陳誠. 基于云計算技術(shù)的個性化推薦系統(tǒng)[J]. 計算機工程與應(yīng)用, 2015, 51(13):111-117.

        [4] 趙娜. 大數(shù)據(jù)研究綜述[J]. 電子測試, 2015, 14(5):87-90.

        [5] Crone S F, Kourentzes N. Feature selection for time series prediction - A combined filter and wrapper approach for neural networks[J]. Neurocomputing, 2010, 73(s 10-12):1923-1936.

        [6] Liu D, Li T, Liang D. Incorporating logistic regression to decision-theoretic rough sets for classifications[J]. International Journal of Approximate Reasoning, 2014, 55(1):197-210.

        作者簡介

        王金海(1990-),男(滿族),籍貫黑龍江,碩士研究生,在讀學生,研究方向:智能信息處理。

        猜你喜歡
        數(shù)據(jù)挖掘大數(shù)據(jù)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        亚洲aⅴ在线无码播放毛片一线天 中国国语毛片免费观看视频 | 国产精品无码av天天爽| 精品欧美一区二区在线观看| 好爽~又到高潮了毛片视频| 亚洲天堂av在线免费播放| 日本午夜理论片在线观看| 美女不带套日出白浆免费视频| 天天躁狠狠躁狠狠躁夜夜躁| 国产资源精品一区二区免费| 日本岛国一区二区三区| 国产亚洲熟妇在线视频| 精品久久久久久无码中文野结衣 | 99久久免费看少妇高潮a片特黄| 一区二区三区国产美女在线播放| 国内国外日产一区二区| 福利视频一区二区三区| 无码人妻丰满熟妇啪啪网站| 嗯啊哦快使劲呻吟高潮视频| 亚洲欧美国产精品久久久| 人妻熟女中文字幕av| 国产自拍精品一区在线观看| 国产在线观看无码免费视频| 1000部拍拍拍18勿入免费视频下载| 日产精品一区二区三区免费| 久久综合激情的五月天| 天天摸天天做天天爽水多| 国产va在线观看免费| 精品视频专区| 亚洲激情视频在线观看a五月| 男女男精品视频网站免费看| 中文字幕无线码| 亚洲精品中国国产嫩草影院美女| 日韩精品中文字幕人妻中出| 国产精品三区四区亚洲av| 欧美狠狠入鲁的视频777色| 久久tv中文字幕首页| 国产优质女主播在线观看| 玖玖资源站亚洲最大的网站| 国产成人av综合色| 久久综合给合久久狠狠狠97色69 | 日日碰狠狠躁久久躁96avv|