亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)時代的數(shù)據(jù)挖掘

        2014-01-06 03:44:22張建業(yè)
        中國科技信息 2014年23期
        關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)挖掘

        馬 斌 周 平 張建業(yè) 卿 松 李 猷

        1.國網(wǎng)新疆電力公司信息通信公司;2.新疆信息產(chǎn)業(yè)有限責(zé)任公司;3.國網(wǎng)新疆電力公司

        通過分析大數(shù)據(jù)外顯的規(guī)模、種類、變化頻度和價值密度等特征,提出采用數(shù)據(jù)挖掘技術(shù)解決海量數(shù)據(jù)的分析、集成、共享等問題,闡述了數(shù)據(jù)挖掘技術(shù)的概念,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及解釋評估等三個過程,詳細(xì)論述了數(shù)據(jù)挖掘的方法,以及在大數(shù)據(jù)智能分析中的實現(xiàn)技術(shù)。

        概述

        企業(yè)在信息化建設(shè)中,重點關(guān)注的是信息系統(tǒng)對現(xiàn)有業(yè)務(wù)的支持,對業(yè)務(wù)流程的自動化處理,而沒有意識到隱含在數(shù)據(jù)中的商業(yè)價值,在管理上缺乏對大數(shù)據(jù)的應(yīng)用,導(dǎo)致企業(yè)管理高成本、效率低的局面。其次,由于政策原因很多大企業(yè)沒有意識到大數(shù)據(jù)技術(shù)的迅猛發(fā)展,在信息化建設(shè)中再次處于落后狀態(tài)。

        信息技術(shù)的迅猛發(fā)展從某種程度上促進了企業(yè)集約化與精細(xì)化發(fā)展,企業(yè)對于信息技術(shù)亦愈發(fā)重視,對數(shù)據(jù)的價值和需求越來越高,原有的信息技術(shù)手段與傳統(tǒng)的數(shù)據(jù)處理方式已成為飛速發(fā)展的瓶頸。隨著數(shù)據(jù)呈幾何倍數(shù)爆炸式的增長,數(shù)據(jù)的規(guī)模、種類、變化頻度和數(shù)據(jù)的價值也發(fā)生了巨大的變化,因此數(shù)據(jù)的研究方法、手段和觀念也發(fā)生了變化。企業(yè)亟須通過信息技術(shù)手段解決和消化數(shù)據(jù),消除企業(yè)內(nèi)部的資源共享壁壘,實現(xiàn)數(shù)據(jù)的共享與融合,因此借著大數(shù)據(jù)、云計算的發(fā)展,結(jié)合數(shù)據(jù)挖掘的研究方法,采用新的信息技術(shù)解決海量數(shù)據(jù)的分析、集成、共享等問題。結(jié)合行業(yè)的特點及目前工作的特征,解決用戶多種形式、多數(shù)據(jù)源的集成需求,快速響應(yīng)用戶,提高用戶感知度,降低數(shù)據(jù)集成的復(fù)雜度和操作難度,深度挖掘潛在業(yè)務(wù)數(shù)據(jù)價值,反相分析業(yè)務(wù)結(jié)果數(shù)據(jù)的業(yè)務(wù)關(guān)聯(lián)關(guān)系,重塑業(yè)務(wù)流程,提供切實有效的業(yè)務(wù)數(shù)據(jù)質(zhì)量檢查、業(yè)務(wù)數(shù)據(jù)關(guān)系檢查的工具,提高業(yè)務(wù)數(shù)據(jù)質(zhì)量,提高業(yè)務(wù)水平。

        實現(xiàn)大數(shù)據(jù)分析技術(shù),企業(yè)需要解決如下問題:1.統(tǒng)一數(shù)據(jù)源:整合異構(gòu)系統(tǒng)的數(shù)據(jù)資源形成共享數(shù)據(jù)源,通過轉(zhuǎn)換工具統(tǒng)一數(shù)據(jù)格式,實現(xiàn)數(shù)據(jù)交換、數(shù)據(jù)采集和數(shù)據(jù)分析的基礎(chǔ)資源;2.清楚需求目標(biāo):認(rèn)識企業(yè)自身發(fā)展對數(shù)據(jù)對象的需求,對數(shù)據(jù)對象進行有效分類,確認(rèn)分析結(jié)果的商業(yè)價值;3.數(shù)據(jù)挖掘選型:針對不同數(shù)據(jù)對象類型和分析過程,選擇合適的數(shù)據(jù)挖掘技術(shù),對大數(shù)據(jù)進行分析。

        數(shù)據(jù)挖掘技術(shù)

        數(shù)據(jù)挖掘的概念

        數(shù)據(jù)挖掘是從現(xiàn)有企業(yè)信息系統(tǒng)長期積累的大量業(yè)務(wù)數(shù)據(jù)中,按照企業(yè)發(fā)展需要整理數(shù)據(jù)、分類存儲、按規(guī)則提取、按目標(biāo)模型分析,最終獲取隱含在雜亂無序的大數(shù)據(jù)中的有效信息和知識的過程。

        廣義上,數(shù)據(jù)挖掘是基于一些事實或觀察數(shù)據(jù)的集合中尋找一定模式的決策支持過程。對于企業(yè),數(shù)據(jù)挖掘的對象數(shù)據(jù)主要包括兩部分:一是信息系統(tǒng)長期保留在數(shù)據(jù)庫中的業(yè)務(wù)數(shù)據(jù),通過這些數(shù)據(jù)的挖掘和分析,能夠為企業(yè)管理提供決策支持;二是互聯(lián)網(wǎng)上的用戶數(shù)據(jù),其目的是通過挖掘分析獲取用戶行為習(xí)慣,以便調(diào)整企業(yè)服務(wù)模式來迎合用戶需求。數(shù)據(jù)挖掘提取的知識通常表示為概念、規(guī)則、規(guī)律、模式、約束、可視化等形式,可以被用于信息管理、查詢優(yōu)化、決策支持和過程控制等,還可以用于數(shù)據(jù)自身的維護。

        數(shù)據(jù)挖掘的過程

        數(shù)據(jù)挖掘過程是基于對數(shù)據(jù)對象的深刻理解基礎(chǔ)之上,為數(shù)據(jù)對象有針對性的選擇數(shù)據(jù)挖掘方法。因此,充分了解業(yè)務(wù)領(lǐng)域的前提下,掌握行業(yè)數(shù)據(jù)對象的背景知識,明確數(shù)據(jù)分析的目的,將數(shù)據(jù)挖掘方法、統(tǒng)計分析技術(shù)與專業(yè)領(lǐng)域知識技術(shù)相結(jié)合,才能體現(xiàn)出數(shù)據(jù)挖掘?qū)ζ髽I(yè)的應(yīng)用價值。

        圖1 數(shù)據(jù)挖掘過程

        圖2 數(shù)據(jù)挖掘的體系結(jié)構(gòu)

        數(shù)據(jù)挖掘過程一般由三大階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及解釋評估。數(shù)據(jù)挖掘可以描述為這三個階段的遞歸過程,如圖1 所示。

        數(shù)據(jù)準(zhǔn)備過程(數(shù)據(jù)源的集成、數(shù)據(jù)的選擇、數(shù)據(jù)的預(yù)處理)的優(yōu)劣,對數(shù)據(jù)挖掘的準(zhǔn)確度、效率以及最終采用挖掘模式的有效性都有影響。該階段主要完成的工作包括:數(shù)據(jù)集成,實現(xiàn)數(shù)據(jù)對象整理、清洗等;數(shù)據(jù)選擇,根據(jù)商業(yè)需求分類和提取數(shù)據(jù)集合;數(shù)據(jù)預(yù)處理,檢查數(shù)據(jù)的完整性和一致性,目的是消除數(shù)據(jù)中的非主體數(shù)據(jù);數(shù)據(jù)轉(zhuǎn)換,是完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫的轉(zhuǎn)化過程,是將數(shù)據(jù)值按照目標(biāo)數(shù)據(jù)的屬性分組分類,包含數(shù)據(jù)轉(zhuǎn)換過程中需要的計算組合等操作。

        數(shù)據(jù)挖掘通過選定的數(shù)據(jù)挖掘模式,從海量數(shù)據(jù)中多次提取并轉(zhuǎn)化為用戶需要的知識。解釋評價是根據(jù)最終用戶的決策目的對所提取的知識進行多次清洗與分析,將最有價值的信息甄別并提取出來,提交給最終用戶。

        圖3 BI 實現(xiàn)流程

        數(shù)據(jù)挖掘的體系結(jié)構(gòu)

        數(shù)據(jù)挖掘系統(tǒng)一般可以分為如下三層結(jié)構(gòu),如圖2 所示。

        第一層既數(shù)據(jù)源層,包括傳統(tǒng)的數(shù)據(jù)庫集合、外部的具有一定格式的數(shù)據(jù)資源等以及數(shù)據(jù)倉庫集合。數(shù)據(jù)的挖掘是否需要建立在數(shù)據(jù)倉庫的基礎(chǔ)上一般需要視實際情況與具體需求而定。如果實際情況與需求允許,使用數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)倉庫協(xié)同工作,將會大幅度的提高數(shù)據(jù)挖掘效率;第二層是數(shù)據(jù)挖掘的工具,利用數(shù)據(jù)挖掘方法(常用的方法包括聚類分析、分類分析、關(guān)聯(lián)分析等)分析各數(shù)據(jù)源中的數(shù)據(jù),通過ETL 工具將數(shù)據(jù)進行多次清洗與轉(zhuǎn)化;第三層是用戶界面,可以通過可視化工具將獲取的最終信息展示,更好的讓用戶理解和觀察。知識庫是用于存放專業(yè)領(lǐng)域知識,按照各專業(yè)領(lǐng)域建立的主題庫,為后續(xù)的數(shù)據(jù)分析指導(dǎo)準(zhǔn)備或數(shù)據(jù)挖掘結(jié)果的評估。

        數(shù)據(jù)挖掘在BI 的應(yīng)用

        BI(Business Intelligence)即商業(yè)智能,是目前流行的詞匯,是數(shù)據(jù)采集、轉(zhuǎn)換、分析與預(yù)測、展示這一整套完整的過程實現(xiàn),是數(shù)據(jù)挖掘與企業(yè)已有信息系統(tǒng)支撐的關(guān)鍵業(yè)務(wù)職能和流程充分結(jié)合,以企業(yè)商業(yè)目標(biāo)為導(dǎo)向的普適方案。整個BI 的流程如圖3 所示。

        ETL 是對企業(yè)數(shù)據(jù)進行數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程,負(fù)責(zé)將企業(yè)各類業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)源中的數(shù)據(jù),通過數(shù)據(jù)中心ODS 層抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。BI 的難點不是技術(shù),而是對于業(yè)務(wù)的深刻理解,將業(yè)務(wù)與技術(shù)結(jié)合,建立正確的模型,才能實現(xiàn)真正意義上的商務(wù)智能。

        結(jié)語

        通過技術(shù)手段獲取海量業(yè)務(wù)數(shù)據(jù)中隱含的商業(yè)價值,為企業(yè)的經(jīng)營決策提供支撐,是當(dāng)前企業(yè)信息系統(tǒng)深化應(yīng)用的研究熱點。本文詳細(xì)論述了大數(shù)據(jù)挖掘技術(shù)的概念、體系結(jié)構(gòu)和實現(xiàn)方法,闡述了數(shù)據(jù)挖掘技術(shù)在商業(yè)智能中的應(yīng)用?;诖髷?shù)據(jù)的分析技術(shù)是當(dāng)前研究的熱點,必將對企業(yè)信息系統(tǒng)的深化應(yīng)用產(chǎn)生積極推動作用。

        猜你喜歡
        數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
        免费av网址一区二区| 日韩乱码人妻无码中文字幕视频| 亚洲人免费| 国产在线观看网址不卡一区| 国产免费人成视频在线| 国产精品欧美久久久久久日本一道 | 一级片麻豆| 亚洲一区二区三区乱码在线| 亚洲中文字幕在线综合| 日韩人妻无码精品久久| 被黑人做的白浆直流在线播放| 男女性搞视频网站免费| 粉嫩国产av一区二区三区| 高清不卡一区二区三区| 四虎国产精品视频免费看| 亚洲国产精品二区三区| 蜜芽亚洲av无码精品色午夜| 成av免费大片黄在线观看| 欧美 亚洲 国产 日韩 综AⅤ | 亚洲第一女优在线观看| 暖暖 免费 高清 日本 在线| 天天摸日日摸狠狠添| 99精品国产闺蜜国产在线闺蜜| 97成人精品在线视频| 国产亚洲精品一品二品| 国内自拍愉拍免费观看| av人摸人人人澡人人超碰妓女 | 国产对白刺激在线观看| 美女脱掉内裤扒开下面让人插| 综合图区亚洲另类偷窥| 亚洲av无码之国产精品网址蜜芽| 91爱爱视频| 国产精品髙潮呻吟久久av| 亚洲av精品一区二区三区| 在线视频一区色| 日本一区二区精品色超碰| 亚洲成av人综合在线观看| 久久午夜无码鲁丝片直播午夜精品| 国产亚洲成年网址在线观看| 中文字幕亚洲视频一区| 亚洲中文字幕久在线|