亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的分析和研究

        2018-09-10 18:00:56蔡鑫輝
        大東方 2018年3期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        蔡鑫輝

        摘 要:數(shù)據(jù)挖掘已經(jīng)引起了社會(huì)各界特別是信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是在統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫知識(shí)高速發(fā)展的今天,以前積累了大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí)。通過數(shù)據(jù)挖掘技術(shù)獲取的信息和知識(shí)可以廣泛用于各個(gè)領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計(jì)和科學(xué)探索等。

        關(guān)鍵詞:數(shù)據(jù)挖掘;直接數(shù)據(jù)挖掘;間接數(shù)據(jù)挖掘

        一、數(shù)據(jù)挖掘的定義

        數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的含義。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡單地說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。數(shù)據(jù)的分析是數(shù)據(jù)挖掘的一項(xiàng)技術(shù),數(shù)據(jù)的分析有頻數(shù)統(tǒng)計(jì)分析、領(lǐng)悟式分析、聚類分析、相關(guān)關(guān)系分析、人工神經(jīng)網(wǎng)絡(luò)原理分析等方法。數(shù)據(jù)挖掘中聚類分析是其中重要的分析方法之一。數(shù)據(jù)挖掘是數(shù)據(jù)庫內(nèi)信息的知識(shí)發(fā)現(xiàn),是從數(shù)據(jù)庫的海量資料中提取或挖掘用戶需要的知識(shí)信息,而這些知識(shí)信息有規(guī)則、概念、模式和規(guī)律等多種表現(xiàn)形式.在數(shù)據(jù)研究的過程中,聚類分析方法能夠有效剔除在分類的過程中所混入的主觀因素,準(zhǔn)確而客觀的將研究對象的信息表現(xiàn)在用戶面前,并完成信息內(nèi)部客觀規(guī)律的發(fā)掘任務(wù)。在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱為KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟。換言之,就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程。

        二、數(shù)據(jù)挖掘的關(guān)鍵步驟

        1.挖掘

        把潛在的不明確數(shù)據(jù)關(guān)系的數(shù)據(jù)提取并轉(zhuǎn)化為數(shù)學(xué)問題。這一步的結(jié)果只是表明數(shù)據(jù)之間有關(guān)系,但是具體是什么關(guān)系仍然不明確。

        2.建模

        把不明確的數(shù)據(jù)關(guān)系通過數(shù)學(xué)建模過程轉(zhuǎn)化為明顯的數(shù)據(jù)關(guān)系,即把數(shù)據(jù)之間的內(nèi)在變化規(guī)律由數(shù)學(xué)符號(hào)與數(shù)學(xué)結(jié)構(gòu)表示出來。

        三、數(shù)據(jù)挖掘分類

        1.直接數(shù)據(jù)挖掘

        目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對剩余的數(shù)據(jù),即一個(gè)特定的變量進(jìn)行描述。

        2.間接數(shù)據(jù)挖掘

        目標(biāo)中沒有選出某一具體的變量,而是在所有的變量中建立起某種關(guān)系。

        四、數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)

        在技術(shù)上可以根據(jù)它的工作過程分為:數(shù)據(jù)的抽取、數(shù)據(jù)的存儲(chǔ)和管理、數(shù)據(jù)的展現(xiàn)等關(guān)鍵技術(shù)。

        1.數(shù)據(jù)的抽取

        就是數(shù)據(jù)進(jìn)入倉庫的入口。由于數(shù)據(jù)倉庫是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要通過抽取過程將數(shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機(jī)的數(shù)據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉庫。數(shù)據(jù)抽取在技術(shù)上主要涉及互連、復(fù)制、增量、轉(zhuǎn)換、調(diào)度和監(jiān)控等幾個(gè)方面的處理。

        2.數(shù)據(jù)的存儲(chǔ)和管理

        數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫的特性,也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。數(shù)據(jù)倉庫管理所涉及的數(shù)據(jù)量比傳統(tǒng)事務(wù)處理大得多,且隨時(shí)間的推移而快速累積。在數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)和管理中需要解決的是如何管理大量的數(shù)據(jù)、如何并行處理大量的數(shù)據(jù)、如何優(yōu)化查詢等。

        3.數(shù)據(jù)的展現(xiàn)

        主要的方式有:查詢:實(shí)現(xiàn)預(yù)定義查詢、動(dòng)態(tài)查詢、OLAP查詢與決策支持智能查詢;報(bào)表:產(chǎn)生關(guān)系數(shù)據(jù)表格、復(fù)雜表格、OLAP表格、報(bào)告以及各種綜合報(bào)表;可視化:用易于理解的點(diǎn)線圖、直方圖、餅圖、網(wǎng)狀圖、交互式可視化、動(dòng)態(tài)模擬、計(jì)算機(jī)動(dòng)畫技術(shù)表現(xiàn)復(fù)雜數(shù)據(jù)及其相互關(guān)系;統(tǒng)計(jì):進(jìn)行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計(jì)分析;挖掘:利用數(shù)據(jù)挖掘等方法,從數(shù)據(jù)中得到關(guān)于數(shù)據(jù)關(guān)系和模式的識(shí)。

        五、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫融合發(fā)展

        數(shù)據(jù)挖掘和數(shù)據(jù)倉庫的協(xié)同工作,一方面可以迎合和簡化數(shù)據(jù)挖掘過程中的重要步驟,提高數(shù)據(jù)挖掘的效率和能力,確保數(shù)據(jù)挖掘中數(shù)據(jù)來源的廣泛性和完整性;另一方面,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為數(shù)據(jù)倉庫應(yīng)用中極為重要和相對獨(dú)立的方面和工具。

        數(shù)據(jù)挖掘和數(shù)據(jù)倉庫是融合與互動(dòng)發(fā)展的,具有廣泛的應(yīng)用空間和豐富的學(xué)術(shù)價(jià)值。簡而言之,掌握數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)可以使我們從數(shù)據(jù)庫的“奴隸”變成數(shù)據(jù)庫的“主人”。

        六、數(shù)據(jù)挖掘在各領(lǐng)域中的應(yīng)用及發(fā)展前景

        當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。專家也指出,數(shù)據(jù)挖掘會(huì)成為未來十年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨(dú)立的專業(yè)學(xué)科。

        具體發(fā)展趨勢和應(yīng)用方向主要有:對知識(shí)發(fā)現(xiàn)方法的研究進(jìn)一步發(fā)展,如對Bayes和Boosting方法的研究和提高;商業(yè)工具軟件不斷產(chǎn)生和完善,注重建立解決問題的整體系統(tǒng)。

        數(shù)據(jù)挖掘的發(fā)展應(yīng)是挖掘工具在先進(jìn)理論指導(dǎo)下的改進(jìn),而就現(xiàn)有情況而言,還有至少二十年的發(fā)展空間。

        目前,聯(lián)機(jī)處理技術(shù)與數(shù)據(jù)挖掘是信息系統(tǒng)領(lǐng)域內(nèi)的研究重點(diǎn),OLAP作為一種多維分析的工具,可以為用戶提供多層面、多角度的邏輯視圖,按照用戶所提出問題進(jìn)行假設(shè),分析,并將呈現(xiàn)給用戶。

        數(shù)據(jù)挖掘是在海量的數(shù)據(jù)集合中尋找模式的決策支持過程,它從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的模式并作出預(yù)測性分析,是現(xiàn)有的最新的技術(shù)和統(tǒng)計(jì)學(xué)等成熟技術(shù)在特定系統(tǒng)中的具體的應(yīng)用。

        同時(shí),數(shù)據(jù)挖掘與OLAP都屬于分析型工具,從某種角度上說OLAP聯(lián)機(jī)分析方法也是一種數(shù)據(jù)挖掘方法。但二者之間有著明顯的區(qū)別,數(shù)據(jù)挖掘的分析過程是全自動(dòng)的,用戶可以不必提出確切的問題,只需工具去挖掘隱藏的模式并預(yù)測將來的趨勢,這樣有利于發(fā)現(xiàn)未知的事實(shí);而OLAP更多地依靠用戶輸入問題和假設(shè),由于用戶先入為主的參與問題和假設(shè)的范圍,從而會(huì)影響最后的結(jié)論。從對數(shù)據(jù)分析的深度角度來講,它比較淺顯,數(shù)據(jù)挖掘則可以發(fā)現(xiàn)OLAP 所不能發(fā)現(xiàn)的更為復(fù)雜的信息。

        數(shù)據(jù)挖掘存在的主要問題是實(shí)現(xiàn)很困難,因?yàn)閿?shù)據(jù)庫或數(shù)據(jù)倉庫中存在大量數(shù)據(jù)和每個(gè)數(shù)據(jù)又有很多屬性,由于挖掘分析過程是全自動(dòng)的,用戶僅僅指定挖掘的任務(wù),而不提供搜索線索,這樣導(dǎo)致搜索的空間過大,生成相當(dāng)多的外模式,其中絕大部分有可能是無意義的是用戶不感興趣的模式。OLAP分析雖然可給用戶提供在不同角度、不同抽象級別的視圖,但是由于對用戶的需求了解調(diào)研的不夠全面,視圖中缺乏所應(yīng)包含的維度,從不同的視圖得到的結(jié)果可能并不相同,容易產(chǎn)生錯(cuò)誤引導(dǎo),用戶需做大量的數(shù)據(jù)打撈工作才能夠猜出正確的結(jié)果。

        實(shí)際上數(shù)據(jù)挖掘的各個(gè)方法之間,數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理之間都有著密不可分的關(guān)系,有些是可以由OLAP 來展現(xiàn)或分析的,而數(shù)據(jù)挖掘的結(jié)果又可以指導(dǎo)生成OLAP多維模型。

        從上述分析可以看出,數(shù)據(jù)挖掘技術(shù)由于內(nèi)在技術(shù)方面和適用范圍的不同,在實(shí)際決策分析中必須協(xié)調(diào)配合使用才能發(fā)揮最好的作用。

        參考文獻(xiàn)

        [1]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].北京:國防工業(yè)出版社,2010.

        [2]希賽IT發(fā)展研究中心.SQLSEVER數(shù)據(jù)庫系統(tǒng)開發(fā)[M].北京:電子工業(yè)出版社,2009.

        [3]廖里 數(shù)據(jù)挖掘和數(shù)據(jù)倉庫及其在電信業(yè)中的應(yīng)用 2000年 《重慶郵電學(xué)院學(xué)報(bào)》

        [4]石磊 OLAP與數(shù)據(jù)挖掘一體化模型的分析與討論 2000年 《小型微型計(jì)算機(jī)系統(tǒng)》

        [5]豎 苧 數(shù)據(jù)倉庫的建設(shè)與數(shù)據(jù)挖掘技術(shù)淺析 2003年第3期《現(xiàn)代信息技術(shù)》

        [6]宋中山 數(shù)據(jù)倉庫技術(shù)研究與應(yīng)用 2003年 《計(jì)算機(jī)工程與應(yīng)用》

        猜你喜歡
        數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
        河南科技(2014年19期)2014-02-27 14:15:26
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會(huì)議
        亚洲精品午夜无码专区| 99久久精品国产一区色| 自拍偷区亚洲综合第一页| 国产av无码专区亚洲av麻豆| 亚洲av无码久久精品蜜桃| 亚洲综合性色一区| 亚洲免费成年女性毛视频| 亚洲日本人妻少妇中文字幕| 寂寞少妇做spa按摩无码| 抽插丰满内射高潮视频| 亚洲熟妇av日韩熟妇av| av天堂免费在线播放| 蜜臀性色av免费| 欧美情侣性视频| 果冻国产一区二区三区| 99久久婷婷国产一区| 影音先锋中文字幕无码资源站| 亚洲AV无码一区二区三区日日强 | 99精品免费久久久久久久久日本| 久久精品国产6699国产精| 精品人妻av区二区三区| 亚洲va久久久噜噜噜久久天堂| 丰满人妻av无码一区二区三区| 久久天堂av色综合| 青青久久精品一本一区人人| 男人扒开女人双腿猛进视频 | 久久久久亚洲av综合波多野结衣| 亚洲人成亚洲精品| 国产成人精品cao在线| 国产三级精品三级在线专区| 各种少妇正面着bbw撒尿视频| 98bb国产精品视频| 日韩国产自拍成人在线| 日韩人妻不卡一区二区三区| 国产精品美女一区二区三区| 无码国产精品色午夜| 亚洲精品久久蜜桃av| 最新系列国产专区|亚洲国产| 人妻在线中文字幕| 精品久久免费国产乱色也| 国产av国片精品有毛|