亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于數(shù)據(jù)挖掘技術(shù)的研究與思考

        2012-04-29 00:00:00陸美玲

        摘要:隨著信息技術(shù)的發(fā)展,人類積累的數(shù)據(jù)量急劇增長(zhǎng)。但是,由于數(shù)據(jù)量的擴(kuò)大和數(shù)據(jù)涉及面的加寬,以往的數(shù)據(jù)分析方法已經(jīng)不再適用,大量的數(shù)據(jù)需要分析、處理,并從中抽取有價(jià)值的數(shù)據(jù)和信息,數(shù)據(jù)挖掘技術(shù)由此誕生。本文對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了比較全面的介紹,主要介紹了目前在數(shù)據(jù)挖掘中常用的算法和工具,為解決這一難題提供了希望。

        關(guān)鍵詞:數(shù)據(jù)挖掘;算法

        中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 15-0000-02

        隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。如何處理這些豐富的數(shù)據(jù),使人們得到有益的信息成了目前亟待解決的問(wèn)題。傳統(tǒng)的統(tǒng)計(jì)技術(shù)不能完成數(shù)據(jù)的分析。因此,綜合各種學(xué)科和技術(shù)的數(shù)據(jù)挖掘技術(shù)產(chǎn)生。

        1 數(shù)據(jù)挖掘定義

        數(shù)據(jù)挖掘是應(yīng)用一系列技術(shù)從大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)中提取人們感興趣的,隱含的、事先未知而潛在有用的,提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式的信息和知識(shí)。簡(jiǎn)言之,數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

        2 數(shù)據(jù)挖掘算法

        數(shù)據(jù)挖掘算法是根據(jù)數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘模型的一組試探法和計(jì)算。 為了創(chuàng)建模型,算法將首先分析您提供的數(shù)據(jù),并查找特定類型的模式和趨勢(shì)。算法根據(jù)您的數(shù)據(jù)創(chuàng)建的挖掘模型可以采用多種形式,這包括:

        (1)說(shuō)明數(shù)據(jù)集中的事例如何相關(guān)的一組分類。

        (2)預(yù)測(cè)結(jié)果并描述不同條件是如何影響該結(jié)果的決策樹。

        (3)預(yù)測(cè)銷量的數(shù)學(xué)模型。

        算法分類很多,但其中經(jīng)典十大算法為:C4.5,K-Means,SVM,Apriori,EM,PageRank,AdaBoost,KNN,NB和CART。

        1)C4.5就是一個(gè)決策樹算法,它是決策樹核心算法ID3的改進(jìn)算法,

        2)CART也是一種決策樹算法,相對(duì)于上著有條件實(shí)現(xiàn)一個(gè)節(jié)點(diǎn)下面有多個(gè)子樹的多元分類,CART只是分類兩個(gè)子樹,所以說(shuō)CART算法生成的決策樹是結(jié)構(gòu)簡(jiǎn)潔的二叉樹。

        3)K-Means 算法是一個(gè)聚類算法,首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇k 個(gè)對(duì)象作為初始聚類中心;而對(duì)于所剩下其它對(duì)象,則根據(jù)它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計(jì)算每個(gè)所獲新聚類的聚類中心(該聚類中所有對(duì)象的均值);不斷重復(fù)這一過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。

        4)Apriori算法通用于關(guān)聯(lián)規(guī)則。通過(guò)頻繁項(xiàng)集的一些規(guī)律來(lái)減少計(jì)算復(fù)雜度。

        5)EM算法是通過(guò)先假設(shè)幾個(gè)值,然后通過(guò)反復(fù)迭代,以期望得到最好的擬合。

        6)PageRank是Google算法的重要內(nèi)容。PageRank是通過(guò)網(wǎng)頁(yè)間的連接反復(fù)來(lái)實(shí)現(xiàn)。

        7)AdaBoost是一種迭代算法,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類和總體分類來(lái)確定樣本。算法的完成時(shí)通過(guò)數(shù)據(jù)的改變和分布來(lái)實(shí)現(xiàn)。

        8)KNN算法是一個(gè)理論上比較成熟的方法,實(shí)現(xiàn)起來(lái)就是對(duì)每個(gè)訓(xùn)練樣本都計(jì)算與其相似度,選擇相似度Top-K個(gè)訓(xùn)練樣本出來(lái),看這K個(gè)樣本中那個(gè)類別的多些,誰(shuí)多選誰(shuí)。

        9)SVM算法是一種監(jiān)督式學(xué)習(xí)的方法,是想找一個(gè)分類得最”好”的分類線/分類面。

        10)NB算法是ML中的一個(gè)非?;A(chǔ)和簡(jiǎn)單的算法,NB認(rèn)為各個(gè)特征是獨(dú)立的,所以一個(gè)樣本,可以通過(guò)對(duì)其所有出現(xiàn)特征在給定類別的概率相乘。

        3 數(shù)據(jù)挖掘的主要方法

        目前,研究數(shù)據(jù)挖掘的方法有很多,主要方法包括傳統(tǒng)統(tǒng)計(jì)方法,粗集方法,模糊集方法、統(tǒng)計(jì)分析、神經(jīng)網(wǎng)絡(luò)、覆蓋正例排斥反例方法等。

        (1)傳統(tǒng)統(tǒng)計(jì)方法:傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。

        (2)粗集方法:粗集是一種處理含糊性和不確定性的數(shù)學(xué)工具,它把那些無(wú)法確認(rèn)的個(gè)體都?xì)w屬于邊界線區(qū)域,而這種邊界線區(qū)域被定義為上近似集和下近似集之差集。

        (3)模糊集方法:模糊處理技術(shù)是一種用精確的數(shù)學(xué)語(yǔ)言對(duì)模糊性進(jìn)行描述的方法。模糊集則對(duì)集合中子類的邊界的不清楚定義進(jìn)行模型化,它體現(xiàn)的是隸屬邊界的模糊性。

        (4)統(tǒng)計(jì)分析方法主要指數(shù)理統(tǒng)計(jì)。它側(cè)重于數(shù)據(jù)的收集、整理和分析,從而找出現(xiàn)象的規(guī)律性或者是數(shù)據(jù)的特征,做出正確的判斷??蛇M(jìn)行常用統(tǒng)計(jì)、回歸分析、相關(guān)分析和差異分析。

        (5)神經(jīng)網(wǎng)絡(luò)是由大量的、簡(jiǎn)單的神經(jīng)元廣泛地互相連接而形成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。神經(jīng)元是以生物神經(jīng)系統(tǒng)的神經(jīng)細(xì)胞為基礎(chǔ)的生物模型。典型的神經(jīng)網(wǎng)絡(luò)模型主要分三大類:前饋式神經(jīng)網(wǎng)絡(luò)模型、反饋式神經(jīng)網(wǎng)絡(luò)模型和自組織映射神經(jīng)網(wǎng)絡(luò)模型。

        (6)覆蓋正例排斥反例方法是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則,從而找出規(guī)律。就是在正例集合中任意選一個(gè)種子,然后到反例集合中逐個(gè)比較。與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。比較有代表性的算法有aq11方法、洪家榮的aq15方法和ae5方法。

        4 數(shù)據(jù)挖掘過(guò)程

        數(shù)據(jù)挖掘是一個(gè)不斷反復(fù)重復(fù)過(guò)程,通常涉及定義商業(yè)問(wèn)題、 建立數(shù)據(jù)挖掘模型、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施等步驟。

        (1)定義商業(yè)問(wèn)題:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問(wèn)題,在這個(gè)基礎(chǔ)之上提出問(wèn)題,對(duì)目標(biāo)有明確的定義。

        (2)建立數(shù)據(jù)挖掘模型:根據(jù)要挖掘的數(shù)據(jù)量的大小、數(shù)據(jù)的復(fù)雜程度、使用方式的不同,把要挖掘的數(shù)據(jù)都收集到一個(gè)數(shù)據(jù)庫(kù)中。在數(shù)據(jù)庫(kù)中,可以數(shù)據(jù)收集、數(shù)據(jù)描述、選擇、合并整合、構(gòu)建元數(shù)據(jù)等。

        (3)分析數(shù)據(jù):察看數(shù)據(jù)挖掘模型以獲得更詳細(xì)的關(guān)于可視化、連結(jié)分析,及其他數(shù)據(jù)分析方法。分析的目的是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。

        (4)準(zhǔn)備數(shù)據(jù):這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作。可以把此步驟劃分成4個(gè)部分:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量。

        (5)建立模型:準(zhǔn)備好數(shù)據(jù)和類型,就需要選擇適合的模型。選取有用的參數(shù)和數(shù)據(jù),根據(jù)參數(shù)來(lái)生成模型。選擇什么樣的模型決定了處理那些數(shù)據(jù)。

        (6)評(píng)價(jià)模型:模型建好之后,需對(duì)模型進(jìn)行一個(gè)全面的評(píng)估。評(píng)估包括模型的評(píng)估結(jié)果和解釋模型的價(jià)值。最終生成一個(gè)最優(yōu)的模型,該模型應(yīng)用于實(shí)際。隨著應(yīng)用數(shù)據(jù)的不同,該模型的準(zhǔn)確率會(huì)發(fā)生變化。

        (7)實(shí)施:模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。一種是分析人員對(duì)模型應(yīng)用的表現(xiàn)進(jìn)行監(jiān)控,通過(guò)監(jiān)控得到的數(shù)據(jù)作為參考,從而對(duì)模型進(jìn)行修正和提出行動(dòng)方案建議。另一種是把模型應(yīng)用到數(shù)據(jù)集上,不同的數(shù)據(jù)集會(huì)有不同的結(jié)構(gòu),從而找到運(yùn)作規(guī)律的變化。

        5 數(shù)據(jù)挖掘的主要工具

        數(shù)據(jù)挖掘的工具繁多,但主要的有三類:通用型工具、綜合數(shù)據(jù)挖掘工具和面向特定應(yīng)用的工具。

        通用型工具采用普通的數(shù)據(jù)挖掘算法,處理多種形式的數(shù)據(jù)挖掘,挖掘內(nèi)容由用戶自己來(lái)決定。數(shù)據(jù)處理的類型是普通的,其中包括的主要工具有IBM 公司的QUEST 系統(tǒng),SGI 公司的MineSet 系統(tǒng),

        綜合數(shù)據(jù)挖掘工具這一部分市場(chǎng)反映了商業(yè)對(duì)具有多功能的決策支持工具的真實(shí)和迫切的需求。商業(yè)要求該工具能提供管理報(bào)告、在線分析處理和普通結(jié)構(gòu)中的數(shù)據(jù)挖掘能力。

        面向特定應(yīng)用工具這一部分工具正在快速發(fā)展,這些工具是縱向的、貫穿這一領(lǐng)域的方方面面,其常用工具有重點(diǎn)應(yīng)用在零售業(yè)的KD1。

        數(shù)據(jù)挖掘涉及多門學(xué)科和領(lǐng)域,近年來(lái)受到各界的廣泛關(guān)注。雖然它還存在許多問(wèn)題,例如數(shù)據(jù)積累不充分、不全面;業(yè)務(wù)模型構(gòu)建困難;挖掘深度不夠等等。 但是,數(shù)據(jù)挖掘的出現(xiàn)為統(tǒng)計(jì)學(xué)提供了一個(gè)嶄新的應(yīng)用領(lǐng)域,也給統(tǒng)計(jì)學(xué)的理論研究提出了新的課題,它無(wú)疑會(huì)推動(dòng)統(tǒng)計(jì)學(xué)的發(fā)展。

        国产免费艾彩sm调教视频| 日本草逼视频免费观看| 美腿丝袜网址亚洲av| 插入日本少妇一区二区三区| 亚洲精品久久| 国模精品无码一区二区二区| 麻豆AV无码久久精品蜜桃久久 | 久久精品国产精品青草| 日韩成人无码一区二区三区 | 亚洲成人黄色av在线观看| 白浆国产精品一区二区| 亚洲国产av精品一区二区蜜芽| 国产一区二区三区四色av| 国产裸体舞一区二区三区| 啪啪免费网站| 精品女同一区二区三区不卡| 国产日产在线视频一区| 国产成人精品一区二区三区视频| 99国产免费热播视频| 男女午夜视频一区二区三区| 亚洲国产中文字幕视频| 国产一卡2卡3卡四卡国色天香| 国产乱色国产精品免费视频| 亚洲一区二区三区厕所偷拍| 亚洲国产一区二区中文字幕| 三年片在线观看免费观看大全中国| a亚洲va欧美va国产综合| 免费a级毛片无码a∨免费| 东京热加勒比视频一区| 国产av无码专区亚洲av蜜芽| 国产成人精品三级91在线影院| 一区二区三区精彩视频在线观看| 女优一区二区三区在线观看| 亚洲精品aa片在线观看国产| 久久亚洲国产欧洲精品一| 91精品人妻一区二区三区水蜜桃| 亚洲乱亚洲乱妇50p| 国产午夜亚洲精品不卡福利| 国产精品女同二区五区九区| 久久精品国产字幕高潮| 久久免费看少妇高潮v片特黄|