亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘經(jīng)典算法分析

        2019-10-08 05:48:46陳珊
        電子技術(shù)與軟件工程 2019年15期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)分類

        文/陳珊

        隨著計算機技術(shù)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,商業(yè)、經(jīng)濟、及其他各個領(lǐng)域都進入互聯(lián)網(wǎng)+模式,電子商務、Ο2Ο、物流配送,各種利用大數(shù)據(jù)進行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務,創(chuàng)新運營模式?;ヂ?lián)網(wǎng)公司日常運用生成和累積的用戶數(shù)據(jù)如此龐大,已不能用G或T來衡量,大數(shù)據(jù)時代已到來。

        爆炸式增長的數(shù)據(jù)為大家?guī)肀憬莸耐瑫r也帶來了很多隱患。數(shù)據(jù)量單位已從GB、TB級別躍升到PB、EB乃至ZB級別。據(jù)國際數(shù)據(jù)公司研究結(jié)果表明,2008、2010、2012年全球生產(chǎn)的數(shù)據(jù)量分別為0.49ZB、0.8ZB、200PB,預計到2020年,將達到今天的44倍,豪不夸張的講,數(shù)據(jù)已將人們淹沒,如何有效的分類過濾數(shù)據(jù),選擇和發(fā)現(xiàn)有趣的數(shù)據(jù)知識是一個值得思考的問題,也是迫切需要解決的問題。

        數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識或模式的過程。數(shù)據(jù)挖掘最大的作用是分類和預測。分類,可將數(shù)據(jù)按要求分為有用和無用的知識可用于做決策、專家系統(tǒng)分析、醫(yī)療智能診斷、模式識別、人臉識別、智能語音等多個領(lǐng)域。預測,可以根據(jù)以往產(chǎn)生的數(shù)據(jù)訓練擬合模型,預測未來的趨勢,可用于商業(yè)預測等領(lǐng)域。用數(shù)據(jù)挖掘的方法可以幫助人們更好的管理現(xiàn)有的數(shù)據(jù),從現(xiàn)有的大數(shù)據(jù)中挖掘超乎想象的知識,也有學者稱之為知識發(fā)現(xiàn)。知識發(fā)現(xiàn)的過程包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示等七個步驟。

        在此背景下,本文主要研究數(shù)據(jù)挖掘經(jīng)典算法,即知識發(fā)現(xiàn)的第五個步驟。根據(jù)數(shù)據(jù)挖掘的作用從關(guān)聯(lián)分析(頻繁模式、關(guān)聯(lián)和相關(guān))、分類和預測兩方面研究其經(jīng)典方法應用及未來趨勢。

        1 關(guān)聯(lián)分析——頻繁模式、關(guān)聯(lián)和相關(guān)

        頻繁模式旨在發(fā)現(xiàn)數(shù)據(jù)集中有趣的關(guān)聯(lián)和相關(guān)。頻繁模式是在數(shù)據(jù)集中頻繁出現(xiàn)的項集、子序列或子結(jié)構(gòu)。其中每個獨立的數(shù)據(jù)稱為數(shù)據(jù)項,某一數(shù)據(jù)項頻繁與另一數(shù)據(jù)項關(guān)聯(lián)出現(xiàn),且有先后順序,稱這兩個數(shù)據(jù)之間的關(guān)系稱為模式。若此模式在此數(shù)據(jù)集中頻繁出現(xiàn),則稱此模式為頻繁模式。挖掘頻繁模式、關(guān)聯(lián)和相關(guān)的過程稱為關(guān)聯(lián)分析。

        關(guān)聯(lián)分析的經(jīng)典算法是Apriori算法,Apriori算法的算法步驟由連接步和剪枝步。連接步通過將數(shù)據(jù)與自身連接產(chǎn)生候選k項集。剪枝步根據(jù)提前設(shè)置好的支持度support(A?B)=P(A∪B)剪掉低于閾值的項組成頻繁項集。這兩步順序循環(huán)操作,直到發(fā)現(xiàn)最大頻繁項集為止。然后,由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則,再根據(jù)提前設(shè)置好的置信度confidence ( A?B ) = P(B | A)剪掉低于閾值的規(guī)則,最終產(chǎn)生強關(guān)聯(lián)規(guī)則。

        關(guān)聯(lián)分析的一個經(jīng)典例子是購物籃分析。該過程是將顧客放入購物籃的商品信息作為數(shù)據(jù)集,分析不同商品之間的關(guān)聯(lián)和相關(guān),分析顧客的購物習慣。例如,20世紀90年代,美國沃爾瑪超市管理人員在分析銷售數(shù)據(jù)時,發(fā)現(xiàn)“啤酒”與“尿布”經(jīng)常出現(xiàn)在同一個購物籃中,且大多購物籃主人是年輕的父親。究其原因,在美國有嬰兒的家庭中,一般母親在家中照看嬰兒,父親去超市購買家庭所需產(chǎn)品,通常在買尿布時往往會為自己購買啤酒。“啤酒-尿布”模式是一頻繁模式,超市的商品可根據(jù)此模式將模式兩邊的商品項目就近擺放,可提升商品銷售收入。

        關(guān)聯(lián)分析適用于發(fā)現(xiàn)數(shù)據(jù)項中的相互關(guān)系和模式,可用于廣告精準投放,如淘寶、京東、微博等平臺可根據(jù)用戶的瀏覽與商品購買記錄,分析用戶的喜好,為用戶推薦適合用戶需求的廣告產(chǎn)品。關(guān)聯(lián)分析可幫助商家制定響應的交叉銷售、捆綁式銷售等營銷策略,以及貨架安排,倉儲存貨配置等。隨著該技術(shù)的不斷成熟和發(fā)展,也可擴展應用于網(wǎng)站路徑優(yōu)化、網(wǎng)絡(luò)入侵檢測、交通事故模式分析、設(shè)備故障檢測等領(lǐng)域。

        圖1:神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

        2 分類和預測

        分類是根據(jù)大數(shù)據(jù)構(gòu)造一個模型或分類器來預測類屬性標號。預測是數(shù)據(jù)值的預測,即根據(jù)大數(shù)據(jù)構(gòu)造連續(xù)值函數(shù)模型來預測數(shù)值。

        數(shù)據(jù)分類第一步是選擇合適的算法分析或從訓練集中“學習”來構(gòu)造分類器。訓練集是由數(shù)據(jù)庫元組和相關(guān)聯(lián)的類標號組成,其中類標號屬性是離散值和無序值。此過程可看作一個映射或函數(shù)y=f(X),X是給定的數(shù)據(jù)庫元組,y是類標號。數(shù)據(jù)分類的第二步是使用第一步構(gòu)造的分類器模型進行分類。在分類之前,需要評估分類器的準確率,使用獨立于訓練集的檢驗元組和相關(guān)類標號組成檢驗集,最后使用準確率高的分類器對新數(shù)據(jù)進行分類。

        數(shù)據(jù)預測與數(shù)據(jù)分類的區(qū)別是,預測的是數(shù)據(jù)值而不是類標簽,所以其訓練集是無類標簽的。構(gòu)造連續(xù)值函數(shù)模型,是在某一特定環(huán)境下,構(gòu)造擬合訓練集數(shù)據(jù)的擬合映射函數(shù)。其他與數(shù)據(jù)分類相同。

        在分類時,以訓練集有無標簽劃分,可將分類和預測方法分成監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習三種類。監(jiān)督學習主要算法有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機等;無監(jiān)督學習主要算法有聚類等。

        決策樹是一種類似于流程圖的樹形結(jié)構(gòu),每個非樹葉節(jié)點的內(nèi)部節(jié)點表示在一個屬性上的測試,每個分支表示一個輸出,根節(jié)點存放一個類標簽。決策樹算法中經(jīng)典算法C4.5算法是其核心算法是ΙD3算法的改進,繼承了ΙD3算法的優(yōu)點用信息增益率來選擇屬性,克服了用信息增益選擇屬性時偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進行剪枝能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進行處理。

        貝葉斯是用概率論和決策論的知識,用先驗概率P(H)和后驗概率P(H/X))來進行分類。

        支持向量機是一種非線性的映射,將原訓練數(shù)據(jù)映射到較高的維,在新的維上搜索線性最佳分離超平面。

        聚類分析是將物理或者抽象的數(shù)據(jù)對象的集合分成相似的類或簇的過程。通常證明兩數(shù)據(jù)相似的條件是距離,此方法的訓練集無分類標簽,屬于無監(jiān)督分類。k-means algorithm算法是一個聚類算法,其核心距離計算為

        E=i=1∑kp∈Ci∑dist(p,ci)。

        神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)元結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu)。經(jīng)典的神經(jīng)網(wǎng)絡(luò)包含三層,輸入層、隱藏層和輸出層。沒兩層之間的神經(jīng)元連接線上有一個權(quán)值,在學習階段,通過調(diào)整這些權(quán)重,構(gòu)造準確率較高的分類器。如圖1所示,當隱藏層層數(shù)為0時,此網(wǎng)絡(luò)叫做單層神經(jīng)網(wǎng)絡(luò),也成為感知器,只有輸入層和輸出層,其權(quán)值可通過訓練得到。

        當隱藏層為多層時,叫多層神經(jīng)網(wǎng)絡(luò),也叫做深度學習。2006年,Hinton在《Science》和相關(guān)期刊上發(fā)表了論文,首次提出了“深度信念網(wǎng)絡(luò)”的概念。此方法減少了神經(jīng)網(wǎng)絡(luò)訓練的實踐可以讓神經(jīng)網(wǎng)絡(luò)找到最優(yōu)解的權(quán)值,再用“微調(diào)”來進行網(wǎng)絡(luò)的優(yōu)化。深度學習在語音識別、圖像識別等領(lǐng)域發(fā)展迅猛。

        深度學習(多層神經(jīng)網(wǎng)絡(luò))比普通的神經(jīng)網(wǎng)絡(luò)隱藏層增加了很多,有更強的函數(shù)模擬能力,能夠更準確深入的表示特征,更加的智能。深度學習已在計算機視覺、語音識別、自然語言處理、機器翻譯等多個領(lǐng)域有很好的應用及效果。

        3 總結(jié)

        數(shù)據(jù)挖掘已在金融、醫(yī)療、零售電商、電信、社交網(wǎng)絡(luò)分析、交通領(lǐng)域等多個領(lǐng)域廣泛應用,未來將滲透到各行各業(yè)前景廣闊。數(shù)據(jù)挖掘是一門多學科交叉學科,是人工智能的基礎(chǔ),人工智能是未來的研究趨勢,數(shù)據(jù)挖掘在保證提高分類器準確率的基礎(chǔ)上,如何使已應用數(shù)據(jù)挖掘的產(chǎn)品類人腦學習、思考、創(chuàng)造、更智能是未來的發(fā)展方向。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)分類
        “苦”的關(guān)聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        分類討論求坐標
        數(shù)據(jù)分析中的分類討論
        奇趣搭配
        教你一招:數(shù)的分類
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        日本人妻97中文字幕| 亚洲精品成人一区二区三区| 欧美三级不卡视频| 国产伦理一区二区| 久久久亚洲熟妇熟女av| 国产全肉乱妇杂乱视频| 色噜噜亚洲男人的天堂| 亚洲中文字幕高清在线视频一区 | 97精品超碰一区二区三区| 中文字幕一区在线直播| 日本少妇比比中文字幕| 久草午夜视频| 饥渴的熟妇张开腿呻吟视频| 亚洲国产精品日本无码网站| 亚洲精品中文字幕一二三| 日本一道dvd在线中文字幕| 人妻去按摩店被黑人按中出 | 亚洲精品午夜无码电影网 | 国产精品99久久不卡二区| 亚洲AV无码专区国产H小说| 97午夜理论片在线影院| 国产aⅴ无码专区亚洲av麻豆| 亚洲一区二区在线观看网址| 久久久噜噜噜久久熟女| 亚洲乱精品中文字字幕| 国产精品视频久久久久| 精品www日韩熟女人妻| 国精产品一区一区三区有限在线| 亚洲国产精品一区亚洲国产| 国产精品厕所| 国产成人精品一区二区三区免费| 蜜桃视频无码区在线观看| 中文字幕日韩精品中文字幕| av毛片在线播放网址| 国产成人精品aaaa视频一区 | 日本精品久久久久中文字幕| 国产视频一区二区三区在线免费| 97精品熟女少妇一区二区三区| 三级日本午夜在线观看| 成人国产自拍在线播放| 大伊香蕉精品视频一区|