亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘Apriori算法實(shí)現(xiàn)與應(yīng)用

        2017-04-18 03:38:26山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院
        電子世界 2017年1期
        關(guān)鍵詞:項(xiàng)集置信度數(shù)據(jù)挖掘

        山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院 李 瀟

        基于數(shù)據(jù)挖掘Apriori算法實(shí)現(xiàn)與應(yīng)用

        山東科技大學(xué)數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院 李 瀟

        本文主要對(duì)數(shù)據(jù)挖掘的有關(guān)算法進(jìn)行學(xué)習(xí)與應(yīng)用。首先介紹了這些算法的基本思想和算法步驟,然后運(yùn)用這些算法進(jìn)行實(shí)際問(wèn)題的求解。本文著重介紹的是關(guān)聯(lián)規(guī)則的Apriori算法。對(duì)Apriori算法,用其對(duì)當(dāng)下高等學(xué)校排課的問(wèn)題進(jìn)行求解。

        數(shù)據(jù)挖掘;Apriori算法

        1.關(guān)聯(lián)規(guī)則

        給定一個(gè)事物集D,挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是尋找支持度和置信度分別大于用戶給定的最小閥值的關(guān)聯(lián)規(guī)則。

        我們?cè)谟藐P(guān)聯(lián)規(guī)則解決某一問(wèn)題時(shí)一般遵循一下步驟:

        (1)任務(wù):描述變量之間的關(guān)聯(lián)關(guān)系;

        (2)結(jié)構(gòu):用概率表示的“關(guān)聯(lián)規(guī)則”;

        (3)評(píng)分函數(shù):支持度和置信度的閥值;

        (4)搜索方法:系統(tǒng)搜素方法(通常使用的是帶有修剪的廣度優(yōu)先);

        (5)數(shù)據(jù)管理技術(shù):多重線性掃描。

        2.Apriori算法及改進(jìn)

        Apriori算法是挖掘關(guān)聯(lián)規(guī)則的最典型算法,該算法將挖掘關(guān)聯(lián)規(guī)則的過(guò)程分為兩個(gè)步驟:第一步利用迭代,找出所有的頻繁項(xiàng)集;第二步利用頻繁項(xiàng)集構(gòu)造出強(qiáng)關(guān)聯(lián)規(guī)則。算法的核心是利用剪枝步和連接步找出所有的頻繁項(xiàng)集。

        最后可能會(huì)產(chǎn)生大量的候選集和迭代過(guò)程中需要大量的掃描數(shù)據(jù)庫(kù),是Apriori算法運(yùn)行效率不高的重要原因。為了提高算法的運(yùn)算效率,Mannila曾經(jīng)提出過(guò)一個(gè)Apriori算法的改進(jìn),即修剪算法。因?yàn)橐粋€(gè)項(xiàng)集是頻繁項(xiàng)集當(dāng)且僅當(dāng)它的所有子集都是頻集。那么,如果Ck中某個(gè)候選項(xiàng)集中有一個(gè)(k-1)子集不是頻集,那么即可以通過(guò)修剪算法剪掉Ck。正因?yàn)橛辛诵藜羲惴梢燥@著降低計(jì)算所有的候選項(xiàng)集支持度。可以減少產(chǎn)生大量的候選項(xiàng)集。

        另一種解決方法是,可以利用哈希表存儲(chǔ)數(shù)據(jù)信息,包含該記錄的編號(hào)和它的字段長(zhǎng)度。在每次的掃描時(shí),只掃描表中存在的記錄,不需要每條記錄都掃描。通過(guò)輔助表F,減少數(shù)據(jù)庫(kù)的訪問(wèn)次數(shù),提高運(yùn)算速度。

        3.Apriori算法在學(xué)生成績(jī)中的應(yīng)用

        3.1 問(wèn)題引入

        成績(jī)是國(guó)內(nèi)各高校評(píng)價(jià)學(xué)生的重要指標(biāo),合理開(kāi)發(fā)利用這些資源,利用數(shù)據(jù)挖掘分析這些學(xué)生成績(jī),找到課程之間的相關(guān)關(guān)系,必將對(duì)課程的開(kāi)設(shè)安排具有重要的指導(dǎo)作用。

        以國(guó)內(nèi)某大學(xué)01屆計(jì)算機(jī)專業(yè)學(xué)生在校四年的學(xué)習(xí)成績(jī)?yōu)閿?shù)據(jù)源,選取成績(jī)數(shù)據(jù)庫(kù)中計(jì)算機(jī)網(wǎng)絡(luò),C語(yǔ)言,計(jì)算機(jī)基礎(chǔ),外語(yǔ),高等數(shù)學(xué),數(shù)據(jù)庫(kù)原理等8門課程作為研究對(duì)象,找出某門課程對(duì)其他課程的開(kāi)設(shè)是否有影響,為學(xué)校教科老師以后排課提供參考,為以后學(xué)生選課提供依據(jù)。

        3.2 建模過(guò)程

        (1)數(shù)據(jù)清洗:原始數(shù)據(jù)庫(kù)中包含全校各個(gè)專業(yè)、各個(gè)年級(jí)、各個(gè)學(xué)科的所有成績(jī),某些記錄難免會(huì)有一些差錯(cuò)或者從經(jīng)驗(yàn)上看沒(méi)有關(guān)聯(lián)的數(shù)據(jù),為了便于進(jìn)行數(shù)據(jù)挖掘,只選擇某班部分學(xué)生的8門課程成績(jī)作為挖掘?qū)ο?,去掉其他所有不需要的字段,刪除完全空白記錄,如果某條記錄中的某一兩門課程成績(jī)?nèi)鄙伲瑒t該條記錄缺少的成績(jī)補(bǔ)為該科成績(jī)的平均分,對(duì)于某條記錄中的某門課程成績(jī)有多于一個(gè)成績(jī)的情況,則該門成績(jī)按第一次成績(jī)計(jì)算。則清洗后的數(shù)據(jù)表部分?jǐn)?shù)據(jù)如表2.1所示。

        表2.1

        (2)數(shù)據(jù)轉(zhuǎn)換:由于編寫的Aprior算法程序是是處理離散數(shù)值的,因此,需要將數(shù)據(jù)進(jìn)行轉(zhuǎn)化,將大于等于90分,大于等于80且小于90,大于等于70且小于80,大于等于60且小于70,小于60的成績(jī)分別用12345表示。將8門課程依次用ABCDEFGH表示。

        (3)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘過(guò)程主要是利用Apriori算法,采用廣度優(yōu)先的迭代搜素,設(shè)最小支持度為30%,產(chǎn)生頻繁子集50個(gè),從產(chǎn)生的頻繁項(xiàng)目集中產(chǎn)生子集,根據(jù)關(guān)聯(lián)規(guī)則挖掘算法原理,設(shè)置最小置信度60%,得到的關(guān)聯(lián)規(guī)則15個(gè),部分規(guī)則如表2-2所示。

        表2.2

        3.3 結(jié)果分析

        第五條規(guī)則說(shuō)明數(shù)據(jù)庫(kù)原理成績(jī)?cè)?0-90,計(jì)算機(jī)網(wǎng)絡(luò)也在80-90的支持度為58.4%,置信度為76.5%,第六條規(guī)則說(shuō)明C++程序設(shè)計(jì)在80-90分,計(jì)算機(jī)網(wǎng)絡(luò)也在80-90的支持度為56.9%,置信度為83.4%這兩個(gè)規(guī)則可信度和置信度都較高,但實(shí)際有沒(méi)有關(guān)聯(lián)還需要做深入的討論。

        上面第二條規(guī)則說(shuō)明《計(jì)算機(jī)基礎(chǔ)》成績(jī)?cè)?0-80分之間,《高等數(shù)學(xué)》在80-90分之間的支持度為55.8%,置信度為87.2,雖然支持度和置信度都達(dá)到了要求,但是根據(jù)老師多年的教學(xué)經(jīng)驗(yàn),這兩者之間并沒(méi)有很強(qiáng)的關(guān)系,因此在實(shí)際排課中我們要實(shí)際經(jīng)驗(yàn)聯(lián)系數(shù)據(jù)做出安排。

        3.4 模型改進(jìn)

        在上面建模過(guò)程中,在數(shù)據(jù)轉(zhuǎn)換時(shí),將成績(jī)離散化為1-5的值,這樣每一門課都會(huì)有5個(gè)不同的表示,例如A1、A2、A3、A4、A5,10門課就會(huì)有50個(gè)不同的符號(hào)來(lái)表示每一個(gè)項(xiàng)目。雖然之中劃分對(duì)于分析沒(méi)門課程之間的聯(lián)系會(huì)給出更加有利和詳細(xì)的證據(jù)。實(shí)際情況中,每一個(gè)專業(yè)大學(xué)四年所學(xué)課程通常都是在三四十門以上。如果仍談按照以上的方式進(jìn)行數(shù)據(jù)處理,掃描數(shù)據(jù)庫(kù)中上百條記錄,程序的運(yùn)行效率會(huì)很低。

        綜上所述,為了兼顧程序的運(yùn)行效率和得到確實(shí)可信的結(jié)果,當(dāng)需要掃描大數(shù)據(jù)的數(shù)據(jù)庫(kù)時(shí),在數(shù)據(jù)轉(zhuǎn)換時(shí),不再將成績(jī)劃分成五個(gè)等級(jí),而是將成績(jī)劃分為2個(gè)等級(jí),如果成績(jī)大于該科的平均分,則該成績(jī)記為1,否則記為0

        然后再利用matlab程序,導(dǎo)入內(nèi)存中:Data=xlsread(‘E:ookl’);

        這樣就將excel中的數(shù)據(jù)讀入data中。

        將數(shù)據(jù)存儲(chǔ)到計(jì)算機(jī)內(nèi)存中,當(dāng)運(yùn)行Apriori算法程序時(shí),不需要每次都掃描數(shù)據(jù)庫(kù),只需掃描一次數(shù)據(jù)庫(kù)文件,以后每次迭代中都只是掃描存儲(chǔ)到計(jì)算機(jī)內(nèi)存中的矩陣。加快了數(shù)據(jù)訪問(wèn)速度。模型改進(jìn)之后,需要訪問(wèn)的數(shù)據(jù)量減少了一半以上,數(shù)據(jù)的訪問(wèn)次數(shù)也減少了很多,因此程序的運(yùn)行效率會(huì)有顯著的提高。這是今后在做大數(shù)據(jù)挖掘時(shí),加快程序運(yùn)行速度的一個(gè)解決辦法。

        4.結(jié)語(yǔ)

        對(duì)于某些事情,憑借經(jīng)驗(yàn)完全可以做出決策,如學(xué)校課程的安排,但是這些決策沒(méi)有堅(jiān)強(qiáng)的理論基礎(chǔ)做支撐,有時(shí)候是很難站住腳的。但是如果我們能運(yùn)用數(shù)據(jù)挖掘的有關(guān)知識(shí),為這些經(jīng)驗(yàn)提供理論科學(xué)依據(jù),就會(huì)讓這些經(jīng)驗(yàn)顯得更加可信。需要我們運(yùn)用正確的方法,分析數(shù)據(jù),做出決策,而數(shù)據(jù)挖掘技術(shù)就是最正確的方法。

        [1]Xian jun Ni.Research of Data Mining Based on Neural Networks.北京:水利水電出版社,2003.

        [2]史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002.

        [3]張志霞,許童羽等.高等學(xué)校成績(jī)分析方法的研究[J].沈陽(yáng)農(nóng)業(yè)大學(xué)學(xué)報(bào),2008-06,10(3):322-324.

        [4]楊洪偉,許童羽.Apriori算法在學(xué)生成績(jī)分析中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2010.

        [5]李金忠.關(guān)聯(lián)規(guī)則Apriori算法[J].電腦編程技巧與維護(hù),2008(6):35-37.

        [6]常朝德,代永衛(wèi)等.關(guān)聯(lián)規(guī)則在公安情報(bào)信息系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(5):75-78.

        [7]趙輝.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)分析中的研究及應(yīng)用[D].大連:大連海事大學(xué),2007.

        [8]陸楠.關(guān)聯(lián)規(guī)則的挖掘及其算法的研究[D].長(zhǎng)春:吉林大學(xué),2007.

        [9]周根貴.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘[M].浙江:浙江大學(xué)出版社,2004.

        猜你喜歡
        項(xiàng)集置信度數(shù)據(jù)挖掘
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
        丰满老熟妇好大bbbbb| av黄色在线免费观看| 婷婷综合另类小说色区| 免费a级毛片无码a∨免费软件| 久久精品一品道久久精品9| 国产白浆流出一区二区| 日韩女优av一区二区| 骚片av蜜桃精品一区| 午夜tv视频免费国产区4| 女同性恋一区二区三区四区| 久久精品国产91精品亚洲| 国产麻豆成人精品av| 无码不卡免费一级毛片视频| 午夜婷婷国产麻豆精品| 亚洲av日韩av激情亚洲| 国产熟女露脸大叫高潮| 国产一级淫片免费播放电影| 在线看高清中文字幕一区| 欧美成人秋霞久久aa片| 国产肉体ⅹxxx137大胆| 久久AⅤ天堂Av无码AV| av在线播放免费网站| 国产午夜精品一区二区| 国产精品亚洲欧美天海翼| 日美韩精品一区二区三区| 国产精品一区二区三久久不卡| 无码精品a∨在线观看| 国产视频在线一区二区三区四区 | 亚洲天码一区二区三区| 成人亚洲一区二区三区在线| 国产亚洲精品aaaa片app| 熟女人妻中文字幕一区| 人妻少妇中文字幕久久 | 亚洲一区二区二区视频| 国产性生交xxxxx免费| 日本精品视频一视频高清| 久久精品国产69国产精品亚洲| 少妇厨房愉情理伦bd在线观看| 国产亚洲欧美日韩综合综合二区| 精品国产3p一区二区三区| av无码小缝喷白浆在线观看|