亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合SOM的關(guān)聯(lián)規(guī)則挖掘研究

        2014-08-04 02:38:16景波劉瑩陳耿
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)網(wǎng)格

        景波,劉瑩,陳耿

        南京審計(jì)學(xué)院信息科學(xué)學(xué)院,南京 210029

        結(jié)合SOM的關(guān)聯(lián)規(guī)則挖掘研究

        景波,劉瑩,陳耿

        南京審計(jì)學(xué)院信息科學(xué)學(xué)院,南京 210029

        1 引言

        隨著數(shù)據(jù)庫(kù)應(yīng)用技術(shù)的快速發(fā)展,許多企事業(yè)單位積累了海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資源,因此與之相應(yīng)的審計(jì)活動(dòng)對(duì)信息化水平的要求也在不斷提高。目前,聯(lián)網(wǎng)實(shí)時(shí)審計(jì)已成為審計(jì)信息化發(fā)展的重點(diǎn),在聯(lián)網(wǎng)審計(jì)的海量數(shù)據(jù)環(huán)境下,如何根據(jù)需要智能和自動(dòng)地找出有用的信息并發(fā)現(xiàn)審計(jì)線索,是聯(lián)網(wǎng)實(shí)時(shí)審計(jì)中迫切需要解決的問題[1]。審計(jì)署從2004年開始收集并整理審計(jì)專家經(jīng)驗(yàn)庫(kù),經(jīng)過近十年的建設(shè),其內(nèi)容涉及領(lǐng)域廣泛、審計(jì)方法全面詳實(shí),通過對(duì)它進(jìn)行多維分析和數(shù)據(jù)挖掘等技術(shù)手段,可以提取出大量有價(jià)值的規(guī)則。這些規(guī)則可以成為聯(lián)網(wǎng)審計(jì)活動(dòng)中進(jìn)行自動(dòng)化評(píng)價(jià)及預(yù)測(cè)的基礎(chǔ)和依據(jù)。

        筆者參加的“某集團(tuán)工程聯(lián)網(wǎng)審計(jì)”項(xiàng)目中,海量數(shù)據(jù)間的關(guān)系錯(cuò)綜復(fù)雜,審計(jì)線索難以發(fā)現(xiàn)。筆者思索通過數(shù)據(jù)挖掘?qū)Ρ粚弳挝粩?shù)據(jù)和審計(jì)專家經(jīng)驗(yàn)庫(kù)進(jìn)行關(guān)聯(lián)規(guī)則快速提取;再利用自組織神經(jīng)網(wǎng)絡(luò)相似聚類方法對(duì)審計(jì)專家經(jīng)驗(yàn)庫(kù)抽取的規(guī)則劃分出相似規(guī)則群;通過對(duì)被審單位關(guān)聯(lián)規(guī)則集合和專家經(jīng)驗(yàn)的相似規(guī)則群進(jìn)行相對(duì)強(qiáng)弱、趨近率和價(jià)值率的比較最終得到審計(jì)線索集合,其流程如圖1。

        2 算法思想

        關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)大量數(shù)據(jù)間的相互關(guān)系,它和自組織神經(jīng)網(wǎng)絡(luò)都屬于典型的無(wú)監(jiān)督學(xué)習(xí)模式[2]。在經(jīng)典的關(guān)聯(lián)規(guī)則Apriori算法中,首先搜尋數(shù)據(jù)中所有符合最小支持度(Support)的最大項(xiàng)目集(Itemset),再利用此最大項(xiàng)目集產(chǎn)生相關(guān)規(guī)則[3-4]。算法缺點(diǎn)是對(duì)數(shù)據(jù)庫(kù)I/O訪問過頻繁,產(chǎn)生過多的候選項(xiàng)目集。后期Park等提出的DHP算法由于哈希方式會(huì)產(chǎn)生碰撞,實(shí)際掃描次數(shù)與Apriori算法相近;Brin等提出DIC算法,算法中區(qū)段大小的劃分成為執(zhí)行效率的瓶頸;Savasere等提出Partition算法,其分塊大小要配合主存儲(chǔ)器的大小。本文提出以分解法為基礎(chǔ)的快速匹配關(guān)聯(lián)規(guī)則挖掘算法(FMA),算法目標(biāo)不是尋找最大項(xiàng)目集,而是尋找最適當(dāng)?shù)捻?xiàng)目集,即k<n[5]。

        圖1 審計(jì)線索智能發(fā)現(xiàn)流程圖

        專家經(jīng)驗(yàn)相似規(guī)則群的獲得采用SOM中的經(jīng)典CLARANS算法[6]為原型的改進(jìn)算法,CLARANS算法采用隨機(jī)方式產(chǎn)生初始節(jié)點(diǎn),然后不斷為當(dāng)前節(jié)點(diǎn)尋找總代價(jià)更小的鄰近節(jié)點(diǎn)來(lái)改善聚類結(jié)果;隨機(jī)產(chǎn)生初始節(jié)點(diǎn)對(duì)總搜索次數(shù)影響較大,差的初始節(jié)點(diǎn)將會(huì)增加搜索鄰近節(jié)點(diǎn)過程中鄰近節(jié)點(diǎn)替換和探索的總次數(shù)[7-8]。本文改進(jìn)了CLARANS算法,為優(yōu)化初始節(jié)點(diǎn)的選擇,增加了初始節(jié)點(diǎn)預(yù)聚類的方法,具體流程為:

        (1)掃描數(shù)據(jù)集合,計(jì)算在數(shù)據(jù)空間中數(shù)據(jù)對(duì)象各維的分布因子,并將結(jié)果按降序進(jìn)行排列。

        (2)選分布因子最大的m維,并生成相應(yīng)m維的子數(shù)據(jù)空間S。

        (3)將數(shù)據(jù)空間S劃分成m維的網(wǎng)格,每個(gè)網(wǎng)格稱為一個(gè)m維的網(wǎng)格對(duì)象。

        (4)再次掃描數(shù)據(jù)集合,按m維的值將數(shù)據(jù)劃分到相應(yīng)的網(wǎng)格中;以網(wǎng)格中的數(shù)據(jù)對(duì)象個(gè)數(shù)作為網(wǎng)格對(duì)象權(quán)重,以數(shù)據(jù)對(duì)象的均值作為網(wǎng)格對(duì)象的值。

        (5)在子數(shù)據(jù)空間S中,在所有網(wǎng)格對(duì)象上使用加權(quán)距離產(chǎn)生k個(gè)初始中心點(diǎn)。

        (6)使用第5步中得到的k個(gè)中心點(diǎn)作為CLARANS算法中的初始節(jié)點(diǎn)。

        3 算法實(shí)現(xiàn)

        3.1 快速匹配關(guān)聯(lián)規(guī)則挖掘算法思路

        快速匹配關(guān)聯(lián)規(guī)則挖掘算法(FMA),利用分解法將每筆交易數(shù)據(jù)分解成長(zhǎng)度為k的項(xiàng)目集(k<n);在各長(zhǎng)度相同的項(xiàng)目集里,取各項(xiàng)目集的項(xiàng)目集值(即支持度的乘積)最大值者,稱為最大項(xiàng)目集(max_itemse)。在每筆交易中,找出不同長(zhǎng)度的最大項(xiàng)目集,再比較其包含、相等的隸屬關(guān)系,找出最大的集合;最后得到不同長(zhǎng)度的項(xiàng)目集的集合。

        3.2 計(jì)算相似規(guī)則群

        利用自組織映射神經(jīng)網(wǎng)絡(luò)中的聚類分析的CLARANS算法的改良,來(lái)進(jìn)行相似規(guī)則群的劃分。CLARANS算法即根據(jù)數(shù)據(jù)分群的原則,將數(shù)據(jù)依相近似的程度予以分群,使各群內(nèi)的數(shù)據(jù)相近似度最高,而群外的相近似度減至最低。其最主要的作用是在各群組內(nèi)建立有意義的數(shù)據(jù)分群。同時(shí),為優(yōu)化初始節(jié)點(diǎn)的選擇,增加了預(yù)處理的方法。

        首先,C記為T的交易向量,矩陣V記作交易向量C的集合,定義如下:

        利用CLARANS改良算法將數(shù)據(jù)按照相近似度分為數(shù)個(gè)群聚,每個(gè)相似性群聚,即代表著該群聚的屬性聚集,其中的每個(gè)屬性的先后順序也代表該群聚內(nèi)各屬性的重要程度。算法描述:

        至此,已經(jīng)得到了由第一階段FMA算法產(chǎn)生的關(guān)聯(lián)規(guī)則集合和第二階段相似規(guī)則群的集合,對(duì)兩個(gè)集合進(jìn)行相對(duì)強(qiáng)弱、趨近率和價(jià)值率的比較即可得到最終目標(biāo)集合。具體合并算法由于篇幅所限,不在此展開討論。

        4 實(shí)驗(yàn)分析

        為檢驗(yàn)算法效率,在IBM(IBM,2003)的數(shù)據(jù)產(chǎn)生器生成的數(shù)據(jù)環(huán)境中進(jìn)行與Apriori、FP_Tree算法的比較測(cè)試。實(shí)驗(yàn)主機(jī)為Pentum4-2.8 GHz,1 GB Mem,運(yùn)行在Borland Jbuilder9平臺(tái)上,使用JAVA語(yǔ)言編寫算法。

        實(shí)驗(yàn)數(shù)據(jù)為5 000、10 000、25 000、50 000、100 000及200 000六種,數(shù)據(jù)的交易長(zhǎng)度平均為10,最小支持度選為0.005或0.007 5。在minsup不變,而交易量逐漸由5 000增加至200 000時(shí),其FMA、Apriori與FP_Tree之執(zhí)行時(shí)間的對(duì)比如圖2。在交易量固定為5 000或200 000時(shí),而minsup值從0.02逐漸減少至0.005時(shí),其FMA、Apriori與FP_Tree之執(zhí)行時(shí)間的對(duì)比如圖3。

        圖2 minsup=0.005&交易量遞增時(shí)執(zhí)行時(shí)間對(duì)比

        在此實(shí)驗(yàn)里,從整體來(lái)看,F(xiàn)MA與Apriori的比較里,最小的差距是數(shù)據(jù)為5 000,minsup為0.02時(shí),F(xiàn)MA為Apriori的9.09%;最大的差距是數(shù)據(jù)為200 000,minsup為0.005時(shí),執(zhí)行時(shí)間FMA為Apriori的0.45%。在FMA與FP_Tree的執(zhí)行時(shí)間里,最小的差距是數(shù)據(jù)為50 000,minsup為0.02時(shí),執(zhí)行時(shí)間FMA為FP_Tree的71.43%;最大的差距是數(shù)據(jù)為10 000,minsup為0.005時(shí),執(zhí)行時(shí)間FMA為Apriori的8.11%。

        圖3 D=5 000 minsup遞減時(shí)執(zhí)行時(shí)間對(duì)比

        在不同數(shù)據(jù)集規(guī)模的情況下,設(shè)目標(biāo)群個(gè)數(shù)為5,局部最優(yōu)解個(gè)數(shù)為2,最大鄰居數(shù)為100,CLARANS與改良算法的平均運(yùn)行時(shí)間對(duì)比如圖4,鄰居節(jié)點(diǎn)替換總代價(jià)的平均次數(shù)對(duì)比如圖5。

        圖4 不同數(shù)據(jù)量下執(zhí)行時(shí)間對(duì)比

        圖5 不同數(shù)據(jù)量下替換總代價(jià)對(duì)比

        從圖中可以看出,在目標(biāo)群數(shù)值固定的情況下,隨著數(shù)據(jù)量增加,CLARANS和改良算法的運(yùn)行時(shí)間都會(huì)隨之增加,但改良算法的增長(zhǎng)較緩慢,并且執(zhí)行時(shí)間僅為CLARANS算法的1/5,鄰居節(jié)點(diǎn)數(shù)隨數(shù)據(jù)增加變化不大,改良算法的計(jì)算量也僅為原算法的1/5。

        5 結(jié)束語(yǔ)

        本文以FMA算法將被審單位的海量數(shù)據(jù)利用數(shù)據(jù)挖掘手段,找出適當(dāng)長(zhǎng)度的項(xiàng)目集;同時(shí)通過自組織特征映射神經(jīng)網(wǎng)絡(luò)的CLARANS算法產(chǎn)生項(xiàng)目集(專家經(jīng)驗(yàn)相似群);使用相對(duì)強(qiáng)弱、趨近率、價(jià)值率等集合操作手段,產(chǎn)生得出審計(jì)目標(biāo)線索群。實(shí)驗(yàn)表明,算法能做到快速生成審計(jì)規(guī)則及形成審計(jì)線索群,符合預(yù)期設(shè)想。下一步將通過實(shí)際審計(jì)過程中的問題發(fā)現(xiàn),做進(jìn)一步的評(píng)估與驗(yàn)證。

        [1]劉家義.加快審計(jì)信息化建設(shè)的思考[J].中國(guó)審計(jì),2000(9):4-8.

        [2]國(guó)家863計(jì)劃審計(jì)署課題組.計(jì)算機(jī)審計(jì)數(shù)據(jù)采集與處理技術(shù)研究報(bào)告[R].北京:清華大學(xué)出版社,2006.

        [3]張懷亭,王忠民.提高關(guān)聯(lián)規(guī)則完整性和有效性的算法[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(29):208-210.

        [4]馬盈倉(cāng).挖掘關(guān)聯(lián)規(guī)則中Apriori算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(11):82-84.

        [5]景波,劉瑩,黃兵.基于審計(jì)的時(shí)態(tài)關(guān)聯(lián)規(guī)則研究[J].微計(jì)算機(jī)信息,2007(18):176-178.

        [6]田景文,高美娟.人工神經(jīng)網(wǎng)絡(luò)算法研究及應(yīng)用[M].北京:北京理工大學(xué)出版社,2006.

        [7]張書春,孫秀英.基于網(wǎng)格結(jié)構(gòu)的CLARANS改進(jìn)算法[J].計(jì)算機(jī)工程,2012(6):56-59.

        [8]Zhang Yaping,Sun Jizhou,et al.Parallel implementation of CLARANS using PVM[C]//Proceeding of the 3rd International Conference on Machine Learning and Cybernetics,2004:26-29.

        [9]姜華,孟志青,周克江,等.一類時(shí)態(tài)近似周期關(guān)聯(lián)規(guī)則的知識(shí)發(fā)現(xiàn)問題[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(20):241-244.

        [10]Meng Zhi-qing.Study of temporal type and time granularityinthetemporal datamining[J].Natural Science Journal of Xiangtan University,2000,22(3):1-4.

        [11]Meng Zhiqing.Knowledge discovery for a kind of neighbor temporalassociatedrules[J].PatternRecognitionand Artificial Intelligence,2001,14(4):458-462.

        [12]Jiang Hua,Meng Zhiqing.Study of data mining for a kind of temporal approximate periodicity[J].Computer Engineering,2006,32(22):61-63.

        [13]Li Y,Ning P,Wang X S,et al.Discovering calendar-based temporal association rules[J].Data and Knowledge Engineering,2003,44(2):193-218.

        [14]Yang Jiong,Wang Wei,Yu P S.Mining asynchronous periodic patterns in time series data[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(3):613-628.

        [15]馬春玲,李廉.基于等價(jià)關(guān)系的關(guān)聯(lián)規(guī)則的挖掘[J].蘭州大學(xué)學(xué)報(bào):自然科學(xué)版,2002(4):64-71.

        JING Bo,LIU Ying,CHEN Geng

        School of Information Science,Nanjing Audit University,Nanjing 210029,China

        In order to achieve the audit trail of the massive data quickly found through data mining FMA algorithms to quickly extract trial data and audit expertise library association rules;re-use of self-organizing neural network improved CLARANS algorithm to extract audit expertise library divide a similar rule base rules;then by trial set of association rules and expert experience similar rules group relative strength,the approach value and the different rate of comparing the resulting set of audit trail.

        association rule mining;Self-Organizing Map(SOM);audit trail

        為了實(shí)現(xiàn)在海量數(shù)據(jù)中的審計(jì)線索的快速發(fā)現(xiàn),通過數(shù)據(jù)挖掘FMA算法對(duì)被審數(shù)據(jù)和審計(jì)專家經(jīng)驗(yàn)庫(kù)進(jìn)行關(guān)聯(lián)規(guī)則快速提?。辉倮米越M織神經(jīng)網(wǎng)絡(luò)改良CLARANS算法對(duì)審計(jì)專家經(jīng)驗(yàn)庫(kù)抽取的規(guī)則劃分出相似規(guī)則群;然后通過對(duì)被審單位關(guān)聯(lián)規(guī)則集合和專家經(jīng)驗(yàn)的相似規(guī)則群進(jìn)行相對(duì)強(qiáng)弱、趨近率和價(jià)值率的比較,最終得到審計(jì)線索集合。

        關(guān)聯(lián)規(guī)則挖掘;自組織神經(jīng)網(wǎng)絡(luò);審計(jì)線索

        A

        TP311

        10.3778/j.issn.1002-8331.1212-0298

        JING Bo,LIU Ying,CHEN Geng.Research on association rule based on SOM.Computer Engineering and Applications,2014,50(22):154-157.

        江蘇省公共工程審計(jì)重點(diǎn)實(shí)驗(yàn)室開放課題(No.20201201213);江蘇省審計(jì)信息工程重點(diǎn)實(shí)驗(yàn)室開放課題(No.AIE201205);國(guó)家自然科學(xué)基金(No.70971067,No.71271117)。

        景波(1975—),男,副教授,主要研究方向:IT審計(jì),數(shù)據(jù)挖掘;劉瑩(1977—),女,講師,主要研究方向:數(shù)據(jù)挖掘,分布式計(jì)算技術(shù);陳耿(1965—),男,教授,博士,主要研究方向:數(shù)據(jù)挖掘,審計(jì)信息化,知識(shí)工程等。E-mail:jbo@nau.edu.cn

        2012-12-25

        2013-02-25

        1002-8331(2014)22-0154-04

        CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0955.024.html

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)網(wǎng)格
        用全等三角形破解網(wǎng)格題
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        基于曲面展開的自由曲面網(wǎng)格劃分
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        亚洲精品无码久久久久av麻豆| 在线精品国产亚洲av麻豆| 99e99精选视频在线观看| 中文字幕人妻少妇引诱隔壁| 欧洲熟妇乱xxxxx大屁股7| 亚洲AV秘 无套一区二区三区 | 蜜桃精品国产一区二区三区| 中文字幕一区二区精品视频| 一区二区在线观看视频高清| 人妻仑乱a级毛片免费看| 日韩精品一区二区亚洲av| 无码人妻丝袜在线视频| 亚洲熟妇av一区二区三区hd| 亚洲av一二三区成人影片| 亚洲av无码一区二区三区四区| 久热香蕉av在线爽青青| 国产主播一区二区在线观看| 国产一区二区三区亚洲| 久久狠狠色噜噜狠狠狠狠97| 久久亚洲精品无码gv| 40分钟永久免费又黄又粗| 在线观看视频免费播放| 影音先锋男人av鲁色资源网| 欧美日韩成人在线| 韩国免费一级a一片在线| 亚洲国产美女高潮久久久| 国产午夜无码片在线观看影院| 这里有精品可以观看| 无码高潮少妇毛多水多水免费| 中文字幕亚洲精品在线免费| 亚洲av不卡一区二区三区| 夜夜春精品视频| 漂亮人妻被强中文字幕乱码| 中文字幕一区在线直播| 无人高清电视剧在线观看| 无遮挡网站| 亚洲精品综合一区二区| 国产av剧情刺激对白| 久久精品国产自在天天线| 中年熟妇的大黑p| 亚洲一区二区在线视频播放 |