亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

時(shí)態(tài)數(shù)據(jù)中序列模式挖掘研究

2014-11-10 15:02:02盧海濤

科技創(chuàng)新導(dǎo)報(bào) 2014年13期

盧海濤

摘要：時(shí)態(tài)數(shù)據(jù)中對(duì)不確定性和周期數(shù)據(jù)如何處理，現(xiàn)有的時(shí)態(tài)數(shù)據(jù)模型很少涉及。分析時(shí)態(tài)數(shù)據(jù)中不確定數(shù)據(jù)和周期數(shù)據(jù)，可以從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的時(shí)間相關(guān)性，幫助企業(yè)決策者預(yù)測(cè)客戶未來(lái)的行為變化趨勢(shì)，總結(jié)客戶對(duì)象隨時(shí)間變化的規(guī)律，從而實(shí)現(xiàn)時(shí)態(tài)數(shù)據(jù)中序列模式的挖掘問(wèn)題。該文對(duì)時(shí)態(tài)數(shù)據(jù)中序列模式挖掘技術(shù)進(jìn)行了研究。

關(guān)鍵詞：時(shí)態(tài)數(shù)據(jù) 序列模式 BI 數(shù)據(jù)挖掘

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1674-098X（2014）05（a）-0056-01

序列模式挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)中針對(duì)時(shí)態(tài)數(shù)據(jù)庫(kù)中不確定性信息的存儲(chǔ)、組織、挖掘和維護(hù)的問(wèn)題的重要研究方法，特別是商業(yè)BI過(guò)程中，庫(kù)中潛存著大量的數(shù)據(jù)信息，這些數(shù)據(jù)主要以時(shí)態(tài)數(shù)據(jù)為主，因此利用數(shù)據(jù)挖掘技術(shù)綜合分析和處理時(shí)態(tài)數(shù)據(jù)是很有必要的，而序列模式挖掘技術(shù)則是數(shù)據(jù)挖掘應(yīng)用的主要方法。利用該技術(shù)能夠在巨量數(shù)據(jù)中發(fā)現(xiàn)潛在有效的模式和用戶信息，并將這些模式應(yīng)用于商業(yè)運(yùn)營(yíng)中。

1 不確定數(shù)據(jù)序列算法研究

2001年，Jian Pei提出了一種新的不確定數(shù)據(jù)序列算法[1]，其是基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)。并且其中GSP是水平挖掘方法。而在1996年，Srikant提出的挖掘方法[2]是垂直挖掘方法。一般來(lái)說(shuō)，近幾年提出的基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)的方法的基本流程如下：（1）采用廣度優(yōu)先搜索策略，生成候選模式集；（2）檢測(cè)候選模式集中每項(xiàng)模式是否為頻繁模式；（3）利用反單調(diào)性質(zhì)剪枝策略對(duì)不可能成為頻繁模式的候選分支進(jìn)行剪枝；（4）進(jìn)行迭代。這類算法有一個(gè)嚴(yán)重缺陷，即有大量中間結(jié)果會(huì)在自連接操作生成候選集時(shí)產(chǎn)生。針對(duì)這個(gè)問(wèn)題，Jian Pei提出利用深度優(yōu)先搜索策略來(lái)改進(jìn)。同樣，Jian Pei提出PrefixSpan方法是基于投影的模式擴(kuò)展算法。因?yàn)椴捎玫氖沁f歸方式，所以不會(huì)有大量中間候選集產(chǎn)生。2002年，Ayres[3]提出了SPAM算法，該算法更加有效，但是其有一個(gè)前置條件：全部數(shù)據(jù)都必須在內(nèi)存中。

2 序列模式挖掘研究

序列模式挖掘是指從序列數(shù)據(jù)中尋找頻繁子序列作為模式的知識(shí)發(fā)現(xiàn)過(guò)程，在很多領(lǐng)域都有實(shí)際的應(yīng)用價(jià)值。在不同領(lǐng)域中，采用序列模式挖掘技術(shù)，可以發(fā)現(xiàn)諸多藏在數(shù)據(jù)中的知識(shí)，進(jìn)而輔助決策過(guò)程。而序列模式挖掘方法的深入理解，對(duì)于諸如頻繁子樹(shù)、網(wǎng)格、子圖等結(jié)構(gòu)類模式的挖掘具有重要理論意義。一般而言，序列模式挖掘的執(zhí)行過(guò)程是：（1）定義最小支持度閾值；（2）找出序列集合中所有滿足最小支持度閾值的序列集。

早期的序列模式挖掘研究是由Agrawal等人進(jìn)行的，近幾年來(lái)，序列模式挖掘研究取得了長(zhǎng)足的進(jìn)步，有大量性能良好的算法被提出。這些算法可簡(jiǎn)單分類為四種：（1）基于Apriori（Apriori-based）算法；（2）GSP算法；（3）基于投影（Projection-based）算法；（4）SPADE算法。

3 時(shí)間序列模式挖掘的研究

時(shí)間序列模式相似性匹配是時(shí)間序列數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容。時(shí)間序列來(lái)源于實(shí)際生活的各應(yīng)用領(lǐng)域，其具有如下特點(diǎn)：（1）頻繁的短期波動(dòng)；（2）大量噪聲干擾；（3）非穩(wěn)態(tài)。這些特點(diǎn)導(dǎo)致時(shí)間序列模式匹配異常艱難。時(shí)間序列模式相似匹配的基礎(chǔ)是相似性度量，而近幾年提出的時(shí)間序列索引技術(shù)可以有效提高查詢效率。

近幾年來(lái)，研究者們提出了很多時(shí)間序列分類算法，但這些算法主要是對(duì)相似性度量方法進(jìn)行改進(jìn)，其中，在2004年，Wai-Ho[4]在時(shí)間序列分類中引入了模糊規(guī)則，以對(duì)時(shí)間序列中的噪聲和模糊特性進(jìn)行處理。

在對(duì)異常數(shù)據(jù)的處理過(guò)程中，通常做法是將其刪除，但在某些應(yīng)用背景中，異常數(shù)據(jù)具有特定價(jià)值，比如電力系統(tǒng)運(yùn)行異常，以及信用卡使用過(guò)程監(jiān)測(cè)（可能是信用卡詐騙）等。近幾年，對(duì)時(shí)間序列異常，研究者們提出了不同的定義，但還未有一個(gè)公認(rèn)的定義。異常挖掘有兩個(gè)研究方向：（1）如何定義異常數(shù)據(jù)；（2）如何挖掘異常數(shù)據(jù)。

時(shí)間序列模式挖掘的目的是挖掘出與時(shí)間有關(guān)的頻繁模式。目前被分為兩類：（1）關(guān)聯(lián)規(guī)則挖掘；（2）序列模式挖掘。1993年，Agrawal[5]提出關(guān)聯(lián)規(guī)則挖掘，挖掘給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)間有價(jià)值的聯(lián)系。其描述的是項(xiàng)集間的關(guān)聯(lián)。序列模式挖掘也由 Agrawal首先提出的，其描述的是交易間的關(guān)聯(lián)。

4 結(jié)論

時(shí)間序列的趨勢(shì)分析應(yīng)用非常廣泛，但分析方法還局限于基于數(shù)學(xué)模型，當(dāng)數(shù)據(jù)海量的時(shí)候，會(huì)給分析帶來(lái)很多不便，并且準(zhǔn)確率也會(huì)下降，針對(duì)目前已提出的算法，希望可以在豐富趨勢(shì)挖掘的研究方法的同時(shí)，將時(shí)間序列數(shù)據(jù)挖掘的一些算法進(jìn)一步引入，可以更好的延展趨勢(shì)分析方法。

參考文獻(xiàn)

[1]Jian Pei.Mining Sequential Patterns by Prefix-Projected Growth[C]//.Proc of the 17th International Conference on Data Engineering， Heidelberg， Germany，2001： 215-224.

[2] R.Srikant.Mining Sequential Patterns：Generalizations and Performance Improvements.Advances in Knowledge Discovery and Data Mining： 5th International Conference on Extending Database Technology，Avignon，F(xiàn)rance， 1996：3-17.

[3] J.Ayres.Sequential Pattern Mining Using a Bitmap Representation.Proc of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，Edmonton，Canada： 2002：429-435.

[4] Wai-Ho.Mining fuzzy rules for time series classification，Budapest，Hungary，2004：25-29.

[5] R Agrawal.Mining association rules between sets of items in large databases，Proceedings of the ACM SIGMOD Congerence on Management of Data，Washington，1993：207-216.endprint