盧海濤
摘 要:時(shí)態(tài)數(shù)據(jù)中對(duì)不確定性和周期數(shù)據(jù)如何處理,現(xiàn)有的時(shí)態(tài)數(shù)據(jù)模型很少涉及。分析時(shí)態(tài)數(shù)據(jù)中不確定數(shù)據(jù)和周期數(shù)據(jù),可以從大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的時(shí)間相關(guān)性,幫助企業(yè)決策者預(yù)測(cè)客戶未來(lái)的行為變化趨勢(shì),總結(jié)客戶對(duì)象隨時(shí)間變化的規(guī)律,從而實(shí)現(xiàn)時(shí)態(tài)數(shù)據(jù)中序列模式的挖掘問(wèn)題。該文對(duì)時(shí)態(tài)數(shù)據(jù)中序列模式挖掘技術(shù)進(jìn)行了研究。
關(guān)鍵詞:時(shí)態(tài)數(shù)據(jù) 序列模式 BI 數(shù)據(jù)挖掘
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)05(a)-0056-01
序列模式挖掘技術(shù)是數(shù)據(jù)挖掘技術(shù)中針對(duì)時(shí)態(tài)數(shù)據(jù)庫(kù)中不確定性信息的存儲(chǔ)、組織、挖掘和維護(hù)的問(wèn)題的重要研究方法,特別是商業(yè)BI過(guò)程中,庫(kù)中潛存著大量的數(shù)據(jù)信息,這些數(shù)據(jù)主要以時(shí)態(tài)數(shù)據(jù)為主,因此利用數(shù)據(jù)挖掘技術(shù)綜合分析和處理時(shí)態(tài)數(shù)據(jù)是很有必要的,而序列模式挖掘技術(shù)則是數(shù)據(jù)挖掘應(yīng)用的主要方法。利用該技術(shù)能夠在巨量數(shù)據(jù)中發(fā)現(xiàn)潛在有效的模式和用戶信息,并將這些模式應(yīng)用于商業(yè)運(yùn)營(yíng)中。
1 不確定數(shù)據(jù)序列算法研究
2001年,Jian Pei提出了一種新的不確定數(shù)據(jù)序列算法[1],其是基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)。并且其中GSP是水平挖掘方法。而在1996年,Srikant提出的挖掘方法[2]是垂直挖掘方法。一般來(lái)說(shuō),近幾年提出的基于傳統(tǒng)Apriori算法的傳遞閉包性質(zhì)的方法的基本流程如下:(1)采用廣度優(yōu)先搜索策略,生成候選模式集;(2)檢測(cè)候選模式集中每項(xiàng)模式是否為頻繁模式;(3)利用反單調(diào)性質(zhì)剪枝策略對(duì)不可能成為頻繁模式的候選分支進(jìn)行剪枝;(4)進(jìn)行迭代。這類算法有一個(gè)嚴(yán)重缺陷,即有大量中間結(jié)果會(huì)在自連接操作生成候選集時(shí)產(chǎn)生。針對(duì)這個(gè)問(wèn)題,Jian Pei提出利用深度優(yōu)先搜索策略來(lái)改進(jìn)。同樣,Jian Pei提出PrefixSpan方法是基于投影的模式擴(kuò)展算法。因?yàn)椴捎玫氖沁f歸方式,所以不會(huì)有大量中間候選集產(chǎn)生。2002年,Ayres[3]提出了SPAM算法,該算法更加有效,但是其有一個(gè)前置條件:全部數(shù)據(jù)都必須在內(nèi)存中。
2 序列模式挖掘研究
序列模式挖掘是指從序列數(shù)據(jù)中尋找頻繁子序列作為模式的知識(shí)發(fā)現(xiàn)過(guò)程,在很多領(lǐng)域都有實(shí)際的應(yīng)用價(jià)值。在不同領(lǐng)域中,采用序列模式挖掘技術(shù),可以發(fā)現(xiàn)諸多藏在數(shù)據(jù)中的知識(shí),進(jìn)而輔助決策過(guò)程。而序列模式挖掘方法的深入理解,對(duì)于諸如頻繁子樹(shù)、網(wǎng)格、子圖等結(jié)構(gòu)類模式的挖掘具有重要理論意義。一般而言,序列模式挖掘的執(zhí)行過(guò)程是:(1)定義最小支持度閾值;(2)找出序列集合中所有滿足最小支持度閾值的序列集。
早期的序列模式挖掘研究是由Agrawal等人進(jìn)行的,近幾年來(lái),序列模式挖掘研究取得了長(zhǎng)足的進(jìn)步,有大量性能良好的算法被提出。這些算法可簡(jiǎn)單分類為四種:(1)基于Apriori(Apriori-based)算法;(2)GSP算法;(3)基于投影(Projection-based)算法;(4)SPADE算法。
3 時(shí)間序列模式挖掘的研究
時(shí)間序列模式相似性匹配是時(shí)間序列數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容。時(shí)間序列來(lái)源于實(shí)際生活的各應(yīng)用領(lǐng)域,其具有如下特點(diǎn):(1) 頻繁的短期波動(dòng);(2)大量噪聲干擾;(3)非穩(wěn)態(tài)。這些特點(diǎn)導(dǎo)致時(shí)間序列模式匹配異常艱難。時(shí)間序列模式相似匹配的基礎(chǔ)是相似性度量,而近幾年提出的時(shí)間序列索引技術(shù)可以有效提高查詢效率。
近幾年來(lái),研究者們提出了很多時(shí)間序列分類算法,但這些算法主要是對(duì)相似性度量方法進(jìn)行改進(jìn),其中,在2004年,Wai-Ho[4]在時(shí)間序列分類中引入了模糊規(guī)則,以對(duì)時(shí)間序列中的噪聲和模糊特性進(jìn)行處理。
在對(duì)異常數(shù)據(jù)的處理過(guò)程中,通常做法是將其刪除,但在某些應(yīng)用背景中,異常數(shù)據(jù)具有特定價(jià)值,比如電力系統(tǒng)運(yùn)行異常,以及信用卡使用過(guò)程監(jiān)測(cè)(可能是信用卡詐騙)等。近幾年,對(duì)時(shí)間序列異常,研究者們提出了不同的定義,但還未有一個(gè)公認(rèn)的定義。異常挖掘有兩個(gè)研究方向:(1)如何定義異常數(shù)據(jù);(2)如何挖掘異常數(shù)據(jù)。
時(shí)間序列模式挖掘的目的是挖掘出與時(shí)間有關(guān)的頻繁模式。目前被分為兩類:(1)關(guān)聯(lián)規(guī)則挖掘;(2)序列模式挖掘。1993年,Agrawal[5]提出關(guān)聯(lián)規(guī)則挖掘,挖掘給定數(shù)據(jù)集中數(shù)據(jù)項(xiàng)間有價(jià)值的聯(lián)系。其描述的是項(xiàng)集間的關(guān)聯(lián)。序列模式挖掘也由 Agrawal首先提出的,其描述的是交易間的關(guān)聯(lián)。
4 結(jié)論
時(shí)間序列的趨勢(shì)分析應(yīng)用非常廣泛,但分析方法還局限于基于數(shù)學(xué)模型,當(dāng)數(shù)據(jù)海量的時(shí)候,會(huì)給分析帶來(lái)很多不便,并且準(zhǔn)確率也會(huì)下降,針對(duì)目前已提出的算法,希望可以在豐富趨勢(shì)挖掘的研究方法的同時(shí),將時(shí)間序列數(shù)據(jù)挖掘的一些算法進(jìn)一步引入,可以更好的延展趨勢(shì)分析方法。
參考文獻(xiàn)
[1]Jian Pei.Mining Sequential Patterns by Prefix-Projected Growth[C]//.Proc of the 17th International Conference on Data Engineering, Heidelberg, Germany,2001: 215-224.
[2] R.Srikant.Mining Sequential Patterns:Generalizations and Performance Improvements.Advances in Knowledge Discovery and Data Mining: 5th International Conference on Extending Database Technology,Avignon,F(xiàn)rance, 1996:3-17.
[3] J.Ayres.Sequential Pattern Mining Using a Bitmap Representation.Proc of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Edmonton,Canada: 2002:429-435.
[4] Wai-Ho.Mining fuzzy rules for time series classification,Budapest,Hungary,2004:25-29.
[5] R Agrawal.Mining association rules between sets of items in large databases,Proceedings of the ACM SIGMOD Congerence on Management of Data,Washington,1993:207-216.endprint