亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于候選集的相似度度量的計算

2016-11-19 05:22:02王夢迪程玉勝

中小企業(yè)管理與科技·下旬刊 2016年4期

王夢迪　程玉勝

摘要：關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一種重要模式，已成為目前數(shù)據(jù)挖掘領(lǐng)域的一個非常重要的研究課題。其中如何度量和尋找有效的候選集一直是眾多學者研究的課題之一。本文在置信度及其興趣度度量的基礎上，提出了產(chǎn)生候選集的相似度度量計算方法，并對比了該方法和置信度及其興趣度之間的聯(lián)系，并利用相關(guān)結(jié)論進一步討論了大數(shù)據(jù)集環(huán)境下如何更加有效地計算相似度的度量計算方法。

關(guān)鍵詞：數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；事務間關(guān)聯(lián)規(guī)則

中圖分類號： TP274 文獻標識碼： A 文章編號： 1673-1069（2016）12-145-3

0 引言

關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘分為事務內(nèi)關(guān)聯(lián)規(guī)則（Intra-Transaction）的數(shù)據(jù)挖掘和事務間（Inter-Transaction）關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘。非經(jīng)典關(guān)聯(lián)規(guī)則挖掘始終會面臨所謂的“高階邏輯”問題。對股價描述，特別是對一些基于（標的股票）價格之上的衍生資產(chǎn)，如期貨或期權(quán)，這樣的表述會更準確些，即在N維空間下（隨機過程）的套利測量場。對其直接套用泛Apriori算法是不合適的。

當以基于事務的觀點應用滑動窗口技術(shù)將股票原始事務數(shù)據(jù)庫D轉(zhuǎn)化為擴展事務數(shù)據(jù)庫De時會大量出現(xiàn)這樣一個很有趣（是因為它有別于經(jīng)典購物籃的高支持度）也很值得注意的現(xiàn)象。因為得到的擴展事務數(shù)據(jù)庫De往往會很大數(shù)據(jù)集很豐富，但就某只股票在某個時間點上的事件出現(xiàn)頻率計數(shù)。（例如，如果以一只股票當天收盤價比上一天收盤價超過2%作為一次事件發(fā)生記為1否則記為0。那么就在前不久，上證指數(shù)從16.01.04開盤的3536.59一路跌到16.01.29收于2737.60。期間共有二十個交易日，1只出現(xiàn)過三次，其他都記為0。支持度為3/20=0.15。韶鋼松山從16.01.04開盤價14.28元一路跌到16.01.29的收盤價12.21元。期間共有20個交易日，1出現(xiàn)了5次，其他都記為0。支持度為5/20=0.25。顯然，它們的支持度都很低。那么能由此推斷出走勢背后的資金流沒有關(guān)聯(lián)嗎？肯定不是，資金流之間的進出絕對是有關(guān)聯(lián)的。這其中暗藏的有趣關(guān)聯(lián)肯定還不少。）與整個擴展事務數(shù)據(jù)庫De數(shù)據(jù)集相比結(jié)果很小甚至小到都可不予考慮即支持度顯然很低。然而依“規(guī)則的可信度是指包含I1和I2的事務數(shù)與包含I1的事務數(shù)之比”來看置信度卻較高。這其中有許多有趣的關(guān)聯(lián)規(guī)則它們支持度很低但置信度卻較高，如果一味用傳統(tǒng)的挖掘算法會很難發(fā)現(xiàn)這些（有趣的）關(guān)聯(lián)規(guī)則。

事務間關(guān)聯(lián)規(guī)則通常的支持度都較低。在對支持度很低但置信度很高的關(guān)聯(lián)規(guī)則進行挖掘時，用最小支持度門檻值的算法顯然不夠有效。對此本文打算用相似度來衡量事務間可能產(chǎn)生關(guān)聯(lián)規(guī)則的項，進而得到事務間關(guān)聯(lián)規(guī)則，而且還可用來挖掘感興趣的事務間多個項間排斥規(guī)則。

1 相似關(guān)聯(lián)規(guī)則挖掘算法

1.1 興趣度及其相似度量

復旦大學的施伯樂教授在文獻中提出了基于差異思想的興趣度定義，用以指導關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。其定義規(guī)則X=>Y的興趣度為：

這個定義是由關(guān)聯(lián)規(guī)則的支持度和可信度而產(chǎn)生的，分母只是個標準化因子，使得| Interest（X=>Y）|<1。根據(jù)這個定義，一條關(guān)聯(lián)規(guī)則的興趣度越大于0，說明對這條規(guī)則越感興趣；一條關(guān)聯(lián)規(guī)則的興趣度越小于0，說明對這條規(guī)則的反面規(guī)則越感興趣。

可事先由用戶指定最小興趣度閥值minInterest，若Interest（X=>Y）的絕對值越大于minInterest，說明Y的支持度與規(guī)則X=>Y的信任度的差異越大，我們說規(guī)則X=>Y是新奇的，用戶對這些規(guī)則越感興趣；若Interest（X=>Y）的絕對值小于minInterest時，說明Y的支持度與規(guī)則X=>Y的信任度差異較小，則可以說規(guī)則X=>Y不是新奇的，不會引起用戶對該規(guī)則感興趣。

1.2 相似度度量方法

事務間的特征或多或少都會存在一定的相似性，相似性是普遍存在的，其間差別只在相似程度多少而已。具有高支持度的關(guān)聯(lián)規(guī)則往往是顯然的大家比較熟悉的規(guī)則，而相比較而言，低支持度關(guān)聯(lián)規(guī)則可能更具新穎性和有趣性。

相似關(guān)聯(lián)規(guī)則挖掘的初衷是用置信度度量來替代支持度度量，為了便于運算引入了相似度度量，因為它極好地近似了置信度的概念。對原始數(shù)據(jù)庫利用相似度進行關(guān)聯(lián)規(guī)則挖掘，首先需要把原始數(shù)據(jù)庫轉(zhuǎn)換成0/1矩陣。轉(zhuǎn)換方法是：原始數(shù)據(jù)庫的每一項將生成新0/1矩陣的一列；原始數(shù)據(jù)庫的每一個事務將生成新0/1矩陣的一行。如果第i個項在第j個事務中出現(xiàn)，那么這個矩陣的第j行第i列取值為1，反之沒有出現(xiàn)就取值為0。

2 基于相似度及其最小哈希變換的候選集挖掘

2.1 基于相似度候選集挖掘

鑒別相似列對的算法包括三個階段：計算特征標識、產(chǎn)生候選集和對已產(chǎn)生候選集進行剪枝。第一階段首先是掃描整個數(shù)據(jù)庫進而為每列生成一個小的哈希特征標識。這一步主要是對存放在外存上的大規(guī)模數(shù)據(jù)進行一次概括性的處理以便能把初步處理結(jié)果存入內(nèi)存，好在內(nèi)存中對其操作。第二階段，在內(nèi)存操作中，根據(jù)列特征標識生成候選對。最后階段，再一次掃描原始數(shù)據(jù)庫來決定每一候選對是否確實具有高的相似度。在掃描數(shù)據(jù)庫時，為每個候選列對（Ci，Cj）計算兩個計數(shù)：一個是在兩列中至少有一列中有1的行的個數(shù)，即Ci∪Cj，另一個是當兩列中同一行都為1的行的數(shù)目，即Ci∩Cj。

2.2 基于最小哈希變換的候選集挖掘

先將原始事務數(shù)據(jù)庫轉(zhuǎn)換成擴展了的大事務數(shù)據(jù)庫，再按照擴展項是否出現(xiàn)再轉(zhuǎn)換成0/1數(shù)據(jù)庫M。如果原始數(shù)據(jù)庫有n個事務，m個項，maxspan=w，則M成為了n行，m×w列的0/1矩陣。然后確定要置換變換的k值。k值可根據(jù)事務數(shù)據(jù)庫事務總數(shù)及對變換后所得矩陣與原始陣的相似度要求來確定。

最小哈希變換的候選集挖掘偽碼：

例3：對例2事務數(shù)據(jù)庫（maxspan=3）轉(zhuǎn)換

可見通過哈希法對矩陣M的轉(zhuǎn)化，不僅降低了矩陣的大小，而且很好地保持了原矩陣M的相似度。

3 結(jié)束語

相似性研究認為事務間的特征或多或少都會存在一定的相似性，相似性是普遍存在的，其間差別只在相似程度多少而已。這種繼承性和相似性反映在以往的數(shù)據(jù)上可使我們得到很多設計靈感，特征間不同程度的相似性具有重要的啟發(fā)和借鑒作用。這一觀點對海量數(shù)據(jù)挖掘知識發(fā)現(xiàn)尤顯重要。本文使用最小哈希方法可減少矩陣的行數(shù)，這使運算對象在縱向上數(shù)量大量減少，但如果在項數(shù)較大的情況下，運算對象在橫向上的數(shù)量就會大量增加，所占空間也就會相應增大，如考慮把它放入內(nèi)存恐有困難，這也需要繼續(xù)研究。

參考文獻

[1] JiaWei Han，Micheline Kamber著.范明，孟小峰譯.數(shù)據(jù)挖掘[M].機械工業(yè)出版社，2001，第一版，14-18.

[2] 劉紹清.基于頻繁項集分類統(tǒng)計的增量式關(guān)聯(lián)規(guī)則應用[J].重慶工商大學學報（自然科學版），2015，32（12）：43-47.

[3] 楊國靜.基于數(shù)據(jù)挖掘的高校教學數(shù)據(jù)分析研究[D].河北師范大學，2015.

[4] Edith Cohen，Mayur Datar，Shinji Fujiwara，etc..Finding Interesting Associations without Support Pruning.IEEE Trans.on Knowledge and Data Eng.，2001，13（1）：64-77.

[5] Anthony K.H. Tung， Hongjun Lu，Jiawei Han，etc..Efficient Mining of Intertrsaction Association Rules. IEEE Trans. on Knowledge and Data Eng.2003，15（1），43.

[6] 陳永峰.大數(shù)據(jù)背景下數(shù)據(jù)挖掘在高校固定資產(chǎn)統(tǒng)計中的應用研究[J].河北軟件職業(yè)技術(shù)學院學報，2015（2）：6-9.

[7] 李勇，陳新華，朱建平，等.第七屆國際數(shù)據(jù)挖掘與應用統(tǒng)計研究會學術(shù)綜述[J].統(tǒng)計與信息論壇，2015（10）：111-111.

[8] J.Hna，J.Pei.Mining Frequent Patterns Without Candidate Generation. In Proc.2000 ACM-SIGMOD Intl. Contf.on Management of Data（SIGMOD′2000）Dallas TX 2000，1-12.

[9] 陳艷，褚光磊.關(guān)聯(lián)規(guī)則挖掘算法在股票預測中的應用研究——基于遺傳網(wǎng)絡規(guī)劃的方法[J].管理現(xiàn)代化，2014，34（3）：13-15，39.

[10] 陳健.人工神經(jīng)網(wǎng)絡模型在股票價格預測問題中的實證研究[D].南開大學，2014.

[11] 褚光磊.進化算法在數(shù)據(jù)挖掘與金融工程中的應用研究[D].上海財經(jīng)大學，2014.

[12] 張筱梅，朱家明.基于Pearson相關(guān)系數(shù)模型對股票間相關(guān)性研究[J].赤峰學院學報（自然科學版），2015（10）：32-33.