亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于候選集的相似度度量的計算

        2016-11-19 05:22:02王夢迪程玉勝
        關(guān)鍵詞:數(shù)據(jù)挖掘

        王夢迪 程玉勝

        摘 要:關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一種重要模式,已成為目前數(shù)據(jù)挖掘領(lǐng)域的一個非常重要的研究課題。其中如何度量和尋找有效的候選集一直是眾多學者研究的課題之一。本文在置信度及其興趣度度量的基礎上,提出了產(chǎn)生候選集的相似度度量計算方法,并對比了該方法和置信度及其興趣度之間的聯(lián)系,并利用相關(guān)結(jié)論進一步討論了大數(shù)據(jù)集環(huán)境下如何更加有效地計算相似度的度量計算方法。

        關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;事務間關(guān)聯(lián)規(guī)則

        中圖分類號: TP274 文獻標識碼: A 文章編號: 1673-1069(2016)12-145-3

        0 引言

        關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘分為事務內(nèi)關(guān)聯(lián)規(guī)則(Intra-Transaction)的數(shù)據(jù)挖掘和事務間(Inter-Transaction)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘。非經(jīng)典關(guān)聯(lián)規(guī)則挖掘始終會面臨所謂的“高階邏輯”問題。對股價描述,特別是對一些基于(標的股票)價格之上的衍生資產(chǎn),如期貨或期權(quán),這樣的表述會更準確些,即在N維空間下(隨機過程)的套利測量場。對其直接套用泛Apriori算法是不合適的。

        當以基于事務的觀點應用滑動窗口技術(shù)將股票原始事務數(shù)據(jù)庫D轉(zhuǎn)化為擴展事務數(shù)據(jù)庫De時會大量出現(xiàn)這樣一個很有趣(是因為它有別于經(jīng)典購物籃的高支持度)也很值得注意的現(xiàn)象。因為得到的擴展事務數(shù)據(jù)庫De往往會很大數(shù)據(jù)集很豐富,但就某只股票在某個時間點上的事件出現(xiàn)頻率計數(shù)。(例如,如果以一只股票當天收盤價比上一天收盤價超過2%作為一次事件發(fā)生記為1否則記為0。那么就在前不久,上證指數(shù)從16.01.04開盤的3536.59一路跌到16.01.29收于2737.60。期間共有二十個交易日,1只出現(xiàn)過三次,其他都記為0。支持度為3/20=0.15。韶鋼松山從16.01.04開盤價14.28元一路跌到16.01.29的收盤價12.21元。期間共有20個交易日,1出現(xiàn)了5次,其他都記為0。支持度為5/20=0.25。顯然,它們的支持度都很低。那么能由此推斷出走勢背后的資金流沒有關(guān)聯(lián)嗎?肯定不是,資金流之間的進出絕對是有關(guān)聯(lián)的。這其中暗藏的有趣關(guān)聯(lián)肯定還不少。)與整個擴展事務數(shù)據(jù)庫De數(shù)據(jù)集相比結(jié)果很小甚至小到都可不予考慮即支持度顯然很低。然而依“規(guī)則的可信度是指包含I1和I2的事務數(shù)與包含I1的事務數(shù)之比”來看置信度卻較高。這其中有許多有趣的關(guān)聯(lián)規(guī)則它們支持度很低但置信度卻較高,如果一味用傳統(tǒng)的挖掘算法會很難發(fā)現(xiàn)這些(有趣的)關(guān)聯(lián)規(guī)則。

        事務間關(guān)聯(lián)規(guī)則通常的支持度都較低。在對支持度很低但置信度很高的關(guān)聯(lián)規(guī)則進行挖掘時,用最小支持度門檻值的算法顯然不夠有效。對此本文打算用相似度來衡量事務間可能產(chǎn)生關(guān)聯(lián)規(guī)則的項,進而得到事務間關(guān)聯(lián)規(guī)則,而且還可用來挖掘感興趣的事務間多個項間排斥規(guī)則。

        1 相似關(guān)聯(lián)規(guī)則挖掘算法

        1.1 興趣度及其相似度量

        復旦大學的施伯樂教授在文獻中提出了基于差異思想的興趣度定義,用以指導關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。其定義規(guī)則X=>Y的興趣度為:

        這個定義是由關(guān)聯(lián)規(guī)則的支持度和可信度而產(chǎn)生的,分母只是個標準化因子,使得| Interest(X=>Y)|<1。根據(jù)這個定義,一條關(guān)聯(lián)規(guī)則的興趣度越大于0,說明對這條規(guī)則越感興趣;一條關(guān)聯(lián)規(guī)則的興趣度越小于0,說明對這條規(guī)則的反面規(guī)則越感興趣。

        可事先由用戶指定最小興趣度閥值minInterest,若Interest(X=>Y)的絕對值越大于minInterest,說明Y的支持度與規(guī)則X=>Y的信任度的差異越大,我們說規(guī)則X=>Y是新奇的,用戶對這些規(guī)則越感興趣;若Interest(X=>Y)的絕對值小于minInterest時,說明Y的支持度與規(guī)則X=>Y的信任度差異較小,則可以說規(guī)則X=>Y不是新奇的,不會引起用戶對該規(guī)則感興趣。

        1.2 相似度度量方法

        事務間的特征或多或少都會存在一定的相似性,相似性是普遍存在的,其間差別只在相似程度多少而已。具有高支持度的關(guān)聯(lián)規(guī)則往往是顯然的大家比較熟悉的規(guī)則,而相比較而言,低支持度關(guān)聯(lián)規(guī)則可能更具新穎性和有趣性。

        相似關(guān)聯(lián)規(guī)則挖掘的初衷是用置信度度量來替代支持度度量,為了便于運算引入了相似度度量,因為它極好地近似了置信度的概念。對原始數(shù)據(jù)庫利用相似度進行關(guān)聯(lián)規(guī)則挖掘,首先需要把原始數(shù)據(jù)庫轉(zhuǎn)換成0/1矩陣。轉(zhuǎn)換方法是:原始數(shù)據(jù)庫的每一項將生成新0/1矩陣的一列;原始數(shù)據(jù)庫的每一個事務將生成新0/1矩陣的一行。如果第i個項在第j個事務中出現(xiàn),那么這個矩陣的第j行第i列取值為1,反之沒有出現(xiàn)就取值為0。

        2 基于相似度及其最小哈希變換的候選集挖掘

        2.1 基于相似度候選集挖掘

        鑒別相似列對的算法包括三個階段:計算特征標識、產(chǎn)生候選集和對已產(chǎn)生候選集進行剪枝。第一階段首先是掃描整個數(shù)據(jù)庫進而為每列生成一個小的哈希特征標識。這一步主要是對存放在外存上的大規(guī)模數(shù)據(jù)進行一次概括性的處理以便能把初步處理結(jié)果存入內(nèi)存,好在內(nèi)存中對其操作。第二階段,在內(nèi)存操作中,根據(jù)列特征標識生成候選對。最后階段,再一次掃描原始數(shù)據(jù)庫來決定每一候選對是否確實具有高的相似度。在掃描數(shù)據(jù)庫時,為每個候選列對(Ci,Cj)計算兩個計數(shù):一個是在兩列中至少有一列中有1的行的個數(shù),即Ci∪Cj,另一個是當兩列中同一行都為1的行的數(shù)目,即Ci∩Cj。

        2.2 基于最小哈希變換的候選集挖掘

        先將原始事務數(shù)據(jù)庫轉(zhuǎn)換成擴展了的大事務數(shù)據(jù)庫,再按照擴展項是否出現(xiàn)再轉(zhuǎn)換成0/1數(shù)據(jù)庫M。如果原始數(shù)據(jù)庫有n個事務,m個項,maxspan=w,則M成為了n行,m×w列的0/1矩陣。然后確定要置換變換的k值。k值可根據(jù)事務數(shù)據(jù)庫事務總數(shù)及對變換后所得矩陣與原始陣的相似度要求來確定。

        最小哈希變換的候選集挖掘偽碼:

        例3:對例2事務數(shù)據(jù)庫(maxspan=3)轉(zhuǎn)換

        可見通過哈希法對矩陣M的轉(zhuǎn)化,不僅降低了矩陣的大小,而且很好地保持了原矩陣M的相似度。

        3 結(jié)束語

        相似性研究認為事務間的特征或多或少都會存在一定的相似性,相似性是普遍存在的,其間差別只在相似程度多少而已。這種繼承性和相似性反映在以往的數(shù)據(jù)上可使我們得到很多設計靈感,特征間不同程度的相似性具有重要的啟發(fā)和借鑒作用。這一觀點對海量數(shù)據(jù)挖掘知識發(fā)現(xiàn)尤顯重要。本文使用最小哈希方法可減少矩陣的行數(shù),這使運算對象在縱向上數(shù)量大量減少,但如果在項數(shù)較大的情況下,運算對象在橫向上的數(shù)量就會大量增加,所占空間也就會相應增大,如考慮把它放入內(nèi)存恐有困難,這也需要繼續(xù)研究。

        參 考 文 獻

        [1] JiaWei Han,Micheline Kamber著.范明,孟小峰譯.數(shù)據(jù)挖掘[M].機械工業(yè)出版社,2001,第一版,14-18.

        [2] 劉紹清.基于頻繁項集分類統(tǒng)計的增量式關(guān)聯(lián)規(guī)則應用[J].重慶工商大學學報(自然科學版),2015,32(12):43-47.

        [3] 楊國靜.基于數(shù)據(jù)挖掘的高校教學數(shù)據(jù)分析研究[D].河北師范大學,2015.

        [4] Edith Cohen,Mayur Datar,Shinji Fujiwara,etc..Finding Interesting Associations without Support Pruning.IEEE Trans.on Knowledge and Data Eng.,2001,13(1):64-77.

        [5] Anthony K.H. Tung, Hongjun Lu,Jiawei Han,etc..Efficient Mining of Intertrsaction Association Rules. IEEE Trans. on Knowledge and Data Eng.2003,15(1),43.

        [6] 陳永峰.大數(shù)據(jù)背景下數(shù)據(jù)挖掘在高校固定資產(chǎn)統(tǒng)計中的應用研究[J].河北軟件職業(yè)技術(shù)學院學報,2015(2):6-9.

        [7] 李勇,陳新華,朱建平,等.第七屆國際數(shù)據(jù)挖掘與應用統(tǒng)計研究會學術(shù)綜述[J].統(tǒng)計與信息論壇,2015(10):111-111.

        [8] J.Hna,J.Pei.Mining Frequent Patterns Without Candidate Generation. In Proc.2000 ACM-SIGMOD Intl. Contf.on Management of Data(SIGMOD′2000)Dallas TX 2000,1-12.

        [9] 陳艷,褚光磊.關(guān)聯(lián)規(guī)則挖掘算法在股票預測中的應用研究——基于遺傳網(wǎng)絡規(guī)劃的方法[J].管理現(xiàn)代化,2014,34(3):13-15,39.

        [10] 陳健.人工神經(jīng)網(wǎng)絡模型在股票價格預測問題中的實證研究[D].南開大學,2014.

        [11] 褚光磊.進化算法在數(shù)據(jù)挖掘與金融工程中的應用研究[D].上海財經(jīng)大學,2014.

        [12] 張筱梅,朱家明.基于Pearson相關(guān)系數(shù)模型對股票間相關(guān)性研究[J].赤峰學院學報(自然科學版),2015(10):32-33.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘在高校圖書館中的應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        中文字幕人妻少妇引诱隔壁| 白白色发布视频在线播放| 亚洲国产av一区二区三区天堂| 男女性爽大片视频| 日本精品一区二区三区二人码| 插b内射18免费视频| 国产高清视频91| 亚洲αⅴ无码乱码在线观看性色| 亚洲一区二区三区国产精品视频| 电驱蚊液可以插一晚上吗| 人妻少妇精品无码专区动漫| 国产伦精品一区二区三区视| 在线视频一区二区观看| 精品人妻一区二区三区在线观看| 屁屁影院ccyy备用地址| 日韩国产欧美视频| 亚洲av粉嫩性色av| 亚洲色图三级在线观看| 国产婷婷色综合av蜜臀av| 久久精品国产亚洲AⅤ无码| 中文字幕一区二区三区在线看一区| 日韩少妇人妻中文字幕| 国产精品一区二区久久不卡| 欧美xxxx新一区二区三区| 一区二区三区四区午夜视频在线| 国产乱人无码伦av在线a| 国产精品天天狠天天看| 蜜桃av无码免费看永久| 日韩人妻大奶子生活片| 成 人色 网 站 欧美大片在线观看| 手机在线看永久av片免费| 久久与欧美视频| 国产中文字幕免费视频一区| 久久久久av无码免费网| 亚洲午夜精品久久久久久一区| 国产成人久久综合第一区| 久久青青草原国产毛片| 亚洲av综合色区无码一二三区 | 中文字幕精品久久天堂一区| 小黄片免费在线播放观看| 亚洲av无码国产综合专区|