亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關聯(lián)模式的股票分析和研究

        2017-06-16 10:50:52龐帥
        科學與財富 2017年17期
        關鍵詞:項集股票數(shù)據(jù)挖掘

        龐帥

        (中南財經(jīng)政法大學 湖北省武漢市 430073)

        摘 要:隨著證券市場的迅猛發(fā)展,股票數(shù)據(jù)信息爆炸式增長,如何從龐大的敷據(jù)中找到有用的信息來指導投資者的投資行為成為一個重要的學術研究方向.從數(shù)據(jù)挖掘技術入手,在關聯(lián)規(guī)則分析的處理算法基礎上,引入股票成交量數(shù)據(jù)項以及二雛時間模式對股票敷據(jù)進行數(shù)據(jù)挖掘,并對比試驗的結果.試驗證明,該改進時投資者提供了更為有效的決策支持. 本文介紹了在數(shù)據(jù)挖掘中關聯(lián)規(guī)則的基本概念和屬性 ,進一步討論了關聯(lián)規(guī)則在股票信息數(shù)據(jù)挖掘中的應用 .

        1.關聯(lián)規(guī)則。

        數(shù)據(jù)挖掘又被稱之為知識發(fā)現(xiàn),具體是指從大量的數(shù)據(jù)中提取一些比較可信的、新穎的且有效的模式處理過程。它通過系統(tǒng)的應用機器靴子以及統(tǒng)計分析等計算機科學技術老分析和表示存在于一個大型數(shù)據(jù)庫中的知識。

        1.1關聯(lián)分析的定義。

        關聯(lián)分析又稱關聯(lián)挖掘,就是在交易數(shù)據(jù)、關系數(shù)據(jù)或其他信息載體中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關聯(lián)、相關性或因果結構?;蛘哒f,關聯(lián)分析是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品(項)之間的聯(lián)系。

        關聯(lián)分析是一種簡單、實用的分析技術,就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性或相關性,從而描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式。

        關聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關聯(lián)和相關聯(lián)系。關聯(lián)分析的一個典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營銷策略。其他的應用還包括價目表設計、商品促銷、商品的排放和基于購買模式的顧客劃分。

        可從數(shù)據(jù)庫中關聯(lián)分析出形如“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類的規(guī)則。如“67%的顧客在購買啤酒的同時也會購買尿布”,因此通過合理的啤酒和尿布的貨架擺放或捆綁銷售可提高超市的服務質(zhì)量和效益。又如“‘C語言課程優(yōu)秀的同學,在學習‘數(shù)據(jù)結構時為優(yōu)秀的可能性達88%”,那么就可以通過強化“C語言”的學習來提高教學效果。

        1.2關聯(lián)分析的方法。

        關聯(lián)分析主要包括兩種分析方法:

        第一是,Apriori算法

        Apriori算法是挖掘產(chǎn)生布爾關聯(lián)規(guī)則所需頻繁項集的基本算法,也是最著名的關聯(lián)規(guī)則挖掘算法之一。Apriori算法就是根據(jù)有關頻繁項集特性的先驗知識而命名的。它使用一種稱作逐層搜索的迭代方法,k—項集用于探索(k+1)—項集。首先,找出頻繁1—項集的集合.記做L1,L1用于找出頻繁2—項集的集合L2,再用于找出L3,如此下去,直到不能找到頻繁k—項集。找每個Lk需要掃描一次數(shù)據(jù)庫。

        Apriori性質(zhì):一個頻繁項集的任一子集也應該是頻繁項集。

        雖然Apriori算法仍存在著一定的缺陷,但是研究者們已經(jīng)分析和研究出了一些相關的優(yōu)化Apriori算法的方式:

        1)基于劃分的方法。該算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨考慮一個分塊并對它生成所有的頻繁項集,然后把產(chǎn)生的頻繁項集合并,用來生成所有可能的頻繁項集,最后計算這些項集的支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻繁項集至少在某一個分塊中是頻繁項集保證的。

        2)基于Hash的方法。Park等人提出了一個高效地產(chǎn)生頻繁項集的基于雜湊(Hash)的算法。通過實驗可以發(fā)現(xiàn),尋找頻繁項集的主要計算是在生成頻繁2—項集Lk上,Park等就是利用這個性質(zhì)引入雜湊技術來改進產(chǎn)生頻繁2—項集的方法。

        3)基于采樣的方法?;谇耙槐閽呙璧玫降男畔ⅲ瑢λ敿毜刈鼋M合分析,可以得到一個改進的算法,其基本思想是:先使用從數(shù)據(jù)庫中抽取出來的采樣得到一些在整個數(shù)據(jù)庫中可能成立的規(guī)則,然后對數(shù)據(jù)庫的剩余部分驗證這個結果。這個算法相當簡單并顯著地減少了FO代價,但是一個很大的缺點就是產(chǎn)生的結果不精確,即存在所謂的數(shù)據(jù)扭曲(Dataskew)。分布在同一頁面上的數(shù)據(jù)時常是高度相關的,不能表示整個數(shù)據(jù)庫中模式的分布,由此而導致的是采樣5%的交易數(shù)據(jù)所花費的代價同掃描一遍數(shù)據(jù)庫相近。

        4)減少交易個數(shù)。減少用于未來掃描事務集的大小,基本原理就是當一個事務不包含長度為志的大項集時,則必然不包含長度為走k+1的大項集。從而可以將這些事務刪除,在下一遍掃描中就可以減少要進行掃描的事務集的個數(shù)。這就是AprioriTid的基本思想。

        第二是,F(xiàn)P-growth算法。

        雖然算法已經(jīng)在不斷的研究和分析中提出了相關的優(yōu)化方法,但是其效率仍不能使人十分滿意。因此,2000年,Han Jiawei等人提出了基于頻繁模式樹(Frequent Pattern Tree,簡稱為FP-tree)的發(fā)現(xiàn)頻繁模式的算法FP-growth。在FP-growth算法中,通過兩次掃描事務數(shù)據(jù)庫,把每個事務所包含的頻繁項目按其支持度降序壓縮存儲到FP—tree中。在以后發(fā)現(xiàn)頻繁模式的過程中,不需要再掃描事務數(shù)據(jù)庫,而僅在FP-Tree中進行查找即可,并通過遞歸調(diào)用FP-growth的方法來直接產(chǎn)生頻繁模式,因此在整個發(fā)現(xiàn)過程中也不需產(chǎn)生候選模式。該算法克服了Apriori算法中存在的問題.在執(zhí)行效率上也明顯好于Apriori算法。

        2.關聯(lián)模式下的股票分析

        有些數(shù)據(jù)并不能像售貨數(shù)據(jù)一個比較容易的看出一個事物是多種事物的集合,但是經(jīng)過一定的預處理后,仍然可以像售貨數(shù)據(jù)一樣進行關聯(lián)規(guī)則的分析。比例股票交易行情。

        2.1股票數(shù)據(jù)的分析

        在股票價交易的事物處理中,每天有以交易為主的大量書庫匯入數(shù)據(jù)庫,由于上市公司之間存在著一定的合作和競爭關系,因此某些股票的價格在一定時間內(nèi)會出現(xiàn)一些相似或者相反的趨勢。分析這些數(shù)據(jù)和股票之前的關聯(lián)能夠有利于投資者了解和分析股票的一定時期內(nèi)的走勢以及股票走勢與股票之前的關系,從而進一步分析上市公司的各種政策和方案,從而做出最為正確的投資。

        在具體的股票數(shù)據(jù)分析中可以通過記錄股票發(fā)展過程中的多個即時行情,其中包括時間、開盤價、收盤價、最高價、最低價以及漲幅、成交了等一些相關內(nèi)容來進行股票數(shù)據(jù)的分析。通過進一步分析股票代碼、交易時間以及漲跌幅等信息可以得出類似的關聯(lián)規(guī)則,例如:在一定時間內(nèi),當A股票的價格上漲時,B股票的價格也會隨之上漲。

        2.2挖掘關聯(lián)規(guī)則。

        如果項集的出現(xiàn)頻率大于或則等于最小支持度與事務總數(shù)的乘積,則該項集滿足最小支持度,稱它為頻繁項集。

        在挖掘關聯(lián)規(guī)則的過程中主要包括兩個步驟:

        第一,通過頻繁項集的定義找出所有的頻繁項集。

        第二,利用頻繁項集生成所需要的關聯(lián)規(guī)則。

        簡單的統(tǒng)計所有含一個元素的項目集出現(xiàn)的頻率,并從中找到不小于最小支持度的項目集是分析和挖掘關聯(lián)規(guī)則過程中最為核心的問題。由于股票代碼屬于布爾型變量。即股票代碼相當于售貨數(shù)據(jù)庫中的某個商品,這樣我們就可以直接運用Apriori算法來進行分析和挖掘。

        此外,在分析和挖掘股票行情的過程中,可以在首次挖掘的基礎上進行二次挖掘,從容進一步分析和研究各股票之間的趨勢和變化的周期性以及多維相似性,從而得到更多有用的結果。

        3.結語

        本文簡單的介紹了關聯(lián)分析的定義以及關聯(lián)分析的具體方法,通過關聯(lián)分析的規(guī)則分析了其在挖掘股票市場有效信息的應用。通過股票行情的變化分析得到相應的大家比較感興趣的規(guī)則,從而幫助大家能夠更好、更加理智的進行投資和選擇。但是在具體的分析過程中由于沒有充分的考慮到成交量的因素,因此在挖掘和分析的過程中存在著一定的局限性。股票的價格往往是政治、價格以及社會等因素的綜合反映,因此在分析和挖掘股票關聯(lián)規(guī)則的同時最好結合證券市場的基本信息進行分析和研究,從而提高其有效性。

        參考文獻:

        [1]數(shù)據(jù)挖掘中關聯(lián)規(guī)則的改進算法及其實現(xiàn)[J]. 楊健兵.微計算機信息. 2006(21)

        [2]關聯(lián)規(guī)則挖掘Apriori算法的改進與實現(xiàn)[J]. 陳文慶,許棠.微機發(fā)展. 2005(08)

        [3]滬深股市股票價格與交易量關系的實證研究[J]. 童明,余董,景榮.重慶師范大學學報(哲學社會科學版). 2005(04)endprint

        猜你喜歡
        項集股票數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        本周創(chuàng)出今年以來新高的股票
        本周創(chuàng)出今年以來新高的股票
        本周連續(xù)上漲3天以上的股票
        近期連續(xù)漲、跌3天以上的股票
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        關聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        久久国产精品亚洲va麻豆| 国产欧美日韩在线观看一区二区三区| 无码啪啪人妻| 国产69精品麻豆久久| 又湿又紧又大又爽a视频国产| 天躁夜夜躁狼狠躁| 国产精品三级在线专区1| 亚洲一区二区av免费观看| 亚洲精品无码永久中文字幕| 国精无码欧精品亚洲一区| 国产乱人伦真实精品视频| 亚洲国产女同在线观看| 国产av一区二区三区无码野战| 无码国产午夜福利片在线观看| av一区二区三区亚洲| 人妻少妇中文字幕久久hd高清| 十八禁无遮挡99精品国产| 久久久久亚洲av无码专区体验| 国产成人无精品久久久| 精品人妻一区二区三区狼人| 国产卡一卡二卡3卡4乱码| 免费做爰猛烈吃奶摸视频在线观看 | av男人的天堂亚洲综合网| 国产农村妇女精品一二区| 日本成人一区二区三区| 中文字幕一区二区三区精品在线| 欧美成人家庭影院| 51久久国产露脸精品国产| 久久久99精品视频| 久久精品国产免费一区二区三区| 国产一区二区三区乱码| 日本久久久| 日韩亚洲在线一区二区| 日韩国产人妻一区二区三区| 久久久久亚洲精品无码网址| 亚洲国产免费公开在线视频 | 亚洲精品久久久久久久蜜桃| 国产精品一区二区 尿失禁| 抖射在线免费观看视频网站| 97人妻人人揉人人躁九色| 麻豆一区二区99久久久久|