亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        探究數(shù)據(jù)挖掘技術在量化選股中的應用

        2014-09-25 02:45:18劉裕良
        卷宗 2014年8期
        關鍵詞:數(shù)據(jù)挖掘

        劉裕良

        摘 要:量化投資是當前金融投資領域非常熱門方向之一,而數(shù)據(jù)挖掘技術在金融領域也有廣泛應用。本文主要概述了數(shù)據(jù)挖掘的基本概念、主要步驟、常用模型和方法,和量化投資中的關于選股的量化選股模型,探討和研究數(shù)據(jù)挖掘技術中的分類模型、聚類模型、關聯(lián)規(guī)則和序列模式等模型,在基本面量化選股和技術面量化選股方面的一些應用,如多因子選股、板塊輪動選股和籌碼選股。

        關鍵詞:數(shù)據(jù)挖掘;量化投資;量化選股

        1 數(shù)據(jù)挖掘技術

        1.1 數(shù)據(jù)挖掘概述

        數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但是又潛在有用的信息和知識的過程。[1]數(shù)據(jù)挖掘是一門新的交叉學科,一般認為是在統(tǒng)計學、數(shù)據(jù)庫技術、機器學習、信息科學、可視化技術乃至經(jīng)濟學等多門學科充分發(fā)展的基礎上形成的。數(shù)據(jù)挖掘概念提出以后,金融業(yè)首先對其表現(xiàn)出了極大的興趣,并率先將其納入應用。目前數(shù)據(jù)挖掘在國外金融領域,特別是銀行已得到了廣泛應用。

        1.2 數(shù)據(jù)挖掘的主要步驟

        在實際進行數(shù)據(jù)挖掘的過程中,根據(jù)CRISP-DM模型,一般可分為六個階段。

        (1)、業(yè)務理解:從業(yè)務角度來理解數(shù)據(jù)挖掘目標和要求,并把業(yè)務理解的知識轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義和實現(xiàn)挖掘目標的最初規(guī)劃。

        (2)、數(shù)據(jù)理解:從數(shù)據(jù)收集開始,通過一系列的數(shù)據(jù)探索和熟悉,識別數(shù)據(jù)質(zhì)量問題,發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性。

        (3)、數(shù)據(jù)預處理:是將各種不同來源的數(shù)據(jù)加以清洗、轉(zhuǎn)換和歸并,以適合數(shù)據(jù)挖掘技術的使用。一般包括數(shù)據(jù)類型轉(zhuǎn)換、計算缺省數(shù)據(jù)、消除噪聲、消除重復數(shù)據(jù)等。

        (4)、建立模型:此階段對預處理過的數(shù)據(jù)應用各種數(shù)據(jù)挖掘技術,建立分析模型。一般地,相同數(shù)據(jù)挖掘問題類型會有幾種技術手段。某些技術對于數(shù)據(jù)形式有特殊規(guī)定,這時通常需要重新返回到數(shù)據(jù)預處理階段。

        (5)、評估模型:階段主要包括通過評估備選模型,挑選冠軍模型,評價模型的穩(wěn)定性,確保模型正確回答了第一階段的業(yè)務問題。

        (6)、模型發(fā)布:即將發(fā)現(xiàn)的模型投入業(yè)務應用,產(chǎn)生商業(yè)價值,并且應用效果要及時跟蹤和反饋,以便后期的優(yōu)化和更新。

        1.3 數(shù)據(jù)挖掘的常用模型和方法

        數(shù)據(jù)挖掘是通過數(shù)據(jù)來建立一些模仿真實世界的模型,并應用模型來描述數(shù)據(jù)中的規(guī)律、規(guī)則及相互關系。這些模型不僅能夠為我們的投資行為或其他決策提供所需要的信息,而且還能幫助我們做些提前預測。常用模型有分類、聚類、關聯(lián)規(guī)則、序列模式等。

        (1)分類模型 分類的目的是利用已有觀測數(shù)據(jù)建立分類器,來預測未知對象屬于哪個預定義的目標類。其任務是對數(shù)據(jù)集進行學習并構(gòu)造一個擁有預測功能的分類模型,用于預測未知樣本的類標號,把類標號未知的樣本映射到某個預先給定的類標號中。[1]分類技術是數(shù)據(jù)挖掘技術中應用最廣泛的技術,分類模型學習方法主要有:基于決策樹的分類方法、貝葉斯分類方法、k-最鄰近分類(KNN)、神經(jīng)網(wǎng)絡方法(如SVM支持向量機)等。

        (2)聚類模型 與分類不同,聚類是一種無指導的學習,沒有預定義的類編號。聚類是一個把數(shù)據(jù)對象集劃分成多個組或簇的過程,使得簇內(nèi)的對象具有很高相似性,但與其他簇中的對象很不相似,即所謂"物以類聚"。相異性和相似性根據(jù)對象的屬性值評估,并且通常用距離度量。[2]主要聚類方法有:劃分方法(k-means算法)、層次的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。

        (3)關聯(lián)規(guī)則 關聯(lián)分析是尋找數(shù)據(jù)項之間感興趣的關聯(lián)關系,用關聯(lián)規(guī)則的形式描述。關聯(lián)分析生成的規(guī)則帶有置信度和支持度,置信度級別度量了關聯(lián)規(guī)則的強度,支持度度量了關聯(lián)規(guī)則的重要性。關聯(lián)規(guī)則的挖掘過程分兩步,第一步先找出所有頻繁項集,第二步由頻繁項集產(chǎn)生強關聯(lián)規(guī)則。[1]常用算法有Apriori算法和FP-growth算法。

        (4)序列模式 序列模式與關系規(guī)則聯(lián)系密切,所不同的是序列模式中相關的項目或序列之間在時間維度上存在聯(lián)系。序列模式挖掘就是找出所有的頻繁子序列,發(fā)現(xiàn)頻繁序列算法大體有:類Apriori方法、GSP算法、基于投影方法、SPADE方法。[1]

        2 量化投資和量化選股

        2.1 量化投資及其優(yōu)勢

        量化投資就是利用計算機技術并且采用一定的數(shù)學模型去踐行投資理念,實現(xiàn)投資策略的過程。量化投資主要是依靠數(shù)據(jù)和模型來尋找投資標的和投資策略。[3]量化投資過程就是利用數(shù)學、統(tǒng)計學、信息技術的量化投資方法來管理投資標的和投資組合的過程。數(shù)量化投資的組合構(gòu)建注重的是對宏觀數(shù)據(jù)、市場行為、企業(yè)財務數(shù)據(jù)、交易數(shù)據(jù)進行分析,利用數(shù)據(jù)挖掘技術、統(tǒng)計技術、計算方法等處理數(shù)據(jù),以得到最優(yōu)的投資組合和投資機會。量化投資主要內(nèi)容包括:量化選股、量化擇時、股指期貨套利、商品期貨套利、統(tǒng)計套利、期權套利、算法交易、高頻交易等。相比較傳統(tǒng)的定性投資,量化投資的主要優(yōu)勢在于紀律性、系統(tǒng)性、及時性、準確性和分散性。紀律性可以克服人性的貪婪和恐懼等弱點,容易嚴格做到止損止盈。系統(tǒng)性包括多層次的量化模型、多角度觀察和海量數(shù)據(jù)的處理。及時性體現(xiàn)在能及時快速跟蹤市場變化,不斷發(fā)現(xiàn)新的投資機會和新的策略模型。準確性指能準確客觀的評價交易機會。分散性指的量化投資能在控制風險的條件下,實現(xiàn)分散投資的目標。

        2.2 量化選股

        量化選股就是利用數(shù)量化的方法選擇股票組合,期望該股票組合能夠獲得超越基準收益率的投資行為。[3]即根據(jù)某種方法判斷一只股票是否滿足某些條件,如果滿足則放入股票池,不滿足則從股票池中剔除。傳統(tǒng)股票分析技術主要分為基本面分析和技術面分析,相應的量化選股也可分為基本面量化選股和技術面量化選股兩大類。股票基本面因素包括宏觀經(jīng)濟指標、行業(yè)背景、企業(yè)財務指標、公司經(jīng)營能力、公司估值等,常用基本面選股模型有多因子模型、風格輪動模型和行業(yè)輪動模型。其中多因子選股的基本原理是采用一系列的因子作為選股標準,滿足這些因子的股票則被買入,不滿足的則賣出。多因子模型相對來說比較穩(wěn)定,因為在不同市場條件下,總有一些因子會發(fā)揮作用。風格輪動模型是利用股票市場的大盤股和小盤股之間的二八行情特征變換進行選股,當市場偏重那二成大比重的權重股市,選擇大盤股,當市場出現(xiàn)八成小盤股上漲時,選擇小盤股,在風格轉(zhuǎn)換初期及時介入,則可以獲得較高收益。行業(yè)輪動選股模型是指在經(jīng)濟周期不同階段選擇表現(xiàn)好的行業(yè),選擇相應板塊的股票。技術面量化選股主要是根據(jù)股票價格K線組合、形態(tài)、趨勢以及成交量等因素,有趨勢跟蹤、籌碼選股、資金流選股、動量反轉(zhuǎn)選股等模型。

        3 數(shù)據(jù)挖掘技術在量化選股中的應用

        3.1 在基本面量化選股方面的應用

        (1)分類模型在多因子選股模型的應用。例如對A股的部分上市公司,首先選擇一些重要公司屬性,如行業(yè)地位、產(chǎn)品競爭力、盈利能力、負債情況等作為候選因子,對其公司等級進行評估,根據(jù)候選因子綜合值的不同,將股票分為不同類型,如藍籌股、成長型、垃圾股、題材型等,這過程在建立一個分類模型,同時也對一些候選因子進行檢驗,剔除一些對模型無效的因子。分類模型建立后,再用A股其他上市公司的數(shù)據(jù),去訓練已經(jīng)得到的分類模型。分類模型驗證有效后,投資者就可直接根據(jù)一些公司屬性,選擇對應股票進行投資。如基于貝葉斯分類的選股方法[4],決策樹算法股票分析和預測中的應用[5]。

        (2)聚類模型在多因子選股模型的應用,例如基于SOM自組織映射網(wǎng)絡的股票聚類分析[3],選取A股一定數(shù)量股票的基本面指標,如每股收益、每股凈資產(chǎn)、每股經(jīng)營性現(xiàn)金流、凈資產(chǎn)收益率、凈利潤等作為主要研究對象。應用SOM模型進行模擬聚類實驗,通過聚類的方法分析股票,得到聚類結(jié)果。分析聚類結(jié)果,發(fā)現(xiàn)公司獲利能力和成長性好的股票,每股收益、每股凈資產(chǎn)、凈資產(chǎn)收益率這個3個指標的值都比較高。這樣投資者就可根據(jù)這3指標選擇成長性好的股票。

        (3)關聯(lián)規(guī)則在板塊輪動選股模型的應用,首先收集股票歷史數(shù)據(jù),對數(shù)據(jù)進行預處理,把每天板塊指數(shù)的漲跌情況轉(zhuǎn)化為二項數(shù)值,1代表上漲,0代表下跌。再根據(jù)板塊指數(shù)漲跌情況,采用二值型關聯(lián)規(guī)則算法進行挖掘,采用Apriori算法實施關聯(lián)分析。設定支持度和置信度的閾值后,可以從模型中找到許多有意義的強關聯(lián)規(guī)則。通過這些強關聯(lián)規(guī)則,可以知道相關板塊間的聯(lián)動強弱。這樣就能了解投資者在股市投資的輪動行為。[3]如果分析得出石化板塊和煤炭板塊有強關聯(lián)規(guī)則,那么當石化板塊出現(xiàn)上漲時,煤炭板塊可能也會上漲,因為這兩個板塊同屬于能源行業(yè)。這樣在投資活動中,如果發(fā)現(xiàn)石化板塊開始上漲,就可以根據(jù)關聯(lián)模型,買入煤炭板塊的股票,等待該板塊的股票后續(xù)補漲。投資者就可以通過應用關聯(lián)規(guī)則,預測不同板塊的輪動變化,實現(xiàn)高額的投資回報。

        3.2 在技術面量化選股方面的應用

        序列模式在籌碼選股模型的應用,主要是通過分析與時間相關的股票數(shù)據(jù),發(fā)現(xiàn)某一時間段內(nèi)某只股票籌碼變化的模型。例如通過收集某只股票數(shù)據(jù),分析發(fā)現(xiàn)其籌碼在某一段時間內(nèi)持續(xù)集中的趨勢,即股東戶數(shù)不斷減少,股票籌碼向一些主力集中的趨勢,則在未來一段時間,該股可能出現(xiàn)上漲,或者有跑贏大盤的可能,那么就可以把這些股票加入股票池中,隨時跟蹤和監(jiān)控,及時進行相應的買入操作,以期在未來一段時間內(nèi)的股價上漲,獲得較高投資收益。

        4 結(jié)語

        隨著量化投資在中國的蓬勃發(fā)展,量化投資在整個金融投資市場的比重將不斷變大,聽著量化投資大師詹姆斯.西蒙斯的傳奇故事,也將會涌現(xiàn)更多量化投資方面人才。關于數(shù)據(jù)挖掘技術在量化投資中應用和實戰(zhàn)將會更多,相信數(shù)據(jù)挖掘模型和算法在量化選股方面也會有更多應用。

        參考文獻

        [1]蔣盛益.李霞.鄭琪.數(shù)據(jù)挖掘原理與實踐[M].北京.電子工業(yè)出版社.2011.8.

        [2]著Jiawei Han Micheline Kamber Jian Pei譯范明,孟小峰.數(shù)據(jù)挖掘概念與技術(原書第3版).北京.機械工業(yè)出版社 .2012.7

        [3]丁鵬.量化投資—策略與技術(修訂版)[M]. 北京.電子工業(yè)出版社.2012.4.

        [4]左輝,樓新遠.基于貝葉斯分類的選股方法[J].電腦知識與技術(學術交流).2008年10期

        [5]魏雄.決策樹算法在股票分析與預測中的應用[J].電腦知識與技術(學術交流).2007年09期.

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡流量異常識別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        數(shù)據(jù)挖掘技術在打擊倒賣OBU逃費中的應用淺析
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        數(shù)據(jù)挖掘在高校圖書館中的應用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
        蜜桃av人妻精品一区二区三区| 五月婷婷激情六月| 天堂av在线免费播放| 日韩女同在线免费观看| 无码国产精品久久一区免费| 内射中出无码护士在线| 国产成人cao在线| 午夜一区二区三区福利视频| 人人妻人人澡人人爽人人精品av| 日本公妇在线观看中文版| 亚洲AV激情一区二区二三区| 手机在线看片在线日韩av| 国产一区国产二区亚洲精品| 午夜福利理论片高清在线观看| 精品国产网红福利在线观看| 精品国产一品二品三品| 中国人在线观看免费的视频播放| 凹凸在线无码免费视频| 91在线在线啪永久地址| 一区二区三区精彩视频在线观看| 一区二区三区国产精品乱码| 奇米影视777撸吧| 91精品国产色综合久久不卡蜜| 久久精品亚洲成在人线av| 无码一区二区三区| 国产精品麻豆欧美日韩ww| 91中文人妻丝袜乱一区三区| 国产亚洲中文字幕一区| 娜娜麻豆国产电影| 久久免费国产精品| 亚洲麻豆av一区二区| 国产欧美精品aaaaaa片| 在教室伦流澡到高潮hgl视频| 大屁股少妇一区二区无码| 亚洲日本一区二区在线| 北条麻妃国产九九九精品视频| 国产久视频国内精品999| 色老板在线免费观看视频日麻批| 色窝窝无码一区二区三区| 激情偷乱人伦小说视频在线| 亚洲中文字幕有码av|