亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分型轉(zhuǎn)折點(diǎn)的證券時(shí)間序列分段表示法

        2016-11-22 21:13:23彭佳星肖基毅
        2016年31期

        彭佳星 肖基毅

        摘 要:證券時(shí)間序列是證券交易價(jià)格的一組觀測(cè)數(shù)據(jù),是一種有其自身顯著的特點(diǎn)的時(shí)間序列,針對(duì)這些特點(diǎn)我們提出一種基于分形理論與K線圖形特點(diǎn)的分段方法,經(jīng)過(guò)理論分析與實(shí)踐證明其劃分的證券時(shí)間序列分段有其合理性。在對(duì)時(shí)間序列數(shù)據(jù)壓縮率很高的情況下,還能保持較好的擬合誤差,并能較好地描述證券時(shí)間序列的走勢(shì)特征。

        關(guān)鍵詞:分型;轉(zhuǎn)折點(diǎn);證券時(shí)間序列

        一、引言

        證券時(shí)間序列是按證券交易時(shí)間先后排列的一系列證券交易價(jià)格觀測(cè)數(shù)據(jù),其觀測(cè)值按固定的時(shí)間間隔采樣。證券時(shí)間序列屬于金融時(shí)間序列的一種,因?yàn)樽C券交易金額大交易頻率高而受研究者大量關(guān)注。

        面對(duì)海量、高維的證券數(shù)據(jù),直接在原始數(shù)據(jù)上處理難度很大,因此,需要研究合適的數(shù)據(jù)表示形式,以規(guī)約簡(jiǎn)化數(shù)據(jù)。目前常見(jiàn)的時(shí)間序列特征表示形式有域變化表示法、符號(hào)表示法、奇異值分解法、分段聚合近似表示方法(piecewise aggregate approximation,PAA)和分段直線表示法(Piecewise Linear Representation,PLR)等[1]。由于域變換表示法大多基于點(diǎn)距離,無(wú)法刻畫(huà)時(shí)間序列的重要特征—?jiǎng)討B(tài)屬性;符號(hào)表示法更適應(yīng)在文本數(shù)據(jù)挖掘和生物信息等領(lǐng)域中得到較多應(yīng)用;奇異值分解法時(shí)間復(fù)雜度高,且從數(shù)據(jù)集中任意增加或刪除一條記錄,都要重新運(yùn)算,不適合證券時(shí)間序列數(shù)據(jù)的動(dòng)態(tài)增加;分段聚合近似表示方法根據(jù)是通過(guò)對(duì)時(shí)間序列進(jìn)行平均分割并利用分段序列的均值來(lái)表示原時(shí)間序列的方法,極大值、極小值、形態(tài)特征等數(shù)據(jù)容易丟失,不利于體現(xiàn)證券時(shí)間序列的趨勢(shì)特征[2-3]。而分段直線表示法具有形式直觀、數(shù)據(jù)壓縮度高、支持動(dòng)態(tài)增量更新和距離度量靈活等特點(diǎn),更適合于證券數(shù)據(jù)表示。

        PLR算法有不少應(yīng)用于證券時(shí)間序列的實(shí)驗(yàn),一類(lèi)如詹艷艷等基于斜率的分段法,根據(jù)斜率的變化把證券時(shí)間序列分成多個(gè)序列[4]。這類(lèi)方法用于證券時(shí)間序列分段有一個(gè)顯著的缺點(diǎn),同一趨勢(shì)段會(huì)因?yàn)闈q跌幅度變化較大的而分為多個(gè)段,不利于趨勢(shì)的理解。另一類(lèi)是以Pratt為代表的重要點(diǎn)分段法,根據(jù)序列中反趨勢(shì)的幅度,用序列分段中的上漲趨勢(shì)中的最大值或下跌趨勢(shì)的最小值,與反趨勢(shì)中某個(gè)值的比率小于某個(gè)臨界值R來(lái)判斷是否構(gòu)成反趨勢(shì)段,從而達(dá)到分段的目的[5];以及田野等的改進(jìn)的重要點(diǎn)分段法,這類(lèi)方法比基于斜率的分段法能更好的描述證券時(shí)間序列的走勢(shì)特征[6]。不足之處是證券時(shí)間序列趨勢(shì)調(diào)整有急速大幅的調(diào)整,也有幅度不大卻時(shí)間比較長(zhǎng)的調(diào)整,這就是通常所說(shuō)的“時(shí)間換空間”或者“空間換時(shí)間”的調(diào)整,這可能會(huì)導(dǎo)致同一走勢(shì)中的不同調(diào)整段不能都被很好分段。當(dāng)兩個(gè)股票時(shí)間序列漲跌節(jié)奏相同而幅度不同時(shí),會(huì)因?yàn)榉侄尾幌嗤焕谙嗨贫榷攘俊?/p>

        本文提出的基于分型轉(zhuǎn)折點(diǎn)的分段方法,對(duì)于“空間換時(shí)間”的大幅調(diào)整和“時(shí)間換空間”的窄幅調(diào)整,都能較好的描述股票的基本趨勢(shì)及不同調(diào)整段。同時(shí),本文的分段方法能支持使用同一時(shí)間點(diǎn)的最高價(jià)與最低價(jià)作為數(shù)據(jù)源,在趨勢(shì)段的最高點(diǎn)最低點(diǎn)能更好的保留原始數(shù)據(jù),比大多數(shù)分段算法只使用收盤(pán)價(jià)作為數(shù)據(jù)源更接近真實(shí)值。

        二、問(wèn)題描述及分型轉(zhuǎn)折點(diǎn)的定義

        (一)問(wèn)題的定義

        定義1(證券時(shí)間序列)證券時(shí)間序列是證券交易記錄值和交易時(shí)間組成的有序集合。記為X=。其中xn_top是觀測(cè)時(shí)間間隔內(nèi)最高價(jià),xn_bottom觀測(cè)時(shí)間間隔內(nèi)最低價(jià)。T為觀測(cè)時(shí)刻的時(shí)間戳,是嚴(yán)格增加的(i

        分段方法的目標(biāo)是對(duì)證券時(shí)間序列進(jìn)行降維,減少序列中點(diǎn)的個(gè)數(shù)的同時(shí)保留時(shí)間序列數(shù)據(jù)關(guān)鍵特征,分段直線表示法的重點(diǎn)就在于分段點(diǎn)的選取。

        (二)證券時(shí)間序列的分形特征與分段評(píng)價(jià)標(biāo)準(zhǔn)

        分形(Fractal)的概念是美籍?dāng)?shù)學(xué)家本華·曼德博首先提出的。以海岸線為例,作為曲線,其特征是極不規(guī)則、極不光滑的,呈現(xiàn)極其蜿蜒復(fù)雜的變化。我們不能從形狀和結(jié)構(gòu)上區(qū)分這部分海岸與那部分海岸有什么本質(zhì)的不同。這種幾乎同樣程度的不規(guī)則性和復(fù)雜性,說(shuō)明海岸線在形貌上是自相似的,也就是局部形態(tài)和整體態(tài)的相似。

        證券交易時(shí)間序列數(shù)據(jù)也具有這樣的自相似性,我們從證券交易的日K線圖上看到的圖形概貌,與從月K線圖、日K線、30分鐘K線圖上看到的圖形幾乎有同樣程度的不規(guī)則性和復(fù)雜性。國(guó)內(nèi)一些研究也表明,中國(guó)股票市場(chǎng)也具有分形特征[7]。這個(gè)特征表明證券時(shí)間序列中局部與整體之間有一些相似的結(jié)構(gòu)特性,如果這種結(jié)構(gòu)特征能在特征表示法中體現(xiàn)出來(lái),對(duì)于證券數(shù)據(jù)挖掘是很有利的。

        目前大多數(shù)時(shí)間序列特征表示法,追求擬合誤差e(t)的最小化。然而證券時(shí)間序列特征表示法中,對(duì)趨勢(shì)特征的保留程度,也是衡量特征表示優(yōu)劣的指標(biāo)。本文中把擬合誤差和趨勢(shì)特征的保留程度一起作為參照指標(biāo)。

        根據(jù)證券數(shù)據(jù)分形特征的自相似性,以及證券K線圖形的拓?fù)浣Y(jié)構(gòu),本文提出一種證券數(shù)據(jù)新型分段方法,命名為分型轉(zhuǎn)折點(diǎn)分段法。

        三、分型轉(zhuǎn)折點(diǎn)分段方法

        分段思路:根據(jù)證券時(shí)間序列的拓?fù)浣Y(jié)構(gòu)特點(diǎn),所有的轉(zhuǎn)折點(diǎn)必然存在視覺(jué)上的高低點(diǎn),這些高低點(diǎn)可以構(gòu)成各個(gè)趨勢(shì)段的頂和底。頂和底的出現(xiàn)在圖形上會(huì)有一定的條件限制,找出序列所有頂和底,就可以確定分段點(diǎn)。這樣的分段適合月線、日線、分鐘線等各個(gè)時(shí)間度量單位的證券時(shí)間序列。

        (一)基本定義

        分型轉(zhuǎn)折點(diǎn)分段線性表示法建立在時(shí)間序列圖形分析的基礎(chǔ)之上。

        證券時(shí)間序列描述的是股票等有價(jià)證券的交易價(jià)格觀測(cè)值,記錄股票交易在等長(zhǎng)時(shí)間間隔內(nèi)的價(jià)格數(shù)據(jù),常見(jiàn)時(shí)間間隔大小為:年、季、月、周、日、60分鐘、30分鐘、15分鐘、5分鐘、1分鐘。根據(jù)分形理論,不同時(shí)間間隔的觀測(cè)值拓?fù)鋱D形都有一定的自相似特點(diǎn),通過(guò)觀測(cè)的視覺(jué)經(jīng)驗(yàn)也能看出證券時(shí)間序列的自相似性。

        本文重點(diǎn)關(guān)注某一個(gè)時(shí)間間隔內(nèi)觀測(cè)值的最高價(jià)和最低價(jià),用K(i)top表示時(shí)間序列第i個(gè)觀測(cè)值的最高價(jià),用K(i)botton表示時(shí)間序列第i個(gè)觀測(cè)值的最低價(jià)。觀測(cè)值的圖形表示可以用最高價(jià)到最低價(jià)的垂直連線表示,并命名為K線(也是對(duì)證券理論中K線的一種簡(jiǎn)化)。

        (二)兩個(gè)觀測(cè)值的組合關(guān)系

        1、非包含。一根K線的高點(diǎn)比另一根高(低),低點(diǎn)也比另一根高(低),則說(shuō)這兩根K線是非包含的。

        定義一:如果K(i+1)top>K(i)top and K(i+1)bottom>K(i)bottom,或者K(i+1)top

        2、包含。前一根K線的高低點(diǎn)在后一根K線的高低點(diǎn)范圍之內(nèi),或者后一根K線的高低點(diǎn)在前一根K線的高低點(diǎn)范圍之內(nèi),則說(shuō)這兩根K線存在包含關(guān)系。

        定義二:如果K(i)top>=K(i+1)top and K(i)bottom<=K(i+1)bottom,則說(shuō)K(i)包含K(i+1);如果K(i)top<=K(i+1)top and K(i)bottom>=K(i+1)bottom,則說(shuō)K(i+1)包含K(i)。這兩種情況都構(gòu)成包含關(guān)系。

        (三)證券時(shí)間序列的方向(2個(gè)非包含關(guān)系的觀測(cè)值決定了方向)

        非包含關(guān)系的2根K線后一根的高點(diǎn)比前一根高,低點(diǎn)也比前一根高,稱(chēng)為向上(上漲)。非包含關(guān)系的2根K線后一根的高點(diǎn)比前一根低,低點(diǎn)也比前一根低,稱(chēng)為向下(下跌)。

        定義三:當(dāng)2個(gè)觀測(cè)值為非包含關(guān)系時(shí),如果K(i)top

        定義四:當(dāng)2個(gè)觀測(cè)值為非包含關(guān)系時(shí),如果K(i)top>K(i+1)top and K(i)bottom>K(i+1)bottom,則序列的方向是向下(下跌)的。

        (四)合并存在包含關(guān)系的觀測(cè)值

        1、當(dāng)序列方向是向上時(shí)(存在包含關(guān)系的2根K線之前的K線的方向,可以是經(jīng)過(guò)包含關(guān)系處理的),以2根K線中的高點(diǎn)的較高者為高點(diǎn),以2根K線中低點(diǎn)的較高者為低點(diǎn),合并為1根K線。

        2、當(dāng)K線方向是向下時(shí),以2根K線中的高點(diǎn)的較低者為高點(diǎn),以2根K線中低點(diǎn)的較低者為低點(diǎn),合并為1根K線。

        定理一:對(duì)存在包含關(guān)系K線合并時(shí),如果前面序列是向上的,K(合)top=Max(K(i)top,K(i+1)top),K(合)bottom=Max(K(i)bottom,K(i+1)bottom);如果前面序列式向下的,K(合)top=Min(K(i)top,K(i+1)top),K(合)bottom=Min(K(i)bottom,K(i+1)bottom)。

        (五)3根K線組合關(guān)系(包含關(guān)系已作合并處理)

        時(shí)間序列中存在包含關(guān)系的K線做了合并處理之后,3根K線的組合關(guān)系只可能是以下四種情況:

        頂分型:第二根K線的高點(diǎn)是3根K線高點(diǎn)中最高的,低點(diǎn)是3根K線低點(diǎn)中最高的。

        底分型:第二K線低點(diǎn)是相鄰三K線低點(diǎn)中最低的,而高點(diǎn)也是相鄰三K線高點(diǎn)中最低的。

        頂分型的最高點(diǎn)叫該分型的頂,底分型的最低點(diǎn)叫該分型的底。

        上升K線:三根K線的高點(diǎn)依次升高,低點(diǎn)依次升高。

        下降K線:三根K線的高點(diǎn)依次降低,低點(diǎn)依次降低。

        (六)K線的分型

        所有的時(shí)間序列轉(zhuǎn)折點(diǎn)都必定是頂分型或者底分型(包含關(guān)系已經(jīng)合并),頂、底分型是時(shí)間序列走勢(shì)發(fā)生轉(zhuǎn)折的必要非充分條件。

        頂分型:第二根K線的高點(diǎn)是3根K線高點(diǎn)中最高的,低點(diǎn)是3根K線低點(diǎn)中最高的。

        底分型:第二K線低點(diǎn)是相鄰三K線低點(diǎn)中最低的,而高點(diǎn)也是相鄰三K線高點(diǎn)中最低的。

        頂分型的最高點(diǎn)叫該分型的頂,底分型的最低點(diǎn)叫該分型的底。

        (七)分型轉(zhuǎn)折點(diǎn)分段方法

        轉(zhuǎn)折點(diǎn)一定有頂分型或者底分型,但頂、底分型要構(gòu)成轉(zhuǎn)折點(diǎn)需要在視覺(jué)上形成一定的轉(zhuǎn)折效果,對(duì)數(shù)據(jù)壓縮有幫助,這里引入時(shí)間窗的方法,要求頂、底之間滿足:頂、底之間不少于N根K線(不包括頂、底所在的K線)。N值越小,分段點(diǎn)越多,壓縮率越高;反之,N值越大,分段點(diǎn)越少,壓縮率越低。由于趨勢(shì)的存在,N取值對(duì)分段點(diǎn)的影響并不是很大。

        由分型到分段確認(rèn)的幾種情況:

        先由前兩根K線定方向,向上則第一根為底,向下則第一根為頂。包含則再根據(jù)下一根K線確定方向。

        如果先出頂分型,接下來(lái),如果再出一頂分型則:頂+頂 取其中高者為頂;如果一樣高,則前者為頂。此時(shí)頂仍未確定。等待下一個(gè)分型。

        如果再出一底分型則:頂+底,1、符合分段要求則為1段,先保存下來(lái)。頂已經(jīng)確定,等待底的確定。2、不符合,則前頂仍未確定。等待下一個(gè)分型。

        反之,先出底分型,接下來(lái),如果再出一底分型則:底+底 取其中低者為底;如果一樣高,則前者為底。此時(shí)底仍未確定。等待下一個(gè)分型。

        如果再出一頂分型則:底+頂,1、符合分段定義則為1段,先保存下來(lái)。底已經(jīng)確定,等待頂?shù)拇_定。2、不符合,此時(shí)底仍未確定。等待下一個(gè)分型。

        3、第一個(gè)K線如果不在第一個(gè)分型中,則該K線與第一個(gè)分型構(gòu)成一個(gè)分段;最后一個(gè)分型與最后一個(gè)K線構(gòu)成未定分段。

        (八)算法優(yōu)點(diǎn)比較分析

        1、其他分段算法處理證券數(shù)據(jù)時(shí),每一個(gè)時(shí)間點(diǎn)T只能處理一個(gè)數(shù)據(jù),算法往往從開(kāi)盤(pán)價(jià)、收盤(pán)價(jià)、最高價(jià)、最低價(jià)中選擇一個(gè)來(lái)代替時(shí)間點(diǎn)T內(nèi)的所有價(jià)格,大多數(shù)算法選用收盤(pán)價(jià)。當(dāng)一些時(shí)間點(diǎn)處在證券時(shí)間序列的極值處時(shí),計(jì)算整個(gè)時(shí)間序列內(nèi)的漲跌幅度就會(huì)存在誤差。本算法能同時(shí)處理兩個(gè)價(jià)格,我們選用最高價(jià)和最低價(jià),能更真實(shí)的描述時(shí)間序列漲跌的幅度與趨勢(shì)轉(zhuǎn)折點(diǎn)位置。

        2、本分段算法對(duì)構(gòu)建證券時(shí)間序列的形態(tài)趨勢(shì)非常有效,在高壓縮率的基礎(chǔ)上還能很好的保留序列基本趨勢(shì)特點(diǎn),不會(huì)出現(xiàn)把一個(gè)趨勢(shì)段劃分成兩個(gè)同方向的趨勢(shì)段相連的情況。

        3、支持?jǐn)?shù)據(jù)的動(dòng)態(tài)更新,新增加數(shù)據(jù)不影響對(duì)本分段算法效率。

        四、實(shí)驗(yàn)結(jié)果及分析

        (一)實(shí)驗(yàn)數(shù)據(jù)

        本文中的實(shí)驗(yàn)數(shù)據(jù)來(lái)自同花順?lè)秸C券泉友通交易軟件。

        數(shù)據(jù)源:選取上證指數(shù)420個(gè)(2014.10.20-2016.7.5)交易日觀測(cè)值,包括最高價(jià)和最低價(jià),形式為K=。另一組取上證指數(shù)420個(gè)交易日收盤(pán)價(jià),形式為:K=<(k1,t1),(k2,t2)……kn,tn)>。

        (二)實(shí)驗(yàn)方法

        本文通過(guò)使用基于K線分型轉(zhuǎn)折點(diǎn)算法分段,輸入為同花順交易軟件導(dǎo)出的股票日K線數(shù)據(jù),輸出為各個(gè)分段點(diǎn)價(jià)格和時(shí)間。

        基于K線分型轉(zhuǎn)折點(diǎn)算法流程如下:

        (三)實(shí)驗(yàn)結(jié)果

        本文的實(shí)驗(yàn)環(huán)境為AMD 1.5GHZ聯(lián)想個(gè)人電腦,內(nèi)存2G,操作系統(tǒng)為Windows7。實(shí)驗(yàn)數(shù)據(jù)為上證指數(shù)420天的時(shí)間序列數(shù)據(jù)。首先對(duì)其進(jìn)行標(biāo)準(zhǔn)化,把數(shù)據(jù)范圍限制到[0,1]之間,以便于比較擬合誤差。方法是首先找出序列中的最大值max,最小值min,然后用xi-minmax-min來(lái)進(jìn)行計(jì)算。擬合誤差采用∑(xi-xi)2進(jìn)行計(jì)算(其中xi為實(shí)際值,xi為估計(jì)值)。

        實(shí)驗(yàn)股票時(shí)間序列420個(gè),分型轉(zhuǎn)折點(diǎn)分段算法參數(shù)N取值5時(shí)(即頂?shù)字g不少于5根K線),數(shù)據(jù)壓縮率為94%,擬合誤差為0.629??梢灾庇^地看出,壓縮后的序列很好地保留了序列總體的走勢(shì),如圖2

        五、結(jié)論

        本文針對(duì)證券時(shí)間序列分段方法提出了一種新的思路,這種分段方法基于證券時(shí)間序列本身的特征構(gòu)造分型,根據(jù)分型特征構(gòu)造分段。實(shí)驗(yàn)表明,該分段方法壓縮比率很高時(shí),還能很好的保留原是序列的走勢(shì)結(jié)構(gòu),是一種很好的分段方法。(作者單位:1.南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;2.衡陽(yáng)師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;3.智能信息處理與應(yīng)用湖南省重點(diǎn)實(shí)驗(yàn)室)

        參考文獻(xiàn):

        [1] 李海林,郭崇慧.時(shí)間序列數(shù)據(jù)挖掘中特征表示與相似性度量研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2013年5月,1285-1291.

        [2] Keogh,E,Chakrabarti,K,Pazzani,M,Mehrotra,S.Dimensionality reduction for fast similarity search inlarge time series databases.Knowledge and informationSystems[J],2001,3(3),263-286

        [3] Keogh,E.A fast and robust method for pattern matching in time series databases,Proceedings of 9th International Conference on Tools with Artificial Intelligence[C],1997,578-584.

        [4] 詹艷艷,徐榮聰,陳曉云.基于斜率提取邊緣點(diǎn)的時(shí)間序列分段線性表示方法[J].計(jì)算機(jī)科學(xué),2006,139-142.

        [5] Pratt,K.B,F(xiàn)ink,E.Search for patterns in compressed time series.International Journal of Image and Graphics[J],2002,2(1),89-106.

        [6] 田野.改進(jìn)的基于重要點(diǎn)的時(shí)間序列數(shù)據(jù)分段方法.微型電腦應(yīng)用[J],2012,48-51.

        [7] 張兵,徐偉.中國(guó)股票市場(chǎng)分形特征的實(shí)證研究[J].經(jīng)濟(jì)管理,2002,63-69.

        久久久久久国产福利网站| 99久久人妻精品免费二区| 国99精品无码一区二区三区| 久久综合香蕉国产蜜臀av| 色欲人妻综合网| 亚洲欧美日韩中文字幕网址| 无码流畅无码福利午夜| 亚洲一区二区三区在线最新| 中文字幕精品一区久久| 亚洲精品久久久久久久久久吃药| 99久久久无码国产精品试看| 男人无码视频在线观看| 蜜桃av噜噜一区二区三区香| 日本精品久久不卡一区二区| 亚洲乱亚洲乱妇50p| 在线视频一区色| 按摩师玩弄少妇到高潮hd| 亚洲成人av一区免费看| 精品视频一区二区三区在线观看| 四房播播在线电影| 美国黄色片一区二区三区 | 亚洲国产精品成人精品无码区在线| 欧美最猛黑人xxxx黑人表情 | 亚洲第一区二区精品三区在线| 国产美女主播视频一二三区| 亚洲国产成人精品无码区在线秒播 | 91露脸半推半就老熟妇| 六月婷婷久香在线视频| 国产自产c区| 亚洲av永久一区二区三区| 国产一区二区视频在线免费观看| 性大毛片视频| 中文字幕无码日韩欧毛| 暴露的熟女好爽好爽好爽| 无码av中文一区二区三区桃花岛| 天天躁日日躁狠狠躁人妻| 一本色道久久综合狠狠躁中文| 亚洲视频在线免费不卡| 亚洲av无码一区二区三区观看| 99精品欧美一区二区三区美图| 国产人妖在线观看一区二区三区 |