邱麒添
摘要:在數(shù)據(jù)挖掘時(shí)代,關(guān)鍵因子的選取是經(jīng)濟(jì)投資的一個(gè)重要步驟。通過(guò)前進(jìn)法策略進(jìn)行變量選取。在Goodman-Skruskal-τ模型的基礎(chǔ)上,對(duì)高維數(shù)據(jù)進(jìn)行監(jiān)督離散化,由歷史數(shù)據(jù)找出新的量化觀點(diǎn),形成新的投資組合模型。實(shí)證檢驗(yàn)表明,該模型給出的投資策略能獲得較好的收益,具有一定的實(shí)用性。
關(guān)鍵詞:GK-τ模型;前進(jìn)法;監(jiān)督離散化
中圖分類(lèi)號(hào):O17 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)009-000-01
一、引言
受啟發(fā)于黃文學(xué)[1]等對(duì)于變量離散化的研究,本文在GK-τ模型的基礎(chǔ)上,利用前進(jìn)法的監(jiān)督離散化策略找出對(duì)高維變量起較大重要的關(guān)鍵因子,取代投資者直接選取因子的觀點(diǎn),進(jìn)行經(jīng)濟(jì)的投資組合研究。在研究關(guān)聯(lián)性的估計(jì)模型中,選取GK-τ可以更好地度量局部與整體的相關(guān)性。文章的具體結(jié)構(gòu)如下:第二部分首先對(duì)模型進(jìn)行介紹,第三部分結(jié)果分析。
二、模型介紹
高維上的GK-τ模型和前進(jìn)法預(yù)測(cè)。
高維上的GK-τ模型如下:
其中為已離散化的自變量,為要前進(jìn)法離散化的自變量;Epy為無(wú)自變量時(shí)預(yù)測(cè)的準(zhǔn)確率,為有自變量時(shí)預(yù)測(cè)的準(zhǔn)確率,另外EPY是一定的,因此 的預(yù)測(cè)能力等價(jià)于 的準(zhǔn)確率。
在已監(jiān)督離散化的基礎(chǔ)上增加一個(gè)新變量X,對(duì)變量X進(jìn)行窮盡搜索法:
(1)設(shè)定X切分的區(qū)間數(shù)為t ,對(duì)X的取值范圍進(jìn)行等區(qū)間切分100部分;
(2)重復(fù)以下的步驟,直至滿足以下的條件:
1.當(dāng)t > 時(shí),跳出循環(huán),其中 為循環(huán)的第幾個(gè)區(qū)間數(shù);
2.設(shè)為已選好的區(qū)間,選取下個(gè)區(qū)間,如
利用GK-τ模型進(jìn)行前進(jìn)監(jiān)督離散化對(duì)投資模型進(jìn)行預(yù)測(cè),來(lái)代替?zhèn)鹘y(tǒng)中直接選取因子預(yù)測(cè)觀點(diǎn),提高預(yù)測(cè)能力,更好做到投資。
三、實(shí)驗(yàn)預(yù)測(cè)結(jié)果
實(shí)證結(jié)果與分析。
本文部分?jǐn)?shù)據(jù)來(lái)源于某銀行的貸款收入數(shù)據(jù)庫(kù),從中選取繳費(fèi)時(shí)間觀(準(zhǔn)時(shí)與不準(zhǔn)時(shí))作為因變量,而資產(chǎn),收入,債務(wù),經(jīng)濟(jì)需求,年齡作為連續(xù)自變量;舉例,繳費(fèi)時(shí)間觀為二維變量為0 或 1,(0表示無(wú)法準(zhǔn)時(shí)繳費(fèi),1為準(zhǔn)時(shí)繳費(fèi)),年齡為連續(xù)變量,可分為少年,中年,老年。根據(jù)五個(gè)自變量對(duì)因變量時(shí)間觀念繳費(fèi)準(zhǔn)時(shí)與否進(jìn)行預(yù)測(cè),利用前進(jìn)法提高預(yù)測(cè)能力,選取關(guān)鍵因子變量
1.對(duì)五個(gè)自變量切分三個(gè)區(qū)間進(jìn)行獨(dú)立離散化,其結(jié)果如下:
2.通過(guò)數(shù)據(jù)可發(fā)現(xiàn)對(duì)時(shí)間觀念預(yù)測(cè)最好的變量為資產(chǎn),第二個(gè)最好變量為債務(wù),那么選取這兩邊預(yù)測(cè)時(shí)間觀念的結(jié)果為0.8340.
3.在資產(chǎn)變量X1的基礎(chǔ)上進(jìn)行前進(jìn)法的離散化,可得:
結(jié)果顯示第二變量選取為經(jīng)濟(jì)需求,且預(yù)測(cè)的結(jié)果為0.83812,比直接選取最好的變量結(jié)果更好,更好做到預(yù)測(cè)能力。
GK-τ模型是一個(gè)從局部到整體結(jié)合權(quán)重因子的優(yōu)勢(shì)比預(yù)測(cè),并利用前進(jìn)的離散化更好地切分區(qū)間,取得更好的預(yù)測(cè)能力,克服了傳統(tǒng)投資模型在應(yīng)用實(shí)踐中直接選用關(guān)鍵因子的一些缺陷,利用銀行貸款數(shù)據(jù)所給出的信息進(jìn)行實(shí)證分析,結(jié)果表明了該模型具有一定的應(yīng)用范圍和潛力,對(duì)于普通投資者的經(jīng)濟(jì)投資亦有相當(dāng)?shù)闹笇?dǎo)意義,同時(shí)也為投資市場(chǎng)的運(yùn)用提供了一種新思路。
參考文獻(xiàn):
[1]Olson,D.,Shi,Y.,2007.Introduction to business data mining.McGraw-hill/Irwin.
[2]L.Goodman,W.Kruskal.,Measure of association for cross classifications,journal of the Amearican .Statistical Association 49(268)(1954)732-764.