朱碧穎 趙爽
【摘要】投資中自上而下的分析方式是被廣泛認(rèn)可的,資產(chǎn)在行業(yè)間的配置問題,對(duì)整體投資效果的影響舉足輕重。Black_Litterman模型改進(jìn)于傳統(tǒng)的Markowitz模型,自提出后逐漸為人們所接受,并得到推廣。本文結(jié)合計(jì)算機(jī)技術(shù),提出一種基于文本挖掘算法,使用網(wǎng)絡(luò)爬蟲抓取互聯(lián)網(wǎng)中行業(yè)熱點(diǎn)情緒,形成Black_Litterman模型的投資者觀點(diǎn)矩陣、以及觀點(diǎn)置信度,進(jìn)而確定行業(yè)資產(chǎn)配置權(quán)重的PSM_Black_Litterman(public sentiment mining Black_Litterman)模型。進(jìn)行實(shí)證分析,以申萬行業(yè)作為行業(yè)分類標(biāo)準(zhǔn),進(jìn)行資產(chǎn)行業(yè)間配置,與流通市值行業(yè)配置、傳統(tǒng)Markowitz模型資產(chǎn)配置進(jìn)行比較。實(shí)證結(jié)果表明,本文所提模型可有效提高資產(chǎn)配置的平均收益率與幾何收益率,并減小方差。
【關(guān)鍵詞】資產(chǎn)配置 Black_Litterman模型 文本挖掘 市場情緒 網(wǎng)絡(luò)爬蟲
在選擇金融產(chǎn)品進(jìn)行投資時(shí),普遍采用自上而下(Top-to- Down)的研究方式。在選股方面,首先確定資產(chǎn)在行業(yè)間的配置比例,再在各行業(yè)中進(jìn)行個(gè)股選擇是常用的方式。本文旨在Markowita模型、Black_Litterman模型的基礎(chǔ)上,提出一種利用文本挖掘方法挖掘輿論熱點(diǎn),得到市場情緒作為觀點(diǎn)矩陣,繼而得到資產(chǎn)在行業(yè)間的配置方案的方法??朔薆lack_Litterman模型存在的對(duì)分析師主觀態(tài)度難于量化表示的缺點(diǎn)。
一、Markowitz與Black_Litterman資產(chǎn)配置模型
(一)Markowitz資產(chǎn)配置模型
Markowitz在1952年發(fā)表論文《PORTFOLIO SELECTION》,在論文中提出了均值-方差模型,這篇論文標(biāo)志著現(xiàn)代投資組合理論的開端。Markowitz理論的思想基礎(chǔ)是:把資產(chǎn)投資收益率看做隨機(jī)變量,研究其期望與方差。Markowitz資產(chǎn)配置模型基于五條假設(shè):證券市場具有有效性;投資者是風(fēng)險(xiǎn)厭惡的;投資者進(jìn)行資產(chǎn)配置選擇的依據(jù)是投資收益率的概率分布,而這個(gè)概率分布是可知的;用期望收益率衡量未來的收益水平,用方差衡量收益的不確定性,即收益的風(fēng)險(xiǎn);市場是無摩擦的。
設(shè)市場存在n種風(fēng)險(xiǎn)資產(chǎn),將第i種風(fēng)險(xiǎn)資產(chǎn)的的收益率記為ri,r=(r1,r2,…,rn)’,期望收益率記為μ=Er,資產(chǎn)間的協(xié)方差矩陣記為Σ,Σ=Var(r),無風(fēng)險(xiǎn)收益率記為rf,n種風(fēng)險(xiǎn)資產(chǎn)的投資比例為ω=(ω1,ω2,…,ωn)’。那么資產(chǎn)組合的期望收益率為μω=ω’μ,資產(chǎn)組合的風(fēng)險(xiǎn)為σ2ω=ω’Σω。
那么,當(dāng)資產(chǎn)組合中僅存在風(fēng)險(xiǎn)資產(chǎn)時(shí),均值-方差模型記為:
當(dāng)資產(chǎn)組合中可以存在無風(fēng)險(xiǎn)資產(chǎn)時(shí),均值-方差模型記為:
使用拉格朗日乘數(shù)法則,可直接求得上述均值-方差模型的最優(yōu)解。投資者可以依據(jù)個(gè)人偏好的無差異曲線找到對(duì)應(yīng)的最優(yōu)組合。此模型同時(shí)表明,最優(yōu)組合的選擇往往并非單獨(dú)取決于單個(gè)資產(chǎn)的數(shù)字特征,同時(shí)也取決于資產(chǎn)間的相關(guān)性。
Markowitz資產(chǎn)配置模型是在一系列嚴(yán)格的假定條件下推導(dǎo)出來的。因此,模型從面世之日起,眾多學(xué)者便提出由于模型的假定條件與實(shí)際金融環(huán)境存在差異,導(dǎo)致構(gòu)建的投資組合存在難以理解、對(duì)輸入的參數(shù)過于敏感、以及估計(jì)誤差被放大等問題。
(二)Black_Litterman資產(chǎn)配置模型
在高盛銀行任職的Fischer Black和Robert Litterman于1990年提出了Black_Litterman模型,于1992年又在《金融分析》期刊上對(duì)Black-Litterman模型作了詳細(xì)說明。他們將Markowitz的均值-方差模型最優(yōu)化理論和bayesian估計(jì)相結(jié)合,并且基于資本資產(chǎn)定價(jià)模型(Capital Asset Pricing Model,CAPM)以及夏普提出的逆最優(yōu)化理論建立了Black_Litterman資產(chǎn)配置模型。在國外理論界,Bevan和Winkelmann,He、Litterman,Satchell和Scowcroft、Drobetz都對(duì)Black-Litterman模型做了進(jìn)一步的完善,并對(duì)國際資產(chǎn)配置做了實(shí)證分析。在實(shí)際投資運(yùn)作中,很多大型投資機(jī)構(gòu)將Black-Litterman模型運(yùn)用在全球資產(chǎn)配置中,并已取得了豐厚收益。
Markowitz的均值-方差模型模型的主要投入要素為預(yù)期報(bào)酬率及方差。投資者必須利用長期的歷史資料,提出對(duì)投資組合所有的預(yù)期報(bào)酬率的看法,而這些看法皆為100%的信心水準(zhǔn),Black和Littermam認(rèn)為投資者的看法在實(shí)際情況下,很難達(dá)到完全預(yù)測正確。在Black-Litterman資產(chǎn)配置模型中,投資者可以將自己的觀點(diǎn)和對(duì)這種觀點(diǎn)的信心程度量化并輸入模型中。
Black-Litterman資產(chǎn)配置模型的另一大優(yōu)點(diǎn)在于它的輸入是非常具有彈性的。投資者可以輸入對(duì)某些資產(chǎn)預(yù)期收益的一種觀點(diǎn)或者幾種觀點(diǎn),也可以不輸入任何觀點(diǎn)。這樣就減少了投資人觀點(diǎn)設(shè)定的隨意性。需要指出的是,因?yàn)槟P图尤肓酥饔^觀念,使模型的估計(jì)變得相對(duì)復(fù)雜。這也成為現(xiàn)階段該模型研究的主要方向。
以市場均衡為先驗(yàn)知識(shí),使用bayesian框架將先驗(yàn)知識(shí)與主觀觀點(diǎn)矩陣融合起來,得到后驗(yàn)分布,其中:
其中,τ表示的是資本資產(chǎn)模型的不確定性度量,當(dāng)τ趨近于0時(shí),Black-Litterman計(jì)算出的權(quán)重將趨近于市場均衡權(quán)重;Σ代表各資產(chǎn)超額收益的協(xié)方差矩陣;Π表示隱含均衡收益向量,Π=δΣωeq,δ為風(fēng)險(xiǎn)規(guī)避系數(shù),ωeq為市場基準(zhǔn)配置權(quán)重向量。P是一個(gè)K×N維矩陣,每一行代表投資者的一個(gè)觀點(diǎn)對(duì)應(yīng)的相關(guān)資產(chǎn)的權(quán)重,相對(duì)觀點(diǎn)的權(quán)重和為0,絕對(duì)觀點(diǎn)的權(quán)重和為1;Q是一個(gè)K×1維向量,分別對(duì)應(yīng)于P矩陣中的每個(gè)觀點(diǎn)的期望收益;Ω是一個(gè)K×K維對(duì)角矩陣,表示投資者對(duì)每個(gè)觀點(diǎn)的信心程度。
舉一個(gè)簡單的例子,一個(gè)投資者對(duì)三個(gè)資產(chǎn)的主觀觀點(diǎn)是:資產(chǎn)1的收益率被高估了2%,資產(chǎn)2的收益率會(huì)比資產(chǎn)3的收益率低3%,他對(duì)自己這兩個(gè)觀點(diǎn)的信心程度分別是w11和w22。那么,對(duì)應(yīng)的P、Q、Ω分別為:
運(yùn)用Black-Litterman資產(chǎn)配置模型,投資者可以輸入關(guān)于任何投資類別的任意數(shù)量的觀點(diǎn),并與市場均衡狀態(tài)相結(jié)合,輸出最優(yōu)投資組合權(quán)重和預(yù)期收益。
本文致力于尋求一種更具普適性的,更易于量化的得到投資人觀點(diǎn)矩陣(即得到P、Q、Ω)的方法,即基于網(wǎng)絡(luò)文本挖掘的市場情緒度量方法。
二、基于網(wǎng)絡(luò)爬蟲的文本挖掘算法
本章闡述基于網(wǎng)絡(luò)爬蟲技術(shù)得到傳統(tǒng)Black_Litterman資產(chǎn)配置模型觀點(diǎn)矩陣以及置信度矩陣的方法。
(一)數(shù)據(jù)源的選擇
本文旨在使用網(wǎng)絡(luò)上的市場情緒作為分析依據(jù),得到Black_ Litterman模型觀點(diǎn)矩陣以及置信度矩陣。那么必然對(duì)要分析的新聞文本具有一定要求,需要慎重選擇文本來源。文本來源選擇的是否適當(dāng),將直接關(guān)系到black_litterman模型的輸入,進(jìn)而左右模型整體效果。數(shù)據(jù)源的選擇既要符合文本挖掘技術(shù)數(shù)據(jù)源的一般性要求,也要符合金融新聞?lì)愂袌銮榫w文本的特殊性要求。筆者認(rèn)為,至少需要具有全面行、權(quán)威行、和實(shí)效性。全面性保證得到的市場情緒可以代表多數(shù)人的觀點(diǎn),減小偏差;權(quán)威性保證觀點(diǎn)來源于金融專業(yè)知識(shí)相對(duì)完備、經(jīng)驗(yàn)相對(duì)豐富的分析師,而且他們的觀點(diǎn)將會(huì)通過多種途徑傳播,進(jìn)而影響大眾觀點(diǎn),成為大眾情緒;實(shí)效性保證情緒文本的及時(shí)性,減少滯后偏差。
鑒于此,本文選擇“搜狐證券—研究報(bào)告—行業(yè)研究”(網(wǎng)址:http://stock.sohu.com/hyyj/) 中的新聞標(biāo)題短文本作為研究對(duì)象。它來源于各知名券商研究報(bào)告或者權(quán)威報(bào)刊,根據(jù)行業(yè)分類進(jìn)行過整理,新聞標(biāo)題短文本后給出了新聞發(fā)布時(shí)間,符合全面行、權(quán)威行、和實(shí)效性準(zhǔn)則。
(二)網(wǎng)絡(luò)爬蟲獲取文本
已經(jīng)選定數(shù)據(jù)源,接下來使用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)頁上的新聞標(biāo)題短文本。網(wǎng)絡(luò)爬蟲(Network Spider),是一種按照預(yù)先給定的規(guī)則,在運(yùn)行中自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。它將一個(gè)網(wǎng)頁URL作為起始,讀取此頁面內(nèi)容,并通過此頁面上的超級(jí)鏈接作為線索找到另一個(gè)或多個(gè)與之有關(guān)聯(lián)的網(wǎng)頁。重復(fù)此操作,遍歷網(wǎng)絡(luò)頁面,依次將其文本和URL存入到網(wǎng)頁數(shù)據(jù)庫中。
爬蟲基本工作流程如下:
Step1.選取種子URL;
Step2.將這些URL放入待抓取URL隊(duì)列;
Step3.將URL隊(duì)列中對(duì)應(yīng)的網(wǎng)頁內(nèi)容抓取下來,存儲(chǔ)到已抓取網(wǎng)頁庫中,并將這些URL放到已抓取URL隊(duì)列中;
Step4.對(duì)已經(jīng)抓取到的URL隊(duì)列中的URL進(jìn)行分析,試圖從中分析出待抽取的新URL,將這些URL放入待抓取的URL隊(duì)列,從而進(jìn)入下一次循環(huán)。
使用網(wǎng)絡(luò)爬蟲技術(shù),以網(wǎng)址:http://stock.sohu.com/hyyj/ 作為起始URL,抓取此URL對(duì)應(yīng)頁面的HTML文本,存入文本文件中。其中除所需新聞短文本標(biāo)題外,還包含了大量的HTML標(biāo)記,以及非新聞標(biāo)題短文本以外的文字類信息,需要將其過濾掉。使用XPath與正則表達(dá)式技術(shù),通過分析DOM結(jié)構(gòu),使用正則表達(dá)式定位到具體位置。
(三)中文分詞
通過網(wǎng)絡(luò)爬蟲抓取得到待處理文本之后,需要對(duì)其進(jìn)行中文分詞。中文分詞包括三類算法:基于字符串匹配的分詞;基于理解的分詞;基于統(tǒng)計(jì)的分詞。將一個(gè)中文句子進(jìn)行拆分,從一個(gè)句子中解析出名詞、動(dòng)詞、形容詞、副詞等。這樣做的目的是:拆分出的名詞部分,可作為本條文本的對(duì)象詞,匹配數(shù)據(jù)庫中的申萬行業(yè)類別表,從而得到這條文本是描述的哪個(gè)行業(yè)的市場情緒的;拆分出的形容詞(副詞)部分,可作為本條文本的情緒詞,匹配數(shù)據(jù)庫中的通過調(diào)研得到的情感極性詞極性表,從而得到這條文本是正面情緒還是負(fù)面情緒,以及情緒的強(qiáng)弱程度。
本文使用中科天璣的ICTCLAS詞法分析系統(tǒng),由張華平博士歷經(jīng)多年開發(fā)研制,開源,并提供了多種開發(fā)語言接口,包括C/C++/C#、Java、Python、Hadoop等,可以用于對(duì)需要進(jìn)行分析處理的文本做初始分詞。具體算法分為三個(gè)步驟,即原子切分;找出所有可能的原子間組詞方案;N-最短路徑選擇算法。各步驟的具體算法在ICTCLAS詞法分析系統(tǒng)主頁http://ictclas.nlpir.org/ docs可以得到。
例如,將“房地產(chǎn)業(yè):房產(chǎn)稅謠言四起,樓市溫和上行”進(jìn)行分詞,效果如圖1所示。
將結(jié)果匹配數(shù)據(jù)庫中的申萬行業(yè)表和情感極性表。以“房地產(chǎn)業(yè):房產(chǎn)稅謠言四起,樓市溫和上行”為例:得到這條文本是表述“房地產(chǎn)”行業(yè)市場情緒的;“謠言”是負(fù)極性詞,極性強(qiáng)度是-1,“上”是正極性詞,情感極性是+2,故而這條文本的綜合情感是正極性的,綜合情感極性是+1。
由于中文反義句多以“反義詞+形容詞(副詞)”的形式出現(xiàn),需設(shè)計(jì)否定詞處理模塊,當(dāng)遇到否定詞(如“不”,“沒”,“別”,“非”,“無”,“未”,“反”等)時(shí),這個(gè)否定詞的作用對(duì)象取它后面最鄰近的一個(gè)情感極性詞,將其極性取反處理。
(四)構(gòu)建觀點(diǎn)矩陣及觀點(diǎn)置信度矩陣
以上是為了得到Black-Litterman資產(chǎn)配置模型中的P、Q、Ω,其中P代表了觀點(diǎn)與觀點(diǎn)對(duì)應(yīng)資產(chǎn)的匹配關(guān)系,分為絕對(duì)收益和相對(duì)收益兩種、Q代表了對(duì)應(yīng)于P矩陣中的每個(gè)觀點(diǎn)的期望收益、Ω代表了對(duì)每個(gè)觀點(diǎn)的信心程度。
至此,得到了Black-Litterman資產(chǎn)配置模型的輸入矩陣P、Q、Ω。
三、實(shí)證研究
在國內(nèi)A股申萬一級(jí)行業(yè)間使用本文所提PSM_Black_Litterman模型進(jìn)行實(shí)證分析。設(shè)兩組對(duì)照,以市值為權(quán)重進(jìn)行資產(chǎn)配置;使用傳統(tǒng)Markowitz資產(chǎn)配置模型得到的權(quán)重進(jìn)行資產(chǎn)配置。
(一)數(shù)據(jù)
從申萬一級(jí)行業(yè)28個(gè)分類中,選擇相關(guān)系數(shù)較小的13個(gè)行業(yè);選擇自2010年2月至2015年1月61個(gè)月的行業(yè)指數(shù)數(shù)據(jù),以及各行業(yè)類別中所含流通股市值,數(shù)據(jù)來源東方財(cái)富Choice數(shù)據(jù)。這樣共13*61個(gè)樣本內(nèi)數(shù)據(jù)。樣本外取自2015年2月至2015年12月進(jìn)行實(shí)證分析。
(二)市場情緒P、Q、Ω
在本文應(yīng)用背景下的P為N×N單位矩陣,可不再做計(jì)算;Q為N×1維向量,設(shè)第i種行業(yè)類別對(duì)應(yīng)的分量為Qi,Ω為N×N維對(duì)角矩陣,設(shè)第i種行業(yè)類別對(duì)應(yīng)的分量為Ωii。當(dāng)月數(shù)據(jù)由上月數(shù)據(jù)計(jì)算得到,見表1。
(三)PSM_Black_Litterman模型效果分析
使用上一小節(jié)得到的P、Q、Ω矩陣數(shù)據(jù),計(jì)算各行業(yè)類別的最優(yōu)資本權(quán)重,即由PSM_Black_Litterman模型得到的資本權(quán)重,記為WA;另外,由流通市值計(jì)算而得的權(quán)重記為WB;由Markowitz資產(chǎn)配置模型計(jì)算而得的權(quán)重記為WC。并計(jì)算當(dāng)按照這樣的權(quán)重進(jìn)行投資時(shí)的組合月度收益率。當(dāng)月權(quán)重由上月數(shù)據(jù)計(jì)算得到。增加不許做空限制。見表2。
根據(jù)三種方式得到的行業(yè)配置權(quán)重WA、WB、WC,計(jì)算2015年2月至2015年12月,共計(jì)11個(gè)月各自收益情況如下表所示。見表3和表4。
可見,使用由Markowitz資產(chǎn)配置模型計(jì)算得到的權(quán)重WC為依據(jù)進(jìn)行行業(yè)配置,在收益率均值、幾何收益率角度,優(yōu)于由流通市值計(jì)算而得的權(quán)重WB為依據(jù)進(jìn)行的資產(chǎn)配置;但方差效果卻劣于它。而使用本文所提PSM_Black_Litterman模型,利用由網(wǎng)絡(luò)熱點(diǎn)新聞作為權(quán)重調(diào)節(jié)方式得到的權(quán)重WA進(jìn)行資產(chǎn)配置,其收益率均值、方差、幾何收益率均優(yōu)于傳統(tǒng)Markowitz模型,同時(shí)優(yōu)于由流通市值計(jì)算而得的權(quán)重WB為依據(jù)進(jìn)行的資產(chǎn)配置。
四、結(jié)論
Black_Litterman模型的關(guān)鍵問題之一是需要輸入分析師觀點(diǎn),本文通過網(wǎng)絡(luò)爬蟲技術(shù),抓取門戶網(wǎng)站內(nèi)的相關(guān)行業(yè)情緒,使用文本挖掘技術(shù),提出一種將市場情緒量化為Black_Litterman模型所需P、Q、Ω矩陣的方法,由此提出一種PSM_Black_Litterman(public sentiment mining Black_Litterman)模型。通過實(shí)證分析,該模型可有效提高資產(chǎn)配置的平均收益率與幾何收益率,并減小方差。在后續(xù)的研究中,筆者希望通過過濾無效新聞、擴(kuò)充情感詞庫等方法,致力于進(jìn)一步提高模型效果。
參考文獻(xiàn)
[1]H.Markowitz.1952.PORTFOLIO SELECTION[J].JOURNAL OF FINANCE,7(1):77-91.
[2]溫琪.金融市場資產(chǎn)選擇與配置策略研究[D].中國科學(xué)技術(shù)大學(xué),2011.
[3]南方基金管理有限公司 柯曉.Black-Litterman模型的初步介紹及應(yīng)用[N].上海證券報(bào),2008-12-10007.
[4]E.C.B.Bekaert G,Harvey C R,et.1998.al.Distributional characteristics of emerging market returns and asset allocation[J].Journal Portfolio Management,24(2):102-116.
[5]S.S.S.A.2000.demystification of the Black-Litterman model:managing quantitative and traditional construction[J].Journal of Asset management,1(2):138-150.
[6]D.W.2001.How to avoid pitfalls in portfolio optimization?putting the Black-Litterman approach at work[J].Financial Markets Portfolio Managemen,15(1):59-75.
[7]韓正宇.現(xiàn)代投資組合理論述評(píng)[J].經(jīng)濟(jì)研究參考,2013,60:53-61.
[8]孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010,15:4112-4115.
[9]王強(qiáng),武港山.對(duì)XPath模式定位能力的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展,2001,06:674-678.
[10]周程遠(yuǎn).中文自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn)[D].華東師范大學(xué),2010.
[11]張華平,劉群.基于N-最短路徑方法的中文詞語粗分模型[J].中文信息學(xué)報(bào),2002,05:1-7.
[12]李存青.中文意見挖掘中的特征詞提取以及情感傾向分析[D].重慶大學(xué),2010.
作者簡介:朱碧穎(1990-),女,漢,北京,碩士研究生,研究方向:文本挖掘,資產(chǎn)配置;趙爽(1990-),男,漢,北京,碩士研究生,主要研究方向:宏觀經(jīng)濟(jì)、計(jì)量經(jīng)濟(jì)。