龐有明,蔣洪迅
(1.中國(guó)人民大學(xué) 信息學(xué)院,北京 100872;2.中國(guó)銀行間市場(chǎng)交易商協(xié)會(huì),北京 100033)
基于新聞?shì)浨榈男庞脗乐敌拚P图捌鋺?yīng)用
龐有明1,2,蔣洪迅1*
(1.中國(guó)人民大學(xué) 信息學(xué)院,北京 100872;2.中國(guó)銀行間市場(chǎng)交易商協(xié)會(huì),北京 100033)
信用債估值是金融機(jī)構(gòu)資產(chǎn)管理與風(fēng)險(xiǎn)控制的核心問(wèn)題之一,主流估值方法諸如CreditGrades等模型無(wú)法捕捉違約事件新聞?shì)浨榧笆袌?chǎng)投資者情緒的變化。基于文本情感挖掘方法,把新聞?shì)浨榉譃榍楦泻驼Z(yǔ)義兩個(gè)維度,在CreditGrades模型基礎(chǔ)上增加了一項(xiàng)信用點(diǎn)差,建立了量化修正的一個(gè)信用債估值改進(jìn)模型。相比傳統(tǒng)方法,新模型具有三點(diǎn)優(yōu)勢(shì):(1)很多債券在日常市場(chǎng)活動(dòng)中交易不夠頻繁,很多情況下某一段時(shí)間內(nèi)市場(chǎng)沒(méi)有交易,傳統(tǒng)時(shí)間序列模型在對(duì)這種情況的預(yù)測(cè)會(huì)存在誤差,而且新模型通過(guò)最近一段時(shí)間的文本挖掘,可以獲取有關(guān)債券最新信息更加有效的預(yù)測(cè)債券價(jià)格走勢(shì)。(2)傳統(tǒng)方法過(guò)于依賴數(shù)字類的系統(tǒng)內(nèi)推預(yù)測(cè)模型而無(wú)法規(guī)避系統(tǒng)風(fēng)險(xiǎn)和行業(yè)風(fēng)險(xiǎn),新模型挖掘本文信息有效地彌補(bǔ)這個(gè)不足,具有較廣普適性。(3)新模型具有自我進(jìn)化功能,通過(guò)針對(duì)某一個(gè)金融領(lǐng)域不斷更新模型中的情感詞典、停用詞詞典、用戶詞典,模型的預(yù)測(cè)精度將會(huì)隨著模型讀取的文本數(shù)據(jù)的數(shù)量不斷提高。實(shí)驗(yàn)表明,改進(jìn)模型與原模型相比其估值的均方誤差從0.134降為0.056,取得了明顯高于傳統(tǒng)方法的效果。
信用債;債券估值;信用點(diǎn)差;情感挖掘;TF-IDF
債券按照發(fā)行主體類型可以分為利率債和信用債。前者主要包括國(guó)債、央行票據(jù)、政策性金融債和地方政府債券,通常被理解為政府機(jī)構(gòu)信用擔(dān)保,存在違約的可能性極小,收益只受利率波動(dòng)的影響,可被認(rèn)為無(wú)信用風(fēng)險(xiǎn);后者又稱為企業(yè)債和公司債,其風(fēng)險(xiǎn)因子除利率之外主要考慮發(fā)行主體的信用。一般來(lái)說(shuō),債券發(fā)生違約的可能性較小。然而,一旦違約,回收比例會(huì)很低,造成較大的投資損失。相比債券本身較低的利率,違約會(huì)對(duì)債券價(jià)值產(chǎn)生顯著的影響。
債券的估值是債券市場(chǎng)金融機(jī)構(gòu)資產(chǎn)管理和風(fēng)險(xiǎn)控制的基礎(chǔ)。固定收益的一個(gè)特征就是流動(dòng)性較差,部分債券可能會(huì)長(zhǎng)時(shí)間出現(xiàn)沒(méi)有市場(chǎng)價(jià)格的情況。需要債券估值給予債券連續(xù)的,隨著市場(chǎng)變動(dòng)的價(jià)格。2006年頒布的新會(huì)計(jì)準(zhǔn)則,引入了“公允價(jià)值”的會(huì)計(jì)屬性。它用于不存在活躍交易市場(chǎng)的投資工具,其方法被市場(chǎng)參與者普遍認(rèn)同,并通過(guò)歷史交易價(jià)格驗(yàn)證。當(dāng)債券不存在市場(chǎng)價(jià)格時(shí),債券的估值將被作為公允價(jià)值計(jì)入會(huì)計(jì)損益。當(dāng)市場(chǎng)存在外界擾動(dòng)時(shí),債券價(jià)格的波動(dòng)存在一定的方向性,這種擾動(dòng)在尚未成熟的中國(guó)債券市場(chǎng)表現(xiàn)明顯。當(dāng)市場(chǎng)出現(xiàn)債券主體存在財(cái)務(wù)問(wèn)題,或者暴露出違約的可能性時(shí),債券的收益率就會(huì)出現(xiàn)顯著的波動(dòng)。這種情緒具有傳播性,并導(dǎo)致其它同類債券出現(xiàn)價(jià)格變化。例如,中國(guó)債券市場(chǎng)在2014年3月首次出現(xiàn)了債券到期無(wú)法全額支付的“超日違約”事件,打破了債券市場(chǎng)一直剛性兌付的局面。這次事件,對(duì)信用債的影響非常大,尤其是信用評(píng)級(jí)處于較低水平的債券,收益率出現(xiàn)了顯著的變化。綜合反映滬深交易所以及銀行間債券市場(chǎng)的債券指數(shù)“中證公司債指數(shù)”,呈現(xiàn)連續(xù)下跌的趨勢(shì),如圖1所示。顯然,目前市場(chǎng)所采用的到期收益率進(jìn)行估值的“公允價(jià)值”預(yù)估方法,存在一定的缺陷,它不能準(zhǔn)確有效地反映市場(chǎng)信息。
Fig.1 CSI Corporate Bond Index Candlestick Chart from Feb.27,2014 to March 26,2014圖1 2014年2月27日-3月26日中證公司債指數(shù)日K線
對(duì)于債券估值,Chew & Clayton[1]最早提出了債券估值的基本框架,其風(fēng)險(xiǎn)因子主要來(lái)源于利率波動(dòng)。利率與期限、幣種有關(guān)。不同期限的利率不同,是流動(dòng)性溢價(jià)的體現(xiàn),一般而言長(zhǎng)期利率高于短期利率。不同的國(guó)家的利率也存在很大的差異,同時(shí)也會(huì)隨著市場(chǎng)投融資情況而引起波動(dòng)。Black & Sholes[2]提出了歐式期權(quán)的資產(chǎn)定價(jià)模型(簡(jiǎn)稱BS模型),將資產(chǎn)價(jià)格的變化率描述為伊藤過(guò)程(Ito Process)。文章還指出公司負(fù)債的信用風(fēng)險(xiǎn)也適用于該公式。Merton[3]在BS模型的基礎(chǔ)上,提出顯著違約風(fēng)險(xiǎn)的零息債券(zero-coupon bond)的估值模型,開(kāi)啟了基于期權(quán)調(diào)整模型的債券估值研究方向,后來(lái)被廣泛地稱之為未知權(quán)益分析(Contingent Claims Analysis, CCA)。Jones[4]研究了可贖回債券估值等多種衍生問(wèn)題。除了基于期權(quán)定價(jià)模型之外,還有一些學(xué)者[5-8]研究簡(jiǎn)化型模型(Reduced-Form Models)。比較典型的代表有Das & Tufano、Jarrow、Duffie & Singleton和Elton。影響債券定價(jià)的因素有很多,Elton[9]等人研究了違約風(fēng)險(xiǎn)、流動(dòng)性、稅收因素、回收率和債券期限等因子。Liang[10]等學(xué)者最新提出了采用結(jié)構(gòu)方法基于信用遷移考慮企業(yè)信用債券的效用無(wú)差異問(wèn)題。
信用風(fēng)險(xiǎn)的定量計(jì)量由Altman(1968)[11]最先提出,將公司劃分為毀約和未毀約不同類型,找出某些最佳區(qū)分度的因素,能夠在某個(gè)時(shí)點(diǎn)幫助識(shí)別出未來(lái)發(fā)生違約的公司。還有一類信用風(fēng)險(xiǎn)研究,基于簡(jiǎn)化性模型。諸如,Duffie & Singleton[9]使用實(shí)際信用價(jià)格信息來(lái)提取違約概率。1997年,JP摩根與國(guó)際主要金融機(jī)構(gòu)聯(lián)合推出了量化信用風(fēng)險(xiǎn)的GreditMetrics模型[12],成為現(xiàn)代信用風(fēng)險(xiǎn)管理的一個(gè)里程碑。在此基礎(chǔ)上,2002年又建立CreditGrades模型,提出信用債價(jià)格與未來(lái)現(xiàn)金流現(xiàn)值的價(jià)差體現(xiàn)為市場(chǎng)投資者對(duì)信用債違約損失的期望,而這種期望可以轉(zhuǎn)換為信用點(diǎn)差,即作為現(xiàn)金流的一個(gè)乘子。CreditGrades模型的優(yōu)勢(shì)在于,選擇的參數(shù)估計(jì)技術(shù)能夠最大概率追蹤市場(chǎng)的點(diǎn)差,并在測(cè)試中對(duì)于信用排名高低不同的信用風(fēng)險(xiǎn)同樣有效。CreditGrades基本假設(shè)是公司股價(jià)服從幾何布朗運(yùn)動(dòng),信用債的信用點(diǎn)差隨之變化。然而,在現(xiàn)實(shí)中CreditGrades這類假設(shè)條件經(jīng)常無(wú)法滿足,當(dāng)市場(chǎng)存在外界擾動(dòng)時(shí),債券價(jià)格的波動(dòng)存在一定的方向性,這種擾動(dòng)在尚未成熟的中國(guó)債券市場(chǎng)表現(xiàn)明顯。當(dāng)市場(chǎng)出現(xiàn)債券主體存在財(cái)務(wù)問(wèn)題,或者暴露出違約的可能性時(shí),債券的收益率就會(huì)出現(xiàn)顯著的波動(dòng)。
另外一個(gè)研究分支認(rèn)為情緒影響到個(gè)人投資者的交易行為。根據(jù)情緒信息模型,情緒為決策者提供了合適的信息,愉快的情緒暗示了個(gè)人的世界是安全的,而不愉快的情緒暗示個(gè)人的世界是危險(xiǎn)的。情緒的信息化功能會(huì)影響到有關(guān)交易決策的兩大因素:決策策略和風(fēng)險(xiǎn)意識(shí)。在投資領(lǐng)域,Au[13]等學(xué)者發(fā)現(xiàn)投資者心情好的情況下會(huì)過(guò)度自信從而冒較高風(fēng)險(xiǎn)。沮喪情緒下,投資者不佳狀態(tài)可能會(huì)導(dǎo)致低收益。Porcelli & Delgado[14]認(rèn)為壓力會(huì)使人在賭博中冒更大的風(fēng)險(xiǎn),并且更加依靠直覺(jué)而不是系統(tǒng)的決策。投資者交易日行為的影響理論,解釋了情緒和感情對(duì)于投資者決策和風(fēng)險(xiǎn)的影響。從情緒對(duì)交易行為的影響外推,可以得出集體情緒預(yù)測(cè)股市表現(xiàn)的推斷?;谶@些潛在的理論觀點(diǎn),有可能提出關(guān)于情緒愉悅度和個(gè)人交易行為的關(guān)系的競(jìng)爭(zhēng)性假設(shè),進(jìn)一步擴(kuò)展到集體情緒愉悅度與股票市場(chǎng)行為的關(guān)系。通過(guò)情緒對(duì)多個(gè)交易員的影響,集體情緒可能導(dǎo)致市場(chǎng)行為的改變。
顯然,市場(chǎng)新聞?shì)浨闀?huì)給市場(chǎng)投資者情緒帶來(lái)較大的影響,而且這種情緒具有傳播性,并導(dǎo)致其它同類債券出現(xiàn)價(jià)格變化。雖然說(shuō)CreditGrades模型研究了公司基本面對(duì)信用債估值影響,但基本面因子并不能完全捕捉市場(chǎng)情緒,在某些情形下并不完全有效。基于這些分析,本文嘗試提出一種新的基于文本挖掘和情感挖掘的方法,希望能夠準(zhǔn)確、有效地對(duì)債券價(jià)格進(jìn)行預(yù)測(cè)。這種引入外部參考變量的基于大數(shù)據(jù)挖掘的新的探索方向,對(duì)于信用債估值既有理論意義又有實(shí)踐價(jià)值。
信用風(fēng)險(xiǎn)計(jì)量研究領(lǐng)域,主流模型CreditGrades方法被大量的金融機(jī)構(gòu)以及監(jiān)管機(jī)構(gòu)所采納。本研究考慮新聞?shì)浨閷?duì)債券價(jià)值存在的內(nèi)在影響,提出了用新聞?shì)浨樾拚ㄟ^(guò)CreditGrades模型計(jì)算的債券的信用點(diǎn)差,修正模型框架如圖2所示。
Fig.2 Research framework of the model圖2 模型研究框架圖
簡(jiǎn)單來(lái)說(shuō),信用點(diǎn)差修正過(guò)程可分為五大主要階段。首先,定義信用債專業(yè)詞典,使用ICTCLAS軟件給文本內(nèi)容分詞;其次采集選定“債券違約”主體新聞集,用TF-IDF指標(biāo)提取關(guān)鍵詞庫(kù);再次,定義領(lǐng)域?qū)S星楦性~典,按日期計(jì)算文本的情感特征屬性并根據(jù)提取的關(guān)鍵詞庫(kù),統(tǒng)計(jì)獲得文本的“債券違約”主題矩陣,同時(shí)將情感屬性和違約矩陣屬性共同作為新聞?shì)浨閭溥x因子庫(kù);第四,為了保證新聞?shì)浨榈臅r(shí)效性,模型設(shè)立了衰減因子處理的因子值,考慮過(guò)去因素的影響;最后,將矩陣和歷史信用點(diǎn)差建立多元回歸模型,篩選有效因子,并根據(jù)篩選出來(lái)的因子,用SVR回歸,求解修正信用點(diǎn)差。具體來(lái)說(shuō),如圖2所示,上述過(guò)程可以分解為如下步驟:
1) 根據(jù)債券的評(píng)級(jí)屬性,獲取債券所參照的利率曲線;
2) 提取債券的現(xiàn)金流信息,用Bootstrap法得到對(duì)應(yīng)時(shí)點(diǎn)的折現(xiàn)因子;
3) 獲取債券歷史價(jià)格信息,推算債券的真實(shí)信用點(diǎn)差;
4) 設(shè)置參數(shù)計(jì)算債券發(fā)行主體的期望違約損失;
5) 折算CreditGrades模型中的信用點(diǎn)差;
6) 定義專業(yè)詞典,使用ICTCLAS軟件給文本內(nèi)容分詞;
7) 選取“債券違約”主體新聞集,用TF-IDF指標(biāo)提取關(guān)鍵詞庫(kù);
8) 定義情感詞典,按日期計(jì)算文本的情感特征屬性;
9) 根據(jù)7)提取的關(guān)鍵詞庫(kù),統(tǒng)計(jì)獲得文本的“債券違約”主題矩陣;
10) 將8)和9)的屬性共同作為新聞?shì)浨閭溥x因子庫(kù);
11) 設(shè)立衰減因子處理10)的因子值的時(shí)效性,考慮過(guò)去因素的影響;
12) 將11)的矩陣和歷史信用點(diǎn)差建立多元回歸模型,篩選有效因子;
13) 根據(jù)12)篩選的因子,用SVR回歸,求解修正信用點(diǎn)差。
1.1 新聞文本采集與選取
信用債有其特殊性,不同于股票。股票投資的潛在動(dòng)力是獲得上市公司未來(lái)盈利的分紅,是為了獲取未知利益,相對(duì)影響主題更多,而債券的未來(lái)收益是固定的,市場(chǎng)情緒在于規(guī)避損失而非追逐收益。信用點(diǎn)差輿情修正模型,重在研究新聞?shì)浨閷?duì)投資者信心的影響,進(jìn)而對(duì)信用風(fēng)險(xiǎn)定價(jià)的影響。因此,在數(shù)據(jù)收集方面,本研究需要有兩大類數(shù)據(jù)集:一類是債券違約相關(guān)文檔,用來(lái)提取和債券違約有關(guān)的關(guān)鍵字標(biāo)簽;另一類是媒體新聞,是修正模型的信息源。
本文研究的新聞?shì)浨?主要是指隱含地債券違約主體信息的暴露。為了描述這種信息,本文構(gòu)建“債券違約”主題的新聞詞庫(kù),當(dāng)市場(chǎng)出現(xiàn)新聞時(shí),從文本詞庫(kù)中挑選出有效的因子來(lái)描述違約新聞。挑選這種因子的方法就是用文本挖掘中關(guān)鍵詞提取方法來(lái)排序選擇,提取關(guān)鍵詞,或者是新聞標(biāo)簽,也就是前文描述的違約新聞主題因子,新聞詞庫(kù)。
1.2 TF-IDF新聞標(biāo)簽提取
在文本提取關(guān)鍵詞方面,在文本索引領(lǐng)域已有很多研究,基于統(tǒng)計(jì)方法的TF-IDF(DTP,2000)是一種常用的有效的算法。TF-IDF的主要思想是提取文章中詞語(yǔ)在本篇文本中出現(xiàn)頻率高,而在所有文本中出現(xiàn)頻率低的詞語(yǔ),算法認(rèn)為這樣的詞語(yǔ)具有較高的辨識(shí)度。事實(shí)上它是TF詞頻和IDF逆向文本頻率兩者的乘積。使用這樣的方法,可以統(tǒng)計(jì)得出每一篇新聞的關(guān)鍵詞,取所有關(guān)鍵詞的合集作為詞庫(kù)。
在信用債新聞文本計(jì)算TF-IDF時(shí),我們做了一些針對(duì)性的改進(jìn)??紤]到新聞的文本內(nèi)容存在一定的結(jié)構(gòu),比如新聞標(biāo)題一般包含了全文的概述。新聞每個(gè)自然段第一句表達(dá)了該短的主要意思,第一自然段為下文內(nèi)容的總括,這些文本內(nèi)容帶有更多信息區(qū)分度,應(yīng)該被賦予更高的權(quán)重。另外,若段落首字出現(xiàn)“摘要”字樣,或者段落首字出現(xiàn)“關(guān)鍵字”、“標(biāo)簽”字樣,其文本內(nèi)容權(quán)重也將提高。
1.3 標(biāo)簽因子篩選與衰減函數(shù)
在信用點(diǎn)差修正模型中,把新聞?shì)浨閯澐譃閮蓚€(gè)維度:一個(gè)維度是情感,通過(guò)影響投資者的情緒來(lái)影響交易,用新聞的情感屬性來(lái)描述;另一個(gè)維度是新聞的內(nèi)容,通過(guò)給投資者傳播違約信息來(lái)影響交易,這類信息可能是顯性的也可能是隱形的,通過(guò)“債券違約”主題詞庫(kù)的屬性來(lái)描述。這兩個(gè)維度的所有變量均作為影響債券信用點(diǎn)差的備選因子。
(1)
(2)
這里xi表示某一日的所有屬性的值,sε表示修正信用點(diǎn)差的加項(xiàng),代表新聞?shì)浨檎{(diào)整項(xiàng)。公式(3)描述了信用債價(jià)格的計(jì)算方法,s為原CreditCrades模型的信用點(diǎn)差,sε為修正信用點(diǎn)差的加項(xiàng)。
(3)
采集信用債歷史交易價(jià)格,通過(guò)CreditCrades模型計(jì)算s,從而計(jì)算出歷史的sε,代入公式(2),做多元線性回歸。
1.4SVR計(jì)算修正點(diǎn)差
支持向量機(jī)(SupportVectorMachine,SVM)是經(jīng)典的機(jī)器學(xué)習(xí)方法[15]。支持向量回歸(SupportVectorRegression,SVR)是SVM的一個(gè)重要分支,其主要思想與SVM相似,將向量映射到高維空間里,目的是找出能夠預(yù)測(cè)目標(biāo)值的平面。
(4)
選取上述提取的因子以及處理后的因子屬性來(lái)做回歸求出預(yù)測(cè)的目標(biāo)值。本模型采用SVR回歸是為了獲取更加緩和的曲線。實(shí)驗(yàn)表明,線性回歸雖然能夠比較直接的表達(dá)各個(gè)屬性的有效性以及模型的置信度。但若作為最后的預(yù)測(cè)結(jié)果,波動(dòng)性較大。
在實(shí)證研究分析過(guò)程中,本文建立了一個(gè)從數(shù)據(jù)抓取到文本分析,再到債券計(jì)算模型以及最終的回歸模型的一整套實(shí)驗(yàn)流程,如圖3所示。從處理對(duì)象來(lái)分,大體可以分成兩個(gè)模塊,即文本模塊和估值模塊。
Fig.3 Framework of experimental designing圖3 實(shí)驗(yàn)設(shè)計(jì)架構(gòu)圖
2.1 文本模塊
文本模塊是一個(gè)基于JAVA語(yǔ)言框架的模塊,如圖4所示,功能在于獲取文本數(shù)據(jù),并將文本的內(nèi)容處理成關(guān)聯(lián)矩陣,以便于在估值模塊中輸入到模型中。本模塊的功能HTTP數(shù)據(jù)抓取包,HTML解析內(nèi)容抽取包,數(shù)據(jù)庫(kù)連接操作包,文本分詞處理包,情感分析與TF-IDF統(tǒng)計(jì)計(jì)算函數(shù)包。其中,中文分詞使用的是中科院ICTCLAS系統(tǒng)。
2.2 估值模塊
估值模塊是基于Python語(yǔ)言框架的模塊,如圖5所示,實(shí)現(xiàn)了CreditGrades模型計(jì)算債券的凈現(xiàn)值、違約損失和信用點(diǎn)差。債券價(jià)格、債券主體資產(chǎn)負(fù)債表、參考利率等數(shù)據(jù)來(lái)自于Wind數(shù)據(jù)庫(kù)。該模塊中主
要功能包括從數(shù)據(jù)庫(kù)里提取股票歷史價(jià)格、債券歷史價(jià)格、參考利率曲線、發(fā)行主體資產(chǎn)負(fù)債表等信息,Bootstrap法計(jì)算折現(xiàn)率,計(jì)算無(wú)風(fēng)險(xiǎn)現(xiàn)值,計(jì)算波動(dòng)率、違約損失、違約概率,計(jì)算信用點(diǎn)差等。
3.1 案例演算
實(shí)例驗(yàn)算選取了“09宏潤(rùn)建債”。該債券是一筆2009年11月13日開(kāi)始計(jì)息的債券,于2014年11月13日到期,票面利息為7.8%,每年付息,為中期債券,所屬一級(jí)行業(yè)為可選消費(fèi)。債券的信息如表1所示。
表1 “09宏潤(rùn)建債”的基本信息
Fig.4 Framework of text processing modules圖4 文本模塊架構(gòu)圖
Fig.5 Framework of bond evaluation modules圖5 估值模塊架構(gòu)圖
案例研究選取的新聞媒體源,來(lái)自于新浪財(cái)經(jīng)新聞。在本文框架中,數(shù)據(jù)需要分成兩個(gè)部分,一個(gè)部分是“債券違約”主題的新聞,另一個(gè)部分是每日新聞?!皞`約”主題新聞的收集,采用新浪財(cái)經(jīng)網(wǎng)站內(nèi)部的搜索功能,輸入關(guān)鍵詞“債券違約”,得到搜索引擎列出的新聞前100頁(yè)。每日新聞主要包括國(guó)內(nèi)財(cái)經(jīng)宏觀經(jīng)濟(jì)版塊、國(guó)內(nèi)財(cái)經(jīng)地方經(jīng)濟(jì)版塊、國(guó)內(nèi)財(cái)經(jīng)金融新聞版塊、國(guó)內(nèi)財(cái)經(jīng)部委動(dòng)態(tài)版塊、國(guó)內(nèi)財(cái)經(jīng)滾動(dòng)新版塊、產(chǎn)經(jīng)產(chǎn)業(yè)新版塊、產(chǎn)經(jīng)公司新聞版塊以及產(chǎn)經(jīng)深度報(bào)道版塊。在產(chǎn)業(yè)經(jīng)濟(jì)版塊中,篩選出和債券發(fā)行主體相關(guān)或者和行業(yè)相關(guān)的新聞。其中文本的分詞,均使用的是ICTCLAS分詞系統(tǒng),同時(shí)導(dǎo)入自定義的用戶字典,主要包括金融相關(guān)的專業(yè)名詞以及行業(yè)名詞。
在計(jì)算TF-IDF時(shí),我們做了一些改進(jìn)。首先去除停用詞,排除副詞、語(yǔ)助詞、虛擬詞等頻率較大的虛詞,降低它們對(duì)關(guān)鍵詞統(tǒng)計(jì)信息的影響,以主要保留目標(biāo)主題詞庫(kù)的核心內(nèi)容,諸如專有名詞、動(dòng)詞、動(dòng)名詞結(jié)構(gòu)的短語(yǔ)等。考慮到新聞的文本內(nèi)容存在一定的結(jié)構(gòu),比如新聞標(biāo)題一般概括了全文,每個(gè)自然段第一句表達(dá)了主要意思。本案例研究中,將文章標(biāo)題權(quán)重定為5倍標(biāo)準(zhǔn)權(quán)重,每個(gè)自然段第1句定為3倍,文章第1自然段定為2倍等等。再如,若段落首字出現(xiàn)“摘要”字樣,其文本內(nèi)容權(quán)重為3倍,或者,段落首字出現(xiàn)“關(guān)鍵字”、“標(biāo)簽”字樣,內(nèi)容權(quán)重為5倍等等。
選取的新聞日期從2014年1月1日至2014年12月31日,累計(jì)一年的數(shù)據(jù)29,896條新聞。HowNet和NTUSD的情感詞典,統(tǒng)計(jì)出每日新聞的情感總值和均值,矩陣數(shù)據(jù)本文不贅述?!皞`約”主題的語(yǔ)義,通過(guò)統(tǒng)計(jì)上述詞庫(kù)在每日新聞中的詞頻來(lái)表述,得到初步的輿情矩陣。在新聞?dòng)绊憰r(shí)間上的延續(xù)性方面,設(shè)定衰減比例為0.5。
CreditGrades模型通過(guò)債券發(fā)行主體的資產(chǎn)負(fù)債表,如表2所示,獲取公司的每股負(fù)債比例和每股資產(chǎn)比例,進(jìn)而計(jì)算違約損失。
表2 宏潤(rùn)建設(shè)資產(chǎn)負(fù)債簡(jiǎn)表
表3 “09宏潤(rùn)債”CreditGrades估值數(shù)據(jù)(部分)
獲得CreditCrades信用估值以后,通過(guò)調(diào)整信用點(diǎn)差的方式,引進(jìn)新聞?shì)浨樾拚乐颠M(jìn)行多元回歸分析來(lái)選取影響因子?;貧w的目標(biāo)值是債券實(shí)際點(diǎn)差與CreditCrades點(diǎn)差的差。為了簡(jiǎn)便起見(jiàn),只從詞庫(kù)里挑選30個(gè)詞,并加上情感屬性,用SPSS做多元線性回歸。表4中是回歸中各個(gè)因子的參數(shù),從中挑選出顯著性好的因子做下一步的分析,淘汰不顯著的因子。
將挑定的因子作為SVR的輸入,用來(lái)預(yù)測(cè)債券真實(shí)信用點(diǎn)差與CreditCrades信用點(diǎn)差的差項(xiàng)。隨機(jī)選取80%數(shù)據(jù)作為訓(xùn)練集,剩余20%作為測(cè)試集,得到修正信用點(diǎn)差。圖6和圖7分別表示了債券的信用點(diǎn)差和修正估值,與真實(shí)數(shù)據(jù)和原模型的對(duì)比。實(shí)驗(yàn)結(jié)果表明,修正后的信用點(diǎn)差值,好于原有的CreditCrades模型,進(jìn)而可以獲得更準(zhǔn)確的債券估值,估值的均方誤差MSE由原模型的13.4%降低到5.6%。
3.2 敏感度分析
債券的信用評(píng)級(jí)、期限結(jié)構(gòu),是信用債最重要的屬性特征,它們都會(huì)對(duì)信用點(diǎn)差產(chǎn)生重要影響。下面,從這兩個(gè)屬性變化上,分析修正模型的有效性和敏感度。
表4 SPSS多元線性回歸系數(shù)
Fig.6 Credit spreads comparison of 09 bonds of Hongrun Construction Group Co., Ltd圖6 “09宏潤(rùn)債”修正信用點(diǎn)差對(duì)比
Fig.7 Revised valuation comparison of 09 bonds of Hongrun Construction Group Co., Ltd圖7 “09宏潤(rùn)債”修正估值對(duì)比
3.2.1 不同評(píng)級(jí)債券對(duì)比
不同評(píng)級(jí)的債券信用點(diǎn)差存在差異,對(duì)模型的輿情修正敏感性可能存在差異,本文選取兩個(gè)債券實(shí)例 “10石化01(表5,表7)”和“09東藥債(表6,表8)”,比較評(píng)級(jí)因素對(duì)模型有效性的差異。
表5 “10石化01”的基本信息
表6 “09東藥債”的基本信息
表7 中國(guó)石化資產(chǎn)負(fù)債簡(jiǎn)表
表8 東北制藥資產(chǎn)負(fù)債簡(jiǎn)表
根據(jù)這些數(shù)據(jù),分別計(jì)算出模型的信用點(diǎn)差和估值,如圖8圖9所示。
結(jié)果顯示,信用級(jí)別低的債券更加有效,原因是高評(píng)級(jí)的債券更加接近國(guó)債,信用風(fēng)險(xiǎn)的影響比重比較小。
3.2.2 不同評(píng)級(jí)債券對(duì)比
不同期限的債券信用點(diǎn)差存在差異,對(duì)模型的輿情修正敏感性可能存在差異,本文選取兩個(gè)債券實(shí)例“09廣匯債(表9,表11)”和“11常山債(表10,表12)”,比較期限因素對(duì)模型有效性的差異。
Fig.8 Credit spreads comparison of 10 bonds of China Petroleum & Chemical Corporation Corp.圖8 “10石化01”修正信用點(diǎn)差對(duì)比圖
Fig.9 Credit spreads comparison of 10 bonds of Northeast Pharm Corp.圖9 “09東藥債”修正信用點(diǎn)差對(duì)比圖
2009年新疆廣匯實(shí)業(yè)股份有限公司公司債券債券代碼122021.SH發(fā)行主體廣匯能源計(jì)息日2009?08?26到期日2016?08?26票面利率695%行業(yè)能源息票品種附息付息頻率1年債券評(píng)級(jí)AA
表10 “11常山債”的基本信息
表11 廣匯能源資產(chǎn)負(fù)債簡(jiǎn)表
表12 常山股份資產(chǎn)負(fù)債簡(jiǎn)表
根據(jù)這些數(shù)據(jù)分別計(jì)算出模型的信用點(diǎn)差和估值,如圖10、圖11所示。
Fig.10 Credit spreads comparison of 09 bonds of Xinjiang Guanghui Energy Co., Ltd圖10 “09廣匯債”修正信用點(diǎn)差對(duì)比圖
Fig.11 Credit spreads comparison of 11 bonds of Shijiazhuang Changshan Textile Stock Co., Ltd圖11 “11常山債”修正信用點(diǎn)差對(duì)比圖
結(jié)果表明,長(zhǎng)期的債券也比短期的債券更加有效,這是因?yàn)殚L(zhǎng)期債券會(huì)有更多的不確定因素。
信用債估值,對(duì)于金融市場(chǎng)有著重要的現(xiàn)實(shí)意義?!俺諅`約”事件打破中國(guó)債券市場(chǎng)剛性兌付的局面。違約事件和輿情傳播對(duì)信用債市場(chǎng)的收益率影響很大,而這種影響無(wú)法被經(jīng)典的CreditGrades模型所捕捉。因此,本文提出基于新聞?shì)浨槲谋就诰?調(diào)整CreditGrades模型信用點(diǎn)差的方法,修正債券估值。本文研究的主要結(jié)論如下:
首先,新聞情感反映了金融市場(chǎng)的氛圍和情緒,它通過(guò)影響交易員的主觀情緒來(lái)影響債券價(jià)格,所以應(yīng)該把新聞?shì)浨樽鳛橛绊懶庞脗乐档囊蛩?。本文把輿情分為情感和語(yǔ)義兩個(gè)維度來(lái)描述,通過(guò)TF-IDF算法提取出主題詞庫(kù),并用該詞庫(kù)分析每日新聞中的違約信息,通過(guò)客觀因素影響交易員對(duì)違約可能性的判斷。
其次,基于應(yīng)用領(lǐng)域特征改進(jìn)了文本挖掘的過(guò)程和方式??紤]到新聞內(nèi)容的結(jié)構(gòu)性,在主題文本計(jì)算TF-IDF時(shí),根據(jù)不同位置段落以及標(biāo)簽特征,為不同文本內(nèi)容賦不同的權(quán)。同時(shí),考慮新聞?shì)浨橛绊懙臅r(shí)續(xù)性,在回歸分析中引入了衰減函數(shù)。另外,本文還提出了不同債券主體的因子淘汰方法,評(píng)估因子的有效性。
最后,本文還進(jìn)行了對(duì)債券不同屬性的敏感性分析。信用債的評(píng)級(jí)不同,或者是期限結(jié)構(gòu)不同,都會(huì)對(duì)信用點(diǎn)差產(chǎn)生影響。本文分別選取了兩個(gè)樣本針對(duì)上述兩個(gè)因素進(jìn)行敏感性分析。結(jié)果表明,信用級(jí)別低的債券更加有效,原因是高評(píng)級(jí)的債券更加接近國(guó)債,信用風(fēng)險(xiǎn)的影響比重比較小。長(zhǎng)期的債券也比短期的債券更加有效,相對(duì)而言,長(zhǎng)期債券會(huì)有更多的不確定因素。
[1] Keong Chew I,Clayton R J.Bond Valuation:A Clarification[J].FinancialReview,1983,18(2):234-236.DOI.org/10.1111/j.1540-6288.1983.tb00151.x.
[2] Black F,Scholes M S.The Pricing of Options and Corporate Liabilities[J].JournalofPoliticalEconomy,1973.DOI.org/10.1086/260062.
[3] Merton C,Merton R C.On the Pricing of Corporate Debt:The Risk Structure of Interest Rates[J].JournalofFinance,1974,29(2):449-470.DOI.org/10.2307/2978814.
[4] PHILIP JONES E,MASON S P,ROSENFELD E.Contingent Claims Analysis of Corporate Capital Structures:An Empirical Investigation[J].JournalofFinance,1984,39(3):611-25.DOI.org/10.1111/j.1540-6261.1984.tb03649.x.
[5] Das S R,Tufano P.Pricing Credit-Sensitive Debt When Interest Rates,Credit Ratings and Credit Spreads Are Stochastic[M].Social Science Electronic Publishing,1997.
[6] Jarrow R A,Lando D,Turnbull S M.A Markov Model for the Term Structure of Credit Risk Spreads[J].ReviewofFinancialStudies,1997,10(2):481-523.DOI.org/10.1093/rfs/10.2.481.
[7] Duffie D,Singleton K J.Modeling Term Structures of Defaultable Bonds[J].RevFinancStud,1999,12(4):687-720(34).DOI.org/10.1093/rfs/12.4.687.
[8] Elton E J,Gruber M J,Agrawal D,etal.Explaining the Rate Spread on Corporate Bonds[J].JournalofFinance,1999,56(1):247-277(31).DOI.org/10.1111/0022-1082.00324.
[9] Elton E J,Gruber M J,Agrawal D,etal.Factors Affecting the Valuation of Corporate Bonds[J].SocialScienceElectronicPublishing,2002,28(11):2747-2767.DOI.org/10.2139/ssrn.307139.
[10] Liang J,Zhao Y,Zhang X.Utility Indifference Valuation of Corporate Bond with Credit Rating Migration by Structure Approach[J].EconomicModelling,2016,54:339-346.DOI.org/10.1016/j.econmod.2015.12.002.
[11] Altman E I.Financial Ratios,Discriminant Analysis and the Prediction of Corporate Bankruptcy[J].TheJournalofFinance,1968,23(4): 589-609.DOI: 10.1111/j.1540-6261.1968.tb00843.x.
[12] Finkelstein V,Pan G,Lardy J P,etal.CreditgradesTMTechnical Document[Z].Riskmetrics Group,2002.
[13] Au K,Chan F,Wang D,etal.Mood in Foreign Exchange Trading:Cognitive Processes and Performance[J].OrganizationalBehaviorandHumanDecisionProcesses,2003,91: 322-338.DOI.org/10.1016/S0749-5978(02)00510-1.
[14] Porcelli A J,Delgado M R.Acute Stress Modulates Risk Taking in Financial Decision Making[J].PsychologicalScience,2009,20:278-283.DOI.org/10.1111/j.1467-9280.2009.02288.x.
[15] Suthaharan S.Support Vector Machine[M].Machine Learning Models and Algorithms for Big Data Classification.Springer US,2016:207-235.
Media-adjusted Credit Bond Valuation and Its Applications
PANG Youming1,2,JIANG Hongxun1*
(1.SchoolofInformation,RenminUniversityofChina,Beijing100872;2.NationalAssociationofFinancialMarketInstitutionalInvestors,Beijing100033,China)
Credit bonds valuation is one of the very important problems for accounting and risk management. CreditGrades Model is the mainstream bond valuation model but fails to reflect the situation of default events. This paper proposed an improve model based on media opinion mining. Compared with the classic mode,the model has three advantages. (1) The classic evaluation method cannot absorb all the market information and convert it to the price of bond accurately and timely,so we decide to revise the classic evaluation method by collecting and processing text information relating to bond. We use the techniques of text mining, sentiment analysis and SVM for text data preprocessing, converting text information to data information and forecast the value of bond respectively. This study solves this issue by using the techniques that has been proved reliability. (2) This study can be applied to any kind of bond, especially those transacts relatively not frequently. (3) We can come up with a method for develop the stop-word dictionary, user dictionary and sentiment dictionary that are used for a special field. The experimental results demonstrate that the new model outperforms the original by reducing mean square error from 0.134 to 0.056.
credit bond;bond valuation;credit spreads;sentiment analysis;TF-IDF
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.01.001
2016-11-20;
2016-12-07
國(guó)家自然科學(xué)基金(71571183);教育部人文社科基金(12YJA630046)
龐有明(1990-),男,碩士研究生,研究方向?yàn)樯缃粩?shù)據(jù)挖掘、服務(wù)運(yùn)籌優(yōu)化,E-mail:pangyouming@ruc.edu.cn
*通信作者:蔣洪迅(JIANG Hongxun),E-mail:jianghx@ruc.edu.cn
TP391;F83
A
0253-2395(2017)01-0001-13