馬俊偉,王鐵軍,李 慶,林漳希,2
(1.西南財(cái)經(jīng)大學(xué)金融智能與金融工程重點(diǎn)實(shí)驗(yàn)室,成都 611130;2.德克薩斯理工大學(xué)商務(wù)智能高級(jí)研究中心,美國(guó)德克薩斯州 79409)
促使投資者在金融市場(chǎng)做出交易決策,從而最終形成股票的市場(chǎng)價(jià)格,這個(gè)問(wèn)題一直是經(jīng)濟(jì)學(xué)、行為金融學(xué)關(guān)注的一個(gè)熱點(diǎn)。以Stiglitz和Kyle為代表的市場(chǎng)微觀結(jié)構(gòu)學(xué)者對(duì)這個(gè)問(wèn)題的解釋是:市場(chǎng)存在不同類型的投資者,投資者根據(jù)自己擁有的信息進(jìn)行交易,這些交易行為促成市場(chǎng)價(jià)格的形成。與此同時(shí),投資者的私有股票信息也通過(guò)價(jià)格傳遞出去,循環(huán)往復(fù),最終形成市場(chǎng)定價(jià)機(jī)制[1-3]。
雖然對(duì)這個(gè)問(wèn)題的理論解釋已比較完備,但對(duì)這些理論進(jìn)行驗(yàn)證一直是個(gè)難題。由于影響投資者行為的信息來(lái)源非常廣泛,其中包括報(bào)刊、影視和網(wǎng)絡(luò)信息。因此很難對(duì)這些信息進(jìn)行收集、量化并進(jìn)行實(shí)證。隨著信息技術(shù)的發(fā)展,特別是數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)、金融領(lǐng)域的應(yīng)用,近10年來(lái)媒體信息和股票市場(chǎng)相關(guān)關(guān)系的實(shí)證研究大量出現(xiàn)[4-6]。Tetlock等[5]通過(guò)人工收集《華爾街日?qǐng)?bào)》中的文本信息,并進(jìn)行詞匯情感分析,發(fā)現(xiàn)媒體信息與股票價(jià)格高度相關(guān),證明了公共媒體信息對(duì)股票市場(chǎng)具有導(dǎo)向作用。相比于傳統(tǒng)媒體,網(wǎng)絡(luò)有信息來(lái)源公開(kāi)、信息傳遞速度快的優(yōu)點(diǎn),更能驗(yàn)證信息對(duì)金融市場(chǎng)的影響。因此Antweiler等[7]收集了Yahoo金融板塊中45個(gè)與美國(guó)上市公司相關(guān)的信息,證實(shí)這些信息與股票當(dāng)天波動(dòng)率和交易量顯著相關(guān)。
在我國(guó),公共媒體信息對(duì)股票市場(chǎng)的研究剛剛起步,楊繼東[8]基于理性投資者和有限理性投資者假設(shè),分析媒體信息影響股票市場(chǎng)的傳導(dǎo)過(guò)程并建立了理論模型。董大勇[9]通過(guò)問(wèn)卷調(diào)查方式,證實(shí)了我國(guó)金融類論壇的內(nèi)容能幫助投資者獲得真實(shí)信息,并體現(xiàn)出投資者的投資意愿。饒育蕾等[10]使用新浪網(wǎng)搜索引擎,通過(guò)人工檢索的方式獲取網(wǎng)絡(luò)信息,通過(guò)因子模型證實(shí)了網(wǎng)絡(luò)信息量對(duì)我國(guó)股票的收益率有顯著影響。
但以上研究受制于技術(shù)水平,普遍采用人工記錄的方法搜集數(shù)據(jù)。因此,樣本數(shù)據(jù)相比于整體數(shù)據(jù)較少,無(wú)法有效地代表投資者面對(duì)的海量網(wǎng)絡(luò)信息。筆者針對(duì)國(guó)內(nèi)57家上市公司股票,使用信息抓取技術(shù)取得與之相關(guān)的2 854 061條網(wǎng)絡(luò)文本信息,解決了數(shù)據(jù)獲取難題。通過(guò)建立因子模型和時(shí)間序列模型,進(jìn)行以下兩方面研究:1)我國(guó)金融論壇上的信息是否能代表投資者獲取的私人信息,是否會(huì)影響投資者的投資行為,最終影響股票價(jià)格走勢(shì);2)在我國(guó),網(wǎng)絡(luò)媒體信息是否會(huì)對(duì)股票波動(dòng)率產(chǎn)生影響,不同質(zhì)量的網(wǎng)絡(luò)信息能否對(duì)股票市場(chǎng)的作用水平是否一致。
筆者利用Java程序(程序由作者設(shè)計(jì)調(diào)試,使用NETBEANS 7.2和HTML PARSER工具包完成)從東方財(cái)富“股吧”(股吧網(wǎng)絡(luò)地址:http://guba.eastmoney.com/)獲取公司板塊中的論壇文本信息,作為網(wǎng)絡(luò)輿論的數(shù)據(jù)來(lái)源。根據(jù)CNNIC(China National Network Information Center)第31次《中國(guó)互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告》,截至2012年12月底,我國(guó)網(wǎng)民規(guī)模達(dá)到5.64億,互聯(lián)網(wǎng)普及率為42.1%。由此可見(jiàn),網(wǎng)絡(luò)中的信息以裂變方式傳播,較報(bào)紙、電視等傳統(tǒng)媒體,其傳遞速度更快,影響范圍更廣[11]。因此,選取網(wǎng)絡(luò)論壇信息衡量投資者獲得的公共投資信息,能使結(jié)果更具說(shuō)服力。
根據(jù)咨詢機(jī)構(gòu)iResearch對(duì)國(guó)內(nèi)信息媒體的調(diào)研結(jié)果證實(shí),“股吧”是中國(guó)股民關(guān)注度最高的股票論壇。而東方財(cái)富股吧更是創(chuàng)業(yè)板上市公司——東方財(cái)富(股票代碼:300059)的核心資源,相對(duì)其他論壇,其數(shù)據(jù)內(nèi)容豐富完整,信息散布速度也更快。所以東方財(cái)富股吧中的帖子有很強(qiáng)的代表性,有很高的學(xué)術(shù)研究?jī)r(jià)值。因此在這個(gè)論壇上抓取了與57家代表性上市公司相關(guān)的、從2007年1月到2012年3月的所有帖子,總共2 854 061條記錄。圖1描述了在這段時(shí)間文本信息數(shù)量的變動(dòng),可以看出,具有明顯的季節(jié)效應(yīng),在公司年報(bào)發(fā)布前后信息發(fā)布量會(huì)放大。在整理每日新貼數(shù)的統(tǒng)計(jì)特征后發(fā)現(xiàn),整個(gè)分布具有明顯的有偏和厚尾(有偏表現(xiàn)為偏度不為零;厚尾表現(xiàn)為高于正態(tài)分布的峰度,分布函數(shù)的尾端較長(zhǎng))特征,證明新貼數(shù)量激增的情況經(jīng)常出現(xiàn)。而這段時(shí)間往往與宏觀信息發(fā)布、企業(yè)年報(bào)發(fā)布等重大事件相關(guān),一定程度上證明貼吧信息量和股市波動(dòng)有相關(guān)關(guān)系。如,在2011年10月20日,財(cái)政部發(fā)布地方債試點(diǎn)的相關(guān)法規(guī),造成其后幾日股票市場(chǎng)大幅震蕩,相應(yīng)的,這幾日的網(wǎng)絡(luò)文本信息數(shù)量也顯著高于平均水平。
圖1 文本信息量隨時(shí)間變動(dòng)曲線Fig.1 Number of new posts
筆者進(jìn)行信息采集時(shí)分別記錄了以下信息:1)該文本信息所針對(duì)的股票;2)該信息公布的時(shí)間(精確到秒);3)信息發(fā)布的論壇賬號(hào);4)文本信息內(nèi)容(包括帖子本身信息及跟帖信息)。股吧中的所有信息都依據(jù)討論的股票區(qū)分版塊,版塊的名稱是對(duì)應(yīng)股票的簡(jiǎn)稱。因此,在進(jìn)行信息采集時(shí),通過(guò)信息在論壇中的位置對(duì)信息進(jìn)行定位和識(shí)別。在帖子發(fā)布日期的歸類方面,考慮到收市后的信息只能影響第2天的股票交易,所以取每日下午3點(diǎn)為分割點(diǎn),在此時(shí)間之后的信息都?xì)w入第2天,使文本信息和股價(jià)信息的時(shí)間順序統(tǒng)一。圖2描述了浦發(fā)銀行(600000)相關(guān)帖子的字?jǐn)?shù)分布。數(shù)據(jù)來(lái)源于20 000個(gè)實(shí)際樣本。在這些樣本中,發(fā)現(xiàn)99%的帖子字?jǐn)?shù)都小于189,平均數(shù)約為30。分布圖有很明顯的長(zhǎng)尾特征,有部分帖子字?jǐn)?shù)非常多,甚至接近400字,后面的實(shí)證研究將進(jìn)一步分析不同字?jǐn)?shù)帖子的質(zhì)量區(qū)別,以及其對(duì)股票的影響。
根據(jù)以上統(tǒng)計(jì)結(jié)果,筆者將依據(jù)帖子字?jǐn)?shù)的經(jīng)驗(yàn)分布對(duì)網(wǎng)絡(luò)信息進(jìn)行分類。具體分類方法是將帖子依照字?jǐn)?shù)排序,然后取4個(gè)分位數(shù)(分別為23、43、63、85),依據(jù)分位數(shù)對(duì)所有帖子依字?jǐn)?shù)分割成5組:QUA1、QUA2、QUA3、QUA4和QUA5。這樣可以保證每組的帖子數(shù)量相同,而不同組分別代表不同字?jǐn)?shù)區(qū)間的帖子。Rieh[12]的實(shí)證證明,網(wǎng)絡(luò)文本信息的字?jǐn)?shù)和信息容量、信息的可信度及發(fā)帖者的情緒和意圖有顯著關(guān)系,因而這種分組方法,能將具有相似內(nèi)容特征的網(wǎng)絡(luò)文本歸類。
圖2 股票600000相關(guān)帖子字?jǐn)?shù)經(jīng)驗(yàn)分布Fig.2 Posting empirical distribution on words number of firm 600000
目前股票的價(jià)格模型主要有兩類:一類是以資產(chǎn)定價(jià)模型(CAPM:Capital Asset Pricing Model)為代表的因子模型;另一類是以條件異方差模型(GARCH:Generalized Autoreg Ressive Conditional Heteroskedasticity)為代表的時(shí)間序列模型。筆者將使用參考文獻(xiàn)[4-7]的結(jié)果,驗(yàn)證以下假設(shè):1)股票收益率序列與當(dāng)日文本信息的總體數(shù)量相關(guān),信息量越大的組,對(duì)股票影響力越大;2)股票收益率的波動(dòng)率序列與當(dāng)日的網(wǎng)絡(luò)文本數(shù)量呈正向相關(guān)關(guān)系,網(wǎng)絡(luò)關(guān)注度越高的股票,在第2日的市場(chǎng)波動(dòng)也越大。
在早期的股票價(jià)格模型研究中,因子模型表現(xiàn)出了非常好的實(shí)證結(jié)果,而且這個(gè)模型直觀地展示出了因子間的相互作用關(guān)系[13,14]。因此,首先在CAPM模型的基礎(chǔ)上加入了當(dāng)日新發(fā)布帖子數(shù)目,以此驗(yàn)證文本信息數(shù)量和股票價(jià)格間的關(guān)系。模型1為
表1 模型1回歸結(jié)果Tab.1 Regression result of model 1
從總體回歸結(jié)果可看出,與國(guó)外研究一樣,中國(guó)股票收益率與網(wǎng)絡(luò)文本信息有顯著的相關(guān)性。其中αi的系數(shù)非常小,但t統(tǒng)計(jì)量和F統(tǒng)計(jì)量都足夠大,說(shuō)明雖然網(wǎng)絡(luò)文本信息對(duì)股票價(jià)格的影響很顯著,但影響的效果非常小。為解釋這個(gè)結(jié)果,筆者將模型1中的變量依照表1的方法,分成5組,重新進(jìn)行回歸,模型2為
表2 模型2回歸結(jié)果Tab.2 Regression result of model 2
因子模型的回歸結(jié)果證實(shí)假設(shè)1是成立的,證明我國(guó)網(wǎng)絡(luò)輿論對(duì)股票收益率有顯著的影響,而且不同字?jǐn)?shù)的網(wǎng)絡(luò)文本對(duì)股票價(jià)格走勢(shì)的作用方向并不相同。
為增加以上實(shí)證結(jié)果的穩(wěn)健性,筆者采用條件異方差模型(GARCH)對(duì)第1個(gè)假設(shè)再次進(jìn)行檢驗(yàn),并通過(guò)波動(dòng)率建模,驗(yàn)證第2個(gè)假設(shè),研究波動(dòng)率與網(wǎng)絡(luò)文本信息的相關(guān)性。
金融資產(chǎn)波動(dòng)率具有時(shí)變性、長(zhǎng)記憶性、聚集效應(yīng)、非對(duì)稱性等特點(diǎn)。面對(duì)波動(dòng)率的這些性質(zhì),以條件異方差模型和SV(Stochastic Volatility)模型為代表的波動(dòng)率模型被廣泛使用[15,16],大量實(shí)證也證實(shí)了這些模型描述波動(dòng)率沖擊的效果很好[17,18],而且波動(dòng)率對(duì)資產(chǎn)管理和資產(chǎn)組合的選擇具有重大影響。因此,筆者選用能準(zhǔn)確捕捉到以上特征的GJR-GARCH(1,1)模型對(duì)所有57支股票進(jìn)行估計(jì),模型3、模型4分別為
使用當(dāng)日總發(fā)帖量作為解釋變量,分別對(duì)新息和歷史波動(dòng)率進(jìn)行回歸,回歸方程為
表3 式(5)回歸結(jié)果Tab.3 Regression result of formula(5)
接著用分組數(shù)據(jù)對(duì)式(5)進(jìn)行拓展,得到
并用固定效應(yīng)面板回歸計(jì)算參數(shù)。表4為式(6)的回歸結(jié)果。
表4 式(6)回歸結(jié)果Tab.4 Regression result of formula(6)
從式(5)和式(6)的回歸結(jié)果可以看出,未進(jìn)行文本分類的式(5),網(wǎng)絡(luò)總體信息量對(duì)收益率新息εi的影響因子很小;而在進(jìn)行了文本分類的式(6)中,第2組到第5組信息對(duì)εi的影響因子都變大了,而且,第1組網(wǎng)絡(luò)文本信息對(duì)εi的影響不夠顯著。這說(shuō)明,網(wǎng)絡(luò)上字?jǐn)?shù)較少、信息量較少的帖子和第2天股票收益率相關(guān)性不大。但信息量較大的帖子與收益率有更顯著的關(guān)系,但第2組到第4組的影響方向是負(fù)的,只有字?jǐn)?shù)最大的一組關(guān)系是正的。這一結(jié)論再次印證了因子模型的結(jié)論,證明假設(shè)一成立。
對(duì)于收益率方差序列hi,式(5)的結(jié)果顯示,日新帖數(shù)量越多,第2日收益率的波動(dòng)率hit越大,但影響系數(shù)很小。而從式(6)的分組回歸結(jié)果來(lái)看,字?jǐn)?shù)最少的第1、第2組文本信息和字?jǐn)?shù)最多的第5組文本信息對(duì)歷史波動(dòng)率的影響都非常顯著,但每組影響因子并不相同,體現(xiàn)為如果當(dāng)日字?jǐn)?shù)較少的網(wǎng)絡(luò)信息較多,往往會(huì)造成相關(guān)股票第2日的劇烈波動(dòng)。從統(tǒng)計(jì)特征上看,這部分網(wǎng)絡(luò)信息的作用類似于噪音,雖然能引起價(jià)格的震蕩,但對(duì)價(jià)格的引導(dǎo)缺乏方向性,所以這些信息只對(duì)第2天的波動(dòng)產(chǎn)生影響,而與收益率的作用反而不顯著。因此假設(shè)二也成立,股票的網(wǎng)絡(luò)文本數(shù)量與第2日的市場(chǎng)波動(dòng)率正向相關(guān),但不同字?jǐn)?shù)的文本體現(xiàn)出的相關(guān)性并不相同。
使用網(wǎng)絡(luò)抓取技術(shù),獲得了與57家上市公司相關(guān)的2 854 061網(wǎng)絡(luò)輿情信息,分析其中的內(nèi)容并進(jìn)行歸類,使用這些信息代表投資者獲得的金融媒體信息。通過(guò)建立因子模型和時(shí)間序列模型,研究了不同類型網(wǎng)絡(luò)文本信息和股票市場(chǎng)的相關(guān)性,得到以下結(jié)論。
1)對(duì)于單只股票,其網(wǎng)絡(luò)信息量和第2天的市場(chǎng)收益率有顯著的相關(guān)性,但影響力不大。這個(gè)結(jié)果與其他學(xué)者針對(duì)報(bào)紙等傳統(tǒng)媒體進(jìn)行的,股票市場(chǎng)影響因素的研究具有相似的結(jié)論接近。因此,我國(guó)金融論壇上的信息能很好地代表投資者獲得的金融類公共媒體信息。
2)通過(guò)分析不同信息量的金融論壇新帖與股票收益率的相關(guān)性,發(fā)現(xiàn)信息量越大的網(wǎng)絡(luò)新帖對(duì)股票隔日收益率的作用越明顯。因此可以證明,信息量越大的帖子,對(duì)投資者的影響力越大,最終對(duì)市場(chǎng)的作用力也更強(qiáng)。
3)網(wǎng)絡(luò)信息量同GARCH模型下股票收益率的歷史波動(dòng)率也有相關(guān)性。表現(xiàn)為字?jǐn)?shù)較少的網(wǎng)絡(luò)信息越多,股票在第2日的波動(dòng)性越大??梢詫⑦@一現(xiàn)象解釋為:信息量過(guò)少的新帖大量涌現(xiàn),說(shuō)明投資者,特別是散戶投資者對(duì)這一股票的關(guān)注度增加,因而造成第2日市場(chǎng)交易活躍,從而收益的波動(dòng)率增大。但這部分帖子數(shù)量激增也體現(xiàn)出了投資者對(duì)這只股票的未來(lái)走勢(shì)分歧較大,所以這些信息不能對(duì)股票第2日的走勢(shì)造成一致性影響,最終無(wú)法對(duì)股票收益率產(chǎn)生顯著的影響。
總之,我國(guó)網(wǎng)絡(luò)金融輿情信息和股票市場(chǎng)有顯著但很復(fù)雜的相關(guān)性,證明在我國(guó),公共網(wǎng)絡(luò)媒體已成為眾多投資者搜集信息、散布信息的重要途徑。使用信息挖掘技術(shù)分析網(wǎng)絡(luò)文本數(shù)據(jù)能為投資者提供很好的投資建議,同時(shí)也能為監(jiān)管機(jī)構(gòu)監(jiān)督市場(chǎng)運(yùn)行提供巨大幫助。
[1]GROSSMAN S J,STIGLITZ J E.On the Impossibility of Informationally Efficient Market[J].The American Economic Review,1980,70(3):393-408.
[2]KYLE A S.Continuous Auctions and Insider Trading[J].Econometrica,1985,53(6):1315-1335.
[3]LAMBERT R A,LEUZ C,VERRECCHIA R E.Information Asymmetry,Information Precision and the Cost of Capital[J].Review of Finance,2012,16(1):1-29.
[4]TETLOCK P C.Giving Content to Investor Sentiment:The Role of Media in the Stock Market[J].The Journal of Finance,2007,62(3):1139-1168.
[5]TETLOCK P C,TSECHANSKY M S.More Than Words:Quantifying Language to Measure Firms'Fundamentals[J].The Journal of Finance,2008,63(3):1437-1467.
[6]MITCHELL M L,MULHERIN J H.The Impact of Public Information on the Stock Market[J].The Journal of Finance,1994,49(3):923-950.
[7]ANTWEILER W,F(xiàn)RANK M Z.Is All That Talk just Noise?the Information Content of Internet Stock Message Board[J].The Journal of Finance,2004,59(3):1259-1294.
[8]楊繼東.媒體影響了投資者行為嗎?——基于文獻(xiàn)的一個(gè)思考[J].金融研究,2007,329(11):93-102.YANG Jidong.Does Media Effects Investors Behavior?——Research Based on Literature[J].Journal of Financial Research,2007,329(11):93-102.
[9]董大勇.投資者參與股票論壇的影響因素[J].系統(tǒng)工程,2011,205(1):51-56.DONG Dayong.Influencing Factors of Investors'Participation in Stock Forums[J].Systems Engineering,2011,205(1):51-56.
[10]饒育蕾,彭疊峰,成大超.媒體注意力會(huì)引起股票的異常收益嗎?——來(lái)自中國(guó)股票市場(chǎng)的經(jīng)驗(yàn)證據(jù)[J].系統(tǒng)工程理論與實(shí)踐,2010,30(2):287-297.XIAO Yulei,PENG Diefeng,CHENG Dachao.Does Media Attention Cause Abnormal Return?——Evidence from China's Stock Market[J].Systems Engineering-Theory & Practice,2010,30(2):287-297.
[11]田占偉,隋玚.基于復(fù)雜網(wǎng)絡(luò)理論的微博信息傳遞實(shí)證分析[J].圖書(shū)情報(bào)工作,2012,56(8):42-46.TIAN Zhanwei,SUI Yang.The Empirical Analysis of Micro-Blog Information Flow Based on Complex Network Theory [J].Library and Information Service,2012,56(8):42-46.
[12]RIEH S Y.Judgment of Information Quality and Cognitive Authority in the Web[J].Journal of the American Society for Information Science and Technology,2002,53(2):145-161.
[13]BLUME M E,F(xiàn)RIEND I.A New Look at the Capital Asset Pricing Model[J].Journal of Finance,1973,28(1):19-34.
[14]FAMA E F,F(xiàn)RENCH K R.Common Risk Factor in the Returns on Stocks and Bonds[J].Journal of Financial Economics,1993,33(1):3-56.
[15]BAILLIE R T,BOLLERSLEV T,MIKKELSEN H O.Fractionally Integrated Generalized Autoregressive Heteroskedasticity[J].Journal of Econometrics,1996,74(1):3-30.
[16]GLOSTEN L R.Runkle,Relationship between the Expected Value and the Volatility of the Nominal Excess Return on Stocks[D].Department of Finance,Columbia University,1989.
[17]ENGLE R F,NG V K.Measuring and Testing the Impact of News on Volatility[J].Journal of Finance,1993,48(5):1749-1779.
[18]ENGLE R F.Forecasting Intraday Volatility in the US Equity Market:Multiplicative Component GARCH [J].Journal of Financial Economics,2012,10(1):54-83.