每個(gè)平臺(tái)的用戶(hù)都像是亞馬遜叢林里的“蝴蝶”,他們扇動(dòng)翅膀,可能影響到股票走勢(shì)。
如今,這些沉淀的數(shù)據(jù)試圖預(yù)測(cè)股市“風(fēng)口”,不過(guò),信息的傳播是否足夠自由是其最大挑戰(zhàn)。
南方周末記者 劉志毅 發(fā)自杭州
BAT再度碰頭,手中武器未變,背景換成了全民熱捧的大牛市?;ヂ?lián)網(wǎng)巨頭們祭出“大數(shù)據(jù)”這一殺器,試圖為變幻莫測(cè)的股市“風(fēng)口”提供路標(biāo)。
自2014年9月份以來(lái),新浪財(cái)經(jīng)、百度以及阿里旗下的螞蟻金服陸續(xù)與基金公司、指數(shù)公司合作,發(fā)布相應(yīng)的大數(shù)據(jù)指數(shù)基金產(chǎn)品。據(jù)南方周末記者了解,騰訊也正在與某基金公司洽談合作,出品自己的大數(shù)據(jù)指數(shù)基金。
此刻A股瘋牛暫歇,走出了普天同漲的熱鬧局面之后,個(gè)股開(kāi)始顯著分化。
資金卻不改饑渴。從機(jī)構(gòu)到散戶(hù),每一筆資金都在急切地尋找著可能將爆發(fā)的領(lǐng)域、題材或者概念。但前往“風(fēng)口”的路并不好走,市場(chǎng)里的一個(gè)小噴嚏,都可能令投資人措手不及。
以上與互聯(lián)網(wǎng)公司合作的基金無(wú)一例外地宣稱(chēng),其利用各自互聯(lián)網(wǎng)平臺(tái)的大數(shù)據(jù)優(yōu)勢(shì),能夠更及時(shí)地感應(yīng)到輿論、市場(chǎng)或者行業(yè)的情緒變化,并在一個(gè)更短的周期里迅速調(diào)整決策,以獲得更穩(wěn)定優(yōu)質(zhì)的回報(bào)。
眾神齊聚,剩下的問(wèn)題只有一個(gè),大數(shù)據(jù)真的能幫你避開(kāi)風(fēng)險(xiǎn),并如愿找到“風(fēng)口”嗎?
用“衛(wèi)星”監(jiān)控行業(yè)
抓住社交平臺(tái)的總體情緒,似乎就抓住了許多事情的走向。
按照傳統(tǒng)投資理論,一只股票的價(jià)值事實(shí)上在于其公司未來(lái)的盈利能力,以及市場(chǎng)對(duì)該能力值的綜合預(yù)期?!盀榱吮M可能合理地做判斷,以前的投資人都要看財(cái)報(bào),派專(zhuān)人去公司調(diào)研,或者跟他的上下游供應(yīng)商客戶(hù)去交流。但等到財(cái)報(bào)來(lái)了,數(shù)據(jù)至少已經(jīng)滯后一個(gè)季度了?!蔽浵伣鸱嚓P(guān)人士對(duì)南方周末記者說(shuō)。在他眼里,大數(shù)據(jù)做的事情,就是實(shí)時(shí)監(jiān)控行業(yè)情況。
擁有數(shù)百年悠久歷史的金融行業(yè)對(duì)于各實(shí)體行業(yè)里公司的估值事實(shí)上已經(jīng)有了一套成熟的方法論,大數(shù)據(jù)并沒(méi)有改變這個(gè)方法論,而是為其帶來(lái)了最新鮮及時(shí)的數(shù)據(jù)。
“美國(guó)有一家投資機(jī)構(gòu)干了一件事兒,用衛(wèi)星拍各大商場(chǎng)的停車(chē)場(chǎng)的車(chē)的數(shù)量,推導(dǎo)進(jìn)超市買(mǎi)東西的人的頻次、密集度,來(lái)分析快消行業(yè)的景氣程度。”上述人士對(duì)南方周末記者說(shuō),“但是成本太高,現(xiàn)在這么多的交易在網(wǎng)上進(jìn)行,電商數(shù)據(jù)就
可以起到這個(gè)衛(wèi)星的作用?!?/p>
在“中證淘金大數(shù)據(jù)100指數(shù)”中,螞蟻金服的貢獻(xiàn)是一個(gè)叫做“行業(yè)景氣指數(shù)”的因子。影響這個(gè)“行業(yè)景氣指數(shù)”的變量包括行業(yè)價(jià)格、行業(yè)活力、行業(yè)供需等,這些數(shù)據(jù)都能夠從電商平臺(tái)的數(shù)據(jù)沉淀中獲知,計(jì)算方法則根據(jù)行業(yè)不同各有差異。
每天,經(jīng)由阿里系平臺(tái)發(fā)生的上億筆支付都將匯總到相應(yīng)的“行業(yè)景氣指數(shù)”中,經(jīng)過(guò)脫敏后,對(duì)下個(gè)月的淘金100指數(shù)標(biāo)的組合產(chǎn)生影響。這似乎是“蝴蝶效應(yīng)”的一個(gè)微觀(guān)模型:每一個(gè)參與網(wǎng)購(gòu)的用戶(hù)都像是亞馬遜叢林里的“蝴蝶”,他們扇動(dòng)翅膀,可能影響到的是整個(gè)行業(yè)的股票走勢(shì)。螞蟻金服也在其內(nèi)部PPT上寫(xiě)道,“收益源于你——沒(méi)有你的行為就沒(méi)有淘金100大數(shù)據(jù),作為聰明的消費(fèi)者,定會(huì)投資自己的行為,分享原本就屬于你的收益?!?/p>
從牛市中的表現(xiàn)來(lái)看,各只大數(shù)據(jù)指數(shù)基金都十分搶眼,多有超過(guò)大盤(pán)的表現(xiàn)。2015年第一季度,“中證淘金大數(shù)據(jù)100指數(shù)”收益率41.48%,同期的上證指數(shù)上漲15.01%。
這樣的嘗試在海外早有先例。2011年5月,對(duì)沖基金公司Derwent Capital Markets發(fā)布了世界上首只社交媒體對(duì)沖基金。它實(shí)時(shí)接收Twitter等社交媒體上的信息,將所有用戶(hù)產(chǎn)生的與目標(biāo)股票公司相關(guān)的文字編碼為積極、平穩(wěn)和消極三個(gè)情緒指標(biāo),再根據(jù)情緒指標(biāo)進(jìn)行投資決策。這只對(duì)沖基金在交易的首月就實(shí)現(xiàn)了遠(yuǎn)高于其他對(duì)沖基金平均數(shù)的收益率。
背后還不乏學(xué)術(shù)界的實(shí)證研究。
美國(guó)印第安納大學(xué)約翰·博倫(Johan Bollen)等人2011年3月發(fā)表的研究《Twitter mood predicts stock markets(推特情緒預(yù)測(cè)股票市場(chǎng))》稱(chēng),Twitter上的發(fā)言所體現(xiàn)的情緒能夠?qū)善笔袌?chǎng)有預(yù)測(cè)作用,如果合適地度量投資者情緒,進(jìn)而可指導(dǎo)投資。
如果按照更細(xì)的情緒狀態(tài)編碼推文,并與社會(huì)事件做對(duì)比,Twitter甚至?xí)褚粋€(gè)活生生的人一樣——在大選前一日開(kāi)始緊張,在大選日當(dāng)天變得冷靜、活力、友善、幸福,在大選日后又回歸平常;在西方傳統(tǒng)的感恩節(jié)當(dāng)天,整個(gè)Twitter洋溢著濃濃的幸福味道,過(guò)后又恢復(fù)正常。
這些研究者還發(fā)現(xiàn),同樣的方法在預(yù)測(cè)電影票房、選舉結(jié)果等方面都有不俗表現(xiàn)。還有類(lèi)似的論文對(duì)google的搜索日志進(jìn)行研究,發(fā)現(xiàn)對(duì)股票的搜索熱度同樣對(duì)股市有預(yù)測(cè)性。
廣發(fā)證券做過(guò)一個(gè)更簡(jiǎn)單的研究。其統(tǒng)計(jì)了百度新聞下的滬深300指數(shù)成分股的新聞數(shù)量,上市公司的新聞突然增多就視為利好,反之視為利空。對(duì)2011年至2014年5月2日的歷史數(shù)據(jù)回測(cè)發(fā)現(xiàn),僅通過(guò)監(jiān)測(cè)新聞的多寡,就可實(shí)現(xiàn)37.03%的年化收益,而同期滬深300指數(shù)卻下跌了16.24%。
抓住社交平臺(tái)的總體情緒,似乎就抓住了許多事情的走向。但遺憾的是,研究者們也意識(shí)到,大數(shù)據(jù)對(duì)于會(huì)沖擊金融市場(chǎng)的突發(fā)事件仍舊無(wú)可奈何。
同一個(gè)世界,不同的入口
不同的數(shù)據(jù)來(lái)源特性也決定了大數(shù)據(jù)的不同擅長(zhǎng)領(lǐng)域。
大數(shù)據(jù)在這一領(lǐng)域的應(yīng)用,使得每一個(gè)平臺(tái)的入口地位顯得更為珍貴。有入口才有數(shù)據(jù)沉淀,有了數(shù)據(jù)沉淀才有了一切可能。
不同的數(shù)據(jù)來(lái)源特性也決定了大數(shù)據(jù)的不同擅長(zhǎng)領(lǐng)域。電商是阿里當(dāng)仁不讓的王牌,于是電商消費(fèi)數(shù)據(jù)就成了預(yù)測(cè)的依據(jù)之一。不過(guò)由于數(shù)據(jù)入口的性質(zhì)不一,每顆“衛(wèi)星”能監(jiān)測(cè)到的范圍也各有不同。
以阿里的淘金100指數(shù)為例,其官方資料稱(chēng),電商數(shù)據(jù)涉及三十余個(gè)行業(yè),覆蓋了70%的上市公司,但顯而易見(jiàn)的是,鋼鐵、保險(xiǎn)、基礎(chǔ)設(shè)施建設(shè)等行業(yè)則成了電商數(shù)據(jù)難以覆蓋的領(lǐng)域。
涉獵面更廣的搜索引擎則在此有更大空間。上海交通大學(xué)互聯(lián)網(wǎng)學(xué)者魏武揮在鈦媒體的專(zhuān)欄文章中分析到,螞蟻金服基于交易流水的數(shù)據(jù),清洗工作量相對(duì)小,但覆蓋面對(duì)經(jīng)營(yíng)者端(to B)的行業(yè)有點(diǎn)吃力,“百度百發(fā)基于搜索的指數(shù),能覆蓋到幾乎所有的行業(yè)。數(shù)據(jù)源強(qiáng)大但過(guò)于碎片,數(shù)據(jù)清洗工作量大?!?/p>
相應(yīng)地,騰訊在社交和娛樂(lè)方面的優(yōu)勢(shì),也可能在后期展現(xiàn),但是同樣面臨數(shù)據(jù)結(jié)構(gòu)化的難題。盡管還沒(méi)有正式推出真正意義上的大數(shù)據(jù)指數(shù)產(chǎn)品,騰訊在炒股APP上早有布局,騰訊財(cái)經(jīng)中心金融產(chǎn)品組負(fù)責(zé)人張軍對(duì)南方周末記者表示,“騰訊自選股有五千萬(wàn)以上的用戶(hù),某一類(lèi)人加入或者剔除了某一只自選股,也很能說(shuō)明關(guān)注度的變化。大數(shù)據(jù)不僅僅是(財(cái)經(jīng)報(bào)道)文章,還有很多其他指標(biāo)?!?/p>
新浪財(cái)經(jīng)給南方周末記者的回復(fù)中顯示,他們提供大數(shù)據(jù)支持的南方大數(shù)據(jù)系列指數(shù)在決策時(shí)加入的參考因子包括海量的財(cái)經(jīng)資訊,以及日均過(guò)百萬(wàn)條的財(cái)經(jīng)博文等。
在公共領(lǐng)域幾乎具有壟斷優(yōu)勢(shì)的新浪微博則是他們的另一個(gè)殺手锏,5億多注冊(cè)賬號(hào)以及與這些賬號(hào)直接相連的超過(guò)5萬(wàn)個(gè)應(yīng)用,產(chǎn)生巨量的用戶(hù)行為數(shù)據(jù),反映市場(chǎng)情緒?!俺怂阉髁亢完P(guān)注度,我們還有文本分析與情感判斷,如果一個(gè)行業(yè)在新浪上的搜索和關(guān)注度特別高,我們會(huì)進(jìn)一步判斷與這個(gè)行情相關(guān)的資訊和用戶(hù)內(nèi)容,區(qū)分出是點(diǎn)贊,還是吐槽。”
易方達(dá)基金副總裁陳彤剛從硅谷考察歸來(lái),考察的對(duì)象也是大數(shù)據(jù)。他的感受是,擁有數(shù)據(jù)源一方很容易變得更有影響力——當(dāng)數(shù)據(jù)的“烹調(diào)方法”被學(xué)會(huì)之后,占有絕對(duì)原材料的一方就理所當(dāng)然變得更強(qiáng)勢(shì)。魏武揮甚至“腦洞大開(kāi)”地預(yù)測(cè),下一個(gè)做大數(shù)據(jù)指數(shù)的是搜狗,因?yàn)槠漭斎敕ǖ臄?shù)據(jù)沉淀可以輕易獲知人們正在用的詞是哪些。
陳彤問(wèn)美國(guó)的數(shù)據(jù)分析公司,如何保證擁有大數(shù)據(jù)的公司會(huì)愿意提供數(shù)據(jù)來(lái)合作?!耙粋€(gè)可能就是,讓那些大公司成為你的股東,但是這樣是不是又會(huì)影響到你分析東家的數(shù)據(jù)時(shí)的客觀(guān)性呢?”易方達(dá)的大數(shù)據(jù)產(chǎn)品也早在醞釀之中,不過(guò)在數(shù)據(jù)穩(wěn)定之前料不會(huì)示人。
博時(shí)基金對(duì)媒體稱(chēng),螞蟻金服行業(yè)景氣指數(shù)是其獨(dú)特的信息源,也是編制指數(shù)的三大因子之一,有獨(dú)特作用。根據(jù)博時(shí)基金測(cè)算,螞蟻金服行業(yè)景氣指數(shù)在整體所有因子中的權(quán)重大約是在1/4到1/3左右,這也是隨著不同年份和不同市場(chǎng)的情況變化的。
接近博時(shí)基金的人士透露,加入大數(shù)據(jù)因子,給指數(shù)多帶來(lái)了大約30%的超額收益。另兩個(gè)因子,是博時(shí)基金傳統(tǒng)的財(cái)務(wù)因子和市場(chǎng)驅(qū)動(dòng)因子。
極其類(lèi)似的是,新浪與南方基金等公司合作發(fā)布的南方i100大數(shù)據(jù)指數(shù)的三大因子也包括傳統(tǒng)的財(cái)務(wù)、市場(chǎng)驅(qū)動(dòng)因子,與螞蟻金服僅有一點(diǎn)不一樣,新浪提供的是投資者情緒因子。與Twitter類(lèi)似,新浪微博也可以很好地體現(xiàn)市場(chǎng)情緒。但是一個(gè)重要的前提是——信息的傳播足夠自由。
大數(shù)據(jù)是“長(zhǎng)跑選手”
大數(shù)據(jù)投資,不僅需要長(zhǎng)時(shí)間的實(shí)踐來(lái)檢驗(yàn)?zāi)P?,也更傾向于做長(zhǎng)期的理性投資。
大數(shù)據(jù)在投資策略上的應(yīng)用才剛剛上路。
“大數(shù)據(jù)處理需要一套較為復(fù)雜的系統(tǒng),通過(guò)回歸分析、因子分析等方法把重要的變量篩選出來(lái)。目前在中國(guó),完全基于大數(shù)據(jù)的(策略)還沒(méi)有。更多時(shí)候,大數(shù)據(jù)是作為一個(gè)重要因子,給事物分析提供一種參考?!标愅f(shuō)。張軍也持相同觀(guān)點(diǎn),“大數(shù)據(jù)因子只能占到整個(gè)選股策略中的部分權(quán)重,如果你的大數(shù)據(jù)是100%的權(quán)重,業(yè)績(jī)想必會(huì)很差?!?/p>
廣發(fā)基金大數(shù)據(jù)部副總經(jīng)理季峰對(duì)百度成功預(yù)測(cè)高考作文題印象深刻,通過(guò)大數(shù)據(jù)篩選出的高考作文主題和關(guān)鍵詞,在2014年命中了2/3的高考作文題。2014年的巴西世界杯期間,百度又成功預(yù)測(cè)了八強(qiáng)和四強(qiáng)球隊(duì)。
不過(guò)季峰發(fā)現(xiàn),即便能夠掌握到人們?cè)谝粭l新聞上停留的時(shí)間長(zhǎng)短,選擇股票還是沒(méi)有這么簡(jiǎn)單?!氨╋L(fēng)科技連拉37個(gè)漲停,可能當(dāng)時(shí)是市場(chǎng)關(guān)注度最高的,但是僅憑這個(gè)指標(biāo)把它選進(jìn)來(lái),可能就剛好高位接盤(pán)了;工商銀行在搜索行為中的絕對(duì)存量排名靠前,但是也難以被選入投資組合,因?yàn)樗墓蓛r(jià)表現(xiàn)大家也都能看出來(lái),我們并非單純依靠一兩個(gè)指標(biāo)去選股。你怎么去處理這個(gè)數(shù)據(jù),怎么翻譯,是一個(gè)核心的問(wèn)題?!睂?duì)于公募基金而言,價(jià)格異動(dòng)、風(fēng)險(xiǎn)偏高都會(huì)成為股票進(jìn)入投資組合的障礙。
數(shù)據(jù)的波動(dòng)過(guò)大,甚至可能會(huì)被作為數(shù)據(jù)噪點(diǎn)處理,這就要對(duì)算法進(jìn)行進(jìn)一步調(diào)整。在市場(chǎng)的檢驗(yàn)中,模式識(shí)別、機(jī)器學(xué)習(xí),乃至人工調(diào)整都將不斷優(yōu)化既有的模型?!爸辽僖?jīng)歷一個(gè)完整的股市周期,我們才能比較完整地看到這種策略的有效性?!睆堒娬f(shuō),巴菲特有一個(gè)著名的比喻是,只有在退潮時(shí),你才能看到誰(shuí)在裸泳。
從這個(gè)意義上說(shuō),大數(shù)據(jù)是一個(gè)“長(zhǎng)跑選手”,不僅需要長(zhǎng)時(shí)間的實(shí)踐來(lái)檢驗(yàn)?zāi)P?,也更傾向于做長(zhǎng)期的理性投資。
不過(guò)牛市之下,帶有“大數(shù)據(jù)”字樣的指數(shù)基金一銷(xiāo)售起來(lái)都是“超短跑選手”。常常等不到第二個(gè)申購(gòu)日,基金公司就不得不因滿(mǎn)額而宣布提前結(jié)束申購(gòu)。
4月22日,由新浪財(cái)經(jīng)與南方基金合作的南方大數(shù)據(jù)100指數(shù)基金于發(fā)售當(dāng)天一日售罄,配售比為27.88%。4月10日,廣發(fā)百度百發(fā)100E類(lèi)份額第二次打開(kāi)申購(gòu),僅在百度金融中心的渠道內(nèi),4分鐘的申購(gòu)金額就過(guò)億。這次申購(gòu)只有5億元的額度,每位投資者限額30萬(wàn)元,卻有20.32億元的資金申購(gòu),最終配售比例是24.6%。
陳彤對(duì)大數(shù)據(jù)分析的另一個(gè)擔(dān)憂(yōu)是隱私,企業(yè)可在個(gè)人無(wú)法控制或不知曉的情況下,收集、存儲(chǔ)、分析和利用個(gè)人數(shù)據(jù)。他曾在一家著名的數(shù)據(jù)公司看到,對(duì)某個(gè)產(chǎn)品的評(píng)論可以直接顯示到發(fā)言的具體個(gè)人。“你可以想象這是多么恐怖”,后來(lái)這家公司在更新版本時(shí)就調(diào)整為只顯示評(píng)論的性質(zhì)、相應(yīng)的比例,而不會(huì)具體到個(gè)人。從其官方網(wǎng)站上的信息源logo來(lái)看,騰訊微博和新浪微博已是這家著名公司的數(shù)據(jù)來(lái)源。
出于對(duì)商戶(hù)數(shù)據(jù)安全的考慮,螞蟻金服表示,雖然完全有能力,但是他們不會(huì)做某一個(gè)具體企業(yè)的數(shù)據(jù)。“全部經(jīng)過(guò)脫敏后使用,開(kāi)放給外部的一些金融機(jī)構(gòu),”螞蟻金服維他命平臺(tái)的孔令西對(duì)南方周末記者說(shuō),“我們擁有數(shù)據(jù),但我們想要搭建的還是一個(gè)生態(tài),讓機(jī)構(gòu)入駐進(jìn)來(lái),然后利用這些開(kāi)放的數(shù)據(jù)開(kāi)發(fā)出更多產(chǎn)品?!?/p>
依靠這些巨量的平臺(tái)入口,每一個(gè)用戶(hù)在貢獻(xiàn)著自己的行為數(shù)據(jù)。每分每秒,機(jī)器在不斷整理、分析,并以此為人們做出決策參考,甚至直接代替人們瞬時(shí)作出重大的投資決定。
虎嗅網(wǎng)的一篇專(zhuān)欄文章?lián)俗隽艘粋€(gè)大膽的想象,當(dāng)人工智能通過(guò)深度學(xué)習(xí)等技術(shù)能夠控制媒體寫(xiě)作與輿論的時(shí)候,基于輿論的自動(dòng)決策系統(tǒng)進(jìn)而敏感快速地作出相應(yīng)交易,然后輿論被人工智能進(jìn)一步加強(qiáng),自動(dòng)決策系統(tǒng)再次啟動(dòng)……進(jìn)入一個(gè)循環(huán)中。
其調(diào)侃地寫(xiě)道,“A股市場(chǎng)能不能上10000點(diǎn)和人類(lèi)一點(diǎn)關(guān)系都沒(méi)有……那時(shí),資本市場(chǎng)已經(jīng)和整個(gè)人類(lèi)都沒(méi)有關(guān)系了?!?/p>