劉建義 周潔 夏換
摘??要:近年來,隨著互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)技術(shù)的不斷發(fā)展,人們獲取投資信息的時(shí)間成本、空間成本不斷地下降,但是信息質(zhì)量卻是變得良莠不齊,投資者特別是新投資者面對海量的金融數(shù)據(jù)信息難以快速地找到自己所需的信息。因此,該文利用LDA主題模型對所爬取的文本信息進(jìn)行挖掘分析,并進(jìn)行了數(shù)據(jù)可視化展現(xiàn)。研究發(fā)現(xiàn)投資者關(guān)注主題熱詞,對投資者現(xiàn)實(shí)的投資行為具有一定的參考意義。
關(guān)鍵詞:投資行為????主題模型????數(shù)據(jù)爬取????SOR模型
中圖分類號:F832.51??????????文獻(xiàn)標(biāo)識碼:A???????????文章編號:1672-3791(2022)06(b)-0000-00
Analysis?and?Research?on?Investors'?Concerned?Index?and?Investment Behavior?Based?on?Text?Mining
LIU?Jianyi1????ZHOU?Jie1?????XIA?Huan2*
(1.Guizhou?University?of?Finance?and?economics;?2.E-commerce?Big?Data?Marketing?Engineering?Research?Center?Guizhou?University?of?Finance?and?Economics,?Guiyang,?Guizhou?Province,?550025?China)
Abstract:In?recent?years,?with?the?continuous?development?of?Internet?technology?and?big?data?technology,?the?time?cost?and?space?cost?of?people's?investment?information?have?been?declining,?but?the?information?quality?has?become?uneven,?and?investors,?especially?new?investors,?cannot?quickly?find?the?information?they?need?in?the?face?of?massive?financial?data.?Therefore,?the?LDA?topic?model?is?used?to?mine?and?analyze?the?crawled?text?information,?and?the?data?is?visualized.?It?is?found?that?investors?pay?attention?to?the?topic?hot?words,?which?has?certain?reference?significance?for?investors'?actual?investment?behavior.
Key?Words:?Investment?behavior;?Theme?model;?Data?crawling;?SOR?model
流量信息時(shí)代的到來對證券投資行業(yè)帶來了巨大的沖擊,人們對于自己投資領(lǐng)域信息的獲取變得更加方便快捷,另外隨著智能終端的全民化以及投資理財(cái)線上化的日趨完善投資理財(cái)?shù)氖鼙娙后w也是橫向加縱向地大范圍擴(kuò)張。而90、00后新生代群體因其對新事物的易接受性以及敢嘗試性逐漸地開始加入到理財(cái)群體中去,特別是在2020年中國股市的牛年,巨大的投資紅利在各種渠道進(jìn)行宣傳吸引了眾多的新生代投資群體,巨大紅利的背后往往隱藏著巨大的風(fēng)險(xiǎn),2021上半年上交所、深交所的指數(shù)一路下滑,導(dǎo)致眾多毫無經(jīng)驗(yàn)的投資者受到了不同程度的損失,也因此產(chǎn)生了一個(gè)新的網(wǎng)絡(luò)熱詞“韭零后”。
面對這樣的沖擊,沒有經(jīng)驗(yàn)的新生代投資者很容易造成情感上的焦慮,進(jìn)而會發(fā)展成心理上的焦慮,而該文為解決新投資者沒有經(jīng)驗(yàn)以及因此造成的情感波動這一問題,使用Python對雪球社區(qū)、騰訊自選股、微博投資理財(cái)超話三個(gè)社區(qū)的2020年1月至2021年9月的投資者討論內(nèi)容和熱點(diǎn)信息的文本進(jìn)行抓取,建立LDA主題模型,篩選關(guān)鍵熱詞并且對其進(jìn)行歸類,另外還對關(guān)鍵熱詞頻次進(jìn)行梳理統(tǒng)計(jì),整合出投資者關(guān)注的投資參考指標(biāo),以及投資行為。
1???國內(nèi)研究綜述
在對國內(nèi)文獻(xiàn)的梳理過程中發(fā)現(xiàn)林樹、葛逸云等利用對基金年報(bào)進(jìn)行文本分析,進(jìn)而探索基金經(jīng)理語調(diào)與投資行為之間的關(guān)系[1];李苗、李村璞對高管的攀比心理、控股股東性質(zhì)對投資行為的影響做出了相關(guān)研究陳述[2];趙勝民、張博超就分析師關(guān)注如何影響公司投資行為——基于不同投資類型的分析[3];馬天平、盧旭蕊等人在“原油寶”事件后對虧損后投資者的風(fēng)險(xiǎn)偏好做了研究和調(diào)查[4];葛如一、胡蓉認(rèn)為智能投顧會影響投資者的投資行為,使得投資者單筆投資額下降、總投資額上升[5]。顏端武、梅喜瑞等人基于主題模型和詞向量融合的微博短文本主題聚類研究,利用LDA主題模型對微博一段時(shí)間內(nèi)的熱點(diǎn)進(jìn)行聚類分析,發(fā)現(xiàn)對微博短文本的處理效果較好[6]。楊奕、張毅以中美貿(mào)易爭端為案例,利用?LDA?主題挖掘與社會網(wǎng)絡(luò)分析算法探究復(fù)雜公共議題下社交媒體演化趨勢,先利用?LDA?主題模型提取出議題關(guān)注主?題,實(shí)現(xiàn)降維分類,然后進(jìn)行主題時(shí)間趨勢分析,最后利用社會網(wǎng)絡(luò)分析構(gòu)建主題詞圖譜,明確了主題議題之間的聯(lián)系[7]。曹樹金、岳文玉就突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析進(jìn)行了相關(guān)研究,通過生命周期理論對突發(fā)公共衛(wèi)生事件微博轉(zhuǎn)播階段進(jìn)行劃分,利用LDA主題模型實(shí)現(xiàn)文本聚類和TF-IDF特征權(quán)重賦值,分析2020年01~04月的熱門微博和評論文本數(shù)據(jù),指出LDA主題模型可以揭示突發(fā)公共衛(wèi)生事件微博的傳播內(nèi)容主題[8]。但是現(xiàn)有文獻(xiàn)中對投資者關(guān)注度及其投資行為的分析較少,所以該文從這一研究角度出發(fā)進(jìn)行深入研究。
2??數(shù)據(jù)和研究方法
2.1??數(shù)據(jù)文本的爬取
數(shù)據(jù)的獲取采用Python爬蟲技術(shù)獲取,利用Python爬蟲第三方庫selenium即瀏覽器自動化操作框架,這里主要用到webdriver這一個(gè)工具,接著利用element_by_xpath或css_selector進(jìn)行數(shù)據(jù)抓取,具體處理過程為:
另外,因?yàn)槲⒉┰u論的特殊性,使用移動端源代碼獲取評論較為簡單,需要找到爬取微博評論的URL、Cookie、Referer、User-Agen;因?yàn)楝F(xiàn)在微博的反爬蟲機(jī)制,20條評論后會出現(xiàn)一個(gè)隨機(jī)變化的max_id和max_id_type參數(shù),設(shè)置代碼捕捉這個(gè)參數(shù)就可以實(shí)現(xiàn)翻頁爬?。ú糠执a展示如下)。
"""提取翻頁的max_id"""
max_id?=?response['data']['max_id']
"""提取翻頁的max_id_type"""
max_id_type?=?response['data']['max_id_type']
在進(jìn)行下一步的研究之前需要將獲取到的數(shù)據(jù)進(jìn)行預(yù)處理,包括殘缺值的處理、相似值的處理等,將處理好的數(shù)據(jù)表格保存整理成.csv.文件。
2.2??爬取文本預(yù)處理
將利用Python爬蟲技術(shù)獲取到的數(shù)據(jù)首先進(jìn)行殘缺值的預(yù)處理,利用人工檢索的方式進(jìn)行補(bǔ)充,查詢不到的則將該條數(shù)據(jù)刪除。然后去除停用詞,停用詞表根據(jù)數(shù)據(jù)集的特殊性進(jìn)行相應(yīng)的調(diào)整,最后利用jieba分詞庫進(jìn)行分詞處理形成可進(jìn)一步分析的數(shù)據(jù)集[9]。
2.3??LDA主題模型邏輯
對蘊(yùn)含著投資者關(guān)注的指標(biāo)文本進(jìn)行主題挖掘,對求助、討論的中文文本進(jìn)行聚類并獲取主題[10]。LDA即三層貝葉斯概率圖,包含文檔、主題、主題詞三層結(jié)構(gòu),這種方法首先選定一個(gè)主題向量θ,確定每個(gè)主題被選擇的概率。然后在生成每個(gè)單詞的時(shí)候,從主題分布向量θ中選擇一個(gè)主題z,按主題z的詞語概率分布生成一個(gè)詞語。其圖模型如圖1所示。
3??研究發(fā)現(xiàn)
在使用LDA主題模型處理文本時(shí)首先需要確定主題的數(shù)量,一方面要考慮模型的適配性,另一方面還要考慮所獲主題詞對文本的解釋性和涵蓋性。為了更科學(xué)地確定主題數(shù)不僅要從模型效果的角度,還要考慮所獲主題是否具有良好的解釋性。擬采用困惑度(Perplexity)指標(biāo)來確定最優(yōu)主題數(shù),困惑度越低,說明聚類的效果越好[11]。
根據(jù)困惑度確定好主題數(shù)之后,進(jìn)行LDA主題模型分析,因此該文在經(jīng)過測試后選擇了8個(gè)主題作為最終的主題數(shù)。
經(jīng)過挖掘和數(shù)據(jù)分析,投資者關(guān)注指標(biāo)主題詞詞表見表1(表格數(shù)據(jù)經(jīng)過二次處理,近義詞進(jìn)行了人工整合)。
根據(jù)表1所獲數(shù)據(jù)可以看到投資者關(guān)注指標(biāo)是非常的多且雜亂的,但是人工二次梳理后會發(fā)現(xiàn)其這些主題指標(biāo)是有內(nèi)在聯(lián)系的。根據(jù)其內(nèi)在屬性和聯(lián)系可以將其進(jìn)行主題編碼,對雜亂的主題進(jìn)行歸類,方便進(jìn)行研究。
同時(shí)為了更加直觀地看出投資者對投資主題熱詞的關(guān)注度,繪制出投資者關(guān)注熱詞TOP16,根據(jù)條形圖所示,(數(shù)據(jù)經(jīng)過二次處理,近義詞進(jìn)行了人工整合)可以看到資金流向是投資者最為關(guān)注的指標(biāo),帶著這一指標(biāo)選取各個(gè)板塊中的部分股票進(jìn)行驗(yàn)證發(fā)現(xiàn)資金流向之所以是大家最關(guān)注的指標(biāo)很大原因在于資金流向是影響股票走勢的最直接的因素之一,在資金里面又以主力資金的流向?yàn)樽蠲舾械闹笜?biāo),主力資金凈流入高股價(jià)便會走紅,反之則很大程度會下跌,而散戶資金正好與之相反[12]。
另外,因?yàn)楂@取樣本的時(shí)間在各上市公司財(cái)務(wù)中報(bào)發(fā)布之后,所以財(cái)務(wù)報(bào)表和其中的某些列示項(xiàng)目再一次引起了投資者的關(guān)注,同樣進(jìn)行二次驗(yàn)證之后發(fā)現(xiàn)主營業(yè)務(wù)營收同比上漲的公司其股價(jià)便是出于上升狀態(tài),反之則是下降狀態(tài)。
為了更方便我們解釋主題詞其中的內(nèi)涵,同時(shí)更加直觀方便地分析其中的內(nèi)在關(guān)聯(lián)。對上述8個(gè)主題依據(jù)其內(nèi)容進(jìn)行歸類,詳見于表2。
第三方機(jī)構(gòu)根據(jù)其性質(zhì)來分析,不難得出其也是屬于投資者的一種。
SOR模型源自心理學(xué),解釋了環(huán)境特征對用戶行為和心理活動的影響,Mechrabian?A和Russell在環(huán)境心理學(xué)的基礎(chǔ)上提出了SOR理論模型,其中S代表外界環(huán)境的刺激(Stimulus),會對主體有影響,O代表有認(rèn)知的有機(jī)體(Organism);在某些外部環(huán)境刺激之后,產(chǎn)生相應(yīng)的心理活動并相應(yīng)做出的行為反應(yīng)(Response)就定義為R,如接受或拒絕、采納或規(guī)避。該文基于刺激-有機(jī)體-反應(yīng)(S-O-R)理論模型,借鑒管理學(xué)、信息學(xué)、心理學(xué)等領(lǐng)域的相關(guān)研究成果,研究互聯(lián)網(wǎng)時(shí)代投資者關(guān)注熱點(diǎn),為新老投資者的投資決策提供科學(xué)數(shù)據(jù)支持[13]。
利用S-O-R理論模型即刺激-機(jī)體-反應(yīng)理論模型,強(qiáng)調(diào)外部環(huán)境的刺激引發(fā)機(jī)體的內(nèi)化作用最后產(chǎn)生機(jī)體的行為變化[14]。以及前文的結(jié)論來分析,其理論影響模型如圖3所示。
根據(jù)上述行為影響模型不難發(fā)現(xiàn)其實(shí)最重要的一環(huán)還是投資者自身的認(rèn)知能力,當(dāng)投資的外部環(huán)境對投資者產(chǎn)生刺激時(shí),投資者自身的認(rèn)知和經(jīng)驗(yàn)就顯得尤為重要,因?yàn)檫@會直接影響下一步的投資行為。
所以投資者在進(jìn)行理財(cái)投資的過程中應(yīng)當(dāng)注意自身理財(cái)技能和認(rèn)知能力的提升,多多關(guān)注財(cái)經(jīng)新聞,特別是當(dāng)下新興流量媒體平臺的興起使得信息的獲取成本降低,為投資者自身投資理財(cái)知識的獲取提供了更多的便利。
4???結(jié)論與展望
根據(jù)研究發(fā)現(xiàn)資金流向成為投資者最為關(guān)注的指標(biāo),并且利用這一指標(biāo)進(jìn)一步發(fā)現(xiàn)了主力資金凈流入和股價(jià)走勢是成正比的。同時(shí)機(jī)構(gòu)、凈利潤、行業(yè)板塊、營業(yè)總收入、估值、財(cái)務(wù)報(bào)表、股價(jià)走勢也是投資者關(guān)注的熱點(diǎn)主題詞。
同時(shí)將主題詞歸類并利用S-O-R理論模型構(gòu)建了影響投資者投資行為的理論模型圖,分析出影響投資者投資行為的內(nèi)外部因素,并且根據(jù)模型指出投資者自身認(rèn)知能力是最重要的一環(huán)。
流量化時(shí)代,新的媒體宣傳平臺再加上智能終端的快速普及使得人人都知道投資理財(cái),投資者群體正在以肉眼可見的速度進(jìn)行增長。因此對投資者關(guān)注主題及其投資行為的分析有助于更好地了解投資者的喜好同時(shí)可以讓新的投資者少走彎路,一定程度上減少投資損失,增強(qiáng)其投資信心,從而可以起到維護(hù)國家金融市場穩(wěn)定,擴(kuò)大資金規(guī)模的作用。
參考文獻(xiàn)
[1] 林樹,葛逸云,朱超.基金經(jīng)理語調(diào)與投資行為——基于基金年報(bào)的文本分析方法[J].證券市場導(dǎo)報(bào),2021(8):58-70.
[2] 李苗,李村璞.高管薪酬攀比心理、控股股東性質(zhì)與投資行為[J].統(tǒng)計(jì)與決策,2021,37(12):178-181.
[3] 趙勝民,張博超.分析師關(guān)注如何影響公司投資行為——基于不同投資類型的分析[J].中央財(cái)經(jīng)大學(xué)學(xué)報(bào),2021(5):51-64.
[4] 馬天平,盧旭蕊,李沁洋.虧損后投資者風(fēng)險(xiǎn)偏好的變化——基于“原油寶”事件的檢驗(yàn)[J].金融論壇,2021,26(9):49-57.
[5] 葛如一,胡蓉.互聯(lián)網(wǎng)金融環(huán)境下智能投顧對于投資行為的影響[J].系統(tǒng)管理學(xué)報(bào),2021,30(1):94-100.
[6] 顏端武,梅喜瑞,楊雄飛,等.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現(xiàn)代情報(bào),2021,41(10):67-74.
[7] 楊奕,張毅.復(fù)雜公共議題下社交媒體主題演化趨勢與社會網(wǎng)絡(luò)分析——以中美貿(mào)易爭端為案例的比較研究[J].現(xiàn)代情報(bào),2021,41(3):94-109.
[8] 曹樹金,岳文玉.突發(fā)公共衛(wèi)生事件微博輿情主題挖掘與演化分析[J].信息資源管理學(xué)報(bào),2020,10(6):28-37.
[9] 楊建梁,劉越男,祁天嬌,等.重大公共衛(wèi)生事件中民眾訴求的主題挖掘與演變透視[J].圖書館論壇,2021,41(4):121-131.
[10] 羅棋,閔超,顏嘉麒,等.國際區(qū)塊鏈研究主題挖掘及演化分析[J].現(xiàn)代情報(bào),2021,41(9):157-166.
[11] 夏鑫,田曉楠,劉永飛,等.投資者關(guān)注、融資融券交易與股價(jià)信息含量——基于交易所互動交易平臺的經(jīng)驗(yàn)數(shù)據(jù)[J].會計(jì)之友,2021(17):75-82.
[12] 王文韜,張震,張坤,等.融合SOR理論的智能健康手環(huán)用戶不持續(xù)使用行為研究[J].圖書館論壇,2020,40(5):92-102.
[13] 黃仕靖,許縵.基于SOR理論的移動電商網(wǎng)絡(luò)直播對用戶在線購買意愿的影響機(jī)制研究[J].統(tǒng)計(jì)與管理,2021,36(7):122-128.
[14] 江琳,李民.基于SOR和TAM的社會化電商用戶持續(xù)意愿影響因素研究[J].科技促進(jìn)發(fā)展,2021,17(4):808-815.