亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        證券研報的文本挖掘與分析

        2023-12-07 12:11:20吳軒藝
        電腦知識與技術(shù) 2023年30期
        關(guān)鍵詞:研報詞頻分詞

        吳軒藝

        (貴州財經(jīng)大學(xué),貴州 貴陽 550025)

        0 引言

        我國的資本市場具有“融資投資、市場定價、資源配置、產(chǎn)權(quán)管理”等多種樞紐功能,能夠有效推動實體經(jīng)濟、促進企業(yè)創(chuàng)新。黨的二十大報告中也論述:在實現(xiàn)中國式現(xiàn)代化的道路上,需要大力發(fā)展多層次資本市場,而資本市場的健康發(fā)展也能夠滿足投資者對實體經(jīng)濟多樣化的金融需求”。

        在資本市場中,周期性的波動除了經(jīng)濟自身的周期性規(guī)律外,還有政治、外交、科技、產(chǎn)業(yè)結(jié)構(gòu)、情緒等諸多外因的影響,而股票市場作為其中之一,是與普通投資者聯(lián)系最為密切,參與度最高的資本市場。大量的股民常常帶著投機心理參與投資,而并不具備專業(yè)投資知識,隨著證券研報的出現(xiàn),讓普通投資者在一定程度快速了解行業(yè)概況上發(fā)揮了巨大的作用。證券研報即證券研究報告,指的是證券公司為提供投資咨詢服務(wù)而發(fā)布的具有一定市場情緒偏好的報告。在信息大爆炸的時代,研報又細(xì)分為行研研報,個股研報,策略報告,新股研報,券商晨報,每日資訊等,根據(jù)中國結(jié)算官網(wǎng)發(fā)布的報告,我國股民數(shù)量已破兩億人次,除了專業(yè)機構(gòu)或公司能夠進行深入實地調(diào)查、獲得一手的投資資料外,絕大多數(shù)的投資者都是依靠各券商分析師發(fā)行的研報來作為投資的依據(jù)[1]。

        但是投資者僅靠一兩篇研報并不能做出正確的投資行為,應(yīng)博采眾長,通過大量研報比較與分析,而由于其精力有限無法集體閱讀,必定就會產(chǎn)生“拍腦袋”決策投資行為;而實際投資活動中研報帶有滯后性,并且大多數(shù)普通投資者都追求短期投機,依研報投資決策的股民在風(fēng)雨突變的股市里其收益率也會大打折扣。從另一角度看,研報之所以依舊重要,主要因為研報是分析師花費大量的時間和精力查閱大量行業(yè)信息,深入市場多渠道采集樣本,通過大量深度思考而得到的研究結(jié)果,有其內(nèi)在的嚴(yán)密邏輯、獨特看法以及對行業(yè)本質(zhì)及規(guī)律性認(rèn)識的研究[2]。雖然對于普通投資者在大多數(shù)投資活動上具有時間差、低回報率的特點,但是對于創(chuàng)業(yè)者、在校畢業(yè)生以及經(jīng)濟愛好者等人群來講,研報是快速了解行業(yè)、判斷其發(fā)展前景、預(yù)測其經(jīng)濟走勢的利器。通過獲取海量研報的重點、熱點等相關(guān)信息快速知曉行業(yè)框架或行業(yè)前景,讓研報信息充分發(fā)揮其最大價值。

        伴隨著大數(shù)據(jù)的深入發(fā)展,除了大量對于結(jié)構(gòu)化數(shù)據(jù)的研究外,眾多文本性數(shù)據(jù)的分析技術(shù)也漸漸成熟。利用機器算法將語言文本進行挖掘、分類、抽取、識別、預(yù)測等又讓學(xué)者們發(fā)現(xiàn)了文本的其他重大信息。但是近年來文本數(shù)據(jù)挖掘分析多應(yīng)用在電商評論、社交媒體留言等方面,很少有學(xué)者將其文本挖掘與分析技術(shù)應(yīng)用于金融行業(yè)研報[3]。主要原因是其金融領(lǐng)域產(chǎn)生更多的是結(jié)構(gòu)化數(shù)據(jù),如金融交易數(shù)據(jù)、歷年國內(nèi)生產(chǎn)總值、可支配收入支出等,因此大都從定量的角度去構(gòu)建量化交易策略、建設(shè)金融計量模型,探討經(jīng)濟數(shù)據(jù)關(guān)系等,而研報作為金融市場上為數(shù)不多的具有完整邏輯體系的非結(jié)構(gòu)化數(shù)據(jù),其傳遞的信息量也具有巨大的參考價值,不只體現(xiàn)在投資領(lǐng)域,更多也體現(xiàn)在判斷行業(yè)規(guī)律以及預(yù)測行業(yè)發(fā)展前景上。并且隨著人工智能與互聯(lián)網(wǎng)的發(fā)展,人們獲取信息其背后都離不開機器對內(nèi)容的理解。文章將文本數(shù)據(jù)挖掘與分析應(yīng)用于金融領(lǐng)域的海量行業(yè)研報上,通過對非結(jié)構(gòu)化數(shù)據(jù)進行分析[3],快速從大量研報中找到行業(yè)關(guān)注重點與方向,滿足人們挖掘信息的相關(guān)需求。

        1 研究工具

        閱讀分析單個或者少量的研報可以通過傳統(tǒng)的人工方法完成,但在如今爆炸似的研報信息面前,無法再單純地依靠人工整理實現(xiàn)。而伴隨著大數(shù)據(jù)應(yīng)運而生的機器學(xué)習(xí)卻能很好地解決該問題。Python是一種面向?qū)ο蟮慕忉屝陀嬎銠C程序設(shè)計語言,其語法簡潔清晰,承載的包和庫種類多樣,在文本挖掘領(lǐng)域有著廣泛的應(yīng)用。一般對于結(jié)構(gòu)性數(shù)據(jù)人們采用pandas、nump、matplotlib庫進行分析與統(tǒng)計,而對于中文文本分析并應(yīng)用廣泛的是jieba,collections,wordcloud,NetworkX等庫。

        1) jieba是強大的Python分詞庫,主要用于中文分詞、關(guān)鍵詞提取、詞性標(biāo)注、詞位置查詢等。在中文里面,詞是最小的能夠獨立運動的且具有意義的語言成分;與西方語言不同的是,詞與詞之間沒有空格之類的標(biāo)志,因而jieba庫的分詞原理主要利用中文詞庫來確定漢字之間的關(guān)聯(lián)概率,也結(jié)合相鄰的字同時出現(xiàn)的次數(shù)越多,越有可能構(gòu)成詞語的規(guī)律來進行統(tǒng)計,找出基于詞頻的最大切分組合,同時在jieba中還可以自定義詞典,通過用戶添加任意詞組進行更加貼合情況的分詞。jieba 分詞主要有三種模式[4]:精確模式、全模式、搜索引擎模式。

        2) collections 庫中的 Counter 計數(shù)器通常用于詞頻統(tǒng)計,可避免使用 for 循環(huán)來手動統(tǒng)計詞頻。Counter 主要對文本數(shù)據(jù)中重要詞匯進行迭代并將出現(xiàn)次數(shù)進行統(tǒng)計,最終返回一個字典,通過觀察詞出現(xiàn)頻次多少的變化,來確定熱點及其變化趨勢。

        3) wordcloud是自然語言處理中常用的方法,可以比較直觀而又突出其重點,關(guān)鍵詞在詞云圖中凸顯的大小和區(qū)域,讓人在視覺上給予更多的關(guān)注。主要代碼如下:

        表1 wordcloud代碼

        4) NetworkX 是Python 編程語言中用于語義網(wǎng)絡(luò)分析的庫,其靈活的數(shù)據(jù)結(jié)構(gòu)和算法,可以輕松創(chuàng)建各種類型網(wǎng)絡(luò)圖來對語義關(guān)系進行分析,可視化展示也使其成為數(shù)據(jù)分析領(lǐng)域中不可或缺的工具之一。其基本原理是將文本數(shù)據(jù)轉(zhuǎn)化為語義網(wǎng)絡(luò),從中提取出關(guān)鍵詞和關(guān)系,建立節(jié)點和邊的圖模型。

        2 文本挖掘

        2.1 數(shù)據(jù)爬取

        利用爬蟲技術(shù)收集東方財富網(wǎng)上汽車整車行業(yè)近兩年的研報內(nèi)容,由于東方財富網(wǎng)的行業(yè)研報數(shù)據(jù)是儲存在同一個url 地址的表格中,爬蟲程序利用while 循環(huán)實現(xiàn)自動表格翻頁爬取[5],將數(shù)據(jù)保存下來,部分代碼如下:

        def yanbao():

        count = 1

        while count <= 25:

        for i in range(1,2):

        def get_data():

        ...

        count = count+1

        if count>=26:

        Break

        同時研報文本信息在‘報告名稱’所記載的網(wǎng)頁中,程序通過讀取表格中每一個‘報告名稱’中URL地址獲取其內(nèi)容,部分代碼如下:

        driver=webdriver.Chrome()

        data=pd.read_excel(r"D:/Users/python write/Python-cut/1.xlsx")

        contents=[]

        def get_contents():

        for url in data[′報告名稱′]:

        driver.get(url)

        最后合并兩者內(nèi)容并以excl形式保存到本地,如表2所示:

        表2 爬取文本信息

        共獲取到2021年9月27日到2023年1月11日的1 171條行業(yè)研報文本數(shù)據(jù),為了數(shù)據(jù)完整性,同時爬取了其日期、評級、評級變動、機構(gòu)名稱等信息。粗略地瀏覽一遍報告內(nèi)容,存在很多廢詞、標(biāo)點等無用信息,需要進一步處理。

        2.2 詞頻與詞云

        導(dǎo)入中文分詞jieba 庫,運用jieba.lcut()語句進行精確分詞,即把文本精確切開后,若經(jīng)過組合還能還原成之前文本同時不存在冗余詞,同時由于時代的發(fā)展會產(chǎn)生大量新詞,再加上金融領(lǐng)域會有一些特有專有名詞,于是構(gòu)建自定義詞典再進行分詞;然后為了不影響文本分析的進行,利用停用詞stopwords,將文本中沒有任何含義的詞篩選出來;最后從collections庫導(dǎo)入 Counter 用于詞頻統(tǒng)計,將之前處理好的文本中的詞進行累計計數(shù),之后利用sort函數(shù)進行排序,將排序靠前的詞,即研報中提及次數(shù)最多的詞和詞頻數(shù)提取出來,部分?jǐn)?shù)據(jù)見圖1:

        圖1 詞頻統(tǒng)計

        詞云也叫文字云,將文本中的關(guān)鍵詞進行渲染以圖片形式呈現(xiàn),更加直觀地了解文本主題。導(dǎo)入wordcloud 庫,圖片蒙版選擇一張本地自有圖片,最終將研報文本詞庫以詞云圖的形式呈現(xiàn),見圖2。

        2.3 語義網(wǎng)絡(luò)分析

        基于語義網(wǎng)絡(luò)分析法,對汽車整車行業(yè)研報進行網(wǎng)絡(luò)分析和關(guān)系挖掘,語義網(wǎng)絡(luò)中的節(jié)點為主題,而邊則表示節(jié)點之間的關(guān)聯(lián)關(guān)系。以此了解研報中對整車行業(yè)做出的主題分析,重點領(lǐng)域介紹等,也可為研究整車行業(yè)的發(fā)展趨勢和政策制定提供參考。文章通過 networkx 等庫,構(gòu)造詞頻矩陣和 TF-IDF 矩陣,并計算相關(guān)系數(shù),最終得到了詞共現(xiàn)分析網(wǎng)絡(luò)的可視化,可以更好地觀察和分析網(wǎng)絡(luò)結(jié)構(gòu)和特征,如圖3所示。

        圖3 語義分析網(wǎng)絡(luò)圖

        3 結(jié)果分析

        文章發(fā)現(xiàn)在獲取的汽車整車行業(yè)研報文本數(shù)據(jù)中,除了本身關(guān)于汽車一詞提及多達(dá)8 314 次外,“同比”和“環(huán)比”一詞分別提及6 258 次和4 817 次,詞云圖也呈現(xiàn)出“銷量”“需求”等詞。說明研究報告大多數(shù)主要從各汽車企業(yè)銷售情況入手,比較其年月的銷量,分析市場需求。

        同時詞頻中“增長”提及3 636 次,“新能源汽車”提及了2 426 次,“新能源車”提及1 197 次,“新能源”提及1 853 次,“政策”提及1 293 次,很明顯汽車行業(yè)主要發(fā)展前景集中在新能源車上,這也與我國綠色發(fā)展政策密不可分,國家一直堅持綠色發(fā)展之路,共創(chuàng)美好未來,并且從2020 年9 月就明確提出了2030 年“碳達(dá)峰”與2060年“碳中和”的目標(biāo),新能源已經(jīng)被稱為第三次能源革命,新能源產(chǎn)業(yè)在未來會將是一片新藍(lán)海[6],其中不乏大量的就業(yè)、創(chuàng)業(yè)機會。

        研報中“智能”提及了2 091 次,詞云圖也直觀地看出“科技”“電動”等詞在文本中是重點。新能源車除了在綠色環(huán)保上下功夫更朝著智能化方向推進,不斷進行迭代與創(chuàng)新,推動著汽車產(chǎn)業(yè)鏈的變革。同時“零部件”一詞提及了2 218 次,在汽車產(chǎn)業(yè)上下游中零部件相關(guān)的產(chǎn)業(yè)鏈也是當(dāng)下關(guān)注的熱點。

        “比亞迪”和“特斯拉”分別談及1 926 次、1 763次,結(jié)合其描述可以看出,兩家公司在新能源車行業(yè)銷量遙遙領(lǐng)先,作為行業(yè)標(biāo)桿,對其研發(fā)投入和發(fā)展規(guī)劃都值得關(guān)注和研究。

        從詞頻圖上還可以看到,“風(fēng)險”“不及”“建議”等詞也多次出現(xiàn),因為研報僅僅是提供一種投資建議,依然存在很多不確定性。畢竟每一個行業(yè)都會有周期性或者突發(fā)事件,如詞云中“疫情”一詞也出現(xiàn)其中,在詞頻中被談及到了1 573次,說明突發(fā)事件也會對汽車行業(yè)的發(fā)展造成相應(yīng)的影響。因而在預(yù)測行業(yè)前景或者做投資決策時,也需要考慮到相關(guān)的問題,防患于未然。

        在語義分析網(wǎng)絡(luò)圖中,研報整體從新能源汽車、銷量、智能化、用車等主題來進行研報的擴展分析,在新能源汽車主題下,主要從企業(yè)角度,如著名的特斯拉、中國的吉利、長安、長城等車企來討論,其中有關(guān)注到該行業(yè)自主研發(fā)芯片、電動化的發(fā)展;其次對于汽車行業(yè)的現(xiàn)狀也有談及,如產(chǎn)業(yè)鏈、零售、消費、政策等主題;同時也有一部分談及了疫情對汽車行業(yè)銷量的影響;并且從增長、有望、提升主題詞看,研報整體對汽車整車行業(yè)的智能化、能源化是抱有積極態(tài)度的。

        4 總結(jié)

        文章通過Python技術(shù)對研報文本的挖掘與分析,從詞頻、詞云、語義網(wǎng)絡(luò)角度出發(fā)對汽車整車行業(yè)作了大致的梳理,明確了該行業(yè)發(fā)展方向、研究熱點以及龍頭企業(yè)等相關(guān)信息,提高了閱讀海量研報的效率和準(zhǔn)確度,為有研報閱讀需求的人們提供了更加高效的方案。

        猜你喜歡
        研報詞頻分詞
        券商最新研報薦股一覽
        券商最新研報薦股一覽
        券商最新研報薦股一覽
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        券商最新研報薦股一覽
        值得重視的分詞的特殊用法
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報》學(xué)術(shù)研究特色
        圖書館論壇(2014年8期)2014-03-11 18:47:59
        中文在线8资源库| 熟女不卡精品久久av| 中文字幕乱码亚洲一区二区三区| 把女人弄爽特黄a大片| 国产在线精品一区二区| 中文不卡视频| 久久91精品国产91久久跳舞| 久久夜色精品国产亚洲av动态图| 亚洲乱码中文字幕综合| 久久久精品国产亚洲AV蜜| 中文字幕被公侵犯的丰满人妻| 97人妻精品一区二区三区男同| 亚洲精品无amm毛片| 少妇AV射精精品蜜桃专区| 免费观看在线一区二区| 日韩有码中文字幕在线观看| 国产麻传媒精品国产av| 亚洲国产精品久久久久秋霞1| 粉嫩的18在线观看极品精品| 亚洲综合av一区二区三区蜜桃| 国产人妻人伦精品1国产盗摄| 丁香婷婷色| 国产特黄a三级三级三中国| 一本久久综合亚洲鲁鲁五月天| 日韩欧美在线综合网| 久久久久亚洲AV无码专区一区| 中文字幕精品一区二区的区别| 色欲色欲天天天www亚洲伊| 一本大道东京热无码中字| 日本熟妇视频在线中出| 精品香蕉一区二区三区| 免费无码又爽又刺激网站| 色二av手机版在线| 国产黑丝美女办公室激情啪啪 | 无码人妻h动漫中文字幕| 日本在线观看| 国产精品亚洲婷婷99久久精品| 亚洲av网站在线观看一页| 精品水蜜桃久久久久久久 | 久久国产在线精品观看| 国产成人亚洲综合色婷婷|