亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        異構(gòu)數(shù)據(jù)融合驅(qū)動的股市波動預(yù)測研究

        2023-07-17 15:09:20葉慕戎魯越譚楚婷
        計算機應(yīng)用文摘·觸控 2023年13期
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

        葉慕戎 魯越 譚楚婷

        摘要:由于股票市場具有復(fù)雜性、動態(tài)性和混亂性等諸多特點,其波動易受各種信息源的影響,因此對其預(yù)測具有相當(dāng)?shù)奶魬?zhàn)性,而機器學(xué)習(xí)方法的應(yīng)用在目前取得了一定的成功。文章從深度學(xué)習(xí)方法出發(fā),融合多種數(shù)據(jù)源,提出一種異構(gòu)數(shù)據(jù)融合驅(qū)動的神經(jīng)網(wǎng)絡(luò)模型,探索股市輿情、量化指標與股價波動的內(nèi)在聯(lián)系,以及媒體信息對股市波動的影響機制。

        關(guān)鍵詞:多特征融合;輿情分析;股市預(yù)測;LDA;神經(jīng)網(wǎng)絡(luò)

        中圖法分類號:TP181 文獻標識碼:A

        1 引言

        由于金融時間序列數(shù)據(jù)存在復(fù)雜、非線性、難以預(yù)測的情況,因此股票市場的預(yù)測任務(wù)充滿挑戰(zhàn)[1] ,金融業(yè)界也一直在尋找能夠系統(tǒng)地預(yù)測未來資產(chǎn)收益的方法,嘗試預(yù)測資產(chǎn)的有效收益,然而股票市場處于極其動蕩和嘈雜的環(huán)境中,這項任務(wù)無疑困難重重。傳統(tǒng)股票預(yù)測方法往往僅依賴歷史定量數(shù)據(jù)進行擬合分析,如價格、交易量、周轉(zhuǎn)率等。作為定量數(shù)據(jù)的補充,文本信息也成為部分研究者關(guān)注的對象[2] 。使用計算機技術(shù)抽取海量輿情觀點,對文本進行挖掘爬取處理,將特征進行整合,可以分析出股票市場發(fā)展動態(tài)的優(yōu)劣,為每個投資者提供各自不同且具有針對性的建議和方法。隨著文本情感分析的高速發(fā)展,簡單文本極性判斷已不能滿足人們對互聯(lián)網(wǎng)的需求,跨學(xué)科、跨平臺的研究,將文本分析技術(shù)廣泛應(yīng)用在不同的領(lǐng)域。將引導(dǎo)機制、營銷理論以及多元盈利模式融合,以提高模型性能。隨著數(shù)據(jù)挖掘的深入,面向股票市場領(lǐng)域的細粒度情感分析技術(shù)的應(yīng)用解決了隱式情感難提取、文本不規(guī)范等問題。學(xué)者正應(yīng)用實踐企圖證實輿論與股票市場的相關(guān)性以及試圖應(yīng)用輿論預(yù)測市場的走向[3~5] 。

        本文主要討論了量化指標、股市輿情與股價波動間的潛在關(guān)聯(lián),為金融從業(yè)者、研究者提供了一種全新的視角,以行為金融學(xué)對行為人決策的研究成果為研究基礎(chǔ),尋求投資者在金融市場中可能會受到來自認知系統(tǒng)的各種偏差及對其信息處理和決策過程的影響,以期建立一個從投資者情緒到投資者行為,再到投資者行為對金融市場和實體經(jīng)濟影響的科學(xué)研究模式。

        2 文獻綜述

        多源數(shù)據(jù)融合技術(shù)是數(shù)據(jù)挖掘與機器學(xué)習(xí)領(lǐng)域中一種常見的特征處理手段,基于人工智能、模式識別、統(tǒng)計推斷等,在醫(yī)療診斷、目標識別、自動駕駛等領(lǐng)域都有著良好的應(yīng)用,通過融合不同數(shù)據(jù)源、不同粒度的信息,可以更好地捕捉數(shù)據(jù)之間的高階特征交互。

        在國內(nèi),陳曉美[6] 開展了對于Web2.0 的網(wǎng)絡(luò)評論信息的分析研究,通過領(lǐng)域知識進行互補,構(gòu)建了基于“觀點?領(lǐng)域知識?主題”的新型知識搜索體系,以發(fā)現(xiàn)網(wǎng)絡(luò)評論中的觀點知識;郭光明[7] 設(shè)計了概率主題模型LUBD?CM,并將其應(yīng)用于刻畫用戶信用屬性,融合社交數(shù)據(jù)中用戶信用畫像的有效信息,以搭建用戶信用畫像預(yù)測系統(tǒng);賀雅琪[8] 根據(jù)Dempster?Shafer證據(jù)理論,提出了一種數(shù)據(jù)融合框架,實現(xiàn)了對多源數(shù)據(jù)的決策級融合;鄧烜堃構(gòu)建了一種基于有限布爾茲曼機的深度自編碼器,實現(xiàn)了對高位金融數(shù)據(jù)的特征降維并構(gòu)建了回歸模型預(yù)測股價,通過實證表明自編碼器提取特征的效果優(yōu)于傳統(tǒng)主成分分析與因子分析等方法;王乾基于股票歷史數(shù)據(jù)、財經(jīng)新聞數(shù)據(jù)、股票社交輿情3 種信息源,使用LSTM 網(wǎng)絡(luò)對個股漲跌趨勢進行預(yù)測,通過實證證明了多源數(shù)據(jù)預(yù)測的合理性;黃潔云提出充分利用股市多源數(shù)據(jù),并使用小波變換捕捉時間序列波動趨勢,同時對文本數(shù)據(jù)使用BERT 模型提取其文本情感特征,融合量化特征與文本特征并預(yù)測股票波動;張露設(shè)計了一種SBV 多源信息融合模型,有效解決了財務(wù)預(yù)警問題中的有效樣本不平衡問題,實現(xiàn)了對股市財務(wù)預(yù)警的精確預(yù)測;劉政昊從知識關(guān)聯(lián)視角構(gòu)建了一個金融領(lǐng)域知識圖譜,嘗試發(fā)現(xiàn)股票之間的關(guān)聯(lián)性與隱含特征,為投資者提供指導(dǎo)建議;耿立校提出了一種基于多源異構(gòu)數(shù)據(jù)的LSTM 模型,結(jié)合了歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)3 類數(shù)據(jù),對股票波動走勢進行實時預(yù)測,并驗證了其有效性和可行性。

        3 模型設(shè)計

        3.1 基于LDA 的情緒指數(shù)構(gòu)建

        LDA 是一種無監(jiān)督學(xué)習(xí)主題模型,無需人工對訓(xùn)練集進行標注,僅利用文檔集合就可以依概率分布顯示出每篇文檔的主題。對于文本的處理以及數(shù)據(jù)的挖掘,LDA 模型是一個常用的文本建模方法,可以有效地從文本中提取所需的重要信息。對于文本中隱含情緒的提取以及建模,LDA 模型克服了傳統(tǒng)文本相似度的比較方法中的缺點,大幅提升了提取分析的效率。

        作為經(jīng)典主題模型之一,LDA 的核心思想是將文檔表示為若干個潛在的主題,其中每個主題都通過一定量的單詞來描述,具體而言,通過參數(shù)估計得到詞匯概率分布,并結(jié)合各文檔主題概率分布進行判斷,從而將詞項空間的全部詞匯聚類轉(zhuǎn)移到主題空間中,達到提取文本主題的目的。通過對每個詞w 的主題z進行采樣,基于其統(tǒng)計頻次,計算得到文本主題k 中的詞項概率分布φk 和第m 篇文檔的主題概率分布θm ,其LDA 聯(lián)合概率為:

        在得到文本主題詞匯后,本文使用開源情感分析工具Snownlp 得到其情感評分,其底層算法為樸素貝葉斯模型。其訓(xùn)練過程實質(zhì)上是統(tǒng)計每一個特征出現(xiàn)的頻次,通過對文本打上正、負極性的標簽,將每一個詞匯視作相互獨立的特征,統(tǒng)計各個詞匯特征出現(xiàn)的頻次與訓(xùn)練樣本中的詞匯總數(shù),就可以將情感極性分析任務(wù)轉(zhuǎn)化為一個貝葉斯分類模型,具體公式為:

        其中,c1, c2 為情感極性(積極或消極),w1,w2,…wn為每個詞匯出現(xiàn)的頻次,即特征n 為詞匯數(shù)。

        3.2 基于Auto?Encoder 的特征提取

        由于股票市場指標種類繁多,需要接受大量輸入信息,而且不同技術(shù)指標之間往往存在多重共線性的可能,為降低數(shù)據(jù)維度,提取出原數(shù)據(jù)中最具代表性的信息,壓縮輸入信息量,實現(xiàn)特征重構(gòu)與特征提取。

        本文建立了Auto?Encoder 自編碼器模型,實現(xiàn)了由高維數(shù)據(jù)到低維數(shù)據(jù)的壓縮編碼。在處理統(tǒng)計特征的部分,依次完成差分處理、對數(shù)變換和標準化,提取時間序列的統(tǒng)計特征,以Auto?Encoder 模型提取重要因子,并加入模型。

        自編碼器(Auto?Encoder, AE)是一種經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,主要由編碼器(Encoder)及解碼器(Decoder)構(gòu)成,其主要原理是將輸入樣本通過編碼器映射至一個特征空間中,接著通過解碼器將已完成編碼的抽象特征映射回原始空間,以得到重構(gòu)樣本,然后對比輸入和輸出,使二者不斷逼近,最終實現(xiàn)特征提取。通過學(xué)習(xí)到的新特征,Auto?Encoder 可以重構(gòu)出原始輸入數(shù)據(jù),解碼成更低維的數(shù)據(jù)。設(shè)輸入樣本為x,抽象特征為y,重構(gòu)樣本為x ,編碼函數(shù)為f(x),解碼函數(shù)為g(x),誤差為e,則有:

        3.3 基于LSTM 的股價波動預(yù)測

        長短時記憶網(wǎng)絡(luò)( Long Short?Term Memory,LSTM)是一種深度神經(jīng)網(wǎng)絡(luò)模型,在語音識別、股指預(yù)測等涉及序列數(shù)據(jù)的任務(wù)中具有相當(dāng)廣泛的應(yīng)用。

        LSTM 模型隸屬于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)的一種,由于其能夠處理長時序列,比RNN 更適用于處理和預(yù)測時間序列數(shù)據(jù)。傳統(tǒng)RNN模型試圖通過循環(huán)來讓信息連續(xù)傳遞,然而隨著句子距離的增加,RNN 將難以連接相關(guān)信息,也就是俗稱的遠程依賴問題,該網(wǎng)絡(luò)的設(shè)計本意正是希望克服遠距離依賴問題, 并在各種任務(wù)中取得優(yōu)異表現(xiàn)。

        LSTM 模型由遺忘門、輸入門、輸出門3 部分組成,引入了單元狀態(tài)的概念,其模型架構(gòu)為:

        其中,σ 為激活函數(shù),W 為權(quán)重矩陣,b 為偏置項,ft ,it ,ot 和ct 分別為輸入門、遺忘門、輸出門和單元激活向量,ht 為輸出激活函數(shù)。

        近年來, LSTM 受到了很多科學(xué)家的青睞,其在輿情分析任務(wù)中的應(yīng)用均取得了較好的效果,并在多個領(lǐng)域成為不可替代的一部分。通過LSTM 模型可以準確捕捉股市輿情間的高階特征交互,并基于反復(fù)迭代訓(xùn)練學(xué)到記憶哪些信息和遺忘哪些信息?;谠冢蹋模?主題模型中得到的關(guān)聯(lián)關(guān)系,結(jié)合股票的發(fā)布時間、漲跌情況、股民評價、公司經(jīng)營狀況等軌跡,預(yù)測其未來的發(fā)展熱度,使用神經(jīng)循環(huán)網(wǎng)絡(luò),能夠更好地擬合波動趨勢,誤差較小,預(yù)測精度較高,進而為廣大投資者的投資決策提供了一定的輔助參考作用。

        4 結(jié)束語

        本文主要研究了基于多源異構(gòu)數(shù)據(jù)的股指趨勢預(yù)測,嘗試將股市信息歸納為歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)3 類數(shù)據(jù)源,通過設(shè)計不同的特征工程手段將不同種類數(shù)據(jù)融合至一處,然后輸入AE?LSTM 模型實現(xiàn)對股票指數(shù)波動的預(yù)測,有效改進了模型效果。同時,通過與若干基線的對照實驗,驗證了模型的先進性與可行性。

        隨著互聯(lián)網(wǎng)信息技術(shù)的高速發(fā)展,信息發(fā)布與傳播速度愈發(fā)加快,數(shù)據(jù)量級呈現(xiàn)出井噴式的增長,導(dǎo)致社會投資者難以甄別其中的有效信息。然而由于股票市場的復(fù)雜性,歷史交易數(shù)據(jù)、量化指標數(shù)據(jù)、文本評論數(shù)據(jù)均會影響投資者在股票市場中的決策行為,進而對股票收益率和流動性產(chǎn)生影響。因此本文基于前人基礎(chǔ),對股票的相關(guān)輿論信息進行數(shù)據(jù)挖掘,提出了量化數(shù)據(jù)與文本數(shù)據(jù)的融合方法,基于LDA 構(gòu)建文本主題特征,基于AE?LSTM 模型預(yù)測股票價格走勢,相信未來能夠在股票投資領(lǐng)域發(fā)揮重要作用。

        參考文獻:

        [1] 李尚昊,朝樂門.文本挖掘在中文信息分析中的應(yīng)用研究述評[J].情報科學(xué),2016,34(8):153?159.

        [2] 王超.輿情熱度對股市收益的影響[D].杭州:浙江大學(xué),2020.

        [3] 孫明璇,李莉莉.基于數(shù)據(jù)挖掘的投資者情緒對股市波動影響研究[J].燕山大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2020,21(1):68?77.

        [4] 呂華揆,劉政昊,錢宇星,等.異質(zhì)性財經(jīng)新聞與股市關(guān)系研究[J].?dāng)?shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(1):99?111.

        [5] 劉薇,姜青山,蔣泓毅,等.基于FinBERT?CNN 的股吧評論情感分析方法[J].集成技術(shù),2022,11(1):27?39.

        [6] 陳曉美.網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D].長春:吉林大學(xué),2014.

        [7] 郭光明.基于社交大數(shù)據(jù)的用戶信用畫像方法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2017.

        [8] 賀雅琪.多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)研究及其應(yīng)用[D].成都:電子科技大學(xué),2018.

        作者簡介:葉慕戎(2000—),本科,研究方向:金融數(shù)學(xué)。

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)
        BP神經(jīng)網(wǎng)絡(luò)在路標識別上的應(yīng)用研究
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        基于Alexnet神經(jīng)網(wǎng)絡(luò)的物體識別研究
        電子制作(2019年12期)2019-07-16 08:45:28
        基于BP神經(jīng)網(wǎng)絡(luò)的旋轉(zhuǎn)血泵生理控制
        基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        基于神經(jīng)網(wǎng)絡(luò)分數(shù)階控制的逆變電源
        基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
        電測與儀表(2014年2期)2014-04-04 09:04:04
        成人无码区免费AⅤ片WWW| 99视频30精品视频在线观看| 国产人妖伦理视频在线观看| 精品一区二区三区a桃蜜| 国产三级久久精品三级91| 亚洲av无码精品无码麻豆| 无码人妻丰满熟妇啪啪网不卡| 久久婷婷五月国产色综合| 国产成人综合亚洲看片| 一边吃奶一边摸做爽视频| 亚洲精品黑牛一区二区三区| 国产亚洲精久久久久久无码77777| 亚洲中文字幕久久精品蜜桃| 亚洲中文字幕久爱亚洲伊人| 亚洲国产精品成人久久av| 国产免费99久久精品| 在线观看一区二区三区国产 | 国产精品乱码在线观看| 久久亚洲精品成人综合| 偷拍av一区二区三区| 亚洲成在人网站天堂日本| 亚洲第一女人的天堂av| 精品综合一区二区三区| 亚洲国产一二三精品无码| 内地老熟女老少配视频| 亚洲女人被黑人巨大进入| 国产三级国产精品三级在专区 | 色两性网欧美| 日韩国产精品一本一区馆/在线| 日韩女优一区二区视频| 久久久精品国产亚洲av网麻豆| 日韩精品熟女中文字幕| 人妻丰满熟av无码区hd| 无遮挡h肉动漫在线观看| 最近日本中文字幕免费完整| 91精品国产91久久久无码95| 国产伦码精品一区二区| 日本高清一区二区三区色| 免费人成视频网站在在线| 无码人妻一区二区三区免费看| 国产福利一区二区三区在线观看|