亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘的金融領(lǐng)域知識(shí)發(fā)現(xiàn)研究綜述

        2021-03-01 12:23:46秦江源王宸徐辰星周震霆
        科學(xué)與財(cái)富 2021年27期
        關(guān)鍵詞:數(shù)據(jù)挖掘

        秦江源 王宸 徐辰星 周震霆

        摘 要:在大數(shù)據(jù)時(shí)代的洪流奔涌之下,金融行業(yè)的文本信息量也正飛速增長(zhǎng),使得人們對(duì)金融數(shù)據(jù)的分析與應(yīng)用方式產(chǎn)生了深刻變革,海量、多源、異構(gòu)的金融數(shù)據(jù)正對(duì)金融從業(yè)者帶來(lái)前所未有的困難和挑戰(zhàn)。從金融數(shù)據(jù)之中挖掘出對(duì)金融決策支持有價(jià)值的知識(shí),加快金融企業(yè)面向文書自動(dòng)化的產(chǎn)業(yè)升級(jí),已成為如今金融業(yè)的研究熱點(diǎn)之一,對(duì)金融決策支持過程具有相當(dāng)?shù)囊饬x。

        關(guān)鍵詞:金融文本,數(shù)據(jù)挖掘,知識(shí)發(fā)現(xiàn)

        1.引言

        近幾年隨著金融市場(chǎng)的開放, 外資金融機(jī)構(gòu)的進(jìn)入, 多種金融創(chuàng)新將不斷涌現(xiàn), 競(jìng)爭(zhēng)也隨之不斷加劇。李金迎(2009)指出,各行各業(yè)的數(shù)據(jù)庫(kù)中積累的數(shù)據(jù)中蘊(yùn)含著相當(dāng)?shù)慕鹑陬I(lǐng)域知識(shí),而傳統(tǒng)數(shù)據(jù)挖掘方法,遠(yuǎn)沒有挖掘出數(shù)據(jù)的潛在價(jià)值;何德旭(2011)探討了金融安全網(wǎng)絡(luò)機(jī)制,聯(lián)系了信息框架和金融安全網(wǎng);張永杰(2011)在資產(chǎn)定價(jià)方面開展了研究, 發(fā)現(xiàn)網(wǎng)絡(luò)開源信息中包含對(duì)股票異常日收益率有顯著解釋力的內(nèi)容;朱建平(2011)指出,目前需要采用高頻數(shù)據(jù),在較窄觀測(cè)區(qū)間內(nèi)產(chǎn)生足夠的數(shù)據(jù)量, 同時(shí)對(duì)市場(chǎng)微結(jié)構(gòu)模型做出一定的驗(yàn)證;中國(guó)銀聯(lián)股份有限公司(2013)指出,數(shù)據(jù)時(shí)代, 數(shù)據(jù)已經(jīng)成為企業(yè)創(chuàng)新的核心驅(qū)動(dòng)力和競(jìng)爭(zhēng)力。大數(shù)據(jù)已經(jīng)影響企業(yè)決策方式從“業(yè)務(wù)驅(qū)動(dòng)”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)型;孔翔宇(2016)依據(jù)財(cái)經(jīng)新聞主題與股票市場(chǎng)的相關(guān)性, 提出了基于新聞主題分布的模型,以此進(jìn)行中國(guó)股市漲跌的預(yù)測(cè);鮑捷(2016)提出知識(shí)圖譜是形成投資研究業(yè)務(wù)自動(dòng)化表達(dá)邏輯的基礎(chǔ),在整個(gè)智能金融的技術(shù)鏈條中處于核心地位;汪建基(2017)分析了傳統(tǒng)人工智能方法在處理大規(guī)模碎片化知識(shí)時(shí)存在的問題,討論了碎片化知識(shí)處理組織與學(xué)習(xí)的基本結(jié)構(gòu),指出了行業(yè)知識(shí)圖譜在人工智能知識(shí)發(fā)現(xiàn)中的重要性;2017年7月20日,國(guó)務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,首次提出了智能金融的概念,鼓勵(lì)將智能金融應(yīng)用于智能客服、智能監(jiān)控等等,實(shí)現(xiàn)制造與服務(wù)、金融的智能化融合。

        根據(jù)國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,截至2018年末,全國(guó)共有金融業(yè)企業(yè)法人單位13.7萬(wàn)個(gè),從業(yè)人員1818.0萬(wàn)人;同時(shí),2015年末,經(jīng)濟(jì)學(xué)普通本科在校生與畢業(yè)生數(shù)約116萬(wàn)人,管理學(xué)普通本科在校生與畢業(yè)生數(shù)約360萬(wàn)人,共有合計(jì)約上五百萬(wàn)人的高校市場(chǎng);同時(shí),市場(chǎng)規(guī)模正以每年約10%的速度快速增長(zhǎng),市場(chǎng)潛力可見一斑。鑒于此,本文試圖對(duì)現(xiàn)有文獻(xiàn)進(jìn)行梳理與拓展,分析互聯(lián)網(wǎng)金融對(duì)金融結(jié)構(gòu)的影響,并整理常用的數(shù)據(jù)挖掘方法,探討它們影響金融結(jié)構(gòu)的作用機(jī)制,在此基礎(chǔ)上提出相應(yīng)建議。

        2.數(shù)據(jù)挖掘方法

        數(shù)據(jù)挖掘,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。在實(shí)際應(yīng)用領(lǐng)域中,數(shù)據(jù)挖掘任務(wù)常可被劃分為分類、聚類、預(yù)測(cè)、關(guān)聯(lián)分析等等統(tǒng)計(jì)方法。

        2.1決策樹

        決策樹(decision tree)是數(shù)據(jù)挖掘中的一種常見算法,呈樹形結(jié)構(gòu),能夠利用信息增益尋找數(shù)據(jù)庫(kù)中包含最大信息量的內(nèi)容建立節(jié)點(diǎn),其中每個(gè)內(nèi)部節(jié)點(diǎn)都表示其在一個(gè)屬性上的判斷,每個(gè)分支代表了節(jié)點(diǎn)判斷結(jié)果的輸出,在每個(gè)分枝出的節(jié)點(diǎn)中,重復(fù)判斷、分支的過程,最終建立出決策樹,其中每個(gè)葉節(jié)點(diǎn)均代表了一種分類結(jié)果。決策樹是一種常見的有監(jiān)督分類方法,通過對(duì)已有樣本的學(xué)習(xí),決策樹能對(duì)新進(jìn)入的數(shù)據(jù)做出正確的分類。決策樹的優(yōu)勢(shì)在于其可解釋性,能夠在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)集做出可行性強(qiáng)且效果良好的結(jié)果,且不需要繁瑣的數(shù)據(jù)預(yù)處理。盡管如此,面對(duì)樣本數(shù)量的不平衡問題時(shí),決策樹便會(huì)顯得無(wú)能為力,往往會(huì)偏向于具有更多數(shù)值的特征。

        2.2關(guān)聯(lián)分析

        關(guān)聯(lián)規(guī)則是一種基于規(guī)則的機(jī)器學(xué)習(xí)方法,用于從數(shù)據(jù)集中尋找事件之間的隱含關(guān)系,能反映出事件與其他事件之間的關(guān)聯(lián)性,是數(shù)據(jù)挖掘研究的主要模式之一。關(guān)聯(lián)規(guī)則分析中的衡量方法包括有支持度(Support)、置信度(Confidence) 、提升度 (Lift)。在關(guān)聯(lián)規(guī)則挖掘的研究當(dāng)中,目前影響最廣、使用最頻繁的是Apriori算法, Apriori 算法是一種致力于挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,通過運(yùn)用逐層搜索,在所有的頻繁集中找出強(qiáng)關(guān)聯(lián)規(guī)則。

        2.3神經(jīng)網(wǎng)絡(luò)

        神經(jīng)網(wǎng)絡(luò) (neural network)是近年來(lái)火熱的算法之一,它通過模仿生物神經(jīng)網(wǎng)絡(luò),由大量的人工神經(jīng)元聯(lián)結(jié)進(jìn)行計(jì)算,從而構(gòu)建出復(fù)雜的計(jì)算模型,具有強(qiáng)大的聯(lián)想、記憶、推理功能。其中,誤差反向傳播算法由Romelhart在1986年提出,它將輸出誤差通過隱藏層向輸入層層層傳遞,并傳遞到每層單元使其都獲得誤差信號(hào),同時(shí)修正各單元的權(quán)重,如此反復(fù)直到權(quán)值不斷調(diào)整至最優(yōu),由此得到了一個(gè)多層前饋神經(jīng)網(wǎng)絡(luò)模型,即BP神經(jīng)網(wǎng)絡(luò)模型。BP神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)簡(jiǎn)單,狀態(tài)穩(wěn)定等特點(diǎn),在眾多神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛,在分類、最優(yōu)預(yù)測(cè)等任務(wù)中均有著良好表現(xiàn)。

        3.文本挖掘研究

        3.1情感分析

        在金融領(lǐng)域中,往往需要對(duì)股票論壇中的評(píng)論信息,各金融網(wǎng)站的新聞等進(jìn)行情感傾向分析,以此研究投資者情緒,把握輿情發(fā)展趨勢(shì),為此需要對(duì)評(píng)論進(jìn)行數(shù)據(jù)挖掘與特征提取。文本情感分析,就是對(duì)具有情感色彩的詞、句乃至文檔進(jìn)行分析歸納的過程。首先,需要基于金融語(yǔ)料庫(kù)來(lái)進(jìn)行情感詞典的構(gòu)造,人工標(biāo)注好情感傾向詞匯作為語(yǔ)料庫(kù),然后運(yùn)用樸素貝葉斯網(wǎng)絡(luò),支持向量機(jī)等分類器進(jìn)行分類訓(xùn)練,得到訓(xùn)練完成的分類器后,便可以對(duì)新輸入的評(píng)論數(shù)據(jù)進(jìn)行預(yù)測(cè),得到其情感傾向。

        3.2自動(dòng)摘要

        為從海量的金融研報(bào)、股市要聞,公司公告中提取簡(jiǎn)明扼要的觀點(diǎn),減少金融工作者的閱讀負(fù)擔(dān),自動(dòng)摘要技術(shù)應(yīng)運(yùn)而生。然而,市場(chǎng)對(duì)于金融信息的需求正在日益提高,如何保證自身摘要的可靠性成為了研究者面對(duì)的主要問題。在文本摘要自動(dòng)生成技術(shù)中,以長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short term memory,LSTM)最為見長(zhǎng)。LSTM依靠其長(zhǎng)期記憶能力進(jìn)行語(yǔ)義關(guān)聯(lián),能夠處理任意長(zhǎng)的文本序列,有效解決了傳統(tǒng)模型面對(duì)數(shù)據(jù)不定長(zhǎng)度的困難。LSTM模型的特點(diǎn)是系統(tǒng)的輸出會(huì)一直保留在網(wǎng)絡(luò)中,和模型下一時(shí)刻的輸入共同決定下一時(shí)刻的輸出,因此可以刻畫出復(fù)雜的歷史依賴關(guān)系。

        3.3命名實(shí)體識(shí)別

        面對(duì)著海量的互聯(lián)網(wǎng)金融信息,投資者和決策者常常苦于如何高效的獲取需要的知識(shí)。針對(duì)這一問題,金融命名實(shí)體識(shí)別的實(shí)現(xiàn)將有效提高金融信息的獲取效率,為金融工作者提供有力的信息支撐。

        命名實(shí)體識(shí)別(NER)是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),其主要目標(biāo)是識(shí)別出文本中具有特定意義的實(shí)體,一般包括兩種劃分:實(shí)體、時(shí)間、數(shù)字三大類,人名、地名、組織機(jī)構(gòu)名、時(shí)間、日期、貨幣量、百分?jǐn)?shù)七小類。為實(shí)現(xiàn)命名實(shí)體識(shí)別,首先需要進(jìn)行詞實(shí)體標(biāo)注,常見的標(biāo)注方法有BIO,BIOES,Markup等等。BIO標(biāo)注法中,B表示實(shí)體詞的開頭,I表示實(shí)體詞的中間,O表示不是實(shí)體詞的部分,以此來(lái)區(qū)分識(shí)別實(shí)體詞。BIOES則是在BIO的基礎(chǔ)上,增加了E(表示實(shí)體詞的結(jié)尾)和S(表示能單獨(dú)組成一個(gè)實(shí)體),是目前最通用的實(shí)體標(biāo)注方法。目前在命名實(shí)體識(shí)別任務(wù)中,主要算法包括有基于規(guī)則的詞性標(biāo)注方法和基于統(tǒng)計(jì)模型的詞性標(biāo)注方法兩類,均在命名實(shí)體識(shí)別任務(wù)中取得了良好表現(xiàn)。

        4.總結(jié)與展望

        隨著互聯(lián)網(wǎng)金融的日益發(fā)展,金融從業(yè)者與數(shù)據(jù)挖掘工作者規(guī)模會(huì)日漸龐大,發(fā)現(xiàn)金融知識(shí)的潛在價(jià)值也是勢(shì)在必行。本文基于前人基礎(chǔ),總結(jié)了主要的數(shù)據(jù)挖掘、文本挖掘方法,旨在梳理出前人研究脈絡(luò),分析未來(lái)金融領(lǐng)域所要面對(duì)的挑戰(zhàn)。大數(shù)據(jù)時(shí)代下,金融知識(shí)發(fā)現(xiàn)將成為數(shù)據(jù)挖掘中的一個(gè)重要應(yīng)用,會(huì)日益發(fā)揮出其價(jià)值。

        參考文獻(xiàn):

        [1].唐曉波,譚明亮,胡瀟然,石文萱,周巧.面向金融決策支持的知識(shí)獲取研究綜述[J].信息資源管理學(xué)報(bào),2020,10(03):27-35.

        [2].馬琳,董智鶴,夏嵩,賈孺.數(shù)據(jù)挖掘技術(shù)綜述淺析[J].數(shù)字技術(shù)與應(yīng)用,2019,37(10):230-231.

        [3].陳安,陳寧,范超.金融信用風(fēng)險(xiǎn)評(píng)價(jià)中的數(shù)據(jù)挖掘技術(shù)綜述[J].智能計(jì)算機(jī)與應(yīng)用,2017,7(05):55-59.

        [4].丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(04):691-706.

        [5].李金迎,詹原瑞.金融行業(yè)的數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代管理科學(xué),2009(08):14-16.

        [6].何德旭,饒?jiān)魄澹踔墙?金融安全網(wǎng):基于信息空間理論的分析[J].經(jīng)濟(jì)理論與經(jīng)濟(jì)管理,2011(02):69-78.

        [7].張永杰,張維,金曦,熊熊.互聯(lián)網(wǎng)知道的更多么?——網(wǎng)絡(luò)開源信息對(duì)資產(chǎn)定價(jià)的影響[J].系統(tǒng)工程理論與實(shí)踐,2011,31(04):577-586.

        [8].朱建平,魏瑾,謝邦昌.金融高頻數(shù)據(jù)挖掘研究評(píng)述與展望[J].經(jīng)濟(jì)學(xué)動(dòng)態(tài),2011(06):59-62.

        [9].柴洪峰.金融大數(shù)據(jù)及銀行卡產(chǎn)業(yè)大數(shù)據(jù)實(shí)踐[J].上海金融,2013(10):27-29+116.

        [10].孔翔宇,畢秀春,張曙光.財(cái)經(jīng)新聞與股市預(yù)測(cè)——基于數(shù)據(jù)挖掘技術(shù)的實(shí)證分析[J].數(shù)理統(tǒng)計(jì)與管理,2016,35(02):215-224.

        [11].鮑捷.知識(shí)圖譜如何助力實(shí)現(xiàn)智能金融[J].金卡工程,2016(07):45-49.

        [12].汪建基,馬永強(qiáng),陳仕濤,劉子熠,鄭南寧.碎片化知識(shí)處理與網(wǎng)絡(luò)化人工智能[J].中國(guó)科學(xué):信息科學(xué),2017,47(02):171-192.

        [13].U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy.Advances in Knowledge Discovery and Data Mining. AAAI/ MIT Press,1996.

        本文得到上海立信會(huì)計(jì)金融學(xué)院大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃(202111047034X)基金支持. 秦江源,女,法學(xué)專業(yè)本科在讀;

        猜你喜歡
        數(shù)據(jù)挖掘
        基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識(shí)別方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實(shí)踐
        熟女少妇av一区二区三区| 一区二区国产在线观看| 不卡无毒免费毛片视频观看| 久久精品国产亚洲av热东京热| 欧美精品无码一区二区三区| 免费人妻无码不卡中文字幕18禁 | 女同中的p是什么意思| 亚洲av综合色区久久精品| 26uuu在线亚洲欧美| av无码天堂一区二区三区| 老色鬼永久精品网站| 91人妻人人做人人爽九色| 亚洲av无码乱码国产麻豆| 无码精品人妻一区二区三区人妻斩 | 女同视频一区二区在线观看| 国产成人亚洲综合色婷婷| 欧美一级视频精品观看| 经典亚洲一区二区三区 | 亚洲国产91高清在线| 精品综合久久久久久888蜜芽| 无码久久精品国产亚洲av影片| 国产亚洲精品性爱视频| 亚洲av色av成人噜噜噜| 美女露内裤扒开腿让男人桶无遮挡| 精品人体无码一区二区三区| 国产精品日韩中文字幕| 日本av一级片免费看| 中文字幕久久精品一二三区 | 久久视频在线| 欧美亚洲国产日韩一区二区三区| 蜜桃av噜噜噜一区二区三区| 大尺度无遮挡激烈床震网站 | 韩国三级大全久久网站| 亚洲 都市 校园 激情 另类| 国产三级伦理视频在线| 中文字幕日韩人妻少妇毛片| 无码成人aaaaa毛片| 无码国产日韩精品一区二区| 中文字幕乱码亚洲在线| 熟妇激情内射com| 国产人成亚洲第一网站在线播放|