蔡俊杰,王昂青,鄒金言,王逸捷,齊宇明
(上海金融學(xué)院,上?!?01209)
信息化
基于大數(shù)據(jù)與人工智能下的金融分析決策系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
蔡俊杰,王昂青,鄒金言,王逸捷,齊宇明
(上海金融學(xué)院,上海201209)
圍繞“互聯(lián)網(wǎng)+人工智能+普惠金融”的主題,立足于大數(shù)據(jù)及人工智能等,開發(fā)了一套網(wǎng)絡(luò)金融數(shù)據(jù)挖掘與分析決策系統(tǒng),從而實(shí)現(xiàn)金融數(shù)據(jù)的挖掘與分析及用戶輔助決策的功能,幫助規(guī)范金融市場(chǎng)、促進(jìn)公眾理性投資。
大數(shù)據(jù);輔助決策;人工智能;高維隨機(jī)矩陣;金融政策演化仿真
隨著互聯(lián)網(wǎng)的高速發(fā)展,社會(huì)已進(jìn)入了一個(gè)“信息爆炸”的時(shí)代。金融數(shù)據(jù)作為網(wǎng)絡(luò)信息中尤為重要的一部分,公眾對(duì)其的需求也達(dá)到了新的高度。黨的十八屆三中全會(huì)關(guān)于“完善金融市場(chǎng)體系”重大改革的決定,為中國(guó)金融信息服務(wù)業(yè)發(fā)展提供了良好的政治環(huán)境;改革開放以來居民財(cái)富的增長(zhǎng)、購買力的增加為金融信息服務(wù)業(yè)提供了充足的動(dòng)力;互聯(lián)網(wǎng)的廣泛應(yīng)用為金融信息服務(wù)業(yè)發(fā)展提供了廣闊的發(fā)展空間。
近年來,許多金融數(shù)據(jù)分析的研究團(tuán)隊(duì)對(duì)Web的數(shù)據(jù)挖掘方法進(jìn)行研究,挖掘方法也不斷更新。國(guó)外的金融挖掘方法都較為成熟,像Heritrix、Nutch等。國(guó)內(nèi)關(guān)于金融數(shù)據(jù)挖掘領(lǐng)域的研究應(yīng)用都處于初級(jí)階段,國(guó)內(nèi)對(duì)金融數(shù)據(jù)和金融數(shù)據(jù)挖掘的研究理論、尤其對(duì)金融高頻數(shù)據(jù)與超高頻數(shù)據(jù)的研究應(yīng)用更是處于起步階段[1]。目前在國(guó)內(nèi)市場(chǎng)上,一方面,一般金融機(jī)構(gòu)的咨詢服務(wù)專業(yè)性過強(qiáng),對(duì)于廣大普通用戶而言門檻過高,大多數(shù)用戶難以據(jù)此做出直觀的判斷;另一方面,現(xiàn)有的金融機(jī)構(gòu)面向普通用戶所推出的咨詢服務(wù)主要集中在銀行理財(cái)產(chǎn)品一類,具有很強(qiáng)的局限性,難以滿足用戶對(duì)金融信息的需求。
2.1金融信息服務(wù)軟件比較
2.1.1大智慧股票軟件
大智慧365金融終端是面向廣大投資者推出的專業(yè)級(jí)別產(chǎn)品,同時(shí)是市場(chǎng)上性價(jià)比最高的產(chǎn)品。大智慧的優(yōu)點(diǎn)是動(dòng)態(tài)行情及時(shí)穩(wěn)定,F(xiàn)10功能較全;但是它的缺點(diǎn)是基本不具備智能分析決策功能,而且功能繁瑣,需要有一定的炒股經(jīng)驗(yàn),并且付費(fèi)版軟件價(jià)格昂貴。
2.1.2同花順免費(fèi)股票軟件
同花順是一個(gè)提供行情顯示、行情分析和行情交易的股票軟件。同花順是永久免費(fèi)使用、操作簡(jiǎn)單、使用便捷、提供免費(fèi)智能選股、技術(shù)選股服務(wù)等。同花順的優(yōu)點(diǎn)是能看港股、美股、期貨等行情,同時(shí)軟件資訊全面、形式多樣、指標(biāo)我編我用等特點(diǎn);缺點(diǎn)是特色功能太少,同時(shí)需要一定的炒股經(jīng)驗(yàn)。
2.1.3東方財(cái)富通
東方財(cái)富通是基于東方財(cái)富網(wǎng)推出的一款免費(fèi)炒股軟件,從行情、資訊、指標(biāo)功能等多角度全方面研發(fā)設(shè)計(jì)而成。特色功能包含滾動(dòng)財(cái)經(jīng)資訊、F9深度資料、內(nèi)嵌交互平臺(tái)、全景盯盤界面、DDE決策等。東方財(cái)富通的優(yōu)點(diǎn)是各種特色數(shù)據(jù)很多,比如大小非解禁、高管持股動(dòng)態(tài)和機(jī)構(gòu)動(dòng)態(tài)等;缺點(diǎn)是個(gè)性化公式、選股不方便。
2.1.4Wind資訊金融終端
Wind資訊金融終端提供最齊全的中國(guó)金融市場(chǎng)數(shù)據(jù)與信息,內(nèi)容覆蓋股票、債券、基金、指數(shù)、權(quán)證、商品期貨、外匯、宏觀行業(yè)等多項(xiàng)品種,7×24×365不間斷的為證券分析師、基金經(jīng)理等專業(yè)金融人士提供最準(zhǔn)確、最及時(shí)、最完整的金融資訊,是馳騁中國(guó)金融市場(chǎng)的必備工具。它集成了ExcelAdd-in、Evaluator、EDB 和TAQEXP,優(yōu)點(diǎn)是信息及時(shí)、信息數(shù)據(jù)多、交易數(shù)據(jù)全、資訊專業(yè)。缺點(diǎn)則是收費(fèi)較貴、操作復(fù)雜。
2.2市場(chǎng)分析
目前市場(chǎng)已經(jīng)有許多傳統(tǒng)的金融數(shù)據(jù)信息服務(wù)供應(yīng)商,如大智慧、金融界、同花順、wind、東方財(cái)富、和訊等,其市場(chǎng)份額大致如圖1分布:
圖1 傳統(tǒng)金融數(shù)據(jù)信息服務(wù)提供商市場(chǎng)份額
這些傳統(tǒng)的數(shù)據(jù)服務(wù)軟件提供的服務(wù)主要集中于普通的行情推送、行情展示、簡(jiǎn)易的行情數(shù)據(jù)描述、普通無序的資訊等;即便是略微高級(jí)的level2行情服務(wù)也只能提高數(shù)據(jù)速度和部分篩選過的信息,并不能做到全面、準(zhǔn)確、高效的幫助用戶掌握市場(chǎng)情況;然而如大智慧DTS這樣的高級(jí)服務(wù)平臺(tái),需要專業(yè)的人士了解金融、計(jì)算機(jī)、數(shù)學(xué)等專業(yè)知識(shí),才能合理應(yīng)用。高級(jí)服務(wù)平臺(tái)專業(yè)過高,而且服務(wù)價(jià)格不菲,讓大多數(shù)非專業(yè)投資者望而卻步。
基于這樣的市場(chǎng)現(xiàn)狀,本項(xiàng)目研發(fā)出一套網(wǎng)絡(luò)金融數(shù)據(jù)挖掘與分析決策系統(tǒng),提供相關(guān)服務(wù),滿足企業(yè)和個(gè)人的需求。
本課題擬開發(fā)一套網(wǎng)絡(luò)金融數(shù)據(jù)挖掘與分析決策系統(tǒng),圍繞“互聯(lián)網(wǎng)+人工智能+普惠金融”的主題,采用最新的技術(shù),大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)以及人工智能技術(shù);具體來講,將采用全局?jǐn)?shù)據(jù)監(jiān)控技術(shù)、高頻金融數(shù)據(jù)建模、智能模型匹配優(yōu)化技術(shù),以統(tǒng)一論的方式分析整個(gè)金融數(shù)據(jù)的高維隨機(jī)矩陣譜分析技術(shù)來對(duì)市場(chǎng)進(jìn)行監(jiān)控預(yù)測(cè),這在國(guó)內(nèi)尚屬首次。與此同時(shí),我們還采用網(wǎng)絡(luò)爬蟲、文本挖掘、鏈接排序算法等技術(shù),結(jié)合金融政策演化仿真系統(tǒng),來實(shí)現(xiàn)對(duì)內(nèi)外環(huán)境的監(jiān)控,熱點(diǎn)金融信息的追蹤及金融市場(chǎng)動(dòng)態(tài)的分析。
3.1技術(shù)問題
在開發(fā)運(yùn)營(yíng)網(wǎng)絡(luò)金融數(shù)據(jù)挖掘與分析決策系統(tǒng)和服務(wù)、客戶端的過程中,會(huì)遇到一系列技術(shù)難關(guān)。主要有四點(diǎn):第一,為了獲取網(wǎng)絡(luò)上及時(shí)有效的金融數(shù)據(jù),需要研究開發(fā)一套網(wǎng)絡(luò)數(shù)據(jù)抓取以及數(shù)據(jù)倉儲(chǔ)軟件;第二,為了將金融數(shù)據(jù)和分析結(jié)果友好地呈現(xiàn)給用戶,需要研究有效的數(shù)據(jù)可視化技術(shù);第三,金融數(shù)據(jù)的智能挖掘作為項(xiàng)目的技術(shù)核心,是提供優(yōu)質(zhì)服務(wù)的根基,因此,項(xiàng)目將深入研究金融數(shù)學(xué)模型、數(shù)據(jù)挖掘智能算法、模型匹配智能算法等技術(shù)的原理與實(shí)現(xiàn);第四,為了和用戶進(jìn)行良好的交互,項(xiàng)目將研究服務(wù)器架設(shè)、維護(hù)以及與客戶端的對(duì)接的相關(guān)技術(shù)。
3.2解決方法
網(wǎng)絡(luò)金融數(shù)據(jù)挖掘與分析決策系統(tǒng),最主要有4個(gè)模塊:數(shù)據(jù)采集模塊、數(shù)據(jù)可視化模塊、模型分析模塊和系統(tǒng)管理模塊。
3.2.1數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊可以實(shí)現(xiàn)在網(wǎng)絡(luò)上實(shí)時(shí)跟蹤抓取用戶指定的金融數(shù)據(jù),該模塊由采集規(guī)則學(xué)習(xí)和數(shù)據(jù)智能采集兩部分組成。為了實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)跟蹤抓取功能,本項(xiàng)目需要研究網(wǎng)絡(luò)上的金融數(shù)據(jù)結(jié)構(gòu)和金融時(shí)間序列數(shù)據(jù)特征,根據(jù)這些特征,制定合適的方法在網(wǎng)頁上智能抓取指定的數(shù)據(jù)。
3.2.2數(shù)據(jù)可視化模塊
數(shù)據(jù)可視化模塊意在將金融數(shù)據(jù)與挖掘到的特征信息友好地呈現(xiàn)在用戶面前,該模塊由報(bào)表中心和金融數(shù)據(jù)展示兩部分組成。為了實(shí)現(xiàn)數(shù)據(jù)的可視化,將研究使用何種表格與圖形將有效的信息呈現(xiàn)在用戶面前,幫助用戶直觀地把握金融變動(dòng)規(guī)律。
3.2.3模型分析模塊
模型分析模塊可以對(duì)已經(jīng)獲得的數(shù)據(jù)采用多樣化的數(shù)理模型進(jìn)行挖掘、分析、預(yù)測(cè)與決策,并利用決策樹進(jìn)行模型選優(yōu),該模塊由傳統(tǒng)模型庫、智能模型庫、模型選優(yōu)算法三部分組成:1)傳統(tǒng)模型庫包含一系列分析金融數(shù)據(jù)的數(shù)學(xué)模型;2)智能模型庫包含一套由智能算法構(gòu)成的預(yù)測(cè)與決策模型;3)通過模型選優(yōu)的方法在兩個(gè)模型庫中選出最優(yōu)的模型,并以此輔助用戶做投資決策。
為了實(shí)現(xiàn)上述功能,該項(xiàng)目擬將一系列經(jīng)典數(shù)學(xué)模型收入到兩個(gè)模型庫中,并采用決策樹的方法對(duì)兩個(gè)庫中的模型進(jìn)行選優(yōu)。與此同時(shí)將采用全局?jǐn)?shù)據(jù)監(jiān)控技術(shù)、高頻金融數(shù)據(jù)建模、智能模型匹配優(yōu)化技術(shù),采用以統(tǒng)一論的方式分析整個(gè)金融數(shù)據(jù)的高維隨機(jī)矩陣譜分析技術(shù)來對(duì)市場(chǎng)進(jìn)行監(jiān)控預(yù)測(cè)。
3.2.4系統(tǒng)管理模塊
建立對(duì)用戶、數(shù)據(jù)一體化管理的軟件框架,其將包括用戶信息權(quán)限管理、系統(tǒng)運(yùn)行實(shí)時(shí)監(jiān)控、系統(tǒng)日志管理、基礎(chǔ)數(shù)據(jù)庫管理等功能。
3.3理論支持
3.3.1金融數(shù)據(jù)結(jié)構(gòu)分析
時(shí)間序列是金融數(shù)據(jù)的一種組織特征和表現(xiàn)方式,時(shí)間序列數(shù)據(jù)包括股票價(jià)格、基金價(jià)格和貨幣匯率等金融數(shù)據(jù)。金融數(shù)據(jù)時(shí)刻發(fā)生著變化,通過數(shù)據(jù)挖掘與分析對(duì)金融時(shí)間序列數(shù)據(jù)進(jìn)行分析,處理大規(guī)模的數(shù)據(jù),以大數(shù)據(jù)為基礎(chǔ)從而發(fā)現(xiàn)潛在的、可能存在的、有價(jià)值的規(guī)律與信息。
3.3.2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(英語:Datamining),從數(shù)據(jù)本身來看,通常數(shù)據(jù)挖掘需要有數(shù)據(jù)清理、數(shù)據(jù)變化、數(shù)據(jù)挖掘?qū)嵤┻^程等。網(wǎng)頁數(shù)據(jù)挖掘基本過程如圖2所示:
圖2 PC網(wǎng)頁數(shù)據(jù)挖掘過程圖
3.3.3金融高頻數(shù)據(jù)與超高頻數(shù)據(jù)
金融高頻數(shù)據(jù)和超高頻數(shù)據(jù)的研究是金融計(jì)量學(xué)的一個(gè)全新的方向,一個(gè)嶄新的領(lǐng)域。金融高頻數(shù)據(jù)是指金融市場(chǎng)運(yùn)行過程中以小時(shí)、分鐘或秒為采集頻率的數(shù)據(jù),而超高頻數(shù)據(jù)則是指交易過程中實(shí)時(shí)采集的數(shù)據(jù)[2]。數(shù)據(jù)采集頻率越高,信息丟失越少,數(shù)據(jù)所包含的信息越接近于理論上的連續(xù)時(shí)間模型,所以近些年國(guó)內(nèi)興起的高頻數(shù)據(jù)交易也有源可尋。利用高頻數(shù)據(jù)與超高頻數(shù)據(jù)能更加深刻的解釋金融市場(chǎng)所包含的價(jià)格運(yùn)行規(guī)律、信息傳導(dǎo)機(jī)制以及更有益于對(duì)金融市場(chǎng)的分析與探索。同時(shí)有益于及時(shí)優(yōu)化模型,正確研究金融高頻數(shù)據(jù)的“日歷效應(yīng)”有助于金融時(shí)間序列的長(zhǎng)記憶特性,對(duì)價(jià)格日內(nèi)波動(dòng)的研究至關(guān)重要。
3.4關(guān)鍵技術(shù)
3.4.1高維隨機(jī)矩陣譜分析技術(shù)
一個(gè)以隨機(jī)變量為元素的矩陣稱之為隨機(jī)矩陣,而如果隨機(jī)矩陣的維數(shù)趨于無窮,則稱之為高維隨機(jī)矩陣。隨著金融與互聯(lián)網(wǎng)的不斷發(fā)展,現(xiàn)代的金融市場(chǎng)正在逐漸變成為一個(gè)匯聚大量數(shù)據(jù)、龐大信息和海量元素的系統(tǒng),大數(shù)據(jù)技術(shù)在金融市場(chǎng)中起著基礎(chǔ)的作用,主要體現(xiàn)在采集、儲(chǔ)存、分析挖掘、可視化等,而高維隨機(jī)矩陣譜分析技術(shù)作為新興的大數(shù)據(jù)分析方法,能將各類數(shù)據(jù)集成到高維矩陣中,從概率和統(tǒng)計(jì)的角度研究矩陣的特性和數(shù)據(jù)分布情況。高維隨機(jī)矩陣?yán)碚撝斜碚鞯拇髷?shù)據(jù)結(jié)構(gòu)是靈活多樣的,矩陣中的數(shù)據(jù)既可以是遵循某種分布的隨機(jī)數(shù),也可以是確定數(shù)據(jù),矩陣的構(gòu)造原則是對(duì)行和列中元素進(jìn)行調(diào)整以得到最優(yōu)的行列數(shù)比值[3]。
高維隨機(jī)矩陣的主要研究?jī)?nèi)容,隨機(jī)矩陣的經(jīng)驗(yàn)譜分布函數(shù)。
假設(shè)λ1,……,λn為矩陣A的實(shí)特征根。定義經(jīng)驗(yàn)譜分布函數(shù):
隨機(jī)矩陣的一個(gè)基本問題是討論一系列給定的隨機(jī)矩陣序列函數(shù)FAn(x)的收斂問題。即找到其極限分布函數(shù),其極限分布函數(shù)都是非隨機(jī)的,我們把它稱作隨機(jī)矩陣序列的極限譜分布。
3.4.2金融政策演化仿真技術(shù)
政策創(chuàng)新與擴(kuò)散模型研究是金融政策效用的基礎(chǔ)。在政策創(chuàng)新與擴(kuò)散的早期研究中,弗吉尼亞?格雷(VirginiaGray,1973)借鑒其他學(xué)科對(duì)創(chuàng)新與擴(kuò)散的研究,提出了政策創(chuàng)新與擴(kuò)散的經(jīng)驗(yàn)?zāi)P?,他認(rèn)為在政策創(chuàng)新擴(kuò)散的初期,政策采納的發(fā)生相對(duì)不頻繁,然后隨著各種因素的影響,采納的比例會(huì)急劇上升。20世紀(jì)初興起了復(fù)雜網(wǎng)絡(luò),20世紀(jì)中期出現(xiàn)了被大眾所熟知的復(fù)雜網(wǎng)絡(luò),即隨即圖理論。但21世紀(jì)伊始隨著引入小世界網(wǎng)絡(luò)等模型,隨即圖理論遭到了各種猛烈的沖擊?;谡哐莼抡婕夹g(shù)以及政策傳播模型,從而實(shí)現(xiàn)對(duì)內(nèi)外環(huán)境的監(jiān)控、熱點(diǎn)金融信息的追蹤、金融市場(chǎng)動(dòng)態(tài)的分析及政府金融政策的演化仿真等。
4.1獲取個(gè)性化網(wǎng)絡(luò)金融數(shù)據(jù)
用戶可以通過數(shù)據(jù)抓取模塊的功能,根據(jù)自己的實(shí)際需求,在網(wǎng)絡(luò)上方便快捷地抓取相應(yīng)的數(shù)據(jù),降低了用戶信息的搜尋成本,一定程度上解決了用戶在市場(chǎng)上獲取信息難、信息不對(duì)稱的問題。
4.2挖掘與分析金融數(shù)據(jù)
通過使用模型分析模塊的功能,用戶可以用多樣化的方法對(duì)金融數(shù)據(jù)進(jìn)行高效的分析。系統(tǒng)提供4.3幫助規(guī)范金融市場(chǎng)、促進(jìn)公眾理性投資
了自動(dòng)化模型選擇的方法,大大降低了對(duì)復(fù)雜金融數(shù)據(jù)分析的難度,適用于普通的用戶群體,為普通投資者的決策提供有效的指導(dǎo);系統(tǒng)同時(shí)支持用戶自行選擇分析方法與模型,適合作為專業(yè)性較高的用戶群體的研究工具。
本系統(tǒng)通過科學(xué)的模型選優(yōu)方法,對(duì)用戶指定的金融數(shù)據(jù)進(jìn)行挖掘分析,并給予用戶穩(wěn)健的決策指導(dǎo),促使用戶理性投資,避免用戶對(duì)投資行為產(chǎn)生情緒化效應(yīng),從而達(dá)到規(guī)范和穩(wěn)定金融市場(chǎng)的目的。
4.4為政府經(jīng)濟(jì)管理及決策提供依據(jù)
通過金融政策演化仿真,將政府的金融政策進(jìn)行演化和預(yù)測(cè),將仿真結(jié)果反饋到?jīng)Q策變量中,尋求最優(yōu)的金融政策變量,使得決策更加高效,從而避免政府的錯(cuò)誤決策,使得風(fēng)險(xiǎn)得以控制,企業(yè)有更好的創(chuàng)新與發(fā)展,政府擁有更好的公信力。
[1]余春.基于數(shù)據(jù)挖掘技術(shù)的金融數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2014(6):69-78.
[2]唐振鵬.金融高頻數(shù)據(jù)和超高頻數(shù)據(jù)的研究現(xiàn)狀及展望[J].福州大學(xué)學(xué)報(bào)哲學(xué)(社會(huì)科學(xué)版),2008,22(4):14-20.
[3]嚴(yán)英杰,盛戈皞,王輝,等.基于高維隨機(jī)矩陣大數(shù)據(jù)分析模型的輸變電設(shè)備關(guān)鍵性能評(píng)估方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2016(2):435-445.
(編輯:劉楠)
Design and Implementation Intelligence under the Financial Analysis and Decision System of Based on Big Data and Artificial
Cai Junjie,Wang Angqing,Zou Jinyan,Wang Yijie,QiYuming
(Shanghai Finance University,Shanghai 201209)
This paper around the"Internet+AI+inclusive finance"theme,based on big data and artificial intelligence,to develop a network of financial data mining and decision analysis system,enabling mining and analysis of financial data and user assistance decision-making function,help regulate financialmarkets and promote rational public investment.
big data;AI;high-dimensional random matrix;decision support;monetary policy evolution simulation
TP311.13
A
2095-0748(2016)11-0086-03
10.16525/j.cnki.14-1362/n.2016.11.36
信息化
2016-04-26
上海金融學(xué)院2015年度上海市大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目資助(201511639053)
蔡俊杰(1994—),男,山西晉中人,本科,研究方向:金融投資。