騰訊計(jì)算機(jī)系統(tǒng)有限公司 劉玉琳
機(jī)器學(xué)習(xí)在很多領(lǐng)域都取得了非常好的成績(jī)。機(jī)器學(xué)習(xí)算法在金融投資方面取得了比人更好的結(jié)果。由于金融分析是一門原始科學(xué),因此很難將機(jī)器學(xué)習(xí)應(yīng)用于金融領(lǐng)域。因此,本文分析了機(jī)器學(xué)習(xí)在金融投資中的應(yīng)用。
近年來(lái),越來(lái)越多的人已經(jīng)習(xí)慣了人臉識(shí)別、信用欺詐甚至人工智能的應(yīng)用,在國(guó)際象棋和空中取得了突出的成就。許多人開始樂(lè)觀地認(rèn)為,機(jī)器學(xué)習(xí)算法在不久的將來(lái)會(huì)取得比投資二級(jí)市場(chǎng)更好的結(jié)果。但是,財(cái)務(wù)分析是一門從頭開始的科學(xué),因此無(wú)法進(jìn)行受控實(shí)驗(yàn)。數(shù)據(jù)自適應(yīng)現(xiàn)象的存在使得復(fù)雜的機(jī)器學(xué)習(xí)算法成為在歷史數(shù)據(jù)中發(fā)現(xiàn)無(wú)效命中的有效工具,而得到的結(jié)果實(shí)際上是誤導(dǎo)性的模式。
金融和人工智能一直是研究的主題。在經(jīng)濟(jì)高速發(fā)展的今天,金融投資活動(dòng)日益頻繁,金融行業(yè)的勞動(dòng)力更加緊張。機(jī)器學(xué)習(xí)可以使用計(jì)算機(jī)進(jìn)行訓(xùn)練和分析,因此可以快速分析大數(shù)據(jù)。這種處理復(fù)雜數(shù)據(jù)的能力比手動(dòng)計(jì)算強(qiáng)大得多。因此,機(jī)器學(xué)習(xí)在金融投資中的應(yīng)用具有速度快、處理能力強(qiáng)、全球化強(qiáng)、可擴(kuò)展性強(qiáng)等特點(diǎn)。但是,在詳細(xì)處理和模式生成方面,機(jī)器學(xué)習(xí)效果不佳。大多數(shù)情況下,機(jī)器學(xué)習(xí)只是在處理實(shí)際數(shù)據(jù)后給你一個(gè)乏味無(wú)用的解決方案,與操作本身無(wú)關(guān),得不到好的結(jié)果[1]。
在當(dāng)今世界經(jīng)濟(jì)不斷發(fā)展的趨勢(shì)下,越來(lái)越多的個(gè)人和企業(yè)將資產(chǎn)投入市場(chǎng),金融信息服務(wù)的投資和借貸越來(lái)越受歡迎。這類企業(yè)一般涉及大量財(cái)產(chǎn)或貸款的轉(zhuǎn)讓。一旦發(fā)生金融風(fēng)暴、商業(yè)欺詐、管理方法疏忽或其他問(wèn)題,投資者被迫承擔(dān)的會(huì)計(jì)損失是無(wú)限的。金融行業(yè)的風(fēng)險(xiǎn)一直是科研人員的熱門話題。眾所周知,科學(xué)研究受到限制,原因是科研成本不斷增加,缺乏數(shù)據(jù)和信息。如何管理金融行業(yè)的風(fēng)險(xiǎn)仍然是一個(gè)亟待解決的問(wèn)題。但由于數(shù)據(jù)來(lái)源有限,他們建立的風(fēng)險(xiǎn)管控實(shí)體模型過(guò)低,無(wú)法對(duì)貸款人進(jìn)行綜合評(píng)估。隨著信息時(shí)代的到來(lái)和數(shù)據(jù)信息的不斷發(fā)展,傳統(tǒng)風(fēng)險(xiǎn)管控實(shí)體模型的一維、有限的評(píng)估能力逐漸顯現(xiàn)。大規(guī)模大數(shù)據(jù)挖掘的研究思路正在慢慢應(yīng)用到金融行業(yè)。作為行業(yè)的關(guān)鍵組成部分,金融風(fēng)險(xiǎn)管理方法的實(shí)體模型也是一項(xiàng)至關(guān)重要的研究?jī)?nèi)容。近年來(lái),分布式系統(tǒng)數(shù)據(jù)庫(kù)查詢和大數(shù)據(jù)平臺(tái)的結(jié)構(gòu)逐步完善,可存儲(chǔ)的信息量和產(chǎn)品質(zhì)量有了質(zhì)的飛躍。
金融大數(shù)據(jù)風(fēng)險(xiǎn)管控實(shí)體模型利用數(shù)據(jù)統(tǒng)計(jì)分析和風(fēng)險(xiǎn)評(píng)價(jià)實(shí)體模型,根據(jù)評(píng)估點(diǎn)對(duì)付款人的支付意圖、支付意圖和欺詐風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)和分析,然后應(yīng)用數(shù)據(jù)信息。實(shí)施科學(xué)合理的風(fēng)險(xiǎn)管控?;ヂ?lián)網(wǎng)大數(shù)據(jù)可以完善個(gè)人征信系統(tǒng),協(xié)助金融公司推出金融理財(cái)產(chǎn)品,降低信用風(fēng)險(xiǎn)。同時(shí),可以利用互聯(lián)網(wǎng)大數(shù)據(jù)來(lái)衡量互聯(lián)網(wǎng)大數(shù)據(jù),分析實(shí)際法律法規(guī),完善申請(qǐng)表,完善知情同意。在獲得更加合理的法律法規(guī)后,完善備案審查形式,穩(wěn)步發(fā)展。除了互聯(lián)網(wǎng)大數(shù)據(jù),深度學(xué)習(xí)優(yōu)化算法還可以充分發(fā)揮風(fēng)險(xiǎn)管控實(shí)體模型的構(gòu)建水平。SVM算法優(yōu)化算法和隨機(jī)森林等隨機(jī)森林算法可以根據(jù)人的特征和方法進(jìn)行分析,使復(fù)雜的風(fēng)險(xiǎn)管控實(shí)體模型更加準(zhǔn)確和詳細(xì)。關(guān)鍵是發(fā)生在移動(dòng)互聯(lián)網(wǎng)上的金融行業(yè)大數(shù)據(jù)??蛻羯暾?qǐng)過(guò)程引起的總流量中的大部分可以反映消費(fèi)者的個(gè)人行為。這些人的基本信息和移動(dòng)互聯(lián)網(wǎng)上的互聯(lián)網(wǎng)大數(shù)據(jù)為探索金融風(fēng)險(xiǎn)管理方法的物理模型提供了堅(jiān)實(shí)的基礎(chǔ)[2]。
投資理財(cái)風(fēng)險(xiǎn)管控實(shí)體模型的定義日益突出,其基本功能是基于數(shù)據(jù)的統(tǒng)計(jì)分析,對(duì)未來(lái)風(fēng)險(xiǎn)提供預(yù)警。在IT行業(yè)盛行的時(shí)候,P2P、小額信貸等金融公司作為傳統(tǒng)金融行業(yè)的填充物,開始受到大家的關(guān)注。早期,線上理財(cái)產(chǎn)品多為線上產(chǎn)品。除了更低的配額制、更敏感的金額、更敏感的支付方式和方式外,它與傳統(tǒng)商品沒(méi)有太大區(qū)別。如果不考慮風(fēng)險(xiǎn)管控階段,銷售市場(chǎng)將領(lǐng)先,風(fēng)險(xiǎn)管理最終會(huì)落后。整個(gè)領(lǐng)域的拖延率和壞賬率遠(yuǎn)遠(yuǎn)超過(guò)金融機(jī)構(gòu)。在這種情況下,風(fēng)險(xiǎn)管控問(wèn)題逐漸引起了社會(huì)各界的關(guān)注,成為電子設(shè)備金融行業(yè)未來(lái)發(fā)展的最大障礙。
文章的研究方向分為四個(gè)關(guān)鍵部分:數(shù)據(jù)統(tǒng)計(jì)分析、數(shù)據(jù)處理方法、優(yōu)化算法分析和測(cè)試認(rèn)證。首先應(yīng)用數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)尋找金融行業(yè)風(fēng)險(xiǎn)評(píng)估的最佳數(shù)據(jù)庫(kù),然后應(yīng)用數(shù)據(jù)處理方法對(duì)數(shù)據(jù)進(jìn)行技術(shù)性解決,并利用模擬等方法得到客戶的識(shí)別。將信息與原始記錄配對(duì)。獲取高質(zhì)量的訓(xùn)練數(shù)據(jù)。同時(shí),利用貝葉斯網(wǎng)絡(luò)搜索經(jīng)濟(jì)發(fā)展風(fēng)險(xiǎn)評(píng)價(jià)的優(yōu)化算法。最后利用優(yōu)化算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和訓(xùn)練,根據(jù)實(shí)驗(yàn)完成金融行業(yè)風(fēng)控系統(tǒng)。并確認(rèn)了有效性。一是分析經(jīng)濟(jì)發(fā)展,審視個(gè)人內(nèi)部行為。商務(wù)接待移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)信息實(shí)時(shí)存儲(chǔ)了大量數(shù)據(jù)信息,但并非所有信息都對(duì)科學(xué)研究有效。運(yùn)營(yíng)商的互聯(lián)網(wǎng)大數(shù)據(jù)是由所有移動(dòng)設(shè)備引起的許多不同應(yīng)用和數(shù)據(jù)流的組合,包括所有地區(qū)使用移動(dòng)設(shè)備的人的任何互聯(lián)網(wǎng)瀏覽日志。二是移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)處理。由于中國(guó)移動(dòng)交通數(shù)據(jù)信息的處理和存儲(chǔ)不完備,存在信息不完整、數(shù)據(jù)信息無(wú)效、數(shù)據(jù)信息異常等諸多問(wèn)題。有些數(shù)據(jù)信息可能會(huì)被保存,有些字段名稱必須解析,有些則必須徹底考慮。使用的數(shù)據(jù)分析方法在于特殊情況。刪除的信息需要符合主模塊的特性??蛇x字段名稱不能包含缺失或相同的記錄。數(shù)據(jù)庫(kù)必須符合客戶自己標(biāo)準(zhǔn)的要求。同時(shí),數(shù)據(jù)信息必須即時(shí)穩(wěn)定,個(gè)人隱私數(shù)據(jù)信息也需要相應(yīng)解決。
隨著電子設(shè)備金融行業(yè)的逐步發(fā)展趨勢(shì),個(gè)人征信的營(yíng)銷推廣已成為發(fā)展趨勢(shì)。一些直接或間接學(xué)習(xí)和訓(xùn)練數(shù)據(jù)源的公司相繼設(shè)立了個(gè)人征信分支機(jī)構(gòu)。幾種類型的數(shù)據(jù)在信用報(bào)告中是有效的,例如,用于識(shí)別個(gè)人數(shù)據(jù)欺詐的移動(dòng)設(shè)備信息、用于識(shí)別長(zhǎng)期債務(wù)的黑名單以及用于確定穩(wěn)定性和具體評(píng)估的位置信息、用于評(píng)估可支配收入的消費(fèi)登記、用于評(píng)估信用行為的社會(huì)關(guān)系等。數(shù)據(jù)匯總統(tǒng)計(jì)的層次。以及數(shù)據(jù)背后的規(guī)律。大數(shù)據(jù)時(shí)代的到來(lái)為金融風(fēng)險(xiǎn)管理的研究提供了極大的便利。大數(shù)據(jù)時(shí)代在數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)能力方面尚未結(jié)束。除了計(jì)算機(jī)問(wèn)題,還有算法問(wèn)題限制了金融風(fēng)險(xiǎn)管理的發(fā)展。僅機(jī)器學(xué)習(xí)的快速發(fā)展就說(shuō)明了這一缺點(diǎn)。近年來(lái),隨著人工智能的普及,機(jī)器學(xué)習(xí)算法層出不窮。無(wú)論是改進(jìn)舊算法還是提出新算法,商界都在盡最大努力尋找算法突破。在金融風(fēng)險(xiǎn)管理方面也有很多研究成果[3]。
如果數(shù)據(jù)信息疏忽,顯然會(huì)阻礙后續(xù)的科研工作??蒲兄?,文章對(duì)中國(guó)移動(dòng)交通數(shù)據(jù)信息進(jìn)行了詳細(xì)梳理,然后對(duì)其進(jìn)行了科學(xué)研究,以確保所準(zhǔn)備數(shù)據(jù)信息的準(zhǔn)確性、一致性、一致性、高效性和唯一性。金融風(fēng)險(xiǎn)管理方法的實(shí)體模型主要基于深度學(xué)習(xí)優(yōu)化算法。數(shù)據(jù)庫(kù)系統(tǒng)建立在Spark數(shù)據(jù)處理方法的框架之上,最后用具體數(shù)據(jù)驗(yàn)證準(zhǔn)確性。大數(shù)據(jù)挖掘中比較常用的深度學(xué)習(xí)優(yōu)化算法有邏輯回歸、隨機(jī)森林、SVM等隨機(jī)森林算法和KMean等聚類算法。他們是彼此的長(zhǎng)處和短處。經(jīng)過(guò)實(shí)證研究和驗(yàn)證,他們最終利用貝葉斯網(wǎng)絡(luò)構(gòu)建了經(jīng)濟(jì)發(fā)展風(fēng)險(xiǎn)管控的物理模型。貝葉斯網(wǎng)絡(luò)作為速率理論的傳統(tǒng)實(shí)體模型,是解決不確定數(shù)據(jù)的主要專用工具。作為本文的關(guān)鍵,這部分科學(xué)研究構(gòu)建了經(jīng)濟(jì)發(fā)展風(fēng)險(xiǎn)控制的物理模型并檢驗(yàn)了其有效性。
網(wǎng)絡(luò)爬蟲是一種在互聯(lián)網(wǎng)技術(shù)上根據(jù)程序動(dòng)態(tài)地從網(wǎng)站中查找大量數(shù)據(jù)的一種技術(shù)。爬蟲的詳細(xì)工作流程是根據(jù)編程方式將需求推送到外部URL,分析找到的網(wǎng)頁(yè),過(guò)濾掉一些不相關(guān)的網(wǎng)址。網(wǎng)絡(luò)爬蟲技術(shù)的本質(zhì)是在免費(fèi)下載的HTM網(wǎng)頁(yè)上動(dòng)態(tài)推送Post請(qǐng)求獲取信息內(nèi)容,或者在還原時(shí)返回信息信息內(nèi)容,對(duì)信息內(nèi)容進(jìn)行加工處理,得到最終結(jié)果。根據(jù)實(shí)際爬取的數(shù)據(jù)信息,解決邏輯復(fù)雜,但本質(zhì)是推送需求。使用Python等開發(fā)語(yǔ)言,網(wǎng)絡(luò)爬蟲的速度會(huì)提高信息搜索的速度。眾所周知,隨著信息時(shí)代的到來(lái),傳統(tǒng)的網(wǎng)絡(luò)爬蟲逐漸暴露出一些問(wèn)題。隨著信息量的不斷增加,單核爬蟲技術(shù)查找信息的效率已經(jīng)無(wú)法滿足檢索要求。同步線程爬行還行,但是線程數(shù)一直不夠,貨運(yùn)量有不足。針對(duì)這種情況,網(wǎng)絡(luò)爬蟲引入了分布式計(jì)算。
分布式計(jì)算是在網(wǎng)絡(luò)上統(tǒng)一分配、規(guī)劃和執(zhí)行任務(wù),使用幾臺(tái)不同的獨(dú)立計(jì)算機(jī)作為節(jié)點(diǎn)。這允許程序?qū)⒁豁?xiàng)任務(wù)劃分為幾個(gè)不同的子任務(wù),并將它們運(yùn)行到一個(gè)或多個(gè)子任務(wù)中。分布式思維可以通過(guò)添加節(jié)點(diǎn)來(lái)突破計(jì)算的邊界并提高計(jì)算效率。在Scrapy架構(gòu)中,引擎是整個(gè)框架的信息和通信組件,負(fù)責(zé)在層之間傳輸數(shù)據(jù)。Spider主要包含了爬取范圍和邏輯,負(fù)責(zé)響應(yīng)分析和數(shù)據(jù)挖掘。調(diào)度程序?qū)λl(fā)送的請(qǐng)求進(jìn)行排序和排隊(duì),負(fù)責(zé)發(fā)送請(qǐng)求和檢索信息。響應(yīng)通過(guò)引擎發(fā)送給Spider進(jìn)行處理。當(dāng)Spider進(jìn)程完成時(shí),結(jié)果被發(fā)送到管道,管道處理、分析和存儲(chǔ)數(shù)據(jù)。Scrapy框架在最初設(shè)計(jì)時(shí)并未發(fā)布。如果請(qǐng)求隊(duì)列由Redis等非關(guān)系型數(shù)據(jù)庫(kù)維護(hù),由于多個(gè)客戶端可以從Redis隊(duì)列中讀取請(qǐng)求,因此獲得了分布式爬蟲[4]。
投資組合管理的目的是根據(jù)投資者的需要選擇不同的證券和其他資產(chǎn)組成投資組合,并管理這些投資組合以實(shí)現(xiàn)投資目標(biāo)。投資者的需求通常是根據(jù)風(fēng)險(xiǎn)來(lái)確定的。投資組合經(jīng)理的工作是在承擔(dān)一定風(fēng)險(xiǎn)的同時(shí)最大化投資回報(bào)。為了更有效地管理客戶的投資組合,許多金融機(jī)構(gòu)使用智能投資(機(jī)器人顧問(wèn))。與名稱相反,它不使用機(jī)器人來(lái)執(zhí)行其服務(wù)。相反,它是一個(gè)電子應(yīng)用程序,可為客戶提供管理其投資組合的指導(dǎo)。與昂貴的人力投資顧問(wèn)相比,廉價(jià)的智能投資和基于機(jī)器學(xué)習(xí)的投資組合管理在今天變得越來(lái)越流行。
銀行和金融機(jī)構(gòu)欺詐對(duì)各行業(yè)造成嚴(yán)重的負(fù)面影響,從欺詐中恢復(fù)的成本遠(yuǎn)高于欺詐造成的損失。機(jī)器學(xué)習(xí)在預(yù)防和檢測(cè)金融領(lǐng)域的欺詐方面非常有用,因?yàn)閺?fù)雜的算法可以準(zhǔn)確地檢測(cè)和識(shí)別欺詐模式,從而防止欺詐。銀行和金融機(jī)構(gòu)現(xiàn)在使用SVM、隨機(jī)森林和決策樹來(lái)構(gòu)建欺詐預(yù)防和控制系統(tǒng)。欺詐通常不需要適當(dāng)詳細(xì)的模型,但更重要的是考慮到分析師對(duì)業(yè)務(wù)的理解,可以從極端情況下觀察欺詐過(guò)程。同時(shí),欺詐更強(qiáng)調(diào)回收率和評(píng)估模型的準(zhǔn)確性。
許多公司傾向于收集大量客戶和客戶數(shù)據(jù),并渴望了解隱藏在其客戶群中的有意義的關(guān)系。在這一點(diǎn)上,機(jī)器學(xué)習(xí)效果很好。無(wú)監(jiān)督學(xué)習(xí)使金融從業(yè)者可以減少手動(dòng)聯(lián)系客戶的時(shí)間,因?yàn)樗麄兛梢允褂谜鎸?shí)數(shù)據(jù)集對(duì)潛在客戶進(jìn)行分類。可以使用無(wú)監(jiān)督學(xué)習(xí)技術(shù)來(lái)了解客戶之間是否存在相似之處,以及如何最好地將他們歸入不同的類別。有了這些信息,公司可以提供最能滿足客戶需求的未來(lái)產(chǎn)品和服務(wù)。
有很多方法可以通過(guò)對(duì)沖來(lái)降低交易風(fēng)險(xiǎn)?;鹜ǔJ褂闷谪浐推跈?quán)來(lái)保護(hù)每筆交易。然而,就像保險(xiǎn)一樣,這個(gè)安全網(wǎng)也是有代價(jià)的。目前,機(jī)器學(xué)習(xí)技術(shù)的使用具有降低成本的潛力。金融機(jī)構(gòu)盡最大努力避免影響它們的風(fēng)險(xiǎn)和危機(jī)。這就是機(jī)器學(xué)習(xí)在金融風(fēng)險(xiǎn)管理中如此廣泛使用的原因。除了預(yù)測(cè)聲譽(yù),金融行業(yè)還使用機(jī)器學(xué)習(xí)來(lái)分析和預(yù)測(cè)當(dāng)前的市場(chǎng)狀況、高影響事件和重要信息。這有助于金融機(jī)構(gòu)梳理未來(lái)風(fēng)險(xiǎn)并預(yù)測(cè)發(fā)生金融危機(jī)的可能性。機(jī)器學(xué)習(xí)算法提供的模型不是傳統(tǒng)的對(duì)沖,而是對(duì)買賣雙方的潛在改進(jìn)。我們的目標(biāo)是消除對(duì)沖的需要,從而降低成本[5]。
隨著機(jī)器學(xué)習(xí)的強(qiáng)大發(fā)展,人工智能時(shí)代已經(jīng)到來(lái),所有學(xué)科都可以與機(jī)器學(xué)習(xí)相結(jié)合。然而,并非所有領(lǐng)域都能充分利用機(jī)器學(xué)習(xí)對(duì)人類的強(qiáng)大好處。需要確保數(shù)據(jù)的可靠性和完整性,同時(shí)確保良好的機(jī)器學(xué)習(xí)性能。還必須考慮你的研究興趣是否有對(duì)人類情有獨(dú)鐘。了解當(dāng)機(jī)器學(xué)習(xí)算法計(jì)算出人類無(wú)法理解的條件時(shí),其結(jié)果對(duì)于經(jīng)濟(jì)分析往往毫無(wú)用處且毫無(wú)意義。因此,課題研究人員需要深入研究如何利用機(jī)器學(xué)習(xí)在金融領(lǐng)域的優(yōu)勢(shì)。
數(shù)字技術(shù)與應(yīng)用2021年11期