亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺談并行統(tǒng)計計算基礎(chǔ)下的金融數(shù)據(jù)

        2017-09-18 06:01:09趙哲衡
        科學(xué)中國人 2017年23期
        關(guān)鍵詞:數(shù)據(jù)處理長度樣本

        趙哲衡

        淺談并行統(tǒng)計計算基礎(chǔ)下的金融數(shù)據(jù)

        趙哲衡

        The University of Texas at Dallas

        在信息時代,金融數(shù)據(jù)處理已經(jīng)成為了困擾金融業(yè)的重要問題?;谶@種情況,本文對并行統(tǒng)計計算這種數(shù)據(jù)處理方法進(jìn)行了分析,然后結(jié)合金融數(shù)據(jù)特點對并行統(tǒng)計計算基礎(chǔ)下的金融數(shù)據(jù)處理問題進(jìn)行了探討。

        并行統(tǒng)計計算;金融數(shù)據(jù);處理

        引言

        作為信息密集型產(chǎn)業(yè),金融業(yè)的各項業(yè)務(wù)開展都要有數(shù)據(jù)提供支撐。但在信息時代背景下,金融業(yè)要面臨海量數(shù)據(jù)的處理問題,所以如何進(jìn)行金融數(shù)據(jù)的處理成為了行業(yè)關(guān)注的問題。利用并行統(tǒng)計計算方法,則能完成大量數(shù)據(jù)的并行處理,從而滿足金融數(shù)據(jù)的處理需求。因此,還應(yīng)加強(qiáng)對并行統(tǒng)計計算基礎(chǔ)下的金融數(shù)據(jù)分析,以得到科學(xué)的數(shù)據(jù)處理方法。

        1 并行統(tǒng)計計算分析

        所謂的并行統(tǒng)計計算,其實就是統(tǒng)計計算中使用的并行方法。利用該方法完成統(tǒng)計計算工作,需要將工作劃分為多項任務(wù),然后利用多個節(jié)點同時進(jìn)行各任務(wù)的處理,從而在較短時間內(nèi)完成計算工作。而就目前來看,并行統(tǒng)計計算能夠劃分為多個類型,并且需要使用相應(yīng)的統(tǒng)計算法策略。因此,想要應(yīng)用并行統(tǒng)計計算,還要掌握其分類和算法策略。

        1.1 并行統(tǒng)計算法分類

        在并行統(tǒng)計算法分類上,目前人們主要根據(jù)硬件類型支持進(jìn)行分類,即進(jìn)行Flynn分類或Schmidberger分類。從設(shè)備組成上來看,使用并行統(tǒng)計算法需要完成列陣處理器、并行多機(jī)和管道處理器的配置。利用管道處理器,可對計算機(jī)指令進(jìn)行分割,以獲得系列獨立步驟,然后利用列陣處理器完成列陣數(shù)據(jù)的并行高效處理[1]。所謂的并行多機(jī),則是擁有多處理器的機(jī)器或由多個機(jī)器構(gòu)成的集群,可用于進(jìn)行并行統(tǒng)計計算。按照Flynn分類,可以將數(shù)據(jù)劃分為單指令單數(shù)據(jù)分類、單指令多數(shù)據(jù)分類和多指令多數(shù)據(jù)分類這三種并行程序[2]。按照Schmidberger分類,可將并行統(tǒng)計計算機(jī)劃分為多核系統(tǒng)、多處理器系統(tǒng)、多計算集群等。

        1.2 并行統(tǒng)計算法策略

        利用并行統(tǒng)計計算機(jī)進(jìn)行統(tǒng)計算法實施時,需要采用并行統(tǒng)計的算法策略。目前,主要可以采用區(qū)域分解和任務(wù)分解兩種策略。采用區(qū)域分解策略,即對跨節(jié)點統(tǒng)計問題的計算區(qū)域進(jìn)行并行化處理,賦予各節(jié)點相應(yīng)統(tǒng)計數(shù)據(jù)子集,并在多項統(tǒng)計數(shù)據(jù)中應(yīng)用同一指令集[3]。而在分解區(qū)域的同時,各處理器將負(fù)責(zé)各自任務(wù),然后一同進(jìn)行統(tǒng)計問題的處理。采用任務(wù)分解策略,即由各節(jié)點對相同代碼的不同部分進(jìn)行執(zhí)行,以實現(xiàn)任務(wù)分解。所以,各節(jié)點需要完成特定子任務(wù)的執(zhí)行,程序也將被劃分為協(xié)同任務(wù),各協(xié)同任務(wù)需進(jìn)行不同代碼的執(zhí)行。因此,采用該策略對各協(xié)同任務(wù)進(jìn)行了異步執(zhí)行,可以在不同計算機(jī)上完成統(tǒng)計任務(wù)。

        2 并行統(tǒng)計計算基礎(chǔ)下的金融數(shù)據(jù)

        2.1 金融數(shù)據(jù)的特點

        作為建立在數(shù)據(jù)基礎(chǔ)上的產(chǎn)業(yè),金融業(yè)每天都將產(chǎn)生大量的數(shù)據(jù)。通過對這些數(shù)據(jù)進(jìn)行分析、查詢和挖掘,才能完成潛在商機(jī)的挖掘,并為金融風(fēng)險的管理提供數(shù)據(jù)依據(jù)。就目前來看,金融數(shù)據(jù)擁有幾大特點。首先,金融數(shù)據(jù)擁有較大的數(shù)據(jù)容量,最高能夠達(dá)到PB級別。其次,金融數(shù)據(jù)擁有較廣的數(shù)據(jù)范疇,各金融業(yè)務(wù)節(jié)點上都存在數(shù)據(jù),數(shù)據(jù)類型也較多,包含日志、圖片、文本、音視頻等,大多為非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。再者,金融數(shù)據(jù)整體價值密度較低,因為擁有過多的數(shù)據(jù),所以也有較大的數(shù)據(jù)噪聲,其中夾雜較多無價值的數(shù)據(jù)。最后,金融數(shù)據(jù)擁有較快的變化,所以要求迅速完成數(shù)據(jù)處理。受這些因素的影響,金融數(shù)據(jù)的統(tǒng)計處理有較高的數(shù)據(jù)處理響應(yīng)速度要求。但就目前來看,采用傳統(tǒng)數(shù)據(jù)統(tǒng)計計算方法已經(jīng)難以滿足金融數(shù)據(jù)處理的快速響應(yīng)需求。而分布式系統(tǒng)能夠提供并行統(tǒng)計計算算法,因此能夠用于進(jìn)行大量金融數(shù)據(jù)的統(tǒng)計計算處理,繼而更好的應(yīng)對信息時代給金融數(shù)據(jù)處理帶來的挑戰(zhàn)。

        2.2 金融數(shù)據(jù)的并行統(tǒng)計計算

        圖1 多元線性模型下的PLME

        2.2.1 多元線性模型下的金融數(shù)據(jù)處理

        在解決較多金融數(shù)據(jù)統(tǒng)計問題時,多元線性模型得到了使用。對該模型進(jìn)行并行執(zhí)行,能夠有效完成統(tǒng)計問題的快速分解和分析。如下式(1),為多元線性模型,式中X∈Rn*p為已知矩陣,對秩進(jìn)行了給定,滿足rank(X)=p的條件,并且p≤n;Y∈Rn*1,為觀察得到的隨機(jī)向量;β∈Rp*1,指的是未知參數(shù)向量;σ2為正未知參數(shù),I∈Rn*n,指的是單位陣。

        在該模型中引入并行最大似然估計這一并行算法,則能分別將觀察樣本(X,Y)發(fā)送至r各節(jié)點,然后利用隨機(jī)區(qū)域分解從各節(jié)點中獲得不同子樣本,并標(biāo)記為(Xi,Yi),然后進(jìn)行子樣本最大似然估計計算(MLE)。完成各節(jié)點估算,則能得到PLME。采用該算法,就是利用區(qū)域分解法解決統(tǒng)計問題。(如圖1)為多元線性模型下的PLME,po為子樣本長度。

        為驗證利用該算法處理金融數(shù)據(jù)的有效性,可以破產(chǎn)數(shù)據(jù)為樣本。該數(shù)據(jù)集中包含4500個觀察樣本,被稱之為“Bank32nh”,擁有二維輸出值和31個連續(xù)屬性。利用R軟件完成數(shù)據(jù)擬合,則能發(fā)現(xiàn)在二維輸出上,相關(guān)系數(shù)R2為0.4156,連續(xù)屬性F統(tǒng)計量則為102.5。對其子集檢驗PLME,使r取值7,并使rank(Ei)=ni=51,則能得到如下表1的相關(guān)系數(shù)序列。而31個屬性二維輸出值的PLME為關(guān)于子集估計含權(quán)為1/7的加權(quán)LS估計,其擁有與加權(quán)LS相同的統(tǒng)計特性,每個估計相關(guān)系數(shù)都比MLE大[4]。利用PLME,則能完成最優(yōu)子集的查找。具體來講,就是將r取1,然后使子集為350:400,可得R2為0.861,其將比總體大。對PLME時間性能進(jìn)行驗證,可以分別模擬對2、4、8、16個節(jié)點進(jìn)行變形處理,產(chǎn)生的樣本則來自于多元線性模型,樣本數(shù)為1.6*106,p為3,子樣本數(shù)為5000,可以得到處理2、4、8、16個節(jié)點分別能夠得到3.08、1.66、1.01和0.64s的時間性能[5]。由此可見,利用該算法進(jìn)行金融數(shù)據(jù)處理,可以得到與節(jié)點數(shù)近似線性的速度。而在p點增加的情況下,執(zhí)行時間也將有所增加。通過增加節(jié)點數(shù),則能減少大型數(shù)據(jù)集處理的時間成本。

        表1 子集相關(guān)系數(shù)

        2.2.2 并行自助模型下的金融數(shù)據(jù)處理

        目前,在對計量經(jīng)濟(jì)學(xué)問題進(jìn)行處理時,可以使用并行自助法獲得數(shù)據(jù)處理的線性速度?,F(xiàn)階段,盡管并行計算軟件已經(jīng)得到了廣泛使用,但是并行統(tǒng)計計算尚未得到廣泛使用。利用并行自助法,則能為金融數(shù)據(jù)處理提供新的途徑。具體來講,在金融數(shù)據(jù)為獨立同分布的樣本數(shù)據(jù)和相依樣本數(shù)據(jù)時,可以利用并行自助模型進(jìn)行數(shù)據(jù)處理。因為這類樣本具有一定的統(tǒng)計特性,能夠通過使用并行自助得到最優(yōu)子樣本長度[6]。因為,如果金融數(shù)據(jù)樣本長度過大,將導(dǎo)致數(shù)據(jù)處理花費過多時間用于緩沖。如果樣本長度過小,采用重抽樣法進(jìn)行數(shù)據(jù)統(tǒng)計則將導(dǎo)致數(shù)據(jù)的相依性遭到破壞,進(jìn)而導(dǎo)致數(shù)據(jù)處理精度降低。所以在處理金融數(shù)據(jù)時,需完成合理子樣本長度的選擇。采用并行自助估計算法,需要假設(shè)樣本X的函數(shù)為θ?,指的是參數(shù)θ的估計[7]。利用下式(2)和(3)對θ?的偏和方差進(jìn)行計算,則能得到樣本的并行自助估計。估計參數(shù)的均方誤差MSE則應(yīng)該為E(θ?-θ)2。而參數(shù)漸近均方誤差A(yù)MSE為漸近最優(yōu)子樣本長度的MSE,所以可以根據(jù)均方誤差得到最優(yōu)子樣本長度。

        為驗證該種并行統(tǒng)計算法的有效性,可以使用瑞士養(yǎng)老基金基準(zhǔn)LPP2005REC數(shù)據(jù)為測試對象,并選取其中8列作為樣本數(shù)據(jù),具體包含LMI、SBI和SPI。如下表2,為各子樣本長度kBopt和RMSE。在B取值1200的條件下,最優(yōu)子樣本長度在11-18之間。而在B逐漸增加的條件下,樣本長度也將增加。所以,在金融數(shù)據(jù)為高維數(shù)據(jù)集的情況下,采用并行自助算法能夠有效減輕數(shù)據(jù)統(tǒng)計計算負(fù)擔(dān)[8]。而重抽樣的性能與子樣本長度有著直接的關(guān)系,因此在金融數(shù)據(jù)處理軟件中常常會將n1/3當(dāng)成是最優(yōu)子樣本長度,以提高重抽樣的速度性能,進(jìn)而使更多的金融數(shù)據(jù)統(tǒng)計問題得到解決。

        表2 樣本數(shù)據(jù)均值估計的最佳子樣本長度

        結(jié)論

        通過分析可以發(fā)現(xiàn),隨著信息時代的到來,在對金融數(shù)據(jù)進(jìn)行處理時,還要利用并行統(tǒng)計計算完成海量數(shù)據(jù)的統(tǒng)計分析,才能盡快得到有用的數(shù)據(jù)信息,進(jìn)而為金融業(yè)創(chuàng)造更多的價值。因此,相信隨著相關(guān)技術(shù)的發(fā)展,并行統(tǒng)計計算將在金融業(yè)得到廣泛的應(yīng)用,進(jìn)而為金融數(shù)據(jù)的處理提供有力的技術(shù)支撐。

        [1]李浩光.數(shù)據(jù)挖掘在防范金融風(fēng)險中的研究及應(yīng)用[J].計算機(jī)安全,2014,02:48-51.

        [2]董春,袁衛(wèi)平,亢曉琛,張玉,喬慶華.地理國情大數(shù)據(jù)基本統(tǒng)計的多進(jìn)程并行計算[J].測繪科學(xué),2014,05:13-17.

        [3]宋磊,尹俊平,陳虹.基于R的并行統(tǒng)計計算[J].計算機(jī)科學(xué), 2013,03:95-99.

        [4]李湛.金融大數(shù)據(jù)中的并行查詢[J].中國金融,2015,10:79-80.

        [5]代紅.基于Hadoop的金融智能云平臺分布式架構(gòu)[J].遼寧科技大學(xué)學(xué)報,2016,03:223-228.

        [6]任媛媛,姚宏亮.嶺回歸視角下金融數(shù)據(jù)分析與算法實現(xiàn)[J].經(jīng)濟(jì)研究導(dǎo)刊,2013,32:206-209.

        [7]王泰積,劉威儀,李竹渝.金融區(qū)間數(shù)據(jù)的動態(tài)回歸模型比較與實證檢驗[J].統(tǒng)計與決策,2011,06:28-31.

        [8]柴志雷,張圓蒲.基于GPU的輪廓提取算法的并行計算方法研究[J].計算機(jī)應(yīng)用研究,2015,02:630-634.

        猜你喜歡
        數(shù)據(jù)處理長度樣本
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
        用樣本估計總體復(fù)習(xí)點撥
        1米的長度
        推動醫(yī)改的“直銷樣本”
        愛的長度
        怎樣比較簡單的長度
        隨機(jī)微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        基于希爾伯特- 黃變換的去噪法在外測數(shù)據(jù)處理中的應(yīng)用
        无码制服丝袜中文字幕| 亚洲精品白浆高清久久久久久| 免费看av在线网站网址| 99精产国品一二三产品香蕉| 亚洲av不卡电影在线网址最新| 蜜桃视频在线免费观看一区二区 | 亚洲中文无码av永久| 久久婷婷人人澡人人喊人人爽| 人妻无码一区二区三区四区| 国产精品日本天堂| 亚洲精品综合久久国产二区| 黄色av亚洲在线观看| 一边做一边喷17p亚洲乱妇50p| 日本乱子人伦在线视频| 2021久久精品国产99国产| 青青视频在线播放免费的| 日本二一三区免费在线| 未满十八勿入av网免费| 永久免费观看的毛片手机视频| 精品丝袜国产在线播放| 国产乱人伦偷精品视频还看的| 色窝窝无码一区二区三区| 国产精品毛片久久久久久久| 国产最新一区二区三区天堂| 久久综合老鸭窝色综合久久| 国产夫妻自拍视频在线播放| 亚洲热线99精品视频| 欧美做受视频播放| 永久免费在线观看蜜桃视频| 喷水白浆视频在线观看| 国产熟女内射oooo| 欧美性猛交xxxx乱大交蜜桃| 精品蜜桃av一区二区三区| 亚洲国产精品久久无人区| 久久天天躁狠狠躁夜夜avapp | 国产精品videossex国产高清| 欧美日韩亚洲tv不卡久久| 久久久www成人免费无遮挡大片| 国产亚洲精品一区二区在线观看| 欧美丰满少妇xxxx性| 免费无码又爽又刺激聊天app|