亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Kafka對(duì)Python模擬產(chǎn)生的動(dòng)態(tài)金融數(shù)據(jù)的分析

        2019-09-10 04:17:44晉宇邵煜
        新教育論壇 2019年13期
        關(guān)鍵詞:金融分析系統(tǒng)

        晉宇 邵煜

        摘要:隨著時(shí)代的發(fā)展,數(shù)據(jù)已經(jīng)漸漸地滲透于我們生活的每一個(gè)地方,而我們對(duì)于數(shù)據(jù)的使用和分析也越來(lái)越頻繁。對(duì)于數(shù)據(jù)的抓取與分析顯得格外的重要。如今,傳統(tǒng)的數(shù)據(jù)的抓取 與分析已經(jīng)無(wú)法滿足日益增長(zhǎng)的科技發(fā)展了。我們需要一個(gè)快速,簡(jiǎn)潔,方便,高吞吐量,可實(shí)時(shí)消費(fèi)的高性能分布式消息系統(tǒng)。本文從Python對(duì)數(shù)據(jù)的抓取,Kafka對(duì)數(shù)據(jù)的整合,以及NS3對(duì)數(shù)據(jù)的分析來(lái)簡(jiǎn)單描述Kafka的消息系統(tǒng)。

        關(guān)鍵詞:Kafka分布式發(fā)布訂閱消息系統(tǒng);Python;NS3

        1.研究意義

        時(shí)代的發(fā)展,電子數(shù)據(jù)已經(jīng)漸漸地滲透于我們生活的每一個(gè)地方,傳統(tǒng)的數(shù)據(jù)收集和分析模式已經(jīng)無(wú)法滿足企業(yè)的發(fā)展。因此,用Python對(duì)數(shù)據(jù)進(jìn)行抓取,用Kafka對(duì)數(shù)據(jù)進(jìn)行分析,可以了解我國(guó)國(guó)內(nèi)金融行業(yè)的現(xiàn)狀,小而言之,也可以了解金融行業(yè)中的一部分,比如對(duì)股票進(jìn)行分析,以判斷可以購(gòu)買哪支股票。

        2.Kafka的概念及優(yōu)勢(shì)

        Kafka最初由LinkedIn公司開(kāi)發(fā),之后成為Apache軟件基金開(kāi)發(fā)的一個(gè)開(kāi)源流處理平臺(tái)。它使用Scala編寫(xiě),因其高吞吐率而被廣泛使用。Kafka憑借著自身的優(yōu)勢(shì),受到互聯(lián)網(wǎng)企業(yè)的青睞。在國(guó)內(nèi),唯品會(huì)也采用Kafka作為其內(nèi)部核心消息引擎之一。

        Kafka是一個(gè)新穎的分布式的消息訂閱和發(fā)布的系統(tǒng),能夠?qū)崟r(shí)和離線對(duì)數(shù)據(jù)進(jìn)行處理。同時(shí)也具有自己獨(dú)特的設(shè)計(jì)優(yōu)勢(shì):

        1)高吞吐量(主要優(yōu)勢(shì))。Kafka被創(chuàng)立出來(lái)的初衷就是為了能夠有效、快速的提高大量數(shù)據(jù)抓取和分析。并且,Kafka即使在普通的硬件上,也能夠支持每秒數(shù)百萬(wàn)的消息。

        2)數(shù)據(jù)的持久化存儲(chǔ)。對(duì)數(shù)據(jù)可持久化到磁盤(pán),用于批量消費(fèi),防止數(shù)據(jù)丟失。

        3)利用zookeeper確保服務(wù)的可行性。通過(guò)zookeeper管理協(xié)調(diào)數(shù)據(jù)的請(qǐng)求,將數(shù)據(jù)進(jìn)行轉(zhuǎn)發(fā)并進(jìn)行備份。

        3.Kafka 應(yīng)用于 Python模擬產(chǎn)生動(dòng)態(tài)的金融數(shù)據(jù)的分析

        3.1 Python對(duì)模擬產(chǎn)生動(dòng)態(tài)的金融數(shù)據(jù)的采集

        通過(guò)Python中使用urllib2來(lái)支持HTTP通信協(xié)議的實(shí)現(xiàn)。用URL參數(shù)指示一個(gè)要下載的資源路徑。當(dāng)數(shù)據(jù)參數(shù)為空時(shí),表示將發(fā)出一個(gè)GET類型的請(qǐng)求,該請(qǐng)求不包含任何實(shí)體;當(dāng)數(shù)據(jù)參數(shù)為非空時(shí),預(yù)示著將發(fā)出一個(gè)POST類型的請(qǐng)求,數(shù)據(jù)的內(nèi)容為請(qǐng)求的實(shí)體內(nèi)容??梢宰詣?dòng)地進(jìn)行抓取網(wǎng)絡(luò)的金融數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行采集[2]。或者通過(guò)網(wǎng)絡(luò)爬蟲(chóng)按照一定的規(guī)則對(duì)數(shù)據(jù)進(jìn)行自動(dòng)的抓取。按照行業(yè)領(lǐng)域劃分,分為股票、證券、債券、期貨等理財(cái)數(shù)據(jù), P2P數(shù)據(jù),電子商務(wù)數(shù)據(jù)等類型[3]。但以這樣的方式取得的金融網(wǎng)頁(yè)的頁(yè)面數(shù)據(jù),很有可能出現(xiàn)數(shù)據(jù)粗糙,錯(cuò)誤的字符編碼和無(wú)序的結(jié)構(gòu)等現(xiàn)象。所以,首先要確定文檔的字符編碼,可以通過(guò)<head>中的content-type元得到。然后將其解碼成uncode類型[4],以保證數(shù)據(jù)存儲(chǔ)的方便。

        3.2 Kafka 對(duì) Python 抓取數(shù)據(jù)的處理

        3.2.1 Kafka和Python產(chǎn)生的問(wèn)題與解決方案

        Kafka和Python均可以對(duì)數(shù)據(jù)進(jìn)行抓取,均需要一定的java編程基礎(chǔ),甚至于Kafka和Python均對(duì)數(shù)據(jù)可以進(jìn)行深入的分析。但在數(shù)據(jù)采集上,Python更加的方便。因此,如若對(duì)于編程不是特別熟悉的人,可以選擇用Python進(jìn)行數(shù)據(jù)采集,它使用的語(yǔ)言清晰簡(jiǎn)練,而且易于理解,即使不是專業(yè)的編程人員也能夠理解程序的含義。但是同樣的,Python語(yǔ)言存在性能不足的缺點(diǎn)。在面對(duì)大量的數(shù)據(jù)時(shí),Python的數(shù)據(jù)分析效率不是很高,甚至于可能會(huì)崩潰。而Kafka正好可以彌補(bǔ)這一缺點(diǎn),為數(shù)據(jù)的分析提供強(qiáng)大的支持。并且Python經(jīng)過(guò)一代代的開(kāi)發(fā)研究,生成了kafka-python庫(kù),可以通過(guò)一定的方式與Kafka進(jìn)行連接,實(shí)現(xiàn)了與Kafka之間的數(shù)據(jù)交互。

        當(dāng)然,在數(shù)據(jù)的傳遞時(shí)也會(huì)產(chǎn)生一定的問(wèn)題,比如,生產(chǎn)的消息因多次創(chuàng)建Kafka-Producer產(chǎn)生的問(wèn)題。這會(huì)使得抓取的數(shù)據(jù)因?yàn)檫@個(gè)問(wèn)題而丟失。

        3.2.2多次創(chuàng)建Kafka的Producer產(chǎn)生的問(wèn)題與解決方案

        由于Kafka-Python將數(shù)據(jù)傳輸給Kafka,它將產(chǎn)生一條消息,發(fā)布者需要多次創(chuàng)建該消息才能單獨(dú)發(fā)送給消費(fèi)者,但在多次創(chuàng)建發(fā)布者時(shí)會(huì)產(chǎn)生一定的錯(cuò)誤,無(wú)法繼續(xù)創(chuàng)建新Kafka生成器。產(chǎn)生錯(cuò)誤的原因是因?yàn)槊看蝿?chuàng)建一個(gè)新的Kafka生成器都會(huì)占用一個(gè)文件符號(hào),這是因?yàn)閏ontrollen結(jié)束時(shí),沒(méi)有釋放導(dǎo)致的。因此,我們可以創(chuàng)建一個(gè)用于控制的全局Kafka生成器。

        3.3 Kafka對(duì)模擬產(chǎn)生動(dòng)態(tài)的金融數(shù)據(jù)的處理

        通過(guò)上述數(shù)據(jù)采集的方法,采集而來(lái)的數(shù)據(jù)都是粗糙的,因此,我們可以通過(guò)Kafka對(duì)數(shù)據(jù)進(jìn)行一遍整理。用NS3節(jié)點(diǎn)類[5]的方式對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理。根據(jù)Kafka的分布式發(fā)布訂閱消息系統(tǒng)基本構(gòu)架,可以分別設(shè)置生產(chǎn)者、代理者、消費(fèi)者這3個(gè)節(jié)點(diǎn)。

        針對(duì)于大數(shù)據(jù)的交互會(huì)有一個(gè)管理者來(lái)對(duì)這樣的大型分布式的系統(tǒng)進(jìn)行協(xié)調(diào)服務(wù)[6],用它來(lái)協(xié)調(diào)控制分布式網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的通信,維護(hù)系統(tǒng)的負(fù)載均衡[7],保證最大程度減輕代理系統(tǒng)的通信壓力,提高系統(tǒng)的性能。

        最后我們可以設(shè)計(jì)一個(gè)特定的場(chǎng)景,比如添加2個(gè)或者以上的生產(chǎn)者,3個(gè)或以上的代理者,2個(gè)或以上的消費(fèi)者,設(shè)置消息大小為100字節(jié),讓生產(chǎn)者分別發(fā)布 80、100、300 條消息,并讓消費(fèi)者以隨機(jī)的方式進(jìn)行分配,最后,通過(guò)選取其中一個(gè)代理點(diǎn)和一個(gè)消費(fèi)者進(jìn)行數(shù)據(jù)的分析,并實(shí)時(shí)抓取的不同時(shí)間點(diǎn)的數(shù)據(jù)分析圖或表。

        結(jié)束語(yǔ)

        每一款軟件具有它的優(yōu)點(diǎn),我們應(yīng)該發(fā)揮的優(yōu)點(diǎn),與其他可以相關(guān)聯(lián)的軟件一起用,使得數(shù)據(jù)得到有效的分析。像Python用于捕捉數(shù)據(jù)速度算快,也方便,不過(guò)對(duì)于數(shù)據(jù)的整合上卻顯得很無(wú)力,因而我們可以選用Kafka來(lái)對(duì)數(shù)據(jù)進(jìn)行整合,并進(jìn)行分析。在動(dòng)態(tài)數(shù)據(jù)上,Kafka對(duì)于動(dòng)態(tài)數(shù)據(jù)的整合也能夠使它達(dá)到我們預(yù)期的效果。如若對(duì)于Kafka使用并不熟練者也可以通過(guò)數(shù)據(jù)整合之后,將數(shù)據(jù)導(dǎo)出放置于Spass中進(jìn)行簡(jiǎn)單的數(shù)據(jù)分析。

        參考文獻(xiàn):

        [1]赫特蘭. Python 基礎(chǔ)教程[M].2版.北京:人民郵電出版社,2010.

        [2]齊 鵬,李隱峰,宋玉偉.基于Python的Web數(shù)據(jù)采集技術(shù)[J].2012,25(11):118-120.

        [3]王蕾,安英博,劉佳杰.基于Python的互聯(lián)網(wǎng)金融數(shù)據(jù)采集[J],2017,(9):47-49.

        [4]魯特茲.Python 學(xué)習(xí)手冊(cè)[M].北京: 機(jī)械工業(yè)出版社,2009.

        [5]馬浩然. 基于NS3的分布式消息系統(tǒng) Kafka的仿真實(shí)現(xiàn)[J].2015,(1):94-99.

        [6]莫磊, 胥布工. 基于分布式估計(jì)及任務(wù)分配的WSANs 協(xié)同機(jī)制[J].新型工業(yè)化,2013,(12):15-27.

        [7]蔣占軍,李成,李磊等. 分布式無(wú)線通信系統(tǒng)中并行Round Robin調(diào)度算法研究[J].新型工業(yè)化,,2011,(10):103-111.

        [8]楊國(guó)龍.企業(yè)間大數(shù)據(jù)推薦引流系統(tǒng)研究與設(shè)計(jì)[D].湖南大學(xué),2016.

        [9]周鐵峰.基于大數(shù)據(jù)的用戶電信息采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華北電力大學(xué),2018.

        猜你喜歡
        金融分析系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        隱蔽失效適航要求符合性驗(yàn)證分析
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        何方平:我與金融相伴25年
        金橋(2018年12期)2019-01-29 02:47:36
        君唯康的金融夢(mèng)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
        P2P金融解讀
        亚洲欧洲精品无码av| 亚洲国产精品500在线观看| 成美女黄网站18禁免费| 亚洲福利av一区二区| 日韩日本国产一区二区| 青青草国产在线视频自拍| 亚洲精品国精品久久99热| 在线天堂www中文| 精品久久久久久国产| 女女同性黄网在线观看| 太大太粗太爽免费视频| 国产免费一区二区三区在线观看| 蜜桃一区二区三区视频网址| 97久久草草超级碰碰碰| а√天堂资源8在线官网在线| 国产女人18一级毛片视频| 久久精品国产亚洲av蜜桃av| 国产一区二区三区天堂| 亚洲欧洲成人精品香蕉网| 亚洲v欧美v国产v在线观看| 国产思思99re99在线观看| 亚洲一区二区在线视频播放| 日本人妻av在线观看| 亚洲乱码中文字幕第一页| 免费看黄色亚洲一区久久| 成人国产一区二区三区| 亚洲乱码av中文一区二区| 欧美日韩亚洲综合久久久| 一区二区三区在线日本| 日韩少妇人妻精品中文字幕| 国产欧美在线观看不卡| 国产女精品视频网站免费| 欧洲亚洲视频免费| 久久99国产精品久久99密桃| 中文字幕有码无码人妻av蜜桃| 闺蜜张开腿让我爽了一夜| 国模精品二区| 亚洲无人区一码二码国产内射 | 亚洲av无码一区二区二三区下载 | 精品一二区| 91九色熟女潮喷露脸合集|