亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于R語言的金融數(shù)據(jù)分析
        ——以新浪股票數(shù)據(jù)為例

        2020-04-28 08:21:48楊曉偉楊鴻鮮劉相國劉倩倩
        貴陽學院學報(自然科學版) 2020年1期
        關(guān)鍵詞:正態(tài)線圖新浪

        楊曉偉,楊鴻鮮,劉相國,劉倩倩

        (巢湖學院 數(shù)學與統(tǒng)計學院,安徽 合肥 23800)

        隨著我國國民經(jīng)濟的發(fā)展及科學技術(shù)水平的提升,金融領(lǐng)域的發(fā)展受到社會各界的高度重視。然而,金融行業(yè)的數(shù)據(jù)分析是一個極為復雜的體系,有眾多不同的分支。因此大數(shù)據(jù)分析技術(shù)在這個新經(jīng)濟時代意義重大。近年來,數(shù)據(jù)分析軟件層出不窮,如R、SPSS、Eviews、Matlab等數(shù)據(jù)分析軟件。其中R語言以其獨特的優(yōu)勢活躍于各個領(lǐng)域數(shù)據(jù)分析之中。R具備可拓展能力,且擁有豐富的功能選項,可幫助相關(guān)領(lǐng)域工作人員開展數(shù)據(jù)分析與研究活動。

        金融數(shù)據(jù)分析離不開切實可靠的數(shù)據(jù),數(shù)據(jù)是經(jīng)濟分析的基礎(chǔ),嚴謹?shù)慕?jīng)濟理論和經(jīng)濟形勢預判均需真實有效的數(shù)據(jù)作為依據(jù)。由于R軟件包涉及的領(lǐng)域極廣,包含社交網(wǎng)絡(luò)分析、統(tǒng)計、繪圖、自然語言處理、生物信息統(tǒng)計等,并且它們擁有共同的一套R語言語法和語義規(guī)則,操作靈活簡便。本文主要運用R的quantmod包和fBasics包從雅虎網(wǎng)的財經(jīng)板塊抓取新浪股票數(shù)據(jù),為股票的市場走勢分析打下基礎(chǔ)。

        在如今這個大數(shù)據(jù)時代,數(shù)據(jù)分析成為生活和工作中必不可少的項目。而數(shù)據(jù)分析就是采用恰當?shù)慕y(tǒng)計分析技術(shù)對收集來的龐大的數(shù)據(jù)體系進行分析整理,提取有價值信息,形成一般規(guī)律或結(jié)論,并給出詳細的概述[1]。例如經(jīng)典的營銷案例如沃爾瑪啤酒與尿布;Suncorp-Metway使用數(shù)據(jù)分析實現(xiàn)智慧營銷;還有辛辛那提動物園使用數(shù)據(jù)分析提高客戶滿意度等經(jīng)典數(shù)據(jù)分析案例,深刻反映出數(shù)據(jù)分析的實用性遍布日常生活和工作過程中,幫助人們做出判斷,利于人們采取適當行動[2]。而本文主要是運用R軟件,實現(xiàn)對新浪股票數(shù)據(jù)的基礎(chǔ)分析,這具有一定的現(xiàn)實指導意義。

        1 R語言概述

        從R的起源史來看,R工具的開發(fā)其實是用來替代昂貴的SPSS工具和SAS工具[3]。1992年開始,由兩位新西蘭奧克蘭大學的統(tǒng)計學家為了方便講授初等統(tǒng)計課程,而發(fā)明的以他們名字的首字母R為名稱的編程語言,可認為R是S語言分支的一種實現(xiàn)[4]。R是目前使用最廣泛的數(shù)據(jù)挖掘和分析工具,已成為一款極具特色且擁有廣闊前景的應用軟件。尤其在金融行業(yè),金融數(shù)據(jù)的分析更是離不開R的。如人們可通過R對股票數(shù)據(jù)進行抓取,對獲取的數(shù)據(jù)進行挖掘,得出分析結(jié)果,對金融行業(yè)及股票市場進行合理預判,以便對企業(yè)發(fā)展有更好的評估[5]。

        1.1 R包的介紹

        簡而言之,R是一個關(guān)于包的集合,而包是關(guān)于函數(shù)、數(shù)據(jù)集、編譯器等的集合。編譯R程序的過程是通過創(chuàng)建R對象來組織數(shù)據(jù),并通過調(diào)用系統(tǒng)函數(shù)或創(chuàng)建和調(diào)用自定義函數(shù)來逐步完成每個數(shù)據(jù)挖掘各階段的任務(wù)。包作為R的核心思想可劃分為基礎(chǔ)包和共享包兩大內(nèi)容?;A(chǔ)包是R默認下載和安裝的包,它支持各類數(shù)據(jù)基本統(tǒng)計情況的分析和基礎(chǔ)制圖等,其中還包括一些共享數(shù)據(jù)集供用戶使用。而共享包是由R的全球性研究型社區(qū)和第三方提供的各種包的集合,涵蓋了各類現(xiàn)代統(tǒng)計和數(shù)據(jù)挖掘方法,涉及的應用領(lǐng)域較多。使用者可根據(jù)自身的研究目的,有選擇地自行指定下載、安裝和加載。

        1.2 R的基本函數(shù)

        表1的函數(shù)主要用來對數(shù)據(jù)統(tǒng)計性質(zhì)進行分析,利用R軟件編程來呈現(xiàn)數(shù)據(jù)結(jié)果。

        表1 基本統(tǒng)計函數(shù)介紹

        表2是本文用來抓取股票數(shù)據(jù)并調(diào)用相關(guān)算法進行技術(shù)分析的R函數(shù)命令。

        表2 主要調(diào)用R函數(shù)介紹

        ①library() 函數(shù)用來加載各種R包,其相當于一個大型“圖書館”,用來查找資料的。

        ②getSymbols() 函數(shù)是用來訪問和下載作用對象的數(shù)據(jù),如用來抓取新浪股票數(shù)據(jù)。

        ③chartSeries() 函數(shù)主要是用來繪制數(shù)據(jù)的K線圖。

        2 金融數(shù)據(jù)分析的理論介紹

        金融行業(yè)數(shù)據(jù)信息量大且更新速度極快,因此應及時、準確、清晰的掌握金融數(shù)據(jù),并對其進行精準的分析,以此判別金融市場走向,從而規(guī)避風險,作出正確抉擇[6]。

        2.1 金融數(shù)據(jù)分析的“統(tǒng)計常識”

        金融數(shù)據(jù)分析需要一些基本的統(tǒng)計指標,如均值、方差、偏度、峰度等[7]。

        所謂均值(mean)表示一組數(shù)據(jù)集中趨勢的統(tǒng)計指標,是指一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù),其公式為:

        對于方差(variance),它是度量隨機變量或一組數(shù)據(jù)離散程度的指標,在很多實際問題中,方差的研究具有重要意義。其公式為:

        標準差是樣本中各個樣本點到均值的距離之平均。簡而言之,標準差描述的就是數(shù)據(jù)的“散布度”,其公式為:

        偏度和峰度是數(shù)據(jù)分布情況的度量,數(shù)據(jù)在比較集中的地方會呈現(xiàn)出一個高峰,這個高峰可能偏左也可能偏右,因此引進了這兩個指標,即偏度和峰度。偏度(skewness)是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,也是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征,它是度量關(guān)于其均值的對稱性。峰度(kurtosis)又稱峰態(tài)系數(shù),它反映了概率密度曲線在平均值處峰值高低的特征數(shù)[8]。

        表3是對本文金融數(shù)據(jù)處理中一些描述性統(tǒng)計量的簡單介紹。

        表3 描述性統(tǒng)計量介紹

        2.2 正態(tài)性檢驗原理

        正態(tài)性檢驗方法多樣,本文主要用到的方法是JB正態(tài)性檢驗。所謂JB正態(tài)性檢驗,是Jarque和Bera兩個人將單獨的偏度t檢驗和峰度t檢驗融合在一起而建立的正態(tài)性檢驗原理。其公式為:

        其中,n表示樣本容量,S表示偏度,K代表峰度。若在規(guī)定的顯著性水平下(通常為5%),則拒絕原假設(shè),不滿足正態(tài)分布;反之接受原假設(shè),滿足正態(tài)分布。

        2.3 股票基礎(chǔ)知識

        股票是一種有價證券,它是由股份有限公司簽發(fā)的證明,股東所持股份的憑證[9]。股票具有收益性、風險性、流動性、永久性、參與性五個特點。了解掌握和分析股票數(shù)據(jù),必須了解股票數(shù)據(jù)的K線圖、成交量、股票收益率等技術(shù)分析指標。

        3 實例分析

        在本文的主要目標是判斷新浪股票數(shù)據(jù)是否服從正態(tài)分布并實現(xiàn)基礎(chǔ)分析。若假設(shè)所研究時間段的新浪股票數(shù)據(jù)服從正態(tài)分布,收集數(shù)據(jù)后將使用適當?shù)姆椒ㄟM行檢驗。

        3.1 收集數(shù)據(jù)

        3.1.1 加載R軟件包

        在金融數(shù)據(jù)分析中不可避免要運用R包來調(diào)用所需的分析方法或模型,本文主要調(diào)用“quantmod”和“fBasics”兩種R包進行數(shù)據(jù)分析。

        “quantmod”包是金融數(shù)據(jù)分析中抓取數(shù)據(jù)主要的R包之一,調(diào)用“quantmod”包可從一些相關(guān)的網(wǎng)站訪問下載所需數(shù)據(jù),如可利用此包直接從Yahoo、Google、MySQL、FRED等網(wǎng)站的財經(jīng)板塊下載所需的股票數(shù)據(jù),本文主要從雅虎上訪問下載相關(guān)數(shù)據(jù)。加載“quantmod”包需用到R軟件中l(wèi)ibrary() 函數(shù)。其中,如圖1所示,在加載過程中需載入三個依賴的包。同樣地,fBasics包的加載操作也是如此。

        圖1 加載quantmod包的操作過程

        3.1.2 抓取股票數(shù)據(jù)

        訪問下載股票數(shù)據(jù)需要用到getSymbols()函數(shù),以此命令來訪問雅虎網(wǎng)上財經(jīng)板塊的數(shù)據(jù),直接從網(wǎng)站下載股票數(shù)據(jù)。其中主要調(diào)用的股票代碼為“SINA”,假如要讀取某股票數(shù)據(jù),首先要查詢相應股票的代碼,“SINA”正是本文所需的新浪股票代碼。本文主要訪問下載的是2018年3月到2019年2月的新浪股票數(shù)據(jù),具體操作如圖2。

        圖2 下載股票數(shù)據(jù)的指令

        由于從雅虎網(wǎng)上抓取的新浪股票數(shù)據(jù)量巨大,查看完整數(shù)據(jù)非常不方便。因此本文僅查看已下載數(shù)據(jù)的前六行和后六行,調(diào)用命令head() 和tail()即可。圖3表示已下載的前六行和后六行數(shù)據(jù)。

        圖3 查看指定行列數(shù)據(jù)

        從圖3中可看出,所訪問的新浪股票數(shù)據(jù)的6個指標,包含每天的開盤價、最高價、最低價、收盤價、成交量和調(diào)整后的收盤價。這是研究股票收益率的重要依據(jù)。

        3.1.3 數(shù)據(jù)預處理

        一般常見的數(shù)據(jù)預處理就是判斷是否有缺失值[10],基于R識別數(shù)據(jù)中是否存在缺失值NA一般調(diào)用函數(shù)is.na()或complete.cases(),但二者在判斷的表達上有明顯差異。

        is.na()作用于對象之后,如果對應的數(shù)值為缺失值則返回TURE,否則為FALSE,使用求和函數(shù)sum()可計算出缺失值總數(shù);

        complete.cases()識別缺失值與is.na()剛好相反,缺失值為FALSE,正常數(shù)據(jù)為TURE。

        從圖4和圖5的結(jié)果可看出兩種方法呈現(xiàn)的結(jié)果是一致的,在抓取數(shù)據(jù)中并沒有顯示缺失值存在,因此判斷該數(shù)據(jù)中無缺失值NA。

        圖4 is.na判斷缺失值

        圖5 complete.cases判斷缺失值

        3.2 股票數(shù)據(jù)的圖形繪制

        3.2.1 股票數(shù)據(jù)的K線圖

        對于金融行業(yè)股票數(shù)據(jù)分析,要對股票數(shù)據(jù)做一個直觀的了解,需要繪制股票數(shù)據(jù)的K線圖[11]。K線圖是記錄某種股票一天的價格變動的范圍。利用R繪制K線圖直接調(diào)用chartSeries函數(shù)即可,這是繪制K線圖的常用方法。

        圖6 新浪股票數(shù)據(jù)K線圖(紅漲綠跌)

        圖6的K線圖表示新浪股票日收盤價和成交量變化趨勢。從圖中很直觀地反映了2018年3月初到2019年2月底,新浪股票數(shù)據(jù)的收盤價最高點在2018年3月中旬,而成交量最高點在2018年5月中旬。

        3.2.2 增加參數(shù)指標

        本文主要通過應用R軟件,對新浪股票數(shù)據(jù)進行典型圖形繪制,主要增加了布林線(BBands)指標和趨向指標(ADX)等及技術(shù)分析指標,為什么要增加布林線指標和平均趨向指標呢?首先,根據(jù)其原理,一般來說股價一般是圍繞如均線、成本線等價值中樞在一定的范圍內(nèi)波動,布林線指標在這一基礎(chǔ)上認為股價信道的寬窄會隨著股價的變化而變化,自動加之調(diào)整,具有變異性。所以這一指標以直觀、靈活的特點逐步成為市場投資人關(guān)注的重點指標。其次,平均趨向指標雖然在呈現(xiàn)趨勢的發(fā)展方向上有所欠缺,但是,如果存在一定的趨勢,ADX(趨向指標)就可以用來衡量趨勢的強度[12]。ADX的讀數(shù)上升,說明趨勢變強;反之,趨勢變?nèi)?。因此布林線指標和平均趨勢指標具有重要參考意義。

        根據(jù)圖7的布林線趨勢圖看出,2018年3月到5月,上、中、下軌線同時向下運行,說明市場弱勢特征明顯,這一時期內(nèi)呈下跌趨勢,股價一路下跌。之后的時間里,新浪股票的股價大致出現(xiàn)下跌,這可能是市場外部因素所致。

        圖7 增加布林線指標的線圖

        從圖8的趨向指標圖可看出,ADX值在高位由升轉(zhuǎn)跌,預示行情即將反轉(zhuǎn),股票市場的行情屬于不穩(wěn)定階段。

        圖8 增加ADX指標后的線圖

        3.3 股票收益率及典型圖形

        在股票市場中,研究股票收益率每天變化情況是非常重要的。除去周末,市場計算每天的收益率既可用開盤價,也可用收盤價。但是,通常來說以收盤價為基準計算收益率。在收益率的計算中,可以分為簡單收益率和對數(shù)收益率,但基本上使用的是對數(shù)收益率,因為對數(shù)收益率具有嚴謹?shù)摹皩ΨQ性”,同時也更容易體現(xiàn)統(tǒng)計特征。

        由于R的功能強大,可利用R計算出對數(shù)收益率來分析新浪股票日收益率。此時需要載入PerformanceAnalytics安裝包,然后載入程輯包,且計算對數(shù)收益率時需調(diào)用periodReturn函數(shù)來計算不同階段的收益率,類型選擇對數(shù)類型即可。

        因為觀察每天的對數(shù)收益率是一個龐大的數(shù)據(jù),因此僅查看了2018年3月份6天的對數(shù)收益率,以及2019年最后6天的對數(shù)收益率,操作結(jié)果如圖9所示。

        圖9 對數(shù)收益率的處理

        根據(jù)對數(shù)收益率計算結(jié)果,繪制新浪股票收益率的K線圖,如圖10。從圖中可看出股票收益率的波動情況。其中,股票價格使用的是調(diào)整后的收盤價。

        圖10 股票收益率的K線圖

        繪制密度函數(shù)圖之前需下載fBasics軟件包,在R中編寫代碼載入相關(guān)程緝包,獲取密度函數(shù),查看數(shù)據(jù)的取值范圍,根據(jù)這一范圍,繪制密度函數(shù)即可。圖11、圖12加載了作密度函數(shù)圖所需的R包,圖13求出了該收益率密度函數(shù)的取值范圍值。

        圖11 加載fBasics包

        圖12 求收益率的取值范圍

        圖14是收益率密度函數(shù)圖,可看出新浪股票數(shù)據(jù)的密度函數(shù)有明顯的高峰厚尾現(xiàn)象,與正態(tài)分布差別很明顯。

        圖14 股票收益率的密度函數(shù)圖

        3.4 股票收益率的正態(tài)性檢驗

        在上文基礎(chǔ)上,通過繪制新浪股票收益率的密度函數(shù)圖與正態(tài)分布差異顯著,因此需進一步利用正態(tài)性檢驗來驗證。

        3.4.1 股票收益率的基本統(tǒng)計量

        調(diào)用basicStats()函數(shù)可獲得新浪股票收益率,從圖15中的計算結(jié)果來看,調(diào)整后的新浪收益率數(shù)據(jù)中,均值等于-0.002123,非常接近于0,表示新浪股票收益率有顯著向0集中的趨勢;方差等0.000704,接近于0,表示這段時期內(nèi)新浪股票收益率的離散程度比較小,也可說是不分散的;偏度為-0.270431,明顯不等于0,說明新浪股票收益率分布具有非對稱性;峰度(Kurtosis)等于1.737217,明顯小于3,說明了新浪股票收益率存在明顯的高峰厚尾現(xiàn)象。這與之前繪制的密度函數(shù)相吻合,但仍需進一步進行正態(tài)性檢驗。

        圖15 新浪股票收益率的基本統(tǒng)計量

        3.4.2 股票收益率的正態(tài)性檢驗

        由于利用R計算JB統(tǒng)計量十分便捷,故本文主要運用JB檢驗。調(diào)用normalTest()函數(shù),方法設(shè)置改為JB即可。根據(jù)圖16的JB值為35.9158,且P=1.589e-8<0.05,表明在5%的顯著性水平下應拒絕原假設(shè),說明新浪股票收益率不服從正態(tài)分布。

        圖16 JB正態(tài)性檢驗結(jié)果

        3.5 成交量分析

        由于股市成交量是股票買賣雙方完成交易的數(shù)量,這也是技術(shù)分析中經(jīng)常使用的重要指標。應用R計算某時間段股票總成交量是十分簡便的,只需輸入函數(shù)命令getSymbols,并分別調(diào)用chartSeries()、summary()和sum()三個函數(shù)便可得到股票成交量K線圖和成交量數(shù)據(jù)匯總結(jié)果,如圖17。從圖中可看出新浪股票成交量在2018年4月、4月中旬、5月、8月中旬這幾個時間點出現(xiàn)了“暴漲暴跌”的走勢,之后從2019年初以后大致呈現(xiàn)上升趨勢。

        圖17 股票成交量K線圖

        從圖18的股票成交量匯總數(shù)據(jù)圖可看出:2018年3月至2019年2月這一期間新浪股票的6個指標的最大值、最小值、均值等。結(jié)果顯示該期間內(nèi),開盤價最大值為2019年2月28日的123.16,最小值為2018年3月1日的52.76;同理,剩下五個指標的值也一目了然。并且新浪股票在此期間內(nèi)的總成交量為210832200(million)。

        圖18 成交量匯總數(shù)據(jù)圖

        4 結(jié)論

        本文借助R語言中抓取股票數(shù)據(jù)常用的兩個軟件包對新浪股票的各項內(nèi)容展開分析。通過上述數(shù)據(jù)分析結(jié)果,從新浪股票K線圖可看出:從2018年3月下旬開始,股票走勢整體出現(xiàn)下滑,直到2019年1月開始股票走勢大致呈上升的趨勢。從收益率的密度函數(shù)圖來看,雖然圖象基本運動符合近似正態(tài)分布形式,不是非常嚴格的周期到周期的循環(huán)往復,但它的基本運動形態(tài)是基于絕對價格的,而投資回報即股票收益率是基于相對價格的。所以理論上,在價格變化趨勢明顯的條件下,投資回報顯然不是完全隨機的,即股票收益率不服從正態(tài)分布。新浪股票數(shù)據(jù)這一期間所形成的密度函數(shù)圖象中明顯存在高峰厚尾現(xiàn)象,可預判收益率不服從正態(tài)分布。從JB檢驗結(jié)果可看出,首先隨機誤差趨近于0,說明樣本數(shù)據(jù)的隨機誤差影響較小,方差也趨近于0。JB值為35.9158,且P值遠小于0.05,進一步驗證了收益率不服從正態(tài)分布這一結(jié)論。對新浪股票數(shù)據(jù)的成交量分析可知,2018年總成交量非常不穩(wěn)定,在幾個時間段出現(xiàn)“暴漲暴跌”的情況,但是自2019年開始,股票成交量逐步趨于平緩,但研究的大多時間段呈下降趨勢。

        本文基于R語言編程,實現(xiàn)了新浪股票的K線圖、收益率等技術(shù)分析,避免了復雜大量的計算過程,縮小了計算誤差,更清晰、準確地反映新浪股票的大致走勢,為股票市場的預判和風險評估提供了參考依據(jù)。但金融數(shù)據(jù)的分析不僅需要借助大數(shù)據(jù)分析軟件的技術(shù)支持,還要有對其他因素認真觀察的能力,如需做大量的行業(yè)分析、公司分析等基本面分析。數(shù)據(jù)分析并不是一件容易的事,影響數(shù)據(jù)結(jié)果的因素有很多,一個好的數(shù)據(jù)分析師更應從國家政策、市場結(jié)構(gòu)各項內(nèi)容上提高關(guān)注,這也是本人以后工作應關(guān)注的地方。

        猜你喜歡
        正態(tài)線圖新浪
        內(nèi)涵豐富的“勾股六線圖”
        猴子雖小
        讀者(2021年20期)2021-09-25 20:30:35
        基于箱線圖的出廠水和管網(wǎng)水水質(zhì)分析
        雙冪變換下正態(tài)線性回歸模型參數(shù)的假設(shè)檢驗
        新浪讀書排行榜
        閱讀時代(2017年3期)2017-03-11 07:24:51
        東山頭遺址采集石器線圖
        基于泛正態(tài)阻抗云的諧波發(fā)射水平估計
        半?yún)?shù)EV模型二階段估計的漸近正態(tài)性
        基于正態(tài)變換的貸款組合定價模型構(gòu)建及實證
        有關(guān)線圖兩個性質(zhì)的討論
        北岛玲亚洲一区二区三区| 玩弄放荡人妻少妇系列视频| 亚洲精品92内射| 亚洲国产精品尤物yw在线观看| 亚洲国产精品综合福利专区| 国产一区二区免费在线观看视频| 国产免费人成视频在线| 男女性杂交内射女bbwxz| 色噜噜狠狠狠综合曰曰曰| 亚洲成色在线综合网站| 91热视频在线观看| 白浆高潮国产免费一区二区三区| 亚洲av不卡一区男人天堂| 男人的天堂免费a级毛片无码| 午夜不卡av免费| 精品无人区无码乱码大片国产| 亚洲国产一区二区精品| 丁香花五月六月综合激情| 97日日碰曰曰摸日日澡| 人妻丰满熟妇av无码处处不卡| 国色天香精品亚洲精品| 成人av一区二区亚洲精| 国产免费av手机在线观看片| 亚洲国产成人精品无码区二本| 国产精品亚洲一区二区无码 | 亚洲自拍愉拍| 久久久成人av毛片免费观看| 风韵犹存丰满熟妇大屁股啪啪| 又色又爽又黄高潮的免费视频| 无码一区二区三区老色鬼| 性无码国产一区在线观看| 亚洲精品456在线播放狼人| 国产免费观看黄av片| 少妇无码一区二区三区免费 | 91精品亚洲一区二区三区| 亚洲国产区中文在线观看| 无套中出丰满人妻无码| 国产人在线成免费视频| 国产视频精品一区白白色| 少妇被粗大的猛进69视频| 国内精品久久久久国产盗摄|