亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數據背景的相關系數研究

        2017-11-14 12:03:28姜詠梅倪中華
        商丘職業(yè)技術學院學報 2017年5期
        關鍵詞:協(xié)方差標準差總體

        姜詠梅,倪中華

        (1.九州職業(yè)技術學院,江蘇 徐州 221116; 2.商丘職業(yè)技術學院,河南 商丘 476000)

        基于大數據背景的相關系數研究

        姜詠梅1,倪中華2

        (1.九州職業(yè)技術學院,江蘇 徐州 221116; 2.商丘職業(yè)技術學院,河南 商丘 476000)

        隨著信息技術的發(fā)展,我們迎來了大數據時代,許多領域都出現(xiàn)了海量的數據.探求紛繁復雜的數據之間的相關關系比尋找因果關系更受關注,而統(tǒng)計學中的相關系數正是用來描述兩個變量之間相關關系的指標.文章先給出相關系數的由來以及在概率論中的定義和性質,再推導出統(tǒng)計學中常見的2個計算相關系數的公式,最后舉例計算以提高對相關系數的理解以及應用的能力.

        大數據;相關系數;均值;標準差;隨機變量

        0 引言

        自然界中的各種現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象之間的數量聯(lián)系,也叫相關關系.維克托·邁爾-舍恩伯格在其著作大數據時代[1]12中明確指出,大數據時代最大的轉變就是放棄對因果關系的渴求,取而代之關注相關關系.相關關系作為統(tǒng)計學中的一個工具的魅力在于將兩個變量的關聯(lián)精煉成一個描述性數據:相關系數[2]73-74.相關系數是用來說明變量之間在直線相關條件下相關關系密切程度和方向的統(tǒng)計分析指標[3]206-207.例如,人的身高和體重,某種商品的價格與需求,證券市場價格與投資者心理之間都存在著一定的相關關系.而當今社會隨著手機、電腦、互聯(lián)網的普及與發(fā)展,我們能獲取的數據越來越多,若能對這些數據及時地進行分析和預測它們之間的相關關系,將會深刻影響人們的決策.

        1 概率中的相關系數

        1.1 定義的由來

        如何來描述兩個隨機變量的線性相關程度呢.謝明文[4]33-36利用最小二乘法:假設隨機變量X與Y具有一定的線性關系,則存在實數a和b,使得Y≈aX+b.為使這種近似程度達到最高,這就要求均方差S=E(Y-aX-b)2達到最小,有

        1.2 概率中的定義

        設對二維隨機變量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,則稱E{[X-E(X)][Y-E(Y)]}為X與Y的協(xié)方差,記作Cov(X,Y),即

        Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.

        若Cov(X,Y)存在,并且D(X),D(Y)存在且都不為0,則稱

        為X與Y的相關系數[5]112-113.把(2)式帶入(1)式得

        由(3)式可以得出相關系數的性質如下:

        1) -1≤ρXY≤1.

        2) 若|ρXY|的值越大,則X與Y的相關程度越高;若|ρXY|的值越小,則X與Y的相關程度越低.

        3)ρ=1為完全正相關;ρ=-1為完全負相關,表明隨機變量之間為完全線性相關,即函數關系.ρ=0表明隨機變量之間無線性相關關系.

        2 統(tǒng)計中相關系數的兩個常用公式

        設x1,x2,…,xn為來自總體X的一組樣本觀測值,y1,y2,…,yn為來自總體Y的一組樣本觀測值,ρ表示總體的相關系數,r表示樣本的相關系數,σxy表示兩組變量的協(xié)方差,σx表示X的標準差,σy表示Y的標準差,則有

        由概率知識得

        將上面3個式子帶入(4)式得

        即相關系數可以表示成兩組變量的協(xié)方差與兩組變量標準差乘積的商,(5)式也是統(tǒng)計學中常用的計算公式之一.

        (6)式也是統(tǒng)計學中計算相關系數的一個常用公式.

        相關系數可以反映兩組變量之間相互關聯(lián)的程度并且不受變量單位的限制(由(2)式可以看出我們把隨機變量單位化了),也就是說我們可以計算體重和身高之間的關聯(lián)性,哪怕它們的單位分別是千克和厘米.

        3 應用

        3.1 傳統(tǒng)統(tǒng)計學中相關系數的計算

        由于以前的條件所限,搜集總體的數據比較困難,所以傳統(tǒng)統(tǒng)計學中用來計算相關系數的數據往往是對總體進行抽樣,用樣本觀測值對總體進行推測.比如我們想考察某個城市青少年的體重和身高的相互關系,我們可以應用公式(5)借助于Excel計算體重與身高的相關系數,具體步驟為:

        1) 選取一個樣本(比如取10個人),獲取樣本中每一位青少年體重與身高的觀測值;

        2) 求出體重與身高的平均值和標準差;

        3) 將每個人的體重和身高轉換成標準值:

        (體重-平均體重)/ 體重標準差、(身高-平均身高)/ 身高標準差;

        4) 將每個人體重標準值與身高標準值相乘;

        5) 將第4步得到的乘積相加再除以總人數(即10),就得到體重與身高的相關系數.(見表1)

        表1 身高體重相關系數

        3.2 大數據背景下相關系數的計算

        在大數據時代,我們可以采集事物整體的全部數據,并且得到的數據是動態(tài)的而非靜態(tài)的,因此我們能夠用兩者之間的相關關系來捕捉到事物的現(xiàn)在和預測未來,而非傳統(tǒng)的只是檢驗過去.如我們想考察某個企業(yè)的產量與單位成本的相互關系,我們可以搜集到它們的全部數據,然后按照如下步驟計算出兩者的相關系數.

        1) 分別求出產量和單位成本的平方;

        2) 求出產量與單位成本的乘積;

        3) 分別求出產量、單位成本、產量的平方、單位成本的平方、產量與單位成本乘積的和;

        4) 代入公式(6)計算得出相關系數.

        根據經驗可將相關程度分為以下幾種情況:1)|r|≥0.8,一般稱為高度線性相關; 2)0.5≤|r|<0.8,為顯著線性相關;3)0.3≤|r|<0.5,為低度線性相關;4)|r|<0.3,為無線性相關.

        對比上述兩種相關系數的計算方法,我們可以得出:傳統(tǒng)統(tǒng)計學是先算出樣本中體重與身高的相關系數繼而推測總體的身高和體重之間的相關關系.比如樣本的體重與身高的相關系數是0.97,從而得出總體的身高和體重為高度線性相關,也就是說一般情況下身高高的人體重也重,當然也不排除個別情況,身高矮體重也是重的.由于抽取樣本的有限性,可能會隱藏一些數據,從而使得到的結果與實際有偏差.但在大數據背景下,就可以很好的解決這個問題,因為我們用的是該企業(yè)產量和單位成本的全部數據,這樣就能更全面地考察該企業(yè),從而給決策者提供有益參考.

        4 結語

        在大數據時代,我們的核心任務是預測,而相關系數是統(tǒng)計中常用的分析數據的工具,它可以將大量繁雜無序、單位不同的復雜數據加工成一個簡潔、優(yōu)雅的描述性數據,給人們提供有益參考.事物之間的相關關系可能不會準確地告知事物發(fā)生的內在原因,但是它會提醒人們事物之間的相互聯(lián)系[6]23-28,從而為社會的經濟發(fā)展提供幫助.但需要注意的是相關關系不等于因果關系,也就是說兩個變量存在高度相關關系并不代表其中一個變量的改變是由另一個變量的變化引起的.舉個例子,身高和體重存在高度的正相關關系的意思不是你想長高就多吃飯增加體重就可以了.當然現(xiàn)在有許多流行的統(tǒng)計軟件,如SAS、SPSS和R語言等來分析處理大數據,我們不光要會計算還要會分析數據和理論聯(lián)系實際.

        [1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周 濤,譯.杭州:浙江人民出版社,2013.

        [2] 查爾斯·惠倫.赤裸裸的統(tǒng)計學[M].曹 檳,譯.北京:中信出版社,2013.

        [3] 陳正偉.新編統(tǒng)計學[M].北京:北京郵電大學出版社,2012.

        [4] 謝明文.關于協(xié)方差、相關系數與相關性的關系[J].數理統(tǒng)計與管理,2004,23(3).

        [5] 王玉孝,姜炳麟,汪彩云.概率論、隨機過程與數理統(tǒng)計[M].北京:北京郵電大學出版社,2010.

        [6] 秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(6).

        ResearchonCorrelationCoefficientBasedonBigDataBackground

        JIANG Yongmei1, NI Zhonghua2

        (1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)

        With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.

        big data; correlation coefficient; mean; standard deviation; random variable.

        O211.5;O212.1

        A

        1671-8127(2017)05-0068-04

        2017-04-28

        姜詠梅(1981- ),女,山東煙臺人,九州職業(yè)技術學院副教授,理學碩士,主要從事概率論與數理統(tǒng)計研究。

        [責任編輯梧桐雨]

        猜你喜歡
        協(xié)方差標準差總體
        用樣本估計總體復習點撥
        用Pro-Kin Line平衡反饋訓練儀對早期帕金森病患者進行治療對其動態(tài)平衡功能的影響
        2020年秋糧收購總體進度快于上年
        外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        直擊高考中的用樣本估計總體
        不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預報器
        自動化學報(2016年8期)2016-04-16 03:38:55
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        對于平均差與標準差的數學關系和應用價值比較研究
        縱向數據分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半參數建模
        關于協(xié)方差的U統(tǒng)計量檢驗法
        91久久久久无码精品露脸| 亚洲精品白浆高清久久久久久| 私人毛片免费高清影视院| 日韩中文字幕中文有码| 亚洲一区二区女优av| 青青草成人在线播放视频| 亚洲成a人无码| 毛片免费在线播放| 在线观看中文字幕一区二区三区 | 大陆一级毛片免费播放| 日本无吗一区二区视频| 亚洲一区二区三区,日本| 日产无人区一线二线三线乱码蘑菇| 国产午夜亚洲精品不卡福利| 蜜臀av一区二区三区精品| 不卡的av网站在线观看| 亚洲中文字幕无码爆乳| 五月婷婷影视| 国产免费网站在线观看不卡| av无码电影一区二区三区| 3d动漫精品啪啪一区二区下载| 亚洲老熟妇愉情magnet| 人妻少妇中文字幕,久久精品| 热久久美女精品天天吊色| 日韩AVAV天堂AV在线| 亚洲av精品一区二区| 夫妻免费无码v看片| av片在线观看免费| 久久久久久人妻一区精品| 国内嫩模自拍偷拍视频| 青草内射中出高潮| 丝袜美女污污免费观看的网站| 青青草在线公开免费视频| 国产精品天干天干综合网| 欧美喷潮久久久xxxxx| 日本一区不卡高清在线观看| 精品人妖一区二区三区四区| 另类内射国产在线| 国产成人亚洲综合小说区| 中文字幕精品亚洲字幕| 无码精品久久久久久人妻中字|