亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)背景的相關(guān)系數(shù)研究

        2017-11-14 12:03:28姜詠梅倪中華
        關(guān)鍵詞:協(xié)方差標(biāo)準(zhǔn)差總體

        姜詠梅,倪中華

        (1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)

        基于大數(shù)據(jù)背景的相關(guān)系數(shù)研究

        姜詠梅1,倪中華2

        (1.九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116; 2.商丘職業(yè)技術(shù)學(xué)院,河南 商丘 476000)

        隨著信息技術(shù)的發(fā)展,我們迎來了大數(shù)據(jù)時代,許多領(lǐng)域都出現(xiàn)了海量的數(shù)據(jù).探求紛繁復(fù)雜的數(shù)據(jù)之間的相關(guān)關(guān)系比尋找因果關(guān)系更受關(guān)注,而統(tǒng)計學(xué)中的相關(guān)系數(shù)正是用來描述兩個變量之間相關(guān)關(guān)系的指標(biāo).文章先給出相關(guān)系數(shù)的由來以及在概率論中的定義和性質(zhì),再推導(dǎo)出統(tǒng)計學(xué)中常見的2個計算相關(guān)系數(shù)的公式,最后舉例計算以提高對相關(guān)系數(shù)的理解以及應(yīng)用的能力.

        大數(shù)據(jù);相關(guān)系數(shù);均值;標(biāo)準(zhǔn)差;隨機變量

        0 引言

        自然界中的各種現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象之間的數(shù)量聯(lián)系,也叫相關(guān)關(guān)系.維克托·邁爾-舍恩伯格在其著作大數(shù)據(jù)時代[1]12中明確指出,大數(shù)據(jù)時代最大的轉(zhuǎn)變就是放棄對因果關(guān)系的渴求,取而代之關(guān)注相關(guān)關(guān)系.相關(guān)關(guān)系作為統(tǒng)計學(xué)中的一個工具的魅力在于將兩個變量的關(guān)聯(lián)精煉成一個描述性數(shù)據(jù):相關(guān)系數(shù)[2]73-74.相關(guān)系數(shù)是用來說明變量之間在直線相關(guān)條件下相關(guān)關(guān)系密切程度和方向的統(tǒng)計分析指標(biāo)[3]206-207.例如,人的身高和體重,某種商品的價格與需求,證券市場價格與投資者心理之間都存在著一定的相關(guān)關(guān)系.而當(dāng)今社會隨著手機、電腦、互聯(lián)網(wǎng)的普及與發(fā)展,我們能獲取的數(shù)據(jù)越來越多,若能對這些數(shù)據(jù)及時地進行分析和預(yù)測它們之間的相關(guān)關(guān)系,將會深刻影響人們的決策.

        1 概率中的相關(guān)系數(shù)

        1.1 定義的由來

        如何來描述兩個隨機變量的線性相關(guān)程度呢.謝明文[4]33-36利用最小二乘法:假設(shè)隨機變量X與Y具有一定的線性關(guān)系,則存在實數(shù)a和b,使得Y≈aX+b.為使這種近似程度達到最高,這就要求均方差S=E(Y-aX-b)2達到最小,有

        1.2 概率中的定義

        設(shè)對二維隨機變量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,則稱E{[X-E(X)][Y-E(Y)]}為X與Y的協(xié)方差,記作Cov(X,Y),即

        Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.

        若Cov(X,Y)存在,并且D(X),D(Y)存在且都不為0,則稱

        為X與Y的相關(guān)系數(shù)[5]112-113.把(2)式帶入(1)式得

        由(3)式可以得出相關(guān)系數(shù)的性質(zhì)如下:

        1) -1≤ρXY≤1.

        2) 若|ρXY|的值越大,則X與Y的相關(guān)程度越高;若|ρXY|的值越小,則X與Y的相關(guān)程度越低.

        3)ρ=1為完全正相關(guān);ρ=-1為完全負(fù)相關(guān),表明隨機變量之間為完全線性相關(guān),即函數(shù)關(guān)系.ρ=0表明隨機變量之間無線性相關(guān)關(guān)系.

        2 統(tǒng)計中相關(guān)系數(shù)的兩個常用公式

        設(shè)x1,x2,…,xn為來自總體X的一組樣本觀測值,y1,y2,…,yn為來自總體Y的一組樣本觀測值,ρ表示總體的相關(guān)系數(shù),r表示樣本的相關(guān)系數(shù),σxy表示兩組變量的協(xié)方差,σx表示X的標(biāo)準(zhǔn)差,σy表示Y的標(biāo)準(zhǔn)差,則有

        由概率知識得

        將上面3個式子帶入(4)式得

        即相關(guān)系數(shù)可以表示成兩組變量的協(xié)方差與兩組變量標(biāo)準(zhǔn)差乘積的商,(5)式也是統(tǒng)計學(xué)中常用的計算公式之一.

        (6)式也是統(tǒng)計學(xué)中計算相關(guān)系數(shù)的一個常用公式.

        相關(guān)系數(shù)可以反映兩組變量之間相互關(guān)聯(lián)的程度并且不受變量單位的限制(由(2)式可以看出我們把隨機變量單位化了),也就是說我們可以計算體重和身高之間的關(guān)聯(lián)性,哪怕它們的單位分別是千克和厘米.

        3 應(yīng)用

        3.1 傳統(tǒng)統(tǒng)計學(xué)中相關(guān)系數(shù)的計算

        由于以前的條件所限,搜集總體的數(shù)據(jù)比較困難,所以傳統(tǒng)統(tǒng)計學(xué)中用來計算相關(guān)系數(shù)的數(shù)據(jù)往往是對總體進行抽樣,用樣本觀測值對總體進行推測.比如我們想考察某個城市青少年的體重和身高的相互關(guān)系,我們可以應(yīng)用公式(5)借助于Excel計算體重與身高的相關(guān)系數(shù),具體步驟為:

        1) 選取一個樣本(比如取10個人),獲取樣本中每一位青少年體重與身高的觀測值;

        2) 求出體重與身高的平均值和標(biāo)準(zhǔn)差;

        3) 將每個人的體重和身高轉(zhuǎn)換成標(biāo)準(zhǔn)值:

        (體重-平均體重)/ 體重標(biāo)準(zhǔn)差、(身高-平均身高)/ 身高標(biāo)準(zhǔn)差;

        4) 將每個人體重標(biāo)準(zhǔn)值與身高標(biāo)準(zhǔn)值相乘;

        5) 將第4步得到的乘積相加再除以總?cè)藬?shù)(即10),就得到體重與身高的相關(guān)系數(shù).(見表1)

        表1 身高體重相關(guān)系數(shù)

        3.2 大數(shù)據(jù)背景下相關(guān)系數(shù)的計算

        在大數(shù)據(jù)時代,我們可以采集事物整體的全部數(shù)據(jù),并且得到的數(shù)據(jù)是動態(tài)的而非靜態(tài)的,因此我們能夠用兩者之間的相關(guān)關(guān)系來捕捉到事物的現(xiàn)在和預(yù)測未來,而非傳統(tǒng)的只是檢驗過去.如我們想考察某個企業(yè)的產(chǎn)量與單位成本的相互關(guān)系,我們可以搜集到它們的全部數(shù)據(jù),然后按照如下步驟計算出兩者的相關(guān)系數(shù).

        1) 分別求出產(chǎn)量和單位成本的平方;

        2) 求出產(chǎn)量與單位成本的乘積;

        3) 分別求出產(chǎn)量、單位成本、產(chǎn)量的平方、單位成本的平方、產(chǎn)量與單位成本乘積的和;

        4) 代入公式(6)計算得出相關(guān)系數(shù).

        根據(jù)經(jīng)驗可將相關(guān)程度分為以下幾種情況:1)|r|≥0.8,一般稱為高度線性相關(guān); 2)0.5≤|r|<0.8,為顯著線性相關(guān);3)0.3≤|r|<0.5,為低度線性相關(guān);4)|r|<0.3,為無線性相關(guān).

        對比上述兩種相關(guān)系數(shù)的計算方法,我們可以得出:傳統(tǒng)統(tǒng)計學(xué)是先算出樣本中體重與身高的相關(guān)系數(shù)繼而推測總體的身高和體重之間的相關(guān)關(guān)系.比如樣本的體重與身高的相關(guān)系數(shù)是0.97,從而得出總體的身高和體重為高度線性相關(guān),也就是說一般情況下身高高的人體重也重,當(dāng)然也不排除個別情況,身高矮體重也是重的.由于抽取樣本的有限性,可能會隱藏一些數(shù)據(jù),從而使得到的結(jié)果與實際有偏差.但在大數(shù)據(jù)背景下,就可以很好的解決這個問題,因為我們用的是該企業(yè)產(chǎn)量和單位成本的全部數(shù)據(jù),這樣就能更全面地考察該企業(yè),從而給決策者提供有益參考.

        4 結(jié)語

        在大數(shù)據(jù)時代,我們的核心任務(wù)是預(yù)測,而相關(guān)系數(shù)是統(tǒng)計中常用的分析數(shù)據(jù)的工具,它可以將大量繁雜無序、單位不同的復(fù)雜數(shù)據(jù)加工成一個簡潔、優(yōu)雅的描述性數(shù)據(jù),給人們提供有益參考.事物之間的相關(guān)關(guān)系可能不會準(zhǔn)確地告知事物發(fā)生的內(nèi)在原因,但是它會提醒人們事物之間的相互聯(lián)系[6]23-28,從而為社會的經(jīng)濟發(fā)展提供幫助.但需要注意的是相關(guān)關(guān)系不等于因果關(guān)系,也就是說兩個變量存在高度相關(guān)關(guān)系并不代表其中一個變量的改變是由另一個變量的變化引起的.舉個例子,身高和體重存在高度的正相關(guān)關(guān)系的意思不是你想長高就多吃飯增加體重就可以了.當(dāng)然現(xiàn)在有許多流行的統(tǒng)計軟件,如SAS、SPSS和R語言等來分析處理大數(shù)據(jù),我們不光要會計算還要會分析數(shù)據(jù)和理論聯(lián)系實際.

        [1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代[M].盛楊燕,周 濤,譯.杭州:浙江人民出版社,2013.

        [2] 查爾斯·惠倫.赤裸裸的統(tǒng)計學(xué)[M].曹 檳,譯.北京:中信出版社,2013.

        [3] 陳正偉.新編統(tǒng)計學(xué)[M].北京:北京郵電大學(xué)出版社,2012.

        [4] 謝明文.關(guān)于協(xié)方差、相關(guān)系數(shù)與相關(guān)性的關(guān)系[J].數(shù)理統(tǒng)計與管理,2004,23(3).

        [5] 王玉孝,姜炳麟,汪彩云.概率論、隨機過程與數(shù)理統(tǒng)計[M].北京:北京郵電大學(xué)出版社,2010.

        [6] 秦榮生.大數(shù)據(jù)、云計算技術(shù)對審計的影響研究[J].審計研究,2014(6).

        ResearchonCorrelationCoefficientBasedonBigDataBackground

        JIANG Yongmei1, NI Zhonghua2

        (1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)

        With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.

        big data; correlation coefficient; mean; standard deviation; random variable.

        O211.5;O212.1

        A

        1671-8127(2017)05-0068-04

        2017-04-28

        姜詠梅(1981- ),女,山東煙臺人,九州職業(yè)技術(shù)學(xué)院副教授,理學(xué)碩士,主要從事概率論與數(shù)理統(tǒng)計研究。

        [責(zé)任編輯梧桐雨]

        猜你喜歡
        協(xié)方差標(biāo)準(zhǔn)差總體
        用樣本估計總體復(fù)習(xí)點撥
        用Pro-Kin Line平衡反饋訓(xùn)練儀對早期帕金森病患者進行治療對其動態(tài)平衡功能的影響
        2020年秋糧收購總體進度快于上年
        外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
        中國外匯(2019年6期)2019-07-13 05:44:06
        直擊高考中的用樣本估計總體
        不確定系統(tǒng)改進的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報器
        一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
        對于平均差與標(biāo)準(zhǔn)差的數(shù)學(xué)關(guān)系和應(yīng)用價值比較研究
        縱向數(shù)據(jù)分析中使用滑動平均Cholesky分解對回歸均值和協(xié)方差矩陣進行同時半?yún)?shù)建模
        關(guān)于協(xié)方差的U統(tǒng)計量檢驗法
        台湾佬中文偷拍亚洲综合| 国产xxxx99真实实拍| 久久精品日韩av无码| 蜜芽尤物原创AV在线播放| 白白色免费视频一区二区在线| 色欲av永久无码精品无码蜜桃| a级毛片高清免费视频就| 中年人妻丰满AV无码久久不卡| 国产精品久久夜伦鲁鲁| 亚洲毛片在线免费视频| 免费毛片a线观看| 亚洲综合色一区二区三区小说| 色综合久久五月天久久久| 亚洲av乱码二区三区涩涩屋| 国产边摸边吃奶叫床视频| 国产91中文| 日本二区三区视频免费观看| 亚洲悠悠色综合中文字幕| 亚洲日本va中文字幕| 精品国产高清一区二区广区| 亚洲精品国产第一区三区| 日韩精品 在线 国产 丝袜| 欧美日韩亚洲tv不卡久久| 久久无码潮喷a片无码高潮| 少妇做爰免费视频网站| 亚洲 日韩 在线精品| 亚洲中文乱码在线观看| 大ji巴好深好爽又大又粗视频| 欧美最猛黑人xxxxx猛交| 一区二区三区不卡免费av | 成人免费777777被爆出| 亚洲av日韩aⅴ无码电影| 日韩日本国产一区二区| 免费大片黄国产在线观看| 国产精品区一区第一页| 视频女同久久久一区二区三区| 国产精品三区四区亚洲av| 日韩人妻无码精品久久| 国产乱人伦偷精品视频免| av资源在线免费观看| 久热re这里精品视频在线6|