姜詠梅,倪中華
(1.九州職業(yè)技術學院,江蘇 徐州 221116; 2.商丘職業(yè)技術學院,河南 商丘 476000)
基于大數據背景的相關系數研究
姜詠梅1,倪中華2
(1.九州職業(yè)技術學院,江蘇 徐州 221116; 2.商丘職業(yè)技術學院,河南 商丘 476000)
隨著信息技術的發(fā)展,我們迎來了大數據時代,許多領域都出現(xiàn)了海量的數據.探求紛繁復雜的數據之間的相關關系比尋找因果關系更受關注,而統(tǒng)計學中的相關系數正是用來描述兩個變量之間相關關系的指標.文章先給出相關系數的由來以及在概率論中的定義和性質,再推導出統(tǒng)計學中常見的2個計算相關系數的公式,最后舉例計算以提高對相關系數的理解以及應用的能力.
大數據;相關系數;均值;標準差;隨機變量
自然界中的各種現(xiàn)象總是普遍聯(lián)系和相互依存的,客觀現(xiàn)象之間的數量聯(lián)系,也叫相關關系.維克托·邁爾-舍恩伯格在其著作大數據時代[1]12中明確指出,大數據時代最大的轉變就是放棄對因果關系的渴求,取而代之關注相關關系.相關關系作為統(tǒng)計學中的一個工具的魅力在于將兩個變量的關聯(lián)精煉成一個描述性數據:相關系數[2]73-74.相關系數是用來說明變量之間在直線相關條件下相關關系密切程度和方向的統(tǒng)計分析指標[3]206-207.例如,人的身高和體重,某種商品的價格與需求,證券市場價格與投資者心理之間都存在著一定的相關關系.而當今社會隨著手機、電腦、互聯(lián)網的普及與發(fā)展,我們能獲取的數據越來越多,若能對這些數據及時地進行分析和預測它們之間的相關關系,將會深刻影響人們的決策.
1.1 定義的由來
如何來描述兩個隨機變量的線性相關程度呢.謝明文[4]33-36利用最小二乘法:假設隨機變量X與Y具有一定的線性關系,則存在實數a和b,使得Y≈aX+b.為使這種近似程度達到最高,這就要求均方差S=E(Y-aX-b)2達到最小,有
1.2 概率中的定義
設對二維隨機變量(X,Y),E(X),E(Y)和E{[X-E(X)][Y-E(Y)]}都存在,則稱E{[X-E(X)][Y-E(Y)]}為X與Y的協(xié)方差,記作Cov(X,Y),即
Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}.
若Cov(X,Y)存在,并且D(X),D(Y)存在且都不為0,則稱
為X與Y的相關系數[5]112-113.把(2)式帶入(1)式得
由(3)式可以得出相關系數的性質如下:
1) -1≤ρXY≤1.
2) 若|ρXY|的值越大,則X與Y的相關程度越高;若|ρXY|的值越小,則X與Y的相關程度越低.
3)ρ=1為完全正相關;ρ=-1為完全負相關,表明隨機變量之間為完全線性相關,即函數關系.ρ=0表明隨機變量之間無線性相關關系.
設x1,x2,…,xn為來自總體X的一組樣本觀測值,y1,y2,…,yn為來自總體Y的一組樣本觀測值,ρ表示總體的相關系數,r表示樣本的相關系數,σxy表示兩組變量的協(xié)方差,σx表示X的標準差,σy表示Y的標準差,則有
由概率知識得
將上面3個式子帶入(4)式得
即相關系數可以表示成兩組變量的協(xié)方差與兩組變量標準差乘積的商,(5)式也是統(tǒng)計學中常用的計算公式之一.
(6)式也是統(tǒng)計學中計算相關系數的一個常用公式.
相關系數可以反映兩組變量之間相互關聯(lián)的程度并且不受變量單位的限制(由(2)式可以看出我們把隨機變量單位化了),也就是說我們可以計算體重和身高之間的關聯(lián)性,哪怕它們的單位分別是千克和厘米.
3.1 傳統(tǒng)統(tǒng)計學中相關系數的計算
由于以前的條件所限,搜集總體的數據比較困難,所以傳統(tǒng)統(tǒng)計學中用來計算相關系數的數據往往是對總體進行抽樣,用樣本觀測值對總體進行推測.比如我們想考察某個城市青少年的體重和身高的相互關系,我們可以應用公式(5)借助于Excel計算體重與身高的相關系數,具體步驟為:
1) 選取一個樣本(比如取10個人),獲取樣本中每一位青少年體重與身高的觀測值;
2) 求出體重與身高的平均值和標準差;
3) 將每個人的體重和身高轉換成標準值:
(體重-平均體重)/ 體重標準差、(身高-平均身高)/ 身高標準差;
4) 將每個人體重標準值與身高標準值相乘;
5) 將第4步得到的乘積相加再除以總人數(即10),就得到體重與身高的相關系數.(見表1)
表1 身高體重相關系數
3.2 大數據背景下相關系數的計算
在大數據時代,我們可以采集事物整體的全部數據,并且得到的數據是動態(tài)的而非靜態(tài)的,因此我們能夠用兩者之間的相關關系來捕捉到事物的現(xiàn)在和預測未來,而非傳統(tǒng)的只是檢驗過去.如我們想考察某個企業(yè)的產量與單位成本的相互關系,我們可以搜集到它們的全部數據,然后按照如下步驟計算出兩者的相關系數.
1) 分別求出產量和單位成本的平方;
2) 求出產量與單位成本的乘積;
3) 分別求出產量、單位成本、產量的平方、單位成本的平方、產量與單位成本乘積的和;
4) 代入公式(6)計算得出相關系數.
根據經驗可將相關程度分為以下幾種情況:1)|r|≥0.8,一般稱為高度線性相關; 2)0.5≤|r|<0.8,為顯著線性相關;3)0.3≤|r|<0.5,為低度線性相關;4)|r|<0.3,為無線性相關.
對比上述兩種相關系數的計算方法,我們可以得出:傳統(tǒng)統(tǒng)計學是先算出樣本中體重與身高的相關系數繼而推測總體的身高和體重之間的相關關系.比如樣本的體重與身高的相關系數是0.97,從而得出總體的身高和體重為高度線性相關,也就是說一般情況下身高高的人體重也重,當然也不排除個別情況,身高矮體重也是重的.由于抽取樣本的有限性,可能會隱藏一些數據,從而使得到的結果與實際有偏差.但在大數據背景下,就可以很好的解決這個問題,因為我們用的是該企業(yè)產量和單位成本的全部數據,這樣就能更全面地考察該企業(yè),從而給決策者提供有益參考.
在大數據時代,我們的核心任務是預測,而相關系數是統(tǒng)計中常用的分析數據的工具,它可以將大量繁雜無序、單位不同的復雜數據加工成一個簡潔、優(yōu)雅的描述性數據,給人們提供有益參考.事物之間的相關關系可能不會準確地告知事物發(fā)生的內在原因,但是它會提醒人們事物之間的相互聯(lián)系[6]23-28,從而為社會的經濟發(fā)展提供幫助.但需要注意的是相關關系不等于因果關系,也就是說兩個變量存在高度相關關系并不代表其中一個變量的改變是由另一個變量的變化引起的.舉個例子,身高和體重存在高度的正相關關系的意思不是你想長高就多吃飯增加體重就可以了.當然現(xiàn)在有許多流行的統(tǒng)計軟件,如SAS、SPSS和R語言等來分析處理大數據,我們不光要會計算還要會分析數據和理論聯(lián)系實際.
[1] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周 濤,譯.杭州:浙江人民出版社,2013.
[2] 查爾斯·惠倫.赤裸裸的統(tǒng)計學[M].曹 檳,譯.北京:中信出版社,2013.
[3] 陳正偉.新編統(tǒng)計學[M].北京:北京郵電大學出版社,2012.
[4] 謝明文.關于協(xié)方差、相關系數與相關性的關系[J].數理統(tǒng)計與管理,2004,23(3).
[5] 王玉孝,姜炳麟,汪彩云.概率論、隨機過程與數理統(tǒng)計[M].北京:北京郵電大學出版社,2010.
[6] 秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(6).
ResearchonCorrelationCoefficientBasedonBigDataBackground
JIANG Yongmei1, NI Zhonghua2
(1.JiuzhouCollegeofVocationandTechnology,Xuzhou221116,China;2.ShangqiuPolytenic,Shangqiu476000,China)
With the development of information technology, people ushered in the era of big data and there are many areas of massive data. The correlation between the complicated data is more concerned than looking for causality while the statistics of the correlation coefficient is used to describe the relationship between two variables. The paper first gives the origin of correlation coefficient and its definition and characteristics in probability theory, and then it deduces several common formulas for calculating correlation coefficient. Finally it gives examples of calculation to improve the understanding of this concept and applicable ability. Theory and practice are combined closely in this way.
big data; correlation coefficient; mean; standard deviation; random variable.
O211.5;O212.1
A
1671-8127(2017)05-0068-04
2017-04-28
姜詠梅(1981- ),女,山東煙臺人,九州職業(yè)技術學院副教授,理學碩士,主要從事概率論與數理統(tǒng)計研究。
[責任編輯梧桐雨]