戴建國
(廣州大學 數(shù)學與信息科學學院,廣東 廣州 510006)
多分類有序變量間的間距差異研究
戴建國
(廣州大學 數(shù)學與信息科學學院,廣東 廣州 510006)
對多分類有序變量各類別間的間距差異性問題,基于Gini集中系數(shù)和不一致性指標分別給出了兩種度量間距差異指標和兩種檢驗方法,并由概率分布構造類別得分來近似反映間距差異,最后用對數(shù)線性模型對實例加以分析,結果表明對模型擬合效果有所改進.
有序變量;對數(shù)線性模型;度量指標;得分
大數(shù)據(jù)、數(shù)據(jù)挖掘等詞已被大家廣泛熱議,而在數(shù)據(jù)挖掘過程中常見的一類數(shù)據(jù)則是定性數(shù)據(jù),其通常是非連續(xù),多分類的,甚至在有些數(shù)據(jù)分析過程會把連續(xù)變量離散化. 在有些分類數(shù)據(jù)各類別會存在序的關系,如把對某一事物的評價看成一個分類變量,則可能有“討厭”,“不喜歡”,“喜歡”,“非常喜歡”4個類別,它們之間則存在序的關系,對于這樣的有序分類數(shù)據(jù)除了有序聚類分析,排序分析方法分析外[1],還可以構建統(tǒng)計模型,如對數(shù)線性模型、邏輯回歸模型、貝葉斯模型等[2].
所謂多分類有序變量通常是指分類數(shù)大于2,且類別之間存在次序關系的變量. 在數(shù)據(jù)分析過程中所涉及到的有序變量各類別之間的間距通常不是相等的,就如上述說到的對某一事物的評價,其中“討厭”到“不喜歡”和“不喜歡”到“喜歡”兩組間距是不相等的,但在一般的數(shù)據(jù)分析過程中通常將其視為等距的而損失一些信息,導致模型擬合效果不是很好. 下面對有序變量間的間距差異問題給出了兩種度量指標和兩種統(tǒng)計檢驗方法,并給出了一種有序類別得分的選擇方法,用其近似反映有序類別間的間距差異,最后通過實例說明.
當用符號ω來描述定性數(shù)據(jù)對象時,將其取值作為得分,例如有序變量的類別“討厭”,“不喜歡”,“喜歡”,“非常喜歡”可用1,2,3,4作為得分來反映各類別差異,假定ω可取k個不同的值,對應的概率分別為即有顯然有當使用對數(shù)線性模型來擬合有序列聯(lián)表時,其對象得分的選擇對模型的擬合是有影響的. 在此用概率來刻畫ω的離散程度,用信息論中的話來講,當pi越接近1時“確定性”程度越大,當pi取值小得越多越分散.由此給出兩種衡量的量,一種是基于不相似指標[3]得到的D(ω),另一種是基于Gini集中系數(shù)[4]得到指標S(ω).
如果多分類有序變量的k各類別的間距相同時,則ω的各取值的“確定性”期望概率為對于而若多分類變量間距不同時會存在差異,因而為了刻畫間距不同時的離散程度,構造統(tǒng)計量的D(ω),S(ω).
對于ω的Gini集中系數(shù)[4]定義為
構造度量指標S(ω)為
在這先引入擬合優(yōu)度x2的檢驗統(tǒng)計量對有序分類變量的類間距的差異做出檢驗,同樣可用不一致性指標D來檢驗,所謂的擬合優(yōu)度是研究數(shù)據(jù)與原假設擬合的程度或一致的程度[5],檢驗統(tǒng)計量均是通過觀測頻數(shù)和期望頻數(shù)來構造的,具體過程如下:
先求H0為真時發(fā)生在每一類的概率p,而此處的H0為真時是指各類別間的間距是相同的,即每一類發(fā)生的概率p都等于. 再求H0為真時的期望頻數(shù)fe,假設總體N,則有各類期望頻數(shù)均為fe=NP,并設觀測頻數(shù)為f0,則似然比檢驗統(tǒng)計量其df=k-1,k為類別數(shù),且x2近似卡方分布.
對于另一種檢驗統(tǒng)計量為
其中N為總數(shù),在大樣本下當D<0.03時,可認為不拒絕原假設,即認為各類別間的間距無差異.
如果檢驗發(fā)現(xiàn)多分類有序變量間的間距存在差異時,可以通過考慮不同的得分來近似反映它們的差異,如前面所提到的4類評價“討厭”,“不喜歡”,“喜歡”,“非常喜歡”,若視間距相同時,可能會賦予得分1,2,3,4或2,4,6,8等來反映間距無差異. 但實際上它們的間距是不相等的,所以可對分數(shù)進行調整,人們也通常會憑著感覺和經驗來賦予得分,如“討厭”到“不喜歡”和“不喜歡”到“喜歡”后者差距可能會比前者大,則賦予得分為1,2,4,5,而在這里給出一種依據(jù)概率分布選擇得分的方法來近似反映各類別間的間距差異. 具體如下:
設各類別概率分布為p1,p2,...,pk. 定義得分為
在這主要對一個有序二維列聯(lián)表用對數(shù)線性模型來說明,數(shù)據(jù)來源于2006年美國社會調查的數(shù)據(jù)集,由認為占星術是否科學和教育水平構成二維列聯(lián)表,并在不考慮序和考慮序的情況下分析,首先給出幾種對數(shù)線性模型的定義.
在I×J維列聯(lián)表中,當不考慮兩變量X,Y的序時,其飽和模型可定義為
其中uij為期望頻率,λ為某一常數(shù),代表行影響,代表列影響,代表交互影響,當=0時為獨立模型.
其中參數(shù)β反映了相關的方向和強弱,當β>0時,X趨勢遞增,Y也遞增;當β<0時,X趨勢遞增,而Y遞減;當β=0時,為獨立模型. 原始數(shù)據(jù)構成的列聯(lián)表見表1.
根據(jù)前面所給的公式(1)(3)計算間距差異的指標統(tǒng)計量,c, r分別代行列變量,對行計算得S( r)=0.093,D( r)=0.30均不等于零,說明行變量各分類的間距不相等,同樣對列變量計算得S( c)=0.203,D( c)=0.34,均不等于零,也說明各分類的間距不相等. 并對他們做擬合優(yōu)度x2檢驗和D檢驗,檢驗結果是非常顯著的(行:x2=1111.36,df=5-1=4,p<0.001,D( r)=0.308>0.03列:x2=1078.15,df=3-1=2,p<0.001,D( c)=0.342>0.03),即各類別間的間距是不相等的.
表1 原始數(shù)據(jù)集
在表2中, 首先給出了不考慮序的飽和模型A,其次是考慮等間距時(行得分=(1,2,3,4,5),列得分=(1,2,3))模型B的擬合的效果,其中采用BIC和AIC作為評價指標,其值越小說明效果越好. 通過上面的檢驗可知各類型間距是存在差異的,從而用上面給出的公式(5)計算得分來近似反映間距的差異(行得分=(0.057, 0.368 ,0.669 ,0.810 ,0.952),列得分=(0.337, 0.813, 0.975)),從新構建對數(shù)線性模型C,并在表2中給出擬合效果.
從3個模型擬合的效果來看(由BIC和AIC準則,其值越小說明擬合得越好),模型C擬合效果最好,說明如果變量有序而不考慮的話則會損失一些信息,同樣如果有序變量各類別間間距不等而視為相等時也會損失一部分信息.
表2 模型擬合效果
在定性數(shù)據(jù)分析中,多分類有序變量的間距差異是普遍存在的,通過實例根據(jù)所構造的度量指標和統(tǒng)計檢驗給予論證,說明給出的類別得分在有些時候比用等間距得分更能反映類別間的間距差異,但不足的是還沒能找到一個更為準確的度量間距差異的指標,然而在統(tǒng)計學家Leo. A Goodman的RC模型中,將得分視為參數(shù),最后通過模型把得分估計出來,當模型擬合很好時,其得分也能較好反映有序變量間的間距差異.
[1]朱建平,楊貴軍,張潤楚.列聯(lián)資料的有向聚類分析及其應用[J].數(shù)理統(tǒng)計與管理,2002,21(4):28-33.
[2]ALAN AGRESTI. Analysis of Ordinal Categorical Data[M]. 2th ed. New York: John Wiley & Sons Inc, 2010: 44-341.
[3]ALAN AGRESTI. Introduction to categorical data analysis[M]. New York: Wiley, 1996:158-163.
[4]LLOYD C J. Statistical Analysis of Categorical Data[M]. New York: Wiley, 1999: 69-71.
[5]陳民懇,朱建平.數(shù)據(jù)挖掘中多分類有序變量間距差異分析及應用[J].統(tǒng)計與信息論壇,2007,22(1):27-31.
Abstract:For the problems of the difference distance between the more orderly categorical variables, using the Gini concentrated coefficient and inconsistency index, two metric distance difference index and test methods were given respectively, and the probability distribution category scores were constructed to approximately reflect differences. Finally, using the logarithm linear model, an analysis was made of the example. The results showed that the model fitting effect was improved.
Key words:orderly variables; logarithm linear model; metrics; score
A Research into the Space Differences between Ordinal Multi-categorical Variables
DAI Jianguo
(School of Mathematics and Information Science, Guangzhou University, Guangzhou 510006, China)
O213
A
1008-2794(2017)04-00121-04
2017-02-22
戴建國,碩士,研究方向:概率統(tǒng)計、數(shù)據(jù)挖掘,E-mail:1012894435@qq.com.