鄭麗紅
摘要:有許多預(yù)測(cè)因變量的模型存在,但是他們中大部分是破壞了因變量的原來(lái)的分布結(jié)構(gòu)的,或者這些模型比較適合因變量類別較少的情況。而比例預(yù)測(cè)模型剛好相反,它的預(yù)測(cè)結(jié)果保留因變量原來(lái)的分布結(jié)構(gòu)而且比較適合于因變量類別較多的情況。尤其在大數(shù)據(jù)的環(huán)境下,變量極其繁多,數(shù)據(jù)量也很大,比例預(yù)測(cè)模型有其重要的地位。事實(shí)上,用比例預(yù)測(cè)模型預(yù)測(cè)因變量類別的準(zhǔn)確性可能并沒有一些模型的高(如:邏輯回歸模型,決策樹等)。所以,在這里提出對(duì)比例預(yù)測(cè)模型的改進(jìn),使得模型的預(yù)測(cè)正確率有所提高,同時(shí)又使得預(yù)測(cè)的因變量的分布情況接近于原始數(shù)據(jù)中因變量的分布。
關(guān)鍵詞:關(guān)聯(lián)矩陣;混淆矩陣;提升度;蒙特卡羅模擬抽樣;GK-
中圖分類號(hào):O212 文獻(xiàn)識(shí)別碼:A 文章編號(hào):1001-828X(2016)021-000-02
怎樣對(duì)比例預(yù)測(cè)模型進(jìn)行改進(jìn):
1.提升度
這里,我們提出的提升度不是提升度[1]或者其他的提升度。這只是我在這里提出用來(lái)衡量當(dāng)x=i引入時(shí),對(duì)y=s的提升程度。其中x,y分別表示自變量和因變量,而i,s分別表示x的第i類和y的第s類別。下面我們用lifti,s來(lái)表示。
這里lifti,s≥0,當(dāng)然提升度值越大越好,lifti,s越大,則表示x=i的引入對(duì)y=s的預(yù)測(cè)越有幫助。當(dāng)表示x=i的引入對(duì)y=s的預(yù)測(cè)是有幫助的,相反如果lifti,s<1,則表示x=i的引入對(duì)y=s的預(yù)測(cè)幫助不大,我們認(rèn)為這是小概率事件。所以我們?cè)陬A(yù)測(cè)的時(shí)候可以充分提升度的性質(zhì)對(duì)模型進(jìn)行改進(jìn)。
這里,我們還發(fā)現(xiàn),如果對(duì)提升度的分子進(jìn)行求和,即,這便是[2]中的計(jì)算公式。而且它也和[3]和[4]中GK-密切相關(guān)的。
2.對(duì)比例預(yù)測(cè)模型改進(jìn)的步驟
(x-y 矩陣代表有自變量和因變量組成的列聯(lián)表來(lái)源于原始數(shù)據(jù))
根據(jù)比例預(yù)測(cè)模型的機(jī)理,我們可以通過(guò)蒙特卡羅模擬抽樣對(duì)因變量進(jìn)行預(yù)測(cè)。這里我們不妨將提升度也考慮進(jìn)去,即把哪些lifti,s<1 的小概率事件去掉,直到存在的可能的概率事件都是lifti,s≥1的。這里要注意的是,我們并沒有設(shè)法改變?cè)紭颖緮?shù)據(jù),只是改變p(y=s|x=i)的條件概率。因?yàn)樵嫉臈l件概率可能涉及小概率事件或者并沒有凸顯出較大概率事件。
總結(jié)出改進(jìn)的步驟如下:
(1)在x-y列聯(lián)表和lifti,s兩個(gè)矩陣中,同時(shí)去掉lifti,s<1 的單元;
(2)用新的lifti,s矩陣的每個(gè)單元與新的x-y列聯(lián)表所對(duì)應(yīng)的單元相乘,這樣就得到新的x-y列聯(lián)表,再對(duì)新的x-y列聯(lián)表進(jìn)行標(biāo)準(zhǔn)化,即用每一行的每個(gè)單元除以該行總數(shù),使得每一行加起來(lái)為1,即得到新的p(y=s|x=i)的條件概率;
(3)p(x=i|y=s)的概率是建立在原來(lái)的x-y列聯(lián)表上,但當(dāng)x=i,預(yù)測(cè)y=s的條件概率p(y=s|x=i)變成2)中的新條件概率即,再運(yùn)用蒙特卡羅抽樣實(shí)驗(yàn)得到錯(cuò)判矩陣,從而得到混淆矩陣。
3.實(shí)際的例子
數(shù)據(jù)是來(lái)自1996年加拿大的家庭支出的問(wèn)卷調(diào)查統(tǒng)計(jì)的數(shù)據(jù)。它記錄了上百個(gè)變量,數(shù)據(jù)經(jīng)過(guò)整合之后有10417個(gè)樣本,現(xiàn)在我們選擇rooms,bedrooms分別作為自變量和因變量。
(2)表二:分別使用蒙特卡羅預(yù)測(cè)得到結(jié)果的因變量的分布情況的比較(這是我們分別進(jìn)行5次蒙特卡羅模擬抽樣的平均結(jié)果):
上面表示的結(jié)果來(lái)自于新的模型,而中間行表示原始模型,最下面的是原始數(shù)據(jù)中因變量的分布情況,可以看出新模型與原始模型的差異很小。
(3)表三:混淆矩陣(從上面的蒙特卡羅模擬得到的混淆矩陣)
左邊的矩陣是代表運(yùn)用新的比例預(yù)測(cè)模型在蒙特卡洛模擬下得到的,而右邊的則是用一般的比例預(yù)測(cè)模型得到的。每個(gè)單元表示的意思是,比如:左邊(i,j)單元,表示在新的模型下,因變量本來(lái)是y=i預(yù)測(cè)成y=j的概率,其他同理。
(4)圖一:關(guān)于混淆矩陣,近對(duì)角線和對(duì)角線上正確率的比較:
統(tǒng)計(jì)數(shù)據(jù)如表三。這里,y1代表在新的模型下,混淆矩陣的近對(duì)角線的正確率情況,即每行近對(duì)角的正確率之和的情況,而y2表示的是原始模型下的結(jié)果。z1代表的是在新的模型下,混淆矩陣對(duì)角線正確率情況,z2表示原始模型下的。通過(guò)這四個(gè)量的比較,可以看出改進(jìn)的比例預(yù)測(cè)模型,確實(shí)比原始的模型,正確率有所提升,而且也保證了近對(duì)角預(yù)測(cè)的正確率。再結(jié)合表二,我們發(fā)現(xiàn)改進(jìn)的比例預(yù)測(cè)模型并在近似原始因變量分布的前提下提高了預(yù)測(cè)正確率。這種提高的方法對(duì)高維或者其他的應(yīng)用還有待進(jìn)一步研究。
參考文獻(xiàn):
[1]Wenxue Huang, Yuanyi Pan, and Jianhong Wu. Supervised discretization with GK- .Procedia Computer Science, 17:114-120, 2013.
[2]Wenxue Huang, Yong Shi, and Xiaogang Wang. A nominal association matrix with feature selection for categorical data. arXiv preprint arXiv:1307.7841, 2013.
[3]Chris J Lloyd. Statistical analysis of categorical data. Number 519.535 L5.1999.
[4]Leo A Goodman and William H Kruskal. Measure of association for cross classifications.Pringer,1979.
[5]George Fishman. Monte Carlo:concepts,algorithms, and application. Springer Science & Business Media,2013.
現(xiàn)代經(jīng)濟(jì)信息2016年21期