[摘要] 文章在分析數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,給出了模糊數(shù)據(jù)挖掘中基于聚類分析的算法以及詳細(xì)的模糊聚類分析步驟,最后用一個(gè)具體實(shí)例證明了模糊聚類分析在稅收決策支持系統(tǒng)中的應(yīng)用價(jià)值。
[關(guān)鍵詞] 稅收決策支持系統(tǒng)數(shù)據(jù)挖掘模糊聚類分析
一、引言
在稅收征集中,大量的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如何在海量數(shù)據(jù)中提取出有用的信息供決策機(jī)構(gòu)作為參考,是我們需要解決非的問題。得用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的稅收決策支持系統(tǒng)為我們提供了一個(gè)解決方法。
稅收決策支持系統(tǒng)是指在一定的經(jīng)濟(jì)理論指導(dǎo)下,根據(jù)經(jīng)濟(jì)和稅收統(tǒng)計(jì)資料,在定性分析基礎(chǔ)上,運(yùn)用定量方法,對(duì)未來稅收收入總量和結(jié)構(gòu)等發(fā)展趨勢(shì)所做出的分析、判斷和推測(cè)。
一般說來,數(shù)據(jù)挖掘(DM)是一個(gè)利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和預(yù)測(cè)。
數(shù)據(jù)挖掘是從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并提取隱藏在其中的信息或知識(shí)的過程,目的是幫助分析人員尋找數(shù)據(jù)間潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的要素,而這些信息對(duì)預(yù)測(cè)趨勢(shì)和決策行為是十分有用的。聚類就是將數(shù)據(jù)對(duì)象分組為多個(gè)類或簇,使得在同一個(gè)簇中的對(duì)象之間具有較高的相似度,而在不同簇中的對(duì)象差別很大。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。
然而單純的數(shù)據(jù)挖掘中的聚類可能會(huì)導(dǎo)致“尖銳邊界”等問題, 因此考慮將模糊邏輯和數(shù)據(jù)挖掘結(jié)合起來的模糊數(shù)據(jù)挖掘技術(shù)引入到稅收收入預(yù)測(cè)系統(tǒng)中。
二、模糊聚類分析技術(shù)
模糊聚類分析就是把模糊數(shù)學(xué)的概念引入聚類分析中,以用來研究“物以類聚”的一種多元統(tǒng)計(jì)分析方法,即用數(shù)學(xué)方法把原來樣品之間模糊關(guān)系定量地確定關(guān)系,從而客觀地進(jìn)行分型劃類,以便對(duì)未來事物的發(fā)生狀態(tài)做出預(yù)測(cè)。
傳統(tǒng)的聚類分析把每個(gè)樣本嚴(yán)格地劃分到某一類,屬于硬劃分的范疇,它把每個(gè)待辨識(shí)的對(duì)象嚴(yán)格地劃分到某個(gè)類中,具有非此即彼的性質(zhì),因此這種分類的類別界限是分明的。而實(shí)際上大多數(shù)對(duì)象并沒有嚴(yán)格的屬性,它們?cè)谛詰B(tài)和類屬方面存在著中介性,適合進(jìn)行軟劃分。模糊集理論為這種軟劃分提供了有力的分析工具,人們開始用模糊的方法來處理聚類問題,并稱之為模糊聚類分析。在模糊聚類中,每個(gè)樣本不再僅屬于某一類,而是以一定的隸屬度分別屬于每一類。由于模糊聚類得到了樣本屬于各個(gè)類別的不確定性程度,表達(dá)了樣本類屬的中介性,即建立起了樣本對(duì)于類別的不確定性的描述,能更客觀地反映現(xiàn)實(shí)世界,從而成為聚類分析研究的主流。
利用模糊劃分的概念人們提出了許多種聚類方法,比較典型的有:基于相似性關(guān)系和模糊關(guān)系的方法(包括聚合法和分裂法),基于模糊等價(jià)關(guān)系的傳遞閉包方法,基于模糊圖論最大樹方法,以及基于數(shù)據(jù)集的凸分解、動(dòng)態(tài)規(guī)劃和難以辨識(shí)關(guān)系等方法。這些聚類方法把模糊理論和數(shù)據(jù)挖掘技術(shù)中的聚類分析結(jié)合起來,已經(jīng)很好地在很多領(lǐng)域得到了廣泛應(yīng)用。
三、基于模糊等價(jià)關(guān)系的聚類分析
1.確定模糊集:
建立樣本特性指標(biāo)矩陣設(shè)聚類的對(duì)象的全體集合X={x1,x2,…,xn},為了使分類效果科學(xué)合理,我們首先要選取具有實(shí)際意義且有較強(qiáng)分辨性和代表性的統(tǒng)計(jì)指標(biāo)?,F(xiàn)假設(shè)X中每一個(gè)元素Xj(j=1,2,…,n)有m個(gè)統(tǒng)計(jì)指標(biāo)Xij=(x1j,x2j,…xmj),其中,分量Xij表示第j個(gè)元素的第i項(xiàng)統(tǒng)計(jì)指標(biāo)值(i=1,2,…,m;j=1,2,…,n)。本步驟的關(guān)鍵是統(tǒng)計(jì)指標(biāo)值的求法。統(tǒng)計(jì)指標(biāo)值反映實(shí)際的精確程度,是取得最優(yōu)聚類的先決條件,由于各企業(yè)的實(shí)際情況不一樣,所選取的統(tǒng)計(jì)指標(biāo)也應(yīng)各不相同。因此,統(tǒng)計(jì)指標(biāo)值的求法因?qū)嶋H問題而定。
2.對(duì)樣本特性指標(biāo)矩陣進(jìn)行數(shù)據(jù)規(guī)格化
在實(shí)際問題中,通常不同的數(shù)據(jù)有不同的量綱。因此,需要根據(jù)模糊矩陣的要求,進(jìn)行標(biāo)準(zhǔn)化處理。一般可通過以下變換來實(shí)現(xiàn):
(1)平移/標(biāo)準(zhǔn)差變換
其中,
(2)平移/極差變換
顯然有0≤Xnij≤1,而且也消除了量綱的影響。
3.標(biāo)定——建立模糊相似矩陣
所謂標(biāo)定,是指根據(jù)實(shí)際情況,選用一定的方法對(duì)對(duì)象進(jìn)行比較得出模糊相似矩陣。根據(jù)上述已建立的指標(biāo)體系Xj(j=1,2,…,n),求出相似系數(shù)rij,rij表示Xi與Xj按m個(gè)特征相似的程度,得到模糊相似矩陣R=(rij)m×n
本步驟的關(guān)鍵是如何合理的求出相似系數(shù)rij,由于求相似系數(shù)的方法很多,而且需要因?qū)嶋H情況不同而選用不同的方法。
求相似系數(shù)的方法很多,主要有最大最小法、算術(shù)平均值最小法、幾何平均值最小法、相關(guān)系數(shù)法、夾角余弦法、距離法、數(shù)量積法、絕對(duì)值指數(shù)法、絕對(duì)值倒數(shù)法、絕對(duì)值減數(shù)法等方法。
對(duì)于一些實(shí)際問題,很難用解析表達(dá)式來刻畫事務(wù)間的相關(guān)程度,這時(shí)只有請(qǐng)有經(jīng)驗(yàn)者或?qū)<以u(píng)分,用[0,1]上的數(shù)表示。選取什么樣的方法描述兩個(gè)元素之間的相似程度,將直接影響分類的效果。通常是同時(shí)選三四種,最后看分類與實(shí)際吻合的情況,擇優(yōu)選取。
4.求傳遞閉包——構(gòu)造模糊等價(jià)矩陣
用傳遞閉包法求R的模糊等價(jià)矩陣。傳遞閉包是包含R的最小傳遞矩陣,設(shè)t(R)是R的傳遞閉包,通常采用平方法求R的傳遞閉包,即R→R2→R4→R8→L→R2k經(jīng)有限次運(yùn)算后,一定有R2k=R2k+1,于是 t(R)=R2k
5.選取分類水平λ,看模糊截矩陣,確定聚類結(jié)果
構(gòu)造了模糊等價(jià)矩陣后就可以按 R 的λ截關(guān)系對(duì)其進(jìn)行聚類,對(duì)于不同的λ截矩陣,分類結(jié)果不同,也具有不同的實(shí)際意義和經(jīng)濟(jì)意義,從中可判斷出與實(shí)際最接近的分類方案。
6.預(yù)測(cè),
首先對(duì)于在聚類分析中得到的每一個(gè)模式按照下式求得模式的平均指標(biāo)。
其中s表示所有模式數(shù),k表示該模式由數(shù)據(jù)倉(cāng)庫(kù)中哪幾條記錄推出,p表示推出該模式的記錄總數(shù)。
對(duì)于待預(yù)測(cè)的樣本Y是該樣本在論域X上的n個(gè)模糊子集,與數(shù)據(jù)倉(cāng)庫(kù)中分類的模式做比較,求出它們的貼近度:
根據(jù)擇近原則,判斷該樣本接近哪個(gè)模式, 從這個(gè)模式的整體情況預(yù)測(cè)其發(fā)展結(jié)果。
四、稅務(wù)決策支技系統(tǒng)中的應(yīng)用實(shí)例
根據(jù)以上步驟,我們首先假設(shè)某稅務(wù)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中有這樣一個(gè)數(shù)據(jù)表:
其中時(shí)間粒度分為三層:年、季、月;征收機(jī)關(guān)分為四層:省局、地市局、區(qū)縣局、鄉(xiāng)鎮(zhèn)局;經(jīng)濟(jì)類型為兩層:內(nèi)資企業(yè)和國(guó)有企業(yè);行業(yè)類型分為兩層:工業(yè)和服務(wù)業(yè)。在實(shí)際應(yīng)用時(shí),經(jīng)常會(huì)遇到這樣的問題:某段時(shí)間、某征收機(jī)關(guān)、某經(jīng)濟(jì)類型、某行業(yè)類型的實(shí)繳稅款狀況處于什么水平?某段時(shí)間、某征收機(jī)關(guān)、某經(jīng)濟(jì)類型、某行業(yè)類型是數(shù)據(jù)倉(cāng)庫(kù)中一些已知的數(shù)據(jù), 而實(shí)繳稅款的水平則是一個(gè)模糊變量(實(shí)繳稅款的水平是中等、較差還是較好),它的值需要我們使用模糊數(shù)據(jù)挖掘算法得到。
從中我們得到模糊關(guān)系:
對(duì)其按上文中改選方法改造,,得到模糊相似關(guān)系:
對(duì)其聚類分析,采用閉包法,當(dāng)
因此可分為兩類,即{x1,x3,x4,x5}和{x2},這樣一來,在稅務(wù)管理中就可以預(yù)測(cè)每一類對(duì)象的稅收情況。
五、結(jié)束語(yǔ)
數(shù)據(jù)挖掘技術(shù)是一門新興的決策分析方法,該方法通過使用人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)等方法,從大量數(shù)據(jù)中提取出隱含的、潛在的、以前未知的有用信息或模式,來輔助決策者進(jìn)行決策。現(xiàn)在利用數(shù)據(jù)挖掘技術(shù)對(duì)稅收收入進(jìn)行預(yù)測(cè)已經(jīng)成為必然的趨勢(shì),在稅收分析過程中充分利用數(shù)據(jù)挖掘技術(shù),合理劃分不同的納稅人群,這樣不但可以促進(jìn)稅收分析工作水平的提高,也可以給管理者提供決策依據(jù),從而帶動(dòng)稅收工作整體水平的提升。本文利用模糊數(shù)據(jù)挖掘中的聚類分析技術(shù)在稅務(wù)系統(tǒng)海量數(shù)據(jù)中挖掘出有用信息,從而幫助決策者做出決策。
參考文獻(xiàn):
[1]Mehmed Kantardzic. 閃四清等譯.數(shù)據(jù)挖掘:概念、模型、方法和算法.北京:清華大學(xué)出版社,2003
[2]Jiawei Han, Micheline Kamber. Data Mining Concepts and Techniques. Morgan Kaufmann Publishers. 2001
[3]國(guó)稅總局信息中心,國(guó)家祝務(wù)總局稅務(wù)宏觀決策支持系統(tǒng)概要設(shè)計(jì)說明書,2005,2;35.-47 0
[4]馬軍邵陸:模糊聚類計(jì)算的最佳算法,軟件學(xué)報(bào),12卷4期,2001
[5]高洪深:決策支持系統(tǒng)(DSS)理論#方法#案例[M].北京:清華大學(xué)出版社,2000
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。