趙男男
(廣東海洋大學(xué) 寸金學(xué)院,廣東 湛江524094)
當(dāng)前一段時(shí)間,很多發(fā)達(dá)國(guó)家將高校管理作為提升教育技術(shù)發(fā)展的一個(gè)主要任務(wù),紛紛建立屬于自己的高校財(cái)務(wù)管理體系,并總結(jié)了大量的經(jīng)驗(yàn)[1].然而在國(guó)內(nèi),仍有很多高校財(cái)務(wù)管理系統(tǒng)在進(jìn)行財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)時(shí),面對(duì)著海量的財(cái)務(wù)數(shù)據(jù),無(wú)法分析數(shù)據(jù)屬性特征和數(shù)據(jù)間存在的因果關(guān)系,使得財(cái)務(wù)預(yù)警出現(xiàn)了較大的誤差,進(jìn)而影響了高校財(cái)務(wù)狀況管理的穩(wěn)定性[2].在這種情況下,如何設(shè)計(jì)出精良的高校財(cái)務(wù)預(yù)警系統(tǒng)成為了國(guó)內(nèi)外教育管理領(lǐng)域需要解決的重點(diǎn)課題,也引起了諸多相關(guān)學(xué)者的關(guān)注[3].
現(xiàn)階段,在高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)中經(jīng)常用的算法有很多,并且也積累了一定的研究經(jīng)驗(yàn).文獻(xiàn)[4]面對(duì)海量財(cái)務(wù)數(shù)據(jù)信息,將并行機(jī)制引入到?jīng)Q策算法中,并優(yōu)化改機(jī)制,利用改進(jìn)后的決策并行機(jī)制設(shè)計(jì)財(cái)務(wù)預(yù)警系統(tǒng).該算法預(yù)警的響應(yīng)性較高,但是存在數(shù)據(jù)屬性冗余較多的問(wèn)題.文獻(xiàn)[5]總結(jié)高校財(cái)務(wù)狀況識(shí)別的最優(yōu)體系,建立不同類型的預(yù)警模型,進(jìn)而完成對(duì)高校預(yù)警系統(tǒng)的設(shè)計(jì).該算法預(yù)警魯棒性較好,但是有效的進(jìn)行財(cái)務(wù)數(shù)據(jù)屬性分類,存在預(yù)警誤差大的問(wèn)題.文獻(xiàn)[6]將神經(jīng)網(wǎng)絡(luò)引入到高校財(cái)務(wù)預(yù)警中,利用神經(jīng)網(wǎng)絡(luò)的構(gòu)造能力和搜索能力完成對(duì)預(yù)警系統(tǒng)的設(shè)計(jì).實(shí)驗(yàn)表明,該算法具有一定的預(yù)警精準(zhǔn)性,但是存在預(yù)警過(guò)程較繁瑣,耗時(shí)長(zhǎng)的問(wèn)題.
面對(duì)上述問(wèn)題,筆者提出一種基于改進(jìn)C4.5算法的高校財(cái)務(wù)預(yù)警系統(tǒng).仿真證明,該算法具有較高的預(yù)警精度,在高校管理中的應(yīng)用價(jià)值較高.
高校財(cái)務(wù)預(yù)警系統(tǒng)實(shí)現(xiàn)過(guò)程中,對(duì)財(cái)務(wù)預(yù)警是最終的目的,而實(shí)現(xiàn)這個(gè)目的的關(guān)鍵就是決策算法,財(cái)務(wù)數(shù)據(jù)是最根本.為了更好的提升數(shù)據(jù)的采集質(zhì)量,為預(yù)警系統(tǒng)設(shè)計(jì)打下扎實(shí)的基礎(chǔ),首先就要組建一個(gè)財(cái)務(wù)數(shù)據(jù)的倉(cāng)庫(kù).財(cái)務(wù)倉(cāng)庫(kù)作為預(yù)警系統(tǒng)的核心,其創(chuàng)建根本是要嚴(yán)格掌握不同類型財(cái)務(wù)數(shù)據(jù)的特點(diǎn)和具有代表性的變化規(guī)律,使其可以為各種財(cái)務(wù)報(bào)表分析和配備相匹配的數(shù)據(jù)狀態(tài),更是做出合理判斷的一個(gè)重要憑證[7].
圖1列舉了財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)體系的流程圖,組建數(shù)據(jù)倉(cāng)庫(kù)需要數(shù)據(jù)挖掘庫(kù)和其各種應(yīng)用工具、數(shù)據(jù)整理、初始數(shù)據(jù)源.
圖1 財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)體系
傳統(tǒng)財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)之初,財(cái)務(wù)倉(cāng)庫(kù)實(shí)現(xiàn)的過(guò)程中,不同類型部門、各種需要財(cái)務(wù)支出的項(xiàng)目要建立系統(tǒng)的賬本,致使了很多財(cái)務(wù)數(shù)據(jù)的混淆,不同類型的數(shù)據(jù)雜合在一起,包含了大量的噪聲和殘缺數(shù)據(jù),數(shù)據(jù)內(nèi)容也雜亂無(wú)章表現(xiàn)出冗余,沒有規(guī)律性.這些數(shù)據(jù)是不能用于對(duì)財(cái)務(wù)狀況的分析.此外,很多財(cái)務(wù)信息呈現(xiàn)的狀態(tài)也較為模糊,稀疏混亂,難以用于財(cái)務(wù)狀況判別[8].且初始數(shù)據(jù)中含有的部分?jǐn)?shù)據(jù)是與財(cái)務(wù)狀況決斷毫不相關(guān)的,需要消除.綜上所述可以說(shuō)明,對(duì)數(shù)據(jù)的預(yù)處理是財(cái)務(wù)預(yù)警的關(guān)鍵環(huán)節(jié).
數(shù)據(jù)采集的過(guò)程就是對(duì)多種類型數(shù)據(jù)源的整理,數(shù)據(jù)預(yù)處理則是將不同類型數(shù)據(jù)如異構(gòu)、噪聲、缺失、非結(jié)構(gòu)和半結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一整理,以便在數(shù)據(jù)較為復(fù)雜多變的情況下,對(duì)財(cái)務(wù)數(shù)據(jù)進(jìn)行更好的整合.其中,在數(shù)據(jù)采集過(guò)程中,會(huì)將NoSQL作為中間的模型.在高校財(cái)務(wù)系統(tǒng)中,存儲(chǔ)了多種海量的復(fù)雜財(cái)務(wù)數(shù)據(jù),而NoSQL的最大優(yōu)勢(shì)是:第一,可以應(yīng)對(duì)海量數(shù)據(jù)的多種存儲(chǔ)方式;第二,對(duì)各種類型的數(shù)據(jù)源進(jìn)行分批的采集、交換和存儲(chǔ);第三,可以有效的保持?jǐn)?shù)據(jù)結(jié)構(gòu)在數(shù)據(jù)存儲(chǔ)中和倉(cāng)庫(kù)中形式的一致性.圖2為NoSQL中間件模型體系結(jié)構(gòu)圖.
圖2 基于NoSQL中間件模型體系結(jié)構(gòu)
數(shù)據(jù)采集的主要步驟為:(1)數(shù)據(jù)初始源:數(shù)據(jù)融合是需要將不同類型的初始數(shù)據(jù)融合在一起,其過(guò)程是需要清洗不同結(jié)構(gòu)的數(shù)據(jù),消除冗余,以最大程度保證數(shù)據(jù)的可利用性和可靠性;(2)數(shù)據(jù)融合:將能夠表現(xiàn)相同狀態(tài)的數(shù)據(jù)融合在一起,建立數(shù)據(jù)一致性制度,并使其變成具有最大保留價(jià)值的信息集合;(3)歸檔存儲(chǔ):對(duì)將生命周期較為薄弱的數(shù)據(jù)進(jìn)行變換歸納,長(zhǎng)時(shí)間保留在學(xué)校財(cái)務(wù)數(shù)據(jù)的中心,為數(shù)據(jù)的檢索和檢測(cè)提供依據(jù).
C4.5算法的優(yōu)勢(shì)在于可以以最快速度對(duì)海量數(shù)據(jù)進(jìn)行分類,并可以發(fā)現(xiàn)數(shù)據(jù)的分布特性和其價(jià)值信息,并且可以將迭代的過(guò)程規(guī)范在最小的范圍內(nèi),能幫預(yù)警決策作出更有效的分析.C4.5算法核心原理是,將整個(gè)數(shù)據(jù)訓(xùn)練集定義根節(jié)點(diǎn),進(jìn)行有序的區(qū)分,并分為很多個(gè)不同類型的小的集合,定義為根節(jié)點(diǎn)中的最外層的子節(jié)點(diǎn),由此在深化,衍生為一個(gè)決策樹,最大的特點(diǎn)就是較為迅速,精度較為優(yōu)良.但是在高校預(yù)警系統(tǒng)設(shè)計(jì)的應(yīng)用過(guò)程中,會(huì)面對(duì)海量的數(shù)據(jù)項(xiàng)屬性,也就是說(shuō)會(huì)形成一個(gè)很龐大的決策樹,但海量預(yù)警數(shù)據(jù)中存在很多不均勻數(shù)據(jù),缺失數(shù)據(jù),當(dāng)面臨這些數(shù)據(jù)時(shí),其分類的準(zhǔn)確率會(huì)迅速下降,在反復(fù)排序和掃描后會(huì)延長(zhǎng)系統(tǒng)的運(yùn)行時(shí)間[9].在實(shí)現(xiàn)高校財(cái)務(wù)數(shù)據(jù)樣本分類的過(guò)程中,假設(shè),獨(dú)立的某個(gè)數(shù)據(jù)屬性會(huì)有多個(gè)取值,并且沒有概化操作標(biāo)識(shí),并且容易被任意屬性代替其深度概念,則應(yīng)從信息列表中,將其剔除.如果,高校財(cái)務(wù)狀態(tài)信息表內(nèi)的基礎(chǔ)建設(shè)投資支付情況、校辦資產(chǎn)風(fēng)險(xiǎn)、基礎(chǔ)建設(shè)資金投入狀態(tài)及其高校自身籌集經(jīng)費(fèi)的年遞增趨勢(shì)等部分?jǐn)?shù)據(jù)有很多取值,并且不能在其取值區(qū)域內(nèi)搜索到概化操作標(biāo)識(shí)的屬性,那么就應(yīng)該及時(shí)剔除.如果,樣本整體的數(shù)量是S,屬性的取值范圍為R,概化標(biāo)識(shí)符的屬性由d′de,則利用刪除財(cái)務(wù)數(shù)據(jù)樣本中的冗余屬性:
在式(1)中,e′j代表財(cái)務(wù)情況的描述,e″e(cuò)t代表數(shù)據(jù)屬性種類.
制定選取數(shù)據(jù)屬性的標(biāo)準(zhǔn),利用信息增益最大為選取制度,選取數(shù)據(jù)屬性后將其作為訓(xùn)練閾值,進(jìn)行訓(xùn)練集的重新分類遞歸調(diào)用,將全部的例子歸納在相同的屬性類別中,對(duì)組建的樹進(jìn)行修整.實(shí)現(xiàn)過(guò)程為:若?′se是屬性冗余度的最大值,在樣本整體數(shù)量S內(nèi)含有數(shù)量為m的類型樣本ci,那么將si定義為樣本類型的數(shù)量,采用式(2)得出整體信息熵:
在式(2)中,任何一個(gè)獨(dú)立樣本pi歸類ci的百分比,可以用來(lái)預(yù)測(cè).
之所以要進(jìn)行職業(yè)體育新模式教學(xué)項(xiàng)目的設(shè)計(jì),旨在做好學(xué)生職業(yè)勞動(dòng)和社會(huì)發(fā)展相適應(yīng)的身心素養(yǎng)的培養(yǎng),保證職業(yè)體能的開展、職業(yè)競(jìng)爭(zhēng)能力的培養(yǎng)以及職業(yè)保健能力的訓(xùn)練等都是有針對(duì)性展開的。
假設(shè),一個(gè)x屬性有數(shù)量為v的取值{X1,X2,…,XV},并且,Sj中有多個(gè)S內(nèi)的樣本,這部分樣本具有的明顯特征是,在x內(nèi)的值是Xj(i=1,2,…,v),則將該屬性定義為財(cái)務(wù)數(shù)據(jù)屬性分了的閾值,可利用式(3)計(jì)算得出:
在式(3)中,子集Sj中包含Cj的樣本數(shù)為S1j.
將熵的物理概念定義為衡量熱力系統(tǒng)的沒有規(guī)則的程度.將熵的含義繁衍到信息論中,依據(jù)熵的不穩(wěn)定性,對(duì)C4.5算法進(jìn)行改進(jìn),定義數(shù)據(jù)測(cè)試屬性閾值,對(duì)全部數(shù)據(jù)屬性的實(shí)體進(jìn)行歸類,衍生出一個(gè)決策樹對(duì)數(shù)據(jù)屬性測(cè)試程度進(jìn)行預(yù)測(cè),也由此實(shí)現(xiàn)對(duì)所有財(cái)務(wù)數(shù)據(jù)狀況實(shí)際空間的歸類.在衍生決策樹的過(guò)程中,數(shù)據(jù)分類的標(biāo)準(zhǔn)是要選定一個(gè)屬性,并且要促使子節(jié)點(diǎn)中的數(shù)據(jù)類別具有統(tǒng)一性.如果任意個(gè)獨(dú)立節(jié)點(diǎn)內(nèi)的數(shù)據(jù)具有類值均分度,則該節(jié)點(diǎn)為熵.
將全部數(shù)據(jù)信息剔除冗余后的信息分布程度定義為“信息熵”,即:
在式(4)中,隨機(jī)樣本是Ci的百分比為(Pi).
信息增益是定義獨(dú)立數(shù)據(jù)屬性在進(jìn)行分類中包含的信息量的大小,該值影響了決策樹衍生時(shí)所選取的節(jié)點(diǎn),其值也大則對(duì)分類的作用就越大,相反其作用就?。?0].獨(dú)立的屬性會(huì)通過(guò)計(jì)算信息熵來(lái)選取樣本分類屬性,利用式(5)計(jì)算A分枝獲取的信息增益:
在式(5)中,給定樣本S理想的信息熵為I(S1,S2,…Sm).
在衍生決策樹的時(shí)候,重要的一個(gè)環(huán)節(jié)就是對(duì)節(jié)點(diǎn)的歸類,將衡量節(jié)點(diǎn)的優(yōu)劣標(biāo)準(zhǔn)就是信息增益率,在上述形成的信息熵和其增益的公式中,信息熵和增益的百分比就是信息增益率.而相互對(duì)比的是以單位為屬性上的信息量.
信息增益就是在數(shù)據(jù)集以最小子集為單位時(shí),變量值包含的誤差.為了降低這種誤差,利用式(6)計(jì)算出信息增益率:
利用式(7)得到增益率:
當(dāng)決策樹被衍生后,修減樹是最關(guān)鍵的環(huán)節(jié),以提升在對(duì)數(shù)據(jù)屬性分類時(shí)期樹的效果,剪枝時(shí)候,會(huì)剔除較多的子樹,其目的就是得到更優(yōu)質(zhì)的性能,并且能夠降低決策樹的繁瑣性.利用子樹替代法進(jìn)行改進(jìn)C4.5算法的剪枝,其制度就是比較子樹預(yù)測(cè)誤差和任意子葉預(yù)測(cè)的誤差,假設(shè),葉子的錯(cuò)誤率低于子樹,則用葉子代替樹.在衍生決策樹后,需歷經(jīng)決策樹,搜索出很多路徑,并且不同的路徑要對(duì)應(yīng)不同的特征,將整個(gè)大樹的表達(dá)規(guī)則生成后,發(fā)現(xiàn)最具有價(jià)值的子集,將規(guī)則集存儲(chǔ)在設(shè)定的文件中,由此實(shí)現(xiàn)高校財(cái)務(wù)預(yù)警,即:
實(shí)驗(yàn)是以高校財(cái)務(wù)預(yù)警為結(jié)果,建立財(cái)務(wù)預(yù)警分析流程,見圖3.
為了證明提出的改進(jìn)C4.5算法的高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)方法有效性,需要進(jìn)行一次實(shí)驗(yàn),在Mat-lab7.1環(huán)境下搭建高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)實(shí)驗(yàn)仿真平臺(tái),實(shí)驗(yàn)數(shù)據(jù)來(lái)源于某高校2015-2016年財(cái)務(wù)狀況.采用其中百 分之四十的數(shù)據(jù)做為訓(xùn)練數(shù)據(jù),將剩余的百分之六十的數(shù)據(jù)定為測(cè)試數(shù)據(jù),將預(yù)警精度做為主要評(píng)價(jià)指標(biāo)來(lái)定義改進(jìn)C4.5算法進(jìn)行高校財(cái)務(wù)預(yù)警的整體有效性,將傳統(tǒng)的C4.5算法做為對(duì)比算法,采用預(yù)警擬合優(yōu)度做為客觀評(píng)價(jià)指標(biāo)來(lái)定義不同算法進(jìn)行高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)的整體優(yōu)越性.假設(shè),由?″代表訓(xùn)練集整體樣本數(shù)量,f′eg代表部分子集,則利用式(9)計(jì)算出預(yù)警誤差:
圖3 預(yù)警系統(tǒng)流程圖
在式(9)中,s′sui代表單葉的誤差比,h′drf代表信息雜亂度,則 e′def值越小,算法的預(yù)警精度就越好.
如果,s′sf代表樣本分類最大表現(xiàn)度,代表樣本分類屬性數(shù)量,則利用式(10)計(jì)算出預(yù)警擬合優(yōu)度:
在式(10),E′代表信息增益最大值,e′def代表變量取值,則 K′S值越高,算法的預(yù)測(cè)精度就越高.
利用本文算法進(jìn)行高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì),測(cè)試本文算法進(jìn)行高校財(cái)務(wù)預(yù)警誤差,測(cè)試結(jié)果見圖4.本文算法進(jìn)行高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì)預(yù)警的誤差始終控制在較低的范圍內(nèi),可以滿足高校財(cái)務(wù)預(yù)警對(duì)其精度的需求(見圖4).
圖4 本文算法預(yù)警度對(duì)比
分別利用傳統(tǒng)算法和本文算法進(jìn)行高校財(cái)務(wù)預(yù)警系統(tǒng)設(shè)計(jì),對(duì)比不同算法進(jìn)行高校財(cái)務(wù)預(yù)警的擬合優(yōu)度,對(duì)比結(jié)果見圖5.利用本文算法進(jìn)行學(xué)校財(cái)務(wù)預(yù)警的擬合優(yōu)度要高于傳統(tǒng)算法,這是因?yàn)椴捎帽疚乃惴ㄟM(jìn)行學(xué)校財(cái)務(wù)預(yù)警時(shí),引入Shannon的信息論,改進(jìn)了選擇測(cè)試屬性的規(guī)則,保證了本文算法進(jìn)行學(xué)校財(cái)務(wù)預(yù)警的整體優(yōu)越性(見圖5).
圖5 不同算法預(yù)警的擬合優(yōu)度對(duì)比
在現(xiàn)階段的國(guó)內(nèi)高校財(cái)務(wù)管理中,還有部分高校對(duì)財(cái)務(wù)管理存在很多弊端,比如項(xiàng)目實(shí)現(xiàn)的速度過(guò)于遲緩,導(dǎo)致在規(guī)定的情況下,資金還有余額,并且撥款時(shí)間間隔較大,但在年底時(shí)卻加大撥款的次數(shù)和頻率,以至于產(chǎn)生滿溢狀態(tài),影響了高校財(cái)務(wù)管理的穩(wěn)定運(yùn)行.
筆者利用Shannon的信息論對(duì)C4.5算法進(jìn)行改進(jìn),并利用改進(jìn)的C4.5算法設(shè)計(jì)出新的高校財(cái)務(wù)預(yù)警系統(tǒng),利用決策樹時(shí)刻掌握財(cái)務(wù)的最新狀況,在一定的情況下,對(duì)其發(fā)出預(yù)警信息,對(duì)撥款狀態(tài)及時(shí)把控,并監(jiān)督有關(guān)的項(xiàng)目進(jìn)程,實(shí)現(xiàn)輔助管理高校財(cái)務(wù)的目標(biāo).高校管理過(guò)程較為繁瑣,要建立相關(guān)的制度和調(diào)配方向,在明確基本方向的基礎(chǔ)上,對(duì)實(shí)現(xiàn)的具體步驟要有所監(jiān)督,并對(duì)實(shí)現(xiàn)的內(nèi)容要有所評(píng)價(jià),同時(shí)高校財(cái)務(wù)管理本身也要做到實(shí)施前對(duì)其進(jìn)行規(guī)劃,實(shí)施中對(duì)其財(cái)務(wù)進(jìn)行掌控,實(shí)施后對(duì)其進(jìn)行評(píng)價(jià)的路線.而在其中,本文提出的改進(jìn)C4.5算法可以較大程度的利用積累的信息資源,對(duì)高校的財(cái)務(wù)狀態(tài)進(jìn)行精準(zhǔn)預(yù)測(cè).