鄭 佳,潘建欣,張瑞穩(wěn)
(1.中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院,安徽 合肥 230026;2.清華大學(xué)核能與新能源技術(shù)研究院,北京 100084)
基于支持向量機(jī)的高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)模型研究
鄭 佳1,潘建欣2,張瑞穩(wěn)1
(1.中國(guó)科學(xué)技術(shù)大學(xué)管理學(xué)院,安徽 合肥 230026;2.清華大學(xué)核能與新能源技術(shù)研究院,北京 100084)
基于支持向量機(jī)神經(jīng)網(wǎng)絡(luò)理論,首創(chuàng)性地建立了一個(gè)由業(yè)績(jī)產(chǎn)出財(cái)務(wù)指標(biāo)辨識(shí)高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)類型的支持向量機(jī)模型。模型以企業(yè)的業(yè)績(jī)產(chǎn)出財(cái)務(wù)指標(biāo)數(shù)據(jù)為基礎(chǔ),以徑向基函數(shù)作為核函數(shù),使用網(wǎng)格尋優(yōu)方法調(diào)節(jié)模型參數(shù),得到優(yōu)化后的?;厝バ停⑹褂脺y(cè)試集數(shù)據(jù)驗(yàn)證了模型。對(duì)結(jié)果進(jìn)行二元分類決策分析,結(jié)果表明:該模型的準(zhǔn)確率和決策率等主要評(píng)價(jià)指標(biāo)都達(dá)到了85%以上,具有較高的辨識(shí)能力和可信度,為高新技術(shù)企業(yè)和傳統(tǒng)企業(yè)的類型辨識(shí)提供了一種可靠的、簡(jiǎn)單方便的方法,可以直接量化地判別企業(yè)是否屬于高新技術(shù)企業(yè)。
高新技術(shù)企業(yè);類型辨識(shí)模型;支持向量機(jī);神經(jīng)網(wǎng)絡(luò)
高新技術(shù)企業(yè)在國(guó)家的經(jīng)濟(jì)增長(zhǎng)中起著重要作用,但是由于高新技術(shù)是一個(gè)動(dòng)態(tài)發(fā)展、不斷演進(jìn)的過(guò)程,這使得高新技術(shù)企業(yè)很難有能夠被廣泛接受的定義。在中國(guó),高新技術(shù)企業(yè)主要是產(chǎn)品 (服務(wù))屬于國(guó)家重點(diǎn)支持的高新技術(shù)領(lǐng)域,且研發(fā)投入密集度、科研人員比例符合條件的企業(yè),但這一定義并沒(méi)有細(xì)化至每個(gè)企業(yè)的生產(chǎn)方式及產(chǎn)品 (服務(wù))?,F(xiàn)行的定義可能導(dǎo)致:處于傳統(tǒng)領(lǐng)域的某些企業(yè),仍然具有領(lǐng)先的工藝、卓越的創(chuàng)新能力,且創(chuàng)新性、成長(zhǎng)性和盈利能力優(yōu)于某些高新技術(shù)企業(yè),但是因所處的行業(yè)不屬于國(guó)家重點(diǎn)支持的高新技術(shù)領(lǐng)域,而無(wú)法認(rèn)定為高新技術(shù)企業(yè);或者,某些高新技術(shù)企業(yè)的業(yè)績(jī)表現(xiàn),并不具備高成長(zhǎng)性和高盈利性。高新技術(shù)企業(yè)資質(zhì)作為企業(yè)的無(wú)形資產(chǎn),是企業(yè)科研實(shí)力的有力證明,可以獲得稅收政策、人才引進(jìn)、投融資、土地和工商等各方面的優(yōu)惠。據(jù)統(tǒng)計(jì),2012年第一季度中,148家通過(guò)高新技術(shù)企業(yè)資格復(fù)審的創(chuàng)業(yè)板企業(yè)中,有27家沒(méi)有達(dá)到高新技術(shù)企業(yè)的認(rèn)定標(biāo)準(zhǔn);對(duì)于上述不符合高新技術(shù)企業(yè)認(rèn)定的公司,如果按利潤(rùn)總額乘以10%的企業(yè)所得稅優(yōu)惠粗略計(jì)算的話,僅2011年,這27家企業(yè)就至少享受了2.61億元的企業(yè)所得稅優(yōu)惠。因此,對(duì)于管理者、投資者、戰(zhàn)略政策的研究制定者,制定出更清晰成熟的高新技術(shù)企業(yè)評(píng)價(jià)標(biāo)準(zhǔn)就具有重要意義;也正因?yàn)槿绱?,我們嘗試從財(cái)務(wù)指標(biāo)的角度,建立模型,希望能形成更公正客觀的認(rèn)證評(píng)價(jià)標(biāo)準(zhǔn)。
Oakey和Mukhar(1999)[1]主張績(jī)效指標(biāo)是高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的重要區(qū)分指標(biāo)。正是由于在資源投入上高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)之間存在顯著差異,因此在業(yè)績(jī)產(chǎn)出上,高新技術(shù)企業(yè)應(yīng)當(dāng)表現(xiàn)出與其高技術(shù)、高投入、高風(fēng)險(xiǎn)相對(duì)應(yīng)的財(cái)務(wù)特征;但這并不能滿足市場(chǎng)上信息需求者的要求。Nicholas和Martin(2008)[2]的研究指出現(xiàn)有的標(biāo)準(zhǔn)產(chǎn)業(yè)分類 (SIC)只能將企業(yè)進(jìn)行模糊的分類,而不是建立在系統(tǒng)分類的基礎(chǔ)上,并證實(shí)使用績(jī)效指標(biāo)途徑來(lái)定義高新技術(shù)企業(yè)的可能。
Vapnik(1995)[3]基于統(tǒng)計(jì)學(xué)習(xí)理論提出了支持向量機(jī) (support vector machine,SVM)神經(jīng)網(wǎng)絡(luò),具有魯棒性、計(jì)算簡(jiǎn)單以及理論上完善等優(yōu)點(diǎn),可用于模式分類和非線性回歸的研究。已有文獻(xiàn)報(bào)道了SVM用于商業(yè)銀行構(gòu)建企業(yè)破產(chǎn)預(yù)測(cè)機(jī)制[4]、上市公司經(jīng)營(yíng)決策失敗預(yù)警[5]和糧食產(chǎn)量預(yù)測(cè)[6]等領(lǐng)域,但暫未有SVM用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)分類研究的文獻(xiàn)報(bào)導(dǎo)。
SVM模型主要思想是建立一個(gè)超平面作為決策曲面,使得正例與反例之間的隔離邊緣被最大化。對(duì)于考慮訓(xùn)練樣本,其中x為第i個(gè)
i輸入模式向量,di為對(duì)應(yīng)的目標(biāo)輸出,用于分離的超平面形式的決策曲面方程則為:wTx+b=0,使得wTx+b>0時(shí)di=+1,否則為-1。其中在正反例附近用于確定最優(yōu)決策超平面的向量稱為支持向量,也是最難區(qū)分的數(shù)據(jù)點(diǎn)。理論研究表明模型的原問(wèn)題即最優(yōu)分離邊緣為2/||w||,通過(guò)最小化權(quán)值向量w的歐幾得里范數(shù)||w||,提供正反例之間的最大分離的可能。一般通過(guò)Lagrange乘子方法轉(zhuǎn)化成其對(duì)偶問(wèn)題,解決約束最優(yōu)問(wèn)題。建立的Lagrange函數(shù)為:
其中的α為輔助的Lagrange乘子,在N個(gè)向量中αi為非負(fù)值的向量即為支持向量。
在LIBSVM工具箱中,SVMtrain函數(shù)中預(yù)設(shè)的用于分類的C-SVM類型,其決策函數(shù)為:
其中K為核函數(shù),其主要類型有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)和sigmoid核函數(shù)等。研究表明,在一般條件下徑向基函數(shù)K(xi,x)=exp(-r|xi-x|2),表示以x為中心、xi到x的徑向距離半徑為r形成的構(gòu)成的函數(shù)系,具有較好普適性。
本文使用具有產(chǎn)出性質(zhì)的10項(xiàng)績(jī)效財(cái)務(wù)指標(biāo)作為參數(shù),直接量化地判別企業(yè)是否屬于高新技術(shù)企業(yè)。區(qū)別于我國(guó)目前《高新技術(shù)企業(yè)認(rèn)定管理辦法》中,“企業(yè)產(chǎn)品 (服務(wù))屬于《國(guó)家重點(diǎn)支持的高新技術(shù)領(lǐng)域》”加“研發(fā)人員及R&D投入強(qiáng)度標(biāo)準(zhǔn)”的認(rèn)定方法,避免了樣本的投入性參數(shù)和依據(jù)此類參數(shù)所確定的高新企業(yè)之間存在的必然聯(lián)系;總結(jié)已有的相關(guān)文獻(xiàn)在指標(biāo)設(shè)置上出現(xiàn)的頻度,主要從企業(yè)的盈利能力、成長(zhǎng)能力、營(yíng)運(yùn)能力上來(lái)選定財(cái)務(wù)指標(biāo),這十項(xiàng)績(jī)效財(cái)務(wù)指標(biāo)分別為:總資產(chǎn)凈利率、成本費(fèi)用利潤(rùn)率、銷售毛利率、主營(yíng)業(yè)務(wù)收入增長(zhǎng)率、凈利潤(rùn)增長(zhǎng)率、凈資產(chǎn)增長(zhǎng)率、總資產(chǎn)增長(zhǎng)率、存貨周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率和總資產(chǎn)周轉(zhuǎn)率。在選擇樣本企業(yè)時(shí)還考慮到:樣本企業(yè)是否上市與該企業(yè)是否屬于高新技術(shù)企業(yè)沒(méi)有必然聯(lián)系;本模型使用十項(xiàng)績(jī)效財(cái)務(wù)指標(biāo)對(duì)企業(yè)類別進(jìn)行判斷,將模型所得結(jié)果與該企業(yè)的真實(shí)分類進(jìn)行比較,作為模型判斷的準(zhǔn)確率;為了保證樣本數(shù)據(jù)的絕對(duì)真實(shí)可靠,防止原始數(shù)據(jù)的不準(zhǔn)確引起的模型準(zhǔn)確率下降,因此選用財(cái)務(wù)數(shù)據(jù)更可靠的上市公司作為樣本企業(yè)。
根據(jù)2008年4月24日由財(cái)政部、科技部、國(guó)家稅務(wù)總局聯(lián)合發(fā)出的《高新技術(shù)企業(yè)認(rèn)定管理辦法》,以及《2010年國(guó)家高新技術(shù)企業(yè)名單》隨機(jī)抽取102家高新技術(shù)上市公司,剔除數(shù)據(jù)不全的企業(yè),得到98家樣本企業(yè),這98家樣本企業(yè)中有創(chuàng)業(yè)板上市公司21家,非創(chuàng)業(yè)板上市公司77家;學(xué)者王今朝、王靜 (2008)[7]認(rèn)為,我國(guó)當(dāng)前的傳統(tǒng)產(chǎn)業(yè)主要屬于第二產(chǎn)業(yè)中的原材料工業(yè)以及加工工業(yè)中的輕加工工業(yè),主要包括紡織業(yè)、輕工、部分機(jī)械、化工和建材工業(yè)。并根據(jù)證監(jiān)會(huì)2010年頒布的《上市公司行業(yè)分類指引》,從食品飲料(C0)、紡織業(yè) (C11)、煤炭采選業(yè) (B01)、建筑業(yè) (E)的130家企業(yè)中剔除財(cái)務(wù)特征異常的ST板塊和數(shù)據(jù)不全的企業(yè),為了保證數(shù)據(jù)的一致性和可比性,再隨機(jī)抽取與高新技術(shù)企業(yè)數(shù)相當(dāng)?shù)钠髽I(yè),得到99家傳統(tǒng)企業(yè)樣本;選取此197個(gè)樣本企業(yè)2007—2010年的年報(bào)數(shù)據(jù)中盈利能力、成長(zhǎng)能力、營(yíng)運(yùn)能力10個(gè)參數(shù)為輸入值。
建立模型首先從原始數(shù)據(jù)中隨機(jī)分離出訓(xùn)練集和測(cè)試集,訓(xùn)練集用于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),得到合適的模型;測(cè)試集用于測(cè)試網(wǎng)絡(luò)的泛化能力,即檢驗(yàn)?zāi)P偷恼_性。正態(tài)分布化、歸一化和主成分分析降維等方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,得到有效不失真的處理后數(shù)據(jù)。使用訓(xùn)練集數(shù)據(jù)訓(xùn)練得到SVM模型,使用測(cè)試集數(shù)據(jù)對(duì)模型進(jìn)行檢驗(yàn),并不斷調(diào)節(jié)模型參數(shù),得到最優(yōu)模型。使用模型對(duì)未知數(shù)據(jù)的運(yùn)算,判斷企業(yè)是否為高新技術(shù)企業(yè),達(dá)到預(yù)測(cè)的目的。
模型利用Matlab軟件包編程,使用臺(tái)灣大學(xué)林智仁教授等[8]開(kāi)發(fā)的LIBSVM工具箱,部分函數(shù)參考了 Faruto等[9]基于 LIBSVM開(kāi)發(fā)的加強(qiáng)工具箱。
原始數(shù)據(jù)整體保存在corporation.mat文件中,記錄了全部197個(gè)樣本的10個(gè)參數(shù)值的197×10 double型的名為corp的矩陣,以及一個(gè)197×1的double型列向量corp_labels記錄企業(yè)類型標(biāo)簽(T設(shè)置為傳統(tǒng)企業(yè),C為高新技術(shù)企業(yè))。使用load命令載入數(shù)據(jù),并使用figure命令查看數(shù)據(jù)。
將corp的197×10矩陣按每一列 (即每個(gè)指標(biāo))進(jìn)行正態(tài)化,得到正態(tài)化后的197×10矩陣corp_norm,目的是獨(dú)立地將每一個(gè)特征成分正態(tài)化為特定區(qū)間范圍。這樣確保更大值的輸入屬性不會(huì)覆蓋更小值的輸入屬性,有助于減少預(yù)測(cè)誤差[10]。
使用ismember(corp_labels,H)命令,對(duì)企業(yè)標(biāo)簽corp_labels列向量元素進(jìn)行邏輯判斷,是“H”的元素為logic型的“1”,即為高新技術(shù)企業(yè),不是“H”的元素為logic型的“0”,為傳統(tǒng)企業(yè)。得到了一個(gè)名為groups的197×1的列向量。使用[train,test]=crossvalind('holdOut',groups,0.40)命令劃分訓(xùn)練集和測(cè)試集。其中crossvalind是產(chǎn)生交差檢驗(yàn) (Cross-Validation)的函數(shù),從groups集中以40%的概率隨機(jī)選出近似比例的測(cè)試集。輸出為一個(gè)含78(約197×40%)個(gè)logic“1”元素的197×1的test集,以及一個(gè)含119(=197-78) 個(gè) logic“1”元素的 197×1的train集。利用train和test集,隨機(jī)挑選得到了訓(xùn)練集和測(cè)試集的數(shù)據(jù)和標(biāo)簽,分別為train_corp,train_corp_labels,test_corp和test_corp_labels。
經(jīng)驗(yàn)表明,對(duì)數(shù)據(jù)進(jìn)行歸一化處理,可以提高模型的準(zhǔn)確率。對(duì)上一步得到的train_corp和test_corp采用 [0,1]歸一化,得到了119×10的歸一化后的訓(xùn)練集train_scale和78×10的歸一化后的測(cè)試集test_scale。
變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性,使用主成分分析方法,從中可以取出較少的綜合變量盡可能多地反映原來(lái)變量的信息。對(duì)train_scale和test_scale進(jìn)行主成分分析,如圖1所示,當(dāng)10個(gè)參數(shù)降維成7個(gè)參數(shù)時(shí),仍保留了95%的原始數(shù)據(jù)信息。得到了119×7的 PCA后的訓(xùn)練集train_pca和78×7的歸一化后的測(cè)試集test_pca。代碼如下:
圖1 SVM模型數(shù)據(jù)的主成分分析圖
使用依次進(jìn)行正態(tài)化,歸一化和主成分分析后得到數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,得到SVM網(wǎng)絡(luò)模型。代碼如下:
模型的輸入值為測(cè)試集標(biāo)簽train_corp_labels和處理后的數(shù)據(jù) train_pca,參數(shù)'-s 0 -t 2'表示使用了SVMtrain函數(shù)中預(yù)設(shè)的用于分類的C-SVM類型,其核函數(shù)類型徑向基函數(shù)。'-c 7-g 2'中c和g是SVM神經(jīng)網(wǎng)絡(luò)的兩個(gè)重要參數(shù),分別對(duì)其賦值為7和2,具體選擇和優(yōu)化在3.5節(jié)討論。命令輸出得到了一個(gè)名為model的數(shù)據(jù)結(jié)構(gòu)體,包含決策函數(shù)中的承裝系數(shù)列向量w(model.sv_coef)和常數(shù)項(xiàng)系數(shù)的相反數(shù)-b(rho),以及得到了支持向量 (SVs)等參數(shù)。
使用svmpredic命令,建模得到的model結(jié)構(gòu)體,以及用于測(cè)試的標(biāo)簽和數(shù)據(jù)test_corp_labels和test_pca進(jìn)行預(yù)測(cè),Matlab命令如下:
命令輸出78×1預(yù)測(cè)后的標(biāo)簽predict_label列向量和準(zhǔn)確率Accuracy=85.8974%(67/78)。
核參數(shù)c和g是徑向基函數(shù)RBF的SVM兩個(gè)重要參數(shù),對(duì)模型的性能起關(guān)鍵作用,不合適的c和g會(huì)導(dǎo)致網(wǎng)絡(luò)欠學(xué)習(xí)或者過(guò)學(xué)習(xí)。最優(yōu)SVM算法的核函數(shù)和參數(shù)選擇,目前沒(méi)有理論依據(jù),只能是憑借經(jīng)驗(yàn)、實(shí)驗(yàn)對(duì)比、大規(guī)模搜索以及使用交叉驗(yàn)證方法進(jìn)行尋優(yōu)。交叉驗(yàn)證方法可以在沒(méi)有測(cè)試集表情的情況下,找到一定意義上的最佳參數(shù)c和g,即能使訓(xùn)練集在交叉驗(yàn)證下達(dá)到最高分類率,但并不能保證在測(cè)試集下也能達(dá)到最高分類準(zhǔn)確率。
常用的經(jīng)驗(yàn)方法有網(wǎng)格尋優(yōu)、基于遺傳算法尋優(yōu)和基于粒子群算法尋優(yōu)。本模型選用最簡(jiǎn)單的網(wǎng)格尋優(yōu),即建造二維的cg網(wǎng)格,在網(wǎng)格暴力尋找最大的準(zhǔn)確率及其對(duì)應(yīng)的c和g值。使用內(nèi)置的SVMcgForClass函數(shù)尋優(yōu),在c和g都在 [2-10,210]廣域區(qū)間內(nèi)搜索,后縮小至c為 [2-3,24],g 為 [2-5,22]區(qū)間內(nèi)以 20.2的步長(zhǎng),使用 5-folder交叉驗(yàn)證方法尋找最佳值,Matlab代碼為:
輸出得到了最大的精度值和對(duì)應(yīng)的最佳c值bestc_cg和g值bestg_cg。需要說(shuō)明的是,只是對(duì)測(cè)試標(biāo)簽和數(shù)據(jù)進(jìn)行運(yùn)算,還需要在該計(jì)算值附近手動(dòng)尋找最佳值,本例選取了c為7和g為2。
使用CR_train=ClassResult(train_corp_labels,train_pca,model,1)查看訓(xùn)練集結(jié)果。結(jié)果表明:支持向量數(shù)目為93,整體分類準(zhǔn)確率為92.437%(110/119),其中高新技術(shù)企業(yè)分類準(zhǔn)確率為89.8305%(53/59),傳統(tǒng)企業(yè)分類準(zhǔn)確率達(dá)到了95%(57/60),學(xué)習(xí)效果好。同樣的,CR_test=ClassResult(test_corp_labels,test_pca,model,2)命令查看測(cè)試集結(jié)果,整體分類準(zhǔn)確率達(dá)到了85.8974%(67/78),其中高新技術(shù)企業(yè)分類準(zhǔn)確率為87.1795%(34/39)傳統(tǒng)企業(yè)分類準(zhǔn)確率達(dá)到了84.6154%。
對(duì)于二元分類決策分析,多使用Tp、Fp、Tn和Fn等參數(shù)來(lái)計(jì)算準(zhǔn)確率、決策率、召回率、F參數(shù)、特異值和綜合平衡參數(shù)等評(píng)價(jià)模型。其中,Tp表示模型辨識(shí)正確的正例數(shù),F(xiàn)p表示模型辨識(shí)錯(cuò)誤的正例數(shù),Tn表示模型辨識(shí)正確的反例數(shù),以及Fn表示模型辨識(shí)錯(cuò)誤的反例數(shù)。對(duì)于本模型而言,Tp、Fp、Tn和Fn的含義及對(duì)應(yīng)數(shù)值如表1:
表1 驗(yàn)證集參數(shù)結(jié)果表
計(jì)算得到準(zhǔn)確度:Accuracy=85.8974%,即高新技術(shù)企業(yè)和傳統(tǒng)企業(yè)都被正確判別的數(shù)量占整個(gè)樣本數(shù)的比重,反映了模型對(duì)整個(gè)樣本的判斷能力;決策率:Precision=85%,表示被模型判斷為高新技術(shù)企業(yè)的40家企業(yè)中,34家真正的高新技術(shù)企業(yè)所占的比重,即模型做出企業(yè)為高新技術(shù)企業(yè)的判斷,Precision表示這一判斷的可信程度;召回率:Recall=87.1795%,表示在實(shí)際為高新技術(shù)企業(yè)的39家之中,被模型正確判定為高新技術(shù)企業(yè)的34家企業(yè)所占的百分比,即模型從樣本企業(yè)中正確辨識(shí)出高新技術(shù)企業(yè)的能力,該參數(shù)也被稱為靈敏度 (Sensitivity);特異性:Specificity=84.6154%,表示在實(shí)際真為傳統(tǒng)企業(yè)的39家之中,被模型正確判定為傳統(tǒng)企業(yè)33家所占的百分比。總體F評(píng)估指數(shù):F-score=86.0759%,總體平衡精度:BAC=85.8975%,上述兩項(xiàng)是綜合評(píng)價(jià)指標(biāo),評(píng)價(jià)模型對(duì)兩類指標(biāo)的整體判別能力。本模型的主要評(píng)價(jià)參數(shù)指標(biāo)大于85%,可知本模型在高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)上具有較高的辨識(shí)能力和可信度。
構(gòu)建的模型目的是用于對(duì)未知企業(yè)是否為高新技術(shù)企業(yè)進(jìn)行辨識(shí),只需要該企業(yè) (或M個(gè)企業(yè))的10個(gè)參數(shù),構(gòu)成M×10的數(shù)據(jù)矩陣Data,元素為隨機(jī)生成0和1的M×1標(biāo)簽列向量Labels,表明在測(cè)試前隨意的劃歸企業(yè)為傳統(tǒng)的非高新的(T)或是高新的 (H),然后使用svmpredict函數(shù),輸出N×1的預(yù)測(cè)的標(biāo)簽Predict_label。
[Predict_label,Accuracy]=svmpredict(Labels,Data,model);
需要說(shuō)明的是,由于Labels中的數(shù)據(jù)是隨機(jī)的,企業(yè)是否為高新技術(shù)企業(yè)未知,只是程序計(jì)算時(shí)所需的初始賦值,而準(zhǔn)確率Accuracy,僅表示初始的Labels和最終結(jié)果Predict_label相同的比率,在此處是沒(méi)有意義的。查看Predict_label列向量的數(shù)據(jù),當(dāng)某行結(jié)果為1時(shí)表明對(duì)應(yīng)的該企業(yè)是高新的,否則是傳統(tǒng)的。對(duì)高新技術(shù)企業(yè)和傳統(tǒng)企業(yè),其預(yù)測(cè)結(jié)果的決策接受率,即 Precision和Recall,才是用于預(yù)測(cè)時(shí)的模型準(zhǔn)確率,由測(cè)試集的結(jié)果來(lái)看,達(dá)到了85%和87.1795%,因此模型是可靠的。
本文首次將支持向量機(jī)神經(jīng)網(wǎng)絡(luò)引入到高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)研究,建立了一個(gè)支持向量機(jī)神經(jīng)網(wǎng)絡(luò)的模型,使用企業(yè)的業(yè)績(jī)產(chǎn)出財(cái)務(wù)數(shù)據(jù)直接辨識(shí)該企業(yè)是屬于高新技術(shù)企業(yè)或者傳統(tǒng)企業(yè)。模型的原始數(shù)據(jù)經(jīng)過(guò)正態(tài)分布化、歸一化和主成分分析降維等方法,以徑向基函數(shù)為核函數(shù),使用訓(xùn)練集數(shù)據(jù)訓(xùn)練得到了模型,利用網(wǎng)格尋優(yōu)方法調(diào)節(jié)模型的c參數(shù)和g參數(shù),并使用測(cè)試集數(shù)據(jù)驗(yàn)證了模型的準(zhǔn)確性。使用優(yōu)化后的模型的各項(xiàng)評(píng)價(jià)參數(shù)都達(dá)到了85%以上,結(jié)果表明模型具有優(yōu)異的辨識(shí)能力和可信度,是可以用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)的。
使用SVM模型用于高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)的研究,與現(xiàn)有的評(píng)測(cè)標(biāo)準(zhǔn)相比,提供了一種全新的、可靠的但又操作簡(jiǎn)單的量化方法;十項(xiàng)參數(shù)指標(biāo)是對(duì)企業(yè)業(yè)績(jī)的計(jì)量和評(píng)價(jià),對(duì)企業(yè)的管理者、投資者、戰(zhàn)略政策的研究制定者來(lái)說(shuō),財(cái)務(wù)績(jī)效指標(biāo)更加直觀、規(guī)范、容易獲得;且相較于現(xiàn)行的高新技術(shù)企業(yè)認(rèn)定指標(biāo),不存在計(jì)量上的爭(zhēng)議和主觀操作性,可以進(jìn)行更客觀的評(píng)判。該模型可以運(yùn)用于高新技術(shù)企業(yè)對(duì)其業(yè)績(jī)表現(xiàn)進(jìn)行自我評(píng)價(jià),也可作為各級(jí)高新技術(shù)企業(yè)的認(rèn)定管理機(jī)構(gòu)對(duì)申請(qǐng)企業(yè)認(rèn)定審查的參考依據(jù),還可作為高新技術(shù)企業(yè)的投資人對(duì)被投資企業(yè)綜合業(yè)績(jī)表現(xiàn)的評(píng)估工具。本論文使用SVM對(duì)高新技術(shù)企業(yè)與傳統(tǒng)企業(yè)的類型辨識(shí)模型做了初步探索,在參數(shù)指標(biāo)的選擇、模型的優(yōu)化等方面還可進(jìn)一步研究。
[1]R.P.Oakey,S.M.Mukhar.United Kingdom high-technology small firms in theory and practice:a review of recent trends.International Small Business Journal.1999,(17):48 -64.
[2]Nicholas O’Regan,Martin A.Sims.Identifying high technology small firms,A sectoral analysis[J].Technovation,2008,(28):408-423.
[3]C.Cortes,V.Vapnik.Support-Vector Network[J].Machine Learning,1995,(20):273 -297.
[4]楊毓,蒙肖蓮.用支持向量機(jī)(SVM)構(gòu)建企業(yè)破產(chǎn)預(yù)測(cè)模型[J].金融研究.2006,(10):67-75.
[5]宋新平,丁永生.基于最優(yōu)支持向量機(jī)模型的經(jīng)營(yíng)失敗預(yù)警研究[J].管理科學(xué).2008,(2):115-121.
[6]向昌盛,周子英.糧食產(chǎn)量預(yù)測(cè)的支持向量機(jī)模型研究[J].湖南農(nóng)業(yè)大學(xué)學(xué)報(bào).2010,(2):6-10.
[7]王今朝,王靜.論高技術(shù)產(chǎn)業(yè)與傳統(tǒng)產(chǎn)業(yè)的融合發(fā)展[J].商業(yè)時(shí)代.2008,(7):98-99.
[8]Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines[EB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm,2010.
[9]Faruto and Liyang,LIBSVM-Faruto Ultimate Version.A toolbox with implements for support vector machines based on libsvm[EB/OL].http://www.matlabsky.com,2011.
[10]Hsu C-W.,Chang C C.,Lin C J.A Practical Guide to Support Vector Classification[R].Department of Computer Science and Information Engineering.Taiwan:National Taiwan University,2004.
(責(zé)任編輯 劉傳忠)
Type Identification Model of High-tech Companies and Traditional Companies
Zheng Jia1,Pan Jianxin2,Zhang Ruiwen1
(1.School of Management,University of Science and Technology of China,Hefei 230026,China;2.Institute of Nuclear and New Energy Technology,Tsinghua University,Beijing 100084,China)
This paper presents a novel identification model for the identification of high technology companies and traditional ones from financial performance indexes for the first time,based on the support vector machine(SVM)neural network(NN).The model is on the basis of the data of companies’indexes,employs radial basis function(RFB)as the kernel function.The kernel parameters are selected and adjusted by grid search method.The optimized model is verified by the test data.The results are discussed by binary classification decision analysis.It indicates that the accuracy,precision,recall and other main evaluation indexes of the model are achieved 85%above,which means high reliability.The model provides a reliable,simple and convenient approach for the type identification of high technology companies quantitatively.
High technology companies;Type identification model;Support vector machine;Neural network
F270
A
2012-02-27
鄭佳 (1987-),女,湖北宜昌人,管理學(xué)碩士;研究方向:高新技術(shù)企業(yè)的財(cái)務(wù)管理。