亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高新技術企業(yè)資格維護風險預警模型研究
——以河北省高新技術企業(yè)為例

2022-07-04 12:08:48王云麗韓珍珍楊文煥

河北省科學院學報 2022年3期

王云麗，韓珍珍，楊文煥，成彬

(河北省科學院應用數(shù)學研究所，河北省信息安全認證技術創(chuàng)新中心，河北石家莊 050081)

0 引言

高新技術企業(yè)作為經(jīng)濟新常態(tài)下最重要的創(chuàng)新驅(qū)動主體，一直受到政府的重點扶持。我國高新技術企業(yè)資格認定工作從20世紀90年代初開始，經(jīng)認定的高新技術企業(yè)，資格有效期為三年，在資格有效期內(nèi)可享受企業(yè)稅收優(yōu)惠及政府的多項政策優(yōu)惠。認定政策對處于成長期企業(yè)的實質(zhì)性創(chuàng)新有更強的額外激勵效應，國家的研發(fā)激勵和稅收激勵政策都能顯著促進企業(yè)自主創(chuàng)新。相關數(shù)據(jù)顯示，截止到2020年底，全國有效期內(nèi)高新技術企業(yè)有27.8萬家。隨著企業(yè)認定數(shù)量的增長，國家監(jiān)管趨于嚴格，科技、財政和稅務等部門每年都對其進行日常檢查和重點抽查，被取消資格的企業(yè)數(shù)量不斷增加。截止到2021年10月12日，因不符合相關政策要求而被取消資格的企業(yè)共588家。被取消資格后，稅務機關會要求企業(yè)補繳自認定年度起享受的稅收優(yōu)惠，相關部門也會對財政獎勵資金進行追繳[1]，可見高新技術企業(yè)資格對本企業(yè)聲譽、核心競爭力和業(yè)績等有重要作用。因此，對高新技術企業(yè)資格維護的研究對其未來發(fā)展具有重要指導意義。

目前，我國學者在高新技術企業(yè)資格預警模型研究方面有較多研究，王統(tǒng)一從審計角度闡述加強高新技術企業(yè)資格的維護與風險防范的措施[2]；趙平從稅收角度闡述高新技術企業(yè)資格保持的關鍵點[3]；胡意等構(gòu)建了高新技術企業(yè)運行發(fā)展預警模型，對湛江市部分高新技術企業(yè)未來的運行發(fā)展進行預測[4]，但應用邏輯回歸預警模型的很少?；谇叭说睦碚撗芯颗c實證分析，本文參考高新技術企業(yè)認定的指標體系要求，以河北省高新技術企業(yè)為例，采集與高新技術企業(yè)經(jīng)營發(fā)展相關公開數(shù)據(jù)，構(gòu)建邏輯回歸預警模型，預測企業(yè)在資格維護管理方面的潛在風險，提醒企業(yè)對風險項指標采取措施，防患于未然，并在提升高新技術企業(yè)自身資質(zhì)管理方面進行探索。

1 模型設計

邏輯回歸(Logistic Regression)是一種名為“回歸”的線性分類器，其本質(zhì)是由線性回歸變化而來，常用于二分類，是各類風險預警的常用模型，具備以下優(yōu)點：

(1)邏輯回歸返回的分類結(jié)果不是固定的0，1，而是以小數(shù)形式呈現(xiàn)的類概率數(shù)字。在制作評分卡時，不僅可以返回高新技術企業(yè)是否會被取消資格的判斷，還能夠給出確定的“資格維護分數(shù)”。

(2)邏輯回歸在線性數(shù)據(jù)的擬合和計算速度上非?？?，并且在小數(shù)據(jù)集上表現(xiàn)較好。由此可見，邏輯回歸在實際問題的解決上具有一定的優(yōu)勢[5]。

1.1 模型的構(gòu)建

線性回歸是機器學習中最簡單的回歸算法，其方程為：

z=θ0+θ1x1+θ2x2+...+θnxn=θTX

(1)

式中θ為參數(shù)向量，X為特征向量。

引入sigmoid函數(shù)，即：

(2)

當自變量z取值大于0時，因變量g(z)取值大于0.5，自變量z趨近正無窮時，因變量g(z)趨近于1，表明該高新技術企業(yè)資格維護風險較大；而當z取值小于0時，g(z)取值小于0.5，z趨近負無窮時，g(z)趨近于0，表明該企業(yè)資格維護風險較小[6]，所以它能夠?qū)⑷魏螌崝?shù)映射到(0,1)區(qū)間，使其可用于將任意值函數(shù)轉(zhuǎn)換為更適合二分類的函數(shù)。

因此，邏輯回歸模型通常表示為:

(3)

邏輯回歸的損失函數(shù)由極大似然估計推導出來：

(4)

其中，θ表示求解出來的一組參數(shù)，m為樣本個數(shù)，xi是樣本i各個特征的取值，yi為樣本i上真實的標簽，yθ(xi)是樣本i上的基于參數(shù)θ計算出來的返回值。

模型追求的是能夠最小化損失函數(shù)的參數(shù)組合，即求解最小值。追求最小損失函數(shù)以使模型在訓練集上表現(xiàn)最佳，但是在測試集上可能會導致模型過擬合，需要在模型的損失函數(shù)中加上一個正則化項，有時也稱為“懲罰項”，來緩解模型過擬合傾向。

正則化常用的有L1和L2兩種選項，分別通過在損失函數(shù)后加上參數(shù)向量θ的L1范式和L2范式的倍數(shù)來實現(xiàn)[7]：

(5)

(6)

其中J(θ)是損失函數(shù)，C是用來控制正則化程度的超參數(shù)，n是方程中特征的總數(shù)，j代表每個參數(shù)。

雖然L1正則化和L2正則化都可以控制過擬合，但它們的效果并不相同。當正則化強度逐漸增大(即C逐漸變小)時，參數(shù)θ的值將逐漸變小，但L1正則化會將參數(shù)壓縮為0，L2正則化只會使參數(shù)盡可能小，而不是0。L1正則化會使得某些系數(shù)不斷地向0收縮，當C值變化時，某些系數(shù)會被壓縮為0，達到解的稀疏性，從而實現(xiàn)變量選擇的目的。

1.2 模型的評價

為了辨別基于邏輯回歸的高新技術企業(yè)資格維護風險預警模型的分類效果，使用準確率和ROC曲線作為評估指標。根據(jù)樣本真實的類別和模型預測的類別組合形成4類，分別為真正TP例、假正FP例、真反TN例、假反FN例。很明顯，將這4類所包含的樣本相加就是完整的數(shù)據(jù)集，分類結(jié)果的混淆矩陣如表1。

表1 混淆矩陣

準確率：正確分類的樣本占總樣本的比率，即正確分類的概率，是判斷分類模型分類效果最直觀的評價指標，計算公式為：

(7)

ROC曲線是受試者工作特征曲線(Receive Operating characteristic Curve)，以真陽率(TPR=TP/(TP+FN))為縱坐標，假陽率(FPR=FP/FP+TN)為橫坐標的感受性曲線。ROC曲線下方與坐標軸圍成的面積為AUC(Area Under ROC Curve)，AUC值越大說明分類器性能越好。

2 模型實現(xiàn)

高新技術企業(yè)資質(zhì)維護預警模型基本流程分為5個步驟：數(shù)據(jù)獲取、數(shù)據(jù)預處理、分箱、模型構(gòu)建調(diào)優(yōu)及制作評分卡。

2.1 數(shù)據(jù)獲取

從“科技部火炬中心”網(wǎng)站獲取河北高新技術企業(yè)的名錄(2018年—2020年)共有9425家，根據(jù)企業(yè)名錄，采集互聯(lián)網(wǎng)上的公開數(shù)據(jù)，獲取企業(yè)基本信息、經(jīng)營狀況、經(jīng)營風險、知識產(chǎn)權以及招投標信息等85個特征指標[8]。

根據(jù)最近的河北省高新技術企業(yè)取消資格的公告文件，構(gòu)造“被取消資格證書又重新獲取”特征指標，并把該特征變量作為高新技術企業(yè)資格維護風險預警模型的標簽。

2.2 數(shù)據(jù)預處理

高新技術企業(yè)證書編號為GR201813000828的企業(yè)，未能獲取其相關數(shù)據(jù)，舍棄。

2.2.1 招投標數(shù)據(jù)的去重處理

以企業(yè)名稱作為關鍵詞進行檢索，招投標項目信息出現(xiàn)了大量的重復數(shù)據(jù)(不同網(wǎng)站公告同一項目信息)，這些重復的數(shù)據(jù)需要去重處理。共采集了455，485條(2018/1/1—2021/8/1)招投標信息，涉及5505家高新技術企業(yè)，經(jīng)過數(shù)據(jù)處理構(gòu)造特征變量：“招投標總數(shù)量”、“中標總額”和“中標項目數(shù)量”。

2.2.2 樣本不平衡的處理

2018年—2021年間，被取消資格后再次獲取高新技術企業(yè)資格的企業(yè)河北省共有9家，樣本個數(shù)為9424，其中標簽為1占0.0955%，標簽為0占99.9045%，可以看出，樣本嚴重不均衡。對于風險預警模型來說，真正想要被判別出來的是資格被取消過的高新技術企業(yè)，而這部分企業(yè)非常少，樣本就不平衡。邏輯回歸模型一般采用上采樣(增加少數(shù)類的樣本)的方法來實現(xiàn)樣本平衡。不平衡處理后：標簽為1占49.81%，標簽為0占50.19%。

2.2.3 訓練集和測試集

樣本平衡后的數(shù)據(jù)，劃分為70%訓練集和30%測試集。

2.3 分箱

2.3.1 特征選擇_嵌入法

圖1 L1和L2范式模型準確率對比圖

為盡量保留原數(shù)據(jù)上的信息，讓模型在降維后的數(shù)據(jù)上的擬合效果保持優(yōu)秀，因此不考慮訓練集測試集的問題，把所有的數(shù)據(jù)都放入模型進行降維。風險預警模型的核心目的是通過求解參數(shù)來探究特征與標簽之間的關系，所以要盡可能地保留特征的原貌，而PCA(Principal Component Analysis)和SVD(Singular Value Decomposition)的降維結(jié)果是不可解釋的，因此，本文采用嵌入法以特征選擇的方式進行降維。

首先通過描述性統(tǒng)計對數(shù)據(jù)進行整體探索，結(jié)果如表2所示。通過描述性統(tǒng)計結(jié)果看，特征變量比較稀疏。

使用嵌入法進行特征選擇。使用L1正則化進行特征選擇的結(jié)果如表2，而使用L2正則化項降維，模型效果較差，圖1是L1和L2正則化效果對比。

2.3.2 特征篩選_IV值

制作評分卡，就是對每個特征變量進行“分箱”。分箱的本質(zhì)是對連續(xù)變量進行離散化，以便將具有不同屬性的企業(yè)劃分為不同的類別(打上不同的分數(shù))。

表2 特征變量(部分)描述性統(tǒng)計及嵌入法篩選

分箱一般以3-5個為最佳。連續(xù)變量的離散化必然伴隨著信息的丟失，而箱子越少，信息的損失越大。為了衡量特征的信息量以及特征對預測函數(shù)的貢獻，定義了IV概念：

其中N是某個特征上箱子的個數(shù)，i代表每個箱子，good%是這個箱內(nèi)的好樣本(標簽為0)占整個特征中所有好樣本的比例，bad%是這個箱子里的壞樣本(標簽為1，被取消過資格的企業(yè))占整個特征中所有壞樣本的比例，而WOEi寫作為：

WOE本質(zhì)就是好樣本比上壞樣本的比例的對數(shù)，對一個箱子來說值越大，代表這個箱子里的好樣本越多[7，9]。

2.3.3 卡方檢驗、合并箱體，畫IV曲線

等頻分箱，每個特征分別劃分為20箱，統(tǒng)計每個箱子中0和1的數(shù)量，確保每箱必須包含兩類樣本。對相鄰的箱子進行卡方檢驗，合并卡方檢驗p值大的箱子，直到箱數(shù)小于設置的值為止，畫出IV曲線。

2.3.4 最佳分箱、WOE值趨勢單調(diào)

觀察IV值在不同箱數(shù)下的曲線變化，找出最合適的箱數(shù)。IV值下降比較迅速的轉(zhuǎn)折點對應的箱子，為最佳分箱個數(shù)。無法等頻分箱的特征變量，如“企業(yè)年報”，通過觀察然后手工分箱。從嵌入法降維后的24個特征里面選擇IV值大于0.05且WOE趨勢單調(diào)的11個特征，用來輸入模型，見表3。

表3 特征選擇_IV值大小、WOE趨勢及最佳分箱個數(shù)

“變更記錄次數(shù)”、“分支機構(gòu)數(shù)量”、“建筑資質(zhì)數(shù)量”、“新聞輿情條數(shù)”、“稅務評級次數(shù)”、“資質(zhì)證書數(shù)量”、“招投標總數(shù)量”、“中標項目數(shù)量”等8個特征變量的WOE趨勢單調(diào)。而“招聘信息發(fā)布次數(shù)”和“軟件著作權數(shù)量”的IV值曲線見圖2和圖3，WOE趨勢單調(diào)或只有一個轉(zhuǎn)折點。

圖2 “招聘信息”IV曲線

圖3 “軟件著作權”IV曲線

2.4 模型構(gòu)建及調(diào)優(yōu)

計算每個箱的WOE，將其替換到原始數(shù)據(jù)中，使用WOE數(shù)據(jù)進行建模。使用C值和迭代次數(shù)(梯度下降法)進行調(diào)參，C取0.4，迭代次數(shù)為20，調(diào)優(yōu)后模型的準確率：78.33%，ROC曲線：0.89，見圖4-圖6。

圖4 C值學習曲線圖

圖5 迭代次數(shù)學習曲線圖

圖6 ROC曲線

2.5 制作評分卡

評分卡中的分數(shù)，借鑒金融行業(yè)的信用風險評估計算公式：

Score=A-B*log(odds)

其中A與B是常數(shù)，A叫做“補償”，B叫做“刻度”，log(odds)代表了一個企業(yè)被取消資質(zhì)又獲取的風險值。需要設定兩個假定：一是某個特定比率的預期分值，二是指定概率翻倍的分數(shù)(PDO)[7，10]?；A得分和特征變量的各分檔的結(jié)果見表4。

由表4可以得出，企業(yè)基本信息、經(jīng)營狀況和知識產(chǎn)權這三個方面的11個特征數(shù)據(jù)，基本上覆蓋了高新技術企業(yè)認定需滿足的主要指標。

3 結(jié)果與建議

本文基于邏輯回歸算法提出高新技術企業(yè)資質(zhì)維護風險預警的特征篩選模型。為保留原數(shù)據(jù)上的信息，使用嵌入法進行特征選擇，鑒于數(shù)據(jù)的稀疏性，采用L1正則化范式。進一步使用IV值和WOE趨勢進行特征篩選，最終保留了11個特征變量輸入模型，ROC曲線結(jié)果表明模型有較高的預測價值。但是，本文的數(shù)據(jù)采集僅限于互聯(lián)網(wǎng)上的公開數(shù)據(jù)，受到數(shù)據(jù)公開程度的限制，那些對企業(yè)資格保持影響較大的因素，如企業(yè)財務情況等核心數(shù)據(jù)是無法獲取的，所以，本模型的應用有一定的局限性。

表4 高新技術企業(yè)資格維護風險預警評分卡模型

高新技術企業(yè)的競爭壓力越來越大，自身所面臨的風險相對較高，在運營過程中一定要重視資格管理，關注財務規(guī)范管理(稅務評級)，特別是企業(yè)年報、資質(zhì)證書、招投標和知識產(chǎn)權等方面的情況變化，加強內(nèi)控，及時補齊短板，避免因為某項指標不達標而失去資格，從而保持高新技術企業(yè)資格的穩(wěn)定性和連續(xù)性。