亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高新技術企業(yè)資格維護風險預警模型研究
        ——以河北省高新技術企業(yè)為例

        2022-07-04 12:08:48王云麗韓珍珍楊文煥
        河北省科學院學報 2022年3期
        關鍵詞:高新技術特征模型

        王云麗,韓珍珍,楊文煥,成 彬

        (河北省科學院應用數(shù)學研究所,河北省信息安全認證技術創(chuàng)新中心,河北 石家莊 050081)

        0 引言

        高新技術企業(yè)作為經(jīng)濟新常態(tài)下最重要的創(chuàng)新驅(qū)動主體,一直受到政府的重點扶持。我國高新技術企業(yè)資格認定工作從20世紀90年代初開始,經(jīng)認定的高新技術企業(yè),資格有效期為三年,在資格有效期內(nèi)可享受企業(yè)稅收優(yōu)惠及政府的多項政策優(yōu)惠。認定政策對處于成長期企業(yè)的實質(zhì)性創(chuàng)新有更強的額外激勵效應,國家的研發(fā)激勵和稅收激勵政策都能顯著促進企業(yè)自主創(chuàng)新。相關數(shù)據(jù)顯示,截止到2020年底,全國有效期內(nèi)高新技術企業(yè)有27.8萬家。隨著企業(yè)認定數(shù)量的增長,國家監(jiān)管趨于嚴格,科技、財政和稅務等部門每年都對其進行日常檢查和重點抽查,被取消資格的企業(yè)數(shù)量不斷增加。截止到2021年10月12日,因不符合相關政策要求而被取消資格的企業(yè)共588家。被取消資格后,稅務機關會要求企業(yè)補繳自認定年度起享受的稅收優(yōu)惠,相關部門也會對財政獎勵資金進行追繳[1],可見高新技術企業(yè)資格對本企業(yè)聲譽、核心競爭力和業(yè)績等有重要作用。因此,對高新技術企業(yè)資格維護的研究對其未來發(fā)展具有重要指導意義。

        目前,我國學者在高新技術企業(yè)資格預警模型研究方面有較多研究,王統(tǒng)一從審計角度闡述加強高新技術企業(yè)資格的維護與風險防范的措施[2];趙平從稅收角度闡述高新技術企業(yè)資格保持的關鍵點[3];胡意等構(gòu)建了高新技術企業(yè)運行發(fā)展預警模型,對湛江市部分高新技術企業(yè)未來的運行發(fā)展進行預測[4],但應用邏輯回歸預警模型的很少?;谇叭说睦碚撗芯颗c實證分析,本文參考高新技術企業(yè)認定的指標體系要求,以河北省高新技術企業(yè)為例,采集與高新技術企業(yè)經(jīng)營發(fā)展相關公開數(shù)據(jù),構(gòu)建邏輯回歸預警模型,預測企業(yè)在資格維護管理方面的潛在風險,提醒企業(yè)對風險項指標采取措施,防患于未然,并在提升高新技術企業(yè)自身資質(zhì)管理方面進行探索。

        1 模型設計

        邏輯回歸(Logistic Regression)是一種名為“回歸”的線性分類器,其本質(zhì)是由線性回歸變化而來,常用于二分類,是各類風險預警的常用模型,具備以下優(yōu)點:

        (1)邏輯回歸返回的分類結(jié)果不是固定的0,1,而是以小數(shù)形式呈現(xiàn)的類概率數(shù)字。在制作評分卡時,不僅可以返回高新技術企業(yè)是否會被取消資格的判斷,還能夠給出確定的“資格維護分數(shù)”。

        (2)邏輯回歸在線性數(shù)據(jù)的擬合和計算速度上非???,并且在小數(shù)據(jù)集上表現(xiàn)較好。由此可見,邏輯回歸在實際問題的解決上具有一定的優(yōu)勢[5]。

        1.1 模型的構(gòu)建

        線性回歸是機器學習中最簡單的回歸算法,其方程為:

        z=θ0+θ1x1+θ2x2+...+θnxn=θTX

        (1)

        式中θ為參數(shù)向量,X為特征向量。

        引入sigmoid函數(shù),即:

        (2)

        當自變量z取值大于0時,因變量g(z)取值大于0.5,自變量z趨近正無窮時,因變量g(z)趨近于1,表明該高新技術企業(yè)資格維護風險較大;而當z取值小于0時,g(z)取值小于0.5,z趨近負無窮時,g(z)趨近于0,表明該企業(yè)資格維護風險較小[6],所以它能夠?qū)⑷魏螌崝?shù)映射到(0,1)區(qū)間,使其可用于將任意值函數(shù)轉(zhuǎn)換為更適合二分類的函數(shù)。

        因此,邏輯回歸模型通常表示為:

        (3)

        邏輯回歸的損失函數(shù)由極大似然估計推導出來:

        (4)

        其中,θ表示求解出來的一組參數(shù),m為樣本個數(shù),xi是樣本i各個特征的取值,yi為樣本i上真實的標簽,yθ(xi)是樣本i上的基于參數(shù)θ計算出來的返回值。

        模型追求的是能夠最小化損失函數(shù)的參數(shù)組合,即求解最小值。追求最小損失函數(shù)以使模型在訓練集上表現(xiàn)最佳,但是在測試集上可能會導致模型過擬合,需要在模型的損失函數(shù)中加上一個正則化項,有時也稱為“懲罰項”,來緩解模型過擬合傾向。

        正則化常用的有L1和L2兩種選項,分別通過在損失函數(shù)后加上參數(shù)向量θ的L1范式和L2范式的倍數(shù)來實現(xiàn)[7]:

        (5)

        (6)

        其中J(θ)是損失函數(shù),C是用來控制正則化程度的超參數(shù),n是方程中特征的總數(shù),j代表每個參數(shù)。

        雖然L1正則化和L2正則化都可以控制過擬合,但它們的效果并不相同。當正則化強度逐漸增大(即C逐漸變小)時,參數(shù)θ的值將逐漸變小,但L1正則化會將參數(shù)壓縮為0,L2正則化只會使參數(shù)盡可能小,而不是0。L1正則化會使得某些系數(shù)不斷地向0收縮,當C值變化時,某些系數(shù)會被壓縮為0,達到解的稀疏性,從而實現(xiàn)變量選擇的目的。

        1.2 模型的評價

        為了辨別基于邏輯回歸的高新技術企業(yè)資格維護風險預警模型的分類效果,使用準確率和ROC曲線作為評估指標。根據(jù)樣本真實的類別和模型預測的類別組合形成4類,分別為真正TP例、假正FP例、真反TN例、假反FN例。很明顯,將這4類所包含的樣本相加就是完整的數(shù)據(jù)集,分類結(jié)果的混淆矩陣如表1。

        表1 混淆矩陣

        準確率:正確分類的樣本占總樣本的比率,即正確分類的概率,是判斷分類模型分類效果最直觀的評價指標,計算公式為:

        (7)

        ROC曲線是受試者工作特征曲線(Receive Operating characteristic Curve),以真陽率(TPR=TP/(TP+FN))為縱坐標,假陽率(FPR=FP/FP+TN)為橫坐標的感受性曲線。ROC曲線下方與坐標軸圍成的面積為AUC(Area Under ROC Curve),AUC值越大說明分類器性能越好。

        2 模型實現(xiàn)

        高新技術企業(yè)資質(zhì)維護預警模型基本流程分為5個步驟:數(shù)據(jù)獲取、數(shù)據(jù)預處理、分箱、模型構(gòu)建調(diào)優(yōu)及制作評分卡。

        2.1 數(shù)據(jù)獲取

        從“科技部火炬中心”網(wǎng)站獲取河北高新技術企業(yè)的名錄(2018年—2020年)共有9425家,根據(jù)企業(yè)名錄,采集互聯(lián)網(wǎng)上的公開數(shù)據(jù),獲取企業(yè)基本信息、經(jīng)營狀況、經(jīng)營風險、知識產(chǎn)權以及招投標信息等85個特征指標[8]。

        根據(jù)最近的河北省高新技術企業(yè)取消資格的公告文件,構(gòu)造“被取消資格證書又重新獲取”特征指標,并把該特征變量作為高新技術企業(yè)資格維護風險預警模型的標簽。

        2.2 數(shù)據(jù)預處理

        高新技術企業(yè)證書編號為GR201813000828的企業(yè),未能獲取其相關數(shù)據(jù),舍棄。

        2.2.1 招投標數(shù)據(jù)的去重處理

        以企業(yè)名稱作為關鍵詞進行檢索,招投標項目信息出現(xiàn)了大量的重復數(shù)據(jù)(不同網(wǎng)站公告同一項目信息),這些重復的數(shù)據(jù)需要去重處理。共采集了455,485條(2018/1/1—2021/8/1)招投標信息,涉及5505家高新技術企業(yè),經(jīng)過數(shù)據(jù)處理構(gòu)造特征變量:“招投標總數(shù)量”、“中標總額”和“中標項目數(shù)量”。

        2.2.2 樣本不平衡的處理

        2018年—2021年間,被取消資格后再次獲取高新技術企業(yè)資格的企業(yè)河北省共有9家,樣本個數(shù)為9424,其中標簽為1占0.0955%,標簽為0占99.9045%,可以看出,樣本嚴重不均衡。對于風險預警模型來說,真正想要被判別出來的是資格被取消過的高新技術企業(yè),而這部分企業(yè)非常少,樣本就不平衡。邏輯回歸模型一般采用上采樣(增加少數(shù)類的樣本)的方法來實現(xiàn)樣本平衡。不平衡處理后:標簽為1占49.81%,標簽為0占50.19%。

        2.2.3 訓練集和測試集

        樣本平衡后的數(shù)據(jù),劃分為70%訓練集和30%測試集。

        2.3 分箱

        2.3.1 特征選擇_嵌入法

        圖1 L1和L2范式模型準確率對比圖

        為盡量保留原數(shù)據(jù)上的信息,讓模型在降維后的數(shù)據(jù)上的擬合效果保持優(yōu)秀,因此不考慮訓練集測試集的問題,把所有的數(shù)據(jù)都放入模型進行降維。風險預警模型的核心目的是通過求解參數(shù)來探究特征與標簽之間的關系,所以要盡可能地保留特征的原貌,而PCA(Principal Component Analysis)和SVD(Singular Value Decomposition)的降維結(jié)果是不可解釋的,因此,本文采用嵌入法以特征選擇的方式進行降維。

        首先通過描述性統(tǒng)計對數(shù)據(jù)進行整體探索,結(jié)果如表2所示。通過描述性統(tǒng)計結(jié)果看,特征變量比較稀疏。

        使用嵌入法進行特征選擇。使用L1正則化進行特征選擇的結(jié)果如表2,而使用L2正則化項降維,模型效果較差,圖1是L1和L2正則化效果對比。

        2.3.2 特征篩選_IV值

        制作評分卡,就是對每個特征變量進行“分箱”。分箱的本質(zhì)是對連續(xù)變量進行離散化,以便將具有不同屬性的企業(yè)劃分為不同的類別(打上不同的分數(shù))。

        表2 特征變量(部分)描述性統(tǒng)計及嵌入法篩選

        分箱一般以3-5個為最佳。連續(xù)變量的離散化必然伴隨著信息的丟失,而箱子越少,信息的損失越大。為了衡量特征的信息量以及特征對預測函數(shù)的貢獻,定義了IV概念:

        其中N是某個特征上箱子的個數(shù),i代表每個箱子,good%是這個箱內(nèi)的好樣本(標簽為0)占整個特征中所有好樣本的比例,bad%是這個箱子里的壞樣本(標簽為1,被取消過資格的企業(yè))占整個特征中所有壞樣本的比例,而WOEi寫作為:

        WOE本質(zhì)就是好樣本比上壞樣本的比例的對數(shù),對一個箱子來說值越大,代表這個箱子里的好樣本越多[7,9]。

        2.3.3 卡方檢驗、合并箱體,畫IV曲線

        等頻分箱,每個特征分別劃分為20箱,統(tǒng)計每個箱子中0和1的數(shù)量,確保每箱必須包含兩類樣本。對相鄰的箱子進行卡方檢驗,合并卡方檢驗p值大的箱子,直到箱數(shù)小于設置的值為止,畫出IV曲線。

        2.3.4 最佳分箱、WOE值趨勢單調(diào)

        觀察IV值在不同箱數(shù)下的曲線變化,找出最合適的箱數(shù)。IV值下降比較迅速的轉(zhuǎn)折點對應的箱子,為最佳分箱個數(shù)。無法等頻分箱的特征變量,如“企業(yè)年報”,通過觀察然后手工分箱。從嵌入法降維后的24個特征里面選擇IV值大于0.05且WOE趨勢單調(diào)的11個特征,用來輸入模型,見表3。

        表3 特征選擇_IV值大小、WOE趨勢及最佳分箱個數(shù)

        “變更記錄次數(shù)”、“分支機構(gòu)數(shù)量”、“建筑資質(zhì)數(shù)量”、“新聞輿情條數(shù)”、“稅務評級次數(shù)”、“資質(zhì)證書數(shù)量”、“招投標總數(shù)量”、“中標項目數(shù)量”等8個特征變量的WOE趨勢單調(diào)。而“招聘信息發(fā)布次數(shù)”和“軟件著作權數(shù)量”的IV值曲線見圖2和圖3,WOE趨勢單調(diào)或只有一個轉(zhuǎn)折點。

        圖2 “招聘信息”IV曲線

        圖3 “軟件著作權”IV曲線

        2.4 模型構(gòu)建及調(diào)優(yōu)

        計算每個箱的WOE,將其替換到原始數(shù)據(jù)中,使用WOE數(shù)據(jù)進行建模。使用C值和迭代次數(shù)(梯度下降法)進行調(diào)參,C取0.4,迭代次數(shù)為20,調(diào)優(yōu)后模型的準確率:78.33%,ROC曲線:0.89,見圖4-圖6。

        圖4 C值學習曲線圖

        圖5 迭代次數(shù)學習曲線圖

        圖6 ROC曲線

        2.5 制作評分卡

        評分卡中的分數(shù),借鑒金融行業(yè)的信用風險評估計算公式:

        Score=A-B*log(odds)

        其中A與B是常數(shù),A叫做“補償”,B叫做“刻度”,log(odds)代表了一個企業(yè)被取消資質(zhì)又獲取的風險值。需要設定兩個假定:一是某個特定比率的預期分值,二是指定概率翻倍的分數(shù)(PDO)[7,10]?;A得分和特征變量的各分檔的結(jié)果見表4。

        由表4可以得出,企業(yè)基本信息、經(jīng)營狀況和知識產(chǎn)權這三個方面的11個特征數(shù)據(jù),基本上覆蓋了高新技術企業(yè)認定需滿足的主要指標。

        3 結(jié)果與建議

        本文基于邏輯回歸算法提出高新技術企業(yè)資質(zhì)維護風險預警的特征篩選模型。為保留原數(shù)據(jù)上的信息,使用嵌入法進行特征選擇,鑒于數(shù)據(jù)的稀疏性,采用L1正則化范式。進一步使用IV值和WOE趨勢進行特征篩選,最終保留了11個特征變量輸入模型,ROC曲線結(jié)果表明模型有較高的預測價值。但是,本文的數(shù)據(jù)采集僅限于互聯(lián)網(wǎng)上的公開數(shù)據(jù),受到數(shù)據(jù)公開程度的限制,那些對企業(yè)資格保持影響較大的因素,如企業(yè)財務情況等核心數(shù)據(jù)是無法獲取的,所以,本模型的應用有一定的局限性。

        表4 高新技術企業(yè)資格維護風險預警評分卡模型

        高新技術企業(yè)的競爭壓力越來越大,自身所面臨的風險相對較高,在運營過程中一定要重視資格管理,關注財務規(guī)范管理(稅務評級),特別是企業(yè)年報、資質(zhì)證書、招投標和知識產(chǎn)權等方面的情況變化,加強內(nèi)控,及時補齊短板,避免因為某項指標不達標而失去資格,從而保持高新技術企業(yè)資格的穩(wěn)定性和連續(xù)性。

        猜你喜歡
        高新技術特征模型
        一半模型
        新昌高新技術產(chǎn)業(yè)園區(qū)
        新昌高新技術產(chǎn)業(yè)園區(qū)
        重要模型『一線三等角』
        發(fā)展前景廣闊的淮安高新技術開發(fā)區(qū)
        華人時刊(2020年13期)2020-09-25 08:21:50
        重尾非線性自回歸模型自加權M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        3D打印中的模型分割與打包
        av黄片免费在线观看| 色欲AV成人无码精品无码| 亚洲线精品一区二区三区八戒| 99re国产电影精品| 日本五十路熟女在线视频| 亚洲国产精品av麻豆一区| 国产亚洲精品精品综合伦理| 加勒比av在线一区二区| 国产激情一区二区三区在线 | 99久久久无码国产精品9| 中文字幕亚洲无线码高清| 日本肥老熟妇在线观看 | 开心五月婷婷激情综合网| 国产午夜精品av一区二区麻豆| 熟女精品视频一区二区三区| 国产精品高潮呻吟av久久无吗| 亚洲国产精品悠悠久久琪琪| 亚洲国产综合精品一区最新| 免费无码专区毛片高潮喷水 | 玩弄人妻奶水无码AV在线| 成人综合激情自拍视频在线观看| 久久精品女同亚洲女同 | 日本妇女高清一区二区三区| 日韩av精品视频在线观看| 久久天天躁狠狠躁夜夜av| 亚洲中文字幕无码mv| 欧美精品AⅤ在线视频| 视频精品亚洲一区二区| 最新国产熟女资源自拍| 成片免费观看视频大全| 亚洲人成网站在线播放观看| 亚洲日韩精品AⅤ片无码富二代| 国产一区二区白浆在线观看| 熟女一区二区三区在线观看| 国产香蕉国产精品偷在线| 亚洲欧洲日产国码无码久久99| 真人在线射美女视频在线观看| 国产午夜精品av一区二区三| 丰满少妇人妻无码| 樱桃视频影视在线观看免费| 国产精品欧美久久久久老妞|