李小青,何瑋萱,李子彪,周 建
(1.河北工業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院,天津 300401;2.南開大學(xué)商學(xué)院,天津 300071)
數(shù)字化創(chuàng)新是由云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等數(shù)字技術(shù)驅(qū)動所帶來的數(shù)字化產(chǎn)品、流程和商業(yè)模式創(chuàng)新[1]?!吨袊鴶?shù)字經(jīng)濟(jì)發(fā)展白皮書(2021 年)》顯示,2020 年我國數(shù)字經(jīng)濟(jì)總體規(guī)模達(dá)到39.2 萬億元,占全國生產(chǎn)總值(GDP)的比重高達(dá)38.6%,其中京津冀地區(qū)數(shù)字經(jīng)濟(jì)規(guī)模占比超過10%[2],在我國數(shù)字經(jīng)濟(jì)發(fā)展布局中占據(jù)重要地位。制造業(yè)是數(shù)字經(jīng)濟(jì)發(fā)展的主戰(zhàn)場,提升制造企業(yè)數(shù)字化創(chuàng)新能力有助于加速產(chǎn)業(yè)數(shù)字化進(jìn)程、重塑全球數(shù)字化競爭格局,因此科學(xué)合理地對制造企業(yè)數(shù)字化創(chuàng)新能力進(jìn)行評價,對于企業(yè)和政府準(zhǔn)確識別數(shù)字化創(chuàng)新能力提升的影響因素、實(shí)施數(shù)字化創(chuàng)新戰(zhàn)略具有重要意義。
模型方法的選擇是科學(xué)評價數(shù)字化創(chuàng)新能力的關(guān)鍵。由于數(shù)字化創(chuàng)新超越了傳統(tǒng)創(chuàng)新的邊界,Nambisan 等[3]、余江等[4]建議為數(shù)字化創(chuàng)新探索新的理論邏輯和研究方法,如使用大數(shù)據(jù)、機(jī)器算法、演化本體論等;Suseno 等[5]通過社會媒體分析(SMA)探討了數(shù)字化創(chuàng)新各參與主體的價值創(chuàng)造方式;Chae[6]基于復(fù)雜網(wǎng)絡(luò)理論和大數(shù)據(jù)構(gòu)建了研究數(shù)字化創(chuàng)新生態(tài)系統(tǒng)演化的一般框架;王核成等[7]以文獻(xiàn)研究和專家評審法為基礎(chǔ),開發(fā)了一種評估企業(yè)數(shù)字化綜合能力的數(shù)字化成熟度模型(DMM)??傮w上看,已有相關(guān)研究發(fā)展了數(shù)字化創(chuàng)新的相關(guān)理論與模型方法,但聚焦于評價數(shù)字化創(chuàng)新能力的量化研究相對匱乏,然而數(shù)字化創(chuàng)新具有系統(tǒng)性、演化性等特征,單一方法難以全面刻畫從影響因素到創(chuàng)新產(chǎn)出的全過程。此外在數(shù)字化能力評價相關(guān)研究中,如楊德明等[8]在文本挖掘的基礎(chǔ)上采用專家打分法評價企業(yè)互聯(lián)網(wǎng)化的程度,陳疇鏞等[9]應(yīng)用層次分析法評價了制造企業(yè)的數(shù)字化轉(zhuǎn)型能力,趙宸宇[10]采用熵值法構(gòu)造出制造業(yè)上市公司數(shù)字化發(fā)展總指數(shù),但大多存在評價結(jié)果的可量化性與精確度無法兼顧的局限,無法同時實(shí)現(xiàn)對分指標(biāo)特性與目標(biāo)層得分的綜合考察。有研究發(fā)現(xiàn),將隨機(jī)森林算法和突變級數(shù)法結(jié)合使用,能夠根據(jù)評價指標(biāo)的重要程度進(jìn)行客觀排序[11],克服傳統(tǒng)多目標(biāo)綜合評價法主觀性較強(qiáng)的缺陷[12],同時具備訓(xùn)練速度快、準(zhǔn)確率高、可定量分析的優(yōu)點(diǎn)[13]。
2019 年是世界互聯(lián)網(wǎng)誕生50 周年,也是我國全功能接入互聯(lián)網(wǎng)25 周年。根據(jù)美國企業(yè)Altimeter發(fā)布的《全球數(shù)字化轉(zhuǎn)型現(xiàn)狀研究報告》(2018—2019 版),2019 年全球企業(yè)相關(guān)數(shù)字化預(yù)算直線攀升,利益相關(guān)方所關(guān)注的顛覆性技術(shù)數(shù)量急劇增加,數(shù)字化預(yù)算大于等于5 000 萬美元的受訪公司占比從2017 年的2%上升到15%[14],成為提升企業(yè)數(shù)字化創(chuàng)新能力的關(guān)鍵轉(zhuǎn)折點(diǎn)。作為互聯(lián)網(wǎng)技術(shù)的演進(jìn)升級,數(shù)字化創(chuàng)新?lián)碛袕?qiáng)勁的發(fā)展動能和廣闊的發(fā)展空間,同時也面臨服務(wù)實(shí)體企業(yè)的落地應(yīng)用問題。為突破數(shù)字技術(shù)應(yīng)用難關(guān),探索如何提升企業(yè)數(shù)字化創(chuàng)新能力,本研究將基于綜合考慮微觀層面企業(yè)特征與宏觀層面區(qū)域行業(yè)環(huán)境的視角,針對企業(yè)數(shù)字化創(chuàng)新實(shí)踐構(gòu)建數(shù)字化創(chuàng)新能力評價指標(biāo)體系,并運(yùn)用隨機(jī)森林算法和突變級數(shù)法識別數(shù)字化創(chuàng)新能力影響因素。
早期Kallinikos 等[15]對數(shù)字化創(chuàng)新的研究聚焦考察信息技術(shù)在企業(yè)知識管理系統(tǒng)中的吸收和應(yīng)用,后來如Ltttinen 等[16]學(xué)者開始關(guān)注數(shù)字產(chǎn)品本身,包括新興的數(shù)字技術(shù)和數(shù)字基礎(chǔ)設(shè)施,以創(chuàng)新能力研究為基礎(chǔ),針對制造企業(yè)數(shù)字化創(chuàng)新能力的研究日益豐富,如陳疇鏞等[9]認(rèn)為加大數(shù)字化技術(shù)研發(fā)投入、加強(qiáng)數(shù)字化人才隊(duì)伍建設(shè)是影響企業(yè)數(shù)字化轉(zhuǎn)型的關(guān)鍵;池毛毛等[17]從數(shù)字化賦能視角發(fā)現(xiàn),提高研發(fā)利用能力和探索能力對中小制造企業(yè)的開發(fā)創(chuàng)新績效具有積極作用;Ferreira 等[18]研究表明,創(chuàng)業(yè)者和高管團(tuán)隊(duì)特征影響企業(yè)對數(shù)字化流程的采用,進(jìn)而影響企業(yè)競爭優(yōu)勢。已有研究從不同側(cè)面證實(shí)人力資本、R&D 投入、區(qū)域環(huán)境、政府支持等是影響企業(yè)數(shù)字化創(chuàng)新的重要條件,為本研究構(gòu)建制造業(yè)數(shù)字化創(chuàng)新能力評價指標(biāo)體系奠定了重要理論基礎(chǔ)。由于影響數(shù)字化創(chuàng)新的因素較為繁雜,且現(xiàn)有創(chuàng)新能力評價指標(biāo)體系較為寬泛,對數(shù)字化創(chuàng)新評價的針對性不足,因此,借鑒陳疇鏞等[9]、池毛毛等[17]關(guān)于制造企業(yè)數(shù)字化轉(zhuǎn)型能力評價的思想,同時結(jié)合數(shù)字化創(chuàng)新的特征以及制造企業(yè)數(shù)字化創(chuàng)新實(shí)踐,本研究從產(chǎn)出能力和投入能力兩方面對數(shù)字化創(chuàng)新能力進(jìn)行測度,遵循科學(xué)性、重要性、可運(yùn)算性、簡約性的原則,結(jié)合隨機(jī)森林算法與突變級數(shù)法的特點(diǎn)構(gòu)建數(shù)字化創(chuàng)新能力評價指標(biāo)體系。
數(shù)字化創(chuàng)新能力評價指標(biāo)體系構(gòu)建的指標(biāo)維度和具體指標(biāo)情況如下:
一是數(shù)字化創(chuàng)新產(chǎn)出能力維度方面。數(shù)字化創(chuàng)新產(chǎn)出能力指企業(yè)綜合集成各類資源所取得的最終研發(fā)成果,是構(gòu)成企業(yè)數(shù)字化創(chuàng)新能力的關(guān)鍵要素。由于專利是企業(yè)創(chuàng)新產(chǎn)出的直觀體現(xiàn),因此借鑒李小青等[19]、蔡紹洪等[20]對技術(shù)創(chuàng)新的測度方法,用數(shù)字化創(chuàng)新專利數(shù)量衡量數(shù)字化創(chuàng)新產(chǎn)出能力。數(shù)字化創(chuàng)新專利是指企業(yè)申請的與人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)、云計(jì)算等數(shù)字化技術(shù)相關(guān)的專利。同時考慮到制造業(yè)涵蓋行業(yè)眾多,且行業(yè)性質(zhì)有差異,各類企業(yè)適宜開展的創(chuàng)新活動項(xiàng)目、相應(yīng)能帶來經(jīng)濟(jì)效益的專利類型各有不同,因此借鑒陳德球等[21]的研究,在初始設(shè)計(jì)時將數(shù)字化創(chuàng)新專利細(xì)分為發(fā)明專利、實(shí)用新型專利與外觀設(shè)計(jì)專利3 種類型。其中發(fā)明專利的原創(chuàng)性標(biāo)準(zhǔn)最高;由于外觀設(shè)計(jì)專利指對形狀、圖案等進(jìn)行保護(hù),與數(shù)字化創(chuàng)新的關(guān)聯(lián)度較低,因而在構(gòu)建指標(biāo)體系時予以剔除。
二是數(shù)字化創(chuàng)新投入能力維度。主要包括:
(1)數(shù)字化創(chuàng)新人才儲備。根據(jù)知識基礎(chǔ)觀和人力資本理論,人力資本是企業(yè)獨(dú)特的異質(zhì)性資源,能為企業(yè)促進(jìn)數(shù)字化創(chuàng)新提供必要的知識基礎(chǔ)[9],因此吸納更多研發(fā)能力強(qiáng)、綜合素質(zhì)高的人才是企業(yè)獲取先進(jìn)知識與技術(shù)的途徑,可有效推動企業(yè)數(shù)字化創(chuàng)新能力的提升。數(shù)字化創(chuàng)新人才儲備包括研發(fā)人員數(shù)量占比、本科以上學(xué)歷員工占比與數(shù)字背景高管占比3 個指標(biāo)。其中,研發(fā)人員數(shù)量占比是指從事研究、技術(shù)及輔助工作的員工人數(shù)之和與職工總?cè)藬?shù)的比值,該指標(biāo)是企業(yè)對數(shù)字化創(chuàng)新活動人力資本投入強(qiáng)度的反映;本科以上學(xué)歷員工占比是指具有本科及以上學(xué)歷的員工人數(shù)與職工總?cè)藬?shù)的比值,該指標(biāo)是員工整體知識水平高低的衡量標(biāo)準(zhǔn);數(shù)字背景高管占比是指高管團(tuán)隊(duì)中,所學(xué)專業(yè)在教育部公布的數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)、機(jī)器人工程、物聯(lián)網(wǎng)工程等新工科研究與實(shí)踐項(xiàng)目列表中的高管人員所占比例。根據(jù)Hambrick 等[22]的高階梯隊(duì)理論,高管成員的職能背景是影響創(chuàng)新產(chǎn)出的重要因素。與具有文科、商科背景的高管人員相比,具有數(shù)字背景的高管對人工智能、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等數(shù)字化技術(shù)更加敏感,能夠快速捕捉外部環(huán)境中蘊(yùn)藏的數(shù)字化創(chuàng)新機(jī)會,加速企業(yè)數(shù)字化創(chuàng)新產(chǎn)出,促進(jìn)企業(yè)數(shù)字化創(chuàng)新能力的提升。
(2)數(shù)字化創(chuàng)新資金獲取。充足穩(wěn)定的研發(fā)資金投入是持續(xù)深度推進(jìn)科技研究從而攻克核心技術(shù)的必要條件[23],是順利開展數(shù)字化創(chuàng)新活動的前提。數(shù)字化創(chuàng)新資金獲取包括企業(yè)內(nèi)部投入與外部政府支持兩方面,涵蓋企業(yè)探索性研發(fā)費(fèi)用占營業(yè)收入比例、企業(yè)利用性研發(fā)投入占總資產(chǎn)比例、政府撥付有關(guān)數(shù)字化金額占企業(yè)總資產(chǎn)比例3個指標(biāo)。其中,企業(yè)探索性研發(fā)費(fèi)用占營業(yè)收入比例衡量企業(yè)將多少主營業(yè)務(wù)收入用于探索性研究,這一指標(biāo)突出了企業(yè)對未來市場和顧客需求的探索,是用于認(rèn)定高新技術(shù)企業(yè)的關(guān)鍵指標(biāo);企業(yè)利用性研發(fā)投入占總資產(chǎn)比例指資本化的、能計(jì)入無形資產(chǎn)成本的開發(fā)支出與企業(yè)總資產(chǎn)之比,反映企業(yè)總資產(chǎn)中利用性研發(fā)成果所占比例,體現(xiàn)了企業(yè)對研發(fā)活動的資金投入力度,是企業(yè)創(chuàng)新導(dǎo)向強(qiáng)弱的主要標(biāo)志;政府撥付有關(guān)數(shù)字化資金占企業(yè)總資產(chǎn)比例能夠反映企業(yè)在數(shù)字化過程中得到政府支持力度的大小,是區(qū)域數(shù)字化創(chuàng)新政策的反映,政府針對企業(yè)數(shù)字化創(chuàng)新項(xiàng)目發(fā)放補(bǔ)貼能夠?qū)?shù)字化創(chuàng)新培育起到必要的孵化作用,引導(dǎo)企業(yè)進(jìn)行數(shù)字化創(chuàng)新活動,產(chǎn)生政策紅利效應(yīng)與擠入效應(yīng)。
(3)數(shù)字化創(chuàng)新資源整合。資源整合需要企業(yè)從外部環(huán)境中識別和汲取各種資源,并在內(nèi)部合理配置使用以形成新的核心資源體系[24]。數(shù)字化創(chuàng)新資源整合與特定區(qū)域、特定行業(yè)內(nèi)人力資本與創(chuàng)新資金的集聚程度密切相關(guān),包括區(qū)域行業(yè)R&D 人員全時當(dāng)量、區(qū)域行業(yè)R&D 經(jīng)費(fèi)內(nèi)部支出兩方面,通過結(jié)合各企業(yè)所處的不同區(qū)域、所從事的不同行業(yè)測度其研發(fā)環(huán)境的差異,刻畫區(qū)域行業(yè)研發(fā)環(huán)境對企業(yè)數(shù)字化創(chuàng)新的影響程度。其中,區(qū)域行業(yè)R&D人員全時當(dāng)量指企業(yè)所在區(qū)域行業(yè)每年R&D 人員工作時長,等于全時人員與非全時人員折算的工作量之和,反映區(qū)域行業(yè)科技人才儲備及科技人力投入水平;區(qū)域行業(yè)R&D 經(jīng)費(fèi)內(nèi)部支出指企業(yè)為開展R&D 活動實(shí)際用于本區(qū)域本行業(yè)內(nèi)的全部支出,反映區(qū)域行業(yè)的科技經(jīng)費(fèi)投入水平。較大的科技經(jīng)費(fèi)投入有助于推動行業(yè)數(shù)字化創(chuàng)新發(fā)展,推進(jìn)企業(yè)間競爭合作與信息交流。
(4)數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ)。良好的數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ)決定了企業(yè)的可持續(xù)發(fā)展能力[12],是企業(yè)進(jìn)行數(shù)字化創(chuàng)新的基石,包括盈利水平與發(fā)展能力兩個方面,盈利能力用總資產(chǎn)報酬率、凈資產(chǎn)收益率兩個指標(biāo)來衡量,成長能力用總資產(chǎn)增長率、凈利潤增長率兩個指標(biāo)來衡量。其中,總資產(chǎn)報酬率指報告期息稅前利潤與資產(chǎn)平均總額的比值,凈資產(chǎn)收益率是指報告期剔除非經(jīng)常損益的凈利潤與報告期平均股東權(quán)益的比值,這兩個指標(biāo)分別反映企業(yè)全部資產(chǎn)和凈資產(chǎn)的獲利能力,是企業(yè)進(jìn)行數(shù)字化創(chuàng)新的重要物質(zhì)基礎(chǔ);總資產(chǎn)增長率與凈利潤增長率分別表示企業(yè)總資產(chǎn)、凈利潤相對于上年的增長比例,總資產(chǎn)增長率反映企業(yè)規(guī)模的擴(kuò)張速度,凈利潤增長率反映企業(yè)盈利能力的提升速度,這兩個指標(biāo)預(yù)示企業(yè)發(fā)展前景,是企業(yè)進(jìn)行數(shù)字化創(chuàng)新的動力源泉。
隨機(jī)森林算法是Breiman[25]于2001 年首次提出的一種機(jī)器學(xué)習(xí)算法,屬于集成學(xué)習(xí)(ensemble learning)中的引導(dǎo)聚集(bagging)算法,可以解釋若干自變量X對因變量Y的作用。在隨機(jī)森林中,“隨機(jī)”體現(xiàn)在數(shù)據(jù)集上樣本選取與特征選取的隨機(jī)性;“森林”指通過設(shè)置足夠數(shù)量的決策樹或回歸樹(CART)進(jìn)行集成學(xué)習(xí),并在樹上選取更好的特征進(jìn)行分枝,使各棵樹成長得更加優(yōu)秀,以取得高準(zhǔn)確率的效果。隨機(jī)森林由隨機(jī)選取的部分預(yù)測因子的子集構(gòu)成,可以有效克服維度困擾、變量共線性及測量變量的隨機(jī)誤差或方差干擾等問題,適用于解決先驗(yàn)知識不清、多維度約束條件、無規(guī)則和散點(diǎn)數(shù)據(jù)的應(yīng)用問題[26]。隨機(jī)森林算法沒有對數(shù)據(jù)做任何假定,從而脫離了“假定分布—明確的數(shù)學(xué)模型擬合—假設(shè)檢驗(yàn)”的經(jīng)典統(tǒng)計(jì)過程[27];在分類和回歸上都表現(xiàn)出優(yōu)良的性能[10],具有簡單易行、訓(xùn)練速度快、泛化能力強(qiáng)的特點(diǎn)。采用隨機(jī)森林算法能夠?qū)?shù)字化創(chuàng)新特征屬性進(jìn)客觀評級,克服指標(biāo)排序主觀性較強(qiáng)的問題。
突變級數(shù)法則是基于突變理論與模糊數(shù)學(xué)原理,利用突變模型開發(fā)出來的解決多準(zhǔn)則決策問題的綜合性評價方法[28]。突變級數(shù)法首先對評價目標(biāo)進(jìn)行多層次矛盾分解,在此基礎(chǔ)上把同一層次的評價指標(biāo)根據(jù)其重要性大小從左到右排序,然后根據(jù)突變模型產(chǎn)生突變模糊隸屬函數(shù),用歸一公式進(jìn)行綜合量化運(yùn)算得到總隸屬函數(shù),最后對目標(biāo)層進(jìn)行評價分析[12]。
將隨機(jī)森林算法和突變級數(shù)法結(jié)合使用,既體現(xiàn)了突變級數(shù)法層次分析的系統(tǒng)思路,使評價指標(biāo)的權(quán)值在定性的基礎(chǔ)上得到量化,又保留了隨機(jī)森林算法對指標(biāo)數(shù)據(jù)本身特征的關(guān)注,減少突變級數(shù)法在指標(biāo)相對重要性排序問題上的隨意性和主觀性。該集成方法能夠客觀地處理數(shù)據(jù)集,適用于對數(shù)字化創(chuàng)新能力這類復(fù)雜系統(tǒng)的綜合評價,并使得評價更加科學(xué)合理。因此,本研究充分結(jié)合隨機(jī)森林算法和突變級數(shù)法的優(yōu)點(diǎn),首先,根據(jù)基于對數(shù)字化創(chuàng)新能力的解讀和相關(guān)文獻(xiàn)建立相應(yīng)的評價指標(biāo)體系,并以數(shù)字化創(chuàng)新專利產(chǎn)出為判斷標(biāo)準(zhǔn),采用隨機(jī)森林算法對投入能力指標(biāo)的重要性進(jìn)行排序,降低主觀判斷可能帶來的偏誤;接著利用突變級數(shù)法建立突變模型,用以確定企業(yè)數(shù)字化創(chuàng)新能力水平及排名,保障評價模型及結(jié)果的科學(xué)性與合理性。
3.2.1 基于隨機(jī)森林算法確定指標(biāo)排序
采用隨機(jī)森林算法對數(shù)字化創(chuàng)新投入能力特征屬性進(jìn)行評級。根據(jù)數(shù)字化創(chuàng)新投入能力中若干自變量判別每個觀測值的類型歸屬,本質(zhì)上是一個分類問題,對于分類問題,一個測試樣本會送到每一棵決策樹中進(jìn)行預(yù)測、投票,得票最多的類為最終的分類結(jié)果,模型的誤差為分類錯誤率,因此在分類模型結(jié)果中借鑒熊景華等[13]的研究,用平均基尼系數(shù)下降指標(biāo)評估數(shù)字化創(chuàng)新投入能力。鑒于考察若干因素對數(shù)字化創(chuàng)新能力的影響也可以被看作回歸問題,為對分類結(jié)果進(jìn)行補(bǔ)充說明,本研究嘗試用回歸思路得出評估結(jié)果,并與分類所得的排序結(jié)果進(jìn)行對照。對于回歸問題,一個測試樣本在每棵回歸樹上預(yù)測后,隨機(jī)森林的預(yù)測結(jié)果是所有回歸樹輸出的均值,因此在回歸模型結(jié)果中用平均誤差下降指標(biāo)對特征重要性進(jìn)行評價。綜上,采用分類與回歸樹作為隨機(jī)森林中的基學(xué)習(xí)器。由k個基學(xué)習(xí)器集合而成的隨機(jī)森林模型表示如下:
式(1)中:X為輸入特征集;hk(X)為第k個基學(xué)習(xí)器,每個基學(xué)習(xí)器就是一棵決策樹或一棵回歸樹。
基于隨機(jī)森林算法確定數(shù)字化創(chuàng)新投入能力評價指標(biāo)排序的模型構(gòu)建流程如下:
(1)準(zhǔn)備原始樣本集并構(gòu)建隨機(jī)子樣本集。首先,基于數(shù)字化創(chuàng)新評價指標(biāo)體系中標(biāo)準(zhǔn)化后的指標(biāo)值構(gòu)造決策矩陣,得到原始樣本集D;然后,采用自助抽樣法(Bootstrap)隨機(jī)有放回地從D中抽取k個子樣本集,若輸入樣本為N個,那么每個樣本集中采樣的樣本數(shù)量也為N。k為隨機(jī)森林模型中樹的個數(shù),本研究中設(shè)定k=500。
(2)基于CART 算法構(gòu)建數(shù)字化創(chuàng)新決策樹或回歸樹。在分類問題上使用基尼系數(shù)(Gini index)作為特征分裂的選擇標(biāo)準(zhǔn),基尼系數(shù)越小則決策樹中節(jié)點(diǎn)分裂純度越高,即分類效果越好,因此選取使當(dāng)前節(jié)點(diǎn)分裂時基尼系數(shù)最小的特征作為分類特征?;嵯禂?shù)計(jì)算公式如下:
在回歸問題上使用均方誤差(MSE)作為特征值劃分點(diǎn)的選擇標(biāo)準(zhǔn)。MSE 測度了父節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間的均方誤差的差異,MSE 越小則誤差越小,代表分枝質(zhì)量及回歸質(zhì)量越高,因此在所有特征中選取使當(dāng)前節(jié)點(diǎn)分枝后MSE 最小的特征進(jìn)行分裂。MSE 計(jì)算公式如下:
式(3)中:N為樣本總數(shù);i為第i個樣本;fi為回歸模型預(yù)測的數(shù)值;yi為第i個樣本的實(shí)際輸出值。
(3)從M個輸入變量中選取m個進(jìn)行特征采樣。特征采樣也稱“列采樣”,依據(jù)計(jì)算m取值的通用方法,在CART 決策樹上采用在CART 回歸樹上采用的近似原則設(shè)定候選特征子集的取值。由于所構(gòu)建的評價體系中輸入變量個數(shù)M為12,因此在分類上取在回歸上取建立模型。
(4)對樣本進(jìn)行訓(xùn)練并評估結(jié)果。將生成的k棵決策樹或回歸樹分別組成隨機(jī)森林。在分類模型中,根據(jù)樹分類器投票的多數(shù)原則決定分類結(jié)果;在回歸模型中,按生成所有樹的預(yù)測值的均值決定最終回歸結(jié)果。在兩種模型中分別計(jì)算每個輸入變量的平均基尼系數(shù)下降值與平均誤差下降值并按降序排列,對比分析這兩個序列,最終實(shí)現(xiàn)對數(shù)字化創(chuàng)新投入能力指標(biāo)重要性的評價。
3.2.2 構(gòu)建基于突變級數(shù)法的評價模型
在隨機(jī)森林模型排序結(jié)果的基礎(chǔ)上,基于突變級數(shù)法建立突變評價模型,具體步驟如下:
(1)對樣本數(shù)據(jù)進(jìn)行無量綱化處理。公式如下:
(2)根據(jù)評價指標(biāo)體系中的控制變量,即每個層次的指標(biāo)數(shù)量來確定評價指標(biāo)體系中每個層次所屬的突變系統(tǒng)類型。常見的突變系統(tǒng)模型類型有3類,即尖點(diǎn)突變系統(tǒng)模型、燕尾突變系統(tǒng)模型和蝴蝶突變系統(tǒng)模型,模型形式依次如下:
(4)用歸一公式進(jìn)行綜合評價。若同一層次變量之間能夠相互彌補(bǔ),呈現(xiàn)強(qiáng)相關(guān)關(guān)系,則為互補(bǔ)系統(tǒng),取控制變量x 的平均數(shù);若變量之間無法相互補(bǔ)足,呈弱相關(guān)關(guān)系,則按非互補(bǔ)準(zhǔn)則,對控制變量x按“大中取小”的原則取值。最后逐級遞歸,求出指標(biāo)體系的總突變隸屬函數(shù)值進(jìn)行評價。
本研究以2019 年京津冀制造業(yè)上市公司作為實(shí)證對象,在剔除帶有嚴(yán)重缺失值、異常值的記錄后整理得到169 家企業(yè)的完整信息。數(shù)字化創(chuàng)新專利數(shù)據(jù)通過佰騰專利網(wǎng)搜集,以“智能”“區(qū)塊鏈”“大數(shù)據(jù)”“機(jī)器學(xué)習(xí)”“云計(jì)算”“云端”“互聯(lián)網(wǎng)”“物聯(lián)網(wǎng)”“信息化”“數(shù)字化”“遠(yuǎn)程”“機(jī)器人”“人臉識別”“虛擬”作為關(guān)鍵詞,運(yùn)用PyCharm 軟件爬取樣本企業(yè)與數(shù)字化創(chuàng)新相關(guān)的專利數(shù)量。數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合、數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ)等數(shù)據(jù)來源于國泰安數(shù)據(jù)庫、巨潮資訊網(wǎng)以及京津冀三地統(tǒng)計(jì)局官網(wǎng)。
4.2.1 采用隨機(jī)森林算法對指標(biāo)重要性排序
基于隨機(jī)森林算法的數(shù)字化創(chuàng)新評估模型應(yīng)用算例主要在MATLAB 語言環(huán)境下完成。按照企業(yè)數(shù)字化創(chuàng)新實(shí)踐,將12 個數(shù)字化創(chuàng)新投入能力指標(biāo)作為輸入變量。在輸出變量上,依據(jù)數(shù)字化創(chuàng)新專利數(shù)量中發(fā)明專利或?qū)嵱眯滦椭惺欠裼幸豁?xiàng)處于均值之上,將樣本企業(yè)標(biāo)記為高數(shù)字化創(chuàng)新和非高數(shù)字化創(chuàng)新兩類,最后得到高數(shù)字化創(chuàng)新能力企業(yè)39家、非高數(shù)字化創(chuàng)新能力企業(yè)130 家,以此為基礎(chǔ)建立二分類評估模型。為避免由于這兩類企業(yè)分布不均衡出現(xiàn)模型過擬合現(xiàn)象,提升評估數(shù)字化創(chuàng)新投入能力指標(biāo)的準(zhǔn)確率,將39 個高數(shù)字化創(chuàng)新能力企業(yè)重復(fù)3 次輸入模型,共獲得247 個樣本,其中包括117 家高數(shù)字化創(chuàng)新能力企業(yè)樣本和130 家非高數(shù)字化創(chuàng)新能力企業(yè)樣本,以使兩類樣本分布基本均衡。
在分類模型與回歸模型中分別輸入經(jīng)過預(yù)處理的 247 個樣本,隨機(jī)選取75%的樣本作為訓(xùn)練集,25%的樣本作為測試集,用測試集來檢驗(yàn)?zāi)P陀?xùn)練的預(yù)測效果;在預(yù)測效果良好的基礎(chǔ)上,按平均基尼系數(shù)下降指標(biāo)得到評價結(jié)果,最后在回歸模型中依據(jù)平均誤差下降得到排序結(jié)果,并與分類模型結(jié)果進(jìn)行對比。在隨機(jī)森林分類模型中,平均基尼系數(shù)下降指標(biāo)通過基尼系數(shù)計(jì)算每個特征屬性對決策樹節(jié)點(diǎn)上觀測值異質(zhì)性的影響,得到節(jié)點(diǎn)分裂前后純度的平均下降值,該值越大表示該特征屬性的重要性越大;同時,在回歸模型中計(jì)算表示重要性特征的平均誤差下降指標(biāo),平均誤差下降值越大說明該特征屬性的重要性越大。樣本企業(yè)數(shù)字化創(chuàng)新投入能力所含特征屬性的重要性程度大小分別按上述兩個指標(biāo)排列,具體數(shù)值如表1 所示。
表1 樣本企業(yè)數(shù)字化創(chuàng)新投入能力所含特征屬性重要性分析結(jié)果
為了清晰呈現(xiàn)數(shù)字化創(chuàng)新投入能力各指標(biāo)值分布情況,繪制其重要性程度排序的散點(diǎn)圖,如圖1所示。綜合各三級指標(biāo)在圖1 所示兩個序列中的分布情況,可得對應(yīng)二級指標(biāo)的重要性排序,由大到小排列為數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合與數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ);另外,鑒于數(shù)字化創(chuàng)新產(chǎn)出是數(shù)字化創(chuàng)新投入能力中各指標(biāo)順序的評判標(biāo)準(zhǔn),且是數(shù)字化創(chuàng)新活動最終形成的重要成果,因而在一級指標(biāo)層面將數(shù)字化創(chuàng)新產(chǎn)出的重要性置于投入能力之前;最后,由于數(shù)字化創(chuàng)新專利產(chǎn)出中數(shù)字化創(chuàng)新發(fā)明專利的創(chuàng)造性水平與技術(shù)標(biāo)準(zhǔn)含量遠(yuǎn)遠(yuǎn)高于實(shí)用新型,因此其重要性排名在三級指標(biāo)中居于首位。至此,各層次指標(biāo)的重要性排序得以確定,為制造企業(yè)準(zhǔn)確識別數(shù)字化創(chuàng)新能力提升的驅(qū)動因素提供決策參考。
圖1 基于隨機(jī)森林模型的樣本企業(yè)數(shù)字化創(chuàng)新投入能力指標(biāo)重要性排序
4.2.2 采用突變級數(shù)法對數(shù)字化創(chuàng)新能力進(jìn)行綜合評價
遵循突變級數(shù)法的模型構(gòu)建原則,把樣本企業(yè)各變量按照隨機(jī)森林算法確定的重要性大小順序從左至右排列,結(jié)合控制變量個數(shù)確定各層指標(biāo)的突變系統(tǒng)類型,從而將數(shù)字化創(chuàng)新能力評價指標(biāo)體系構(gòu)造成一個多層次目標(biāo)結(jié)構(gòu),如圖2 所示。
圖2 基于突變級數(shù)法的企業(yè)數(shù)字化創(chuàng)新能力評價結(jié)構(gòu)
借鑒張玉喜等[12]的研究,計(jì)算樣本企業(yè)各層級指標(biāo)的Pearson 相關(guān)系數(shù),通過顯著性大小判斷變量間相關(guān)關(guān)系的強(qiáng)弱。由表2 可知,各指標(biāo)系統(tǒng)中包含的變量都表現(xiàn)出較強(qiáng)的相關(guān)性,因此均可判定為互補(bǔ)系統(tǒng),評價時遵循互補(bǔ)準(zhǔn)則,即取控制變量的平均數(shù)進(jìn)行計(jì)算。
表2 樣本企業(yè)數(shù)字化創(chuàng)新能力評價指標(biāo)相關(guān)性分析結(jié)果
建立京津冀制造企業(yè)數(shù)字化創(chuàng)新能力突變系統(tǒng)后,將數(shù)據(jù)集標(biāo)準(zhǔn)化后的值轉(zhuǎn)化為突變模糊隸屬度函數(shù)值,根據(jù)不同突變系統(tǒng)類型準(zhǔn)則變換后得到各層次評價指標(biāo)的突變模糊隸屬度函數(shù)值,最后利用歸一公式(8)~(10)和評價準(zhǔn)則進(jìn)行綜合評價。
如表3 所示,從總體情況來看,樣本企業(yè)數(shù)字化創(chuàng)新投入能力遠(yuǎn)高于數(shù)字化創(chuàng)新產(chǎn)出能力,其中人才儲備和經(jīng)濟(jì)基礎(chǔ)得分較高,而資金獲取和資源整合方面較為薄弱,說明現(xiàn)階段企業(yè)數(shù)字化創(chuàng)新的投入與產(chǎn)出能力發(fā)展不協(xié)調(diào)。雖然京津冀三地對數(shù)字化創(chuàng)新的重視程度較高,具備推進(jìn)數(shù)字化創(chuàng)新的基礎(chǔ)實(shí)力,但仍需加快制造企業(yè)數(shù)字化創(chuàng)新成果轉(zhuǎn)化,改善數(shù)字化創(chuàng)新產(chǎn)出能力欠佳的局面。分區(qū)域來看,北京市的數(shù)字化創(chuàng)新在各方面均表現(xiàn)突出,而天津市的數(shù)字化創(chuàng)新能力整體偏弱,特別是產(chǎn)出能力得分僅為北京市的1/3,而河北省在資金獲取和資源整合方面與北京市和天津市相比仍有較大差距。區(qū)域間數(shù)字化創(chuàng)新能力的差異反映了北京市作為全國科技創(chuàng)新中心的輻射帶動力未得到有效發(fā)揮,京津冀協(xié)同創(chuàng)新戰(zhàn)略還需持續(xù)貫徹,要通過促進(jìn)數(shù)字化資源有序流動與合理配置提升區(qū)域數(shù)字化創(chuàng)新綜合實(shí)力。
表3 樣本企業(yè)分區(qū)域數(shù)字化創(chuàng)新能力評價結(jié)果
如表4 顯示,樣本企業(yè)中數(shù)字化創(chuàng)新能力與數(shù)字化創(chuàng)新產(chǎn)出能力排名前3位的是儀器儀表制造業(yè)、汽車制造業(yè)和計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè),后3 位為印刷和記錄媒介復(fù)制業(yè),酒、飲料和精制茶制造業(yè),以及食品制造業(yè)。表明知識密度較大的高技術(shù)產(chǎn)業(yè)數(shù)字化創(chuàng)新活動較為活躍,數(shù)字化創(chuàng)新能力總體較強(qiáng);而勞動密集度較高、技術(shù)水平較低的傳統(tǒng)制造業(yè)數(shù)字化創(chuàng)新成績明顯落后。因此,京津冀地區(qū)產(chǎn)業(yè)數(shù)字化進(jìn)程還面臨跨行業(yè)間數(shù)字化資源共享和集成不足、傳統(tǒng)產(chǎn)業(yè)難以適應(yīng)數(shù)字化趨勢等多重挑戰(zhàn)。
表4 樣本企業(yè)分行業(yè)數(shù)字化創(chuàng)新能力評價結(jié)果
產(chǎn)業(yè)間數(shù)字化創(chuàng)新水平差異與企業(yè)所屬不同行業(yè)的結(jié)構(gòu)特征密切相關(guān)[29],與企業(yè)自身及區(qū)域行業(yè)對數(shù)字化要素的投入和創(chuàng)新資源的分配有直接聯(lián)系。如表5 所示,在數(shù)字化創(chuàng)新綜合能力排名前3位的行業(yè)中,計(jì)算機(jī)、通信和其他電子設(shè)備制造業(yè)的市場需求變化劇烈、技術(shù)更新速度快,因此極為重視數(shù)字化人才的引進(jìn)和數(shù)字化研發(fā)資源的投入力度,在數(shù)字化創(chuàng)新人才儲備、資金獲取和資源整合等3 個方面表現(xiàn)良好;而汽車制造業(yè)以高度綜合、涉及制造部門眾多為顯著特點(diǎn),主要依靠區(qū)域行業(yè)中數(shù)字化創(chuàng)新資源整合的力量驅(qū)動行業(yè)內(nèi)部各企業(yè)的數(shù)字化進(jìn)程;儀表儀器制造業(yè)則是一個多學(xué)科應(yīng)用的精密行業(yè),其數(shù)字化升級需要依賴各方面基礎(chǔ)資源的聯(lián)動配合,因此在數(shù)字化創(chuàng)新投入能力的4個方面均取得了較好成績。
表5 樣本企業(yè)分行業(yè)數(shù)字化創(chuàng)新投入能力分指標(biāo)評價結(jié)果
(1)數(shù)字化創(chuàng)新能力是一種融合數(shù)字技術(shù)的綜合創(chuàng)新能力,涵蓋數(shù)字化創(chuàng)新產(chǎn)出能力與數(shù)字化創(chuàng)新投入能力,需要全面考慮企業(yè)特征與區(qū)域行業(yè)環(huán)境進(jìn)行綜合評估。實(shí)證分析表明,現(xiàn)階段京津冀制造業(yè)企業(yè)數(shù)字化創(chuàng)新成果轉(zhuǎn)化速率較慢,數(shù)字化創(chuàng)新產(chǎn)出能力較差,且數(shù)字化創(chuàng)新投入能力也因企業(yè)數(shù)字化資源的配置方式不同而有較大差異。
(2)基于隨機(jī)森林算法的數(shù)字化創(chuàng)新評估模型顯示,數(shù)字化創(chuàng)新投入能力分指標(biāo)的重要性排序依次為數(shù)字化創(chuàng)新人才儲備、數(shù)字化創(chuàng)新資金獲取、數(shù)字化創(chuàng)新資源整合與數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ)。其中,數(shù)字化創(chuàng)新人才儲備對數(shù)字化創(chuàng)新專利產(chǎn)出影響最大,反映了高水平人力資本在數(shù)字化創(chuàng)新活動中不可取代的重要地位;數(shù)字化創(chuàng)新經(jīng)濟(jì)基礎(chǔ)的重要性水平相對較低,表明經(jīng)濟(jì)實(shí)力較弱的企業(yè)也有機(jī)會在數(shù)字化浪潮中實(shí)現(xiàn)“彎道超車”,率先實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。
(3)結(jié)合突變級數(shù)法的數(shù)字化創(chuàng)新能力評價模型結(jié)果表明,京津冀區(qū)域間和行業(yè)間的數(shù)字化創(chuàng)新能力差距較為明顯,存在發(fā)展不平衡的現(xiàn)象。分區(qū)域來看,北京市顯示出很強(qiáng)的數(shù)字化創(chuàng)新能力,而天津市和河北省在產(chǎn)出能力與投入能力方面各有不足;分行業(yè)來看,高技術(shù)行業(yè)的數(shù)字化創(chuàng)新水平整體較高,但傳統(tǒng)制造業(yè)的表現(xiàn)相對乏力。
基于上述研究結(jié)論,提出如下對策建議:
(1)優(yōu)化數(shù)字化創(chuàng)新基礎(chǔ)條件,提高數(shù)字化成果轉(zhuǎn)化效率。第一,大力鋪設(shè)5G 基站、特高壓、大數(shù)據(jù)中心等硬件設(shè)施,通過強(qiáng)化產(chǎn)學(xué)研合作加速數(shù)字技術(shù)的產(chǎn)品化、市場化進(jìn)程,為釋放人工智能、云計(jì)算等數(shù)字技術(shù)的乘數(shù)效應(yīng)提供有效的運(yùn)行基礎(chǔ)。第二,建立數(shù)字化創(chuàng)新服務(wù)交流平臺,制定優(yōu)惠的財政、稅收政策,降低中小制造企業(yè)對接數(shù)字化平臺的成本,激發(fā)企業(yè)科技創(chuàng)新動力。第三,企業(yè)應(yīng)制定合理的數(shù)字化發(fā)展戰(zhàn)略,建立長線思維,淡化對短期內(nèi)盈利指標(biāo)的關(guān)注,增加對數(shù)字化創(chuàng)新的專項(xiàng)資金投入。
(2)提升制造業(yè)從業(yè)者數(shù)字化素養(yǎng),重視數(shù)字化人才資源儲備。首先,京津冀三地教育部門應(yīng)繼續(xù)鼓勵高等院校、中等職業(yè)學(xué)校面向數(shù)字經(jīng)濟(jì)開展新工科建設(shè),著力培養(yǎng)大數(shù)據(jù)科學(xué)、機(jī)器人工程、物聯(lián)網(wǎng)工程等領(lǐng)域的“高精尖”人才。其次,各地方政府的組織和人事管理部門應(yīng)制定數(shù)字化人才引進(jìn)和評估政策,為掌握關(guān)鍵數(shù)字技術(shù)的研究開發(fā)專家解決落戶、住房、醫(yī)療等問題,增強(qiáng)數(shù)字人才吸引力。最后,企業(yè)要加大數(shù)字背景高管聘用力度,定期舉辦數(shù)據(jù)分析、工業(yè)軟件講座等數(shù)字化培訓(xùn)活動,訓(xùn)練員工數(shù)字化思維及應(yīng)用操作能力。
(3)加強(qiáng)京津冀數(shù)字資源整合流動,構(gòu)建數(shù)字化創(chuàng)新生態(tài)系統(tǒng)。一方面,各級政府應(yīng)增加科學(xué)技術(shù)公共支出,推動社會治理集成化與公共服務(wù)智能化,如設(shè)立省級數(shù)據(jù)管理局、共建京津冀數(shù)據(jù)管理中心,實(shí)現(xiàn)區(qū)域內(nèi)、產(chǎn)業(yè)間數(shù)字化技術(shù)、人才、資源等信息互通互聯(lián),促進(jìn)數(shù)字化創(chuàng)新要素流動聚集。另一方面,三地應(yīng)充分發(fā)揮科技園、協(xié)同發(fā)展示范區(qū)等各類創(chuàng)新產(chǎn)業(yè)園區(qū)的平臺聯(lián)動作用,拓展區(qū)域創(chuàng)新走廊等合作空間,建設(shè)傳統(tǒng)制造業(yè)轉(zhuǎn)型升級試驗(yàn)區(qū),健全區(qū)域協(xié)同與產(chǎn)業(yè)融合創(chuàng)新生態(tài),釋放數(shù)字經(jīng)濟(jì)新動能。