寧高倩
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)
隨著全球信息化和數(shù)字經(jīng)濟(jì)的快速發(fā)展,大數(shù)據(jù)已經(jīng)成為人類社會(huì)的重要產(chǎn)業(yè)和基礎(chǔ)資源[1]。在該趨勢(shì)下,高校創(chuàng)業(yè)生態(tài)建設(shè)成為推動(dòng)新一輪創(chuàng)新驅(qū)動(dòng)發(fā)展的重要舉措之一。一方面高校創(chuàng)新、創(chuàng)業(yè)可以彌補(bǔ)國(guó)內(nèi)、外新興產(chǎn)業(yè)領(lǐng)域中的人才缺口,另一方面也可以促進(jìn)科學(xué)研究成果轉(zhuǎn)化,對(duì)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展和實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展具有重要的戰(zhàn)略意義[2-3]。
我國(guó)高校創(chuàng)新、創(chuàng)業(yè)生態(tài)建設(shè)仍存在很多不足,例如政策環(huán)境不友好、人才培養(yǎng)模式單一以及科技成果轉(zhuǎn)化難度大等[4]。
該文從面向大數(shù)據(jù)時(shí)代的角度對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)進(jìn)行研究,全面闡述相關(guān)概念、構(gòu)成要素、評(píng)價(jià)體系以及建設(shè)模式,分析大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)中的作用,并對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集進(jìn)行建模。
為了清洗、轉(zhuǎn)換原始數(shù)據(jù)對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,在后續(xù)的數(shù)據(jù)挖掘過程中可以更好地進(jìn)行分析。
對(duì)于存在缺失值的數(shù)據(jù),可以采用插補(bǔ)方法來填充缺失部分,其中常用方法之一是均值插補(bǔ),如公式(1)所示。
對(duì)于存在異常值的數(shù)據(jù),可以采用原則,將大于或小于3 倍標(biāo)準(zhǔn)差的樣本視為異常樣本,并通過刪除或替換異常值來修正數(shù)據(jù)。
數(shù)據(jù)集成的目的是將來自不同數(shù)據(jù)源的數(shù)據(jù)集成為一個(gè)統(tǒng)一的數(shù)據(jù)集。在數(shù)據(jù)集成中,最基本的原理是數(shù)據(jù)匹配原則,即找到2 個(gè)數(shù)據(jù)集之間的聯(lián)系。例如可以使用聯(lián)合屬性或者主鍵等進(jìn)行數(shù)據(jù)匹配。
數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換的基本原理是給每個(gè)指標(biāo)賦予一個(gè)統(tǒng)一的比例尺,進(jìn)行轉(zhuǎn)換之前需要對(duì)數(shù)值型指標(biāo)進(jìn)行標(biāo)準(zhǔn)化、歸一化或離散化等操作。標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到均值為0、標(biāo)準(zhǔn)差為1 的區(qū)間內(nèi),常用的標(biāo)準(zhǔn)化方法是z-score 標(biāo)準(zhǔn)化方法,如公式(2)所示。
式中:xi為原始數(shù)據(jù);為原始數(shù)據(jù)的平均值;σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。
歸一化是將數(shù)據(jù)縮放到[0,1],最常用的歸一化方法是min-max 歸一化方法,如公式(3)所示。
式中:xi為原始數(shù)據(jù);min(X)和max(X)分別為原始數(shù)據(jù)的最小值和最大值。
數(shù)據(jù)規(guī)約是將大量的數(shù)據(jù)精簡(jiǎn)為更小的數(shù)據(jù)集,以減少計(jì)算和存儲(chǔ)開銷。常用的規(guī)約方法包括抽樣、聚合、分區(qū)和維度規(guī)約等,其中抽樣和聚合是最常用的規(guī)約方法。
1.2.1 回歸分析
線性回歸是回歸分析的一種經(jīng)典方法,可以預(yù)測(cè)因變量與一個(gè)或多個(gè)自變量之間的線性關(guān)系。其原理是尋找最佳擬合直線,使預(yù)測(cè)誤差最小。線性回歸如公式(4)所示。
式中:y是因變量(要預(yù)測(cè)的變量);xk是自變量;βk是回歸系數(shù);ε是誤差項(xiàng)。
1.2.2 分類
XGBoost 是一種基于梯度提升樹(Gradient Boosting Decision Tree)的集成學(xué)習(xí)算法,通過多個(gè)決策樹的集成構(gòu)建1 個(gè)強(qiáng)分類器,其主要優(yōu)點(diǎn)是高效、可擴(kuò)展性強(qiáng)以及在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等。
首先,對(duì)所有樣本賦予相同的權(quán)重,采用貪心算法,在當(dāng)前弱分類器的基礎(chǔ)上添加新的樹,并對(duì)樣本的權(quán)重進(jìn)行更新。其次,計(jì)算每個(gè)樹的貢獻(xiàn)和加權(quán)損失函數(shù),根據(jù)損失函數(shù)的梯度更新樹的葉子節(jié)點(diǎn)權(quán)重。最后,將多個(gè)樹的結(jié)果加權(quán)求和作為最終預(yù)測(cè)結(jié)果。XGBoost 常用的損失函數(shù)及其梯度公式如下。
均方誤差(Mean Squared Error,MSE)如公式(5)所示。
式中:yi為第i個(gè)樣本真實(shí)值;i為第i樣本預(yù)測(cè)值;梯度為-2(yi-i)。
二分類交叉熵(Binary Logistic Loss)如公式(6)所示。
式中:pi為屬于第i類的概率;,梯度為pi-yi。
多分類交叉熵(Multi-class Logistic Loss)如公式(7)所示。
式中:k為第k個(gè)樣本;yik為第i類中第k個(gè)樣本;pik為第k個(gè)樣本屬于第i類的概率;,梯度為pik-yik。
在XGBoost 中,每棵樹的生成通過貪心算法實(shí)現(xiàn)。每次添加一個(gè)節(jié)點(diǎn)時(shí),計(jì)算該節(jié)點(diǎn)對(duì)損失函數(shù)的增益,將最大增益對(duì)應(yīng)的特征和節(jié)點(diǎn)值作為分裂點(diǎn)。節(jié)點(diǎn)分裂后,樣本被分配到左、右子樹中,并按照上述方式計(jì)算子樹的節(jié)點(diǎn),反復(fù)迭代直到滿足終止條件。
XGBoost 通過多個(gè)弱分類器的集成來構(gòu)建一個(gè)強(qiáng)分類器,逐步減少模型誤差,具有高效、可擴(kuò)展性強(qiáng)、在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等優(yōu)點(diǎn),是一種非常實(shí)用的機(jī)器學(xué)習(xí)算法。
通過小米手環(huán)的功能更新,我們可以看到,公司研發(fā)過程中是向著大眾更易接受,且能夠更加科學(xué)化管理自己運(yùn)動(dòng)過程的,不斷的更新功能,讓手環(huán)的存在增加大眾運(yùn)動(dòng)的興趣性和精準(zhǔn)度,譬如心率的控制、卡路里的顯示、里程數(shù)的顯示等,都是努力地、無時(shí)不刻地提醒運(yùn)動(dòng)者運(yùn)動(dòng)要科學(xué)、要有數(shù)據(jù)、要精確。剛好這樣一個(gè)目標(biāo)與我們田徑教學(xué)的目標(biāo)有所契合,就是需要在教學(xué)過程中以教學(xué)目標(biāo)為指導(dǎo),精準(zhǔn)地制定教學(xué)內(nèi)容,而且能夠?qū)崟r(shí)控制教學(xué)節(jié)奏,幫助提高課程質(zhì)量,一切都不謀而合,所以引發(fā)我們的研究方向即小米手環(huán)在田徑教學(xué)過程中如何使用能夠讓田徑課程更加合理、科學(xué)化。
1.2.3 聚類
聚類模型是一種無監(jiān)督學(xué)習(xí)方法,用于將數(shù)據(jù)集中的樣本分為具有相似特征的群組或簇。聚類模型的目標(biāo)是在沒有事先標(biāo)記的情況下發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。
常見的聚類算法包括K 均值聚類、層次聚類和DBSCAN等。這些算法的操作通常基于樣本之間的相似性或距離。
1.2.4 關(guān)聯(lián)分析
關(guān)聯(lián)分析是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的方法。是關(guān)聯(lián)分析中常見的公式如下。
支持度(support)用于衡量一個(gè)項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率。設(shè)D為數(shù)據(jù)集,X為項(xiàng)集,項(xiàng)集X的支持度如公式(8)所示。
式中:|D|為數(shù)據(jù)集D中的事務(wù)總數(shù);t為特定事務(wù)。
式中:support(X∪Y)為項(xiàng)集X與項(xiàng)集Y的并集在數(shù)據(jù)集D中的支持度;support(X)為項(xiàng)集X在數(shù)據(jù)集D中的支持度。
提升度(lift)用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集X對(duì)項(xiàng)集Y的提升程度。提升度如公式(10)所示。
式中:confidence(X->Y)為從項(xiàng)集X推導(dǎo)出項(xiàng)集Y的置信度;support(Y)為項(xiàng)集Y在數(shù)據(jù)集D中的支持度。
以上是關(guān)聯(lián)分析中比較常見的3 個(gè)公式,即支持度、置信度和提升度。這些公式可以用于發(fā)現(xiàn)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,并應(yīng)用于市場(chǎng)籃子分析、推薦系統(tǒng)等領(lǐng)域。
高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)如下:1)高校創(chuàng)業(yè)團(tuán)隊(duì)數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)團(tuán)隊(duì)總數(shù)、成立年限、核心成員人數(shù)以及所在院校專業(yè)領(lǐng)域等信息。2)創(chuàng)業(yè)項(xiàng)目數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)項(xiàng)目總數(shù)、所屬行業(yè)和領(lǐng)域、是否完成融資以及投資金額等信息。3)學(xué)校與外部合作機(jī)構(gòu)的數(shù)量和質(zhì)量數(shù)據(jù),包括與政府、企業(yè)、投資機(jī)構(gòu)等合作的數(shù)量、合作內(nèi)容以及合作效果等信息。4)各類支持服務(wù)平臺(tái)的數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)孵化器、加速器、投資機(jī)構(gòu)等以及其提供的資源、服務(wù)、支持等信息。5)成功案例數(shù)量和質(zhì)量數(shù)據(jù),包括已經(jīng)成功上市或并購(gòu)的公司數(shù)量、獲得過獎(jiǎng)項(xiàng)或榮譽(yù)的創(chuàng)業(yè)項(xiàng)目數(shù)量等。6)師資力量和教育資源的數(shù)據(jù),包括創(chuàng)業(yè)導(dǎo)師、創(chuàng)業(yè)課程、創(chuàng)新實(shí)驗(yàn)室等資源數(shù)量和質(zhì)量信息。
2.2.1 數(shù)據(jù)清洗
對(duì)高校創(chuàng)業(yè)生態(tài)檢測(cè)數(shù)據(jù)進(jìn)行去除重復(fù)數(shù)據(jù)、填補(bǔ)缺失值、修改數(shù)據(jù)類型等。對(duì)于“缺失值”,需要根據(jù)經(jīng)驗(yàn)進(jìn)行手工填寫;對(duì)于無法根據(jù)經(jīng)驗(yàn)填寫的“缺失值”,則采用該特征數(shù)據(jù)的平均值來代替。
2.2.2 數(shù)據(jù)集成
將高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)的6 種表格進(jìn)行數(shù)據(jù)集成,集成到一個(gè)綜合數(shù)據(jù)集并存儲(chǔ)。
2.2.3 數(shù)據(jù)轉(zhuǎn)換
將數(shù)據(jù)集中字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),如“創(chuàng)業(yè)團(tuán)隊(duì)”“所在院校專業(yè)領(lǐng)域”“政府”“企業(yè)”和“投資機(jī)構(gòu)”等字符型變量轉(zhuǎn)成數(shù)值型變量,便于后面數(shù)據(jù)處理和模型建立。
2.3.1 數(shù)據(jù)集劃分
建立XGBoost 模型時(shí),先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型訓(xùn)練、參數(shù)調(diào)整和模型評(píng)價(jià)。數(shù)據(jù)集劃分方法如下:1)訓(xùn)練集(Trainingset),用于模型的訓(xùn)練和參數(shù)估計(jì),占數(shù)據(jù)集的80%。2)驗(yàn)證集(Validationset),用于模型的選擇和調(diào)整,占數(shù)據(jù)集的10%。可以利用驗(yàn)證集來評(píng)估模型的泛化能力,選擇最優(yōu)的模型,并調(diào)整模型的超參數(shù)。3)測(cè)試集(Testset),用于模型的最終評(píng)價(jià)和預(yù)測(cè)精度的確定,占數(shù)據(jù)集的10%。使用測(cè)試集評(píng)估模型在未見過的新數(shù)據(jù)上的預(yù)測(cè)能力,以充分驗(yàn)證模型的有效性和泛化能力。
隨機(jī)打亂每個(gè)數(shù)據(jù)集的數(shù)據(jù)順序,以確保訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布相似,并保持隨機(jī)性的一致性,提高模型的魯棒性和泛化能力。
2.3.2 特征提取和數(shù)據(jù)降維
由于數(shù)據(jù)集特征維度比較多,并且全國(guó)高校歷年數(shù)據(jù)量比較龐大,為了降低模型的復(fù)雜度,提高模型的計(jì)算速度,因此需要對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)6 個(gè)維度的數(shù)據(jù)進(jìn)行特征降維,主要采用主成分分析。訓(xùn)練集數(shù)據(jù)主成分分析中的前3 個(gè)主成分得分圖如圖1 所示。
圖1 主成分分析得分圖
2.3.3 分類模型
將創(chuàng)業(yè)生態(tài)建設(shè)成功的分為一類,標(biāo)記為0,創(chuàng)業(yè)生態(tài)建設(shè)失敗的分為另外一類,標(biāo)記為1。因此,該文是一個(gè)大數(shù)據(jù)挖掘技術(shù)的分類問題,并且是二分類的模型,可以采用XGBoost 方法建立分類模型。將高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集作為XGBoost 模型的訓(xùn)練數(shù)據(jù)集,利用樣本數(shù)據(jù)中的特征變量(如高校的師資力量、教育資源和創(chuàng)業(yè)項(xiàng)目質(zhì)量等)預(yù)測(cè)其類別變量(成功/失?。?。建模時(shí)采用交叉驗(yàn)證、正則化等技術(shù)來提高模型的預(yù)測(cè)精度和泛化能力。
XGBoost 訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率(learningrate)為0.005,樹的數(shù)量(n_estimators)為100,最大樹深度(max_depth)為50,列采樣比例(colsample_bytree)為0.6,正則化參數(shù)(lambda)為L(zhǎng)2 正則化。
模型的ROC 曲線如圖2 所示。從圖2 可以看出曲線在左側(cè)和頂部的邊界很接近,說明分類器在很大程度上正確地識(shí)別了正例且假正例率較低。曲線下的面積(Area Under Curve,AUC)越大,說明模型的性能越好。圖2 的AUC 看起來比較高,表明分類器的性能較好。
圖2 XGBoost 模型ROC 曲線
2.3.4 結(jié)果與分析
XGBoost 是一種由多個(gè)弱分類器的集成構(gòu)建的強(qiáng)分類器,可用于高校創(chuàng)業(yè)生態(tài)數(shù)據(jù)的分類和預(yù)測(cè)。該文通過標(biāo)注成功和失敗的創(chuàng)業(yè)項(xiàng)目,并結(jié)合項(xiàng)目特征,對(duì)高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)進(jìn)行建模,利用XGBoost 模型進(jìn)行訓(xùn)練,從而預(yù)測(cè)并分析未來的創(chuàng)業(yè)項(xiàng)目。
隨著大數(shù)據(jù)時(shí)代的到來,高??梢岳么髷?shù)據(jù)分析技術(shù),對(duì)創(chuàng)業(yè)生態(tài)數(shù)據(jù)進(jìn)行分析,從而建立更準(zhǔn)確、全面的模型預(yù)測(cè)。在該過程中,高校需要有足夠的存儲(chǔ)和計(jì)算資源,能夠處理海量且多樣化的數(shù)據(jù)。同時(shí),有效的數(shù)據(jù)清洗、特征選擇與降維、模型評(píng)估與優(yōu)化等步驟也極為關(guān)鍵。只有在這些步驟都得到充分考慮和實(shí)踐的情況下,才能得到質(zhì)量可靠的模型,進(jìn)而有效支持高校的創(chuàng)業(yè)活動(dòng)。
利用大數(shù)據(jù)分析技術(shù)建立XGBoost 模型預(yù)測(cè),不僅可以輔助高校的創(chuàng)業(yè)支持工作,還可以幫助高校更好地理解創(chuàng)業(yè)生態(tài)、發(fā)現(xiàn)生態(tài)變化趨勢(shì)并及時(shí)調(diào)整創(chuàng)業(yè)政策和支持措施等,從而進(jìn)一步提升高校創(chuàng)業(yè)環(huán)境的競(jìng)爭(zhēng)力和吸引力,提高學(xué)校創(chuàng)新、創(chuàng)業(yè)的意識(shí)和能力。