亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

2023-12-29 01:39:18寧高倩

中國(guó)新技術(shù)新產(chǎn)品 2023年22期

關(guān)鍵詞：項(xiàng)集創(chuàng)業(yè)項(xiàng)目分類器

寧高倩

（湖南環(huán)境生物職業(yè)技術(shù)學(xué)院，湖南衡陽(yáng) 421005）

隨著全球信息化和數(shù)字經(jīng)濟(jì)的快速發(fā)展，大數(shù)據(jù)已經(jīng)成為人類社會(huì)的重要產(chǎn)業(yè)和基礎(chǔ)資源[1]。在該趨勢(shì)下，高校創(chuàng)業(yè)生態(tài)建設(shè)成為推動(dòng)新一輪創(chuàng)新驅(qū)動(dòng)發(fā)展的重要舉措之一。一方面高校創(chuàng)新、創(chuàng)業(yè)可以彌補(bǔ)國(guó)內(nèi)、外新興產(chǎn)業(yè)領(lǐng)域中的人才缺口，另一方面也可以促進(jìn)科學(xué)研究成果轉(zhuǎn)化，對(duì)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展和實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展具有重要的戰(zhàn)略意義[2-3]。

我國(guó)高校創(chuàng)新、創(chuàng)業(yè)生態(tài)建設(shè)仍存在很多不足，例如政策環(huán)境不友好、人才培養(yǎng)模式單一以及科技成果轉(zhuǎn)化難度大等[4]。

該文從面向大數(shù)據(jù)時(shí)代的角度對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)進(jìn)行研究，全面闡述相關(guān)概念、構(gòu)成要素、評(píng)價(jià)體系以及建設(shè)模式，分析大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)中的作用，并對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集進(jìn)行建模。

1 大數(shù)據(jù)技術(shù)

1.1 大數(shù)據(jù)預(yù)處理

為了清洗、轉(zhuǎn)換原始數(shù)據(jù)對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理，在后續(xù)的數(shù)據(jù)挖掘過程中可以更好地進(jìn)行分析。

對(duì)于存在缺失值的數(shù)據(jù)，可以采用插補(bǔ)方法來填充缺失部分，其中常用方法之一是均值插補(bǔ)，如公式（1）所示。

對(duì)于存在異常值的數(shù)據(jù)，可以采用原則，將大于或小于3 倍標(biāo)準(zhǔn)差的樣本視為異常樣本，并通過刪除或替換異常值來修正數(shù)據(jù)。

數(shù)據(jù)集成的目的是將來自不同數(shù)據(jù)源的數(shù)據(jù)集成為一個(gè)統(tǒng)一的數(shù)據(jù)集。在數(shù)據(jù)集成中，最基本的原理是數(shù)據(jù)匹配原則，即找到2 個(gè)數(shù)據(jù)集之間的聯(lián)系。例如可以使用聯(lián)合屬性或者主鍵等進(jìn)行數(shù)據(jù)匹配。

數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換的基本原理是給每個(gè)指標(biāo)賦予一個(gè)統(tǒng)一的比例尺，進(jìn)行轉(zhuǎn)換之前需要對(duì)數(shù)值型指標(biāo)進(jìn)行標(biāo)準(zhǔn)化、歸一化或離散化等操作。標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到均值為0、標(biāo)準(zhǔn)差為1 的區(qū)間內(nèi)，常用的標(biāo)準(zhǔn)化方法是z-score 標(biāo)準(zhǔn)化方法，如公式（2）所示。

式中：xi為原始數(shù)據(jù)；為原始數(shù)據(jù)的平均值；σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

歸一化是將數(shù)據(jù)縮放到[0，1]，最常用的歸一化方法是min-max 歸一化方法，如公式（3）所示。

式中：xi為原始數(shù)據(jù)；min（X）和max（X）分別為原始數(shù)據(jù)的最小值和最大值。

數(shù)據(jù)規(guī)約是將大量的數(shù)據(jù)精簡(jiǎn)為更小的數(shù)據(jù)集，以減少計(jì)算和存儲(chǔ)開銷。常用的規(guī)約方法包括抽樣、聚合、分區(qū)和維度規(guī)約等，其中抽樣和聚合是最常用的規(guī)約方法。

1.2 大數(shù)據(jù)挖掘模型

1.2.1 回歸分析

線性回歸是回歸分析的一種經(jīng)典方法，可以預(yù)測(cè)因變量與一個(gè)或多個(gè)自變量之間的線性關(guān)系。其原理是尋找最佳擬合直線，使預(yù)測(cè)誤差最小。線性回歸如公式（4）所示。

式中：y是因變量（要預(yù)測(cè)的變量）；xk是自變量；βk是回歸系數(shù)；ε是誤差項(xiàng)。

1.2.2 分類

XGBoost 是一種基于梯度提升樹（Gradient Boosting Decision Tree）的集成學(xué)習(xí)算法，通過多個(gè)決策樹的集成構(gòu)建1 個(gè)強(qiáng)分類器，其主要優(yōu)點(diǎn)是高效、可擴(kuò)展性強(qiáng)以及在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等。

首先，對(duì)所有樣本賦予相同的權(quán)重，采用貪心算法，在當(dāng)前弱分類器的基礎(chǔ)上添加新的樹，并對(duì)樣本的權(quán)重進(jìn)行更新。其次，計(jì)算每個(gè)樹的貢獻(xiàn)和加權(quán)損失函數(shù)，根據(jù)損失函數(shù)的梯度更新樹的葉子節(jié)點(diǎn)權(quán)重。最后，將多個(gè)樹的結(jié)果加權(quán)求和作為最終預(yù)測(cè)結(jié)果。XGBoost 常用的損失函數(shù)及其梯度公式如下。

均方誤差（Mean Squared Error，MSE）如公式（5）所示。

式中：yi為第i個(gè)樣本真實(shí)值；i為第i樣本預(yù)測(cè)值；梯度為-2（yi-i）。

二分類交叉熵（Binary Logistic Loss）如公式（6）所示。

式中：pi為屬于第i類的概率；，梯度為pi-yi。

多分類交叉熵（Multi-class Logistic Loss）如公式（7）所示。

式中：k為第k個(gè)樣本；yik為第i類中第k個(gè)樣本；pik為第k個(gè)樣本屬于第i類的概率；，梯度為pik-yik。

在XGBoost 中，每棵樹的生成通過貪心算法實(shí)現(xiàn)。每次添加一個(gè)節(jié)點(diǎn)時(shí)，計(jì)算該節(jié)點(diǎn)對(duì)損失函數(shù)的增益，將最大增益對(duì)應(yīng)的特征和節(jié)點(diǎn)值作為分裂點(diǎn)。節(jié)點(diǎn)分裂后，樣本被分配到左、右子樹中，并按照上述方式計(jì)算子樹的節(jié)點(diǎn)，反復(fù)迭代直到滿足終止條件。

XGBoost 通過多個(gè)弱分類器的集成來構(gòu)建一個(gè)強(qiáng)分類器，逐步減少模型誤差，具有高效、可擴(kuò)展性強(qiáng)、在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等優(yōu)點(diǎn)，是一種非常實(shí)用的機(jī)器學(xué)習(xí)算法。

通過小米手環(huán)的功能更新，我們可以看到，公司研發(fā)過程中是向著大眾更易接受，且能夠更加科學(xué)化管理自己運(yùn)動(dòng)過程的，不斷的更新功能，讓手環(huán)的存在增加大眾運(yùn)動(dòng)的興趣性和精準(zhǔn)度，譬如心率的控制、卡路里的顯示、里程數(shù)的顯示等，都是努力地、無時(shí)不刻地提醒運(yùn)動(dòng)者運(yùn)動(dòng)要科學(xué)、要有數(shù)據(jù)、要精確。剛好這樣一個(gè)目標(biāo)與我們田徑教學(xué)的目標(biāo)有所契合，就是需要在教學(xué)過程中以教學(xué)目標(biāo)為指導(dǎo)，精準(zhǔn)地制定教學(xué)內(nèi)容，而且能夠?qū)崟r(shí)控制教學(xué)節(jié)奏，幫助提高課程質(zhì)量，一切都不謀而合，所以引發(fā)我們的研究方向即小米手環(huán)在田徑教學(xué)過程中如何使用能夠讓田徑課程更加合理、科學(xué)化。

1.2.3 聚類

聚類模型是一種無監(jiān)督學(xué)習(xí)方法，用于將數(shù)據(jù)集中的樣本分為具有相似特征的群組或簇。聚類模型的目標(biāo)是在沒有事先標(biāo)記的情況下發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

常見的聚類算法包括K 均值聚類、層次聚類和DBSCAN等。這些算法的操作通常基于樣本之間的相似性或距離。

1.2.4 關(guān)聯(lián)分析

關(guān)聯(lián)分析是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的方法。是關(guān)聯(lián)分析中常見的公式如下。

支持度（support）用于衡量一個(gè)項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率。設(shè)D為數(shù)據(jù)集，X為項(xiàng)集，項(xiàng)集X的支持度如公式（8）所示。

式中：|D|為數(shù)據(jù)集D中的事務(wù)總數(shù)；t為特定事務(wù)。

式中：support（X∪Y）為項(xiàng)集X與項(xiàng)集Y的并集在數(shù)據(jù)集D中的支持度；support（X）為項(xiàng)集X在數(shù)據(jù)集D中的支持度。

提升度（lift）用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集X對(duì)項(xiàng)集Y的提升程度。提升度如公式（10）所示。

式中：confidence（X->Y）為從項(xiàng)集X推導(dǎo)出項(xiàng)集Y的置信度；support（Y）為項(xiàng)集Y在數(shù)據(jù)集D中的支持度。

以上是關(guān)聯(lián)分析中比較常見的3 個(gè)公式，即支持度、置信度和提升度。這些公式可以用于發(fā)現(xiàn)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則，并應(yīng)用于市場(chǎng)籃子分析、推薦系統(tǒng)等領(lǐng)域。

2 大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

2.1 高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集

高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)如下：1）高校創(chuàng)業(yè)團(tuán)隊(duì)數(shù)量和質(zhì)量數(shù)據(jù)，包括創(chuàng)業(yè)團(tuán)隊(duì)總數(shù)、成立年限、核心成員人數(shù)以及所在院校專業(yè)領(lǐng)域等信息。2）創(chuàng)業(yè)項(xiàng)目數(shù)量和質(zhì)量數(shù)據(jù)，包括創(chuàng)業(yè)項(xiàng)目總數(shù)、所屬行業(yè)和領(lǐng)域、是否完成融資以及投資金額等信息。3）學(xué)校與外部合作機(jī)構(gòu)的數(shù)量和質(zhì)量數(shù)據(jù)，包括與政府、企業(yè)、投資機(jī)構(gòu)等合作的數(shù)量、合作內(nèi)容以及合作效果等信息。4）各類支持服務(wù)平臺(tái)的數(shù)量和質(zhì)量數(shù)據(jù)，包括創(chuàng)業(yè)孵化器、加速器、投資機(jī)構(gòu)等以及其提供的資源、服務(wù)、支持等信息。5）成功案例數(shù)量和質(zhì)量數(shù)據(jù)，包括已經(jīng)成功上市或并購(gòu)的公司數(shù)量、獲得過獎(jiǎng)項(xiàng)或榮譽(yù)的創(chuàng)業(yè)項(xiàng)目數(shù)量等。6）師資力量和教育資源的數(shù)據(jù)，包括創(chuàng)業(yè)導(dǎo)師、創(chuàng)業(yè)課程、創(chuàng)新實(shí)驗(yàn)室等資源數(shù)量和質(zhì)量信息。

2.2 數(shù)據(jù)預(yù)處理

2.2.1 數(shù)據(jù)清洗

對(duì)高校創(chuàng)業(yè)生態(tài)檢測(cè)數(shù)據(jù)進(jìn)行去除重復(fù)數(shù)據(jù)、填補(bǔ)缺失值、修改數(shù)據(jù)類型等。對(duì)于“缺失值”，需要根據(jù)經(jīng)驗(yàn)進(jìn)行手工填寫；對(duì)于無法根據(jù)經(jīng)驗(yàn)填寫的“缺失值”，則采用該特征數(shù)據(jù)的平均值來代替。

2.2.2 數(shù)據(jù)集成

將高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)的6 種表格進(jìn)行數(shù)據(jù)集成，集成到一個(gè)綜合數(shù)據(jù)集并存儲(chǔ)。

2.2.3 數(shù)據(jù)轉(zhuǎn)換

將數(shù)據(jù)集中字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù)，如“創(chuàng)業(yè)團(tuán)隊(duì)”“所在院校專業(yè)領(lǐng)域”“政府”“企業(yè)”和“投資機(jī)構(gòu)”等字符型變量轉(zhuǎn)成數(shù)值型變量，便于后面數(shù)據(jù)處理和模型建立。

2.3 數(shù)據(jù)挖掘

2.3.1 數(shù)據(jù)集劃分

建立XGBoost 模型時(shí)，先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集，用于模型訓(xùn)練、參數(shù)調(diào)整和模型評(píng)價(jià)。數(shù)據(jù)集劃分方法如下：1）訓(xùn)練集（Trainingset），用于模型的訓(xùn)練和參數(shù)估計(jì)，占數(shù)據(jù)集的80%。2）驗(yàn)證集（Validationset），用于模型的選擇和調(diào)整，占數(shù)據(jù)集的10%。可以利用驗(yàn)證集來評(píng)估模型的泛化能力，選擇最優(yōu)的模型，并調(diào)整模型的超參數(shù)。3）測(cè)試集（Testset），用于模型的最終評(píng)價(jià)和預(yù)測(cè)精度的確定，占數(shù)據(jù)集的10%。使用測(cè)試集評(píng)估模型在未見過的新數(shù)據(jù)上的預(yù)測(cè)能力，以充分驗(yàn)證模型的有效性和泛化能力。

隨機(jī)打亂每個(gè)數(shù)據(jù)集的數(shù)據(jù)順序，以確保訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布相似，并保持隨機(jī)性的一致性，提高模型的魯棒性和泛化能力。

2.3.2 特征提取和數(shù)據(jù)降維

由于數(shù)據(jù)集特征維度比較多，并且全國(guó)高校歷年數(shù)據(jù)量比較龐大，為了降低模型的復(fù)雜度，提高模型的計(jì)算速度，因此需要對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)6 個(gè)維度的數(shù)據(jù)進(jìn)行特征降維，主要采用主成分分析。訓(xùn)練集數(shù)據(jù)主成分分析中的前3 個(gè)主成分得分圖如圖1 所示。

圖1 主成分分析得分圖

2.3.3 分類模型

將創(chuàng)業(yè)生態(tài)建設(shè)成功的分為一類，標(biāo)記為0，創(chuàng)業(yè)生態(tài)建設(shè)失敗的分為另外一類，標(biāo)記為1。因此，該文是一個(gè)大數(shù)據(jù)挖掘技術(shù)的分類問題，并且是二分類的模型，可以采用XGBoost 方法建立分類模型。將高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集作為XGBoost 模型的訓(xùn)練數(shù)據(jù)集，利用樣本數(shù)據(jù)中的特征變量（如高校的師資力量、教育資源和創(chuàng)業(yè)項(xiàng)目質(zhì)量等）預(yù)測(cè)其類別變量（成功/失?。?。建模時(shí)采用交叉驗(yàn)證、正則化等技術(shù)來提高模型的預(yù)測(cè)精度和泛化能力。

XGBoost 訓(xùn)練參數(shù)設(shè)置如下：學(xué)習(xí)率（learningrate）為0.005，樹的數(shù)量（n_estimators）為100，最大樹深度（max_depth）為50，列采樣比例（colsample_bytree）為0.6，正則化參數(shù)（lambda）為L(zhǎng)2 正則化。

模型的ROC 曲線如圖2 所示。從圖2 可以看出曲線在左側(cè)和頂部的邊界很接近，說明分類器在很大程度上正確地識(shí)別了正例且假正例率較低。曲線下的面積（Area Under Curve，AUC）越大，說明模型的性能越好。圖2 的AUC 看起來比較高，表明分類器的性能較好。

圖2 XGBoost 模型ROC 曲線

2.3.4 結(jié)果與分析

XGBoost 是一種由多個(gè)弱分類器的集成構(gòu)建的強(qiáng)分類器，可用于高校創(chuàng)業(yè)生態(tài)數(shù)據(jù)的分類和預(yù)測(cè)。該文通過標(biāo)注成功和失敗的創(chuàng)業(yè)項(xiàng)目，并結(jié)合項(xiàng)目特征，對(duì)高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)進(jìn)行建模，利用XGBoost 模型進(jìn)行訓(xùn)練，從而預(yù)測(cè)并分析未來的創(chuàng)業(yè)項(xiàng)目。

3 結(jié)論

隨著大數(shù)據(jù)時(shí)代的到來，高?？梢岳么髷?shù)據(jù)分析技術(shù)，對(duì)創(chuàng)業(yè)生態(tài)數(shù)據(jù)進(jìn)行分析，從而建立更準(zhǔn)確、全面的模型預(yù)測(cè)。在該過程中，高校需要有足夠的存儲(chǔ)和計(jì)算資源，能夠處理海量且多樣化的數(shù)據(jù)。同時(shí)，有效的數(shù)據(jù)清洗、特征選擇與降維、模型評(píng)估與優(yōu)化等步驟也極為關(guān)鍵。只有在這些步驟都得到充分考慮和實(shí)踐的情況下，才能得到質(zhì)量可靠的模型，進(jìn)而有效支持高校的創(chuàng)業(yè)活動(dòng)。

利用大數(shù)據(jù)分析技術(shù)建立XGBoost 模型預(yù)測(cè)，不僅可以輔助高校的創(chuàng)業(yè)支持工作，還可以幫助高校更好地理解創(chuàng)業(yè)生態(tài)、發(fā)現(xiàn)生態(tài)變化趨勢(shì)并及時(shí)調(diào)整創(chuàng)業(yè)政策和支持措施等，從而進(jìn)一步提升高校創(chuàng)業(yè)環(huán)境的競(jìng)爭(zhēng)力和吸引力，提高學(xué)校創(chuàng)新、創(chuàng)業(yè)的意識(shí)和能力。