亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

        2023-12-29 01:39:18寧高倩
        關(guān)鍵詞:項(xiàng)集創(chuàng)業(yè)項(xiàng)目分類器

        寧高倩

        (湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽(yáng) 421005)

        隨著全球信息化和數(shù)字經(jīng)濟(jì)的快速發(fā)展,大數(shù)據(jù)已經(jīng)成為人類社會(huì)的重要產(chǎn)業(yè)和基礎(chǔ)資源[1]。在該趨勢(shì)下,高校創(chuàng)業(yè)生態(tài)建設(shè)成為推動(dòng)新一輪創(chuàng)新驅(qū)動(dòng)發(fā)展的重要舉措之一。一方面高校創(chuàng)新、創(chuàng)業(yè)可以彌補(bǔ)國(guó)內(nèi)、外新興產(chǎn)業(yè)領(lǐng)域中的人才缺口,另一方面也可以促進(jìn)科學(xué)研究成果轉(zhuǎn)化,對(duì)推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展和實(shí)現(xiàn)創(chuàng)新驅(qū)動(dòng)發(fā)展具有重要的戰(zhàn)略意義[2-3]。

        我國(guó)高校創(chuàng)新、創(chuàng)業(yè)生態(tài)建設(shè)仍存在很多不足,例如政策環(huán)境不友好、人才培養(yǎng)模式單一以及科技成果轉(zhuǎn)化難度大等[4]。

        該文從面向大數(shù)據(jù)時(shí)代的角度對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)進(jìn)行研究,全面闡述相關(guān)概念、構(gòu)成要素、評(píng)價(jià)體系以及建設(shè)模式,分析大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)中的作用,并對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集進(jìn)行建模。

        1 大數(shù)據(jù)技術(shù)

        1.1 大數(shù)據(jù)預(yù)處理

        為了清洗、轉(zhuǎn)換原始數(shù)據(jù)對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理,在后續(xù)的數(shù)據(jù)挖掘過程中可以更好地進(jìn)行分析。

        對(duì)于存在缺失值的數(shù)據(jù),可以采用插補(bǔ)方法來填充缺失部分,其中常用方法之一是均值插補(bǔ),如公式(1)所示。

        對(duì)于存在異常值的數(shù)據(jù),可以采用原則,將大于或小于3 倍標(biāo)準(zhǔn)差的樣本視為異常樣本,并通過刪除或替換異常值來修正數(shù)據(jù)。

        數(shù)據(jù)集成的目的是將來自不同數(shù)據(jù)源的數(shù)據(jù)集成為一個(gè)統(tǒng)一的數(shù)據(jù)集。在數(shù)據(jù)集成中,最基本的原理是數(shù)據(jù)匹配原則,即找到2 個(gè)數(shù)據(jù)集之間的聯(lián)系。例如可以使用聯(lián)合屬性或者主鍵等進(jìn)行數(shù)據(jù)匹配。

        數(shù)據(jù)轉(zhuǎn)換是指將數(shù)據(jù)從一種格式或結(jié)構(gòu)轉(zhuǎn)換為另一種格式或結(jié)構(gòu)。數(shù)據(jù)轉(zhuǎn)換的基本原理是給每個(gè)指標(biāo)賦予一個(gè)統(tǒng)一的比例尺,進(jìn)行轉(zhuǎn)換之前需要對(duì)數(shù)值型指標(biāo)進(jìn)行標(biāo)準(zhǔn)化、歸一化或離散化等操作。標(biāo)準(zhǔn)化是將數(shù)據(jù)縮放到均值為0、標(biāo)準(zhǔn)差為1 的區(qū)間內(nèi),常用的標(biāo)準(zhǔn)化方法是z-score 標(biāo)準(zhǔn)化方法,如公式(2)所示。

        式中:xi為原始數(shù)據(jù);為原始數(shù)據(jù)的平均值;σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

        歸一化是將數(shù)據(jù)縮放到[0,1],最常用的歸一化方法是min-max 歸一化方法,如公式(3)所示。

        式中:xi為原始數(shù)據(jù);min(X)和max(X)分別為原始數(shù)據(jù)的最小值和最大值。

        數(shù)據(jù)規(guī)約是將大量的數(shù)據(jù)精簡(jiǎn)為更小的數(shù)據(jù)集,以減少計(jì)算和存儲(chǔ)開銷。常用的規(guī)約方法包括抽樣、聚合、分區(qū)和維度規(guī)約等,其中抽樣和聚合是最常用的規(guī)約方法。

        1.2 大數(shù)據(jù)挖掘模型

        1.2.1 回歸分析

        線性回歸是回歸分析的一種經(jīng)典方法,可以預(yù)測(cè)因變量與一個(gè)或多個(gè)自變量之間的線性關(guān)系。其原理是尋找最佳擬合直線,使預(yù)測(cè)誤差最小。線性回歸如公式(4)所示。

        式中:y是因變量(要預(yù)測(cè)的變量);xk是自變量;βk是回歸系數(shù);ε是誤差項(xiàng)。

        1.2.2 分類

        XGBoost 是一種基于梯度提升樹(Gradient Boosting Decision Tree)的集成學(xué)習(xí)算法,通過多個(gè)決策樹的集成構(gòu)建1 個(gè)強(qiáng)分類器,其主要優(yōu)點(diǎn)是高效、可擴(kuò)展性強(qiáng)以及在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等。

        首先,對(duì)所有樣本賦予相同的權(quán)重,采用貪心算法,在當(dāng)前弱分類器的基礎(chǔ)上添加新的樹,并對(duì)樣本的權(quán)重進(jìn)行更新。其次,計(jì)算每個(gè)樹的貢獻(xiàn)和加權(quán)損失函數(shù),根據(jù)損失函數(shù)的梯度更新樹的葉子節(jié)點(diǎn)權(quán)重。最后,將多個(gè)樹的結(jié)果加權(quán)求和作為最終預(yù)測(cè)結(jié)果。XGBoost 常用的損失函數(shù)及其梯度公式如下。

        均方誤差(Mean Squared Error,MSE)如公式(5)所示。

        式中:yi為第i個(gè)樣本真實(shí)值;i為第i樣本預(yù)測(cè)值;梯度為-2(yi-i)。

        二分類交叉熵(Binary Logistic Loss)如公式(6)所示。

        式中:pi為屬于第i類的概率;,梯度為pi-yi。

        多分類交叉熵(Multi-class Logistic Loss)如公式(7)所示。

        式中:k為第k個(gè)樣本;yik為第i類中第k個(gè)樣本;pik為第k個(gè)樣本屬于第i類的概率;,梯度為pik-yik。

        在XGBoost 中,每棵樹的生成通過貪心算法實(shí)現(xiàn)。每次添加一個(gè)節(jié)點(diǎn)時(shí),計(jì)算該節(jié)點(diǎn)對(duì)損失函數(shù)的增益,將最大增益對(duì)應(yīng)的特征和節(jié)點(diǎn)值作為分裂點(diǎn)。節(jié)點(diǎn)分裂后,樣本被分配到左、右子樹中,并按照上述方式計(jì)算子樹的節(jié)點(diǎn),反復(fù)迭代直到滿足終止條件。

        XGBoost 通過多個(gè)弱分類器的集成來構(gòu)建一個(gè)強(qiáng)分類器,逐步減少模型誤差,具有高效、可擴(kuò)展性強(qiáng)、在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中表現(xiàn)良好等優(yōu)點(diǎn),是一種非常實(shí)用的機(jī)器學(xué)習(xí)算法。

        通過小米手環(huán)的功能更新,我們可以看到,公司研發(fā)過程中是向著大眾更易接受,且能夠更加科學(xué)化管理自己運(yùn)動(dòng)過程的,不斷的更新功能,讓手環(huán)的存在增加大眾運(yùn)動(dòng)的興趣性和精準(zhǔn)度,譬如心率的控制、卡路里的顯示、里程數(shù)的顯示等,都是努力地、無時(shí)不刻地提醒運(yùn)動(dòng)者運(yùn)動(dòng)要科學(xué)、要有數(shù)據(jù)、要精確。剛好這樣一個(gè)目標(biāo)與我們田徑教學(xué)的目標(biāo)有所契合,就是需要在教學(xué)過程中以教學(xué)目標(biāo)為指導(dǎo),精準(zhǔn)地制定教學(xué)內(nèi)容,而且能夠?qū)崟r(shí)控制教學(xué)節(jié)奏,幫助提高課程質(zhì)量,一切都不謀而合,所以引發(fā)我們的研究方向即小米手環(huán)在田徑教學(xué)過程中如何使用能夠讓田徑課程更加合理、科學(xué)化。

        1.2.3 聚類

        聚類模型是一種無監(jiān)督學(xué)習(xí)方法,用于將數(shù)據(jù)集中的樣本分為具有相似特征的群組或簇。聚類模型的目標(biāo)是在沒有事先標(biāo)記的情況下發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。

        常見的聚類算法包括K 均值聚類、層次聚類和DBSCAN等。這些算法的操作通常基于樣本之間的相似性或距離。

        1.2.4 關(guān)聯(lián)分析

        關(guān)聯(lián)分析是一種用于發(fā)現(xiàn)數(shù)據(jù)集中頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則的方法。是關(guān)聯(lián)分析中常見的公式如下。

        支持度(support)用于衡量一個(gè)項(xiàng)集在所有事務(wù)中出現(xiàn)的頻率。設(shè)D為數(shù)據(jù)集,X為項(xiàng)集,項(xiàng)集X的支持度如公式(8)所示。

        式中:|D|為數(shù)據(jù)集D中的事務(wù)總數(shù);t為特定事務(wù)。

        式中:support(X∪Y)為項(xiàng)集X與項(xiàng)集Y的并集在數(shù)據(jù)集D中的支持度;support(X)為項(xiàng)集X在數(shù)據(jù)集D中的支持度。

        提升度(lift)用于衡量關(guān)聯(lián)規(guī)則中項(xiàng)集X對(duì)項(xiàng)集Y的提升程度。提升度如公式(10)所示。

        式中:confidence(X->Y)為從項(xiàng)集X推導(dǎo)出項(xiàng)集Y的置信度;support(Y)為項(xiàng)集Y在數(shù)據(jù)集D中的支持度。

        以上是關(guān)聯(lián)分析中比較常見的3 個(gè)公式,即支持度、置信度和提升度。這些公式可以用于發(fā)現(xiàn)頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則,并應(yīng)用于市場(chǎng)籃子分析、推薦系統(tǒng)等領(lǐng)域。

        2 大數(shù)據(jù)技術(shù)在高校創(chuàng)業(yè)生態(tài)建設(shè)中的應(yīng)用

        2.1 高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集

        高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)如下:1)高校創(chuàng)業(yè)團(tuán)隊(duì)數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)團(tuán)隊(duì)總數(shù)、成立年限、核心成員人數(shù)以及所在院校專業(yè)領(lǐng)域等信息。2)創(chuàng)業(yè)項(xiàng)目數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)項(xiàng)目總數(shù)、所屬行業(yè)和領(lǐng)域、是否完成融資以及投資金額等信息。3)學(xué)校與外部合作機(jī)構(gòu)的數(shù)量和質(zhì)量數(shù)據(jù),包括與政府、企業(yè)、投資機(jī)構(gòu)等合作的數(shù)量、合作內(nèi)容以及合作效果等信息。4)各類支持服務(wù)平臺(tái)的數(shù)量和質(zhì)量數(shù)據(jù),包括創(chuàng)業(yè)孵化器、加速器、投資機(jī)構(gòu)等以及其提供的資源、服務(wù)、支持等信息。5)成功案例數(shù)量和質(zhì)量數(shù)據(jù),包括已經(jīng)成功上市或并購(gòu)的公司數(shù)量、獲得過獎(jiǎng)項(xiàng)或榮譽(yù)的創(chuàng)業(yè)項(xiàng)目數(shù)量等。6)師資力量和教育資源的數(shù)據(jù),包括創(chuàng)業(yè)導(dǎo)師、創(chuàng)業(yè)課程、創(chuàng)新實(shí)驗(yàn)室等資源數(shù)量和質(zhì)量信息。

        2.2 數(shù)據(jù)預(yù)處理

        2.2.1 數(shù)據(jù)清洗

        對(duì)高校創(chuàng)業(yè)生態(tài)檢測(cè)數(shù)據(jù)進(jìn)行去除重復(fù)數(shù)據(jù)、填補(bǔ)缺失值、修改數(shù)據(jù)類型等。對(duì)于“缺失值”,需要根據(jù)經(jīng)驗(yàn)進(jìn)行手工填寫;對(duì)于無法根據(jù)經(jīng)驗(yàn)填寫的“缺失值”,則采用該特征數(shù)據(jù)的平均值來代替。

        2.2.2 數(shù)據(jù)集成

        將高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)的6 種表格進(jìn)行數(shù)據(jù)集成,集成到一個(gè)綜合數(shù)據(jù)集并存儲(chǔ)。

        2.2.3 數(shù)據(jù)轉(zhuǎn)換

        將數(shù)據(jù)集中字符型數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),如“創(chuàng)業(yè)團(tuán)隊(duì)”“所在院校專業(yè)領(lǐng)域”“政府”“企業(yè)”和“投資機(jī)構(gòu)”等字符型變量轉(zhuǎn)成數(shù)值型變量,便于后面數(shù)據(jù)處理和模型建立。

        2.3 數(shù)據(jù)挖掘

        2.3.1 數(shù)據(jù)集劃分

        建立XGBoost 模型時(shí),先將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,用于模型訓(xùn)練、參數(shù)調(diào)整和模型評(píng)價(jià)。數(shù)據(jù)集劃分方法如下:1)訓(xùn)練集(Trainingset),用于模型的訓(xùn)練和參數(shù)估計(jì),占數(shù)據(jù)集的80%。2)驗(yàn)證集(Validationset),用于模型的選擇和調(diào)整,占數(shù)據(jù)集的10%。可以利用驗(yàn)證集來評(píng)估模型的泛化能力,選擇最優(yōu)的模型,并調(diào)整模型的超參數(shù)。3)測(cè)試集(Testset),用于模型的最終評(píng)價(jià)和預(yù)測(cè)精度的確定,占數(shù)據(jù)集的10%。使用測(cè)試集評(píng)估模型在未見過的新數(shù)據(jù)上的預(yù)測(cè)能力,以充分驗(yàn)證模型的有效性和泛化能力。

        隨機(jī)打亂每個(gè)數(shù)據(jù)集的數(shù)據(jù)順序,以確保訓(xùn)練集、驗(yàn)證集和測(cè)試集的數(shù)據(jù)分布相似,并保持隨機(jī)性的一致性,提高模型的魯棒性和泛化能力。

        2.3.2 特征提取和數(shù)據(jù)降維

        由于數(shù)據(jù)集特征維度比較多,并且全國(guó)高校歷年數(shù)據(jù)量比較龐大,為了降低模型的復(fù)雜度,提高模型的計(jì)算速度,因此需要對(duì)高校創(chuàng)業(yè)生態(tài)建設(shè)6 個(gè)維度的數(shù)據(jù)進(jìn)行特征降維,主要采用主成分分析。訓(xùn)練集數(shù)據(jù)主成分分析中的前3 個(gè)主成分得分圖如圖1 所示。

        圖1 主成分分析得分圖

        2.3.3 分類模型

        將創(chuàng)業(yè)生態(tài)建設(shè)成功的分為一類,標(biāo)記為0,創(chuàng)業(yè)生態(tài)建設(shè)失敗的分為另外一類,標(biāo)記為1。因此,該文是一個(gè)大數(shù)據(jù)挖掘技術(shù)的分類問題,并且是二分類的模型,可以采用XGBoost 方法建立分類模型。將高校創(chuàng)業(yè)生態(tài)建設(shè)數(shù)據(jù)集作為XGBoost 模型的訓(xùn)練數(shù)據(jù)集,利用樣本數(shù)據(jù)中的特征變量(如高校的師資力量、教育資源和創(chuàng)業(yè)項(xiàng)目質(zhì)量等)預(yù)測(cè)其類別變量(成功/失?。?。建模時(shí)采用交叉驗(yàn)證、正則化等技術(shù)來提高模型的預(yù)測(cè)精度和泛化能力。

        XGBoost 訓(xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率(learningrate)為0.005,樹的數(shù)量(n_estimators)為100,最大樹深度(max_depth)為50,列采樣比例(colsample_bytree)為0.6,正則化參數(shù)(lambda)為L(zhǎng)2 正則化。

        模型的ROC 曲線如圖2 所示。從圖2 可以看出曲線在左側(cè)和頂部的邊界很接近,說明分類器在很大程度上正確地識(shí)別了正例且假正例率較低。曲線下的面積(Area Under Curve,AUC)越大,說明模型的性能越好。圖2 的AUC 看起來比較高,表明分類器的性能較好。

        圖2 XGBoost 模型ROC 曲線

        2.3.4 結(jié)果與分析

        XGBoost 是一種由多個(gè)弱分類器的集成構(gòu)建的強(qiáng)分類器,可用于高校創(chuàng)業(yè)生態(tài)數(shù)據(jù)的分類和預(yù)測(cè)。該文通過標(biāo)注成功和失敗的創(chuàng)業(yè)項(xiàng)目,并結(jié)合項(xiàng)目特征,對(duì)高校創(chuàng)業(yè)團(tuán)隊(duì)、創(chuàng)業(yè)項(xiàng)目、學(xué)校與外部合作機(jī)構(gòu)、各類支持服務(wù)平臺(tái)、成功案例、師資力量和教育資源6 種類型數(shù)據(jù)進(jìn)行建模,利用XGBoost 模型進(jìn)行訓(xùn)練,從而預(yù)測(cè)并分析未來的創(chuàng)業(yè)項(xiàng)目。

        3 結(jié)論

        隨著大數(shù)據(jù)時(shí)代的到來,高??梢岳么髷?shù)據(jù)分析技術(shù),對(duì)創(chuàng)業(yè)生態(tài)數(shù)據(jù)進(jìn)行分析,從而建立更準(zhǔn)確、全面的模型預(yù)測(cè)。在該過程中,高校需要有足夠的存儲(chǔ)和計(jì)算資源,能夠處理海量且多樣化的數(shù)據(jù)。同時(shí),有效的數(shù)據(jù)清洗、特征選擇與降維、模型評(píng)估與優(yōu)化等步驟也極為關(guān)鍵。只有在這些步驟都得到充分考慮和實(shí)踐的情況下,才能得到質(zhì)量可靠的模型,進(jìn)而有效支持高校的創(chuàng)業(yè)活動(dòng)。

        利用大數(shù)據(jù)分析技術(shù)建立XGBoost 模型預(yù)測(cè),不僅可以輔助高校的創(chuàng)業(yè)支持工作,還可以幫助高校更好地理解創(chuàng)業(yè)生態(tài)、發(fā)現(xiàn)生態(tài)變化趨勢(shì)并及時(shí)調(diào)整創(chuàng)業(yè)政策和支持措施等,從而進(jìn)一步提升高校創(chuàng)業(yè)環(huán)境的競(jìng)爭(zhēng)力和吸引力,提高學(xué)校創(chuàng)新、創(chuàng)業(yè)的意識(shí)和能力。

        猜你喜歡
        項(xiàng)集創(chuàng)業(yè)項(xiàng)目分類器
        山西18個(gè)農(nóng)村創(chuàng)業(yè)項(xiàng)目獲資金補(bǔ)助
        促進(jìn)大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目可持續(xù)發(fā)展的路徑研究
        大學(xué)(2021年2期)2021-06-11 01:13:46
        學(xué)創(chuàng)業(yè)應(yīng)用 如何選擇做健康事業(yè) 范俊宏康復(fù) 火爆創(chuàng)業(yè)項(xiàng)目
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
        大學(xué)生創(chuàng)業(yè)項(xiàng)目實(shí)施的幾點(diǎn)體會(huì)
        一種頻繁核心項(xiàng)集的快速挖掘算法
        美女午夜福利视频网址| 中文字幕亚洲乱码熟女一区二区| 精品人妻潮喷久久久又裸又黄| 乱人伦视频69| 日韩欧美亚洲国产一区二区三区| 日本精品国产1区2区3区| 久久精品亚洲熟女九色| 在线观看亚洲第一黄片| 久久综合狠狠综合久久综合88| 少妇仑乱a毛片| 69久久夜色精品国产69| 另类欧美亚洲| 日本一道dvd在线中文字幕| 国产不卡视频一区二区在线观看 | 久久久久亚洲av成人人电影| 三年的高清电影免费看| 久久精品人人做人人综合| 无码中文av有码中文av| 少妇特殊按摩高潮对白| 邻居美少妇张开腿让我爽了一夜| 永久免费毛片在线播放| 强奷乱码中文字幕| 久久久久久人妻毛片a片| 亚洲成a人片在线| 日本熟妇高潮爽视频在线观看| 亚洲国产精品一区二区久久恐怖片| 亚洲av午夜福利精品一区二区| 国产91在线免费| 色老汉亚洲av影院天天精品| 99久久国内精品成人免费| 国产美女精品一区二区三区| 波多野结衣国产一区二区三区| 偷拍一区二区三区在线观看 | 国产精品18久久久白浆| 中文字幕日韩精品无码内射| 久久久精品国产亚洲成人满18免费网站| 最新亚洲av日韩av二区一区| 国产人妖视频一区二区| 少妇真人直播免费视频| 亚洲日本va午夜在线电影| 丰满人妻一区二区乱码中文电影网 |