亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊應(yīng)用分析與設(shè)計

        2022-11-18 10:35:16周勁廷
        中國新技術(shù)新產(chǎn)品 2022年16期
        關(guān)鍵詞:個數(shù)聚類模塊

        劉 謙 周勁廷 羅 晶

        (湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)

        0 引言

        隨著互聯(lián)信息技術(shù)的快速發(fā)展,大數(shù)據(jù)呈正相關(guān)趨勢發(fā)展[1]。同樣,各行各業(yè)為掌握市場信息,通常以建立信息資源庫來了解市場實時動態(tài),進(jìn)而推動行業(yè)發(fā)展。

        目前,為加強對學(xué)生創(chuàng)新創(chuàng)業(yè)的了解,部分高校進(jìn)行了大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計,一方面,通過單獨的系統(tǒng)進(jìn)行信息整合,避免信息冗雜,進(jìn)而建立高校與學(xué)生的信息交互平臺;另一方面,進(jìn)行數(shù)據(jù)可視化分析,通過大數(shù)據(jù)信息整理,可了解行業(yè)發(fā)展趨勢、創(chuàng)業(yè)項目概況、學(xué)校項目支持、項目發(fā)展進(jìn)度等內(nèi)容,進(jìn)而促進(jìn)學(xué)生創(chuàng)新創(chuàng)業(yè)發(fā)展。另外,授人以魚不如授人以漁,在市場的競爭中,老師們不可能給他們創(chuàng)造真正的“項目創(chuàng)意”,也不可能給他們創(chuàng)造一個好的創(chuàng)業(yè)環(huán)境,在課堂上無法培養(yǎng)出學(xué)生的實戰(zhàn)能力。所以,在網(wǎng)絡(luò)快速發(fā)展的今天,提高高校信息化水平和大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺服務(wù)能力已成為當(dāng)下高校工作的重點。各大高校需要建立創(chuàng)新創(chuàng)業(yè)平臺,并進(jìn)行大數(shù)據(jù)分析,這對培養(yǎng)學(xué)校創(chuàng)新創(chuàng)業(yè)方面的人才具有非常實際的意義。所以該文設(shè)計和構(gòu)建了大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺,并進(jìn)行大數(shù)據(jù)處理,為大學(xué)生學(xué)習(xí)提供資源和數(shù)據(jù)支持,進(jìn)一步提高學(xué)生的創(chuàng)新創(chuàng)業(yè)能力。

        1 大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊應(yīng)用分析

        1.1 大數(shù)據(jù)模塊應(yīng)用分析方法

        當(dāng)前,部分高校的各類工作大都是以手工方式進(jìn)行,信息分散在校園各個單位和個人手里,各個部門相互聯(lián)系較少,信息交互性差,使有關(guān)校園領(lǐng)導(dǎo)和主管干部難以形成一個完整的認(rèn)識,無法準(zhǔn)確地了解學(xué)生創(chuàng)新創(chuàng)業(yè)活動的現(xiàn)狀,也就無法制定出有針對性的相關(guān)政策,這對創(chuàng)新創(chuàng)業(yè)工作的有效開展是非常不利的。另一方面,企業(yè)的創(chuàng)新性工作不斷深化,資料日益增多,但也日益零散,因此對大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行整合,了解數(shù)據(jù)動態(tài)、學(xué)生創(chuàng)業(yè)項目、項目領(lǐng)域等內(nèi)容是十分必要的?!按髮W(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)處理”可保證學(xué)生能對大數(shù)據(jù)處理信息進(jìn)行整合劃分,以便學(xué)生做好規(guī)劃,實施項目。

        為保證數(shù)據(jù)的有效性,該系統(tǒng)設(shè)計主要圍繞數(shù)據(jù)相關(guān)算法、數(shù)據(jù)爬取、數(shù)據(jù)清洗等方面進(jìn)行研究,其中在對大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊進(jìn)行應(yīng)用分析時發(fā)現(xiàn),爬取數(shù)據(jù)并不能直接利用,需要對數(shù)據(jù)進(jìn)行聚類分析,才能了解大學(xué)生在各行業(yè)的創(chuàng)業(yè)情況和側(cè)重行業(yè),進(jìn)而為大學(xué)生創(chuàng)業(yè)提供幫助。

        1.1.1 模糊集

        模糊集合是用來表達(dá)模糊性概念的集合。在大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中創(chuàng)業(yè)項目與行業(yè)有關(guān),通過模糊集并利用項目相關(guān)度對內(nèi)容進(jìn)行劃分,有助于數(shù)據(jù)進(jìn)行聚類分析。

        先給定U為區(qū)域,那么從U到單位區(qū)間[0,1] 的映射μA:U→[0,1]是U上的一個模糊集(或模糊子集)[2]。映射μA(x)是函數(shù),叫作模糊集A的隸屬函數(shù):對每個x∈U,μA(x)叫作元素x對模糊集A的隸屬度。μA(x)的值越接近于1,表示x隸屬于A的程度越大;μA(x)的值越接近于0,表示隸屬于A的程度越小。

        1.1.2 聚類分析

        聚類分析是將一個數(shù)據(jù)對象的集合歸并,以相似的物體構(gòu)成的多個類別進(jìn)行歸類的方法。在數(shù)據(jù)分析之前,需要先查看大學(xué)生創(chuàng)業(yè)網(wǎng)數(shù)據(jù),包括行業(yè)數(shù)據(jù)中是否有異常值、無效樣本等,這樣能保證數(shù)據(jù)有效聚類。如果有異常值則需要進(jìn)行處理,然后再進(jìn)行分析。如圖1所示,根據(jù)不同的數(shù)據(jù)的間距來進(jìn)行聚類,并將相鄰的數(shù)據(jù)物件分成一簇。

        根據(jù)圖1所示,進(jìn)行大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析時主要采用聚類算法,在聚類算法中“+”為聚類中心,進(jìn)行聚類中心的選定時,可對大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)和群集的關(guān)聯(lián)程度進(jìn)行運算,獲得最佳的聚類中心。數(shù)據(jù)根據(jù)關(guān)聯(lián)性可劃分為一個類別,將聚類中心的輸出數(shù)據(jù)用作該算法的聚類中心,保證各類別信息數(shù)據(jù)準(zhǔn)確。

        1.2 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)聚類分析

        將大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計數(shù)據(jù)分為4種類型,利用隸屬函數(shù)實現(xiàn)這4種類型(數(shù)值型、布爾型、空值和類屬型)的數(shù)據(jù)的初始化處理[3]。

        1.2.1 布爾屬性的的隸屬函數(shù)

        布爾屬性值相對來說較為簡單,在該次分析中以布爾形式存在。N是“是”或者“否”的個數(shù),則隸屬函數(shù)如公式(1)所示。

        在該次分析中以布爾形式存在。N是“是”或者“否”的個數(shù),則隸屬函數(shù)如公式(1)所示。

        式中:n為U中數(shù)據(jù)的總個數(shù);U為數(shù)據(jù)域。

        1.2.2 數(shù)值屬性的隸屬函數(shù)

        I是總類數(shù),Ci是第i個類,N(Ci)是類Ci包括的屬性值的個數(shù),則隸屬函數(shù)如公式(2)所示。

        1.2.3 類屬屬性值的隸屬函數(shù)

        類屬屬性值的隸屬函數(shù),是從有限分類集中取得某一類值。劃分相同屬性值為同一類,并需要考慮各類屬性值個數(shù)在總的分類集中所占的比例。

        J是屬性的分類數(shù),Cj是第j個類,N(Cj)是類Cj包括的屬性值的個數(shù),則類屬屬性值的隸屬函數(shù)如公式(3)所示。

        1.2.4 空值屬性值的隸屬函數(shù)

        空值屬性值對應(yīng)于其所屬的屬性值特性,如果某個屬性的空值個數(shù)和總的元素個數(shù)之比例超過限定閩值Z0,可以在聚類分析時不考慮此屬性;對比例低于Z0的屬性,可設(shè)定3個等級(高、中、低),對應(yīng)空值的個數(shù)所占總數(shù)的比例,分為高、中、低隸屬度,其隸屬函數(shù)如公式(4)所示。

        式中:Cij是第i個元素、第j個屬性的屬性值;r0為空值所占比例;h0為高比例閩值;l0為低比例閾值。

        1.3 初始化數(shù)據(jù)的聚類

        初始化數(shù)據(jù)的聚類可采用模糊矩陣聚類方法。設(shè)論域為U,元素個數(shù)為|U|,進(jìn)行聚類的步驟如下:

        根據(jù)歐幾里得距離公式,R的階數(shù)為|U|,計算R矩陣的元素rij;經(jīng)過計算后得到R矩陣,見表1,大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計大數(shù)據(jù)處理模塊模糊相似關(guān)系矩陣如公式(5)所示,通過表1可以劃分創(chuàng)業(yè)數(shù)據(jù)信息。

        表1 聚類分析分類表

        式中:M為屬性個數(shù);Sik為第i行、第k列的屬性值。

        表1是利用大學(xué)生創(chuàng)業(yè)網(wǎng)數(shù)據(jù)信息進(jìn)行聚類分析的,主要采用2021年數(shù)據(jù)進(jìn)行數(shù)據(jù)爬取以及數(shù)據(jù)聚類分析,并根據(jù)行業(yè)、地區(qū)、項目等指標(biāo)進(jìn)行數(shù)據(jù)可視化分析,進(jìn)而建立系統(tǒng)數(shù)據(jù)圖表,有利于大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺信息推送,并給相關(guān)學(xué)生給予數(shù)據(jù)指導(dǎo)。

        2 大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊應(yīng)用設(shè)計

        2.1 系統(tǒng)功能構(gòu)建分析

        該系統(tǒng)爬取主要針對網(wǎng)站信息(全國大學(xué)生創(chuàng)業(yè)服務(wù)網(wǎng)ncss.cn)進(jìn)行爬取,因此選用較為簡單的BS4框架進(jìn)行數(shù)據(jù)爬取[4]。相比XPath和正則表達(dá)式,BS4語法更簡單易懂。其主要步驟如下:1) 進(jìn)行數(shù)據(jù)爬取時,需要導(dǎo)入Requests庫和BeautifulSoup庫函數(shù)。2)使用Requests抓取全國大學(xué)生創(chuàng)業(yè)服務(wù)網(wǎng),把要爬取的整個頁面抓取下來。3)使用BeautifulSoup中的find()和find_all()抓取需要的標(biāo)簽內(nèi)容。

        因為網(wǎng)頁數(shù)據(jù)可能會涉及翻頁,所以需要設(shè)計循環(huán)控制爬取的目標(biāo)網(wǎng)頁范圍。爬到數(shù)據(jù)并不能夠直接使用,需要進(jìn)行預(yù)處理。另外,數(shù)據(jù)為jason格式,因此使用jason.loads將其轉(zhuǎn)化為數(shù)組,需要進(jìn)行去除空數(shù)據(jù)和錯誤數(shù)據(jù)。處理完畢后保存到本地備用。

        大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺其系統(tǒng)總體的E-R圖,如圖2所示。

        如圖2所示,平臺是基于學(xué)生構(gòu)建的,所以需要為學(xué)生提供有效數(shù)據(jù)。建立大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺時,可通過Wiki的技術(shù)結(jié)構(gòu)模型來實現(xiàn)學(xué)習(xí)資源的開發(fā),既可以實現(xiàn)自身的功能,并根據(jù)學(xué)員具體的學(xué)習(xí)需要與學(xué)校的教學(xué)內(nèi)容、社會工作信息等進(jìn)行對接,借助平臺的語義關(guān)聯(lián)進(jìn)行各方數(shù)據(jù)信息的精準(zhǔn)連接,也可以將其納入校園整體教育教學(xué)平臺當(dāng)中作為一個子模塊。該系統(tǒng)的主要實體包括課程、設(shè)施、團(tuán)隊、指導(dǎo)老師、項目、報告、項目成績、計算公式、評審成績、評審指標(biāo)等,在分析各實體之間的關(guān)系后形成了該系統(tǒng)的邏輯模型。

        圖2 系統(tǒng)架構(gòu)圖

        2.2 大數(shù)據(jù)模塊應(yīng)用詳細(xì)設(shè)計

        2.2.1 數(shù)據(jù)獲取

        該系統(tǒng)經(jīng)由Python軟件爬蟲,主要通過Requests庫爬取大學(xué)生創(chuàng)業(yè)網(wǎng)https://cy.ncss.cn/search/projects,進(jìn)行數(shù)據(jù)分析,以建立大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺數(shù)據(jù)信息庫,為大學(xué)生創(chuàng)業(yè)提供優(yōu)質(zhì)服務(wù)。

        2.2.2 數(shù)據(jù)爬取

        該系統(tǒng)進(jìn)行數(shù)據(jù)爬取,在https://cy.ncss.cn/search/projects需要登錄才能顯示頁面。

        數(shù)據(jù)來源:發(fā)送請求時,請求要帶上Cookie,然后使用Session去get(獲得)“https://cy.ncss.cn/search/projects”數(shù)據(jù)。

        數(shù)據(jù)爬?。簲?shù)據(jù)本系統(tǒng)采用Scrapy進(jìn)行爬蟲,利用純Python代碼實現(xiàn)的一種高層次的、快速的屏幕抓取和網(wǎng)頁抓取框架,用于從指定Web頁面中抓取數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)。在爬蟲技術(shù)中,大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計的大數(shù)據(jù)模塊中的Scrapy用于對URL進(jìn)行抓取,然后調(diào)用BeautifulSoup庫對抓取的網(wǎng)頁進(jìn)行解析,獲取相關(guān)數(shù)據(jù)。通過網(wǎng)站獲取數(shù)據(jù),對所在領(lǐng)域、學(xué)科成果轉(zhuǎn)化、融資階段以及所在區(qū)域等數(shù)據(jù)能夠有效進(jìn)行數(shù)據(jù)爬取,經(jīng)由聚類分析進(jìn)行數(shù)據(jù)清洗,利用F12打開開發(fā)者工具,可獲得數(shù)據(jù)。代碼如下:

        2.2.3 大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊數(shù)據(jù)爬取結(jié)果分析

        進(jìn)行大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺數(shù)據(jù)爬取時,主要采用模糊算法和聚類算法[5]。為了有更精確的精度控制,可以使用NumPy擴(kuò)展庫。使用round()內(nèi)置方法,round()如果只有一個數(shù)作為參數(shù),不指定位數(shù)時,返回的是一個整數(shù),而且是最靠近的整數(shù)(這點類似四舍五入)。但是當(dāng)出現(xiàn)“.5”時,兩邊的距離都一樣,round()取靠近的偶數(shù),例如round(2.5)=2。當(dāng)指定取舍的小數(shù)點位數(shù)時,一般情況也是使用四舍五入的規(guī)則,但是碰到0.5這樣的情況,如果要取舍的位數(shù)前的小數(shù)是奇數(shù),則直接舍棄,遇到偶數(shù)時則向上取舍。

        該大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺爬蟲系統(tǒng)的爬取對象選取大學(xué)生創(chuàng)業(yè)網(wǎng),因為網(wǎng)站都開放了點擊數(shù)量查詢,系統(tǒng)爬取可通過更改URL的pageIndex參數(shù)即可獲取每頁的數(shù)據(jù),其編寫步驟如下:1)寫請求頭Header和URL。2)獲取頁面。3)提取數(shù)據(jù),翻頁,寫入Excel中,并形成excel數(shù)據(jù)統(tǒng)計表。代碼如下:

        該數(shù)據(jù)結(jié)果可采用vue.js實現(xiàn),在該業(yè)務(wù)類中完成在前端界面中的展示,當(dāng)前臺用戶注冊后,會通過與后臺處理自然語言的算法來處理前臺傳回的數(shù)據(jù)??蛇M(jìn)行操作數(shù)據(jù)庫,然后把結(jié)果返回給前端網(wǎng)頁數(shù)據(jù)以圖和文字的形式提現(xiàn)到前端界面。

        3 結(jié)語

        該文對大學(xué)生創(chuàng)新創(chuàng)業(yè)平臺設(shè)計中大數(shù)據(jù)模塊進(jìn)行了論述,分析了該系統(tǒng)大數(shù)據(jù)模塊的基本算法,并進(jìn)行數(shù)據(jù)采集,通過獲取URL、響應(yīng)內(nèi)容、數(shù)據(jù)提取、數(shù)據(jù)清洗、數(shù)據(jù)持久化等,根據(jù)爬蟲實際情況進(jìn)行項目名、省份以及領(lǐng)域等多元素的分類和數(shù)據(jù)統(tǒng)計,并加以處理,在PyCharm中運行Python API類,使項目等信息可在注冊過的用戶中展示,游客登錄時展示的則是空白信息,同時采用vue.js實現(xiàn)對前端頁面的可視化。

        猜你喜歡
        個數(shù)聚類模塊
        28通道收發(fā)處理模塊設(shè)計
        “選修3—3”模塊的復(fù)習(xí)備考
        怎樣數(shù)出小正方體的個數(shù)
        等腰三角形個數(shù)探索
        怎樣數(shù)出小木塊的個數(shù)
        怎樣數(shù)出小正方體的個數(shù)
        基于DBSACN聚類算法的XML文檔聚類
        電子測試(2017年15期)2017-12-18 07:19:27
        基于改進(jìn)的遺傳算法的模糊聚類算法
        選修6 第三模塊 International Relationships
        一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
        亚洲精品第一页国产精品| 亚洲国产精品无码久久一区二区| 国产xxx69麻豆国语对白| 天天躁日日躁狠狠躁人妻| 国产精品无码久久久久久久久作品| 亚洲一区亚洲二区中文字幕| 国产无套中出学生姝| 老熟女重囗味hdxx70星空| 任你躁国产自任一区二区三区 | 国产丝袜在线福利观看| 国产高颜值女主播在线| 国产性生大片免费观看性| 不卡视频一区二区三区| 日本不卡一区二区三区在线| 91伦理片视频国产精品久久久| 亚洲综合色区另类av| 亚洲视频99| 国产av在线观看91| 亚洲成av人片在www鸭子| 无码一区二区三区在线 | 亚洲国产一区二区网站| 国产精品扒开腿做爽爽爽视频 | 国产av熟女一区二区三区蜜臀| 日韩日韩日韩日韩日韩日韩日韩| 亚洲精品久久中文字幕| 亚洲女同成av人片在线观看 | 久久aⅴ人妻少妇嫩草影院| 免费毛片性天堂| 日本一区二区偷拍视频| 久久精品国产亚洲av麻豆长发| 国产精品国产三级国av| 久久91精品国产91久久麻豆| 精品一区二区在线观看免费视频| 777亚洲精品乱码久久久久久| 亚洲色AV性色在线观看 | 成人午夜免费福利| 91盗摄偷拍一区二区三区| 成人国产精品一区二区网站公司 | 亚洲五月七月丁香缴情| 中文字幕乱码日本亚洲一区二区| 中文字幕乱偷无码av先锋蜜桃|