亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素探究

        2019-01-12 07:33:22謝曉默林敏
        關(guān)鍵詞:文本因素大學(xué)生

        謝曉默,林敏

        ?

        基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素探究

        謝曉默,林敏

        (福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州,350116)

        在收集海量創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)基礎(chǔ)上,利用大數(shù)據(jù)分析手段,從大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層等三個(gè)層次,搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,嘗試用定量分析的方法探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素的具體占比,更有針對性指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實(shí)踐,為推動大眾創(chuàng)新、萬眾創(chuàng)業(yè)提供參考依據(jù)。

        大數(shù)據(jù)分析;大學(xué)生;創(chuàng)新創(chuàng)業(yè);影響因素

        一、前言

        當(dāng)下大數(shù)據(jù)被廣泛運(yùn)用在社會各個(gè)領(lǐng)域,悄然改變著人們的生產(chǎn)方式和生活方式。哪些主客觀因素影響大學(xué)生創(chuàng)新創(chuàng)業(yè),成為當(dāng)前高校創(chuàng)業(yè)教育的重要課題。綜觀國內(nèi)外研究情況,筆者發(fā)現(xiàn)國內(nèi)關(guān)于創(chuàng)新創(chuàng)業(yè)影響因素的研究起步較晚,研究成果不是很多,研究內(nèi)容更多體現(xiàn)在微觀層面;傳統(tǒng)研究方法多是通過問卷調(diào)查的形式,普遍存在分析方法單一,主觀性較強(qiáng),效度、信度欠佳等不足[1]。

        鑒于此,本研究試圖利用大數(shù)據(jù)分析具備海量的數(shù)據(jù)來源、高效的分析速率、準(zhǔn)確的結(jié)果判斷等特點(diǎn)[2],搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模 型,對當(dāng)前在校大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素展開實(shí)證研究。

        二、大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析模型構(gòu)建

        隨著信息技術(shù)的高速發(fā)展,以微博、微信、門戶網(wǎng)站等為代表的互聯(lián)網(wǎng)新媒體為大學(xué)生創(chuàng)新創(chuàng)業(yè)核心影響因素的分析帶來可能性[3]。從互聯(lián)網(wǎng)豐富的大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中提取影響因素,尤其探究對大學(xué)生創(chuàng)新創(chuàng)業(yè)影響的主要因素具有十分重大的現(xiàn)實(shí)意義。為此,本文從海量異構(gòu)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)入手,構(gòu)建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,通過對大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的采集、存儲、分析,探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素。

        該模型如圖1所示,分為三個(gè)層次,包括大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層。具體介紹如下:

        (一) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層

        主要包括采集清理和存儲兩個(gè)部分。

        (1) 數(shù)據(jù)采集清理。數(shù)據(jù)的采集是大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析首先需要解決的基礎(chǔ)性工作。網(wǎng)絡(luò)數(shù)據(jù)潛在分布廣、海量龐雜、多源異構(gòu),與此同時(shí),網(wǎng)絡(luò)中90%的數(shù)據(jù)存在于深網(wǎng)(例如微博、微信、電子期刊等)中,常規(guī)采集手段的覆蓋率無法滿足創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析的需求。

        針對互聯(lián)網(wǎng)數(shù)據(jù)特點(diǎn)以及常規(guī)采集手段存在的以上問題,本文構(gòu)建了一款基于THRIFT通信框架的分布式創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)采集方法。首先,針對數(shù)據(jù)泛在分布于互聯(lián)網(wǎng)及社交媒體的問題,構(gòu)建基于THRIFT通信框架的分布式架構(gòu),同時(shí)通過嵌入創(chuàng)新創(chuàng)業(yè)相關(guān)主題和種子URL定制、采集參數(shù)配置等模塊,實(shí)現(xiàn)可定制采集;其次,針對深網(wǎng)數(shù)據(jù),本文采用模擬用戶行為以及模擬登錄來爬取相應(yīng)信息;然后,針對數(shù)據(jù)動態(tài)增長的問題,本文采用基于BLOOM過濾器的判重方法,實(shí)現(xiàn)增量采集,使得日均采集量提升至單機(jī)的10倍以上;最后,針對海量龐雜和多源異構(gòu)問題,本文建立了基于網(wǎng)頁文本結(jié)構(gòu)的統(tǒng)一抽取框架,框架針對現(xiàn)有互聯(lián)網(wǎng)文本特點(diǎn),將其分為長、短文本兩部分,并針對長、短文本的各自特點(diǎn),采用不同的基于DOM樹結(jié)構(gòu)的文本抽取模型。

        圖1 大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析模型

        (2) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)存儲。目前,還未存在公開的針對大學(xué)生創(chuàng)新創(chuàng)業(yè)領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)構(gòu)建方法。以往單一數(shù)據(jù)庫只能存儲結(jié)構(gòu)化數(shù)據(jù),其無法滿足對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(如HTML等)的存儲需求。因此,本文嘗試創(chuàng)建一個(gè)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的統(tǒng)一表達(dá)方式。一方面,針對結(jié)構(gòu)化創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)(如信息的傾向性、信息所在領(lǐng)域等),本文利用關(guān)系數(shù)據(jù)庫進(jìn)行存儲,方便后續(xù)應(yīng)用層的查看;另一方面,對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),本文利用基于XML的多源異構(gòu)數(shù)據(jù)表示方法對抽取出的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)一表達(dá)。

        (二) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層

        主要包括創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的詞性分析、語義分析,聚類分析、分類分析以及相關(guān)度分析。

        (1) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)詞性分析、語義分析。針對互聯(lián)網(wǎng)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)難以統(tǒng)一表達(dá)的問題,該部分主要采用WORD2VEC技術(shù)對創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行詞性分析、語義分析,將其映射到統(tǒng)一的特征空間中,該部分分析的主要目的是從海量的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中挖掘出影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的因素。

        用規(guī)章管人管事 用制度治散治慢(鮑建平) ................................................................................................. 2-17

        (2) 創(chuàng)新創(chuàng)業(yè)影響因素聚類分析。該部分分析主要采用SINGLEPASS聚類方法對2.2.1的數(shù)據(jù)聚集出大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素。

        (3) 創(chuàng)新創(chuàng)業(yè)影響因素分類分析?;?.2.2挖掘出的影響因素對大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響程度存在較大差異,因此該部分采用基于互信息的特征選擇方法,對創(chuàng)新創(chuàng)業(yè)的主要影響因素進(jìn)行特征選擇,由此將創(chuàng)新創(chuàng)業(yè)的影響因素按其影響程度大小進(jìn)行有序排列。

        (三) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層

        該層主要功能是對分析層的結(jié)果進(jìn)行可視化展示。應(yīng)用場景包括大學(xué)生創(chuàng)新創(chuàng)業(yè)熱點(diǎn)需求分析、大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目跟蹤、大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析等。大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層涵蓋的領(lǐng)域廣,內(nèi)容豐富,前景可觀??紤]到本文重點(diǎn)研究大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析,故而針對大學(xué)生創(chuàng)新創(chuàng)業(yè)的其他應(yīng)用方向暫不做展開。

        三、基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素

        從本文構(gòu)建的平臺出發(fā),通過采集存儲互聯(lián)網(wǎng)中海量的創(chuàng)新創(chuàng)業(yè)信息,利用大數(shù)據(jù)分析技術(shù),探究影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素,根據(jù)影響因素的大小進(jìn)行排序。

        (一) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的采集與抽取

        底層數(shù)據(jù)的好壞關(guān)系到大數(shù)據(jù)分析質(zhì)量的高低,這要求采集的互聯(lián)網(wǎng)數(shù)據(jù)源覆蓋廣,實(shí)時(shí)性高,數(shù)據(jù)量大。

        為此,在數(shù)據(jù)源的選取上,本文利用互聯(lián)網(wǎng)分布式采集系統(tǒng),從搜索引擎、門戶網(wǎng)站、微博、微信、論壇、電子報(bào)紙、電子期刊等媒介中采集信息。其中,搜索引擎涵蓋當(dāng)下主流引擎“百度搜索”“搜狗搜索”等;門戶網(wǎng)站采集涵蓋主流大門戶“新浪網(wǎng)”“鳳凰網(wǎng)”,各創(chuàng)新創(chuàng)業(yè)相關(guān)門戶網(wǎng)站如“中青在線-創(chuàng)家”以及各類名人或商界訪談門戶網(wǎng)站如“極客網(wǎng)訪談”等;微博數(shù)據(jù)來源于時(shí)下熱門社交網(wǎng)絡(luò)平臺“新浪微博”;貼吧采集目標(biāo)為主流貼吧提供商“百度”“天涯”和“貓撲”等;電子期刊采集范圍為近五年來各期刊會議所發(fā)表的與創(chuàng)新或創(chuàng)業(yè)因素相關(guān)的論文。數(shù)據(jù)來源基本達(dá)到上述要求。具體如表1所示。

        表1 數(shù)據(jù)源部分列表

        為了讓多源異構(gòu)信息結(jié)構(gòu)化成大數(shù)據(jù)分析方法所能利用的信息,針對門戶網(wǎng)站、搜索引擎等長文本網(wǎng)頁內(nèi)容,采用基于DOM樹的文本密度算法進(jìn)行信息抽??;針對貼吧、微博等短文本內(nèi)容,文本采用基于 DOM 樹層次特征的多記錄網(wǎng)頁抽取算法進(jìn)行網(wǎng)頁源碼的文字識別,基于以上兩項(xiàng)技術(shù),多源異構(gòu)網(wǎng)頁信息的識別率高于90%,能夠保證網(wǎng)頁關(guān)鍵信息不遺漏。最后,在數(shù)據(jù)分類上,以長文本、微博、貼吧、微信、期刊論文為分類依據(jù),方便接下去的大數(shù)據(jù)分析進(jìn)行有針對性的因素識別。綜上,本文對采集到的數(shù)據(jù)進(jìn)行了統(tǒng)計(jì),結(jié)果如圖2所示。

        圖2 數(shù)據(jù)源餅狀圖

        (二) 大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素分析

        通過觀察數(shù)據(jù)可知,互聯(lián)網(wǎng)數(shù)據(jù)中蘊(yùn)含大量大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素,同時(shí),不同因素間存在一定的聯(lián)系,例如“創(chuàng)新教育”與“創(chuàng)業(yè)教育”,兩者通常描述一類事物。基于以上觀察結(jié)果,本文提出了一種基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別方法,該方法首先通過WORD2VEC內(nèi)在向量化文本,然后使用SINGLEPASS聚類方法聚合同類影響因子,以更加精確化描述影響因素以及減少冗余度,最后采用線性回歸的方法對各影響因素進(jìn)行權(quán)重計(jì)算,并依權(quán)數(shù)大小進(jìn)行 排序。

        1. 基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別

        WORD2VEC可以把對文本內(nèi)容的處理簡化為向量空間中的向量運(yùn)算,通過計(jì)算出向量空間上的相似度,來表示文本語義上的相似度。WORD2VEC因其效率高、效果好,被廣泛應(yīng)用在語義分析之中。同時(shí),WORD2VEC適合于一個(gè)序列的數(shù)據(jù),在序列局部數(shù)據(jù)間存在著很強(qiáng)的關(guān)聯(lián)。因此,針對本文數(shù)據(jù)中各創(chuàng)新創(chuàng)業(yè)因素存在的相關(guān)性,WORD2VEC能夠較好地將文本數(shù)據(jù)進(jìn)行向量化。

        SINGLEPASS 算法是一種流式的聚類算法,每個(gè)數(shù)據(jù)只會參與一次樣本聚類,聚類結(jié)果與數(shù)據(jù)的先后順序有一定的依賴關(guān)系。SINGLEPASS算法是一種增量算法,適合對流數(shù)據(jù)進(jìn)行挖掘,而且算法的時(shí)間效率高。因此,針對本文增量采集的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù),SINGLEPASS能夠快速從各種創(chuàng)新創(chuàng)業(yè)因素中聚合得到相應(yīng)的因素類簇。

        基于以上兩個(gè)方法,本文首先將采集到的創(chuàng)新創(chuàng)業(yè)影響因素相關(guān)文本數(shù)據(jù)分詞,然后過濾停用詞、常用詞等得到候選詞組集合;然后用WORD2VEC計(jì)算候選詞組集合中每一個(gè)詞組的詞向量;接著利用SINGLEPASS聚類方法對每個(gè)詞組進(jìn)行聚類,計(jì)算結(jié)果如表2所示。其中,簇類標(biāo)簽由人工給出,本文首先挑選三名有標(biāo)注經(jīng)驗(yàn)并且有創(chuàng)新創(chuàng)業(yè)相關(guān)經(jīng)驗(yàn)的人員分別對這些類簇打上簇類標(biāo)簽,然后利用投票的方式得到簇類名稱。

        表2 部分類簇關(guān)鍵詞

        2. 基于線性回歸的創(chuàng)新創(chuàng)業(yè)影響因素分析

        線性回歸分析方法是確定兩種或兩種以上變量間相互之間的相關(guān)關(guān)系的一種分析方法,其廣泛應(yīng)用于大數(shù)據(jù)分類計(jì)算、特征選擇等分析領(lǐng)域。因此,利用線性回歸的方法能夠較好地滿足創(chuàng)新創(chuàng)業(yè)影響因素分析的需要。

        首先,本文對采集到的數(shù)據(jù)進(jìn)行人工篩選和分類,一類為創(chuàng)新創(chuàng)業(yè)相關(guān)數(shù)據(jù),另一類為非創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)。

        接著,利用3.2.1得到的結(jié)果,將每一個(gè)類簇當(dāng)作一個(gè)特征,對所有采集到的數(shù)據(jù)進(jìn)行特征向量化,本文定義每篇文檔的特征向量如下:

        經(jīng)過上述步驟,所有的文檔數(shù)據(jù)就用特征向量來表示,利用線性回歸的方法對所有文檔的特征向量進(jìn)行分析,線性回歸的公式如下:

        表3 部分類簇占比情況

        由表3結(jié)果可知,機(jī)會、自我效能感、創(chuàng)新創(chuàng)業(yè)環(huán)境、師資力量、人格特征等對大學(xué)生創(chuàng)新創(chuàng)業(yè)都存在著影響,其影響隨著占比比例的減小而相應(yīng)減弱。

        綜上,本文的研究得出了大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素的具體占比,這將更有針對性地指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實(shí)踐。

        [1] 叢明,寇福生,王詩白.“互聯(lián)網(wǎng)+”背景下的研究生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)研究與實(shí)踐[J].時(shí)代教育,2017(09): 44-45.

        [2] 鄭石明.大數(shù)據(jù)驅(qū)動創(chuàng)新創(chuàng)業(yè)教育變革:理論與實(shí)踐[J].清華大學(xué)教育研究,2016(03):65-73.

        [3] 藍(lán)榮聰,陳永福.大數(shù)據(jù)視域下大學(xué)生創(chuàng)新能力培養(yǎng)的思考[J].思想教育研究, 2014(11):70-72.

        2018-02-08;

        2018-12-11

        福州大學(xué)教育管理研究專項(xiàng)課題研究成果“大數(shù)據(jù)在高校創(chuàng)新創(chuàng)業(yè)教育中的理論探討與實(shí)踐”(16SKZ30)

        謝曉默(1962—),男,福建古田人,福州大學(xué)副研究員,主要研究方向:思想政治教育;林敏(1990—),女,福建福清人,福州大學(xué)講師,主要研究方向:思想政治理論與實(shí)踐,聯(lián)系郵箱:352914127@qq.com

        G641

        A

        1674-893X(2018)06?0049?05

        [編輯:何彩章]

        猜你喜歡
        文本因素大學(xué)生
        解石三大因素
        中國寶玉石(2019年5期)2019-11-16 09:10:20
        在808DA上文本顯示的改善
        帶父求學(xué)的大學(xué)生
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        大學(xué)生之歌
        黃河之聲(2017年14期)2017-10-11 09:03:59
        短道速滑運(yùn)動員非智力因素的培養(yǎng)
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        讓大學(xué)生夢想成真
        中國火炬(2013年7期)2013-07-24 14:19:23
        他把孤兒院辦成大學(xué)生搖籃
        中國火炬(2010年9期)2010-07-25 11:45:09
        国产精品很黄很色很爽的网站| 亚洲人成色7777在线观看| 少妇丰满大乳被男人揉捏视频| 少妇邻居内射在线| 韩国日本亚洲精品视频| 日韩精品少妇专区人妻系列| 人妖啪啪综合av一区| 午夜精品久久久久久久久| 久久超碰97人人做人人爱| 国产精品久免费的黄网站| 日本三级欧美三级人妇视频黑白配| 亚洲综合无码一区二区三区| 欧美a视频在线观看| 久久精品国产亚洲av麻豆四虎| 日本免费精品免费视频 | 91精品日本久久久久久牛牛| 一个人的视频免费播放在线观看| 国产精品成人自拍在线观看| 国产精品无码素人福利不卡| 久久天天躁狠狠躁夜夜不卡| 亚洲国产长腿丝袜av天堂| 91啦视频在线观看| 69精品人妻一区二区| 99精品人妻少妇一区二区三区| 亚洲av男人的天堂在线| 国产精品一区二区三区专区| 人妻无码中文字幕| 国产手机在线αⅴ片无码观看| 国产av色| 91热久久免费频精品99| 五月激情综合婷婷六月久久| 亚洲国产天堂久久综合| 四房播播在线电影| 亚洲伦理一区二区三区| 久久精品国产亚洲av蜜臀久久| 亚洲天堂精品一区入口| 亚洲av无码成人精品区狼人影院| 午夜不卡av免费| 毛片在线啊啊| 麻豆成人久久精品二区三区免费| 精品国产一区二区三区av|