亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Python在學院招生數(shù)據(jù)分析中的應用

        2018-01-04 11:35:20葉惠仙
        計算機時代 2018年11期
        關鍵詞:招生算法

        葉惠仙

        摘 要: 在大數(shù)據(jù)的今天,Python豐富的工具包在科學計算、文件處理、數(shù)據(jù)可視化等領域越來越凸顯其價值。使用Python對學院招生的生源地信息數(shù)據(jù)進行篩選,清洗,統(tǒng)計、分析得到可視化圖像數(shù)據(jù)。通過這些數(shù)據(jù),采用算法對下一年學院招生數(shù)進行預測,給招生管理提供數(shù)據(jù)支持,也為學院長遠的招生規(guī)劃提供參考。

        關鍵詞: Python; 招生; 生源地; 算法; 行為預測

        中圖分類號:TP393 文獻標志碼:A 文章編號:1006-8228(2018)11-102-05

        Abstract: In big data's today, Python's rich toolkits are increasingly highlighting their value in areas such as scientific computing, file processing, and data visualization. Use Python to filter, clean, statistical, and analyze the data of the students' enrollment information to obtain visual image data. With these data, algorithm is used to predict the number of college enrollment in the next year, providing data support for enrollment management, and also providing reference for the college's long-term enrollment plan.

        Key words: Python; enrollment; student source; algorithm; behavior prediction

        0 引言

        Python是目前市面上用于大數(shù)據(jù)分析的優(yōu)先選擇,Python數(shù)據(jù)分析功能強大、全面,從數(shù)據(jù)抽取、收集整理、分析挖掘及展示,都可以在同一種 Python里實現(xiàn),避免了開發(fā)程序的切換,Python的數(shù)據(jù)挖掘能力和產品構建能力兼而有之,是跨平臺且開源的技術、成本又小。南大教育基金會通過數(shù)據(jù)分析出被受資助的學生對像,就直接將補款打入學生餐卡,而學生無需填表,不用審核,而避免了“假”貧困生;Knewton利用大數(shù)據(jù)分析來幫助學生設計個性化課程,讓課程和教科書能夠適應每個學生的差異,學生可以按照自己的節(jié)奏來控制學習進度,面不受到周圍其他學生的行業(yè)影響[1]。

        大數(shù)據(jù)正在成為促進組織創(chuàng)新、產業(yè)升級和經濟發(fā)展的強大驅動力。其中,教育領域被認為是一個大數(shù)據(jù)的重要應用領域,研究大數(shù)據(jù)應用與教育領域的深度融合,是我國教育發(fā)展的現(xiàn)實需求和未來趨勢。

        1 Python在數(shù)據(jù)分析中的應用

        數(shù)據(jù)時代,通過數(shù)據(jù)分析挖掘數(shù)據(jù)的價值,Pythony就是很好的選擇,它包含了Numpy、Pandas、Matplotlib、Scipy 、Ipython等主要數(shù)據(jù)分析庫,當掌握并熟悉了這些數(shù)據(jù)分析庫的使用方法后,對于一個幾千萬行的csv數(shù)據(jù)的處理用Pandas只需要不到十秒,而且使用的代碼行更少[2]。大數(shù)據(jù)技術將要做的數(shù)據(jù)及面臨的問題定義為測量、收集、分析和報告,從而對招生資源以及安排力度進行重新調整,對歷年在招生過程中產生的海量數(shù)據(jù)進行解釋和分析,以評估學院進展,預測未來表現(xiàn),發(fā)現(xiàn)潛在的問題,大數(shù)據(jù)實質上是對應用者在應用過程中所產生的海量數(shù)據(jù)進行系統(tǒng)性的分析,以實現(xiàn)掌握規(guī)律及預測行為表現(xiàn)的目的。本文采用的技術路線如圖1所示。

        2 基于python的學院招生生源地大數(shù)據(jù)分析

        伴隨近8年來全國高考報名人數(shù)總體的下降,錄取規(guī)模的持續(xù)增加,錄取率呈快速增長態(tài)勢,隨著高校錄取率的不斷提高,延緩了高考參與人數(shù)下降的造成的影響,錄取率是有上線的,從2020年開始每年100%的入學率,也很難再保持每年700萬以上的大學畢業(yè)生數(shù)量了。那么也就意味著學校招生供應總量也會很快下降,以后不僅社會招生難度在加大,學校招生也會進入到白熱化。未來10年,對生源的爭奪會愈演愈烈,所以要對生源地數(shù)據(jù)分析提前布局,了解我院生源分布情況,在提高學院自身的辦學水平的同時開展長遠的招生規(guī)劃[3]。

        當前福建省高考生源正也呈現(xiàn)下降的趨勢如表1所示。家長和考生都更加傾向于知名度高的名牌高校,高校尤其是農林院校之間的生源競爭正在日趨白熱化,招生工作面臨著各種各樣的挑戰(zhàn),學生的個性化選擇與高校傳統(tǒng)專業(yè)設置之間的不匹配導致很多專業(yè)無人問津,學生錄取后不報到的現(xiàn)象日益嚴重。如何在這場巨大的、徹底的、顛覆性的變革中有效地利用大數(shù)據(jù)發(fā)掘招生數(shù)據(jù)的相關性,尋找到招生的新途徑,使高校招生工作更具有實效性與科學性?,F(xiàn)對我院 2010、2011、2012、2013、2014、2015、2016、2017年所有入學新生相關數(shù)據(jù)進行分析,并從中發(fā)現(xiàn)規(guī)律并找到有用的信息,用來掌握本院的招生宣傳方式的側重點。表1為我省2010年—2018年高考考生數(shù)。

        本文基于python的學院招生生源地大數(shù)據(jù)分析—以福建農業(yè)職業(yè)技術學院為例,在學院歷年招生信息數(shù)據(jù)中,使用Python工具作為數(shù)據(jù)分析與挖掘軟件,分析學生報到的高考生源地各地區(qū)報名情況,把生源地形成圖例進行對比與分析。

        2.1 用python來做我校招生數(shù)據(jù)的科學分析

        在眾多的數(shù)據(jù)中,python提供了功能強大的三大模塊:Numpy、Pandas以及Matplotlib。numpy提供了多維數(shù)組對象 ndarray,能直接對數(shù)組執(zhí)行數(shù)學和元素級別的運算;Pandas主要提供快速便捷地處理結構化數(shù)據(jù)的大量數(shù)據(jù)結構和函數(shù)。matplotlib用于繪制數(shù)據(jù)圖表, ipython能夠極大提高python的編程速度,還用于交互式數(shù)據(jù)處理。Scipy內有用于解決科學計算中各種標準問題域的各種包[4],本文用到的是ipython的Jupyter Notebook作為IDE。提取出所需的數(shù)據(jù),并將它可視化。

        2.1.1 讀取我校原始數(shù)據(jù)

        如圖2為我校招生原始的EXCEL格式的一部分數(shù)據(jù),對我校自2010年至2017年在福建省各城市及省外的招生人數(shù)、各年招生總人數(shù)進行讀取。首先導入matplotlib、pandas、numpy模塊,讀取數(shù)據(jù)代碼,代碼如下:

        #coding:utf-8

        import matplotlib.pyplot as plt

        import pandas as pd

        import numpy as np

        import string

        from pylab import *

        df=pd.read_csv('data.csv',delimiter=',')

        df.columns=['num','name','sex','addre','mail','tele',

        'address','major','colle']

        2.1.2 讀取數(shù)據(jù)代碼

        def city(cy):

        num=0

        bools=[]

        for i in df.addre:

        if i.find(cy)!=-1:

        bools.append(True)

        else:

        bools.append(False)

        a=df [bools]

        for x in list(a['addre']):

        if cy in x:

        num+=1

        return num

        2.1.3 以地區(qū)城市為判斷進行篩選、計算并用可視化實現(xiàn)

        mpl.rcParams['font.sans-serif']=['SimHei']

        plt.style.use('ggplot')

        plt.figure(figsize=(24,12))

        plt.plot(x,y),

        plt.xlabel(u'地區(qū)')

        plt.ylabel(u'人數(shù)')

        plt.title(u'各城市招生情況')

        plt.legend()

        plt.title(u'招生人數(shù)')

        plt.ylabel(u'人數(shù)')

        plt.xlabel(u'年份')

        plt.bar(x,y,fc='c')

        結果如圖4所示:

        由圖4可知,在每年的招生人數(shù)中,福州地區(qū)的人數(shù)近幾年來都是最多,而廈門與省外的人數(shù)都較少,原因可能是我校處于距福州市區(qū)40公里的南郊相思嶺校區(qū)及在市區(qū)內另有一個校區(qū)的原因,地理位置在招生中起到了一定的相對優(yōu)勢,離家里近,假期回家方便;從這個因素就可得出在招生力度上這兩個區(qū)域應為重點;而廈門的人數(shù)少,可能是因為廈門本身在經濟上與福州不相上下,且又是個旅游城市。省外的招生人數(shù)較少,原因可能是高職校是普通的院校,若是普通專業(yè)特色性又不強,吸引外省的考生的誘因就沒那么強,故也是招生人較少的原因。 泉州、漳州與南平這三個市區(qū)報考的人數(shù)相當,我市泉州,漳州是良好的水果生產基地,如平和的蜜柚,莆田的枇杷,龍眼都極具代表性。南平地區(qū)的食用菌,蓮子等農業(yè)類的生產也極具特色,這也利于農業(yè)院校招生。故這三個地區(qū)是我院招生宣傳的重點所在。

        2.2 對2018年生源地招生人數(shù)預測

        Python為我們提供了一個機器學習模塊:sklearn,scikit-learn是Python的一個開源機器學習模塊,它建立在Numpy、Pandas、Scipy和matplotlib模塊之上能夠為用戶提供各種機器學習算法接口,可以讓用戶簡單、高效地進行數(shù)據(jù)挖掘和數(shù)據(jù)分析。本次預測采用KNN算法加樸素貝葉斯算法。

        2.2.1 KNN算法

        K最近鄰(k-Nearest Neighbor,KNN)分類算法,當測試對象的屬性和某個訓練對象的屬性完全匹配時,便可以對其進行分類。KNN是通過測量不同特征值之間的距離進行分類。它的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于該類別,其中K通常是不大于10的整數(shù)。KNN算法中,所選擇的鄰居都是已經正確分類的對象[5]。該方法在定義類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。在KNN中,通過計算對象間距離作為各個對象之間的非相似性指標,避免了對象之間的匹配問題,在這里距離使用曼哈頓距離公式如公式⑴所示:

        同時,KNN通過依據(jù)K個對象中占優(yōu)的類別進行決策,而不是單一的對象類別決策。

        2.2.2 樸素貝葉斯分類算法

        貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統(tǒng)稱為貝葉斯分類。而樸素貝葉斯分類是貝葉斯分類中最見的一種分類方法。它依據(jù)研究對象的某些特征來推斷出該研究對象屬于該研究領域的哪個類別[6]。樸素貝葉斯分類算法它的核心是貝葉斯公式如公式⑵所示:

        同時樸素貝葉斯能多處理多分類任務,適合增量式訓練,尤其是數(shù)據(jù)量超出內存時,可以一批批的去增量訓練。

        from sklearn import neighbors

        from sklearn.naive_bayes import GaussianNB

        from sklearn.naive_bayes import MultinomialNB

        導入算法庫代碼

        for i in df.city:

        city_num[]

        num_d[]

        city_num_g[]

        num_d_g[]

        knn=neighbors.KNeighborsClassifier()

        train_x=[]

        train_y=[]

        test_x=[]

        test_y=[]

        cou=int(len(city_num))

        train_x=city_num[0:cou]

        train_y=num_d[0:cou]

        test_x=city_num[cou:]

        test_y=num_d[cou:]

        train_x1=city_num1[0:cou]

        train_y1=num_d[0:cou]

        test_x1=city_num1[cou:]

        test_y1=num_d[cou:]

        設置訓練集代碼

        if sum(tra1)/len(tra1)>=9:

        print '學院在'+ `i`+'招生300人以上的機率為90%~100%‘

        elif sum(tra1)/len(tra1)>=8:

        print '學院在'+`i`+'招生300人以上的機率為80%~89%‘

        elif sum(tra1) / len(tra1)>=7:

        print '學院在'+`i`+'招生300人以上的機率為70%~89%‘

        elif sum(tra1) / len(tra1)>=6:

        print '學院在'+`i`+'招生300人以上的機率為60%~69%'

        else:

        print '學院在'+`i`+'招生300人以上的機率很小

        print '學院2018年招生的人數(shù)為‘+n+以上

        2018我院生源地招生信息情況與招生總數(shù)預測代碼結果如下:

        學院在福州招生300人以上的機率為90%~100%

        學院在泉州招生300人以上的機率為90%~100%

        學院在莆田招生300人以上的機率為60%~69%

        學院在廈門招生300人以上的機率很小

        學院在三明招生300人以上的機率為90%~100%

        學院在龍巖招生300人以上的機率為60%~69%

        學院在漳州招生300人以上的機率為70%~79%

        學院在南平招生300人以上的機率為80%~89%

        學院在寧德招生300人以上的機率為90%~100%

        學院在外省招生300人以上的機率很小

        學院2018年招生的人數(shù)為2350以上。

        由此可見,學院由于地處福州,一些經濟較落后的城市考生,會有較大的機率選擇。福州省會城市的地理位置是吸引考生的原因之一,學院可在莆田、龍巖和廈門加強宣傳。而對于外省,由于地理位置及學院本身是高職院校,知名度及影響力不足,故招生人數(shù)相對較少且是一種常態(tài),則可從學院辦學理念及創(chuàng)新模式上提高省外考生報考量。而對于泉州,漳州,南平,寧德等地區(qū)需要常態(tài)化的招生宣傳。

        3 大數(shù)據(jù)分析在教育方面展望

        高校招生工作應借助各種信息平臺的力量實現(xiàn)借力打力,更應該把數(shù)據(jù)信息收集及處理放在首要位置,助力于高校推廣宣傳、計劃投放、專業(yè)設置、學生錄取等招生過程的改進。

        學院招生規(guī)模能促進學校與生源、企業(yè)用人單位的雙向溝通,增強學校向心力和凝聚力,塑造優(yōu)秀的學校文化。不少院校采取自主招生的辦法,在當下有“二元制”招生模式,這樣做容易將生源融入到校園文化,因為學校文化是學校的靈魂,它是一種以價值觀為核心對全體師生進行學校意識教育的微觀文化體系[7]。學校管理人員和生源認同學校文化,不僅會自覺學習掌握科技知識和技能,而且會增強主人翁意識、質量意識、創(chuàng)新意識。從而培養(yǎng)大家的敬業(yè)精神、革新精神和社會責任感,形成上上下下自學科技知識,自覺發(fā)明創(chuàng)造的良好氛圍.故高職院校招生工作還可以從以下幾個方面進行改進。

        ⑴ 高職院校擴大招生計劃和轉變辦學模式。

        ⑵ 完善招生制度,提升招生效率的策略。

        ⑶ 增強高職院校自身內涵建設。

        ⑷ 根據(jù)專業(yè)設置進行單獨招生。

        ⑸ 加強就業(yè)指導,以就業(yè)促招生。

        ⑹ 突出職業(yè)特色,深化教育教學改革,明確學校發(fā)展定位。

        通過大數(shù)據(jù)進行招生分析,能夠為每一所院校創(chuàng)設一個量身定做的環(huán)境和個性化的招生規(guī)程,還能創(chuàng)建一個早期預警系統(tǒng)以發(fā)現(xiàn)潛在的風險,為學院的多年招生提供一個富有挑戰(zhàn)性而非減少的招生規(guī)模。因此,有識之士預言未來的學院招生也將是大數(shù)據(jù)驅動的新時代。我們應該積極迎接這個新時代,感知和記錄更大規(guī)模和更多種類的數(shù)據(jù),并且通過對這些數(shù)據(jù)的分析和處理,深度挖掘蘊含其中的核心價值。

        4 總結

        本文從應用視角出發(fā)詮釋Python的概念內涵,通過梳理,把握大數(shù)據(jù)在教育領域應用的態(tài)勢。在實踐解析方面,結合我院歷年校招生信息數(shù)據(jù),實現(xiàn)大數(shù)據(jù)應用驅動下的我院招生生源地數(shù)據(jù)分析。大數(shù)據(jù)招生數(shù)據(jù)的分析應用遠不止這些,可對學生報到率做出分析,可對區(qū)域生源做出分析,可對報考院校原因進生分析,本文只從報考考生生源地一個角度利用Python來分析我院學生生源地情況,以及預測我院的招生人數(shù)。進而找到今后招生工作的宣傳重點,及發(fā)現(xiàn)可挖掘數(shù)據(jù)。這些應用只是大數(shù)據(jù)應用的冰山一角,今后可從多個角度對學院的招生,管理及其他方面用大數(shù)據(jù)技術分析提取更多有關于教育的信息,為學校的發(fā)展貢獻微薄之力。

        參考文獻(References):

        [1] 聶晶.Python在大數(shù)據(jù)挖掘和分析中的應用優(yōu)勢[J].廣西民族大學學報(自然科學版),2018.1(24).

        [2] 劉海濤,林燕妮.大數(shù)據(jù)時代語言研究的方法和趨向[J].新疆師范大學學報(哲學社會科學版),2018.39(1):72-83

        [3] 鄧廣彪.預測性大數(shù)據(jù)分析在高校招生中的應用研究[J].微型電腦應用,2017.33(11)

        [4] 朝樂門,邢春,曉張勇.數(shù)據(jù)科學研究的現(xiàn)狀與趨勢[J].計算機科學,2018.1:1-13

        [5] 陳偉,李紅,王維.一種基于Python的K-means聚類算法分析[J].數(shù)字技術與應用,2017.10:118-119

        [6] MatchingTools: A Python library for symbolic effective field theory calculations Juan C. Criado Computer Physics Communications,2018.227.

        [7] 韓志豪.人工智能背景下的Python教學探索[J].計算機時代,2018.7:76-81

        猜你喜歡
        招生算法
        基于MapReduce的改進Eclat算法
        Travellng thg World Full—time for Rree
        進位加法的兩種算法
        高等職業(yè)教育招生與就業(yè)的幾點思考
        臺灣地區(qū)高等教育現(xiàn)存問題的比較研究
        基于PHP招生管理信息系統(tǒng)
        價值工程(2016年29期)2016-11-14 02:07:33
        基于Android的招生報名系統(tǒng)設計與實現(xiàn) 
        軟件導刊(2016年9期)2016-11-07 21:38:35
        一種改進的整周模糊度去相關算法
        国内精品国产三级国产| 亚洲精品人成无码中文毛片| 黑人巨大videos极度另类| 在线偷窥制服另类| 人妻中文字幕一区二区三区| 伊人久久大香线蕉av色婷婷色| 天天做天天摸天天爽天天爱| 午夜内射中出视频| 亚洲成a人片在线网站| 国内精品视频成人一区二区| 亚洲自偷自拍另类第一页| 亚洲一区二区三区国产| 国产精品无码一区二区三区电影 | 秋霞在线视频| 无码国产精品一区二区免费模式| 欧美亚洲高清日韩成人| 东风日产系列全部车型| 日本免费久久高清视频| 国产黄大片在线观看画质优化| 国产真实夫妇交换视频| 亚洲国产精品久久九色| 国产精品亚洲av一区二区三区| 丰满精品人妻一区二区| 亚洲精品无码久久久| 97超级碰碰人妻中文字幕 | 国产精品久久婷婷六月 | 亚洲愉拍自拍视频一区| 国产精品日韩av一区二区三区| 夜夜躁狠狠躁日日躁视频| 亚洲av男人的天堂在线观看| 2021久久精品国产99国产| 色男色女午夜福利影院| 每日更新在线观看av| 国产精品成人国产乱| 午夜国产精品久久久久| 国产一区二区三区在线影院| 免费a级毛片高清在钱| 成片免费观看视频大全| 美女爽好多水快进来视频| 中文字幕丰满人妻被公强| 色哟哟亚洲色精一区二区|