亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        Keras神經(jīng)網(wǎng)絡(luò)大數(shù)據(jù)崗位薪酬分類模型

        2021-10-08 00:46:07孫含笑
        計(jì)算機(jī)時代 2021年9期
        關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

        孫含笑

        摘? 要: 影響大數(shù)據(jù)人才就業(yè)收入的因素紛繁復(fù)雜,難以確定其關(guān)鍵影響條件,影響了潛在從業(yè)者的就業(yè)選擇以及從業(yè)人員的自我提升方向。針對這一社會熱點(diǎn)問題,建立基于信息熵的機(jī)器學(xué)習(xí)模型-分類決策樹,分析影響收入的關(guān)鍵因素,進(jìn)而提出一種基于Keras搭建的新型高精準(zhǔn)率神經(jīng)網(wǎng)絡(luò)收入分類模型。該模型能夠精準(zhǔn)地確定影響大數(shù)據(jù)人才收入的主要因素,為大數(shù)據(jù)行業(yè)相關(guān)人員提供從業(yè)指導(dǎo)與幫助。

        關(guān)鍵詞: 大數(shù)據(jù); 信息熵; 機(jī)器學(xué)習(xí); 分類決策樹; 神經(jīng)網(wǎng)絡(luò)

        中圖分類號:TP391.4? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ?文章編號:1006-8228(2021)09-26-03

        Abstract: The factors that affect the employment income of big data employees are complex, which makes it difficult to determine the key influencing conditions, and affects the employment choice of potential practitioners and the direction of self promotion of employees. In view of this hot social issue, this paper establishes an information entropy based machine learning model, the classification decision tree, to analyze the key factors affecting income, and thereafter proposes a new high precision neural network revenue classification model based on Keras. The model can accurately determine the main factors affecting the income of big data employees, and provide guidance and help for the relevant personnel in big data industry.

        Key words: big data; information entropy; machine learning; classification decision tree; neural network

        0 引言

        數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù),簡稱大數(shù)據(jù)。大數(shù)據(jù)是一個新學(xué)科。這幾年“大數(shù)據(jù)”成為發(fā)展最快的行業(yè)。大數(shù)據(jù)人才短缺成為掣肘大數(shù)據(jù)行業(yè)發(fā)展的重要因素之一,培養(yǎng)適合社會需求的大數(shù)據(jù)人才是高等教育亟待解決的問題[1]。面對現(xiàn)狀,國內(nèi)眾多高校開設(shè)了大數(shù)據(jù)專業(yè),源源不斷地向國家輸入大數(shù)據(jù)人才。而大數(shù)據(jù)人才在就業(yè)后的工資收入也成為熱議,基于2020年大數(shù)據(jù)就業(yè)統(tǒng)計(jì),研究了北京、上海、廣州、深圳等四個一線城市,以及南京、西安、鄭州、杭州等四個二線城市的大數(shù)據(jù)人才就業(yè)數(shù)據(jù),以期通過現(xiàn)有的數(shù)據(jù)獲得一個好的收入分類模型。

        在現(xiàn)有的機(jī)器學(xué)習(xí)[2]分類模型當(dāng)中,首先考慮決策樹分類[3]模型。決策樹方法最早產(chǎn)生于上世紀(jì)六十年代到七十年代末,由JRoss Quinlan提出了ID3算法[4],此算法的目的在于減少樹的深度。ID3算法在進(jìn)行特征選擇時,ID3算法優(yōu)先選擇信息增益最大的特征,即優(yōu)先選擇對整個系統(tǒng)貢獻(xiàn)最大的特征。通過決策樹算法構(gòu)建決策樹,可以發(fā)現(xiàn)影響收入高低的主要因素。因?yàn)閭鹘y(tǒng)的機(jī)器學(xué)習(xí)算法準(zhǔn)確率沒有神經(jīng)網(wǎng)絡(luò)算法模型的準(zhǔn)確率高,所以通過現(xiàn)有的數(shù)據(jù)集構(gòu)建一個基于Keras的神經(jīng)網(wǎng)絡(luò)算法模型[5],以達(dá)到準(zhǔn)確的分類效果。

        1 研究目的與框架

        1.1 研究目的

        對于大數(shù)據(jù)人才的收入狀況有許多影響因素,在眾多因素當(dāng)中,通過建立決策樹分類模型,得到影響就業(yè)收入的主要因素。為了使得模型的分類準(zhǔn)確率更高,采用更為智能的神經(jīng)網(wǎng)絡(luò)模型建立分類器。

        1.2 研究設(shè)計(jì)示意圖

        研究和試驗(yàn)設(shè)計(jì)框架示意圖如圖1所示。

        2 研究的設(shè)計(jì)與實(shí)現(xiàn)

        2.1 爬取數(shù)據(jù)及數(shù)據(jù)清洗

        登錄就業(yè)網(wǎng)以及招聘網(wǎng)站,爬取2020年大數(shù)據(jù)人才的就業(yè)信息和招聘信息,對得到的數(shù)據(jù)查找缺失值以及進(jìn)行數(shù)據(jù)清洗。

        2.2 數(shù)據(jù)分析

        基于2020年大數(shù)據(jù)崗位就業(yè)和招聘數(shù)據(jù),研究了北京、上海、廣州、深圳等四個一線城市,以及南京、西安、鄭州、杭州等四個二線城市,共計(jì)八個城市的大數(shù)據(jù)崗位就業(yè)和招聘情況數(shù)據(jù),由于目前三四線城市大數(shù)據(jù)人才需求量不大,對模型的最終影響在此忽略不計(jì)。據(jù)統(tǒng)計(jì),一線城市大數(shù)據(jù)崗位招聘公司數(shù)量要遠(yuǎn)遠(yuǎn)高于二線城市,如圖2所示。

        此外,通過對招聘數(shù)據(jù)的統(tǒng)計(jì)發(fā)現(xiàn),大數(shù)據(jù)崗位要求的學(xué)歷以本科為主要人群,如圖3所示。

        2.3 特征選取

        2.3.1 特征提取方法簡述

        通過對2020年大數(shù)據(jù)人才的就業(yè)情況分析,爬取影響就業(yè)收入的特征有:①工作崗位;②工作資歷;③學(xué)歷;④公司規(guī)模;⑤工作城市;⑥城市一、二線;⑦南北方地域,其中由于公司規(guī)模這個特征難以考量,因此剔除該特征。在剩下來的6個特征中選取主要特征建立模型,篩選方式是通過ID3算法構(gòu)建決策樹模型。ID3算法涉及到的概念定義如下:

        信息熵是一種反映不確定性的度量方式,通過信息量的規(guī)模來體現(xiàn)不確定程度[6]。

        ID3算法是基于信息增益來選擇樹結(jié)點(diǎn),信息增益越大,則這個特征的選擇性越好,即這個特征對整個事件的貢獻(xiàn)越大。

        2.3.2 模型構(gòu)建及分析

        ⑴ 模型構(gòu)建

        數(shù)據(jù)集:將①工作崗位;②工作資歷;③學(xué)歷;⑤工作城市;⑥城市一、二線;⑦南北方地域等六個特征作為特征數(shù)據(jù)。

        數(shù)據(jù)集標(biāo)簽:將收入作為標(biāo)簽,標(biāo)簽有3個取值,[“低”,”中”,”高”],劃分的標(biāo)準(zhǔn)為年收入>20萬為”高”,10-20萬為”中”,<10萬為”低”收入。

        ⑵ 模型建立

        model=tree.DecisionTreeClassifier(criterion='entropy')

        ⑶ 參數(shù)設(shè)置,尋找主要特征

        設(shè)置樹的深度max_depth=4,max_depth=6時,出現(xiàn)在決策樹的特征為:②③⑤⑥⑦。

        樹的深度max_depth不設(shè)限,也沒有看到特征①工作崗位出現(xiàn)在決策樹當(dāng)中,因此,本次實(shí)驗(yàn)丟棄此特征。在多次實(shí)驗(yàn)當(dāng)中,根節(jié)點(diǎn)出現(xiàn)的特征都為③學(xué)歷,因此學(xué)歷是影響收入的關(guān)鍵因素。

        2.4 模型建立及評分

        新的數(shù)據(jù)集:②③⑤⑥⑦五個特征作為特征數(shù)據(jù)。

        利用訓(xùn)練集和訓(xùn)練集的標(biāo)簽訓(xùn)練模型,模型仍然采用Sklearn自帶的決策樹模型:

        model=tree.DecisionTreeClassifier(criterion='entropy')

        將20%數(shù)據(jù)作為測試集,得到模型的得分為:

        測試集得分0.8493975903614458;

        訓(xùn)練集得分0.8874622356495468。

        由結(jié)果可知,現(xiàn)在的決策樹模型結(jié)果比較理想,準(zhǔn)確率為80%以上。為了得到更為理想的模型,建立神經(jīng)網(wǎng)絡(luò)模型。

        2.5 模型改進(jìn)-基于Keras神經(jīng)網(wǎng)絡(luò)模型

        Keras是由純python編寫的基于theano/tensorflow的深度學(xué)習(xí)框架。Keras是一個高層神經(jīng)網(wǎng)絡(luò)API,能夠把你的“idea”迅速轉(zhuǎn)換為結(jié)果。

        實(shí)驗(yàn)采用神經(jīng)網(wǎng)絡(luò)模型如圖4所示。

        本次實(shí)驗(yàn)通過改變神經(jīng)網(wǎng)絡(luò)隱層和神經(jīng)元的個數(shù),得到最優(yōu)的模型。

        ⑴ 模型構(gòu)建

        import tensorflow as tf

        model.add(tf.keras.layers.Dense(i,input_shape=(j,),

        activation='relu'))

        model.add(tf.keras.layers.Dense(3,activation='softmax'))

        ⑵ 尋找最優(yōu)的網(wǎng)絡(luò)層數(shù)及神經(jīng)元個數(shù)

        建立2層神經(jīng)網(wǎng)絡(luò),改變隱藏層神經(jīng)元個數(shù),模型訓(xùn)的練集及測試集準(zhǔn)確率如圖5所示。

        由圖5可知,當(dāng)隱層神經(jīng)元的個數(shù)為14的時候,模型的準(zhǔn)確率最高,測試集的準(zhǔn)確率高達(dá)91%。接下來改變神經(jīng)網(wǎng)絡(luò)層數(shù),經(jīng)過實(shí)驗(yàn)研究發(fā)現(xiàn),多層隱藏層和單層隱藏層實(shí)驗(yàn)結(jié)果相差不大,因此,最終模型定義2層神經(jīng)網(wǎng)絡(luò),隱藏層的神經(jīng)元個數(shù)為14。

        3 結(jié)束語

        本文針對大數(shù)據(jù)從業(yè)人員就業(yè)收入問題,搭建了新型神經(jīng)網(wǎng)絡(luò)模型,用以捕捉影響就業(yè)人員收入的關(guān)鍵因素,借助數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)提升學(xué)歷是大數(shù)據(jù)從業(yè)者提高收入的關(guān)鍵。通過分析2020年大數(shù)據(jù)招聘信息數(shù)據(jù),發(fā)現(xiàn)一線城市大數(shù)據(jù)招聘公司要遠(yuǎn)遠(yuǎn)多于二線城市,同時大數(shù)據(jù)崗位要求的學(xué)歷是以本科生為主。其中,對處理后的數(shù)據(jù)建立了Keras神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)收入分類的準(zhǔn)確率達(dá)90%以上,為廣大從業(yè)者及潛在就業(yè)人員提供巨大幫助。但是該模型對于就業(yè)收入與公司規(guī)模、就業(yè)者年齡等特征的關(guān)系尚不能說明,對此值得進(jìn)一步研究。

        參考文獻(xiàn)(References):

        [1] 許新剛.高職大數(shù)據(jù)應(yīng)用人才培養(yǎng)研究[J].無線互聯(lián)科技,2021.18(3):163-164

        [2] 安德里亞斯·穆勒.Python機(jī)器學(xué)習(xí)基礎(chǔ)教程[M].人民郵電出版社,2018.

        [3] 岳根霞.基于決策樹算法的醫(yī)療大數(shù)據(jù)填補(bǔ)及分類仿真[J].計(jì)算機(jī)仿真,2021.38(1):451-454

        [4] 杜威銘.決策樹ID3算法研究[J].科技視界,2018.12(11):145-146

        [5] 蔣子陽.TensorFlow深度學(xué)習(xí)算法原理與編程實(shí)戰(zhàn)[M].中國水利水電出社,2019.

        [6] 毛伊敏.基于信息熵與遺傳算法的并行關(guān)聯(lián)規(guī)則增量挖掘算法[J].通信學(xué)報,2021.3.

        猜你喜歡
        機(jī)器學(xué)習(xí)大數(shù)據(jù)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
        科技視界(2016年20期)2016-09-29 10:53:22
        數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        国产精品人妻一码二码| 麻豆夫妻在线视频观看| 日韩精品区欧美在线一区| 无码国产精品一区二区免费式芒果| 日韩一区三区av在线| 国产 精品 自在 线免费| 情侣黄网站免费看| 亚洲色欲久久久综合网| 日本一区二区三区在线视频观看 | 人妻少妇精品中文字幕av| 亚洲欧美日韩精品高清| 国产在线白浆一区二区三区在线| 一区二区在线观看日本视频| 国产av精品一区二区三区久久 | 亚洲色www成人永久网址| 人伦片无码中文字幕| 亚洲熟女一区二区三区不卡| 中文字幕在线乱码av| 精品无码一区二区三区的天堂| 亚洲性啪啪无码av天堂| 国产丝袜精品不卡| 风流少妇一区二区三区91| 人妻丰满熟妇av无码区app| 无遮挡边摸边吃奶边做视频免费| 天天干夜夜躁| 亚洲中国美女精品久久久| 粉嫩人妻91精品视色在线看| 中文字幕网伦射乱中文| 天干天干啦夜天干天2017| 日韩啪啪精品一区二区亚洲av | 欧美丰满熟妇xxxx性| 久久88综合| 淫秽在线中国国产视频| 一区二区黄色在线观看| 最近中文字幕完整版免费| 曰韩精品无码一区二区三区| 麻豆三级视频网站在线观看| 久久精品国产99国产精品亚洲 | 色中文字幕在线观看视频| 色欲人妻综合网| 久久久久国产精品片区无码|