亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術的AI崗位需求分析研究*

        2021-09-22 14:32:10徐正麗文博奚謝梅英
        廣西科學 2021年3期
        關鍵詞:模式識別程序設計名稱

        徐正麗,文博奚,謝梅英,蔡 翔**

        (1.桂林電子科技大學,廣西桂林 541004;2.廣西建設職業(yè)技術學院,廣西南寧 530007; 3.南京信息工程大學,江蘇南京 210044)

        0 引言

        近年來,我國人才市場出現(xiàn)供需失配的結構性矛盾,尤其是在人工智能領域。準確感知并描述勞動力市場的需求是解決該問題的重要手段。人工智能(AI)技術已成為全球新一輪科技革命和產(chǎn)業(yè)變革的著力點,對于推動產(chǎn)業(yè)轉(zhuǎn)型升級至關重要,越來越多的公司把AI視為競爭力的關鍵要素[1]。根據(jù)2017年Gartner的統(tǒng)計顯示,到2021年,AI預計將創(chuàng)造230萬以上相關崗位,但人才缺口卻非常嚴重[2]。由于AI是應用領域非常廣泛和快速發(fā)展的新技術[3],人力資源管理部門對AI領域的專業(yè)認知更新卻比較緩慢,對AI崗位職責及所需技能的認知往往是模糊、主觀和過于簡化的理解[4],甚至會將“AI”與“大數(shù)據(jù)”“機器學習”“深度學習”等概念混為一談[5]。AI崗位內(nèi)容的廣泛性及所需工作技能的復雜多樣性[6,7]給準確把握AI崗位的需求帶來很大的挑戰(zhàn)。

        為準確感知并描述勞動力市場對AI的需求,本研究采用大數(shù)據(jù)分析手段,對AI崗位簇的工作角色及所需技能進行類型學研究,為基于大數(shù)據(jù)分析AI崗位簇的角色及其所需技能需求提供了一個結構化框架,可有效提升人力資源管理部門的科學決策水平,同時促進高校提高AI人才培養(yǎng)的針對性。

        1 算法框架

        本算法主要包括4個部分:第一步,使用網(wǎng)絡爬蟲技術從招聘網(wǎng)站爬取AI相關崗位的招聘信息,然后實施數(shù)據(jù)清洗;第二步,利用K-means聚類與專家判斷相結合的方法,分析AI的崗位簇;第三步,利用概率主題模型(Latent Dirichlet Allocation,LDA)與專家判斷相結合的方法,分析AI相關領域的技能集;第四步,通過構建崗位簇與各技能集之間的需求矩陣,評估工作技能集對工作崗位簇的重要性,從而更準確地把握工作AI各崗位簇對工作技能的需求程度(圖1)。

        圖1 算法步驟

        2 數(shù)據(jù)來源及清洗

        2.1 數(shù)據(jù)來源

        選擇智聯(lián)招聘作為數(shù)據(jù)來源。相比其他招聘網(wǎng)站,智聯(lián)招聘的招聘崗位頁面HTML結構的標準化程度高,數(shù)據(jù)可獲取性較好,Web抓取可行性更高[8]。在2019年3月-2019年5月期間,采用WebCollector爬蟲框架對智聯(lián)招聘網(wǎng)站在2018年全年的招聘崗位標題、崗位描述或崗位要求中包含關鍵詞“AI”的崗位信息進行抓取,最終獲得10 656條與AI相關的招聘信息。獲取的招聘信息包括招聘信息ID、公司名稱、招聘崗位名稱、崗位要求、薪酬、工作地點、工作年限要求、學歷要求、信息公布時間等內(nèi)容。

        從需求時間看,2018年AI崗位人才需求旺盛,呈現(xiàn)爆發(fā)式增長態(tài)勢,盡管7月份達到最高峰(正值我國應屆畢業(yè)生的畢業(yè)時間),但是下半年對AI的需求是上半年的5.29倍(圖2)。從需求地域看,2018年AI專業(yè)人才需求主要集中在一線城市(北京、上海、廣州、深圳)以及15個新一線城市(成都、杭州、武漢、南京、長沙、天津等)。這些經(jīng)濟發(fā)達城市AI產(chǎn)業(yè)發(fā)展迅速(圖3)。從學歷要求看,2018年AI領域?qū)Ρ究茖W歷的需求最大,一定程度上表明了企業(yè)對AI應用開發(fā)的需求旺盛,而對AI研發(fā)人才的需求要小(圖4)。

        圖2 2018年智聯(lián)招聘發(fā)布的AI崗位招聘數(shù)

        圖3 2018年AI崗位工作地點分布

        2.2 數(shù)據(jù)清洗

        數(shù)據(jù)清洗按以下步驟進行:第一,使用網(wǎng)絡爬蟲獲取的10656條招聘信息中,有小部分為同一企業(yè)在不同時間點發(fā)布的對同一崗位的招聘信息,因此需要去掉這部分重復信息。第二,一些企業(yè)在互聯(lián)網(wǎng)上發(fā)布招聘信息并不規(guī)范,例如招聘崗位名稱中填寫“博士”一詞。這類招聘崗位名稱屬于無效值,不能作為崗位名稱進行分析,需要視為無效數(shù)據(jù)予以剔除。如果某個崗位的招聘崗位名稱中的技能詞與AI崗位無關,那么這條招聘信息也屬于無效數(shù)據(jù)而予以剔除。第三,鑒于中文的書寫方式與英文不同,詞匯之間缺少明顯間隔,需要對中文文本采取“jieba中文分詞”處理,使計算機能準確地識別中英文詞匯,分詞之后需要對去除分詞結果中的停用詞和無效詞(如“和”“或”“與”等),以消除停用詞和無效詞對數(shù)據(jù)分析的不利影響。然后,利用這些詞構建崗位名稱詞典。崗位名稱詞典的構建還可以采取機器學習的方法[9],考慮到算法的成熟度,本文采用“jieba中文分詞”工具。

        圖4 2018年AI崗位的學歷要求分布

        在對招聘崗位名稱進行分詞和去停用詞處理后,進一步選取在結果中出現(xiàn)次數(shù)超過5次的194個名詞構成崗位名稱詞典,將招聘崗位名稱中不包含崗位名稱詞典中詞匯的招聘信息標記為無效數(shù)據(jù)予以剔除。圖5展示了出現(xiàn)次數(shù)最多的前50個崗位名稱名詞的可視化詞云圖。每個名詞的字體大小與每個名詞出現(xiàn)的次數(shù)成正比。

        圖5 AI崗位名稱中重復出現(xiàn)的前50個單詞

        對崗位要求進行預處理時,參考IT職業(yè)技能圖譜,預先選擇了與AI領域相關的232個技能詞,將各個招聘崗位的崗位要求描述轉(zhuǎn)化成技能詞的集合。在前面處理的基礎上,將崗位要求中不包含AI領域技能詞的招聘信息標記為無效數(shù)據(jù)予以剔除。表1顯示了崗位要求中詞頻最高的前50個技能詞。

        表1 頻率前50的崗位要求技能詞

        續(xù)表1

        通過去重和兩次清洗剔除重復數(shù)據(jù)和無效數(shù)據(jù),最終保留6 705條數(shù)據(jù)作為有效樣本數(shù)據(jù)。據(jù)此,可以對崗位名稱進行K-means聚類分析獲取崗位簇,并對崗位要求進行LDA分析獲取技能集。

        3 數(shù)據(jù)分析

        3.1 崗位簇識別

        目前尚未有明確的AI崗位類別劃分。因此,本研究使用AI招聘崗位名稱作為輸入,通過K-means聚類算法將獲取的崗位名稱進行聚類,從而識別出AI崗位簇[10]。為實現(xiàn)崗位簇的提取,需要將所有的崗位名稱向量化,通過詞袋模型,利用數(shù)據(jù)預處理時得到的崗位名稱詞典,將各個崗位名稱分別轉(zhuǎn)化為一個194維的0-1向量(崗位名稱中出現(xiàn)詞典中的單詞記為1,未出現(xiàn)記為0)。將崗位名稱向量化之后,再使用K-means聚類算法對所有崗位名稱進行聚類。

        K-means聚類需事前確定聚類數(shù)量,因此本研究利用肘部法則(圖6)確定聚類數(shù)量為4。然后統(tǒng)計各簇中詞對的出現(xiàn)頻次。表2展示了各簇中出現(xiàn)頻次最高的15項。這里需要特別指出的是,由于某些崗位名稱書寫不規(guī)范,致使通過分詞和去停用詞后該名稱只剩一個名詞。通過專家分析,將4類AI崗位簇分別命名為產(chǎn)品架構師、算法工程師、產(chǎn)品經(jīng)理和軟件工程師。

        圖6 K-means聚類肘部法則分析圖

        表2 K-means聚類分析得出的4個崗位簇

        續(xù)表2

        3.2 技能集識別

        按照“能崗匹配”和“勝任力”理論,同一類型崗位所需的技能也應該是相似的[11]。反過來,相似的技能更有可能出現(xiàn)在同一份崗位說明書中。為分析崗位簇所對應的技能集,繼續(xù)使用聚類分析方法對崗位簇所需的技能詞進行聚類。為了識別工作崗位中的技能集,采用LDA進行聚類[12-14]。

        LDA的輸入是招聘信息中的招聘崗位要求和需要識別的主題數(shù)量。為得到合適的主題數(shù)量,首先計算了主題數(shù)量k分別為2-10時的多個結果,然后組織專家對這些結果進行評估,最終得出主題數(shù)量k為5最合適,因此將技能集劃分為5類最合理。表3顯示了通過LDA分析出來的5個技能集,以及每個技能集中出現(xiàn)頻次最高的15個技能詞。組織專家對技能詞所涉及的工作內(nèi)容進行綜合研判,確定將這5個技能詞集合分別命名為數(shù)據(jù)庫、機器學習、模式識別、大數(shù)據(jù)和程序設計。

        表3 基于LDA的技能集分析

        3.3 需求矩陣設計

        在使用LDA分析技能集時,會輸出每個崗位任職要求屬于每個主題(技能集)的概率。每一項崗位任職要求代表一個工作崗位,因此該結果可理解為每個崗位對于每個主題(技能集)的需求程度。

        為了得到各崗位簇對每個技能集的需求情況,首先選取位于同一個崗位簇中所有崗位對每一個技能集需求程度的平均值,將其作為該崗位簇對每一個技能集的需求程度,從而得到4個崗位簇對于5個技能集的需求矩陣C。然后,將需求矩陣C的每一列除以其平均值來歸一化矩陣C,得到矩陣T(表4)。由于分析的工作崗位都是AI相關,同時崗位要求分析中用到的詞都是和AI相關的詞匯,因此不同崗位簇對技能集的需求程度區(qū)別不大。其中,元素Ti,j表示崗位簇i對特定技能集j的需求程度。為了更清楚地描述崗位簇對各個技能集需求的重要程度,采用以下方法予以簡化處理,得到表5。

        表4 AI崗位簇對所需技能集的需求矩陣(Ti,j)

        表5 崗位簇對所需技能集的需求評估

        —T_(i,j)≥1.00:技能集j對崗位簇i特別重要;

        —T_(i,j)<1.00:技能集j對崗位簇i不是特別重要。

        4 結果可視化與分析

        根據(jù)上述方法,可畫出崗位簇映射技能集的沖擊圖,如圖7所示。在圖7中,對每一個AI崗位簇設置了識別標簽,對崗位簇與所需技能集的映射關系進行了可視化處理,更為直觀地描述了崗位簇對技能集的需求程度。其中,左側(cè)是4類崗位簇,右側(cè)是5類技能集,中間連接線的寬度表示各崗位簇對每個技能集的需求程度或相關度。

        4.1 軟件工程師

        軟件工程師的主要角色是從事AI軟件開發(fā)相關工作。具體來說,AI軟件工程師主要負責AI產(chǎn)品軟件設計與構架、編寫項目的核心代碼、解決在產(chǎn)品的研發(fā)過程中遇到的技術難點、協(xié)調(diào)項目組成員之間的合作并參與代碼開發(fā)規(guī)范編制。為此,AI軟件工程師既要熟練掌握程序設計,又要了解模式識別[15]。根據(jù)圖7可發(fā)現(xiàn),程序設計對于AI軟件工程師最為重要,其次是數(shù)據(jù)庫和模式識別。該崗位簇的招聘信息中也多次提到對于程序設計(精通C#或Java語言,精通面向?qū)ο蠓治龊驮O計技術,有足夠的.net或Java開發(fā)經(jīng)驗)、模式識別(熟悉深度學習、AI、機器學習、神經(jīng)網(wǎng)絡等技術在圖像處理領域的應用)以及數(shù)據(jù)庫(熟練掌握MySQL、Oracle等數(shù)據(jù)庫,有SQL性能調(diào)優(yōu)經(jīng)驗優(yōu)先)等技能要求。

        圖7 崗位簇映射技能集的沖擊圖

        4.2 算法工程師

        算法工程師是AI領域的稀缺核心崗位,其主要角色是通過模式識別等算法來完成不同的邏輯運算和優(yōu)化業(yè)務。算法工程師的工作職責主要包括利用模式識別相關的手段分析大數(shù)據(jù),然后將算法用偽代碼描述出來,交由軟件工程師實現(xiàn)[16]。根據(jù)圖7可發(fā)現(xiàn),模式識別對算法工程師最重要,其次是程序設計和大數(shù)據(jù)。該崗位簇的招聘信息中多次提到對模式識別(有圖像處理、模式識別等項目經(jīng)驗優(yōu)先)、程序設計(熟悉UI、.net和云計算、android和C#/C++等編程語言)和大數(shù)據(jù)(熟悉數(shù)據(jù)挖掘、spark、Hadoop和分布式存儲)等技能要求。

        4.3 產(chǎn)品經(jīng)理

        產(chǎn)品經(jīng)理是需要將AI技術和行業(yè)知識相結合,并通過AI產(chǎn)品和項目的落地,最終實現(xiàn)企業(yè)商業(yè)目標的復合型崗位,需對AI產(chǎn)品進行規(guī)劃設計、提煉使用場景、推動用戶交互使用體驗、推進產(chǎn)品上線。為此,AI產(chǎn)品經(jīng)理既要掌握AI技術,同時又要熟悉商業(yè)分析和產(chǎn)品開發(fā)管理,在工作中需要與產(chǎn)品構架師、算法工程師和軟件工程師等充分溝通協(xié)作,保證產(chǎn)品功能落地[17]。根據(jù)圖7可發(fā)現(xiàn),除了行業(yè)市場知識、項目管理技能外,產(chǎn)品經(jīng)理崗位對數(shù)據(jù)庫、機器學習和大數(shù)據(jù)技術等有較強的技能需求。該崗位簇的招聘信息中多次提到對數(shù)據(jù)庫(熟悉MySQL、Oracle等數(shù)據(jù)庫)、機器學習(對TensorFlow、Caffe等算法有初步了解)和大數(shù)據(jù)(熟悉Hadoop底層文件系統(tǒng),對大規(guī)模數(shù)據(jù)并行計算傳輸處理等有豐富的經(jīng)驗)這些領域的技能需求。

        4.4 產(chǎn)品架構師

        產(chǎn)品架構師是將AI落地解決問題的執(zhí)行者、不同業(yè)務場景下的技術統(tǒng)籌人,主要著眼于AI系統(tǒng)的技術實現(xiàn),需對產(chǎn)品全局掌控并能夠及時洞悉局部技術瓶頸,并依據(jù)具體的AI業(yè)務場景給出解決方案。其主要職責是負責AI系統(tǒng)架構設計和技術架構選型,主導功能模塊設計、數(shù)據(jù)結構設計、對外接口設計,針對行業(yè)客戶設計場景化的解決方案,承擔系統(tǒng)核心功能的研發(fā)工作和系統(tǒng)優(yōu)化,負責制定AI業(yè)務規(guī)劃等。為此,產(chǎn)品架構師必須能夠熟練地與軟件工程師、算法工程師以及AI產(chǎn)品經(jīng)理溝通,充分了解AI的前沿理論與技術動態(tài)[18]。根據(jù)圖7可發(fā)現(xiàn),深度學習的理論與技術對產(chǎn)品架構師最重要,其次是大數(shù)據(jù)和程序設計能力。該崗位簇的招聘信息中多次提到對機器學習(深度學習、計算機視覺等領域工作經(jīng)驗,熟悉TensorFlow/Caffe框架)、大數(shù)據(jù)(豐富的Hadoop實戰(zhàn)經(jīng)驗,熟悉Hadoop底層文件系統(tǒng)及分布式計算框架)和程序設計(熟悉.net、WCF、WPF等相關技術開發(fā)優(yōu)先)等技術領域有要求。

        5 結論

        與發(fā)展迅猛的AI技術領域比較,AI領域的人力資源實踐和研究均明顯落后太多,人力資源管理實務界和學術界均迫切需要對AI崗位及所需具體技能有一個清晰的完整性理解。本研究基于WebCollector爬蟲框架抓取了10 656條AI崗位的網(wǎng)絡招聘數(shù)據(jù),采用文本挖掘、K-means聚類分析、主題模型構建、專家判斷的半自動分析模型等方法,對AI崗位的崗位簇和技能集進行了類型學分析,得出如下結論:①AI崗位可分為軟件工程師、算法工程師、產(chǎn)品架構師和產(chǎn)品經(jīng)理等4個崗位簇,以及數(shù)據(jù)庫、機器學習、模式識別、大數(shù)據(jù)和程序設計等5個所需的技能集。②基于崗位簇對每個技能集的需求矩陣和基于沖擊圖的映射關系可視化結果顯示,程序設計對于AI軟件工程師最為重要,其次是數(shù)據(jù)庫和模式識別;模式識別對算法工程師最重要,其次是程序設計和大數(shù)據(jù);產(chǎn)品經(jīng)理崗位對數(shù)據(jù)庫、機器學習和大數(shù)據(jù)技術等有較強的技能需求;機器學習對產(chǎn)品架構師最重要,其次是大數(shù)據(jù)和程序設計能力。

        本研究結果為精準感知勞動力市場對AI人才的需求提供了可能,對AI崗位詞典編撰有一定貢獻,有助于人力資源管理學術界和實務界對AI崗位及所需具體技能有一個清晰的完整性理解;從實踐指導上可以幫助人力資源管理部門制定更精準的崗位管理、招聘遴選、培訓開發(fā)方案,完善績效管理等流程;高等學校也可根據(jù)本研究結果完善AI專業(yè)培養(yǎng)方案和課程體系建設,培養(yǎng)符合企業(yè)AI崗位所需專業(yè)人才,緩和AI領域的人才供需失配的問題。

        由于本研究僅對智聯(lián)招聘網(wǎng)站上的AI招聘崗位數(shù)據(jù)進行爬取,且未能考慮到歐美和日本、韓國等AI產(chǎn)業(yè)發(fā)展較好的其他地區(qū)和國家的情況,如何進一步高效拓展數(shù)據(jù)的爬取范圍,將是下一步的工作重點。

        猜你喜歡
        模式識別程序設計名稱
        基于Visual Studio Code的C語言程序設計實踐教學探索
        計算機教育(2020年5期)2020-07-24 08:52:56
        從細節(jié)入手,談PLC程序設計技巧
        電子制作(2019年9期)2019-05-30 09:42:04
        淺談模式識別在圖像識別中的應用
        電子測試(2017年23期)2017-04-04 05:06:50
        第四屆亞洲模式識別會議
        高職高專院校C語言程序設計教學改革探索
        滬港通一周成交概況
        滬港通一周成交概況
        滬港通一周成交概況
        滬港通一周成交概況
        PLC梯形圖程序設計技巧及應用
        国产办公室沙发系列高清| 国产优质av一区二区三区| 国产极品大奶在线视频| 国产精品久久久久高潮| 亚洲最大av资源站无码av网址| 国产综合精品久久亚洲| 亚洲精品成人专区在线观看| 亚洲欧美国产成人综合不卡| 女主播啪啪大秀免费观看| 丰满熟妇人妻av无码区| 性色av无码不卡中文字幕| 国产精品久久久亚洲第一牛牛 | 国产私人尤物无码不卡| 精品国内自产拍在线观看| 高清国产美女一级a毛片在线| 白色白色视频在线观看| 久久精品夜色噜噜亚洲a∨| www国产无套内射com| 无码在线观看123| 99视频一区二区日本| 免费无码一区二区三区a片百度| 曰本女人牲交全视频免费播放| 无码国产日韩精品一区二区| 精品亚洲av乱码一区二区三区| 亚洲色中文字幕无码av| 亚洲饱满人妻视频| 精品女同一区二区三区不卡| 校园春色综合久久精品中文字幕| 中文字幕久久精品一二三区 | 日韩欧美亚洲中字幕在线播放| 国产毛片黄片一区二区三区| 亚洲AV无码一区二区一二区色戒| 视频国产精品| 国产熟女露脸大叫高潮| 日本午夜理论一区二区在线观看 | aⅴ精品无码无卡在线观看| 99精品视频69V精品视频| 欧美精品aaa久久久影院| 丝袜美腿在线播放一区二区| 午夜精品久久久久久久无码| 日本高清www午色夜高清视频|