方丹丹
摘 要:隨著大數(shù)據(jù)技術(shù)的發(fā)展,探討大數(shù)據(jù)在高等教育領域的深度應用,成為當前高校關注的熱點,文章探討了大數(shù)據(jù)技術(shù)給高校教師職業(yè)生涯規(guī)劃帶來的新思路和方法,從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應用三個層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,并重點介紹了模型和算法的選擇,為大數(shù)據(jù)在高校人才培養(yǎng)方面的應用提供可行性參考。
關鍵詞:大數(shù)據(jù);職業(yè)生涯規(guī)劃
中圖分類號:G645 文獻標志碼:A 文章編號:1673-8454(2017)14-0072-04
隨著大數(shù)據(jù)時代的到來,云計算、智能化、移動化、數(shù)據(jù)挖掘等新興技術(shù)的應用和普及,使得數(shù)據(jù)處理能力與日俱增,通過大數(shù)據(jù)技術(shù)可以對事物進行多維度、多層次的數(shù)據(jù)分析,獲得有價值的信息,及時準確、全面深入地把握事物發(fā)展的規(guī)律,對未來的發(fā)展方向和趨勢進行預測,極大地提高我們認識世界的能力。在教育領域,也迅速掀起了大數(shù)據(jù)促進教育改革和創(chuàng)新發(fā)展相關研究的熱潮,大數(shù)據(jù)的教育應用研究迅猛發(fā)展起來。2014 年3 月,教育部辦公廳印發(fā)的《2014 年教育信息化工作要點》中指出:加強對動態(tài)監(jiān)測、決策應用、教育預測等相關數(shù)據(jù)資源的整合與集成,為教育決策提供及時和準確的數(shù)據(jù)支持,推動教育基礎數(shù)據(jù)在全國的共享??梢姡髷?shù)據(jù)與教育領域的深度融合,是當前教育事業(yè)發(fā)展的必然趨勢。大數(shù)據(jù)技術(shù)應用于高校教師職業(yè)生涯規(guī)劃的研究也是重要的研究方向,定性的研究方法向定量化的研究方向轉(zhuǎn)變,確定教師職業(yè)發(fā)展規(guī)劃的指標因子以及挖掘教師個人信息中的知識與規(guī)律,創(chuàng)新研究教師職業(yè)發(fā)展的路徑,通過對不同崗位、不同階段、不同目標的教師在自我認知的數(shù)據(jù)分析基礎之上,輔助教師制定個人的職業(yè)生涯規(guī)劃。
一、大數(shù)據(jù)概述
大數(shù)據(jù)(Big Data)一詞最早出現(xiàn)在20 世紀90 年代,主要用來表示數(shù)據(jù)的量化特征,相當于日常用語中的“數(shù)據(jù)量大”[1]。而2008 年9 月《自然》雜志所出版的文章Big Data: Science in the Petabyte Era,將大數(shù)據(jù)賦予了一種全新的科學理念,超越了單純數(shù)量意義的描述,引起了學術(shù)界的廣泛關注[2]。美國首屈一指的咨詢公司麥肯錫是研究大數(shù)據(jù)的先驅(qū),在其報告《Big data: The next frontier for innovation, competition, and productivity》中給出的大數(shù)據(jù)定義是:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集。但它同時強調(diào),并不是說一定要超過特定TB 值的數(shù)據(jù)集才能算是大數(shù)據(jù)。隨后,又出現(xiàn)了許多大數(shù)據(jù)的定義,綜合各種定義,概括大數(shù)據(jù)的特征:并沒有明確的界限,它不僅僅是數(shù)據(jù)量大,還有類型繁多、價值密度低、速度快、時效高的特征。
二、高校教師職業(yè)生涯規(guī)劃的現(xiàn)狀和不足
高校教師職業(yè)生涯規(guī)劃是高校教師結(jié)合自身特點和所處的環(huán)境,制定職業(yè)發(fā)展目標,對影響職業(yè)發(fā)展的各方面進行規(guī)劃,并根據(jù)目標的實現(xiàn)程度,不斷反饋和調(diào)整,最終實現(xiàn)目標的過程[3]。
職業(yè)生涯規(guī)劃對高校教師的發(fā)展至關重要,合理的職業(yè)生涯規(guī)劃有助于教師了解自己以及自身所處的職業(yè)環(huán)境,明確發(fā)展方向,預測發(fā)展前景,克服發(fā)展的盲目性,極大地挖掘自身的潛能,實現(xiàn)個人價值和社會價值。
對于高校教師職業(yè)生涯規(guī)劃的相關研究已取得一些成果,研究者們對現(xiàn)狀進行了充分的分析,目前存在的不足主要表現(xiàn)在如下幾個方面:高校教師對職業(yè)發(fā)展?jié)M意度較低,且缺乏明確的規(guī)劃和目標;重視程度和支持力度不夠,缺乏系統(tǒng)的職業(yè)規(guī)劃政策和指導;職業(yè)生涯規(guī)劃內(nèi)容片面、形式單一、缺少創(chuàng)新,缺乏個性化,達不到預期效果;研究成果以理論研究為主,缺少定量研究,缺少可操作的模型。
三、大數(shù)據(jù)給高校教師職業(yè)發(fā)展規(guī)劃帶來新機遇和挑戰(zhàn)
大數(shù)據(jù)時代,不僅對高校教師的知識體系、教學方式、教學評價等帶來了革命性的影響,也為教師進行職業(yè)生涯規(guī)劃提供了新思路和方法。
1.以大數(shù)據(jù)為依據(jù),幫助教師建立更完整、準確的自我認知和職業(yè)環(huán)境認知
良好的自我認知是職業(yè)生涯規(guī)劃的前提和關鍵,自我認知包括對自己的專業(yè)技能水平、性格特征、興趣愛好、特長、個人需求等各方面的認識和了解,傳統(tǒng)的自我認知建立在自己感知的基礎上,是感性的認知,不是量化的,而大數(shù)據(jù)可以將“人”數(shù)據(jù)化。隨著全社會信息化程度越來越高,越來越多的業(yè)務依賴于信息化應用,用戶在與應用交互的過程中產(chǎn)生大量的數(shù)據(jù);此外,網(wǎng)絡數(shù)據(jù)記錄了用戶的行為,可穿戴設備記錄人們的身體狀況、行動軌跡等。無處不在的數(shù)據(jù),為人們的自我認知提供了量化的工具,使人們能夠更加準確客觀地認識自己。
職業(yè)環(huán)境認知包括晉升制度、獎勵制度、薪酬制度等學校職業(yè)環(huán)境,也包括社會地位、收入福利等社會職業(yè)環(huán)境。職業(yè)環(huán)境會隨著國家或者學校的政策調(diào)整而發(fā)生變化。大數(shù)據(jù)時代,高校教師可以更多更快地獲取到外界的大量實時信息,學校整體職業(yè)環(huán)境、學校的發(fā)展規(guī)劃、學科建設情況、職業(yè)發(fā)展前景都可以通過數(shù)據(jù)進行展示,為教師分析自身所在的職業(yè)環(huán)境和職業(yè)發(fā)展趨勢,提供了有力的數(shù)據(jù)支撐。
2.大數(shù)據(jù)分析幫助教師選擇職業(yè)規(guī)劃路線
在自我認知和職業(yè)環(huán)境認知的基礎上,教師對職業(yè)生涯路線做出選擇,不同的發(fā)展路線,對教師的素質(zhì)要求不同,也會產(chǎn)生不一樣的職業(yè)發(fā)展的結(jié)果。一般而言,教師根據(jù)自身的條件和所處的環(huán)境,對個人的職業(yè)生涯路線做出的判斷和選擇,很多時候都是主觀判斷的結(jié)果。而以大數(shù)據(jù)分析為基礎,一方面可以清晰地看到不同職業(yè)發(fā)展路線的要求和區(qū)別,也可以看到不同職業(yè)發(fā)展路線帶來的影響和結(jié)果,甚至可以看到學校歷年的職業(yè)發(fā)展路線選擇的歷史數(shù)據(jù),為個人進行選擇提供依據(jù)。
3.個性化的大數(shù)據(jù)服務輔助教師職業(yè)發(fā)展
選定職業(yè)發(fā)展路線之后,教師需要制定階段性目標,確定相應的教育、發(fā)展和培訓計劃,并做出合理安排,個性化的大數(shù)據(jù)服務是結(jié)合教師的個人特征和階段性目標,進行個性化的推薦,推薦的內(nèi)容包括教學資料、科研項目、圖書、培訓等各個方面,讓數(shù)據(jù)參與到教師的成長過程中,幫助教師更好地發(fā)展。
4.大數(shù)據(jù)報告對階段性目標進行總結(jié)和修正
教師職業(yè)規(guī)劃的過程還包括根據(jù)目標的實現(xiàn)程度,不斷反饋和調(diào)整,最終實現(xiàn)既定目標。大數(shù)據(jù)報告對教師各方面的數(shù)據(jù)進行總結(jié)和分析,隨時生成的大數(shù)據(jù)報告可以讓教師隨時了解和掌握目標實現(xiàn)的情況,對產(chǎn)生的偏差進行不斷修正和調(diào)整。
四、基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架
本研究從數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應用三個層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,如圖1所示。
1.數(shù)據(jù)采集
教師數(shù)據(jù)主要來源于學校業(yè)務系統(tǒng)數(shù)據(jù)和網(wǎng)絡服務器的瀏覽數(shù)據(jù),學校業(yè)務系統(tǒng)包括人力資源管理系統(tǒng)、教務系統(tǒng)、教學平臺、科研管理系統(tǒng)、圖書借閱系統(tǒng)、E卡通系統(tǒng)等,可以獲取到教師基本信息、教學信息、科研成果、圖書借閱信息、校內(nèi)消費信息等數(shù)據(jù),這些數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù),不要求實時處理,因此可通過ETL(Extract-Transform-Load)工具進行數(shù)據(jù)的自動采集,將數(shù)據(jù)從源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端。網(wǎng)絡瀏覽數(shù)據(jù)是從網(wǎng)絡服務器獲取到用戶的網(wǎng)絡行為數(shù)據(jù),這部分數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主,數(shù)據(jù)量巨大、多類別、更新頻率高,可采用一個高可用的、高可靠的、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)Flume工具進行采集。
2.數(shù)據(jù)處理
數(shù)據(jù)處理包括數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析與挖掘等,本研究采用一個開源分布式計算平臺Hadoop。采集到的數(shù)據(jù)首先要進行數(shù)據(jù)存儲,ETL工具采集到的數(shù)據(jù)一般存儲到傳統(tǒng)關系型數(shù)據(jù)庫mysql或者oracle中,再通過Sqoop工具導入到hbase中。Flume采集到的海量網(wǎng)絡瀏覽數(shù)據(jù)采用Lambda大數(shù)據(jù)架構(gòu),分為批處理和實時處理兩部分,批處理部分采用Hadoop實現(xiàn),包括HDFS和Hadoop MapReduce,包括對全部數(shù)據(jù)集的預計算。實時處理利用流處理系統(tǒng)如kafka、Storm、S4、Spark等,采用各種復雜的增量算法實現(xiàn)。
數(shù)據(jù)計算采用分布式計算框架,根據(jù)不同的應用場景選擇離線計算、交互式計算或者流式計算,主要用到的框架包括MapReduce、Spark、Impala、Storm等。
數(shù)據(jù)分析與挖掘使用Mahout機器學習算法庫提供的一些可擴展的經(jīng)典算法的實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘等,應用到各個不同的模型中。
3.數(shù)據(jù)應用
本研究的數(shù)據(jù)應用包括:教師畫像、個性化推薦、分析與預測、大數(shù)據(jù)報告四個部分。教師畫像是對現(xiàn)實世界中教師的數(shù)學建模,是通過分析挖掘教師盡可能多的數(shù)據(jù)信息得到的,用標簽的集合來表示。個性化推薦基于教師畫像的標簽特征,構(gòu)建推薦模型,選擇推薦算法,實現(xiàn)推薦感興趣的信息給教師。分析與預測結(jié)合教師畫像的標簽特征和學校職業(yè)規(guī)劃環(huán)境,分析個人職業(yè)發(fā)展的方向和目標,并預測是否能夠達到下一個目標。大數(shù)據(jù)報告以數(shù)據(jù)的方式總結(jié)個人階段性成果,分析職業(yè)發(fā)展過程中現(xiàn)實和目標的偏差。
五、基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃的模型與算法
教師畫像、個性化推薦、分析與預測、大數(shù)據(jù)報告四個部分既是一個整體,各部分相互聯(lián)系,又是不同的功能模塊,無論是需求設計、功能設計、架構(gòu)設計、模型和算法設計上都有很大的區(qū)別。本研究擬從共性和方法上進行論述,重點介紹模型和算法的選擇。
建模的過程是在明確需求、了解數(shù)據(jù)、構(gòu)造特征的基礎上,根據(jù)實際的應用場景,選擇模型和算法,本研究的模型和算法如圖2所示。
1.數(shù)據(jù)預處理
數(shù)據(jù)處理的流程,一般先要明確問題,了解數(shù)據(jù)的規(guī)模,重要特征的覆蓋度,并明確需求和數(shù)據(jù)的匹配度。再對數(shù)據(jù)進行預處理,數(shù)據(jù)預處理的過程包括對數(shù)據(jù)進行集成、數(shù)據(jù)采樣、數(shù)據(jù)清洗、缺失值處理、噪聲數(shù)據(jù)處理、數(shù)據(jù)沖突處理等。其次是特征工程,特征是指對所需要解決的問題有用的屬性,特征的提取、選擇和構(gòu)造是通過相關系數(shù)等方式來計算特征的重要性,針對所解決的問題選擇最有用的特征集合,本研究構(gòu)造的特征包括:教師的性別、年齡、教育程度、籍貫、收入水平等基礎屬性,教師的教授課程、學生人數(shù)、課時量、學生評價等教學屬性,教師的論文、科研項目、橫向課題、縱向課題、學術(shù)會議等科研成果屬性,專業(yè)、研究方向、職稱等專業(yè)技能屬性,閱讀偏好、消費偏好等興趣偏好,借閱圖書、E卡消費、資料搜索等行為屬性。
2.模型與算法選擇
明確問題和需求后,根據(jù)問題的分類,選擇模型和算法。
分類問題是找出數(shù)據(jù)庫中的一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定的類別中。聚類類似于分類,但與分類的目的不同,是針對數(shù)據(jù)的相似性和差異性將一組數(shù)據(jù)分為幾個類別。屬于同一類別的數(shù)據(jù)間的相似性很大,但不同類別之間數(shù)據(jù)的相似性很小,跨類的數(shù)據(jù)關聯(lián)性很低?;貧w分析反映了數(shù)據(jù)庫中數(shù)據(jù)的屬性值特性,通過函數(shù)表達數(shù)據(jù)映射的關系來發(fā)現(xiàn)屬性值之間的依賴關系。關聯(lián)規(guī)則是隱藏在數(shù)據(jù)項之間的關聯(lián)或相互關系,即可以根據(jù)一個數(shù)據(jù)項的出現(xiàn)推導出其他數(shù)據(jù)項的出現(xiàn)。
選擇模型和算法考慮的因素包括:數(shù)據(jù)訓練集的大小、特征的維度、所要解決的問題是否是線性可分、特征是否獨立、對性能有哪些要求等。選擇方法可采用奧卡姆剃刀原理,這個原理稱為“如無必要,勿增實體”,即“簡單有效原理”。比如對于分類問題,只要認為問題是線性可分的,即可采用LR分類器(Logistic Regression Classifier),該模型比較抗噪,效率高,可以應用于數(shù)據(jù)特別大的場景,很容易分布式實現(xiàn)。比如Ensenble方法(組合方法),根據(jù)training set訓練多個模型,然后綜合各個模型的結(jié)果,做出預測,該方法組合多個模型,可以獲得更好的效果,使集成的模型具有更強的泛化能力。
建模時通常會執(zhí)行多次迭代,選擇合適的模型算法,運行多個可能的模型,然后再對這些參數(shù)進行微調(diào)以便對模型進行優(yōu)化,最終選擇出一個最佳的模型。
3.模型與算法評價
最后需要對模型和算法進行評價,本研究采用廣泛應用于信息檢索和統(tǒng)計學分類領域的兩個度量值:準確率和召回率,來評價結(jié)果的質(zhì)量,如表1所示。
準確率accuracy=(TP+TN)/(P+N),就是被分對的樣本數(shù)除以所有的樣本數(shù)。通常來說,準確率越高,分類器越好;召回率recall=TP/(TP+FN),召回率是覆蓋面的度量,度量有多少個正例被分為正例。
六、結(jié)束語
大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,帶來了各行各業(yè)的大數(shù)據(jù)應用創(chuàng)新,在高等教育領域亦如此,不僅在教學方式、教學管理、學生管理等各個方面,在高校教師的職業(yè)發(fā)展方面,大數(shù)據(jù)應用也有其應用價值。本文提出了教師畫像、個性化推薦、分析與預測、大數(shù)據(jù)報告四個方面的創(chuàng)新應用,并從技術(shù)角度,在數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)應用三個層次構(gòu)建了基于大數(shù)據(jù)的高校教師職業(yè)發(fā)展規(guī)劃總體框架,重點討論了模型和算法的選擇?;诒疚牡难芯績?nèi)容,可作為高校構(gòu)建支撐高校教師職業(yè)生涯規(guī)劃的大數(shù)據(jù)平臺的參考。未來隨著技術(shù)的更新和進步,在技術(shù)架構(gòu)、模型和算法的選擇方面,可以繼續(xù)進行更深一步的探討。
參考文獻:
[1]安濤,趙可云.大數(shù)據(jù)時代的教育技術(shù)發(fā)展取向[J].現(xiàn)代教育技術(shù),2006(2).
[2]宋學清,劉雨.大數(shù)據(jù):信息技術(shù)與信息管理的一次變革[J].情報科學,2014(9).
[3]汪霞.關于高校教師職業(yè)生涯規(guī)劃的思考[J].信陽師范學院學報(哲學社會科學版),2010(2).
(編輯:魯利瑞)