摘 ?要:隨著時代的發(fā)展和進步,大數(shù)據(jù)理念已經(jīng)逐漸為人們所熟知,并無時無刻不在影響著人們的生活和工作。通過利用大數(shù)據(jù)能夠有效促進校園管理和建設(shè)的開展,能夠?qū)π@就業(yè)情況進行用戶畫像建設(shè),一方面實現(xiàn)校園就業(yè)用戶的更好管理,另一方面也能夠促進校園就業(yè)工作的更好開展。
關(guān)鍵詞:大數(shù)據(jù);校園就業(yè);用戶畫像;數(shù)據(jù)收集
中圖分類號:TP311.13;TP391.1 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)17-0110-03
Abstract:With the development and progress of the times,the concept of big data has gradually become known to people,and has always been affecting people’s lives and work. The use of big data can effectively promote the development of campus management and construction,and can build user portraits of campus employment. On the one hand,it can achieve better management of campus employment users,on the other hand,it can also promote better development of campus employment work.
Keywords:big data;campus employment;user portrait;data collection
0 ?引 ?言
伴隨著大數(shù)據(jù)時代的到來,社交網(wǎng)絡(luò)與互聯(lián)網(wǎng)的應(yīng)用范圍處于持續(xù)擴大之中。在整個互聯(lián)網(wǎng)中,社交發(fā)揮著重要的基礎(chǔ)作用。對于各個重大網(wǎng)站而言,其重要課題之一就是采集用戶數(shù)據(jù),并對其開展科學(xué)推薦工作。在開展個性化推薦工作的過程中,其包括許多步驟,用戶畫像提取過程發(fā)揮著關(guān)鍵作用。
1 ?畫像的定義和用途
1.1 ?畫像的定義
畫像與profile為同一概念,均是通過不同的維度,來對一個人進行描述,這些維度可以是事實的,亦可以是抽象的;可以是性別、年齡等自然屬性,亦可以為職業(yè)、社交特征等社會屬性;可以為是否高收入人群、是否有固定資產(chǎn)等財富情況,亦可以為是否已婚、是否有子女等家庭情況;可以是喜歡網(wǎng)購、喜歡逛商場等購物習(xí)慣,亦可以是位于在城市生活等位置特征;也可以是其他行為習(xí)慣。總而言之,在畫像的范圍中,將各個大家能夠想象到的表達一個人特征的都包括進來,實際上,畫像就是利用各種方法,通過數(shù)據(jù)來對人的特征進行描述。
1.2 ?畫像的用途
(1)能夠精確開展相關(guān)營銷工作,對產(chǎn)品潛在用戶進行科學(xué)分析。通過短信郵件等形式,針對特定群體,開展相關(guān)營銷工作。
(2)針對對用戶進行相關(guān)統(tǒng)計,例如:全國就業(yè)高等院校有哪些、中國大學(xué)購買書籍人數(shù)TOP10等。
(3)進一步挖掘相關(guān)數(shù)據(jù),建設(shè)智能推薦系統(tǒng),通過關(guān)聯(lián)規(guī)則,開展相關(guān)計算工作,比如,就業(yè)崗位更喜歡什么樣的學(xué)生。通過聚類算法,開展相關(guān)分析工作,了解就業(yè)學(xué)生的特點以及行業(yè)分布狀況等。
(4)開展效果評估工作,健全產(chǎn)品運營情況,以此來實現(xiàn)服務(wù)質(zhì)量的提升。換而言之,就是開展市場與用戶調(diào)研活動,在短時間內(nèi)對服務(wù)群體做出定位,并提供具備較高水平的服務(wù),
(5)針對特殊用戶開展私人定制工作,換而言之,對某類群體,甚至每位用戶提供個性化服務(wù)。
(6)可以科學(xué)分析業(yè)務(wù)經(jīng)營情況,亦可以合理分析競爭情況,上述分析結(jié)果會對企業(yè)發(fā)展戰(zhàn)略的制定與實施,造成一定的影響。
2 ?大數(shù)據(jù)的校園就業(yè)用戶畫像的構(gòu)建和應(yīng)用
2.1 ?數(shù)據(jù)收集
通常情況下,在數(shù)據(jù)收集方面,可以分為四種類型,即:基本用戶數(shù)據(jù)、就業(yè)行為數(shù)據(jù)、就業(yè)行業(yè)數(shù)據(jù)以及未來發(fā)展數(shù)據(jù)。
(1)基本用戶數(shù)據(jù)。其主要內(nèi)容包括就業(yè)學(xué)生的姓名、性別、年齡、年級、學(xué)習(xí)的專業(yè)等。
(2)就業(yè)行為數(shù)據(jù)。其主要包含:就業(yè)中的表現(xiàn)、就業(yè)的情緒、就業(yè)過程中的經(jīng)歷、面試的單位、參與面試的心理狀態(tài)、進入就業(yè)市場到成功就業(yè)時間等。
(3)就業(yè)行業(yè)數(shù)據(jù)。其主要包括:就業(yè)的行業(yè)、就業(yè)的類別、就業(yè)崗位、就業(yè)之后的薪資待遇、走入工作崗位的心理感受、就業(yè)環(huán)境等。
(4)未來發(fā)展數(shù)據(jù)。此部分數(shù)據(jù)主要包括學(xué)生就業(yè)行業(yè)的未來發(fā)展趨勢、就業(yè)崗位的未來發(fā)展趨勢、自身的就業(yè)成長前景等。
這些所收集的數(shù)據(jù)信息具備一定的不確定性,其準確率不能夠達到百分之百,在后臺階段之中,需要開展相關(guān)建模工作,并在此基礎(chǔ)上,做出相關(guān)判斷。例如:在性別一欄中,某用戶所填寫的為“男”,但是利用其他數(shù)據(jù),能夠有80%的概率判斷其性別為“女”。值得注意的是,針對用戶行為數(shù)據(jù)信息,在開展相關(guān)儲存工作的過程中,應(yīng)當(dāng)最大限度地對發(fā)生該行為的場景進行存儲,這樣有助于數(shù)據(jù)分析工作的順利開展。
針對這一階段所收集的數(shù)據(jù),應(yīng)當(dāng)開展行為建模工作,以此來將用戶標簽抽象出來。在該階段中,應(yīng)當(dāng)高度關(guān)注大概率事件,利用數(shù)學(xué)算法模型,最大限度地排除用戶偶然行為。在這個過程中,也應(yīng)當(dāng)通過機器學(xué)習(xí),針對用戶的行為以及偏好,開展相關(guān)猜測工作。
在這個階段中,為了能夠針對用戶貼標簽,需要運用許多模型,行為建模這一階段的深入,就是基于大數(shù)據(jù)校園就業(yè)用戶畫像基本成型,應(yīng)當(dāng)從大體上,標簽化用戶基本屬性、購買能力、行為特征、興趣愛好、心理特征,以及社交網(wǎng)絡(luò)。其中,其基本屬性主要指的是性別、年齡、地域等。這里所指的基本成型,究其緣由就是在對個人進行描述的過程中,用戶畫像不可能對其進行百分之百的描述,只能夠不斷貼近實際情況。所以,針對基于大數(shù)據(jù)的校園就業(yè)用戶畫像,能夠依據(jù)變化的基礎(chǔ)數(shù)據(jù),持續(xù)開展相關(guān)修正工作。與此同時,還能夠依據(jù)已知數(shù)據(jù),對新標簽進行抽象,進而提升用戶畫像的立體性。
針對“標簽化”而言,通常情況下,會運用多級標簽與多級分類。其中,年齡、性別、地域等基本信息屬于第一級標簽,消費習(xí)慣與用戶行為屬于第二級標簽。在第一級分類中,將人口屬性包括進來。在二級分類中,除了基本信息與地理位置之外,還將人口屬性等內(nèi)容包括進來。在地理位置方面,可以劃分為工作地址與家庭地址三級分類。
針對基于大數(shù)據(jù)校園就業(yè)用戶畫像,要想將其真正利用起來,就需要采用數(shù)據(jù)可視化分析。在該步驟中,相關(guān)工作的開展,通常是針對群體分析來進行的。例如:能夠依據(jù)用戶價值,對相關(guān)核心用戶開展細致劃分工作,并對某一群體的潛在價值空間進行相關(guān)評估,進而不斷提高相關(guān)運營工作的針對性,確保運營工作的高效開展。
2.2 ?常用算法
在對模型設(shè)計與數(shù)據(jù)計算處理方式進行確定的過程中,應(yīng)當(dāng)以業(yè)務(wù)目標與原材料為基礎(chǔ)來進行。在面對不同行業(yè)與應(yīng)用情景的情況下,應(yīng)當(dāng)利用不同的數(shù)據(jù)源,開展不同的標簽設(shè)計和計算工作。
(1)人口屬性主要指的是人的基本特征,例如:年齡、性別等;
(2)資產(chǎn)情況主要指的是資產(chǎn)特征,例如:房產(chǎn)、收入、車輛等;
(3)興趣特征主要指的是興趣偏好,例如:運動健康、閱讀資訊等;
(4)消費特征主要指的是網(wǎng)上消費類別品牌、線下消費類別品牌等;
(5)位置特征主要指的是職住距離、常駐城市等;
(6)設(shè)備屬性指的是所運用終端的特性等。
要想對上述標簽的設(shè)計進行計算與支持,離不開多種維度的數(shù)據(jù)源:
(1)針對產(chǎn)生維度而言,包括線下數(shù)據(jù)、移動終端數(shù)據(jù)、PC端數(shù)據(jù);
(2)針對數(shù)據(jù)擁有者而言,包含市場采集數(shù)據(jù)、外部官方渠道數(shù)據(jù)以及一方客戶自身數(shù)據(jù);
(3)針對數(shù)據(jù)類型而言,包括交易數(shù)據(jù)、位置數(shù)據(jù)、運營商數(shù)據(jù)、社交數(shù)據(jù)等。
通過這些不同源的數(shù)據(jù),在對處理業(yè)務(wù)所需要的標簽進行計算的過程中,通常包括以下步驟:
(1)抽取數(shù)據(jù):通過不同數(shù)據(jù)源,將需要計算標簽的數(shù)據(jù)原材料抽取出來;
(2)數(shù)據(jù)標準化:清洗所抽取的數(shù)據(jù)使其成為標準格式,并提出錯誤與無效數(shù)據(jù);
(3)數(shù)據(jù)打通:數(shù)據(jù)來源不同,其所具備的主鍵與屬性就有所不同,數(shù)據(jù)打通的關(guān)鍵就是怎樣將這些數(shù)據(jù)關(guān)聯(lián)起來;
(4)模型設(shè)計:在構(gòu)建模型的過程中,針對不同的數(shù)據(jù)內(nèi)容與業(yè)務(wù)目標,對不同的規(guī)則與算法進行設(shè)計。
常用算法方面,主要包括線性回歸、邏輯回歸與多分類邏輯回歸。
2.3 ?重點難點
(1)怎樣對畫像主體進行定義。在現(xiàn)實世界中,每個人均為一個獨立實體。然而,在虛擬世界中,個人可能進行變身,不再是一個獨立個體,可以成為多個。例如:每個人的身份ID只有一個,但是可能具備多部手機,這樣對應(yīng)的手機號為多個,設(shè)備終端ID為多個,所對應(yīng)移動終端的使用行為同樣為多個。對于這個實體而言,多個終端ID所對應(yīng)的特征不同,只有拼接起來這個實體,才能夠?qū)⒄w畫像體現(xiàn)出來。一個人的QQ號可能為多個,倘若通過QQ行為角度做出相關(guān)分析,其所運用的邏輯基本相同,充分表現(xiàn)出終端實體多對一。反而言之,一對多的情形也會存在。例 如:對于一個家庭用的iPad而言,兒童可以通過iPad進行游戲,父親可以通過iPad來查收有關(guān)郵件,母親可以通過iPad來開展相關(guān)購物活動,通過這一個iPad,能夠?qū)⒍鄠€實體的行為特征體現(xiàn)出來,并且很難將其拆分開來。因此,要想對實體進行完整的定義,其所存在的難度系數(shù)非常高。這就要求,在相關(guān)業(yè)務(wù)領(lǐng)域中,部分情況下,要追求標簽的整體性,要想實現(xiàn)該目標所存在的難度系數(shù)非常高,反之,應(yīng)當(dāng)不斷提高對標簽代表性的關(guān)注度,不論是在一對多的情況下,還是在多對一的情況下,只要能夠利用標簽,將所需要尋找的受眾群體篩選出來即可。即使是面對家庭共用的iPad,雖然具備相關(guān)游戲標簽,這能夠充分體現(xiàn)出,在該家庭中,其成員具備相關(guān)方面的興趣愛好。
(2)怎樣將不同源的數(shù)據(jù)打通。針對一些不同源的數(shù)據(jù),主要包括PC端的行為信息、移動終端的行為信息,以及TV端的行為信息,怎樣關(guān)聯(lián)起上述信息內(nèi)容?在上述問題中,居于核心地位的問題就是怎樣打通這些終端的唯一標識ID。在Talking Data的數(shù)據(jù)體系中,已經(jīng)完成了ID關(guān)聯(lián)圖譜的建設(shè)工作。在該ID關(guān)聯(lián)圖譜中,TD ID居于核心地位,發(fā)揮著至關(guān)重要的作用。通過Talking Data的ID-Mapping能力,已經(jīng)促進了跨設(shè)備ID關(guān)聯(lián)映射工作的完成。因此,只需要將一家與Talking Data類似的數(shù)據(jù)接入,就能夠解決不同源ID的打通問題。
3 ?結(jié) ?論
伴隨著社交網(wǎng)絡(luò)突飛猛進的發(fā)展與進步,媒體類型變得更加豐富多彩,正在持續(xù)降低用戶參與門檻。用戶表達的數(shù)據(jù)模態(tài)變得更加多樣化,進而促使用戶畫像提取空間變得更加寬廣。伴隨著用戶畫像數(shù)量的持續(xù)增長,越來越多的用戶開始通過大數(shù)據(jù)技術(shù),開展高效的存儲以及用戶畫像計算工作。相關(guān)人員及院校也需要在大數(shù)據(jù)掌握基礎(chǔ)上做好校園就業(yè)用戶畫像的構(gòu)建和應(yīng)用,使校園就業(yè)工作得以更好推動。
參考文獻:
[1] 袁軍.大數(shù)據(jù)環(huán)境下用戶畫像在高校圖書館的應(yīng)用研究 [J].圖書館研究與工作,2019(6):22-26.
[2] 汪強兵,章成志.基于手勢行為的社交網(wǎng)絡(luò)用戶興趣畫像構(gòu)建及應(yīng)用 [J].圖書與情報,2019(2):114-119+132.
[3] 劉漫.基于用戶畫像的高校圖書館閱讀推廣模式構(gòu)建 [J].圖書館理論與實踐,2019(1):1-8.
[4] 茶利強,余添李,施菡,等.用戶畫像在企業(yè)人才標準構(gòu)建中的應(yīng)用 [J].管理觀察,2019(6):39-40+47.
[5] 姚遠,張蕙,郝群,等.基于本體的用戶畫像構(gòu)建方法 [C] //中國計算機用戶協(xié)會網(wǎng)絡(luò)應(yīng)用分會2018年第二十二屆網(wǎng)絡(luò)新技術(shù)與應(yīng)用年會.北京:北京聯(lián)合大學(xué)北京市信息服務(wù)工程重點實驗室,2018.
作者簡介:劉艷(1982-),女,漢族,湖南長沙人,講師,碩士,研究方向:移動應(yīng)用、大數(shù)據(jù)。