摘 要:近年來隨著經(jīng)濟(jì)和信息科技的快速發(fā)展,中國各省市之間就業(yè)市場發(fā)展呈現(xiàn)出了嚴(yán)重的不均衡性。文章基于《中國統(tǒng)計年鑒》(2017)中的就業(yè)數(shù)據(jù),設(shè)計了包含19個維度的指標(biāo)體系,使用了主成分分析方法,對中國各省市的就業(yè)情況提取了3個主成分進(jìn)行降維分析,使用了主成分得分對各省市就業(yè)情況進(jìn)行了綜合排序。最后,得出了行業(yè)的分類信息,總結(jié)了3個層面的地區(qū)就業(yè)情況的總體特點(diǎn)與差異,并給出了成因分析。
關(guān)鍵詞:主成分分析;就業(yè);PCA
中圖分類號:F241.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1008-4428(2018)06-0134-03
一、 引言
中國就業(yè)市場上充斥著信息不對稱的狀況,對于求職者而言,他們大多都對行業(yè)沒有清晰的認(rèn)識,沒有明確的求職規(guī)劃,在求職中處于劣勢地位。同時全國就業(yè)市場又極度地發(fā)展不均衡,北上廣等一線城市牢牢占據(jù)榜首,每年吸引了大批年輕求職者,中西部常年吊車尾,每年都有大量人才流失。年輕勞力的缺失會使得經(jīng)濟(jì)發(fā)展遲緩,并且會形成惡性循環(huán),最終會造成極其嚴(yán)重的后果。因此,對我國就業(yè)情況進(jìn)行分析,可以為求職者制訂職業(yè)生涯規(guī)劃提供依據(jù),也可以為企業(yè)或政府機(jī)構(gòu)調(diào)整相關(guān)戰(zhàn)略政策提供數(shù)據(jù)支持。
本文對我國31個省市的就業(yè)情況進(jìn)行研究,在主成分分析的基礎(chǔ)上,使用主成分得分進(jìn)行綜合排序。綜合得分函數(shù)越大,排名越靠前,反之亦然。根據(jù)分析結(jié)果,本文總結(jié)了3個方面就業(yè)狀況的總體特點(diǎn)與差別,并分析了差別的形成原因,總結(jié)了各個區(qū)域在就業(yè)市場上的優(yōu)勢與不足。
二、 主成分分析相關(guān)理論
主成分分析法是指將數(shù)據(jù)中具有一定相關(guān)性的指標(biāo),重新組合成一組新的不相關(guān)的綜合指標(biāo)來代替原來的指標(biāo)。例如,在就業(yè)問題分析中有M個指標(biāo),主成分分析就是通過對這M個指標(biāo)進(jìn)行線性組合,最后得出新的綜合指標(biāo)。對于選取的第一個線性組合,將其命名為F1,用方差來表示該成分的信息量。從理論上來說,F(xiàn)1的方差是最大的,故稱為第一個主成分。如果第一個主成分不能完全代表M個指標(biāo)的信息,就考慮選取第二個線性組合。考慮到成分的有效性,此時在上一個主成分中出現(xiàn)過的信息不會再出現(xiàn)到第二個主成分中。以此類推,可以構(gòu)造出第三,第四,……,直至第M個主成分。
主成分分析本質(zhì)上是一種降維分析,在信息損失不多的情況下,將高緯數(shù)據(jù)轉(zhuǎn)換為幾個少數(shù)的主成分。在主成分提取中,通常選取累積貢獻(xiàn)率為85%作為閾值,取累積貢獻(xiàn)率不低于85%的前k個主成分,這樣既保證了信息的完整性,又成功地完成了對源數(shù)據(jù)的降維工作。本文將主成分分析用于就業(yè)狀況分析任務(wù)中,分析過程如下。
三、 基于主成分分析的就業(yè)狀況研究
(一)構(gòu)建指標(biāo)體系
在分析就業(yè)狀況之前,首先要構(gòu)建合適的指標(biāo)體系。本文基于2017年 《中國統(tǒng)計年鑒》,對我國各省市的就業(yè)情況進(jìn)行了分析,選取了19個行業(yè)作為指標(biāo)體系,分別為:X1(農(nóng)、林、牧、漁業(yè))、X2(采礦業(yè))、X3(制造業(yè))、X4(電力、燃?xì)饧八纳a(chǎn)和供應(yīng)業(yè))、X5(建筑業(yè))、X6(批發(fā)和零售業(yè))、X7(交通運(yùn)輸、倉儲和郵政業(yè))、X8(住宿和餐飲業(yè))、X9(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè))、X10(金融業(yè))、X11(房地產(chǎn)業(yè))、X12(租賃和商務(wù)服務(wù)業(yè))、X13(科學(xué)研究和技術(shù)服務(wù)業(yè))、X14(水利、環(huán)境和公共設(shè)施管理業(yè))、X15(居民服務(wù)、修理和其他服務(wù)業(yè))、X16(教育)、X17(衛(wèi)生和社會工作)、X18(文化、體育和娛樂業(yè))、X19(公共管理、社會保障和社會組織)。本文將各省市19個行業(yè)的就業(yè)數(shù)據(jù)作為源數(shù)據(jù),進(jìn)行就業(yè)狀況分析。
(二)主成分分析法的計算步驟
第一步,先對 19 個指標(biāo)的原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。使用X表示源數(shù)據(jù),X*表示標(biāo)準(zhǔn)化后的數(shù)據(jù)??梢允褂迷磾?shù)據(jù)的協(xié)方差矩陣表示數(shù)據(jù)之間的相關(guān)性,也可以使用標(biāo)準(zhǔn)化之后數(shù)據(jù)的相關(guān)系數(shù)矩陣來表示,二者的值是相同的。本文使用相關(guān)系數(shù)矩陣。
第二步,計算相關(guān)系數(shù)矩陣。
第五步,計算主成分系數(shù)。
從以上的分析可以看出,主成分分析的實(shí)質(zhì)就是確定原來變量xj(j=1,2,…,m)在諸主成分Fi(i=1,2,…,m)上的荷載Iij(i=1,2,…,n;j=1,2,…,m)。從數(shù)學(xué)上可以證明,它們分別是相關(guān)矩陣m個較大的特征值所對應(yīng)的特征向量。
第六步,計算主成分得分重新構(gòu)建數(shù)據(jù)。
根據(jù)標(biāo)準(zhǔn)化的原始數(shù)據(jù),按照各個樣品,分別代入主成分表達(dá)式,就可以得到各主成分下的各個樣品的新數(shù)據(jù),即為主成分得分。具體形式可如下。依據(jù)主成分得分的數(shù)據(jù),則可以進(jìn)行進(jìn)一步的統(tǒng)計分析。其中,常見的應(yīng)用有主成分回歸,變量子集合的選擇,綜合評價等。
四、 實(shí)驗(yàn)結(jié)果與分析
文章基于中國統(tǒng)計年鑒數(shù)據(jù),使用MATLAB編碼實(shí)現(xiàn)了主成分分析,計算了特征值、差值、貢獻(xiàn)率、累計貢獻(xiàn)率、主成分系數(shù)和主成分得分等,計算結(jié)果如下。
(一)特征值、差值、貢獻(xiàn)率和累積貢獻(xiàn)率
計算相關(guān)系數(shù)矩陣R的特征值和特征向量,得到了如表1的實(shí)驗(yàn)結(jié)果。根據(jù)累積貢獻(xiàn)率進(jìn)行升序排列,可以看出第一個特征貢獻(xiàn)率最大,達(dá)到了62.43%;第二個特征貢獻(xiàn)率有 16.52%;第三個特征貢獻(xiàn)率是6.85%。根據(jù)特征值累計貢獻(xiàn)率大于 85% 確定主成分的為 3,提取了 85.81% 的信息(見表1)。
(二)主成分提?。ㄒ姳?)
其中,主成分F1包括X1(農(nóng)林牧漁業(yè)),X2(采礦業(yè)),X4(電力熱力燃?xì)饧八a(chǎn)和供應(yīng)業(yè)),X6(批發(fā)和零售業(yè)),X7(交通運(yùn)輸倉儲和郵政業(yè)),X8(住宿和餐飲業(yè)),X10(金融業(yè)),X11(房地產(chǎn)業(yè)),X14(水利環(huán)境和公共設(shè)施管理業(yè)),X16(教育),X17(衛(wèi)生和社會工作),X18(文化、體育和娛樂業(yè))和X19(公共管理、社會保障和社會組織),這些行業(yè)與人們生活高度相關(guān),全面涵蓋了衣食住行、學(xué)習(xí)、醫(yī)療、娛樂和政府事務(wù)。因此本文將F1命名為個人生活類行業(yè)(見表3)。
主成分F2在X9(信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)),X12(租賃和商務(wù)服務(wù)業(yè)),X13(科學(xué)研究和技術(shù)服務(wù)業(yè)),X15(居民服務(wù)、修理和其他服務(wù)業(yè))等行業(yè)影響顯著,這些行業(yè)都屬于服務(wù)業(yè),與人們生活相關(guān),且X9和X13屬于高科技行業(yè),因此本文將F2命名為高新服務(wù)業(yè)(見表4)。
主成分F3包括X3(制造業(yè))和X5(建筑業(yè)),這些都屬于傳統(tǒng)行業(yè),對工作者勞動力和熟練度要求很高。隨著日后我國平均教育水平的提高,從事這種勞動密集型產(chǎn)業(yè)的工作者會越來越少,相應(yīng)的人力資源成本也會提高。本文將F3命名為勞動型傳統(tǒng)產(chǎn)業(yè)(見表5)。
(三)綜合得分
總得分排名情況分析,北京、江蘇、廣東、上海、浙江、天津、四川、福建等就業(yè)情況都很好,寧夏、青海、西藏、山西就業(yè)情況較差。其中,北京最好,山西最差(見表6)。
五、 結(jié)論
實(shí)驗(yàn)結(jié)果驗(yàn)證了文章的理論假設(shè),就業(yè)市場發(fā)展具有地區(qū)不均衡性,其中,北京、江蘇、廣東、上海和浙江等地就業(yè)狀況良好的原因是多元化的。第一,這些地區(qū)在改革開放進(jìn)程比內(nèi)地和中西部地區(qū)要快,較早地完成了工業(yè)化,原始資本的積累使得這些地區(qū)相較其他地區(qū)更早地完成了產(chǎn)業(yè)轉(zhuǎn)型,由農(nóng)業(yè)轉(zhuǎn)變成了工業(yè),由工業(yè)轉(zhuǎn)變成了高科技服務(wù)業(yè)。第二,上述地區(qū)是互聯(lián)網(wǎng)等高新服務(wù)業(yè)發(fā)展的集中地,北京有今日頭條等互聯(lián)網(wǎng)名企,騰訊坐落在廣東,上海金融業(yè)比較發(fā)達(dá),浙江有阿里巴巴等許多互聯(lián)網(wǎng)企業(yè),人工智能和互聯(lián)網(wǎng)等高科技企業(yè)更多地會選擇這些一線城市,吸引了許多年輕求職者。第三,政策的傾斜也使得區(qū)域發(fā)展不均衡,其他地區(qū)如內(nèi)地中西部應(yīng)努力結(jié)合自身優(yōu)勢,如鄭州結(jié)合自己身為交通樞紐的優(yōu)勢,把物流作為自己的一大重點(diǎn)。貴州則緊貼大數(shù)據(jù)的潮流,努力把自身打造成數(shù)據(jù)之都。綜上所述,我國就業(yè)狀況總體良好,可將行業(yè)分為個人生活行業(yè),高新服務(wù)業(yè)和勞動型傳統(tǒng)行業(yè),其中北上廣浙等地就業(yè)形勢良好。
參考文獻(xiàn):
[1]林海明,杜子芳.主成分分析綜合評價應(yīng)該注意的問題[J].統(tǒng)計研究,2013(8):25-31.
[2]中華人民共和國國家統(tǒng)計局.中國統(tǒng)計年鑒(2017)[M].北京:中國統(tǒng)計出版社,2017.
[3]賴德勝,蘇麗鋒,孟大虎,李長安.中國各地區(qū)就業(yè)質(zhì)量測算與評價[J].經(jīng)濟(jì)理論與經(jīng)濟(jì)管理,2011(11):88-99.
[4]丁守海.中國城鎮(zhèn)發(fā)展中的就業(yè)問題[J].中國社會科學(xué),2014(1):30-47.
[5]范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法[J].控制與決策,2013,28(6):915-919.
[6]譚亞芳,劉娟,王才華等.一種稀疏可控的主成分分析方法[J].計算機(jī)科學(xué),2017,44(1):243-246.
[7]嚴(yán)碧峰.供給側(cè)改革背景下我國大學(xué)生就業(yè)狀況及促進(jìn)對策研究[J].經(jīng)濟(jì)研究導(dǎo)刊,2017(19):113-114.
[8]姚建平.多元視角下的城鄉(xiāng)低收入家庭就業(yè)狀況研究[J].社會保障評論,2017(2).
作者簡介:
王夢華,女,河南周口人,南京財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院碩士研究生,研究方向:信息管理與信息系統(tǒng)、數(shù)據(jù)分析。