鄭喜亮,蘇 湛,艾 均
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
人類對(duì)于網(wǎng)絡(luò)的研究由來已久,18 世紀(jì)偉大的數(shù)學(xué)家歐拉對(duì)于七橋問題(Konigsberg)的研究是目前公認(rèn)的最早關(guān)于網(wǎng)絡(luò)的研究。20 世紀(jì)60 年代由Erdos 和Renyi 兩位匈牙利數(shù)學(xué)家建立的隨機(jī)圖理論(random graph theory)[1]被公認(rèn)是在數(shù)學(xué)上最早開創(chuàng)了復(fù)雜網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的系統(tǒng)性分析。在20 世紀(jì)末,小世界網(wǎng)絡(luò)模型[2]和無標(biāo)度網(wǎng)絡(luò)模型[3]的相繼提出,使得復(fù)雜網(wǎng)絡(luò)成為學(xué)術(shù)界熱門的研究方向。而且小世界網(wǎng)絡(luò)模型和無標(biāo)度網(wǎng)絡(luò)模型有著和現(xiàn)實(shí)世界網(wǎng)絡(luò)[4]相似的網(wǎng)絡(luò)特性。例如,小世界網(wǎng)絡(luò)的小世界性和高聚集度系數(shù);無標(biāo)度網(wǎng)絡(luò)的小世界性和節(jié)點(diǎn)度分布服從冪律分布的特點(diǎn)。不過,這兩種網(wǎng)絡(luò)都存在一定的不足之處,如小世界網(wǎng)絡(luò)的節(jié)點(diǎn)度值服從指數(shù)分布問題及無標(biāo)度網(wǎng)絡(luò)的聚集系數(shù)很小等問題,但實(shí)際上現(xiàn)實(shí)世界的網(wǎng)絡(luò)也存在著不同程度的差異。針對(duì)以上網(wǎng)絡(luò),大量的學(xué)者進(jìn)行了改進(jìn),如Newman 和Watts 對(duì)小世界網(wǎng)絡(luò)模型作了進(jìn)一步改進(jìn)[5],使得網(wǎng)絡(luò)不存在孤立節(jié)點(diǎn),也是目前最廣為使用的小世界網(wǎng)絡(luò)模型;Li 等對(duì)無標(biāo)度網(wǎng)絡(luò)模型作了進(jìn)一步改進(jìn)[6],由于網(wǎng)絡(luò)中的節(jié)點(diǎn)并不能獲取到網(wǎng)絡(luò)的全局信息,從而提出了局域世界概念。
使用復(fù)雜網(wǎng)絡(luò)來對(duì)現(xiàn)實(shí)世界中的一些問題進(jìn)行研究,可以指導(dǎo)和預(yù)測(cè)現(xiàn)實(shí)世界中事物的發(fā)展趨勢(shì)和走向,將現(xiàn)實(shí)世界中的有限資源合理利用,使得資源利用效益最大化。同時(shí)也可以利用復(fù)雜網(wǎng)絡(luò)分析現(xiàn)實(shí)世界網(wǎng)絡(luò)的脆弱邊或是脆弱節(jié)點(diǎn),從而有針對(duì)性地改善和防止問題的發(fā)生。肖盛等[7]基于復(fù)雜網(wǎng)絡(luò)理論對(duì)某地區(qū)真實(shí)電網(wǎng)進(jìn)行脆弱性評(píng)估,結(jié)果表明,分析所得脆弱節(jié)點(diǎn)的分布情況與該地區(qū)電力網(wǎng)絡(luò)脆弱節(jié)點(diǎn)的真實(shí)情況基本相符。譚陽紅等[8]對(duì)傳統(tǒng)評(píng)估電網(wǎng)節(jié)點(diǎn)重要度的方法進(jìn)行了改進(jìn),引入相對(duì)熵和灰色關(guān)聯(lián)度,提高了評(píng)估結(jié)果的準(zhǔn)確度。文獻(xiàn)[9]以武漢市路網(wǎng)作為原始數(shù)據(jù),通過計(jì)算復(fù)雜網(wǎng)絡(luò)的中心性,發(fā)現(xiàn)武漢市路網(wǎng)具有層次結(jié)構(gòu)特征且結(jié)構(gòu)構(gòu)成符合“二八分率”的規(guī)律。文獻(xiàn)[10]分析了我國礦業(yè)并購演變過程,通過計(jì)算中心性指標(biāo),使用K-核分解算法發(fā)現(xiàn)礦業(yè)并購市場(chǎng)易受到外部環(huán)境影響等特點(diǎn)。這也就進(jìn)一步證明了復(fù)雜網(wǎng)絡(luò)不僅具有理論研究?jī)r(jià)值,同時(shí)也具備在現(xiàn)實(shí)中的應(yīng)用價(jià)值。
現(xiàn)實(shí)世界中充斥著各種各樣的信息,按照類型可分為文字、視頻、圖片及音頻等,但最為常見的還要屬文本信息。而文本信息為了提高可讀性和信息邏輯性,在表達(dá)上存在著冗余性,如文本信息中的介詞、代詞及標(biāo)點(diǎn)符號(hào)等內(nèi)容實(shí)際上一般并不包含有效的信息要素。為了提取出文本信息的有效信息要素,必須使用合理的分詞方式來實(shí)現(xiàn)。分詞是指將連續(xù)的字序列按照一定規(guī)范重新組合成詞序列的過程。其中,分詞的規(guī)范重組部分實(shí)際上是分詞的核心部分,因?yàn)椋瑹o論中文還是英文都不能完全按照固定模式進(jìn)行分詞,文本信息中往往會(huì)含有大量專有名詞、機(jī)構(gòu)名、人名及地名等信息,如果按照完全固定模式分詞,會(huì)使大量文本有效信息失真,所以,分詞時(shí)必須進(jìn)行文本語義分析,結(jié)合語義分析結(jié)果進(jìn)行分詞才能得到更為準(zhǔn)確的分詞結(jié)果,這樣的結(jié)果對(duì)于研究也更具有現(xiàn)實(shí)意義。文獻(xiàn)[11]基于復(fù)雜網(wǎng)絡(luò)理論對(duì)文本關(guān)鍵詞進(jìn)行提取,提出了綜合考慮目標(biāo)詞匯以及相鄰節(jié)點(diǎn)的貢獻(xiàn)度來提取關(guān)鍵詞的方法。文獻(xiàn)[12]通過詞序統(tǒng)計(jì)組合來提取文本信息關(guān)鍵詞,綜合使用詞序統(tǒng)計(jì)、詞性標(biāo)記、停用詞過濾等方式提高關(guān)鍵詞提取準(zhǔn)確性。
在現(xiàn)代社會(huì)和企業(yè)發(fā)展中,人才是最寶貴的資源,很多企業(yè)和國家都在強(qiáng)調(diào)這一點(diǎn),甚至出現(xiàn)企業(yè)為了得到一個(gè)關(guān)鍵人物或團(tuán)隊(duì)出手將整家公司收購的極端現(xiàn)象,由此看出現(xiàn)代社會(huì)對(duì)于有才能人士的重視。同時(shí),人才也是不同國家、不同企業(yè)的必爭(zhēng)之地。我國提出的“千人計(jì)劃”、“萬人計(jì)劃”以及現(xiàn)在各個(gè)城市都在不斷推出的引進(jìn)人才計(jì)劃和為留住人才而推出的各種優(yōu)惠政策都從側(cè)面證明了人才對(duì)于社會(huì)和企業(yè)發(fā)展的重要性。文獻(xiàn)[13]通過趨勢(shì)外推法和灰色模型對(duì)湖北科技人才需求進(jìn)行演化預(yù)測(cè),文獻(xiàn)[14]分析了人才分析對(duì)戰(zhàn)略人力資源管理的價(jià)值,總結(jié)了人才分析的主要用途并提出了實(shí)施人才分析需要注意的相關(guān)問題。本文基于復(fù)雜網(wǎng)絡(luò)和NLPIR(natural language processing & information retrieval)分詞系統(tǒng)以百度百科詞條信息作為原始數(shù)據(jù)對(duì)幾家互聯(lián)網(wǎng)企業(yè)的高管進(jìn)行研究分析。
本文使用的高管人員名單來自于以下互聯(lián)網(wǎng)企業(yè):百度、阿里巴巴、騰訊、滴滴、美團(tuán)、京東、今日頭條;每位高管人員的個(gè)人信息均來自于百度百科官方詞條。
建模算法設(shè)計(jì):
a. 由于使用爬蟲技術(shù)獲取到的文本信息不規(guī)范,存在格式不統(tǒng)一、包含異常的符號(hào)等問題,所以,在獲取到文本信息后,根據(jù)預(yù)先設(shè)定的處理規(guī)則進(jìn)行處理。例如,刪除多余的空格、換行符號(hào)及少部分的不規(guī)則網(wǎng)頁標(biāo)簽等。經(jīng)過預(yù)處理后原始數(shù)據(jù)成為姓名與個(gè)人百度百科詞條一一對(duì)應(yīng)的形式。例如,通過預(yù)處理得到以李彥宏為文件名的文本文件。
b. NLPIR(https://github.com/NLPIR-team/NLPIR)
是一套能夠?qū)⒔o定文本進(jìn)行分詞并提取實(shí)體詞(有意義的詞匯,如人名、地名、公司名稱等)、關(guān)鍵詞、敏感詞的分詞系統(tǒng)。本文使用該分詞系統(tǒng)對(duì)處理好的文本信息進(jìn)行實(shí)體抽取,獲得有意義的實(shí)體詞匯作為關(guān)鍵詞信息k。例如,李彥宏對(duì)應(yīng)百度、創(chuàng)始人、董事長(zhǎng)、北京大學(xué)、華爾街等實(shí)體關(guān)鍵詞。
c. 通過以上a,b 這2 個(gè)步驟,獲得了兩類網(wǎng)絡(luò)節(jié)點(diǎn),一類節(jié)點(diǎn)為個(gè)人姓名 Vp, Vp代表本文網(wǎng)絡(luò)所使用的高管人員姓名;另一類節(jié)點(diǎn)為關(guān)鍵詞Vk,Vk代表分詞系統(tǒng)實(shí)體抽取得到的有意義的實(shí)體描述關(guān)鍵詞。
最終得到節(jié)點(diǎn)集
經(jīng)過簡(jiǎn)化處理后,人物分析網(wǎng)絡(luò)可以被抽象為一張具有N 個(gè)節(jié)點(diǎn)和M 條邊的無向網(wǎng)絡(luò)。設(shè)網(wǎng)絡(luò)為G=(V, E)。其中,G 表示有N 個(gè)節(jié)點(diǎn)和M 條邊組成的網(wǎng)絡(luò),V 表示網(wǎng)絡(luò)中的節(jié)點(diǎn),即|V|=N;E 代表網(wǎng)絡(luò)中的邊,即|E|=M。V 即是上文中通過數(shù)據(jù)處理獲得的 Vp和 Vk的 集合。而邊則是 Vp和Vk連 接形成的,兩者建立邊的原則:若是 pi的個(gè)人信息描述中包含關(guān)鍵詞 kj, 則為 Vpi和Vkj建立一條邊;否則兩者不建立邊,即
邊集合為
圖1 為本文建模算法設(shè)計(jì)流程圖。按照上述規(guī)則建立復(fù)雜網(wǎng)絡(luò),如圖2 所示。表1 為網(wǎng)絡(luò)的基本參數(shù)。圖3 為節(jié)點(diǎn)度分布圖。其中,橫坐標(biāo)為節(jié)點(diǎn)數(shù),縱坐標(biāo)為節(jié)點(diǎn)的度。
圖 1 算法流程圖Fig. 1 Algorithm flow chart
圖 2 建模得到的復(fù)雜網(wǎng)絡(luò)Fig. 2 Complex network
通過圖3 和表1 可以看出,根據(jù)上述模型所建復(fù)雜網(wǎng)絡(luò)有著與現(xiàn)實(shí)世界網(wǎng)絡(luò)相似的網(wǎng)絡(luò)參數(shù)[15]。例如,網(wǎng)絡(luò)的平均路徑長(zhǎng)度為3.641,滿足現(xiàn)實(shí)世界網(wǎng)絡(luò)的小世界特性[16],而聚集系數(shù)為0.092,相對(duì)較大,滿足高聚集性,圖3 為網(wǎng)絡(luò)的度分布情況,可以看出,網(wǎng)絡(luò)的度分布與現(xiàn)實(shí)世界網(wǎng)絡(luò)度分布的無標(biāo)度特點(diǎn)相對(duì)應(yīng)。
表 1 網(wǎng)絡(luò)各項(xiàng)參數(shù)指標(biāo)Tab.1 Network features
圖 3 網(wǎng)絡(luò)度值分布圖Fig.3 Distribution of degree
描述復(fù)雜網(wǎng)絡(luò)的參數(shù)主要包含以下幾種:網(wǎng)絡(luò)密度、度、平均最短路徑和網(wǎng)絡(luò)的聚集系數(shù)。其中,網(wǎng)絡(luò)密度主要刻畫了網(wǎng)絡(luò)連接的總體特征,網(wǎng)絡(luò)的度主要描述個(gè)體節(jié)點(diǎn)的連接情況,平均最短路徑能夠體現(xiàn)網(wǎng)絡(luò)信息流傳遞效率,而網(wǎng)絡(luò)的聚集系數(shù)則能夠體現(xiàn)網(wǎng)絡(luò)的局部聚集情況。
節(jié)點(diǎn)的度值為與該節(jié)點(diǎn)直接相連的節(jié)點(diǎn)數(shù)??梢钥闯?,網(wǎng)絡(luò)中一個(gè)節(jié)點(diǎn)的度在[0, N-1]區(qū)間內(nèi),N 為網(wǎng)絡(luò)G 的節(jié)點(diǎn)數(shù)。節(jié)點(diǎn)度的大小反映了該節(jié)點(diǎn)在網(wǎng)絡(luò)中的直接影響力[17]。設(shè) A為網(wǎng)絡(luò)G 的鄰接矩陣, aij為 A的第i行第 j列元素,則
式中, Dxi為節(jié)點(diǎn)xi的度值。
圖4 是經(jīng)過處理后關(guān)鍵詞度數(shù)排名前25 的關(guān)鍵詞度數(shù)分布情況。其中,橫坐標(biāo)為關(guān)鍵詞節(jié)點(diǎn),縱坐標(biāo)為節(jié)點(diǎn)的度。由于網(wǎng)絡(luò)使用的原始數(shù)據(jù)涉及的企業(yè)及人員均在中國,所以,度最大的節(jié)點(diǎn)為中國。同理,由于分析對(duì)象為高管人群,CEO和總經(jīng)理的高頻出現(xiàn)也屬于合理現(xiàn)象,本文對(duì)此不作進(jìn)一步分析。但度數(shù)排名分別為第4 和第5 的北京和美國與同類關(guān)鍵詞相比度數(shù)差別較大。故本文分別對(duì)北京和美國進(jìn)行橫向?qū)Ρ确治觥?/p>
圖 4 關(guān)鍵詞度值Fig.4 Degree of keyword
分別將度值排名在前25 的關(guān)鍵詞及關(guān)鍵詞對(duì)應(yīng)的度值進(jìn)行橫向?qū)Ρ确治?,可以得到柱狀圖如圖5 所示。
圖 5 度值橫向?qū)Ρ菷ig.5 Degree comparison
從圖5 可以看出,橫向?qū)Ρ认卤本┖兔绹@2 個(gè)關(guān)鍵詞的度值相比于同類關(guān)鍵詞具有明顯的優(yōu)勢(shì),兩者的度值都遠(yuǎn)大于同類關(guān)鍵詞的度值,其中,美國是同類關(guān)鍵詞的5~7 倍,北京是同類關(guān)鍵詞的3~7 倍。通過度值的橫向?qū)Ρ瓤梢钥闯?,這些互聯(lián)網(wǎng)企業(yè)的高管和北京、美國相關(guān)的背景信息顯得尤為重要。這一點(diǎn)也與現(xiàn)實(shí)世界的基本情況相符。美國作為自二戰(zhàn)以來的世界強(qiáng)國,對(duì)于計(jì)算機(jī)、互聯(lián)網(wǎng)這類高科技行業(yè)在全球范圍內(nèi)都稱得上絕對(duì)領(lǐng)先,所以,我國大量互聯(lián)網(wǎng)人才在選擇留學(xué)、交流時(shí),美國往往是他們的首選,文獻(xiàn)[18]中表明,美國仍然是多數(shù)人留學(xué)的首選目的地。另一方面,雖然我國大型互聯(lián)網(wǎng)公司在國內(nèi)發(fā)展情況很好,但往往也會(huì)在美國硅谷等地設(shè)立研發(fā)中心等,網(wǎng)絡(luò)中涉及的7 家(百度、阿里、騰訊、滴滴、美團(tuán)、京東、今日頭條)公司中有71.43%的公司在美國有分公司、辦事處或研發(fā)中心。文獻(xiàn)[19]指出,設(shè)立海外研發(fā)中心具有從東道國獲取新信息、新技術(shù)服務(wù)于母公司的技術(shù)開發(fā)戰(zhàn)略的作用,而這時(shí)的東道國主要有兩類:一是擁有“技術(shù)高地”的技術(shù)發(fā)達(dá)國家,二是擁有“人才富地”的人力資源優(yōu)質(zhì)國家,而恰好美國在這兩方面都符合。
北京作為我們國家的首都及政治中心,對(duì)于任何一個(gè)企業(yè)而言,北京相對(duì)于我國的其他城市有著完全不同的意義,企業(yè)管理人員背景信息和北京有著較大的關(guān)系也屬于合理。另一方面,北京作為一線城市,有著眾多優(yōu)秀的高校和人才,企業(yè)和一線城市有著較大的親密度,這對(duì)于屬于前沿行業(yè)的互聯(lián)網(wǎng)公司也是必不可少的,網(wǎng)絡(luò)中涉及的7 家企業(yè)100%均在北京有分公司、研發(fā)中心等。其中,5 家公司總部就在北京。文獻(xiàn)[20]針對(duì)我國互聯(lián)企業(yè)分布進(jìn)行分析。圖6 為互聯(lián)網(wǎng)企業(yè)數(shù)量前五的省市的統(tǒng)計(jì)分析圖。可以看出,北京互聯(lián)網(wǎng)企業(yè)數(shù)量有明顯優(yōu)勢(shì),這也進(jìn)一步證明了本文所得分析結(jié)果的合理性。
圖 6 互聯(lián)網(wǎng)企業(yè)省市分布占比圖Fig. 6 Internet enterprise ratio of provinces
2.2.1 特征向量
一個(gè)節(jié)點(diǎn)的度指標(biāo)僅僅描述了該節(jié)點(diǎn)對(duì)于其他節(jié)點(diǎn)的直接影響力,若一個(gè)節(jié)點(diǎn)與另一個(gè)度值很高的節(jié)點(diǎn)之間存在連接[17],則該節(jié)點(diǎn)的影響力也會(huì)受到影響而增強(qiáng),這與現(xiàn)實(shí)世界中的很多情況是一致的,如果把每個(gè)人看作是一個(gè)節(jié)點(diǎn)的話,一個(gè)節(jié)點(diǎn)的信息占有率在很大程度上取決于它與什么樣的節(jié)點(diǎn)有連接。但是,這種類型的特征無法用度值進(jìn)行衡量,故本文使用特征向量這一網(wǎng)絡(luò)指標(biāo)來衡量節(jié)點(diǎn)這種特征的顯著與否。設(shè)網(wǎng)絡(luò)G 的鄰接矩陣為 A,aij為矩陣第i 行第j 列的元素, aij的取值集合為{0,1}, λ 為 A的主特征值,是一個(gè)常量,e=(e1,e2,···,eN)為矩陣 A對(duì)應(yīng)λ 的特征向量,即
即
式(6)即為特征向量的計(jì)算公式。
2.2.2 介數(shù)
介數(shù)指標(biāo)主要體現(xiàn)了網(wǎng)絡(luò)中的節(jié)點(diǎn)對(duì)于信息流動(dòng)的影響力。設(shè)網(wǎng)絡(luò)G 中含有N 個(gè)節(jié)點(diǎn),則節(jié)點(diǎn)x 的介數(shù)指標(biāo)Bx定義為
式中: gjk表示網(wǎng)絡(luò)中節(jié)點(diǎn)j 和節(jié)點(diǎn)k 之間的所有最短路徑數(shù); gjk(x)為經(jīng)過節(jié)點(diǎn)x 的最短路徑的數(shù)量。
圖7 通過可視化的圖形來對(duì)比同一節(jié)點(diǎn)在圖7(a)和7(b)中的相對(duì)大小。按照節(jié)點(diǎn)的度大于等于4 對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行過濾,得到85 個(gè)節(jié)點(diǎn)(過濾前為全部節(jié)點(diǎn),未進(jìn)行過和類型相關(guān)的區(qū)分)。以節(jié)點(diǎn)的介數(shù)和特征向量相對(duì)大小決定圖中的節(jié)點(diǎn)半徑作為自變量,大小作為應(yīng)變量作圖;由于介數(shù)和特征向量的計(jì)算公式不同,為保證公平性,以歸一化后的特征值作為決定節(jié)點(diǎn)半徑大小的唯一自變量,節(jié)點(diǎn)的半徑與對(duì)應(yīng)特征值歸一化后的值為線性關(guān)系。按照以上規(guī)則得到圖7。圖7(a)為按照節(jié)點(diǎn)的介數(shù)作圖,圖7(b)為按照節(jié)點(diǎn)的特征向量作圖。
圖 7 介數(shù)與特征向量歸一化可視化對(duì)比Fig.7 Visual comparison between the normalized eigenvector and betweenness
圖8 為曲線圖,橫坐標(biāo)為網(wǎng)絡(luò)G 中所有的高管節(jié)點(diǎn),縱坐標(biāo)為網(wǎng)絡(luò)指標(biāo)歸一化后的常數(shù)。從圖8 中可以看出,絕大多數(shù)高管節(jié)點(diǎn)的特征向量較介數(shù)有明顯的優(yōu)勢(shì),部分節(jié)點(diǎn)的特征向量值遠(yuǎn)大于介數(shù)值。圖8 中為部分典型節(jié)點(diǎn)加入了數(shù)據(jù)標(biāo)簽,可以看出,李彥宏、馬云、張亞勤、馬化騰、戴珊等人的特征向量明顯比對(duì)應(yīng)的介數(shù)高。
圖 8 特征向量與介數(shù)歸一化對(duì)比Fig.8 Comparison between the normalized eigenvector and betweenness
在不考慮極少的特殊節(jié)點(diǎn)后,通過對(duì)比圖7 和圖8 發(fā)現(xiàn),高管節(jié)點(diǎn)的特征向量明顯大于他們的介數(shù),即特征向量這項(xiàng)指標(biāo)更為顯著。考慮到介數(shù)主要用來評(píng)價(jià)節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)中信息傳播的影響力[21],特征向量用來評(píng)價(jià)節(jié)點(diǎn)的相鄰節(jié)點(diǎn)的度值大小,而節(jié)點(diǎn)的度值又能判斷出該節(jié)點(diǎn)對(duì)于網(wǎng)絡(luò)的直接影響力,從而可以看出,相比于個(gè)體傳遞信息的能力而言,認(rèn)識(shí)什么樣的人對(duì)于個(gè)人的成功與否顯得更重要,這與現(xiàn)實(shí)世界中的社交關(guān)系有著明顯的一致性。如果一個(gè)人在社會(huì)交際中認(rèn)識(shí)的人都是比較有影響力的,那么,往往這個(gè)人也比較有影響力,而且比起那些不具備這一特點(diǎn)的人而言也更容易成功。
從圖8 中發(fā)現(xiàn),極少部分的異常節(jié)點(diǎn)的歸一化介數(shù)反而大于歸一化后的特征向量的值。通過對(duì)原始網(wǎng)絡(luò)進(jìn)行分析,發(fā)現(xiàn)任宇昕、弓峰敏相對(duì)于其他節(jié)點(diǎn)而言,關(guān)鍵詞信息和個(gè)人經(jīng)歷與這些互聯(lián)網(wǎng)公司中的其他人員確實(shí)有較大的差別。
2.3.1 模塊度分析
圖9 中,在模塊化后,任宇昕獨(dú)立劃分為一塊。造成這一結(jié)果的原因是本文研究對(duì)象限制在互聯(lián)網(wǎng)公司高管人員范圍之內(nèi),而企業(yè)高管會(huì)有不同類型企業(yè)之間跳槽情況。例如,弓峰敏曾就職于網(wǎng)絡(luò)安全公司,而圖9 中任宇昕曾就職于華為公司,華為公司是一家做電信服務(wù)和手機(jī)業(yè)務(wù)的企業(yè),不屬于互聯(lián)網(wǎng)類公司。這就造成了這種類型 的人的個(gè)人信息與其他人員存在較大的差異。
圖 9 異常節(jié)點(diǎn)局部網(wǎng)絡(luò)圖Fig.9 Local network of abnormal nodes
2.3.2 接近中心性分析
接近中心性是通過計(jì)算節(jié)點(diǎn)與網(wǎng)絡(luò)中其他所有節(jié)點(diǎn)的距離的平均值來消除特殊值的干擾。一個(gè)節(jié)點(diǎn)與網(wǎng)絡(luò)中其他節(jié)點(diǎn)的平均距離越小,該節(jié)點(diǎn)的接近中心性就越大[22]。通過計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)的接近中心性,分別得到任宇昕和弓峰敏的接近中心性為0.544 643 和0.458 647,在高管節(jié)點(diǎn)中分別位于倒數(shù)第3 位和最后1 位。接近中心性倒數(shù)第2 位的節(jié)點(diǎn)為姚星,通過查看原始數(shù)據(jù)發(fā)現(xiàn),造成該節(jié)點(diǎn)接近中心性、特征向量和介數(shù)值較低的原因是從百度百科抓取到的詞條內(nèi)容非常少,僅有一句話。不同于姚星,任宇昕和弓峰敏的詞條內(nèi)容非常豐富,而詞條內(nèi)容量類似的曾鳴、董本洪等節(jié)點(diǎn)的接近中心性非常大,曾鳴和董本洪接近中心性分別排在第11 和第20 位,即造成任宇昕和弓峰敏的接近中心性較低的原因可能是跨行業(yè)跳槽造成的。
綜上可以發(fā)現(xiàn),跨行業(yè)跳槽的人員與一直從事于該行業(yè)的人員在多項(xiàng)中心性值的比較中存在較為明顯的差異,這與其長(zhǎng)期的職業(yè)背景經(jīng)歷有較大的關(guān)系,這種差異可能為未來的職業(yè)發(fā)展帶來不利影響。
以復(fù)雜網(wǎng)絡(luò)為理論基礎(chǔ),對(duì)幾家大型互聯(lián)網(wǎng)企業(yè)高管人員進(jìn)行建模分析,通過復(fù)雜網(wǎng)絡(luò)的理論分析研究對(duì)象是否具有共性、具有哪些共性以及該類人員具有哪些顯著特點(diǎn)。以百度百科官方詞條作為原始數(shù)據(jù),通過分詞系統(tǒng)抽取實(shí)體關(guān)鍵詞,獲得有信息要素的實(shí)體關(guān)鍵詞;以高管姓名和關(guān)鍵詞作為網(wǎng)絡(luò)節(jié)點(diǎn),高管個(gè)人信息中是否包含關(guān)鍵詞作為連接邊的條件構(gòu)建復(fù)雜網(wǎng)絡(luò);最后通過復(fù)雜網(wǎng)絡(luò)的理論分析得到一些與現(xiàn)實(shí)世界具有一致性的網(wǎng)絡(luò)特征,同時(shí)這些一致性也證明模型的合理性。
分析網(wǎng)絡(luò)后,得到以下主要結(jié)論:首先,將度值較高的美國和北京分別整理統(tǒng)計(jì)對(duì)比后發(fā)現(xiàn),美國和北京相對(duì)于其他同類別的關(guān)鍵詞確實(shí)有著明顯的度值優(yōu)勢(shì),證明對(duì)于大型互聯(lián)網(wǎng)企業(yè)高管而言美國和北京相關(guān)的背景信息確實(shí)很重要;其次,將特征向量指標(biāo)值和介數(shù)指標(biāo)值歸一化后作圖對(duì)比,發(fā)現(xiàn)一個(gè)與現(xiàn)實(shí)世界具有一致性的特點(diǎn),一個(gè)人社交關(guān)系中的社交對(duì)象相比于他在社交關(guān)系中起到的信息傳遞的作用更為重要,也讓他更容易獲得成功;最后,對(duì)圖9 中的異常節(jié)點(diǎn)進(jìn)行分析,發(fā)現(xiàn)跨行業(yè)跳槽時(shí)過去不同的職業(yè)經(jīng)歷可能會(huì)在未來的個(gè)人發(fā)展中產(chǎn)生不好的影響。