亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Gephi的航運招聘信息可視化分析

        2018-06-01 18:11:48王揚田野李鐵山陳俊龍彭東成周義華
        大數據 2018年3期
        關鍵詞:頻數職位船員

        王揚,田野,李鐵山,陳俊龍,2,彭東成,周義華

        1. 大連海事大學航海學院,遼寧 大連 116026;

        2. 澳門大學科技學院,澳門 999078;

        3. 大連灣遼漁集團港務分公司,遼寧 大連 116026

        1 引言

        隨著大數據的提出,各行各業(yè)對于數據的重視程度達到了前所未有的高度,航運業(yè)也不例外。航運招聘信息作為航運市場信息的重要組成部分,對于海事部門的資源調度以及應聘者的求職都有著非常重要的參考價值。數據可視化作為數據分析以及數據呈現的重要手段,受到各界越來越多的重視。傳統(tǒng)的數據可視化仍然多以條形圖、折線圖、餅圖為主,形式相對來說過于單一,而且呈現的信息仍然較為抽象,較難反映各因素各水平之間的關聯性。如何將海量的船員招聘信息進行統(tǒng)計處理并以合理的方式呈現出來成為一個亟待解決的問題。

        作為專業(yè)的航運類網站,航運在線網基本涵蓋了航運產業(yè)鏈的各個環(huán)節(jié),包括散雜貨租船、集裝箱訂艙、船舶買賣、備件物料供應、船員招聘、陸上管理人才招聘、船舶管理、船舶保險等。

        本文以航運在線網站上的船員招聘信息為例,借助復雜網絡可視化分析軟件Gephi對航運招聘信息中的主要因素進行分析以及可視化,以發(fā)現各因素之間的聯系。通過直觀地展現各因素各水平之間關聯的強弱,揭示航運招聘信息的特點,以期為海事部門的管理以及應聘者提供直觀的分析參考。

        2 數據可視化準備

        在數據可視化之前,首先需要獲取所需數據,其次進行數據預處理,為數據可視化做好充分的準備。

        2.1 數據獲取

        本文數據的主要來源是航運在線網上的船員招聘信息,利用Python編程工具和網絡爬蟲技術對其進行批量獲取,并存儲到本地Excel文件中,以便進行后續(xù)的可視化分析。其中,獲取到的部分數據見表1,獲取到的數據主要有編號、職位、證書、月薪、總噸、航線區(qū)域、招聘船型、招聘公司、日期共9列信息(這里只選取其中一個月的數據,以2017年4月為例進行分析,經初步的數據清洗之后一共有1 864條數據)。

        2.2 數據預處理

        本文使用的數據預處理主要包括數據去重、數據異常值剔除以及精簡研究對象。本文使用Excel對數據進行去重處理。對于異常值的處理,由于其數量不是很多(占比不到5%),對于要分析的數據總體幾乎沒有影響,所以這里采用的方法是直接從總體中剔除。由于月薪一列的觀測值多為“面議”以及各種非標準的數據,所以在這里不予考慮,全部刪除。此外,船員編號和招聘公司信息以及招聘日期在本文中用處不大,予以刪除。這樣處理之后,可以將需要的信息進行集中整合,見表2。

        本節(jié)主要通過Python爬取航運在線網上的船員招聘信息,并使用Excel對爬取到的數據做簡單的數據預處理工作,為后續(xù)的數據可視化做好相應的數據準備。

        3 數據可視化分析

        3.1 基于Gephi的初步可視化

        首先將數據加工成Gephi需要的CSV格式。Gephi的圖形要素為節(jié)點和邊,相應地,需要導入節(jié)點數據和邊數據。導入數據之后,Gephi默認的布局算法是正方形輪廓的隨機布局算法[1],如圖1所示。節(jié)點之間顯得比較擁擠和混亂,部分節(jié)點被遮擋,因此效果不是很好。為了使可視化的效果更好一些,先使用Force Atlas算法[2],再使用改進的彈簧模型(FruchtermanReingold)算法以優(yōu)化節(jié)點的布局。由于節(jié)點較多,Force Atlas算法的運行速度和效果都不太理想,所以改用Force Atlas2和FruchtermanReingold結合的方式進行布局[3],最后穩(wěn)定下來的預覽圖如所示。

        表1 獲取的部分數據

        利用Gephi進行初步可視化有助于了解數據的整體情況和大致分布。如圖2所示,不難看出數據在幾個點比較集中。由于節(jié)點較多,初步可視化的效果并不是很好,也很難從繁雜的連線中進一步解讀信息。針對這些問題,需要對數據進行進一步加工。

        表2 預處理之后的部分數據集

        3.2 數據二次加工

        對于初步可視化的結果,為了有一個定量的判斷,這里使用統(tǒng)計分析的利器——R語言進行數據的進一步加工。首先將數據表導入R軟件中進行必要的描述統(tǒng)計,結果如圖3所示,可以看出每一個因子的主要水平以及沒有列全的許多次要水平。為了消除次要水平的干擾,這里只對主要水平進行統(tǒng)計分析。經過第二次刪減之后,數據精簡到1 417個觀測值。

        3.3 基于Gephi的可視化分析

        除了使用進一步加工的數據源,Gephi的基本操作和第4.1節(jié)中的描述幾乎一致,這里不再贅述。接下來依據實際收集到的數據的特點對Gephi進行可視化方案的設計。

        圖1 正方形輪廓的隨機布局概覽

        在權重設計階段,因為每兩個不同因素水平之間的頻數最小為1,最大為534,相差較大,所以這里將頻數處理為邊的權重,以體現兩個水平之間的緊密程度是不合理的。但是,為了在一定程度上反映它們之間聯系的緊密程度,在權重的設置上采取參考頻數的做法進行權重劃分。將頻數在1~100的權重設置為1,其比例占到了所有統(tǒng)計量的92.77%;將頻數在101~200的權重設置為2,其比例為4.34%;將頻數在201~300的權重設置為3,其比例為1.2%;將頻數在301~400的權重設置為4,其比例為0.96%;將頻數在401~500的權重設置為5,其比例為0.48%;將頻數在501~600的權重設置為6,其比例為0.24%。當然也可根據實際的分析需求對權重的劃分采取更精確更細致的算法,在這里只是做一個相對簡單的劃分。因為本文重點考察各水平之間的相互關系,而各因素之間的聯系是相互的,如果采取有向邊的設置,就會導致不必要的重復計數,所以本文采取無向邊的設置。這樣做不僅可以少計算一半邊的數量,大大簡化構建的網絡圖的復雜度,同時還能保證分析的精度。為了充分顯示兩個水平之間具體的關聯程度,將統(tǒng)計的兩個水平同時出現的頻數以邊標簽的形式映射到圖中,而將每個水平出現的總頻數以點標簽的形式映射到圖中。此外,結合專業(yè)知識對職位因素進一步細分為甲板部船員和輪機部船員并區(qū)別顯示。

        圖2 數據的初步可視化預覽

        圖3 R軟件進一步處理之后的數據統(tǒng)計信息

        經過進一步的數據可視化準備,通過Gephi進行可視化的整體效果如圖4所示,一共得到了36個節(jié)點以及415條無向邊(數據僅限航運在線網2017年4月的招聘信息)。經過簡單的統(tǒng)計計算,可以得到以下參數值。

        ● 平均度:23.056。

        ● 平均加權度:26.111。

        ● 網絡直徑:2。

        ● 圖密度:0.659。

        ● 模塊化:0.075。

        ● 平均聚類系數:0.608。

        ● 平均路徑長度:1.341。

        通過無向圖的濾波功能,可以很方便地通過人機交互的方式查看需要考察的各因素之間的關系。

        在本文的研究中,將同一變量下的不同水平(即同一變量的不同取值,如船型變量下有油船、散貨船、集裝箱船等取值)作為節(jié)點,節(jié)點的大小代表該水平在招聘信息中出現的次數。本研究中的邊代表的是不同變量的不同水平在招聘信息中成對出現的次數,即邊反映了兩端節(jié)點同時出現的次數。

        3.3.1 船員職位與航線因素之間的關系

        接下來按照類似的方法可以考察職位因素和航線因素之間各水平的聯系。首先由圖5可以看出,節(jié)點數為19(占比52.78%),邊的個數為83(占比20%),平均度為8.737,平均加權度為8.842,圖密度達到0.485。通過邊的占比不難發(fā)現,航線與職位因素的聯系較為緊密。通過計算平均度或平均加權度也能較清晰地看到這一點,它們之間是比較一致的。職位因素的各水平在航線上的分布相對均勻。輪機部船員各水平與航線因素各水平同時出現的頻數均不超過100。由圖5可以看到,三副在眾多職位水平中對航線因素中的國內南北線水平貢獻較大,貢獻比為105/670=15.7%,反過來說,在各航線水平中,國內南北線對三副的貢獻也最大,貢獻比為105/163=64.4%。

        上述計算結果表明國內南北線對三副的需求巨大。

        3.3.2 航線與船員證書因素之間的關系

        圖6是對航線因素和船員證書因素各水平之間關系的可視化呈現。圖6中共有11個節(jié)點(占比30.56%),其中,航線因素有7個水平(占比19.44%),證書因素有4個水平(占比11.11%),邊的個數是17(占比4.1%)。若以航線為考察對象,則對國內南北線貢獻最大的是丙一證書,貢獻比約為79.7%,接近80%,而環(huán)球航線、東南亞航線等國際航線對于證書的需求主要是甲類證書,甲類證書對以上兩條航線的貢獻比分別約為89.85%和90.35%。

        上述計算結果表明國內南北線需要的證書類型主要是丙一證書,這與丙一證書適用于國內沿海航線的服務范圍是高度一致的。對于國際航線來說,證書絕大多數都是甲類證書。這也與甲類證書適用于全球航線的規(guī)定相一致。

        3.3.3 船員職位與船型因素之間的關系

        圖7顯示的是船型因素與船員職位之間的關系。若以船型為考察對象,可以很明顯地看出三副和水手對散雜貨船的貢獻相對較大,占比分別達到10.64%和11.96%。反過來說,在所有統(tǒng)計的船型中,散雜貨船對三副和水手貢獻也最大,分別達到了63.8%和73.58%,占比都超過了2/3。以油輪來說,高級船員(二副、二管輪及以上)占比約為53.85%(42/78),低級船員占比約為25.64%(20/78)。

        上述計算結果從側面反映了對于機械化和信息化水平都不是很高的散雜貨船來說,它對三副和水手的需求量都是很大的。這也在一定程度上解釋了坊間常說的“有經驗的水手比剛剛畢業(yè)的高級船員要受歡迎”的現象。對于自動化水平較高的船舶來說,例如集裝箱船和油輪,這種現象則很不明顯,甚至不存在,高級船員的需求仍是主流。

        3.3.4 船員職位與船員證書因素之間的關系

        圖8展示了職位因素與證書因素各水平之間的關系。其中,只有三副和丙一共同出現的頻數超過100。若以前者為考察對象,則占比約為69.94%(114/163);若以后者為考察對象,則占比約為18.69%(114/610)。

        圖4 整體效果

        圖5 航線—職位網絡關系

        圖6 航線—船員證書網絡關系

        圖7 船型—職位網絡關系

        圖8 船員職位—船員證書網絡關系

        上述結果表明在所考察的數據中,三副的證書以丙一居多。換句話說,這里統(tǒng)計的資料表明,低水平的三副占了大多數,超過2/3,對于高水平的三副來說,數量還是不多。

        3.3.5 船員職位與船舶噸位因素之間的關系

        圖9展示了船員的職位因素和船舶噸位因素各水平之間的聯系。從可以看出,所有的水平并沒有明顯的集中趨勢,至少頻數并沒有超過100的。為了更進一步探索船員職位因素和船舶噸位因素各水平之間的聯系,需要重新設置權重。本文為進一步探究船員職位和船舶噸位各水平之間的關系,采用頻數與10的比值進行權重設置。為了使頻數小于10的邊也能在網絡圖中有所顯示,本文在Excel中采用表達式weight=INT(n/10+1)對邊進行權重設置。其中n代表邊兩端的節(jié)點同時出現的次數,加1是為了對計算的結果進行平滑處理。通過重新設置權重,可以將船員職位水平與船舶噸位水平之間關系的差異放大,以便進行對比分析。圖10是權重調整之后的網絡關系。其中,節(jié)點數為18(占比為50%),邊的個數為68(占比為16.4%),平均度為7.556,平均加權度為19.889,網絡直徑達到3,圖密度達到0.444。從圖10中不難看出,在船舶噸位的分布中,1萬~2萬噸級的船舶招聘船員的職位占比為644/(644+207+337+148+17+64)=45.4%,對船員職位招聘崗位的貢獻接近一半。其中,對三副崗位的貢獻達到12.4%(80/644),在其提供的所有崗位中占比最大。對于考察的三副崗位總體來說,該噸級提供的80個崗位也接近三副總體崗位的一半,占比達49.1%(80/163),可以說1萬~2萬噸級的船舶對三副的需求量最大。因為權重的閾值設小之后,權重的取值也隨之增多,所以為了進一步看清楚,可以通過Gephi的濾波功能,逐步篩選出權重大于3的邊以及權重大于6的邊,分別如圖11和圖12所示。通過圖12可以很明顯地看到,1萬~2萬噸級的船舶提供的崗位主要是大副、二副、三副、二管輪和三管輪,這些崗位占了1萬~2萬噸級船舶提供崗位的52.8%((64+62+80+72+62)/644),占據了所有招聘崗位的一半以上。雖然提供的三副崗位是最多的,但是提供占比較大的崗位卻是二副、二管輪、三管輪,提供的崗位占比分別達到了53.9%(62/115)、55.4%(72/130)、56.4%(62/110),提供占比最大的崗位是三管輪。

        3.3.6 基于度范圍的網絡拓撲圖

        通過過濾器中的拓撲選項卡可以查看本關系網絡的度范圍是14~31,即各水平至少與14個其他水平相關,至多與31個其他水平相關。調節(jié)度范圍進行濾波,可以看出,將度范圍的起始值設為25,可以保留大部分顯著水平,同時精簡網絡結構。隨著逐步提升度范圍的起始值,可以逐步過濾度少于起始值的節(jié)點,而保留那些度大于或等于起始值的節(jié)點。圖13展現的是度的起始值為27的結果。直到最后,可以發(fā)現,度范圍在28~31的水平只有3個,如圖14所示。圖14中顯示的分別為船型水平(散雜貨船)、證書水平(甲類)、噸位水平(1萬~2萬噸級),這3個因素水平具有與其他因素水平聯系多且頻數大的特點,可以說是整個招聘信息網絡的核心。

        圖9 船員職位—船舶噸位網絡關系

        圖10 調整邊權重后船員職位—船舶噸位網絡關系

        圖11 邊權重>3的船員職位—船舶噸位網絡關系

        圖12 邊權重大于6的船員職位—船舶噸位網絡關系

        圖13 度范圍為27~31的網絡拓撲

        圖14 度范圍為28~31的網絡拓撲

        4 結束語

        本文基于數據可視化技術以及可視化工具Gephi,利用網絡爬蟲工具采集了航運在線網上的航運招聘數據,并對數據進行必要的清洗、過濾及加工等預處理操作,得到了相對粗糙的數據?;贕ephi對船員數據進行了初步的可視化分析。在得到數據大致分布之后,使用R語言對數據進行二次加工,將處理好的數據再次通過Gephi進行可視化呈現。從分析結果中可以很直觀地看出航運招聘信息中各因素的主要水平值。此外,通過交互式分析,探索了船員數據中各個屬性之間的關聯程度以及航運招聘信息網絡的核心屬性,以期為海事部門探索船員市場需求和應聘者的求職提供一定的借鑒及參考。

        [1]劉勇, 杜一. 網絡數據可視化與分析利器:Gephi中文教程[M]. 北京: 電子工業(yè)出版社,2017: 163-164.LIU Y, DU Y. Network data visualization and analysis tool: Gephi Chinese Tutorial[M]. Beijing: Publishing House of Electronics Industry, 2017: 163-164.

        [2]關迎暉, 向勇, 陳康. 基于Gephi的可視分析方法研究與應用[J]. 電信科學, 2013(S1):112-119.GUAN Y H, XIANG R, CHEN K. Research and application of visual analysis method based on Gephi[J].Telecommunications Science, 2013(S1): 112-119.

        [3]李學蘭. 基于Gephi的物流金融研究可視化[J].牡丹江大學學報, 2017(1): 26-28, 46.LI X L. Visualization of logistics finance research based on Gephi[J]. Journal of Mudanjiang University, 2017(1): 26-28,46.

        猜你喜歡
        頻數職位船員
        領導職位≠領導力
        我國注冊船員超170萬
        水上消防(2021年4期)2021-11-24 15:29:42
        闖海盜老巢接船員
        職位之謎與負謗之痛:柳治徵在東南大學的進退(1916—1925)
        近代史學刊(2017年2期)2017-06-06 02:25:22
        中考頻數分布直方圖題型展示
        學習制作頻數分布直方圖三部曲
        論船員在海事污染中的刑事責任
        頻數和頻率
        美最高就業(yè)率地鐵圈
        海外星云 (2014年22期)2015-01-19 09:34:28
        盜汗病治療藥物性味歸經頻數分析
        国产国语亲子伦亲子| 国产精品国产三级国av在线观看| 精品乱子伦一区二区三区| 国产目拍亚洲精品一区二区| 亚洲欧美日韩一区在线观看| 日本熟女视频一区二区三区| 女优av一区二区在线观看| 少妇精品亚洲一区二区成人| 亚洲理论电影在线观看| 国产成人无码一区二区在线播放| 国产剧情av麻豆香蕉精品| 亚洲a人片在线观看网址| 免费看男女啪啪的视频网站| 国产精品第一二三区久久| 欧美老妇多毛xxxxx极瑞视频| 少妇白浆高潮无码免费区| 精品欧洲AV无码一区二区免费| 免费观看日本一区二区三区| 成人a级视频在线播放| 狠狠躁夜夜躁人人爽天天天天97| 国产91色在线|亚洲| 国产精品一区二区黄色片| 中文国产乱码在线人妻一区二区| 又爽又黄又无遮挡网站| 久久伊人色av天堂九九| 91网站在线看| 国产传媒剧情久久久av| 国产自拍在线观看视频| 国产成人小视频| 国产偷国产偷亚洲清高| 99综合精品久久| 日本一区二区高清精品| 亚洲国产精品久久艾草| 女人被男人躁得好爽免费视频| 国产午夜精品一区二区三区不| 人妻熟女中文字幕av| 久久无码字幕中文久久无码| 三年片在线观看免费大全电影| 丰满人妻中文字幕乱码| 久久想要爱蜜臀av一区二区三区| 午夜福利理论片在线观看|