高 蘇,鮑君忠,王 昕,王利東*
(1.大連海事大學理學院,遼寧大連 116026;2.大連海事大學航海學院,遼寧大連 116026)
聚類作為機器學習領域典型的無監(jiān)督學習方法,廣泛應用于機器學習、模式識別、信息檢索和數(shù)據(jù)挖掘[1-4]等領域。聚類根據(jù)“類間相似度低,類內(nèi)相似度高”的原則,將一組數(shù)據(jù)分成一定數(shù)量的具有高度相似性的簇[5]。聚類方法的選擇取決于數(shù)據(jù)類型、聚類目的和應用場合。為解決實際問題,目前已有多種聚類方法被提出,如基于劃分的方法、基于密度的方法、層次聚類方法和模糊C均值(FuzzyC-Means,F(xiàn)CM)聚類方法[6-9]。
在決策領域中,決策者往往面對具有多個指標的任務,以簇為單元可幫助決策者了解和把握所研究樣本的總體特征。決策中常常需要挖掘具有優(yōu)勢關系的有序簇,并且這些簇是未知的,通常把這種問題稱為多指標有序聚類[10]。發(fā)達國家水平排序[11]、船舶分級管理[12]和分層次教學[13]等均涉及有序聚類問題。與傳統(tǒng)的聚類方法不同,有序聚類方法不僅將樣本劃分到預定義的簇中,而且這些簇之間存在全序關系。有序聚類具有聚類和多指標決策的特征,不僅可以實現(xiàn)樣本的等級劃分,還可以為決策支持系統(tǒng)提供樣本的等級分類管理。
針對中國海員職業(yè)幸福感指數(shù)評價的實際問題,本文構(gòu)建了一種可解釋性的有序聚類方法。該方法通過定義樣本間優(yōu)勢度的計算公式,形成樣本的優(yōu)勢度矩陣,結(jié)合K-modes聚類方法[14]和公理模糊集(Axiomatic Fuzzy Set,AFS)理論[15]確定樣本的語義描述及最佳聚類數(shù),并根據(jù)樣本語義描述的模糊邏輯運算規(guī)則對等級劃分結(jié)果賦予相應的語義解釋。以海員職業(yè)幸福感指數(shù)的調(diào)查分析為研究樣本進行分析,結(jié)果表明可以有針對性地分析不同等級中影響海員職業(yè)幸福感的因素,進而為改善海員工作環(huán)境、提高海員職業(yè)幸福感指數(shù)提供合理化建議。
隨著有序聚類在管理學領域的作用逐漸提升,如何有效解決等級劃分問題引起了研究者的廣泛關注。受偏好順序結(jié)構(gòu)評估法(Preference Ranking Organization Method for Enrichment Evaluation,PROMETHEE)的啟發(fā),文獻[10]中提出了一種新的有序聚類方法,該方法基于樣本間的不一致矩陣和兩兩偏好關系,在獲得樣本的整體優(yōu)勢度的基礎上利用經(jīng)典的聚類方法實現(xiàn)有序聚類。文獻[16]中提出了一種結(jié)合K-Means 和PROMETHEE 的有序聚類方法。與上述方法相比,有序K-Means(OrderedK-Means,OKM)聚類方法具有更強的魯棒性和一致性。為體現(xiàn)有序聚類問題中存在的不確定性,文獻[17]中利用PROMETHEE 得到樣本的綜合優(yōu)勢度,然后在此基礎上結(jié)合FCM 方法構(gòu)建有序聚類方法OFCM(Ordered FCM)。上述方法實現(xiàn)了樣本集的有序劃分,一定程度上能夠輔助人們進行不同領域?qū)嶋H問題的等級分析與管理。
為使聚類結(jié)果傳遞給人類更直觀和易于理解的信息,對于多指標有序聚類問題,不僅僅要對樣本集進行有序劃分,而且也應提供相應的語義描述,這樣才有利于輔助決策者做進一步?jīng)Q策,但上述方法在聚類結(jié)果的語義可解釋性方面存在不足。本文構(gòu)建了一種新的有序聚類方法,在聚類過程中考慮將每個指標值都直接參與有序聚類,并根據(jù)公理模糊集理論中簡單概念的模糊邏輯運算結(jié)果對簇賦予語義解釋,以此輔助決策者作出選擇與表述。本文利用所構(gòu)建的有序聚類方法對中國海員職業(yè)幸福感指數(shù)進行等級劃分,然后結(jié)合當前社會對海員職業(yè)的認可度、海員對船上的工作壓力承受程度以及海員的總體職業(yè)幸福感指數(shù)等指標[18]分析海員職業(yè)幸福感問題,且給出相應的建議。
本章主要介紹有序聚類的定義、公理模糊集理論的相關概念和性質(zhì)。
有序聚類的實質(zhì)是利用已有的決策信息,采取特定的方法將有限個樣本劃分到相應的簇中,且簇之間存在全序關系。有序聚類的一般定義如下:
假設有n個樣本,記為P={x1,x2,…,xn};m個屬性,記為G={g1,g2,…,gm}。依據(jù)樣本的屬性值將n個樣本劃分到k個簇中,若滿足以下3 個條件稱其為有序聚類[10]:
1)P=;
2)?i≠j,Ci∩Cj=?;
3)C1?C2?…?Ck。
其中:Ci表示第i個有序簇;?表示優(yōu)勢關系,如果Ci?Cj,則表示Ci中的樣本優(yōu)于Cj中的樣本。
公理模糊集(AFS)理論以AFS 代數(shù)和AFS 結(jié)構(gòu)為基礎[15],通過在數(shù)據(jù)集的相應屬性(指標)上預設若干模糊簡單概念(例如:小、中、大等),并將數(shù)據(jù)表中的記錄信息轉(zhuǎn)化成隸屬函數(shù)及其模糊邏輯運算,從而產(chǎn)生具有可解釋性且容易被人類理解和使用的樣本描述與規(guī)則[15]。下面介紹與AFS 理論相關的定義和性質(zhì)。
2.2.1 AFS代數(shù)
設數(shù)據(jù)集X上的模糊簡單概念集合為M,根據(jù)文獻[15]中所定義的模糊邏輯關系,對每一個模糊簡單概念集合A?M,表示A中所有模糊簡單概念的合取,表示的析取,即通過簡單概念的邏輯運算得到的復雜概念,則所有復雜概念構(gòu)成的集合可以表示為:
其中:I是任意一個非空指標集合。
定義1[19]設M是一個非空集合,EM*上的二元關系R定義如下:對于任意∈EM*,,?Bh(h∈J),則Ai?Bh;2)?Bj(j∈J),?Ak(k∈I),則Bj?Ak。
2.2.2 AFS結(jié)構(gòu)
假設X是論域,M是簡單概念集合,三元組(M,τ,X)稱為AFS 結(jié)構(gòu),其中τ是滿足如下條件的映射τ:X×X→2M:
條件1:?(x1,x2)∈X×X,τ(x1,x2)?τ(x1,x1);
條件2:?(x1,x2),(x2,x3)∈X×X,τ(x1,x2)∩τ(x2,x3)?τ(x1,x3)。
τ被用來刻畫X×X中樣本序?qū)秃唵胃拍畹膶P系,以此體現(xiàn)數(shù)據(jù)集的結(jié)構(gòu)信息[15]。通常,τ采用如下形式[20]:
τ(x,y)={m|m∈M,x≥my}∈2M;(x,y)∈X×X
其中:≥m是簡單概念m∈M上的序關系;x≥my表示x隸屬于簡單概念m的程度大于或者等于y隸屬于簡單概念m的程度,或者x≥my表示x在一定程度上隸屬于簡單概念m,而y完全不隸屬于簡單概念m。
利用AFS 結(jié)構(gòu),模糊概念η=∈EM的隸屬函數(shù)定義[21]如下:
為使得有序聚類結(jié)果具有良好的語義可解釋性,以此對中國海員職業(yè)幸福感調(diào)研數(shù)據(jù)深入分析。本章結(jié)合AFS 理論設計基于模糊描述的有序聚類方法,該方法的流程如圖1所示。
圖1 面向可解釋性的有序聚類方法流程Fig.1 Flowchart of ordered clustering method for interpretability
隸屬度能衡量樣本屬于模糊概念的程度,同時也可以提供不同樣本在同一模糊概念下的差別程度。本文借鑒樣本隸屬度的求解方法[21]衡量樣本在特定指標下的優(yōu)勢度。
定義2假設有n個樣本P={x1,x2,…,xn},m個屬性G={g1,g2,…,gm},對于?xi∈P,則樣本xi在指標gh(h=1,2,…,m)下的優(yōu)勢度定義如下:
當v=時,對于任意的樣本xi,μv(xi)是樣本xi屬于模糊概念v∈EM的最大隸屬度[21]。對于任意一個樣本xi,確定最佳模糊描述的步驟如下。
1)令ε≥0,獲取樣本模糊描述的候選簡單概念集合:
3)對于樣本xi,選擇最佳模糊描述:
4)類Cj(j=1,2,…,k)的模糊描述表示為:
通過定義2 將原始的數(shù)據(jù)矩陣轉(zhuǎn)化為優(yōu)勢度矩陣,并基于此利用K-modes 聚類方法對樣本進行聚類,進而實現(xiàn)樣本的等級劃分。簇數(shù)作為聚類方法的輸入?yún)?shù),通常需要決策者事先指定。在有序聚類中,采用如下指標評價聚類結(jié)果的有效性[20]:
其中:Δh=,表示簇Ch(h=1,2,…,k)的類內(nèi)緊湊度;δ(h,l)=D(rh)-D(rl),表示簇Cl(l=1,2,…,k;h 另一方面,從聚類結(jié)果的語義描述清晰性視角也可以確定類描述和目標聚類數(shù)。參照AFS 聚類方法中的有效性函數(shù)[22],聚類結(jié)果評價指標可以表示為: 由式(5)~(6)可知:評價指標Index取值越大表明聚類結(jié)果越好;評價指標I取值越小表明聚類結(jié)果的語義描述越清晰,此時得到的聚類數(shù)最佳。結(jié)合兩個評價指標的優(yōu)勢,本文采用如下指標評價聚類結(jié)果: 當Dom取最大值時,可以得到最佳聚類結(jié)果。 本章利用所構(gòu)建的決策方法對海員職業(yè)幸福感指數(shù)進行分析,以此得到不同幸福感指數(shù)等級群體及相應的語義描述,并為進一步改善海員工作環(huán)境、提高海員職業(yè)幸福感指數(shù)給出相應的建議。 步驟1 數(shù)據(jù)來源。 為切實了解海員的職業(yè)幸福感情況,真實反映影響我國海員職業(yè)幸福感的關鍵因素,大連海事大學研究團隊聯(lián)合信德海事網(wǎng)于2018 年4 月通過問卷調(diào)查的方式開展海員職業(yè)幸福感公益性調(diào)研工作[18]。本次調(diào)查問卷主要針對不同受教育程度、不同年齡段和不同職務的男性海員。海員通過5分制對這9 個指標下的調(diào)查結(jié)果進行打分,打分原則為:將“非常滿意”“滿意”“一般”“不滿意”“非常不滿意”分別賦予5 分、4 分、3 分、2 分、1 分,最終回收有效調(diào)查問卷為9 175份。依據(jù)這些調(diào)查數(shù)據(jù),本文利用所構(gòu)建的決策方法對海員職業(yè)幸福感指數(shù)進行等級分析。根據(jù)影響海員職業(yè)幸福感指數(shù)的重要程度[19],選取以下9 個具有代表性的指標:g1為海員對工資的滿意情況;g2為海員對船上伙食的滿意情況;g3為海員對船上業(yè)余活動的滿意情況;g4為海員對船上實習生培訓的滿意情況;g5為海員對船上人際關系的滿意情況;g6為海員對船上工作負荷的承受情況;g7為海員對現(xiàn)有社會保險的滿意情況;g8為海員利用網(wǎng)絡與外界聯(lián)系的便利情況;g9為海員在船工作期間“下地休憩”便利程度。 步驟2 確定每個樣本的最佳模糊描述。 根據(jù)AFS 結(jié)構(gòu)的表示方法對打分數(shù)據(jù)矩陣建立AFS 結(jié)構(gòu)(M,τ,X),其中M={mij|1≤i≤9,1≤j≤5}表示樣本集X上與評價指標有關的簡單概念集合,其中mij∈M表示在第i個指標下的第j個簡單概念,j=1,2,3,4,5 對應的語義解釋分別為:海員對第i個指標“非常不滿意”“不滿意”“一般”“滿意”和“非常滿意”。在取定參數(shù)δ=0.6,ε=0.05 情況下,利用式(3)得到每個樣本的最佳模糊描述。 步驟3 聚類過程。 由式(2)計算每個指標下樣本之間的優(yōu)勢度,將初始數(shù)據(jù)矩陣轉(zhuǎn)化為優(yōu)勢度矩陣,進而使用K-modes 聚類方法得到有序簇。根據(jù)式(7),在不同聚類數(shù)k∈[2,10]下得到的評價指標值如表1 所示。 表1 不同k值下的評價指標值Tab.1 Evaluation index values under different k values 顯然,當聚類數(shù)k=5 時,評價指標Dom取到最大值,此時聚類結(jié)果最佳,得到的有序聚類結(jié)果如圖2 所示。 圖2 有序聚類結(jié)果Fig.2 Ordered clustering results 從圖2 可以看出,整個數(shù)據(jù)集樣本分為5 個簇:C1、C2、C3、C4和C5,并且各自群體的職業(yè)幸福感指數(shù)有如下關系:C1?C2?C3?C4?C5。其中C1包含764 個樣本,C2包含2 579 個樣本,C3包含1 528 個樣本,C4包含2 096 個樣本,C5包含2 208 個樣本。 步驟4 確定類描述。 根據(jù)預先設定的簡單概念集合,及在參數(shù)取值δ=0.6,ε=0.05 情況下,利用式(3)得到每個樣本的最佳模糊描述,并結(jié)合聚類結(jié)果由式(4)得到每一類的類描述。 第一類的類描述為: 即:海員對工資、船上伙食和船上業(yè)余活動非常滿意;或者海員對船上工作負荷完全能承受,對實習生培訓情況和船上人際關系非常滿意;或者海員對利用船上網(wǎng)絡與外界聯(lián)系情況和在船工作期間“下地休憩”情況感到非常便利,對工資和現(xiàn)有社會保險非常滿意,海員總體職業(yè)幸福感指數(shù)高。 第二類的類描述為: 即:海員對工資、船上伙食、船上業(yè)余活動、實習生培訓情況和現(xiàn)有社會保險滿意;或者海員對船上伙食和船上人際關系滿意,對船上工作負荷能承受,對利用船上網(wǎng)絡與外界聯(lián)系情況和在船工作期間“下地休憩”情況感到便利,海員總體職業(yè)幸福感指數(shù)較高。 第三類的類描述為: 即:海員認為工資、船上伙食、船上業(yè)余活動、實習生培訓情況、船上人際關系和現(xiàn)有社會保險一般,對船上工作負荷勉強能承受,對利用船上網(wǎng)絡與外界聯(lián)系情況和在船工作期間“下地休憩”情況感到一般,海員總體職業(yè)幸福感指數(shù)中等。 第四類的類描述為: 即:海員對工資、船上伙食、船上業(yè)余活動和實習生培訓情況不滿意;或者海員對工資、船上業(yè)余活動和船上人際關系不滿意,對船上工作負荷不能承受;或者海員對現(xiàn)有社會保險不滿意,利用船上網(wǎng)絡與外界聯(lián)系情況和在船工作期間“下地休憩”情況感到不便利;或者海員對工資、船上伙食、船上人際關系和現(xiàn)有社會保險不滿意,對船上工作負荷不能承受,海員總體職業(yè)幸福感指數(shù)低。 第五類的類描述為: 即:海員對工資、船上伙食、船上業(yè)余活動和船上人際關系非常不滿意,認為船上工作量超負荷;或者海員對工資、船上伙食、實習生培訓情況以及現(xiàn)有社會保險非常不滿意,對利用船上網(wǎng)絡與外界聯(lián)系情況和在船工作期間“下地休憩”情況感到非常不便利,海員總體職業(yè)幸福感指數(shù)非常低。 每個樣本分別隸屬于5 類模糊描述的隸屬度如圖3 所示,從圖3 可以看出每類群體的語義描述相對清晰。 圖3 樣本集對于模糊描述的隸屬度Fig.3 Membership degree of sample set to fuzzy description and 由我國國際航行海員職業(yè)幸福感指數(shù)的調(diào)查報告[18]可知,我國海員的職業(yè)幸福感指數(shù)與全球海員職業(yè)幸福感指數(shù)的同期水平差距較大。雖然調(diào)查報告真實地反映了影響我國海員職業(yè)幸福感的關鍵因素,但調(diào)查結(jié)果僅體現(xiàn)了目前海員的總體職業(yè)幸福狀況和在每個指標下的加權(quán)平均分,并沒有將海員根據(jù)不同的職業(yè)幸福感指數(shù)狀況進行等級劃分。本文通過面向可解釋性的有序聚類方法,根據(jù)9 個評價指標不僅將9 175 名海員劃分到不同幸福感指數(shù)等級群體中,而且還給出相應群體主要影響因素的語義描述,決策者可以根據(jù)不同指數(shù)等級所對應的語義描述進行分析并提出相應對策。由圖2 可知,對于目前海員的總體職業(yè)幸福狀況,滿意人數(shù)約占這項調(diào)查活動總?cè)藬?shù)的1/3,并且通過第四類和第五類的類描述也可以看出,大多數(shù)海員對目前的總體職業(yè)幸福狀況不滿意。通過圖3 可以看出,不同幸福感指數(shù)等級群體之間具有很好的區(qū)分度。根據(jù)有序聚類結(jié)果和調(diào)查問卷結(jié)果,可以發(fā)現(xiàn)海員的工作狀況和生活環(huán)境有很多值得關注與改善之處: 1)在工資收入方面,國內(nèi)海員勞務派遣薪酬管理制度存在其特殊性,導致國外船東提供給海員的工資與我國海員實際獲得的工資之間存在較大的差異。因此,加強公司足額發(fā)放工資監(jiān)管、海員個人所得稅減免是提升海員職業(yè)幸福感的有效途徑之一。 2)對于社會保險待遇,部分公司選擇給海員繳納最低檔的保險,且出現(xiàn)保險繳納地與公司所在地或與海員經(jīng)常居住地不一致的情況,導致社會保險難以使用,職業(yè)挫敗感強。因此需要建立適合海員職業(yè)特點的社會保險繳納機制。 3)船上娛樂設施、設備配備參差不齊;船上業(yè)余活動較少導致海員之間缺乏交流,海員與家人的聯(lián)系不便利易造成情緒壓抑。為了改善上述狀況,航運公司應該安裝先進的通信設施,方便海員獲取實時資訊以及與家人溝通;進而有利于海員平衡好家庭和工作。 4)對于海員在船工作期間下地休憩方面,船舶裝卸效率高,港區(qū)離市場較遠,某些港口缺乏“下地休憩”的便利服務,?;纷鳂I(yè)港區(qū)管理部門不允許海員下地,船長安排海員下地休憩的意愿有時不強等因素導致下地困難。為了改善海員的休息狀況,船長應積極安排海員下地休憩,有關部門推動下地休憩便利化。 為了說明面向可解釋性的有序聚類方法對評價海員職業(yè)幸福感的可行性,將構(gòu)建的方法與OKM 聚類方法[16]及OFCM 聚類方法[17]的聚類結(jié)果進行對比分析。針對海員職業(yè)幸福感評價問題,采用OKM 和OFCM 聚類方法對9 175 名海員進行聚類分析,結(jié)果如圖4~5 所示。 圖4 基于OKM聚類方法的聚類結(jié)果Fig.4 Clustering results based on OKM method 圖5 基于OFCM聚類方法的聚類結(jié)果Fig.5 Clustering results based on OFCM method 上述兩種方法是基于PROMETHEE 獲取綜合優(yōu)勢值基礎上應用相應的聚類方法形成等級劃分,沒有充分體現(xiàn)多指標數(shù)據(jù)的結(jié)構(gòu)與差異信息。本文應用文獻[10]方法進行對比分析。當聚類數(shù)k=5 時,通過文獻[10]方法分析海員職業(yè)幸福感指數(shù)評價問題,結(jié)果如圖6 所示。 圖6 文獻[10]方法的聚類結(jié)果Fig.6 Clustering results using the method proposed in reference[10] 通過與OKM 聚類方法、OFCM 聚類方法以及文獻[10]的方法進行對比分析,本文所構(gòu)建的方法具有一定的合理性。該方法通過定義樣本間優(yōu)勢度,結(jié)合聚類和模糊描述得到等級劃分結(jié)果,不僅挖掘原始數(shù)據(jù)中的序關系,而且結(jié)合公理模糊集理論實現(xiàn)了等級劃分結(jié)果的語義可解釋性,以形成從定量到定性的輔助決策方法。 本文建立了面向可解釋性的有序聚類方法,該方法不僅將樣本劃分到不同的等級,而且賦予每個等級集合相應的語義解釋。本文將該方法應用于海員職業(yè)幸福感評價分析中,根據(jù)9 個評價指標對9 175 名海員進行等級劃分,確定了5 個不同幸福等級群體。同時,根據(jù)不同等級群體的語義描述分析影響該群體幸福感指數(shù)的主要因素,并給出提升海員幸福感指數(shù)的建議。通過實例展示了所構(gòu)建方法具有良好的應用性及可實踐性,該方法的提出不但拓展了有序聚類方法,也為求解航運領域中大樣本數(shù)據(jù)的實際決策問題提供了新的方法。4 海員職業(yè)幸福感指數(shù)的實證分析
4.1 決策步驟
4.2 結(jié)果分析
4.3 對比實驗分析
5 結(jié)語