葉 萌, 吳 凱, 馮佰威, 常海超
(1. 高性能船舶技術教育部重點實驗室(武漢理工大學), 武漢430063; 2. 哈爾濱工程大學 水下機器人技術重點實驗室, 哈爾濱150001; 3. 武漢理工大學 交通學院, 武漢430063)
近年來,將優(yōu)化算法與計算流體力學(CFD)技術相結合的船型優(yōu)化方法在船舶工程領域被廣泛應用。該方法往往包含密集的仿真分析,會產生海量仿真數據[1-2]。然而,目前國內外的研究僅僅是對最優(yōu)仿真結果進行討論分析,卻忽視了仿真數據中隱含的設計知識。 為此,本文將數據挖掘技術應用于船型優(yōu)化設計中,通過獲得隱含的設計知識,用來指導和理解船型優(yōu)化問題。
數據挖掘(Data mining)就是指從大量的、不完全的、有噪聲的、模糊的和隨機的實際應用數據中,通過規(guī)則和可視化等形式,提取隱含在其中的,人們事先不知道的,但又是潛在有用的、目標明確、針對性強、精煉準確的信息和知識的過程[3]。 如Shieh 等人[4]通過人們對產品的情感反應數據,利用粗糙集理論進行分析,得到產品尺寸和顏色等設計參數對產品受歡迎程度的影響。 池力[5]采用自組織映射(SOM)和模糊聚類對高強混凝土配合比設計數據進行知識挖掘,通過映射圖和聚類分析,得到有助于增加混泥土抗壓強度的設計信息。Sugimura 等人[6]通過決策樹分析和粗糙集理論對鼓風機的葉輪優(yōu)化數據進行挖掘分析,提出有利于增強氣動效率和運行穩(wěn)定性的設計規(guī)則。
為了挖掘船型設計參數與水動力性能之間的設計知識,本文基于粗糙集理論,對KCS 集裝箱船的興波阻力優(yōu)化仿真數據進行數據挖掘,數據挖掘的結果驗證了該方法的可靠性。
船型優(yōu)化仿真數據知識挖掘流程如圖1 所示。 第一階段為船型優(yōu)化設計:利用本課題組的船型優(yōu)化平臺,使用遺傳算法得到用于數據挖掘的優(yōu)化仿真數據;第二階段為數據挖掘:基于粗糙集理論,提取相關設計規(guī)則,對設計規(guī)則進行統計分析,可以獲得優(yōu)化仿真數據中隱含的設計知識。
圖1 船型優(yōu)化設計知識挖掘流程圖Fig.1 Overall procedure of design knowledge extraction framework
圖2 粗糙集理論示意圖Fig.2 Rough set theory
粗糙集理論是1982 年由Pawlak 首次提出,作為一個數學工具,能夠處理模糊數據,并從數據中提取規(guī)則,被廣泛應用于人工智能分析領域。 粗糙集理論通過集合元素分類和集合邏輯運算,實現規(guī)則的提取,其數學方面的原理可以參考文獻[9-10]。 本文將粗糙集理論應用于船型優(yōu)化仿真數據的知識挖掘中,其運行原理如圖2 所示。
1.2.1 粗糙集離散化
運用粗糙集理論提取規(guī)則時,需要進行數據預處理,把信息表知識表達系統S 轉換為用離散值表示的決策表S′,進而適用于集合邏輯運算。 由于優(yōu)化仿真數據都是連續(xù)型數據,本文采用模糊C 均值聚類算法(FCM)對所有優(yōu)化設計變量和優(yōu)化目標逐一進行離散化處理,具體步驟如下:
(1) 根據4 個聚類有效性指標,即劃分系數VPC、Xie_Beni 有效性指標VXB、A.M. Bensaid 有效性指標VSC和Overlap and Separation 有效性指標VOS[11-14],確定最佳模糊聚類數m(m≥2),使待離散數據可以離散為m 個區(qū)間。 VPC越大,VXB、VSC和VOS越小,代表聚類效果越好;
(2) 根據最佳聚類數m 進行模糊C 均值聚類計算,n 個仿真數據可聚為m 類,計算得到m 個聚類中心Vk(k=1, 2, …, m)以及每一仿真數據i 對應每一聚類j 的隸屬度μij(i=1, 2, …, n; j=1, 2, …,m);
(3) 對m 個聚類中心Vk進行升序排序,依次編碼為0, 1, …, m-1,對應的離散區(qū)間為[l, (V1+V2)/2 ], [(V1+V2)/2, (V2+V3)/2 ],…, [(Vm-1+Vm)/2,r ],l 和r 分別代表待離散數據值域的上邊界和下邊界;
(4) 比較每一仿真數據i 對應每一聚類j 的隸屬度μij的大小,依據最大隸屬度μij對應的聚類中心進行離散編碼。
1.2.2 粗糙集屬性約減
基于粗糙集理論的知識獲取,通過對原始決策表的約減,在保持決策表決策屬性和條件屬性之間的依賴關系不發(fā)生變化的前提下對條件屬性進行簡化,稱為屬性約減[15]。優(yōu)化仿真數據離散化后,一些優(yōu)化變量可以被省去而不影響決策表分類能力。 優(yōu)化變量的減少將使推導規(guī)則簡化,有助于知識的理解和分析。 本文采用基于屬性重要性的屬性約減算法。
該算法的步驟如下:
(1) 計算條件屬性集C 相對決策屬性D 的核屬性集C0,令初始約簡集合B=C0;
(2) 對于每一條件屬性ai∈C-B,分別計算各條件屬性重要度sig (ai, B,D )=card(POSB∪{ai}(D )-POSB(D ))/card(D )。 card()代表集合中元素的個數;
(3) 選取條件屬性重要度sig (ai, B,D )最大的屬性ai加入約減集合B,若存在多個條件屬性重要度sig (ai, B,D )為最大,則任選其一加入約減集合B;
(4) 計算POSB(D ),若POSB(D )=POSC(D ),則完成屬性約減,輸出約減集合B,否則跳轉至步驟二。
1.2.3 粗糙集規(guī)則提取
本文采用窮舉算法(Exhaustive algorithm)得到所有推導規(guī)則[16],并刪除不感興趣的推導規(guī)則,主要包括優(yōu)化目標結果差的規(guī)則,樣本出現頻率較低的規(guī)則(支持度較低的規(guī)則),最終獲得需要的、可信度高的規(guī)則集。
以韓國船舶與海洋工程研究所(KRISO)的集裝箱船KCS 為研究對象,利用參數化建模軟件Friendship 完成船體參數化建模工作,如圖3 所示。
圖3 KCS 三維圖Fig.3 KCS model
本文選取船體曲面前半部分作為優(yōu)化對象,優(yōu)化設計變量如表1 所示。 為使優(yōu)化船舶的載重量以及浮態(tài)不發(fā)生太大改變,設計約束設定為排水量及浮心縱向位置在母型船1%范圍內變動。 優(yōu)化目標為傅汝德數Fr=0.26 時,船舶興波阻力最小。 興波阻力采用SHIPFLOW 軟件計算。
表1 優(yōu)化設計變量Tab.1 Optimisation variables
為了更好地理解相關設計參數的物理含義,部分設計參數在特征曲線上的表示如圖4 所示。
圖4 部分設計參數在特征曲線上的示意圖Fig.4 Design parameters on the characteristic curve
基于Friendship 軟件平臺,采用NSGA-Ⅱ遺傳算法,對船舶興波阻力進行優(yōu)化。 表2 為船舶興波阻力的優(yōu)化結果,可以看出優(yōu)化船型的興波阻力相比母型船降低了10.8%,興波阻力性能改善明顯。此外,在整個優(yōu)化過程中可以得到860 條船舶興波阻力優(yōu)化仿真數據,如表3 所示,這些優(yōu)化仿真數據隱含著與船舶興波阻力相關的船型設計知識,將被用于數據挖掘。
表2 船舶興波阻力優(yōu)化結果比較Tab.2 Comparison of optimisation results
表3 船型方案的部分樣本數據Tab.3 Samples data for the hull forms
2.2.1 船型優(yōu)化仿真數據離散化
由表3 可知,興波阻力優(yōu)化仿真數據是連續(xù)性數據,需要進行離散化預處理,以便進行粗糙集理論的集合邏輯運算。本文采用1.2.1 節(jié)的模糊C 均值聚類算法(FCM)逐一對優(yōu)化變量(X1, X2, …, X10)和優(yōu)化目標Rw進行離散化處理。 考慮到聚類數目過多會導致離散區(qū)間數目增加,使推導規(guī)則過于繁多和復雜,故在此限定聚類數目不大于5。 以優(yōu)化變量X1(球鼻艏最前端高度值)為例,對其優(yōu)化數據進行聚類,圖5 顯示了聚類有效性指標隨聚類數目變化的情況,不難發(fā)現,當聚類數目為4 時,評價指標VPC較大,評價指標VXB、VSC和VOS較小,聚類效果綜合評價最佳,故優(yōu)化變量X1適宜離散為4 個區(qū)間,計算得到聚類中心的位置為(5.31, 5.91, 6.46, 7.12)。根據聚類中心位置和隸屬度大小比較,可對每一個仿真數據對象進行編碼,用離散值0,1,2,3 表示,其對應的離散區(qū)間分別(5, 5.61)、(5.61, 6.18)、(6.18, 6.79)和(6.79, 7.2)。
圖5 聚類有效性指標示意圖Fig.5 Cluster validity index
同理,可以對其它優(yōu)化變量和優(yōu)化目標進行離散化處理,如圖6 所示。 從圖中可以清楚地看到所有優(yōu)化變量和優(yōu)化目標的離散區(qū)間數目和離散區(qū)間位置,用不同的色塊表示。 球鼻艏長、球鼻艏豐滿度曲線起點切角和橫剖面面積曲線首部端點高度(X2, X4, X10)被離散為3 個區(qū)間。球鼻艏最前端高度值、球鼻艏下半部豐滿度、球鼻艏最大寬度、球鼻艏上半部豐滿度、球鼻艏輪廓線起點切角和P3 點處y 坐標(X1, X3, X5,X7, X8, X9)被離散為4 個區(qū)間。球鼻艏下半部豐滿度曲線起點坐標和興波阻力X6,Rw被離散為5 個區(qū)間。最終,優(yōu)化仿真數據形成如表4 所示的決策表。
2.2.2 船型優(yōu)化仿真數據屬性約減
圖6 優(yōu)化變量和優(yōu)化目標的離散示意圖(值域下邊界-0%,值域上邊界-100%)Fig.6 Discrete schematic of optimization variables and objects
基于1.2.2 節(jié)闡述的屬性重要性算法對船型優(yōu)化仿真數據決策信息表進行屬性約簡,計算條件屬性集C 相對決策屬性D 的核屬性集C0= {X2, X3, X5, X7, X9, X10},故初始約減集合B= {X2, X3, X5, X7, X9, X10}。 分別計算各條件屬性的重要度sig (ai, B,D ),以條件屬性X1為例,計算POSB(D )= {1, 2, 3, …, 855, 859 },POSB∪{X1}(D )= {1, 2, 3, …, 859, 860 },故sig (X1, B,D )=card (POSB∪{X1}(D )-POSB(D ))/card(D )= (50 2-426 )/860=76/860,同理可得sig (X4, B,D )=13/860,sig(X6, B,D )=62/860,sig (X8, B,D )=95/860,條件屬性X8的重要性最大,故將其加入約減集合B。 繼續(xù)計算余下各條件屬性的屬性重要性,并依次將屬性重要性最大的條件屬性加入到約簡集合B 中,直到POSB(D)=POSC(D ),最終可得約簡集B= {X1, X2, X3, X5, X6, X7, X8, X9, X10}。
表4 優(yōu)化仿真數據的離散化結果Tab.4 Discretization results of simulation data
2.2.3 船型優(yōu)化仿真數據規(guī)則推導
采用1.2.3 的窮舉算法進行規(guī)則推導,從中篩選感興趣的(興波阻力值較小)推導規(guī)則,即推導離散結果Rw=0 的規(guī)則。 由于規(guī)則的出現次數越高,表明有更多的仿真數據支持這一規(guī)則,使規(guī)則的支持度和可靠度增強,故刪除支持數目小于10 的推導規(guī)則,得到表5 所示的規(guī)則集。 規(guī)則集中的每一條規(guī)則代表一個設計知識,例如編號為1 的規(guī)則表明:當優(yōu)化設計變量X2, X3, X5, X7, X9, X10分別在離散值2、0、1、3、1、2 對應的離散區(qū)間取值時,船舶的興波阻力性能較好。 此外,從規(guī)則支持數目可以發(fā)現有63個樣本支持這條規(guī)則。
2.2.4 推導規(guī)則的統計分析
由于挖掘得到的規(guī)則數目較多且含義復雜,不利于理解學習,僅用粗糙集理論不能對整個規(guī)則集給出一個合理的解釋。 因此,為了更好地理解規(guī)則集的含義,本文通過規(guī)則集中優(yōu)化變量的離散值,計算得到所有設計變量的平均值和標準差, 根據優(yōu)化變量xi在規(guī)則集中的出現次數和相應規(guī)則的支持數目,對每一優(yōu)化設計變量xi賦予權重系數wi(歸一化系數)。 權重系數wi的計算公式如下:
表5 推導規(guī)則集Tab.5 Derivation knowledge set
其中,ni為包含優(yōu)化設計變量xi的所有規(guī)則對應的規(guī)則支持數目之和。
通常認為,優(yōu)化變量的權重系數越大,代表優(yōu)化變量的重要性越強;優(yōu)化變量的標準差越大,代表優(yōu)化變量變化幅度大,與其他變量間的交互效應較強。 表6 給出了規(guī)則集統計分析的計算結果,根據權重系數的大小比較,發(fā)現球鼻艏長、球鼻艏下半部豐滿度、球鼻艏最大寬度、球鼻艏上半部豐滿度、P3 點處水線寬度和橫剖面面積曲線首部端點高度值(X2, X3, X5, X7, X9, X10)是對優(yōu)化影響較大的變量。 其中球鼻艏長、球鼻艏上半部豐滿度和橫剖面面積曲線首部端點高度值越大(X2=2, X7=3, X10=2),球鼻艏下半部豐滿度越?。╔3=0),則興波阻力越小。
表6 規(guī)則集的統計分析結果Tab.6 Statistical analysis results of knowledge sets
為了驗證上述知識挖掘的可靠性,圖7 和圖8 分別給出了2.1 節(jié)母型船和優(yōu)化船型的橫剖線及縱剖線對比,不難發(fā)現,優(yōu)化船型相較于母型船,球鼻艏的長度變長并上翹,球鼻艏上半部的豐滿度變大且下半部的豐滿度變小,這相當于增加水線以下的船長和進流段的長度,有利于興波阻力的減小。 同時,優(yōu)化船型水線以下的橫剖面曲線略有內凹,水線以上的橫剖面曲線外凸,即意味著X10(橫剖面面積曲線首部端點高度值)變大,使船艏更加尖瘦,進流角減小,也有利于改善興波阻力。 以上的分析結果與數據挖掘得到的知識是一致的,證實了數據挖掘方法的可行性。 此外,與定性分析不同,基于粗糙集理論的知識挖掘方法是通過規(guī)則的形式表達知識,所有設計變量用離散值表示,通過感興趣的規(guī)則集,可以定量地分析出設計變量適合的取值區(qū)間,如球鼻艏長(X2)適合在離散值2 對應的離散區(qū)間取值,球鼻艏下半部豐滿度(X3)適合在離散值0 對應的離散區(qū)間取值。從表6 可知,球鼻艏最大寬度和P3 點處水線寬度(X5, X9)也是影響較大的變量,但是其取值會隨其他變量發(fā)生變化(X5=1 或X5=2,X9=1 或X9=3),說明這些變量可能與其它變量有較強的交互效應。而球鼻艏豐滿度曲線起點切角(X4)在表6 的規(guī)則集中沒有出現,說明它是對優(yōu)化目標靈敏度比較小的設計變量,對優(yōu)化結果的影響程度較小。這些設計知識是定性分析難以得到的。因此,基于粗糙集理論的知識挖掘方法可以分析得到3 種類型的設計變量,一種是主效應強的重要設計變量,一種是交互效應強的重要設計變量,一種是對優(yōu)化目標靈敏度比較小的設計變量,這也為設計者提供新的視角去理解船型優(yōu)化問題。
圖7 橫剖線圖對比Fig.7 Body-plans comparison
圖8 縱剖線圖對比Fig.8 Buttock-line comparison
本文針對集裝箱船KCS 興波阻力的優(yōu)化仿真數據,采用粗糙集理論進行知識挖掘,獲得了以下知識:(1) 球鼻艏長、球鼻艏上半部豐滿度和橫剖面面積曲線首部端點高度值增大,球鼻艏下半部豐滿度減少有助于減少興波阻力;(2) 球鼻艏最大寬度和P3 點處水線寬度也是對興波阻力影響較大的設計變量,這些變量與其他設計變量有較強的交互作用,適宜的取值區(qū)間并不固定;(3) 球鼻艏豐滿度曲線起點切角是對優(yōu)化目標影響較小的設計變量。
通過比較分析,可以得到以下結論:(1) 采用粗糙集理論進行知識挖掘,可以定性和定量地分析船型優(yōu)化問題,確定相關設計變量的適宜取值范圍,且挖掘知識可靠;(2) 基于粗糙集理論的知識挖掘方法可以對設計變量的主效應、交互效應進行分析,為設計者提供一個新的視角去理解優(yōu)化模型,為優(yōu)化模型的更新簡化提供參考。