高梓博 杜太利 張 勇 黃連忠
(大連海事大學(xué)輪機(jī)工程學(xué)院1) 大連 116026) (大連海事大學(xué)無(wú)人船協(xié)同創(chuàng)新研究院2) 大連 116026)
隨著網(wǎng)絡(luò)通信的普及、數(shù)據(jù)庫(kù)的完善和機(jī)器學(xué)習(xí)等技術(shù)的成熟,大數(shù)據(jù)時(shí)代正在到來(lái),很多領(lǐng)域都在試圖應(yīng)用大數(shù)據(jù)技術(shù)獲得其中有價(jià)值的信息[1].在航運(yùn)業(yè)這個(gè)傳統(tǒng)行業(yè)中,船端傳感器采集的由通航環(huán)境、航行姿態(tài)與主機(jī)各運(yùn)行參數(shù)組成的船舶能效數(shù)據(jù)應(yīng)用于船舶能效分析,但大部分僅停留在簡(jiǎn)單的統(tǒng)計(jì)分析[2-3].船舶能效數(shù)據(jù)中的各參數(shù)之間是一種受多因素影響的綜合性過程,如何應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)具有統(tǒng)計(jì)規(guī)律和復(fù)雜關(guān)系的參數(shù)進(jìn)行分析并發(fā)現(xiàn)其中參數(shù)間的潛在規(guī)律,成為船舶能效研究的重要課題和目標(biāo).
國(guó)內(nèi)外在船舶領(lǐng)域的數(shù)據(jù)挖掘技術(shù)也做了很多研究.文獻(xiàn)[4-5]建立了BS架構(gòu)下的船舶制造業(yè)能效管理服務(wù)平臺(tái),為大數(shù)據(jù)挖掘技術(shù)應(yīng)用到能效數(shù)據(jù)分析提供了可靠的數(shù)據(jù)支持.文獻(xiàn)[6]結(jié)合相應(yīng)的聚類算法設(shè)計(jì)了基于數(shù)據(jù)挖掘的船舶機(jī)艙檢測(cè)系統(tǒng),提出了一種新的思路.文獻(xiàn)[7-8]應(yīng)用了通過矩陣變換和數(shù)據(jù)降維的主成分分析數(shù)據(jù)挖掘方法,對(duì)柴油機(jī)工作狀態(tài)進(jìn)行了描述.文獻(xiàn)[9]提出了一種基于粗糙集的多維關(guān)聯(lián)算法研究了多維數(shù)據(jù)挖掘在船舶航線貨物運(yùn)輸?shù)膽?yīng)用問題.文獻(xiàn)[10]利用船舶航速、轉(zhuǎn)速、功率和油耗率為數(shù)據(jù)基礎(chǔ),通過自適應(yīng)K均值聚類法研究了不同轉(zhuǎn)速下負(fù)荷和油耗率的變化關(guān)系.
文中根據(jù)EEOI的定義衍生出一種以單位海里油耗量為目標(biāo)的船舶能效分析標(biāo)準(zhǔn),并以一個(gè)完整航次的船舶能效數(shù)據(jù)為基礎(chǔ),應(yīng)用了統(tǒng)計(jì)、數(shù)據(jù)挖掘聚類算法和曲線擬合,得到了最佳工況下船舶主機(jī)功率和海里油耗量的關(guān)系曲線,并對(duì)圖像進(jìn)行了分析.
為減少溫室氣體的排放,IMO大會(huì)為關(guān)于實(shí)施船舶減排進(jìn)行討論,認(rèn)同并建立了GHG基準(zhǔn)線和排放指數(shù),海洋環(huán)境保護(hù)委員會(huì)第53屆會(huì)議批準(zhǔn)了CO2排放指數(shù)資源使用暫行指南.本指南可用于建立船舶能效營(yíng)運(yùn)指數(shù)(EEOI)的一致性和自愿性使用,這將有助于船東,運(yùn)營(yíng)商和利益相關(guān)方評(píng)估其在CO2排放方面的性能.
EEOI的定義為船舶單位運(yùn)輸作業(yè)所排放的CO2量,一個(gè)航次的EEOI的基本表達(dá)式為
(1)
式中:j為燃油類型;FCj為燃油j的消耗量;CFj為燃油j的燃油量與CO2量轉(zhuǎn)換系數(shù);mcargo為船舶的載貨物總噸,t;D為該船舶載該貨物或所做的功的行駛距離,n mile.
由于船舶的CO2排放量與燃油艙的燃油消耗量直接相關(guān),EEOI也可以提供關(guān)于燃油性能的船舶性能有用信息.對(duì)于一個(gè)完整航次(單航次保持滿載或者壓載)的遠(yuǎn)洋船舶,假設(shè)不計(jì)途中燃油消耗對(duì)總噸的影響,即mcargo的值一直保持不變,該航次燃油類型也不變,因此,定義一個(gè)系數(shù):
k=CFj/mcargo
(2)
該系數(shù)為燃油與CO2的轉(zhuǎn)換系數(shù)和載貨總噸的比值,在一個(gè)完整航次中應(yīng)為定值.
單位海里油耗量就等于EEOI值與k的比值,而EEOI指標(biāo)的本質(zhì)是船舶實(shí)際運(yùn)營(yíng)排放的CO2總量與實(shí)際客貨周轉(zhuǎn)量之間的比值,EEOI值越小表示船舶的能效效率越佳,即單位海里油耗量越少表示船舶的油耗水平越低,越節(jié)油.所以,從船舶能效大數(shù)據(jù)中尋找船舶每個(gè)航次下的最優(yōu)海里油耗值,可以大致評(píng)估船舶營(yíng)運(yùn)油耗水平.
本文數(shù)據(jù)采集自某目標(biāo)船,參數(shù)如下:船長(zhǎng),327 m;船寬,55 m;總噸位152 148;最大載重噸,298 000 t;設(shè)計(jì)吃水,21.4 m.該船為二沖程低速機(jī),最大持續(xù)功率(MCR):22 360 kW,服務(wù)功率:19 000 kW,對(duì)應(yīng)軸轉(zhuǎn)速:69 r/min.數(shù)據(jù)集包括一個(gè)完整航次,即從馬跡山壓載到圖巴朗,再?gòu)膱D巴朗滿載返回馬跡山,但由于壓載航次從馬跡山到新加坡后壓載量會(huì)改變,所以只取新加坡往返圖巴朗進(jìn)行數(shù)據(jù)分析,利用統(tǒng)計(jì)、聚類和擬合的方法,得到船舶在不同工況下的海里油耗擬合曲線.研究方法流程圖見圖1.
圖1 研究方法流程圖
聚類是一種無(wú)監(jiān)督學(xué)習(xí),將相似的對(duì)象歸到同一個(gè)簇中,通過某種算法將對(duì)象的類別體系自動(dòng)進(jìn)行分類.考慮到整個(gè)航次中壓載和滿載及海況的不確定因素會(huì)導(dǎo)致主機(jī)運(yùn)行工況不同,具體應(yīng)用哪種聚類算法要根據(jù)實(shí)際情況而定.文中采用轉(zhuǎn)速區(qū)間50~68 r/min對(duì)應(yīng)的數(shù)據(jù)作為基礎(chǔ),通過異常值剔除后,得到主機(jī)轉(zhuǎn)速和功率統(tǒng)計(jì)分布圖,通過觀察發(fā)現(xiàn)在船舶壓載航次中(見圖2),主機(jī)分別在三個(gè)不同的工況下運(yùn)行,而在滿載航次中(見圖3),運(yùn)行工況相對(duì)單一.針對(duì)壓載航次中存在的多概率混合分布情況,考慮使用高斯混合模型進(jìn)行聚類.
圖2 壓載航次的主機(jī)轉(zhuǎn)速和功率統(tǒng)計(jì)分布圖
圖3 滿載航次的主機(jī)轉(zhuǎn)速和功率統(tǒng)計(jì)分布圖
高斯混合模型(Gaussian mixture model,GMM)是由多個(gè)高斯分布函數(shù)的線性組合,基于概率模型的軟分類方法.理論上,GMM可以適用于任何類型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個(gè)不同分布的情況.
每個(gè)GMM的數(shù)據(jù)點(diǎn)分配由期望最大化算法(EM)執(zhí)行,第一步(E步)首先求出要參數(shù)的預(yù)估計(jì)值,評(píng)估每個(gè)數(shù)據(jù)點(diǎn)屬于相應(yīng)數(shù)據(jù)簇的概率;第二步(M步)使用第一步的值最大化似然函數(shù),將每個(gè)數(shù)據(jù)點(diǎn)歸納到相對(duì)于最高概率的數(shù)據(jù)集中,并更新相應(yīng)GMM的均值和協(xié)方差值.因此要求出GMM的似然函數(shù).
高斯混合模型概率密度函數(shù)為
(3)
式中:x為輸入的數(shù)據(jù)集,μj和∑j為第j個(gè)簇的均值和協(xié)方差.第i個(gè)數(shù)據(jù)點(diǎn)屬于第j個(gè)簇的概率可寫為
(4)
式(4)為計(jì)算參數(shù)z(i)的軟猜測(cè)值.
E步中,考慮到貝葉斯規(guī)則和式(1),給定參數(shù)x(i)的參數(shù)z(i)的后驗(yàn)概率可寫為
p(z(i)=j|x(i);φ,μ,∑)=
(5)
式中:p(z(i)=j;φ)為第j個(gè)數(shù)據(jù)簇的先驗(yàn)概率;k為數(shù)據(jù)簇的數(shù)量.
在EM算法的假定每個(gè)數(shù)據(jù)簇有著相等的先驗(yàn)概率.需要注意的是式(3)為多元高斯分布,其中μj和∑j分別是平均值和協(xié)方差值.相應(yīng)最大化步驟M步為
(6)
求取GMM對(duì)數(shù)似然函數(shù)為
(7)
不斷地迭代E步和M步,最終到似然函數(shù)的值收斂為止,此時(shí)得到的μj和∑j即為GMM模型的均值和協(xié)方差值.
由圖2可知壓載航次中的主機(jī)轉(zhuǎn)速和功率數(shù)據(jù)符合多高斯混合分布,因此,采用GMM模型該航次的工況進(jìn)行聚類.GMM的初始均值和協(xié)方差值從圖2中的統(tǒng)計(jì)分布近似得出.本文的算法編程基于python3.6,將參數(shù)輸入到算法程序中,在迭代次數(shù)為1 000時(shí),得到的GMM均值(即聚類中心)如下, 工況聚類圖見圖4.根據(jù)該算法的聚類情況,分別將三種工況下的數(shù)據(jù)分別存放在三個(gè)數(shù)據(jù)集下進(jìn)行下一步的聚類分析.
μ1=[57.5 r/min 9 989.2 kW]
μ2=[60.8 r/min 11 526.4 kW]
μ3=[62.6 r/min 13 414.93 kW]
圖4 壓載航次的主機(jī)運(yùn)行工況聚類圖
本研究所采用該目標(biāo)船完整航次的數(shù)據(jù)集,其中包括壓載和滿載兩個(gè)子航次,由于壓載航次中主機(jī)存在三種不同運(yùn)行工況,因此需要分別對(duì)三種不同工況下的數(shù)據(jù)集進(jìn)行分別聚類,并比較三者的關(guān)系得到最佳工況.但是滿載航次中只存在一種主機(jī)運(yùn)行工況,所以只需對(duì)該工況下的數(shù)據(jù)集進(jìn)行聚類即可.然后將兩個(gè)子航次的聚類點(diǎn)結(jié)合原數(shù)據(jù)集進(jìn)行擬合,得到最終的功率-海里油耗量曲線.聚類和擬合曲線流程圖見圖5.
圖5 K均值聚類擬合曲線流程圖
首先隨機(jī)選取k個(gè)點(diǎn)作為初始時(shí)的質(zhì)心.隨后將數(shù)據(jù)集中的各個(gè)點(diǎn)分配到屬于該質(zhì)心的一個(gè)簇中.完成此步驟后,每個(gè)群集的質(zhì)心更新為群集中所有點(diǎn)的平均值.然而,K均值聚類通常出現(xiàn)較差的聚類效應(yīng),這是由于結(jié)果收斂到了局部最小,但不是全局最小.為了衡量聚類效果的好壞,引入誤差平方和(SSE),SEE值的大小由各個(gè)點(diǎn)距離質(zhì)心的距離決定,其值越小表示聚類效果越好.為了既保持簇?cái)?shù)目不變又提高簇的質(zhì)量,要對(duì)生成的簇進(jìn)行后處理,一種方法是將所有點(diǎn)作為一個(gè)簇, 然后將群集分為兩部分,然后選擇其中一個(gè)群集以繼續(xù)分區(qū),稱作二分K均值算法.
該算法偽代碼為
將所有點(diǎn)看成一個(gè)簇
當(dāng)簇?cái)?shù)目小于k時(shí)
對(duì)于每一個(gè)簇
計(jì)算總誤差
在k=2的前提下對(duì)其簇中數(shù)據(jù)點(diǎn)采用K均值聚類
計(jì)算該簇一分為二以后的SSE
選擇SSE最小的簇進(jìn)行接下來(lái)的劃分操作
進(jìn)行聚類的數(shù)據(jù)采用目標(biāo)船功率和海里油耗量2個(gè)屬性參數(shù),其中海里油耗量為每10 min的油耗量與該時(shí)間段GPS數(shù)據(jù)換算的海里數(shù)的比值.根據(jù)GMM工況聚類的結(jié)果,分別對(duì)所屬簇(即每個(gè)工況)的數(shù)據(jù)點(diǎn)進(jìn)行二分K均值聚類,K取值為7.完成聚類后從結(jié)果中找到海里油耗量最小的一個(gè)簇集.以工況1的聚類結(jié)果為例(見表1),可以得到最低海里油耗量為0.151 7 t/n mile,此時(shí)對(duì)應(yīng)功率為9 539.2 kW.同樣地,也可以得到其他工況下的最低海里油耗量,見表2.
表1 工況1下的聚類結(jié)果
表2 最小海里油耗量聚類點(diǎn)
比較壓載航次下各工況的最小海里油耗量可以得出,工況1下的海里油耗量相對(duì)最低,即主機(jī)在工況1運(yùn)行時(shí)比較高效節(jié)油,因此,壓載航次選工況1的聚類點(diǎn)進(jìn)行曲線擬合.滿載航次由于只有一種運(yùn)行工況,所以直接選取其聚類點(diǎn)進(jìn)行二次多項(xiàng)式曲線擬合,結(jié)果見圖6~7.
圖6 壓載航次最佳工況下的曲線擬合
圖7 滿載航次曲線擬合
比較壓載航次中各工況最低單位海里油耗量可以看出,單位海里油耗量隨著工況點(diǎn)不同而不同,且隨著功率增大而增大,該航次中工況1時(shí)的主機(jī)運(yùn)行效率最高,節(jié)油效果最明顯,而工況3效果最差.比較壓載和滿載航次工況1中各聚類點(diǎn)可以看出,單位海里油耗量隨著主機(jī)功率的增大有增大趨勢(shì),通過擬合曲線也可以得到同樣的結(jié)論,但還可以看出當(dāng)功率小到一定程度,海里油耗量會(huì)反而增大,拋物線的最低點(diǎn)為該航次最佳工況下的理論最低海里油耗量.出現(xiàn)這種情況的原因可能是:由于本文所采用的每海里油耗量計(jì)算方法為每10 min內(nèi)的油耗量與該10 min內(nèi)GPS所顯示的船舶航行的絕對(duì)距離的比值,如果功率過低,所產(chǎn)生的有效功率不足,導(dǎo)致主機(jī)轉(zhuǎn)速較低,螺旋槳的敞水效率相應(yīng)降低,從而航速也較小,在該段時(shí)間走過的距離也就較小,即上述計(jì)算的比值就會(huì)反而增大,該趨勢(shì)符合理論分析結(jié)果.因此應(yīng)當(dāng)保持適當(dāng)?shù)墓β屎娃D(zhuǎn)速,這樣可以使該工況下的節(jié)油效果達(dá)到最佳.
1) 利用轉(zhuǎn)速和功率兩個(gè)參數(shù)做出統(tǒng)計(jì)分布圖,并結(jié)合高斯混合模型聚類方法,得到了壓載航次中主機(jī)的三種運(yùn)行工況.在這個(gè)基礎(chǔ)上,應(yīng)用二分K均值聚類法分別對(duì)整個(gè)航次各工況的數(shù)據(jù)分別進(jìn)行聚類,比較得出單位海里油耗量隨著工況點(diǎn)不同而不同,且隨著功率增大而增大.
2) 船舶的油耗水平會(huì)受眾多航行參數(shù)的影響,其過程具有復(fù)雜性和綜合性,采用數(shù)據(jù)挖掘?qū)哂薪y(tǒng)計(jì)規(guī)律和復(fù)雜關(guān)系的參數(shù)進(jìn)行分析可以發(fā)現(xiàn)其中參數(shù)間的潛在規(guī)律.通過曲線擬合可以看出,該船舶的單位海里油耗雖然隨著功率的減小有減小趨勢(shì),但是當(dāng)功率小到某種程度,單位海里油耗反而有增大趨勢(shì),因此只有設(shè)定一個(gè)合理的功率和轉(zhuǎn)速,才能獲得最好的節(jié)油效果和經(jīng)濟(jì)效益.這可以給航運(yùn)公司提供科學(xué)的經(jīng)營(yíng)決策,也可以為船舶節(jié)能減排、船舶智能能效技術(shù)提供理論支持.