亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)及其在漁情預(yù)報中的應(yīng)用

        2007-12-31 00:00:00王海峰黃曉亞
        計算機(jī)時代 2007年11期

        摘要:首先闡述了數(shù)據(jù)挖掘產(chǎn)生的背景、過程和一些常用的數(shù)據(jù)挖掘技術(shù)及方法,然后著重介紹其在北太平洋魷魚漁情中的應(yīng)用。在該應(yīng)用中采用關(guān)聯(lián)規(guī)則和人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù),通過挖掘得出以下信息:支持度的不同決定北太平洋魷魚漁場影響因子的多少;產(chǎn)量與影響因子之間存在定量關(guān)系。

        關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;關(guān)聯(lián)規(guī)則;支持度;L-M算法

        0 引言

        漁情預(yù)報是對未來一定時期和一定水域范圍內(nèi)漁業(yè)資源狀況的各要素以及可能達(dá)到的漁獲量所作出的預(yù)報。隨著計算機(jī)技術(shù)的廣泛應(yīng)用,漁情預(yù)報技術(shù)進(jìn)入了一個新的發(fā)展階段。目前漁情預(yù)報技術(shù)中,有的采用簡單統(tǒng)計方法對漁場進(jìn)行定量預(yù)測,其預(yù)報方程比較單一,誤差相對較大;還有的則是綜合魚種特征和大洋特點來定性地確定出漁場,但沒有從定量的角度來確定出漁情。針對預(yù)報精確度的問題,筆者采用數(shù)據(jù)挖掘技術(shù)來對北太平洋魷魚漁情的預(yù)報作了進(jìn)一步的研究,取得了滿意的效果。

        1 數(shù)據(jù)挖掘技術(shù)的概念

        數(shù)據(jù)挖掘是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的有用信息的非平凡過程。這些有用信息的表現(xiàn)形式為:規(guī)則、概念規(guī)律及模式等。數(shù)據(jù)挖掘技術(shù)可以幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的情況。

        2 數(shù)據(jù)挖掘的過程

        (1)確定業(yè)務(wù)對象

        清晰明確地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。數(shù)據(jù)挖掘的最后結(jié)果是不可預(yù)測的,但對要探索的問題應(yīng)該是有預(yù)見的,如果盲目地進(jìn)行數(shù)據(jù)挖掘則是很難成功的。

        (2)數(shù)據(jù)預(yù)處理

        數(shù)據(jù)預(yù)處理對于數(shù)據(jù)挖掘的成功應(yīng)用至關(guān)重要。IBM等咨詢公司已經(jīng)證實了數(shù)據(jù)預(yù)處理需消耗整個數(shù)據(jù)挖掘過程中50%~80%的資源。如果沒有數(shù)據(jù)預(yù)處理階段,單純進(jìn)行數(shù)據(jù)挖掘,將成為一個盲目搜索的過程,可能會得出毫無意義或錯誤的結(jié)果。數(shù)據(jù)預(yù)處理大致分為三步:數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換。

        (3)挖掘知識和信息

        要實現(xiàn)知識與信息的挖掘,首先要確定系統(tǒng)要實現(xiàn)的功能及任務(wù)是屬于數(shù)據(jù)挖掘中的哪種類型,然后選擇合適的挖掘技術(shù),接著根據(jù)選定的挖掘技術(shù)選擇具體的算法——確定挖掘數(shù)據(jù)中隱藏模式的方法,用選定的算法或算法組合在模式空間中進(jìn)行反復(fù)迭代搜索,從數(shù)據(jù)集合中抽取出隱藏的、新穎的規(guī)則、規(guī)律及模式。

        (4)模式的解釋和評價

        對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進(jìn)行解釋和評價,過濾出有用的知識。具體包括消除無關(guān)的、多余的模式,過濾出要呈現(xiàn)給用戶的信息;利用可視化技術(shù)將有意義的模式以圖形或邏輯可視化的形式表示,轉(zhuǎn)化為用戶可理解的語言。此外還包括解決發(fā)現(xiàn)的結(jié)果與以前知識的潛在沖突,及利用統(tǒng)計方法對模式進(jìn)行評價,決定是否要重復(fù)以前的操作,以得到最優(yōu)、最適合的模式。

        3 數(shù)據(jù)挖掘技術(shù)的主要方法

        從不同的角度看,數(shù)據(jù)挖掘技術(shù)有多種分類方法,如根據(jù)發(fā)現(xiàn)的知識種類分類,根據(jù)挖掘的數(shù)據(jù)庫類型分類,根據(jù)挖掘方法分類,根據(jù)挖掘途徑分類,根據(jù)所采用的技術(shù)分類等等。

        (1)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法

        關(guān)聯(lián)規(guī)則反映一個事件和其他事件之間的依賴或關(guān)聯(lián)的規(guī)律。如果兩項或多項屬性之間存在關(guān)聯(lián),那么其中的一項屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測。最為著名的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法是R.Agrawal提出的Apriori算法。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可分兩步:一是迭代識別所有的頻繁項目集,要求頻繁項目集的支持率不低于用戶設(shè)定的最低值;二是從頻繁項目集中構(gòu)造可信度不低于用戶設(shè)定的最低值的規(guī)則。

        (2)人工神經(jīng)網(wǎng)絡(luò)(ANN)

        ANN模擬人腦神經(jīng)元結(jié)構(gòu),以MP結(jié)構(gòu)和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ),用神經(jīng)網(wǎng)絡(luò)連接的權(quán)值表示知識,其學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計算上。目前主要有三大類神經(jīng)網(wǎng)絡(luò)模型。①前饋式網(wǎng)絡(luò):以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測、模式識別等方向。②反饋式網(wǎng)絡(luò):以Hopfield的離散模型和連續(xù)模型為代表分別用于聯(lián)想記憶和優(yōu)化計算。③自組織網(wǎng)絡(luò):以ART模型、Kohonen模型為代表,用于聚類。

        4 數(shù)據(jù)挖掘在北太平洋魷魚漁情中的應(yīng)用

        4.1數(shù)據(jù)來源

        研究所引用的數(shù)據(jù)來源于上海水產(chǎn)大學(xué)海洋學(xué)院陳新軍教授多年來有關(guān)北太平洋魷魚數(shù)據(jù)的積累。其中包括北太平洋魷魚漁場的表層溫度數(shù)據(jù)、垂直溫度數(shù)據(jù)、距歷史溫度值數(shù)據(jù)、鹽度數(shù)據(jù)和1995~2001之間的產(chǎn)量數(shù)據(jù)。

        4.2數(shù)據(jù)預(yù)處理

        一般通過生產(chǎn)實踐所獲取的原始數(shù)據(jù)是不完整的和不一致的,數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。在原始數(shù)據(jù)中,可以看到表層水溫、垂直水溫、距歷史平均水溫、鹽度和產(chǎn)量之間的共同列是日期和經(jīng)緯度,故此可以通過日期和經(jīng)緯度為選擇條件將多個數(shù)據(jù)源集成在—起。通過數(shù)據(jù)清洗、集成和變換等預(yù)處理之后,將原來的百萬條數(shù)據(jù)歸約為僅有近千條數(shù)據(jù)。

        4.3挖掘技術(shù)和算法的選擇

        傳統(tǒng)方式上,漁場的影響因子大多數(shù)是利用綜合魚種特征、海域特點及專家知識定性地來確定,然后通過線性回歸等簡單的數(shù)學(xué)方法來粗糙地預(yù)報漁場的漁情。本文將運用關(guān)聯(lián)規(guī)則來定性地確定漁場的影響因子,通過人工神經(jīng)網(wǎng)絡(luò)來定量預(yù)測漁情。

        4.3.1關(guān)聯(lián)規(guī)則確定影響園子

        關(guān)聯(lián)規(guī)則尋找給定數(shù)據(jù)集中數(shù)據(jù)項之間的有趣聯(lián)系。從預(yù)處理后得到的數(shù)據(jù)可以看出,經(jīng)度的范圍在E145.15.00~E174.45.00、緯度N38.15.00~N44.45.00、距歷史溫度值-1.67~2.09、表面溫度6.26~21~94、垂直溫度1.402~22.208、鹽度0.0331~0.0347、深度在水下5~345m。

        我們需要確定的是產(chǎn)量的漁場影響因子,問題屬于多維量化關(guān)聯(lián)規(guī)則的范疇。陳新軍[2001]指出在160℃以西漁場形成海域表層水溫一般為17~20℃,在160℃以東海域表層水溫一般為11~13℃且深度100米水溫為9~10℃左右的海域才能形成漁場。因此將維列細(xì)分為Il:E145.15.00~E160、12:E160~E174.45.00,13:-1.67~0、14:0—2.09、15:6.26~11、16:11~13、17:13~17.18:17~21.94、J9:1.402~9,110:9~10,111:10~22.208、112:0.0331~0.0347、113:產(chǎn)量,由此得出I={I1,I2,…,I13}。設(shè)定最小支持度閾值(rain_sup)和最小置信度閾值(min_conf),通過Apriori算法尋找頻繁項集,這些項集出現(xiàn)的頻繁性要滿足預(yù)定義的最小支持度。得出的頻繁集見表1。

        然后由頻繁集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,其中mm_sup和min_conf均由專家建議給出。

        4.3.2人工神經(jīng)網(wǎng)絡(luò)預(yù)測漁情

        人工神經(jīng)網(wǎng)絡(luò)是由大量的處理單元通過適當(dāng)?shù)姆椒ɑミB構(gòu)成大規(guī)模的非線性自適應(yīng)系統(tǒng)。根據(jù)實際情況,本文采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)對北太平洋進(jìn)行魷魚漁情預(yù)測。一般BP網(wǎng)絡(luò)由輸入層、隱含層和輸出層組成,隱含層節(jié)點取s型函數(shù)(f(x)=1/(1+exp(-x)))輸出層取S型或線性函數(shù)。并采用糾錯規(guī)則進(jìn)行學(xué)習(xí)的網(wǎng)絡(luò)。由于標(biāo)準(zhǔn)BP算法收斂速度等問題不盡如人意,故采用BP改進(jìn)算法中的L-M算法。L-M算法在對分類問題、逼近問題的仿真結(jié)果的成功次數(shù)、迭代次數(shù)和平均時間上比BP標(biāo)準(zhǔn)算法和其他改進(jìn)算法更理想。

        L-M算法又稱阻尼最小乘法。在非線性問題的迭代求解過程中高斯牛頓迭代具有二階的收斂速度,L-M算法則在高斯牛頓法和最速下降法之間進(jìn)行平滑調(diào)和,在遠(yuǎn)離最小值處逐漸切換到高斯牛頓法。其公式描述如下:

        W(k+1)=W(k)+Pk

        Pk=-2(H+pDH)-1▽E(W(k))式中:H為能量函數(shù)、E為在w(k)處的Hessian陣。DH為對角陣,其對角元素為H??贓為E在w(k)處導(dǎo)數(shù)陣。μ的調(diào)KZ-dy法如下:

        如果E(W(k+1))≥E(W(k))

        否則μ=μ/10

        選擇訓(xùn)練表中由關(guān)聯(lián)規(guī)則得出的影響因子的維列和產(chǎn)量的數(shù)據(jù)作為輸入層的數(shù)據(jù)、輸入精度要求、隱含層的個數(shù)進(jìn)行訓(xùn)練,將訓(xùn)練結(jié)果(權(quán)系數(shù)矩陣)進(jìn)行保存,然后再調(diào)預(yù)測表中的相關(guān)數(shù)據(jù)進(jìn)行預(yù)測。優(yōu)化得出輸出與輸入之間的定量關(guān)系。試驗中采用4個輸入層節(jié)點,2個隱含層節(jié)點。

        選取Sigmoid()(即s型函數(shù))作為網(wǎng)絡(luò)神經(jīng)元的激活函數(shù),運算得到從輸入層到隱含層的權(quán)值矩陣。

        5 結(jié)束語

        基于北太平洋魷魚數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)能獲得如下信息:支持度的不同決定影響因子的多少;產(chǎn)量跟影響因子之間存在定量關(guān)系。

        總之,通過數(shù)據(jù)挖掘技術(shù)的綜合使用,可以對北太平洋魷魚數(shù)據(jù)進(jìn)行全面、深刻地分析,挖掘出潛在的產(chǎn)量模式。隨著信息技術(shù)的普及,數(shù)據(jù)挖掘技術(shù)在這一特定領(lǐng)域?qū)⒌玫礁訌V泛的使用。

        国产女精品视频网站免费| 国产精品女老熟女一区二区久久夜| 无码人妻一区二区三区免费视频| www插插插无码免费视频网站 | 日本老年人精品久久中文字幕| 丝袜美腿亚洲综合在线播放| 亚洲第一狼人天堂网亚洲av | 久久伊人影院| 熟女少妇丰满一区二区| 国产亚洲精品色婷婷97久久久| 中字幕人妻一区二区三区| 国产久热精品无码激情 | av免费网站在线免费观看| 国产人妖网站在线视频| 欧美性猛交xxxx富婆| 真实国产乱视频国语| 亚洲在中文字幕乱码熟女 | 国精品午夜福利视频不卡| 思思久久99er热只有频精品66| 午夜香蕉av一区二区三区| 精品国产成人av久久| 久久人与动人物a级毛片| 2021国产精品久久| 亚洲精品在线97中文字幕| 久久96国产精品久久久| 日本a级特黄特黄刺激大片| 水蜜桃在线视频在线观看| 免费人成视频网站在在线| 国产成人无码免费视频在线| 91精品全国免费观看青青| 日本成人中文字幕亚洲一区| 少妇伦子伦情品无吗| 香蕉人妻av久久久久天天| 被驯服人妻中文字幕日本| 国产亚洲精品熟女国产成人 | 亚洲va在线va天堂va手机| av有码在线一区二区| 日韩精品人成在线播放| 天天躁日日躁狠狠躁av中文| 国产不卡在线免费视频| 日韩在线观看入口一二三四|