亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)研究

        2018-04-17 09:11:30寶雞市石油中學(xué)李尚晉
        電子世界 2018年1期
        關(guān)鍵詞:數(shù)據(jù)量分類器機器

        寶雞市石油中學(xué) 李尚晉

        當(dāng)今時代,數(shù)據(jù)的產(chǎn)生和傳輸速度急劇增長,數(shù)據(jù)往往體現(xiàn)出了規(guī)模巨大、不夠精確、數(shù)據(jù)混雜、動態(tài)多變等性質(zhì),傳統(tǒng)的機器學(xué)習(xí)已經(jīng)很難滿足時代的需要[4]。大數(shù)據(jù)所帶來的問題不僅僅是數(shù)據(jù)量龐大而使計算變得困難,更大的困難是數(shù)據(jù)是在不同服務(wù)器上得到的。這些在不同服務(wù)器上的數(shù)據(jù),它們之間或許存在某種聯(lián)系,但是我們不可能把它們集中起來進行處理和利用。傳統(tǒng)機器學(xué)習(xí)的理論、算法,它要求數(shù)據(jù)必須是獨立且同分布的,而當(dāng)條件不能被滿足,學(xué)習(xí)模型以及學(xué)習(xí)算法就不能發(fā)揮其作用。

        1.大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)

        大數(shù)據(jù)環(huán)境下的機器學(xué)習(xí)賦予計算機從各式各樣的龐大數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化等類型數(shù)據(jù))中較快地獲得有價值的信息和知識的能力[3]。傳統(tǒng)機器學(xué)習(xí)著重用預(yù)先設(shè)定好的統(tǒng)計方法來對數(shù)據(jù)分析,以發(fā)現(xiàn)數(shù)據(jù)的價值;與傳統(tǒng)機器學(xué)習(xí)相比,大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)的最終目的是要從多源異構(gòu)、動態(tài)多變的數(shù)據(jù)中找出其隱藏在背后的某些規(guī)律,使數(shù)據(jù)能發(fā)揮最大程度的價值。從結(jié)構(gòu)繁多的數(shù)據(jù)中找出某種聯(lián)系,必須結(jié)合大數(shù)據(jù)技術(shù)和機器學(xué)習(xí)算法,由計算機去挖掘數(shù)據(jù)的價值。

        大數(shù)據(jù)時代中,傳統(tǒng)機器學(xué)習(xí)的新挑戰(zhàn)就是如何處理海量數(shù)據(jù)。傳統(tǒng)機器學(xué)習(xí)所面臨的問題主要包括幾個方面:

        (1)理解并模擬人類的學(xué)習(xí)過程。

        (2)對計算機系統(tǒng)和用戶間的語言差異的研究。

        (3)針對不完全信息進行推理的要求。

        目前,處理大規(guī)模數(shù)據(jù)的需求是普遍存在的,但是由于現(xiàn)有的很多機器學(xué)習(xí)算法并不能滿足這些條件,或存在各種各樣的缺陷和問題,所以現(xiàn)有的許多算法不可以很好地處理海量數(shù)據(jù)。如何研究出新的機器學(xué)習(xí)算法,以適應(yīng)大數(shù)據(jù)處理的需求,是大數(shù)據(jù)時代下的機器學(xué)習(xí)的重要研究方向之一[1]。

        在機器學(xué)習(xí)的發(fā)展歷程之中,有兩大研究的方向。一是研究人類學(xué)習(xí)機制,注重模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為;二是研究怎樣有效利用信息,從龐大的數(shù)據(jù)中獲取有效的、有價值的知識[4]。在大數(shù)據(jù)時代,數(shù)據(jù)產(chǎn)生速度越來越快,數(shù)據(jù)的體量出現(xiàn)了前所未有的增長,且需要 分析的新數(shù)據(jù)種類也在不停涌現(xiàn)。大數(shù)據(jù)時代對機器學(xué)習(xí)算法提出了更高的要求,要求機器學(xué)習(xí)算法具備處理海量數(shù)據(jù)的能力,要求算法可以處理高維度的數(shù)據(jù),要求算法和訓(xùn)練出的模型具備盡可能低的復(fù)雜性,以提高模型的訓(xùn)練速度和實際應(yīng)用中模型的預(yù)測速度,減少計算時間的浪費。

        2.主要評價指標(biāo)

        由于需要處理的數(shù)據(jù)量大且動態(tài)多變,要發(fā)現(xiàn)其中的價值,傳統(tǒng)的算法已經(jīng)很難滿足,這就需要新的算法來實現(xiàn)。評價機器學(xué)習(xí)算法優(yōu)劣的指標(biāo)主要有一下幾個方面。

        (1)速度

        在機器學(xué)習(xí)算法中,和速度有關(guān)的指標(biāo)有訓(xùn)練速度和預(yù)測速度。訓(xùn)練速度是指算法收斂的速度,即訓(xùn)練算法得出最優(yōu)模型的速度。預(yù)測速度是指使用最優(yōu)模型預(yù)測輸入信息對應(yīng)的結(jié)果的速度。如何開發(fā)出在訓(xùn)練速度和預(yù)測速度兩個方面表現(xiàn)都比較優(yōu)秀的機器學(xué)習(xí)算法,是一個重要的研究方向。

        (2)泛化能力

        機器學(xué)習(xí)的基本目標(biāo)是將訓(xùn)練數(shù)據(jù)中的實例泛化推廣。一般情況下,要求機器學(xué)習(xí)算法有較強的泛化能力,即對新輸入的數(shù)據(jù)做出合理響應(yīng)的能力。這一響應(yīng)能力代表著機器學(xué)習(xí)算法的性能。

        (3)數(shù)據(jù)利用能力

        隨著人們收集數(shù)據(jù)的能力變得越來越強,收集的數(shù)據(jù)類型也變得越來越多,不但有標(biāo)識的數(shù)據(jù),還有許多未標(biāo)識的數(shù)據(jù)以及一些不一致、不完整的數(shù)據(jù)。如果一味地丟棄這些數(shù)據(jù),只使用已標(biāo)識、較完整的數(shù)據(jù),就會造成資源的浪費。而且相比之下,學(xué)習(xí)到的模型的泛化能力也比較低。所以,利用種類繁多、格式多樣的數(shù)據(jù)的能力,是評判機器學(xué)習(xí)算法的重要指標(biāo)。

        (4)代價敏感

        代價敏感是指機器學(xué)習(xí)算法對于實際應(yīng)用中的錯誤預(yù)測所導(dǎo)致的損失是否敏感。在機器學(xué)習(xí)算法訓(xùn)練模型的過程中,內(nèi)部調(diào)節(jié)參數(shù)以使損失函數(shù)盡可能快地收斂。一個好的機器學(xué)習(xí)算法,其損失函數(shù)不僅僅考慮模型的錯誤,而且要關(guān)注在實際應(yīng)用中模型的錯誤所導(dǎo)致產(chǎn)生的代價。

        (5)可解釋性

        許多功能強大的機器學(xué)習(xí)算法可以說都是“黑盒子”,例如:神經(jīng)網(wǎng)絡(luò)算法。對于這類“黑盒子”算法,絕大部分用戶只能夠看到模型輸出的結(jié)果,卻不知產(chǎn)生這些結(jié)果的原因。而隨著數(shù)據(jù)量的不斷增加,問題復(fù)雜度的提高,模型的可解釋性往往也越來越差。在得到合理預(yù)測結(jié)果的同時,增強模型的可解釋性尤為必要。

        3.關(guān)鍵技術(shù)

        當(dāng)前,機器學(xué)習(xí)領(lǐng)域比較常用的關(guān)鍵技術(shù)有半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、遷移學(xué)習(xí)等,下面將逐一做出介紹。

        (1)半監(jiān)督學(xué)習(xí)

        在現(xiàn)實生活中的數(shù)據(jù)分析中,數(shù)據(jù)往往以未標(biāo)識的形式呈現(xiàn)。這些數(shù)據(jù)需要人們使用特殊的設(shè)備,進行用時很長的實驗,標(biāo)記實驗結(jié)果后才能得到部分已標(biāo)識數(shù)據(jù)。但是人工標(biāo)注耗時耗力,人們往往只能標(biāo)記一小部分?jǐn)?shù)據(jù),由此產(chǎn)生了極少的已標(biāo)識數(shù)據(jù)和過剩的未標(biāo)識數(shù)據(jù)。因此,人們嘗試將大量的未標(biāo)識數(shù)據(jù)和有限的已標(biāo)識數(shù)據(jù)一起用來訓(xùn)練模型,期望能通過這種處理方式對機器學(xué)習(xí)性能有所改進,由此產(chǎn)生了半監(jiān)督學(xué)習(xí)。半監(jiān)督學(xué)習(xí)避免了大量的數(shù)據(jù)和資源被浪費,同時可以解決監(jiān)督學(xué)習(xí)泛化能力不強和無監(jiān)督學(xué)習(xí)不精確的問題[4]。

        (2)集成學(xué)習(xí)

        海量數(shù)據(jù)的處理過程中,單一的學(xué)習(xí)算法訓(xùn)練出的模型往往預(yù)測性能較差,分類不精準(zhǔn)。我們將預(yù)測正確率僅僅比隨機猜測略高的模型稱為弱分類器,將辨別正確率高的模型稱為強分類器。集成學(xué)習(xí)的核心思想在于“集眾家之長”。集成學(xué)習(xí)中,首先訓(xùn)練多個弱分類器,然后通過一定的策略(加權(quán)法、投票法等)將這些弱分類器組合起來形成一個預(yù)測較為精準(zhǔn)的強分類器[6]。

        (3)遷移學(xué)習(xí)

        隨著機器學(xué)習(xí)理論的發(fā)展,很多新的學(xué)習(xí)算法被提出。可是,在一些情況下,我們想要解決某個問題,常常被一些現(xiàn)實條件所限制,例如:數(shù)據(jù)量小、標(biāo)識數(shù)據(jù)過少等。遷移學(xué)習(xí)的方法良好地解決了這一問題。遷移學(xué)習(xí)旨在利用目標(biāo)任務(wù)(待解決任務(wù))和源任務(wù)(已經(jīng)分析過的應(yīng)用場景)之間的相似性,將源任務(wù)中學(xué)習(xí)到的知識遷移到目標(biāo)任務(wù)中,以此來增強算法處理目標(biāo)任務(wù)的效果[2]。

        4.總結(jié)

        大數(shù)據(jù)環(huán)境下,數(shù)據(jù)往往只有少部分被標(biāo)識,數(shù)據(jù)形式呈現(xiàn)為大量無標(biāo)識數(shù)據(jù)和小部分有標(biāo)識數(shù)據(jù)的組合。半監(jiān)督學(xué)習(xí)高效利用了這些數(shù)據(jù),使學(xué)習(xí)性能有所提高;而隨著數(shù)據(jù)量增加,集成學(xué)習(xí)通過組合多個學(xué)習(xí)器的方式,提升了機器學(xué)習(xí)算法的泛化能力;遷移學(xué)習(xí),利用已有的學(xué)習(xí)成果,不斷積累并且衍生到未知的領(lǐng)域[5]。除此之外,大數(shù)據(jù)時代的機器學(xué)習(xí)還必須解決可擴展性的問題,這需要考慮采用并行化的方法。

        [1]張紹成,孫時光,曲洋,董宇.大數(shù)據(jù)環(huán)境下機器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].遼寧大學(xué)學(xué)報(自然科學(xué)版),2017,44(01):15-17.

        [2]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進展[J].軟件學(xué)報,2015,26(01):26-39.

        [3]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述[J].模式識別與人工智能,2014,27(04):327-336.

        [4]陳康,向勇,喻超.大數(shù)據(jù)時代機器學(xué)習(xí)的新趨勢[J].電信科學(xué),2012,28(12):88-95.

        [5]許至杰.遷移學(xué)習(xí)理論與算法研究[D].華東師范大學(xué),2012.

        [6]王麗麗.集成學(xué)習(xí)算法研究[D].廣西大學(xué),2006.

        猜你喜歡
        數(shù)據(jù)量分類器機器
        機器狗
        機器狗
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        未來機器城
        電影(2018年8期)2018-09-21 08:00:06
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        欧美肥胖老妇做爰videos| 国产一区二区在线观看av| 91精品人妻一区二区三区水蜜桃| 亚洲无av在线中文字幕| 亚洲高潮喷水无码av电影| 在线亚洲+欧美+日本专区| 一道本中文字幕在线播放| 免费久久99精品国产| 久久久国产精品黄毛片| 免费毛片在线视频| 国产啪啪视频在线观看| 日韩女同视频在线网站| 麻豆精品久久久久久久99蜜桃| 亚洲欧洲日产国码无码AV一| 日韩十八禁在线观看视频| 亚洲天堂一区av在线| 无码人妻久久一区二区三区不卡| 无码av免费永久免费永久专区| 国产精品午夜高潮呻吟久久av | 国产精品区一区二区三在线播放| 亚洲精品无码mv在线观看| 美女裸体无遮挡免费视频国产| 亚洲第一页视频在线观看 | 欧美日韩性高爱潮视频| 精品国产av一区二区三区| 国内少妇毛片视频| 亚洲a∨无码一区二区| 中文字幕一区二区三区在线视频| 亚洲最大在线视频一区二区| 亚洲日韩av无码| 2021av在线| 丝袜美腿在线播放一区二区| 国产欧美亚洲精品第一页| 豆国产95在线 | 亚洲| 成人精品国产亚洲av久久| 日韩人妻另类中文字幕| 欧美jizzhd精品欧美| 久国产精品久久精品国产四虎 | 人妻少妇-嫩草影院| 亚洲狠狠婷婷综合久久| 日本中文字幕av网址|