亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)入，智能出：機(jī)器學(xué)習(xí)管道不再神秘

2017-07-21 16:20:45SerdarYegulalp

計(jì)算機(jī)世界 2017年27期

Serdar+Yegulalp

數(shù)據(jù)加上算法等于機(jī)器學(xué)習(xí)，但是這一切是怎樣展開(kāi)的呢？讓我們打開(kāi)蓋子，徹底搞清楚這些碎片是怎么拼在一起的。

把機(jī)器學(xué)習(xí)看成是一個(gè)魔術(shù)黑箱是比較貼切的。進(jìn)去的是數(shù)據(jù)；而出來(lái)的是預(yù)測(cè)。但是在這里沒(méi)有什么魔法——只是數(shù)據(jù)和算法，以及通過(guò)算法處理數(shù)據(jù)所創(chuàng)建的模型。

如果您通過(guò)機(jī)器學(xué)習(xí)從數(shù)據(jù)中得出可操作的深度分析，那么就能搞清楚黑箱里面到底有什么。您越清楚箱子里到底有什么，就會(huì)越了解數(shù)據(jù)怎樣轉(zhuǎn)化為預(yù)測(cè)這一過(guò)程的每一步，您的預(yù)測(cè)就會(huì)越強(qiáng)大。

開(kāi)發(fā)人員所說(shuō)的“構(gòu)建管道”是描述軟件是怎樣從源代碼到部署實(shí)現(xiàn)的。當(dāng)數(shù)據(jù)流過(guò)機(jī)器學(xué)習(xí)解決方案時(shí)，也會(huì)有一條管道。掌握管道怎樣匯集到一起是從內(nèi)向外了解機(jī)器學(xué)習(xí)本身一種有效的方法。

但是如果使用流數(shù)據(jù)，對(duì)于怎樣從數(shù)據(jù)中生成模型和結(jié)果，您可以有兩個(gè)選擇。第一個(gè)選擇是將數(shù)據(jù)保存在某個(gè)地方——數(shù)據(jù)庫(kù)或數(shù)據(jù)湖，并在以后進(jìn)行分析。第二個(gè)選擇是在流數(shù)據(jù)輸入時(shí)對(duì)模型進(jìn)行訓(xùn)練。

流數(shù)據(jù)的訓(xùn)練也有兩種形式，機(jī)器學(xué)習(xí)解決方案提供商BigML的Charles Parker對(duì)此進(jìn)行了描述。一種情形是您在模型上應(yīng)用最新的數(shù)據(jù)流進(jìn)行預(yù)測(cè)，但是您并未調(diào)整底層模型。另一種情形是您獲取的數(shù)據(jù)需要經(jīng)常用來(lái)訓(xùn)練全新的模型，因?yàn)槔系臄?shù)據(jù)并不相關(guān)。

這就是為什么盡早選擇算法是很重要的原因所在。一些算法支持增量再訓(xùn)練，而其他算法必須從頭開(kāi)始采用新數(shù)據(jù)重新訓(xùn)練。如果您一直在為自己的模型提供新數(shù)據(jù)，需要經(jīng)常再訓(xùn)練，那么您會(huì)希望使用支持增量再訓(xùn)練的算法。例如，Spark Streaming支持這類(lèi)增量再訓(xùn)練。

機(jī)器學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備

一旦您擁有了用于訓(xùn)練的一個(gè)數(shù)據(jù)源，下一步是確定它可以用于訓(xùn)練。描述所使用數(shù)據(jù)的一致性最合適的術(shù)語(yǔ)是規(guī)范化。

現(xiàn)實(shí)世界的數(shù)據(jù)會(huì)有很多噪聲。如果它來(lái)自數(shù)據(jù)庫(kù)，那么在那里會(huì)自動(dòng)進(jìn)行一定程度的規(guī)范化。但是很多機(jī)器學(xué)習(xí)應(yīng)用程序也可能從數(shù)據(jù)湖或者其他異構(gòu)源直接提取數(shù)據(jù)，如果是用于生產(chǎn)目的，它們的數(shù)據(jù)不一定要進(jìn)行規(guī)范化。

《Python機(jī)器學(xué)習(xí)》的作者Sebastian Raschka在書(shū)中詳細(xì)介紹了規(guī)范化，以及怎樣針對(duì)某些常見(jiàn)類(lèi)型的數(shù)據(jù)集進(jìn)行操作。他使用的例子是以Python為主的，但基本概念是通用的。

是不是總是要進(jìn)行規(guī)范化呢？麻省理工學(xué)院人工智能博士生Franck Dernoncourt在詳細(xì)討論堆棧溢出時(shí)指出，不總是。但正如他所說(shuō)的，“不會(huì)有太大問(wèn)題”。他認(rèn)為，重要的是應(yīng)用情形。對(duì)于人工神經(jīng)網(wǎng)絡(luò)，不一定需要規(guī)范化，但也是有用的；對(duì)于像K-means聚類(lèi)等算法，歸一化是非常重要的。

《從數(shù)據(jù)中學(xué)習(xí)》一書(shū)的作者之一Malik Magdon-Ismail認(rèn)為，當(dāng)“數(shù)據(jù)規(guī)模太大”的時(shí)候，規(guī)范化就不是一個(gè)好主意了。一個(gè)例子：“在信貸審批中，如果要求收入是債務(wù)的兩倍，那么收入兩倍于債務(wù)是恰當(dāng)?shù)??！?/p>

在數(shù)據(jù)錄入和準(zhǔn)備階段還要注意的是，怎樣通過(guò)數(shù)據(jù)以及規(guī)范化后的數(shù)據(jù)，將偏差引入模型。機(jī)器學(xué)習(xí)中的偏差會(huì)產(chǎn)生實(shí)際的后果；這有助于知道怎樣找到并消除可能存在的這種偏差。不要認(rèn)為干凈（可讀、一致）的數(shù)據(jù)是沒(méi)有偏差的數(shù)據(jù)。

訓(xùn)練機(jī)器學(xué)習(xí)模型

一旦建立了數(shù)據(jù)集，接下來(lái)就是訓(xùn)練過(guò)程，數(shù)據(jù)被用于生成可以進(jìn)行預(yù)測(cè)的模型。

我之前提到的預(yù)測(cè)工作類(lèi)型和使用的算法種類(lèi)在這里很重要，具體取決于您是需要在批量數(shù)據(jù)上一次完成全部訓(xùn)練的模型，還是需要逐漸進(jìn)行再訓(xùn)練的模型。而訓(xùn)練模型的另一個(gè)關(guān)鍵因素是怎樣調(diào)整訓(xùn)練以提高最終模型的精度——所謂的超參數(shù)化。

用于機(jī)器學(xué)習(xí)模型的超參數(shù)是控制怎樣從算法生成最終模型的一些設(shè)置。例如，K-means聚類(lèi)算法以某種方式，根據(jù)彼此相似程度把數(shù)據(jù)組織成組。因此，K-means算法的一個(gè)超參數(shù)會(huì)是要搜索的聚類(lèi)的數(shù)量。

通常，超參數(shù)的最佳選擇來(lái)自于該算法的經(jīng)驗(yàn)。有時(shí)，您需要嘗試一些變化，看看哪些可以為您的問(wèn)題集產(chǎn)生可行的結(jié)果。也就是說(shuō)，對(duì)于某些算法實(shí)現(xiàn)，可以自動(dòng)調(diào)整超參數(shù)。例如，用于機(jī)器學(xué)習(xí)的Ray體系架構(gòu)具有超參數(shù)優(yōu)化功能。

用于模型訓(xùn)練的很多庫(kù)可以利用并行特性，通過(guò)把訓(xùn)練過(guò)程分布在多個(gè)CPU、GPU或者節(jié)點(diǎn)上來(lái)加速訓(xùn)練過(guò)程。如果您能夠訪問(wèn)硬件，并行進(jìn)行訓(xùn)練，那么請(qǐng)使用它。每增加一臺(tái)計(jì)算設(shè)備，通常都能夠以接近線性的方式進(jìn)行加速。

用于進(jìn)行訓(xùn)練的機(jī)器學(xué)習(xí)體系架構(gòu)支持并行訓(xùn)練。例如，MXNet庫(kù)可以讓您并行訓(xùn)練模型。MXNet也支持并行訓(xùn)練的兩種關(guān)鍵方法——數(shù)據(jù)并行和模型并行。

谷歌大腦團(tuán)隊(duì)成員Alex Krizhevsky在一篇關(guān)于并行化網(wǎng)絡(luò)訓(xùn)練的論文中解釋了數(shù)據(jù)并行與模型并行之間的差異。采用數(shù)據(jù)并行，“不同的員工在不同的數(shù)據(jù)實(shí)例上訓(xùn)練[模型] ...但是必須同步模型參數(shù)（或者參數(shù)梯度），以確保他們訓(xùn)練一致的模型?！睋Q句話說(shuō)，您把數(shù)據(jù)拆分到多個(gè)設(shè)備上進(jìn)行訓(xùn)練，但必須確保生成的模型彼此保持同步。

采用模型并行，“不同的員工訓(xùn)練模型的不同部分”，但是當(dāng)“由一個(gè)員工訓(xùn)練的模型部分需要由另一個(gè)員工訓(xùn)練的模型部分輸出”時(shí)，員工必須保持同步。當(dāng)訓(xùn)練模型具有彼此互相輸入的多個(gè)層（例如遞歸神經(jīng)網(wǎng)絡(luò)）時(shí)，通常使用該方法。

應(yīng)學(xué)習(xí)怎樣使用這兩種方法來(lái)組裝管道，因?yàn)楹芏囿w系架構(gòu)現(xiàn)在都支持這些方法，例如Torch體系架構(gòu)。

部署機(jī)器學(xué)習(xí)模型

正如Gilbert在“機(jī)器學(xué)習(xí)管道：構(gòu)建模塊的中國(guó)菜單”文章中所述，管道的最后一個(gè)階段是部署經(jīng)過(guò)訓(xùn)練的模型，即“預(yù)測(cè)和服務(wù)”階段。在這里，針對(duì)輸入數(shù)據(jù)運(yùn)行經(jīng)過(guò)訓(xùn)練的模型，以產(chǎn)生預(yù)測(cè)。例如，對(duì)于面部識(shí)別系統(tǒng)，輸入數(shù)據(jù)可以是頭像或自拍照片，從別的臉部照片衍生的模型進(jìn)行預(yù)測(cè)。

在哪里以及怎樣進(jìn)行這種預(yù)測(cè)構(gòu)成了管道的另一部分。最常見(jiàn)的情形是通過(guò)RESTful API從云實(shí)例中提供預(yù)測(cè)。云服務(wù)的所有明顯優(yōu)勢(shì)都體現(xiàn)在這里。例如，您可以調(diào)出更多的實(shí)例來(lái)滿(mǎn)足需求。

采用云托管模型，您還可以將更多的管道保留在同一個(gè)地方——訓(xùn)練數(shù)據(jù)、訓(xùn)練過(guò)的模型和預(yù)測(cè)基礎(chǔ)設(shè)施等。您不必四處移動(dòng)數(shù)據(jù)，所以一切都更快。能夠更快的完成模型的增量再訓(xùn)練，因?yàn)槟Ｐ涂梢栽谙嗤沫h(huán)境中進(jìn)行再訓(xùn)練和部署。

但是，有時(shí)可以在客戶(hù)端部署模型并從那里提供預(yù)測(cè)。這種方法比較好的應(yīng)用是在移動(dòng)領(lǐng)域，這一應(yīng)用領(lǐng)域的帶寬是非常重要的，適用于網(wǎng)絡(luò)連接不能保證或者不可靠的應(yīng)用。

值得注意的是，在本地機(jī)器上進(jìn)行預(yù)測(cè)的質(zhì)量可能不高。由于本地存儲(chǔ)限制，所部署的模型規(guī)模可能較小，這會(huì)影響預(yù)測(cè)質(zhì)量。在智能手機(jī)等適合的設(shè)備上部署高精度模型變得越來(lái)越可行，這主要是通過(guò)稍微犧牲一些精度，以提高速度來(lái)實(shí)現(xiàn)的。有必要看一看存在問(wèn)題的應(yīng)用程序，看看能否更好地在客戶(hù)端上部署經(jīng)過(guò)訓(xùn)練的模型，并定期刷新它，而不是通過(guò)遠(yuǎn)程API訪問(wèn)它。

還有另一種障礙：由于您可以在很多地方部署模型，因此，部署過(guò)程可能會(huì)很復(fù)雜。除非是逐個(gè)的部署應(yīng)用程序，否則，從任何一個(gè)受過(guò)訓(xùn)練的模型到任何一個(gè)目標(biāo)硬件、操作系統(tǒng)或者應(yīng)用程序，都不會(huì)有一致的路徑。盡管有越來(lái)越多的使用某種機(jī)器學(xué)習(xí)模型開(kāi)發(fā)應(yīng)用程序的實(shí)踐活動(dòng)，但是要找到一致的部署渠道還是有很大的壓力，這種復(fù)雜性并不會(huì)很快消失。

機(jī)器學(xué)習(xí)管道并不是真正的管道

管道這一術(shù)語(yǔ)意味著從一端單向流動(dòng)到另一端。在實(shí)際中，這種流動(dòng)是有周期性的：數(shù)據(jù)進(jìn)入，用于訓(xùn)練模型，然后隨著新數(shù)據(jù)的輸入，數(shù)據(jù)條件隨之發(fā)生變化，對(duì)模型的準(zhǔn)確性進(jìn)行評(píng)估和再訓(xùn)練。

除了機(jī)器學(xué)習(xí)管道，除了需要專(zhuān)門(mén)關(guān)注的各個(gè)部分之外，現(xiàn)在我們沒(méi)有太多的選擇。不是因?yàn)槊總€(gè)階段有不同的功能，而是因?yàn)樗薪M成部分的端到端集成方式還很少。換句話說(shuō)，并沒(méi)有管道，只是我們自己認(rèn)為是管道的一系列活動(dòng)。

但是項(xiàng)目正在匯集在一起，以滿(mǎn)足實(shí)際管道這一需求。例如，Hadoop供應(yīng)商MapR有自己的“分布式深度學(xué)習(xí)快速入門(mén)解決方案”——把六節(jié)點(diǎn)一年許可的MapR Hadoop發(fā)行版，提供CPU/GPU支持的集成神經(jīng)網(wǎng)絡(luò)庫(kù)，以及專(zhuān)業(yè)咨詢(xún)服務(wù)結(jié)合在了一起。

理想的解決方案將是一個(gè)完整的開(kāi)源設(shè)計(jì)模式，涵蓋管道的每個(gè)階段，并提供與現(xiàn)有軟件連續(xù)交付系統(tǒng)的無(wú)縫體驗(yàn)。換句話說(shuō)，像Wikibon的Gilbert所說(shuō)的那樣，它構(gòu)成了“數(shù)據(jù)科學(xué)家的工具”。百度已經(jīng)宣布正在為數(shù)據(jù)科學(xué)家尋找一種開(kāi)發(fā)工具，其中，Kubernetes是主要因素（MapR還用于協(xié)調(diào)其系統(tǒng)中節(jié)點(diǎn)間的工作），但是還沒(méi)有具體的實(shí)現(xiàn)。

在那一天到來(lái)之前，我們必須安排好由內(nèi)而外的學(xué)習(xí)管道的方方面面。

Serdar Yegulalp是InfoWorld的資深作家，主要工作是InfoWorld技術(shù)觀察新聞分析博客和定期評(píng)論。

原文網(wǎng)址：

http：//www.infoworld.com/article/3198252/artificial-intelligence/data-in-intelligence-out-machine-learning-pipelines-demystified.html