亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        制定機器學(xué)習(xí)訓(xùn)練數(shù)據(jù)策略的6個技巧

        2019-09-10 03:20:29宋茜
        計算機與網(wǎng)絡(luò) 2019年19期
        關(guān)鍵詞:解決方案策略質(zhì)量

        宋茜

        人工智能(AI)和機器學(xué)習(xí)(ML)如今已經(jīng)十分常見。AI指的是機器模仿人類進(jìn)行認(rèn)知的概念,ML是一種用于構(gòu)建AI的方法。如果AI是指計算機可以根據(jù)指令執(zhí)行一組任務(wù),那么ML就是機器從數(shù)據(jù)中攝取、解析和學(xué)習(xí)的能力,以便更精確地完成任務(wù)。

        汽車、金融、政府、醫(yī)療、零售和科技等行業(yè)的大部分管理者都已經(jīng)對ML和AI有了基本的了解。不過,并非每個人都是一個制定訓(xùn)練數(shù)據(jù)策略的專家,但這往往是實現(xiàn)ML高投資回報必要的第一步。

        AI系統(tǒng)通過實例來學(xué)習(xí),它們擁有的高質(zhì)量實例數(shù)據(jù)越多,就會學(xué)得越好。缺乏或只有低質(zhì)量的訓(xùn)練數(shù)據(jù)可能會生成不可靠的系統(tǒng),得出錯誤的結(jié)論、做出糟糕的決策或無法處理現(xiàn)實世界的變化,并引入或延續(xù)一些如偏見等問題。

        如果沒有一個良好定義的策略來收集和組織進(jìn)行訓(xùn)練、測試和優(yōu)化AI系統(tǒng)的數(shù)據(jù),將面臨項目延遲、無法適當(dāng)擴展以及被競爭對手超過的風(fēng)險。下面是構(gòu)建一個成功訓(xùn)練數(shù)據(jù)策略的6個技巧。

        1制定訓(xùn)練數(shù)據(jù)預(yù)算

        當(dāng)啟動一個新的ML項目時,首先需定義要實現(xiàn)的目標(biāo)。這會讓你知道,系統(tǒng)中需要哪種類型的數(shù)據(jù),以及需要多少“訓(xùn)練項”(已分類的數(shù)據(jù)點)。

        例如,計算機視覺或圖像識別項目的訓(xùn)練項目,使用人工注釋標(biāo)記的圖像數(shù)據(jù),用于識別圖像的內(nèi)容(樹、停車標(biāo)志、人和車等)。此外,根據(jù)正在構(gòu)建的解決方案的類型,模型可能需要不斷地重新培訓(xùn)或刷新,解決方案可能需要每季度、每月甚至每周進(jìn)行更新。

        一旦確定了訓(xùn)練項目和更新頻率,就可以評估關(guān)于采購數(shù)據(jù)的一些選項,并計算預(yù)算。

        重要的是應(yīng)清楚地了解啟動該計劃所需的時間和資金成本,隨著時間的推移對其進(jìn)行維護(hù),并隨著業(yè)務(wù)的發(fā)展對特性和功能進(jìn)行改進(jìn),從而使解決方案對客戶保持相關(guān)性和價值性。啟動ML計劃是一項長期投資。獲得高回報需要一個長期的策略。

        2收集適當(dāng)?shù)臄?shù)據(jù)

        需要的數(shù)據(jù)類型取決于正在構(gòu)建的解決方案類型。一些數(shù)據(jù)來源包括實際使用數(shù)據(jù)、調(diào)查數(shù)據(jù)、公共數(shù)據(jù)集和合成數(shù)據(jù)。例如,一個能夠理解人類語音命令的語音識別解決方案必須針對已翻譯成文本的高質(zhì)量語音數(shù)據(jù)(實際數(shù)據(jù))進(jìn)行培訓(xùn)。搜索解決方案需要由人工注釋的文本數(shù)據(jù)來告訴它哪些結(jié)果是最相關(guān)的。

        ML中最常用的數(shù)據(jù)類型是圖像、視頻、語音、音頻和文本。在用于ML之前,必須對訓(xùn)練數(shù)據(jù)進(jìn)行注釋或標(biāo)記,以確定它們是什么。注釋可以告訴模型如何處理每段數(shù)據(jù)。例如,如果一個虛擬助理的一條訓(xùn)練數(shù)據(jù)是某個人的錄音“多訂購一點AA電池”,注釋可能會告訴系統(tǒng)在聽到“訂購”時,與某個在線零售商處下個訂單,在聽到“AA電池”時搜索“AA電池”。

        3保證數(shù)據(jù)質(zhì)量

        根據(jù)任務(wù)的不同,數(shù)據(jù)注釋可能是一項相對簡單的活動,但是它也是重復(fù)的、耗時的,并且很難始終正確地執(zhí)行,它需要人的介入。

        低數(shù)據(jù)質(zhì)量帶來的風(fēng)險很高,因為如果根據(jù)不準(zhǔn)確的數(shù)據(jù)訓(xùn)練模型,那么模型將會做錯誤的事情。例如,如果訓(xùn)練一個自動駕駛汽車的計算機視覺系統(tǒng),將人行道的圖像錯誤地標(biāo)記為街道,結(jié)果可能是災(zāi)難性的。事實上,糟糕的數(shù)據(jù)質(zhì)量,是阻止ML廣泛且有效使用的頭號敵人。

        當(dāng)討論數(shù)據(jù)質(zhì)量時,我們談?wù)摰氖菢?biāo)簽的準(zhǔn)確性和一致性。準(zhǔn)確是一個標(biāo)簽距離事實有多近;一致性是不同訓(xùn)練項目上的多個注釋彼此一致的程度。

        4注意并減少數(shù)據(jù)偏差

        強調(diào)數(shù)據(jù)質(zhì)量有助于公司減輕AI項目中的偏見,這些偏見可能會隱藏起來,直到基于人工智能的解決方案進(jìn)入市場。在這一點上,偏見可能很難糾正。

        偏見通常來自項目開始時項目團(tuán)隊或培訓(xùn)數(shù)據(jù)中的盲點或無意識的偏好。AI中的偏見可以表現(xiàn)為不同性別、口音或種族的語音或面部識別表現(xiàn)不均勻。隨著AI在我們的文化中變得越來越普遍,現(xiàn)在是時候解決內(nèi)在的偏見了。

        為了避免項目級別的偏見,在建設(shè)定義目標(biāo)、路線圖、度量和算法團(tuán)隊時需要積極保證多樣性。建設(shè)一個多樣化的數(shù)據(jù)人才團(tuán)隊說起來容易做起來難,但風(fēng)險很高。如果團(tuán)隊的內(nèi)部構(gòu)成不代表潛在客戶的外部構(gòu)成,那么最終產(chǎn)品將會有只是為一小部分人工作的風(fēng)險,或者對他們有吸引力,而錯過了一個面向大眾市場的機會,或者更糟———偏見可能讓AI具備現(xiàn)實世界中的歧視。

        5實施數(shù)據(jù)安全保障

        并非每個數(shù)據(jù)項目都使用個人身份信息(PII)或者敏感數(shù)據(jù)。對于利用這類信息的解決方案,數(shù)據(jù)安全性比以往任何時候都更重要,特別是在處理客戶的PII、財務(wù)、政府記錄或者用戶生成的內(nèi)容時。越來越多的法規(guī)規(guī)定企業(yè)必須怎樣處理客戶信息。

        保護(hù)這些機密數(shù)據(jù)可以保護(hù)你和你的客戶的信息。對實踐保持透明和道德準(zhǔn)則,并堅持服務(wù)條款,這將帶來競爭優(yōu)勢。不這樣做會面臨丑聞和品牌負(fù)面影響的風(fēng)險。

        6選擇合適的技術(shù)

        訓(xùn)練數(shù)據(jù)越復(fù)雜或微妙,結(jié)果就越好。大多數(shù)組織都需要大量高質(zhì)量、快速且大規(guī)模的訓(xùn)練數(shù)據(jù)。為了實現(xiàn)這一點,必須構(gòu)建一個數(shù)據(jù)渠道,以更新模型所需的速度、交付足夠的數(shù)據(jù)量。這就是為什么,采用正確的數(shù)據(jù)注釋技術(shù)至關(guān)重要。

        選擇的工具必須能夠為項目處理適當(dāng)?shù)臄?shù)據(jù)類型,允許靈活的標(biāo)記工作流設(shè)計,可管理單個注釋器的質(zhì)量和吞吐量,并提供ML輔助的數(shù)據(jù)標(biāo)記來增強人工注釋器的性能。

        IHS Markit的研究顯示,87 %的組織正在采用至少一種形式的變革性技術(shù),比如人工智能,但只有26 %的組織認(rèn)為已經(jīng)具備了適當(dāng)?shù)纳虡I(yè)模式,可以從這些技術(shù)中獲取全部價值。

        創(chuàng)建一個可靠的訓(xùn)練數(shù)據(jù)策略是獲取AI價值的第一步。包括設(shè)置預(yù)算、確定數(shù)據(jù)源、確保質(zhì)量和保證安全性。清晰的數(shù)據(jù)策略還有助于提供大多數(shù)ML模型定期更新所需的穩(wěn)定數(shù)據(jù)渠道。單獨的訓(xùn)練數(shù)據(jù)策略并不能保證AI的成功,但它可以幫助企業(yè)更好地利用AI帶來的紅利。

        猜你喜歡
        解決方案策略質(zhì)量
        “質(zhì)量”知識鞏固
        解決方案和折中方案
        質(zhì)量守恒定律考什么
        例談未知角三角函數(shù)值的求解策略
        簡潔又輕松的Soundbar環(huán)繞聲解決方案
        我說你做講策略
        做夢導(dǎo)致睡眠質(zhì)量差嗎
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        質(zhì)量投訴超六成
        汽車觀察(2016年3期)2016-02-28 13:16:26
        4G LTE室內(nèi)覆蓋解決方案探討
        女同另类激情在线三区| 成人久久久久久久久久久| 亚洲精品夜夜夜| 国产精品不卡无码AV在线播放| 国产少妇高潮在线视频| 狠狠色丁香婷婷综合潮喷| 天堂8中文在线最新版在线| 国产a级精精彩大片免费看| 中文亚洲第一av一区二区| 国模gogo无码人体啪啪| 99香蕉国产精品偷在线观看| 欧美性一区| 亚洲av色香蕉一区二区三区av| 久久久亚洲欧洲日产国码二区| 激情内射亚州一区二区三区爱妻 | 国产精品国三级国产av| 又爽又黄禁片视频1000免费| 人妻无码AⅤ中文系列久久免费| 久久久精品亚洲人与狗| 国产成人综合亚洲看片| 日本色噜噜| 99国产精品欲av麻豆在线观看| 人妻av有码中文字幕| 性生交大全免费看| 国产小屁孩cao大人免费视频| 久久精品一区一区二区乱码| 亚洲精品国产成人片| 99re久久精品国产| 中文字幕乱码av在线| 国产精品午夜夜伦鲁鲁| 熟妇丰满多毛的大隂户| 亚洲最大无码AV网站观看| 三级网站亚洲三级一区| 97碰碰碰人妻无码视频| 久久艹影院| 青青草伊人视频在线观看| 国产成人久久精品一区二区三区| 四川少妇大战4黑人| 美女极度色诱视频国产免费| 亚洲网站一区在线播放| 久久久久亚洲av片无码下载蜜桃|