Joel Young
隨著人工智能越來(lái)越普及,組織機(jī)構(gòu)必須要讓開(kāi)發(fā)人員更容易釋放人工智能的潛能。
在業(yè)務(wù)用例和垂直行業(yè)中,工程師和領(lǐng)導(dǎo)者正在持續(xù)討論人工智能可以帶來(lái)的價(jià)值——通常,這樣的機(jī)遇似乎無(wú)窮無(wú)盡。它們可以預(yù)測(cè)你的興趣、你認(rèn)識(shí)的人或你的下一份工作。
但是,我們時(shí)常會(huì)忽略執(zhí)行大型人工智能驅(qū)動(dòng)系統(tǒng)時(shí)所必須采取的步驟。人工智能的部署在人才、計(jì)算資源和時(shí)間方面成本高昂。然而要充分釋放人工智能創(chuàng)新浪潮的潛力,開(kāi)發(fā)人員必須得到適當(dāng)?shù)氖跈?quán)和工具。事實(shí)上,成功實(shí)施人工智能所需的許多關(guān)鍵要素與算法細(xì)節(jié)關(guān)系不大,更多的是與之相關(guān)的工具和流程。
其中一些工具和流程是標(biāo)準(zhǔn)化中最常用的工作流程。它們可以像帶有常見(jiàn)功能的電子表格那樣簡(jiǎn)單,也可以像完整的人工智能開(kāi)發(fā)人員平臺(tái)那樣復(fù)雜。當(dāng)我們?cè)贚inkedIn上拓展我們的人工智能時(shí),我們逐漸選擇了后者,創(chuàng)建了我們自己的“生產(chǎn)機(jī)器學(xué)習(xí)”(簡(jiǎn)稱“Pro-ML”)計(jì)劃,以提高開(kāi)發(fā)人員的工作效率。
以下是我們?cè)谌斯ぶ悄芄ぷ髦蟹e累一些要點(diǎn)和提示。這些要點(diǎn)和提示對(duì)任何組織機(jī)構(gòu)都是有益的。
清理數(shù)據(jù),讓洞察更加智能
部署人工智能的先決條件是要徹底了解自己的數(shù)據(jù)。人工智能模型的性能與其訓(xùn)練數(shù)據(jù)有著緊密的內(nèi)在聯(lián)系,因此清楚自己需要使用干凈的數(shù)據(jù)這一點(diǎn)非常重要。然后,在選擇要用于培訓(xùn)的數(shù)據(jù)集時(shí),與業(yè)務(wù)合作伙伴協(xié)作以了解最終業(yè)務(wù)目標(biāo)是有幫助的。例如,如果你想通過(guò)新聞Feed“增加參與度”,那么你是否是通過(guò)文章和帖子的點(diǎn)擊率,或者對(duì)帖子的“點(diǎn)贊”或評(píng)論來(lái)衡量的呢?通過(guò)共同確定能夠支持明確業(yè)務(wù)目標(biāo)的最佳數(shù)據(jù),你可以設(shè)計(jì)出更有效的模型。
選擇訓(xùn)練數(shù)據(jù)時(shí)要考慮的另一個(gè)因素是如何標(biāo)記。數(shù)據(jù)是否有足夠的上下文直接輸入模型,還是需要注釋?zhuān)烤秃笳叨?,?chuàng)建“代碼簿”或“運(yùn)行手冊(cè)”非常重要,因?yàn)樗鼈儠?huì)為數(shù)據(jù)的分類(lèi)方式設(shè)定標(biāo)準(zhǔn)。我曾經(jīng)與一組專(zhuān)家展開(kāi)合作,嘗試著尋求手工標(biāo)記數(shù)據(jù)集,但是在我們?cè)u(píng)估成品時(shí),我們意識(shí)到他們之間的一致率低于0.2。這意味著專(zhuān)家們對(duì)注釋完全有著自己不同的意見(jiàn),因此我們也沒(méi)有理由期望使用這些數(shù)據(jù)進(jìn)行訓(xùn)練的模型將會(huì)有令人滿意的表現(xiàn)。如果專(zhuān)家無(wú)法就如何標(biāo)記數(shù)據(jù)達(dá)成一致意見(jiàn),那么指望CrowdFlower公司(現(xiàn)在更名為Figure Eight公司)這樣的注釋服務(wù)能夠有效地進(jìn)行標(biāo)記也是不現(xiàn)實(shí)的。
關(guān)鍵點(diǎn):非常清晰地預(yù)先確定數(shù)據(jù)標(biāo)簽標(biāo)準(zhǔn)可以消除歧義和棘手問(wèn)題。
將功能標(biāo)準(zhǔn)化并讓其具有可重復(fù)性
在LinkedIn的不同產(chǎn)品線中,不同的團(tuán)隊(duì)正在使用人工智能來(lái)解決不同的問(wèn)題(如優(yōu)化信息、確定應(yīng)聘人員的適合度,并為今后的職業(yè)選擇提供建議課程等)。每個(gè)團(tuán)隊(duì)會(huì)使用不同的管道讓機(jī)器學(xué)習(xí)模型生成自己需要的功能,因?yàn)槊總€(gè)用例都是不同的。然而,在這些團(tuán)隊(duì)中許多功能又是非常相似的,因此我決定必須簡(jiǎn)化流程。
為此我們創(chuàng)建了功能市場(chǎng)Frame,通過(guò)讓團(tuán)隊(duì)利用現(xiàn)有功能和知識(shí)的方式幫助解決此問(wèn)題。Frame充當(dāng)一個(gè)公共存儲(chǔ)庫(kù),供團(tuán)隊(duì)共享、查找和管理各自機(jī)器學(xué)習(xí)模型的功能。其允許所有團(tuán)隊(duì)從同一標(biāo)準(zhǔn)化功能模板開(kāi)始,然后根據(jù)特定管道或環(huán)境的需要進(jìn)一步定制。當(dāng)團(tuán)隊(duì)處理不同類(lèi)型的項(xiàng)目時(shí),F(xiàn)rame市場(chǎng)可以防止重復(fù)工作,節(jié)省時(shí)間和資源。
積極進(jìn)行模型維護(hù)
模型會(huì)隨著時(shí)間而退化,這是機(jī)器學(xué)習(xí)生命周期中不可避免的一部分。我們通過(guò)積極主動(dòng)的模型維護(hù)方法在LinkedIn上克服了這個(gè)問(wèn)題。從一開(kāi)始,當(dāng)我們建立模型時(shí),我們就采用了能夠讓再訓(xùn)練更容易實(shí)現(xiàn)的方式來(lái)做這項(xiàng)工作。我們創(chuàng)建和測(cè)試的模型并不是一次性的,而是具有生產(chǎn)級(jí)品質(zhì)且可進(jìn)行代碼審查的產(chǎn)品。當(dāng)重新訓(xùn)練模型的時(shí)候,我們會(huì)繼續(xù)貫徹讓訓(xùn)練變得更容易這一理念。
此外,我們還為重新訓(xùn)練模型時(shí)制定了一個(gè)固定的時(shí)間表,以進(jìn)行“預(yù)定的再培訓(xùn)”。這樣有助于消除建模團(tuán)隊(duì)的一些認(rèn)知負(fù)擔(dān),同時(shí)確保能夠在模型完全停止工作之前發(fā)現(xiàn)所有的模型缺陷。同時(shí),我們還投資開(kāi)發(fā)了性能監(jiān)測(cè)工具以確保模型始終處于健康狀態(tài)。任何程度的監(jiān)控都比沒(méi)有監(jiān)控要強(qiáng)。能夠在某些指標(biāo)超過(guò)預(yù)設(shè)閾值時(shí)發(fā)送警報(bào)的自動(dòng)監(jiān)控?zé)o疑會(huì)推動(dòng)整個(gè)系統(tǒng)向著我們期望的目標(biāo)又邁進(jìn)了一步。
實(shí)施人工智能部署可能只需要某些組件,如GPU、模型、數(shù)據(jù)等,但是在一個(gè)大型組織機(jī)構(gòu)中成功部署人工智能需要一個(gè)強(qiáng)大的支持工具包,以為開(kāi)發(fā)人員提供支持。通過(guò)為開(kāi)發(fā)人員配備人工智能最佳實(shí)踐和工具,我們也在不斷提升我們以最佳方式應(yīng)用人工智能的能力。
本文作者Joel Young為L(zhǎng)inkedIn公司負(fù)責(zé)機(jī)器學(xué)習(xí)基礎(chǔ)架構(gòu)團(tuán)隊(duì)的主管。
原文網(wǎng)址
https://www.infoworld.com/article/3401080/tips-for-building-an-effective-ai-ecosystem.html