Bob Violino
機(jī)器學(xué)習(xí)到底能做些什么?
我們將介紹適合你的各種方法和技巧。
機(jī)器學(xué)習(xí)對(duì)你來說可能已經(jīng)如雷貫耳了,它是人工智能的一個(gè)子集。而機(jī)器學(xué)習(xí)到底能做些什么呢?
該技術(shù)包括很多方法和技巧,每種方法和技巧都有一些很好的應(yīng)用情形。企業(yè)在計(jì)劃投資機(jī)器學(xué)習(xí)工具和基礎(chǔ)設(shè)施之前,最好先詳細(xì)了解一下它們。
監(jiān)督式學(xué)習(xí)
如果你知道想要機(jī)器去學(xué)習(xí)什么,那么監(jiān)督式學(xué)習(xí)是理想的選擇。你可以喂給它大量的訓(xùn)練數(shù)據(jù),檢查輸出并調(diào)整參數(shù),直到獲得預(yù)期的結(jié)果。隨后,可以通過讓機(jī)器從一組以前從未見過的驗(yàn)證數(shù)據(jù)中能預(yù)測(cè)出什么結(jié)果,來檢查機(jī)器學(xué)到了什么。
最常見的監(jiān)督式學(xué)習(xí)任務(wù)包括分類和預(yù)測(cè),即“回歸”。
監(jiān)督式學(xué)習(xí)方法可以用于根據(jù)過去有關(guān)財(cái)務(wù)業(yè)績(jī)的信息來確定個(gè)人和企業(yè)的財(cái)務(wù)風(fēng)險(xiǎn)?;谝郧暗男袨槟J剑@種方法能很好地了解客戶的行為方式以及他們的偏好。
例如,網(wǎng)絡(luò)貸款市場(chǎng)Lending Tree公司的戰(zhàn)略和分析副總裁兼主任Akshay Tandon介紹說,該公司正在使用來自DataRobot的自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)來為其客戶定制體驗(yàn),并基于他們過去的行為來預(yù)測(cè)客戶的意圖。
通過預(yù)測(cè)客戶意圖——主要是通過案源計(jì)分(lead scoring),Lending Tree公司能夠區(qū)分出誰只是在看看利率,而誰實(shí)際上是想要貸款,并準(zhǔn)備申請(qǐng)貸款。使用監(jiān)督式學(xué)習(xí)技術(shù),它建立了一種分類模型來定義案源結(jié)束的概率。
無監(jiān)督式學(xué)習(xí)
無監(jiān)督式學(xué)習(xí)使得機(jī)器能夠研究數(shù)據(jù)集并識(shí)別鏈接不同變量的隱藏模式。這種方法可以用于僅根據(jù)數(shù)據(jù)的統(tǒng)計(jì)特性把數(shù)據(jù)分組到聚類中。
無監(jiān)督式學(xué)習(xí)一種很好的應(yīng)用,是用于執(zhí)行概率記錄鏈接的聚類算法,這種技術(shù)提取數(shù)據(jù)元素之間的鏈接,并在其基礎(chǔ)上識(shí)別個(gè)人和企業(yè)以及他們?cè)谖锢砗吞摂M世界中的連接關(guān)系。
LexisNexis風(fēng)險(xiǎn)解決方案公司利用分析技術(shù)來幫助客戶預(yù)測(cè)和管理風(fēng)險(xiǎn),該公司技術(shù)副總裁Flavio Villanustre介紹說,如果企業(yè)需要集成來自不同源和/或跨不同業(yè)務(wù)部門的數(shù)據(jù),以便為客戶建立一致和全面的視圖,那么這種技術(shù)尤其有用。
咨詢公司劍橋咨詢(Cambridge Consultants)的機(jī)器學(xué)習(xí)專家Sally Epstein解釋說,無監(jiān)督式學(xué)習(xí)可以用于情緒分析,能夠根據(jù)個(gè)人在社交媒體上的帖子、電子郵件或者其他書面反饋來識(shí)別個(gè)人的情緒狀態(tài)。該公司看到越來越多的金融服務(wù)企業(yè)使用無監(jiān)督式學(xué)習(xí)來深入了解客戶滿意度。
半監(jiān)督式學(xué)習(xí)
半監(jiān)督式學(xué)習(xí)混合了監(jiān)督式和無監(jiān)督式學(xué)習(xí)。通過標(biāo)記一小部分?jǐn)?shù)據(jù),訓(xùn)練者給機(jī)器提供一些線索,提示它應(yīng)該怎樣對(duì)數(shù)據(jù)集的其余部分進(jìn)行聚類。
半監(jiān)督式學(xué)習(xí)可以用來檢測(cè)身份欺詐,以及其他用途。Villanustre指出,好在欺詐行為并不像非欺詐性行為那么頻繁,因此可以把欺詐行為看成是合法行為領(lǐng)域中出現(xiàn)的“異?!薄1M管如此,欺詐行為仍然存在,半監(jiān)督式的異常檢測(cè)機(jī)器學(xué)習(xí)方法可以用于對(duì)這類問題的解決方案進(jìn)行建模。這種類型的學(xué)習(xí)被用于識(shí)別網(wǎng)上交易中的欺詐行為。
Epstein說,當(dāng)有標(biāo)記和未標(biāo)記的數(shù)據(jù)混合在一起時(shí),也可以使用半監(jiān)督式學(xué)習(xí)方法,這在大型企業(yè)環(huán)境中比較常見。她說,亞馬遜通過對(duì)混合有標(biāo)記和無標(biāo)記數(shù)據(jù)的人工智能算法進(jìn)行訓(xùn)練,增強(qiáng)了對(duì)Alexa服務(wù)的自然語言理解能力。她說,這有助于提高Alexa響應(yīng)的準(zhǔn)確性。
強(qiáng)化學(xué)習(xí)
通過強(qiáng)化學(xué)習(xí),可以讓機(jī)器與其所在的環(huán)境進(jìn)行交互(例如,把傳送帶上有缺陷的產(chǎn)品推到垃圾箱中),并且按照企業(yè)的要求完成任務(wù)后,對(duì)其進(jìn)行獎(jiǎng)勵(lì)。通過自動(dòng)計(jì)算獎(jiǎng)勵(lì),可以讓機(jī)器自己花時(shí)間去學(xué)習(xí)。
強(qiáng)化學(xué)習(xí)的一種應(yīng)用情形是對(duì)零售店的服裝和其他物品進(jìn)行分類。
咨詢公司德勤(Deloitte)的分析師David Schatsky專注于新興技術(shù)和商業(yè)趨勢(shì),他指出,一些服裝零售商已經(jīng)開始嘗試機(jī)器人等新技術(shù),以幫助對(duì)服裝、鞋子和飾品等物品進(jìn)行分類。
Schatsky說,機(jī)器人使用強(qiáng)化學(xué)習(xí)(以及深度學(xué)習(xí))來計(jì)算在抓取物品時(shí)應(yīng)該用多大的力,以及怎樣恰好地抓取貨架上的這些物品。
強(qiáng)化學(xué)習(xí)的一種變體是深度強(qiáng)化學(xué)習(xí),它非常適合于自主決策,在這種情況下,只采用監(jiān)督式學(xué)習(xí)或者無監(jiān)督式學(xué)習(xí)技術(shù)并不能完成工作。
深度學(xué)習(xí)
深度學(xué)習(xí)執(zhí)行無監(jiān)督式或者強(qiáng)化學(xué)習(xí)等類型的學(xué)習(xí)。從廣義上講,深度學(xué)習(xí)模仿了人們學(xué)習(xí)方式的某些方面,主要是通過使用神經(jīng)網(wǎng)絡(luò)來越來越細(xì)致地識(shí)別數(shù)據(jù)集的特征。
Schatsky說,以深度神經(jīng)網(wǎng)絡(luò)(DNN)形式出現(xiàn)的深度學(xué)習(xí)技術(shù),已經(jīng)被用來加速藥物發(fā)現(xiàn)過程中的高含量篩選工作。它涉及到應(yīng)用DNN加速技術(shù)來大幅度縮短處理多副圖像的時(shí)間,同時(shí)從模型最終學(xué)習(xí)的圖像特征中提取出更深入的信息。
這種機(jī)器學(xué)習(xí)方法還有助于很多企業(yè)打擊欺詐,通過自動(dòng)檢測(cè)不法行為來提高檢測(cè)率。
深度學(xué)習(xí)也可以用于汽車工業(yè)。Schatsky介紹說,有一家公司開發(fā)了一種基于神經(jīng)網(wǎng)絡(luò)的系統(tǒng),可以及早發(fā)現(xiàn)汽車的問題。該系統(tǒng)能夠識(shí)別噪聲和振動(dòng),并且利用偏離規(guī)范的任何偏差來解釋故障的性質(zhì)。它可以成為預(yù)測(cè)性維護(hù)的一部分,因?yàn)樗軌蚺卸ㄆ嚾魏芜\(yùn)動(dòng)部件的振動(dòng),并且可以發(fā)現(xiàn)汽車性能的微小變化。
機(jī)器學(xué)習(xí)技術(shù)
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)旨在模仿人腦中神經(jīng)元的結(jié)構(gòu),每個(gè)人工神經(jīng)元都與系統(tǒng)內(nèi)的其他神經(jīng)元相連接。神經(jīng)網(wǎng)絡(luò)按層排列,一層的神經(jīng)元把數(shù)據(jù)傳遞給下一層的多個(gè)神經(jīng)元,如此繼續(xù)。最終,數(shù)據(jù)到達(dá)輸出層,在此,網(wǎng)絡(luò)給出解決問題、識(shí)別對(duì)象的最佳猜測(cè),等等。
神經(jīng)網(wǎng)絡(luò)在各行各業(yè)的應(yīng)用案例:
·Schatsky介紹說,在生命科學(xué)和健康護(hù)理領(lǐng)域,它們可以用來分析醫(yī)學(xué)圖像以加速診斷過程和藥物發(fā)現(xiàn)過程。
·在電信和媒體領(lǐng)域,神經(jīng)網(wǎng)絡(luò)可以用于語言翻譯、欺詐檢測(cè)和虛擬助理服務(wù)。
·在金融服務(wù)領(lǐng)域,它們可以用于欺詐檢測(cè)、投資組合管理和風(fēng)險(xiǎn)分析。
·在零售業(yè)中,它們可以用來縮短結(jié)賬排隊(duì)長(zhǎng)度,實(shí)現(xiàn)顧客體驗(yàn)的個(gè)性化。
決策樹
決策樹算法旨在通過發(fā)現(xiàn)屬性相關(guān)的問題來對(duì)項(xiàng)目進(jìn)行分類,這有助于決定把項(xiàng)目放在哪個(gè)類中。樹中的每個(gè)節(jié)點(diǎn)都是一個(gè)問題,分支會(huì)帶來項(xiàng)目相關(guān)的更多問題,而葉子是最終的分類。
決策樹的應(yīng)用情形包括為客戶服務(wù)、定價(jià)預(yù)測(cè)和產(chǎn)品規(guī)劃構(gòu)建知識(shí)管理平臺(tái)。
商業(yè)和技術(shù)咨詢公司SPR的首席數(shù)據(jù)科學(xué)家Ray Johnson評(píng)論說,當(dāng)保險(xiǎn)公司根據(jù)可能出現(xiàn)的風(fēng)險(xiǎn)來深入分析需要哪種類型的保險(xiǎn)產(chǎn)品并調(diào)整保費(fèi)時(shí),可以使用決策樹技術(shù)。通過把天氣相關(guān)的損失數(shù)據(jù)與位置數(shù)據(jù)相疊加,它能夠根據(jù)提交的索賠和支付金額來建立風(fēng)險(xiǎn)類別。他說,然后,它可以根據(jù)模型覆蓋范圍來評(píng)估新應(yīng)用,以提供風(fēng)險(xiǎn)類別和可能的財(cái)務(wù)影響。
隨機(jī)森林
必須對(duì)單個(gè)決策樹進(jìn)行訓(xùn)練才能提供準(zhǔn)確的結(jié)果,而隨機(jī)森林算法則采用一組隨機(jī)創(chuàng)建的決策樹,這些決策樹基于不同的屬性集進(jìn)行決策,并允許它們對(duì)最受歡迎的類進(jìn)行投票。
Epstein說,隨機(jī)森林是在數(shù)據(jù)集中尋找關(guān)系的通用工具,而且訓(xùn)練起來也很快。例如,大量的垃圾電子郵件長(zhǎng)期以來一直是個(gè)問題,不僅對(duì)用戶來說是這樣,對(duì)于互聯(lián)網(wǎng)服務(wù)提供商也是如此,他們不得不處理服務(wù)器越來越高的負(fù)載。她說,為解決這一問題,已經(jīng)開發(fā)出了從正常電子郵件中過濾掉垃圾郵件的自動(dòng)化方法,使用隨機(jī)森林來快速準(zhǔn)確地識(shí)別出不想要的電子郵件。
隨機(jī)森林的其他用途包括通過分析患者的病歷來識(shí)別疾病,檢測(cè)金融欺詐行為,預(yù)測(cè)呼叫中心的呼叫量,以及通過購(gòu)買某一股票來預(yù)測(cè)利潤(rùn)或者損失。
聚類
聚類算法使用K均值、均值平移和期望值最大化等技術(shù),根據(jù)共享或者類似的特征對(duì)數(shù)據(jù)點(diǎn)進(jìn)行分組。這是一種可以應(yīng)用于分類問題的無監(jiān)督式學(xué)習(xí)技術(shù)。
Schatsky說,當(dāng)需要細(xì)分或者分類時(shí),聚類技術(shù)特別有用。這方面的例子包括根據(jù)不同的特征對(duì)客戶進(jìn)行細(xì)分以便更好地分配營(yíng)銷活動(dòng)、向某些讀者推薦新聞文章,以及落實(shí)規(guī)章制度等。
聚類還能夠有效地發(fā)現(xiàn)復(fù)雜數(shù)據(jù)集中的分組,而人眼并不能一眼看出這些分組。Epstein說,這方面的例子包括對(duì)數(shù)據(jù)庫(kù)中類似的文檔進(jìn)行分類,以及從犯罪報(bào)告中識(shí)別犯罪熱點(diǎn)等。
關(guān)聯(lián)規(guī)則學(xué)習(xí)
關(guān)聯(lián)規(guī)則學(xué)習(xí)是推薦引擎中使用的一種無監(jiān)督式技術(shù),用于查找變量之間的關(guān)系。
這是很多電子商務(wù)網(wǎng)站上“買X的人也會(huì)買Y”推薦的支撐技術(shù),怎樣使用這類技術(shù)的例子很常見。
Johnson說,一種特定的應(yīng)用情形是希望促進(jìn)額外銷售的特色食品零售商。他會(huì)使用這種技術(shù)來分析客戶購(gòu)買行為,為產(chǎn)品慶祝活動(dòng)、運(yùn)動(dòng)隊(duì)等提供特殊的罐頭和包裝。關(guān)聯(lián)規(guī)則技術(shù)能夠揭示客戶何時(shí)何地購(gòu)買了自己最喜歡的產(chǎn)品組合。
Johnson說,利用過去采購(gòu)的信息和時(shí)間順序,公司可以主動(dòng)地創(chuàng)建獎(jiǎng)勵(lì)計(jì)劃,并提供特殊的定制產(chǎn)品來促進(jìn)今后的銷售。