John Edwards著 ?Charles譯
預測性分析是一款功能強大的工具,但有一件事情它無法預測,那就是用戶在部署和使用該技術時遇到的問題。本文提供了一些幫助。
W. Edwards Deming是最早將統(tǒng)計技術和預測性分析應用于業(yè)務流程的先驅人物,他很好地詮釋了這一點。他曾說過:“最大的問題就是人們一開始沒有意識到自己有問題。”
當涉及到預測性分析時,“最大的問題”在規(guī)劃和早期部署階段往往并不明顯,只有當隨著時間的推移,技術未能達到預期的結果時才會成為問題,引起關注。
邊緣設備分析軟件開發(fā)商SWIM.AI的首席技術官Simon Crosby認為,由于糟糕的規(guī)劃和不切實際的期望,導致出現(xiàn)了很多常見的預測性分析難題。他解釋道:“預測性分析不是一個神奇的魔杖,對著復雜的系統(tǒng)或者組織揮一揮就能夠自動地進行改進。深入了解企業(yè)所擁有的深度分析,選擇一款工具集,可以讓你能夠快速形成假設,動態(tài)地將分析注入到數據流中,尋找相關性或者異常,也可以預測未來的表現(xiàn)?!?/p>
以下是成功的預測性分析采用者需要避免或者解決常見項目難題的7條建議。
1.建立并執(zhí)行正式的戰(zhàn)略
“即興發(fā)揮”絕對不是預測性分析的最佳方法,預測性分析可能是目前日常使用的最先進、最復雜的企業(yè)技術。風險管理咨詢公司CBIZ的高級經理Scott Moody建議:“建立預測性分析戰(zhàn)略的第一步是確定要完成的目標和目的?!崩?,部署是否旨在增加銷售額?它能檢測到欺詐和/或識別風險區(qū)域嗎?他指出:“在制定戰(zhàn)略時,始終牢記最終目標,將有助于把工作重點放在具體要實現(xiàn)的戰(zhàn)略目標上?!?/p>
Culminate戰(zhàn)略集團負責人Karrie Sullivan建議先進行一次盤點,將來自各個業(yè)務部門的相關數據源匯集起來,以確定企業(yè)預測性分析準備工作的總體狀態(tài)。她說:“注意體量、歷史、格式,以及相鄰系統(tǒng)/進程的重疊,等等。”
最后,在關鍵業(yè)務領域部署預測性分析之前,先進行一些非正式測試,以了解該技術怎樣用于預測實際的業(yè)務狀況。在市場營銷或者客戶服務等往往會產生大量數據的領域開展實驗。Sullivan解釋道:“這一步的目標是讓每個人都能理解預測性分析能夠干什么?!?/p>
2.保證數據質量
富有洞察力的預測性分析需要可靠的數據。不準確的數據實際上導致了錯誤或者誤導性的結果。Moody說:“確保數據質量的第一步是當數據輸入系統(tǒng)時,有高效的自動輸入控制功能。”
Moody說,當數據質量超出企業(yè)控制范圍時,比如從外部提供者那里獲取數據,評估數據質量應該是分析過程的第一步。他告誡說:“如果后期才發(fā)現(xiàn)數據的質量問題,那么在驗證和糾正數據質量問題之前過度深入的分析會導致大量的返工?!?/p>
不過Crosby也認為,如今的企業(yè)不必像過去幾年那樣對數據質量過份挑剔了?!靶疫\的是,目前不再要求數據非常清潔,甚至不需要完全理解。我們可以使用學習功能來自動推斷‘灰色數據的情況?!盋rosby指出,真正重要的是盡可能多地獲取原始數據?!八裕阈枰獧z測自己的系統(tǒng),收集大量的數據。”
3.管理數據量
雖然訪問大型數據池通常是一件好事,但將大量多余的數據輸入到預測性分析工具中可能會拖累關鍵的過程,而且存在著機密數據暴露給犯罪分子的風險。Moody解釋說:“獲取太多的數據可能會給我們帶來難題,不知道怎樣利用正確的數據進行分析。把數據清理好將有助于確保在執(zhí)行預測性分析時使用正確的數據?!?/p>
Sullivan認為,有效而且高效地管理大量數據的訣竅在于準確地理解哪些數據集可能是有用的,哪些數據集可以被安全地忽略掉。一名熟練的數據科學家最有資格做出這樣的決定。她指出:“數據科學家有時能夠發(fā)現(xiàn)被大多數人當成干擾的數據中的價值。”
4.尊重數據隱私/所有權
面對越來越多的公眾和政府審查,企業(yè)現(xiàn)在面臨的保護數據隱私和所有權的難題比之前更為棘手。預測性分析采用者也不例外。一種推薦的做法是限制文件訪問和僅使用專門用于分析的數據。Moody說:“識別個人的屏蔽字段也是尊重數據隱私的有效方式。還有很多不會去識別數據的工具,這減少了對數據隱私的擔憂?!?/p>
避免侵犯隱私最簡單的方法是僅在必要的最短時間內保留數據。Crosby解釋道:“快速丟掉那些暫時性的數據,但隨時能夠獲得高價值的豐富的深度分析結果,這就避免了原始數據隱私問題?!?/p>
5.盡可能提高可用性
當從一開始就設計復雜模型以便生成易于理解的結果時,預測性分析技術工作的效果會最好。然而,情況往往并非如此。在現(xiàn)實中,企業(yè)通常發(fā)現(xiàn)自己要處理的結果是如此復雜和難以理解,只有數據科學家才能準確地解釋它們。而另一種極端情況是,對結果的解釋非常淺薄和簡單化,以至于對各方幾乎沒有什么價值。
為能夠最大限度地提高可用性,重要的是在構建并部署用戶界面時要考慮最終用戶的需求。醫(yī)療保健預測性分析和機器學習公司LeaTaaS的創(chuàng)始人兼首席執(zhí)行官Mohan Giridharadas說:“雖然底層模型可能非常復雜,但用戶界面可以非常簡單。”可以看看谷歌的網頁搜索或者蘋果的iPad來尋找靈感。Giridharadas觀察到,“這些產品的用戶體驗幾乎對于任何人都是友好的,但卻隱藏了這些公司產品難以置信的軟件和硬件復雜度?!?/p>
Adobe分析云的集團產品經理Ben Gaines指出,預測性分析是一門迭代科學。一旦模型啟動,這一事實就變得顯而易見了。Gaines解釋說:“你將開始看到模型表現(xiàn)得有多好,能夠調整和重新校準它,以獲得更準確和可操作的深度分析結果?!崩纾A測性模型可以幫助企業(yè)預測趨勢,包括設備間的預期流量,使用戶能夠預測每個頁面的效果,并根據預計收入來設定預算和目標。他建議:“一旦知道了真正的效果,以及怎樣調整預算和目標,就可以由此精確地調整模型。重要的是要明白,預測性分析程序并不能保證完全正確地運行——錯誤是不可避免的,但它會幫助企業(yè)更好地理解數據和模型。”
6.控制成本
在線信貸公司Marlette基金的首席決策科學官Arnold Pravinata指出,在大多數分析預算中,數據獲取和工資支出是兩個最大的項目。為了幫助控制數據成本,Pravinata建議定期進行檢查,看看是否有任何資金被浪費在無用或者低效的數據上。他說:“對于人力資源成本而言,我們通常需要看好市場走向?!?/p>
隨著數據量的增長,存儲成本也會迅速增加。Sullivan認為,保持成本最好的總體方法是集中數據并應用穩(wěn)固的治理策略。她注意到,“我相信未來幾年我們會更廣泛深入地討論預測性分析維護的自動化,但現(xiàn)在我們仍然面臨很多困難?!?/p>
7.選擇合適的工具
預測性分析市場正在迅速擴張,這意味著新的采用者將面對一系列令人眼花繚亂的平臺和工具。很少有企業(yè)擁有能夠在這些領域做出明智選擇的人才。在企業(yè)內部建立這樣的技能需要時間和金錢。因此,大多數企業(yè)在開發(fā)預測性分析計劃時會尋求某種形式的外部幫助。在這樣做的時候,重要的是要密切關注所推薦的產品和服務,并考慮它們能否適應企業(yè)的長期計劃。Crosby建議:“應尋找那些不會將你限制在特定的分析算法或者學習堆棧上的解決方案。因為所有這些都是開源的,靈活的分析平臺應該能夠隨著時間的推移動態(tài)升級到更新的、更先進的算法?!?/p>
原文網址
https://www.cio.com/article/3287937/predictive-analytics/7-tips-for-overcoming-predictive-analytics-challenges.html