eBay用戶體驗(yàn)、搜索和平臺副總裁休·威廉姆斯提供了幾條如何利用Hadoop的建議。
1.提高Hadoop的利用效率?!叭绻M織中有很多人同時(shí)在使用某個(gè)Hadoop集群,他們很可能會做一些同樣的事情?!蓖匪拐f,“這意味著他們很可能會產(chǎn)生相同的中間數(shù)據(jù)集來進(jìn)行分析,這是一種浪費(fèi)?!?/p>
他建議,更好的辦法是早上執(zhí)行一些通用的數(shù)據(jù)查詢,并把結(jié)果保存在一個(gè)地方,任何人需要它們都可以訪問,從而節(jié)省大量的處理時(shí)間及相關(guān)資源?!氨M量先想想,哪些數(shù)據(jù)集對使用者是有用的,再為這些用戶創(chuàng)建這些數(shù)據(jù)集?!?/p>
2.對Hadoop集群進(jìn)行清理是日常維護(hù)中的一個(gè)關(guān)鍵工作?!斑@非常重要。”威廉姆斯說,“組織中可能會運(yùn)行很多Hadoop作業(yè),這樣會生成大量的數(shù)據(jù)。不過,通常情況下,人們做完后,帶上文件就一走了之。如果不及時(shí)清理,最后在系統(tǒng)中就會留下大量無用的Hadoop文件?!?/p>
“所以,你有必要創(chuàng)建一個(gè)策略,以保持您的Hadoop集群系統(tǒng)是干凈的,不至于無謂地浪費(fèi)磁盤空間。在大型的Hadoop集群系統(tǒng)中這一點(diǎn)尤為重要。”