記者:科技工作者在實際工作中是否也可以應用大數(shù)據(jù)來開展工作呢?具體應該如何應用?
王艷云:前面舉了很多行業(yè)的例子,但在具體的應用中科技工作者還是有大量的工作要做,其中我覺得有幾點非常重要。第一是要保證大數(shù)據(jù)的樣本真實性和數(shù)據(jù)量足夠。因為這兩點是大數(shù)據(jù)處理的基礎,沒有真實且達到一定數(shù)量的數(shù)據(jù),再好的處理能力也不可能得到準確的結論。這就要求我們科技工作者在大數(shù)據(jù)存儲硬件投入、存儲軟件架構選擇、數(shù)據(jù)量不足時進行數(shù)據(jù)交換等方面提前做好投入和規(guī)劃,保證時刻擁有真實且數(shù)據(jù)量足夠的大數(shù)據(jù)。第二是要選擇合適的大數(shù)據(jù)處理方式。數(shù)據(jù)結構有很多種,數(shù)據(jù)分析的實時性要求、分析結果的精確性要求在各行各業(yè)可能都不同,這就要求科技工作者要充分考慮實際需要選擇適合的大數(shù)據(jù)處理方式,譬如實時性要求高的可能就需要采用STORM架構進行并行處理,體現(xiàn)相互關系的大數(shù)據(jù)結果可能就需要對非結構化數(shù)據(jù)進行解析、去重、標記和建模等。第三是要有突破常規(guī)的大數(shù)據(jù)分析思路。在我們的實際工作中,我們發(fā)現(xiàn)很多大數(shù)據(jù)分析結論并不能找到很好的解釋,而更多是反映了一種對應關系,而如果多嘗試不同的分析框架和角度,可能會得到更為精確的結果,所以技術人員并不需要去對每一個結果進行解讀,找出最終的原因,而只需要找到不同結果之間的對應關系,并能針對需要解決的應用找到合適的對應結果即可。