劉丹妮 王穎 周丹
(浙江省氣象服務(wù)中心,浙江 杭州 310017)
“大數(shù)據(jù)”一詞是隨著信息時(shí)代發(fā)展而產(chǎn)生的,是當(dāng)前當(dāng)仁不讓的熱詞。隨著數(shù)據(jù)源的多樣化,數(shù)據(jù)量的積累,當(dāng)前信息時(shí)代也被稱(chēng)為“大數(shù)據(jù)時(shí)代”。無(wú)論在科學(xué)研究、應(yīng)用還是互聯(lián)網(wǎng)領(lǐng)域,“大數(shù)據(jù)”都占據(jù)不可忽視的地位。韓學(xué)艷等利用大數(shù)據(jù)方法分析了探索治療心力衰竭常見(jiàn)證型的用藥規(guī)律[1];鄭楊利用大數(shù)據(jù)方法,實(shí)現(xiàn)了檔案數(shù)據(jù)從采集、整理、分析到展示4個(gè)層次的優(yōu)化管理[2];賈應(yīng)麗分析銷(xiāo)售數(shù)據(jù),指導(dǎo)客戶(hù)分類(lèi),實(shí)現(xiàn)了差異化的客戶(hù)關(guān)系管理[3];施麗等將大數(shù)據(jù)方法應(yīng)用于分析電網(wǎng)用戶(hù)需求,實(shí)現(xiàn)了主動(dòng)服務(wù),降低了服務(wù)成本,提高了服務(wù)效率[4];何泰伯將大數(shù)據(jù)分析應(yīng)用于教學(xué)多媒體信息檢索系統(tǒng),在速度、精度和檢索能力上較傳統(tǒng)檢索系統(tǒng)有明顯提高[5];呂梅認(rèn)為大數(shù)據(jù)在電視新聞策劃中的應(yīng)用可以增強(qiáng)節(jié)目的競(jìng)爭(zhēng)力[6];高子初等在分析了各種復(fù)雜多車(chē)道道路上的車(chē)輛行駛行為的基礎(chǔ)上,提出了用大數(shù)據(jù)智能交通技術(shù)管理復(fù)雜多車(chē)道道路的新策略[7]。
大數(shù)據(jù)真正的價(jià)值不在于數(shù)量的龐大,而在于數(shù)據(jù)背后潛藏的關(guān)系和規(guī)律。海量的數(shù)據(jù)提高了信息的復(fù)雜程度[3],要尋找數(shù)據(jù)背后的關(guān)系和規(guī)律,需要通過(guò)“數(shù)據(jù)挖掘”來(lái)實(shí)現(xiàn)。“數(shù)據(jù)挖掘”,即從數(shù)據(jù)中挖掘出有價(jià)值的信息和知識(shí)的過(guò)程,它建立在對(duì)數(shù)據(jù)集全面而深刻認(rèn)識(shí)的基礎(chǔ)上,是對(duì)數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,也是對(duì)數(shù)據(jù)從理性認(rèn)識(shí)到感性認(rèn)識(shí)的升華。數(shù)據(jù)背后的關(guān)系和規(guī)律的呈現(xiàn),則稱(chēng)為數(shù)據(jù)的可視化。
氣象部門(mén)本身積累了大量的觀測(cè)數(shù)據(jù),是“大數(shù)據(jù)”的一種。氣象數(shù)據(jù)與許多其他類(lèi)型數(shù)據(jù)(交通出行、用電/水量、服裝銷(xiāo)售、電器銷(xiāo)售數(shù)據(jù)等)相關(guān)聯(lián),反映了氣象條件對(duì)行業(yè)的影響。但就氣象數(shù)據(jù)本身而言,其隱含的氣候背景和規(guī)律,是為公眾答疑解惑的“原材料”,也是判斷當(dāng)前天氣是否異常的標(biāo)準(zhǔn),因此歷史氣象數(shù)據(jù)挖掘?qū)姎庀蠓?wù)而言不可或缺。
此外,隨著智能手機(jī)的普及和天氣類(lèi)APP的涌現(xiàn),公眾獲取常規(guī)氣象信息的途徑大大增加,氣象部門(mén)發(fā)布的常規(guī)文字信息權(quán)威性和吸引力已大大削弱。網(wǎng)絡(luò)時(shí)代新媒體的傳播方式和公眾的閱讀習(xí)慣,要求氣象信息有“吸睛”、“有趣”,這就必然要對(duì)氣象數(shù)據(jù)進(jìn)行深加工和熱點(diǎn)挖掘??梢暬菙?shù)據(jù)背后規(guī)律的表達(dá),成功的可視化能夠提高氣象信息的展現(xiàn)能力和美觀度。經(jīng)歷“數(shù)據(jù)挖掘”和“可視化”過(guò)程的原創(chuàng)氣象數(shù)據(jù)新聞或預(yù)報(bào)、科普產(chǎn)品,在增強(qiáng)氣象信息可讀性的同時(shí),可以避免其他媒體對(duì)于文字類(lèi)氣象信息的錯(cuò)誤解讀,從而維護(hù)氣象部門(mén)的權(quán)威發(fā)布品牌。中國(guó)天氣網(wǎng)原創(chuàng)的“數(shù)據(jù)會(huì)說(shuō)話”、“數(shù)據(jù)帝扒天氣”等欄目就是氣象數(shù)據(jù)挖掘和可視化的典范。
天氣條件影響著生活的多個(gè)方面,單純的氣象數(shù)據(jù)分析并不一定能引起閱讀者的興趣,但從人們的認(rèn)知、感知或身邊的事、物入手,則更容易引發(fā)人閱讀的欲望。
1)以認(rèn)知、感知為切入點(diǎn)。人們看到熟悉的認(rèn)知或類(lèi)似的感知,比較容易產(chǎn)生共鳴,引發(fā)探究的欲望。例如,夏季高溫科普作品《扒一扒三伏天那些事兒》、《越來(lái)越熱是你的錯(cuò)覺(jué)嗎?》,前者從人們熟知的“三伏天”出發(fā),后者從人們對(duì)“天越來(lái)越熱”的感知入手,分析了夏季高溫的特征;冬季科普作品《“大寒”P(pán)K“小寒”》,對(duì)比兩個(gè)節(jié)氣的寒冷程度,讓冬季低溫特征更有趣;《清明時(shí)節(jié)雨紛紛的降雨魔咒》從“清明時(shí)節(jié)雨紛紛”詩(shī)句出發(fā),分析了清明假期浙江各地的降水特點(diǎn);《凍成狗?數(shù)據(jù)告訴你我國(guó)寒潮變少了》把感知與數(shù)據(jù)的沖突點(diǎn)相結(jié)合,對(duì)我國(guó)寒潮發(fā)生的頻次和降溫幅度進(jìn)行了分析。
2)以身邊的事、物為切入點(diǎn)。每個(gè)人的生活都離不開(kāi)“衣食住行”四個(gè)字,以公眾身邊的事或物為切入點(diǎn)也能夠引發(fā)關(guān)注。《氣溫降1℃,關(guān)跑步什么事兒?》從跑步運(yùn)動(dòng)入手,揭示了氣溫、大風(fēng)和降水對(duì)于跑步的影響;《一天過(guò)兩季4月亂穿衣指數(shù)大放送》從4月“亂穿衣”入手,引出4月晝夜溫差大的特點(diǎn);《暴雨和高溫是怎么影響我們的菜籃子的?》把天氣和菜價(jià)相結(jié)合,指出了高溫髙濕天氣對(duì)于蔬菜種植、運(yùn)輸?shù)鹊挠绊?《大數(shù)據(jù)教你應(yīng)對(duì)高考“意外”天氣》以高考為著眼點(diǎn),分析了全國(guó)多個(gè)城市在高考期間可能出現(xiàn)的不利天氣,并給出了防范措施。
數(shù)據(jù)挖掘本身是從數(shù)據(jù)的表象升華到數(shù)據(jù)背后規(guī)律的過(guò)程,通過(guò)挖掘得到的數(shù)據(jù)背后的規(guī)律必然要用數(shù)據(jù)呈現(xiàn),但規(guī)律的呈現(xiàn)并不是歷史數(shù)據(jù)的簡(jiǎn)單羅列,而需要發(fā)現(xiàn)其內(nèi)涵并凝練成結(jié)論。以科普長(zhǎng)圖《越來(lái)越熱是你的錯(cuò)覺(jué)嗎?》為例,闡述結(jié)論在數(shù)據(jù)挖掘中的重要性。
《越來(lái)越熱是你的錯(cuò)覺(jué)嗎?》利用1961—2016年浙江11地市氣溫記錄分析了高溫和暖夜的變化特征。圖1a展現(xiàn)的結(jié)論是1961年以來(lái)浙江的高溫日數(shù)呈增長(zhǎng)趨勢(shì),但逐年的高溫日數(shù)序列并不是逐年增長(zhǎng)的而是波動(dòng)的,因此高溫日逐年的羅列并不能表現(xiàn)高溫日的變化趨勢(shì)。為此加入了序列的趨勢(shì)線,高溫日數(shù)趨勢(shì)線呈明顯增長(zhǎng)趨勢(shì),有力地體現(xiàn)了“高溫日數(shù)越來(lái)越多”這一結(jié)論。除添加趨勢(shì)線方法外,還可以按照年代將54個(gè)時(shí)次的時(shí)間序列分成6段,縮減后的高溫序列也能夠較明確地表現(xiàn)高溫日數(shù)量的增加(圖1b)。
圖1a 1961—2016年浙江平均高溫日數(shù)
圖1b 1961—2016各年代平均高溫日數(shù)
圖2需體現(xiàn)的結(jié)論是“7、8月高溫最兇猛”。圖中以餅圖的形式表示各月高溫日(最高氣溫≥35 ℃)、酷熱日(最高氣溫≥40 ℃)出現(xiàn)的比例,不僅說(shuō)明了4—9月曾出現(xiàn)高溫日、7—9月曾出現(xiàn)酷熱日,還通過(guò)扇形的面積大小明確展示了高溫日和酷熱日主要出現(xiàn)在7月、8月,對(duì)結(jié)論起到了充分支撐作用。
圖2 浙江平均高溫日月分布占比
數(shù)據(jù)證明了浙江的高溫日的增加趨勢(shì)和集中月份后,圖3將省內(nèi)11地市高溫日數(shù)進(jìn)行了對(duì)比,得出“麗水是浙江的吐魯番”這一結(jié)論。從條形圖上可以明確的看出,麗水平均高溫日數(shù)達(dá)45.8 d,高居榜首;最少的是舟山平均僅3.5 d。
圖3 浙江11地市高溫日排行(單位:d)
高溫代表了白天熱的程度,到了夜里是否還熱?圖4利用暖夜(最低氣溫≥28 ℃)日數(shù)序列進(jìn)行說(shuō)明。這里值得注意的是,暖夜并不是每年都出現(xiàn),且與高溫日數(shù)一樣也存在序列過(guò)長(zhǎng),難以表現(xiàn)的問(wèn)題,圖4采用5 a暖夜總?cè)諗?shù)展現(xiàn)暖夜變化趨勢(shì),有效地避免了有些年份不出現(xiàn)暖夜的問(wèn)題,同時(shí)也達(dá)到了縮減序列長(zhǎng)度的目的,清晰地展現(xiàn)出“夜間越來(lái)越熱”這一結(jié)論。
圖4 1961—2016年浙江暖夜日數(shù)變化(單位:d)
由上面案例可知,每組數(shù)據(jù)規(guī)律的呈現(xiàn)都需落腳到結(jié)論,并且成為結(jié)論的有力支撐,這就涉及到數(shù)據(jù)規(guī)律的挖掘方法。氣象數(shù)據(jù)挖掘的常用方法有平均、極值、趨勢(shì)線、頻率統(tǒng)計(jì)等,有時(shí)還可根據(jù)對(duì)數(shù)據(jù)進(jìn)行分類(lèi)對(duì)比。
數(shù)據(jù)挖掘是“深入”的過(guò)程,那么可視化則是“淺出”的展現(xiàn)。可視化就是把數(shù)據(jù)、信息和知識(shí)轉(zhuǎn)化為可視的表示形式的過(guò)程[8]。在“全媒體”時(shí)代,以文字呈現(xiàn)的信息不具備圖片的視覺(jué)沖擊力,富有創(chuàng)意的視覺(jué)語(yǔ)言更能幫助人們快速獲得信息,因此“看圖說(shuō)話”的形式能更好地傳播氣象信息。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,可視化技術(shù)也不斷提高,目前數(shù)據(jù)可視化技術(shù)已實(shí)現(xiàn)借助計(jì)算機(jī)的強(qiáng)大處理能力、計(jì)算機(jī)圖形學(xué)算法和可視化算法,將大量的數(shù)據(jù)集轉(zhuǎn)化為靜態(tài)或者動(dòng)態(tài)圖像,并具有一定的人機(jī)交互能力。互聯(lián)網(wǎng)上已有許多在線可視化平臺(tái)如Google Chart、Data Driven Documents[9]、“鏑數(shù)”及“百度?圖說(shuō)”等,中國(guó)氣象局華風(fēng)創(chuàng)新2015年也推出了氣象數(shù)據(jù)的可視化解決方案——“藍(lán)PI螞蟻”[10]。
在數(shù)據(jù)規(guī)律的展現(xiàn)方式上需要考慮多樣化和美觀,除常見(jiàn)的柱狀和折線表達(dá)方式外,餅圖、玉玦圖、瀑布圖、玫瑰圖、面積圖、象形圖、甘特圖等的搭配使用能給人耳目一新的感覺(jué),更好地詮釋數(shù)據(jù)規(guī)律(如圖5)。
在可視化工具選擇上,Excel和Power point可以呈現(xiàn)大部分圖形的制作,例如柱狀圖、折線圖、餅圖、玫瑰圖、雷達(dá)圖、面積圖,玉玦圖等,但相對(duì)復(fù)雜的圖形制作則需要借助線上工具或編程語(yǔ)言(Matlab、R語(yǔ)言)來(lái)實(shí)現(xiàn)。當(dāng)然,Photoshop也可以幫助實(shí)現(xiàn)圖形的美化。值得注意的是,氣象數(shù)據(jù)的可視化并不局限于圖表,還可以用視頻、動(dòng)畫(huà)、H5等多多種形式進(jìn)行展現(xiàn),甚至可以根據(jù)用戶(hù)數(shù)據(jù)來(lái)實(shí)現(xiàn)“私人訂制”,例如“今日頭條”政務(wù)號(hào)的年度數(shù)據(jù)解讀。
本文以氣象大數(shù)據(jù)為出發(fā)點(diǎn),簡(jiǎn)述了在當(dāng)前的“全媒體”時(shí)代氣象數(shù)據(jù)挖掘的關(guān)鍵點(diǎn),以及數(shù)據(jù)可視化的重要性,主要結(jié)論如下:
圖5 氣象數(shù)據(jù)可視化圖形舉例(統(tǒng)計(jì)時(shí)段為1961—2016年)
1)對(duì)于公眾氣象服務(wù)而言,歷史氣象數(shù)據(jù)挖掘與可視化是適應(yīng)當(dāng)前信息獲取方式的必然選擇,也是氣象部門(mén)掌握信息主動(dòng)權(quán),制作原創(chuàng)新聞,打造品牌效應(yīng)的重要手段。歷史氣象數(shù)據(jù)挖掘不僅有利于對(duì)當(dāng)前天氣的判斷,也有利于氣象規(guī)律的總結(jié)和傳遞。
2)氣象數(shù)據(jù)挖掘要引起公眾的關(guān)注,需要找準(zhǔn)切入點(diǎn),從人們的認(rèn)知、感知或身邊的事、物進(jìn)行切入,能夠取得較好的效果。
3)氣象數(shù)據(jù)的可視化是數(shù)據(jù)規(guī)律表達(dá)的重要步驟,需要設(shè)計(jì)人員的思考和經(jīng)驗(yàn)。除卻簡(jiǎn)單的柱狀和折線表達(dá)方式外,面積圖、象形圖、玫瑰圖、玉玦圖等的使用可以為規(guī)律的呈現(xiàn)增色、吸睛。
在大數(shù)據(jù)火爆的今天,有人把數(shù)據(jù)比作新的“石油”或“尚未發(fā)掘的金礦”,數(shù)據(jù)新聞是大數(shù)據(jù)時(shí)代的精品,也是許多大型網(wǎng)站保留的原創(chuàng)欄目,例如搜狐的“數(shù)字之道”、網(wǎng)易的“數(shù)讀”。將數(shù)據(jù)挖掘與可視化技術(shù)應(yīng)用于氣象數(shù)據(jù),可以大大增強(qiáng)氣象信息的趣味性,給氣象信息傳播帶來(lái)新機(jī)遇、開(kāi)拓新思路。不同視角、不同形式呈現(xiàn)出創(chuàng)新性的氣象信息,其傳播將獲得“1+1>2”的效果。盤(pán)活歷史氣象數(shù)據(jù),讓數(shù)據(jù)訴說(shuō)自己的故事,能夠豐富公眾氣象服務(wù)產(chǎn)品,提升公眾服務(wù)水平,真正體現(xiàn)氣象數(shù)據(jù)之美。