石霖晟杰 劉姝寧
摘 要:本文提出一種基于敏感度的服務(wù)評估指標(biāo),從客觀和整體的角度對氣象服務(wù)的質(zhì)量進(jìn)行了量化,首次提出針對天氣的情感敏感度概念以及全因素下的情感分布,這些都有助于推進(jìn)氣象服務(wù)形成閉環(huán),該指標(biāo)以整個社會輿論作為數(shù)據(jù)支撐,以民眾的整體情感變化作為計量單位,以文本分析作為底層技術(shù)支撐。
關(guān)鍵詞:敏感度指標(biāo);情感分布;文本分析
中圖分類號:F27???? 文獻(xiàn)標(biāo)識碼:A????? doi:10.19311/j.cnki.1672-3198.2021.31.025
0 引言
氣象服務(wù)是一整套的傳遞機(jī)制,氣象預(yù)報只是這其中的第一環(huán),還要將預(yù)報準(zhǔn)確無誤并以接收者喜歡的方式傳遞到位,最后還要能做到跟進(jìn)服務(wù);就此氣象服務(wù)還缺乏一個反饋系統(tǒng),這樣一整套的機(jī)制才能迭代進(jìn)步。目前氣象服務(wù)的評估反饋機(jī)制還是以傳統(tǒng)的問卷調(diào)查為主,這種方式耗時費(fèi)力,而且結(jié)論過于主觀,沒有客觀數(shù)據(jù)支撐,不是一種長久的方式;另外現(xiàn)在主抓的預(yù)報準(zhǔn)確率雖然足夠客觀,但卻是整套機(jī)制的第一環(huán),太過片面,不足以反映整體。
然而整體氣象服務(wù)的反饋信號又難以準(zhǔn)確及時的捕捉,其原因之一在于經(jīng)濟(jì)學(xué)中的一個概念——成本,舉個例子說明。商家賣出一碗面,顧客吃完了下一次可以選擇來或者不來,(因?yàn)檫@碗面是有成本的,有成本就有選擇),而這樣的行為也帶給了商家反饋信號,商家可以據(jù)此調(diào)整商業(yè)模式、精進(jìn)工藝;可是在公共服務(wù)中,這碗面往往是免費(fèi)的,因?yàn)槊赓M(fèi),面好吃與否都顯得無關(guān)緊要了,而這樣的行為是無法收集到任何有效的反饋信號的。就像是在美團(tuán)里能找到各種各樣的評價,但卻很少有人發(fā)表對于天氣服務(wù)質(zhì)量的主觀評價。
本文為解決上述問題,提出一種整體、客觀的氣象服務(wù)評估指標(biāo)——針對天氣的情感敏感度指標(biāo),該指標(biāo)以整個社會輿論作為數(shù)據(jù)支撐,以民眾的整體情感變化作為計量單位,以文本分析作為底層技術(shù)支撐。
1 情感敏感度指標(biāo)
本文基于如下的理論依據(jù)。從觀云識天到人工影響天氣,氣象服務(wù)的根本是為了緩解天氣變化對百姓生活的不利影響。試想一下,多年前氣象服務(wù)還不完善的時候,一場冰雹災(zāi)害對農(nóng)民作物造成了不可估量的傷害,百姓談天色變,而隨著技術(shù)的進(jìn)步、服務(wù)的完善,氣象服務(wù)可以提前至災(zāi)害發(fā)生前進(jìn)行防御,更可以在發(fā)生之后持續(xù)跟進(jìn)后續(xù)變化,對未知的了解和對災(zāi)害有了應(yīng)對之法,這使得百姓對災(zāi)害的反應(yīng)變得溫和,這也是本文最為重要的概念——對天氣變化的敏感度,即民眾對天氣變化所造成的不利影響的敏感程度,氣象服務(wù)越發(fā)完善,民眾對天氣的敏感度就會越低。敏感度低并不代表不重要、不在乎,而是不再畏懼未知的事物,有了應(yīng)對之法,氣象服務(wù)就如同電力一樣潛移默化的影響和服務(wù)百姓,在電力還沒被發(fā)明出來的時候,人們對于晝夜的影響是很敏感的,直到現(xiàn)在,人們消減了晝夜對生活的影響,現(xiàn)在的人們對電力是依賴的,不過對晝夜的影響卻是不再敏感。
根據(jù)上述的理論依據(jù),具體計算上本文基于社會輿論中的整體情感分布來體現(xiàn)敏感度,即排除了天氣影響下的社會整體輿論的情感分布接近于全因素影響下的情感分布,則說明天氣對民眾情感的影響不顯著,即雖然天氣因素一如既往的存在,但影響民眾情感的主導(dǎo)因素是由天氣以外的其他因素構(gòu)成,這也就說明了民眾對天氣變化所造成的影響的敏感度較低。具體公式如下:
情感分布|全因素 = 情感分布|排除天氣因素外的其他因素 + ε
其中ε代表一組白噪音;而情感分布是由一組固定時間間隔下的標(biāo)簽的加權(quán)平均計算而得,標(biāo)簽分為正向情感(1)、中性情感(0)、負(fù)向情感(-1)。
而在本文的實(shí)驗(yàn)環(huán)節(jié)使用的是另外一種方式代替情感分布進(jìn)行描述,即情感標(biāo)簽變動的百分比,其公式如下:
情感標(biāo)簽變動的百分比=(情感標(biāo)簽占比|全因素-情感標(biāo)簽占比|排除天氣因素)/情感標(biāo)簽占比|排除天氣因素
我們將一段時間下的情感標(biāo)簽變動百分比進(jìn)行同比和環(huán)比,觀察隨時間情感敏感度變化的情況。
2 實(shí)驗(yàn)過程及涉及模型
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文使用的測試數(shù)據(jù)是CCF提供的比賽數(shù)據(jù),只包含2020年1、2月份的微博發(fā)文,但考慮數(shù)據(jù)的全面性應(yīng)盡量多的將網(wǎng)絡(luò)輿論數(shù)據(jù)搜羅進(jìn)來,可包含微博、公眾號、今日頭條、百度、貼吧等多種渠道數(shù)據(jù)。由于情感敏感度指標(biāo)基于情感傾向的判別,因此做有監(jiān)督的學(xué)習(xí)時就需要人工判斷一部分?jǐn)?shù)據(jù)再讓機(jī)器自學(xué)習(xí),若做無監(jiān)督的學(xué)習(xí)也需要構(gòu)建判識標(biāo)準(zhǔn)或情感詞典,本文中的標(biāo)簽數(shù)據(jù)是由CCF比賽數(shù)據(jù)提供。
在清洗數(shù)據(jù)的過程中,對發(fā)文內(nèi)容進(jìn)行去重并只保留最早發(fā)文的記錄;由于我們對于數(shù)據(jù)的定義是個人發(fā)文,因此將機(jī)構(gòu)數(shù)據(jù)剔除,本文通過在用戶名中搜索地區(qū)名稱來判斷是否屬于機(jī)構(gòu)用戶。
在排除天氣因素影響的過程中,本實(shí)驗(yàn)采用在剔除了#話題和@某人后的發(fā)文中搜索和天氣相關(guān)的詞組,本文對這里使用的天氣相關(guān)詞組的定義為能夠在氣象服務(wù)中體現(xiàn)到的對天氣有唯一性描述的詞組。這里有兩個條件,其一是能夠在氣象服務(wù)中體現(xiàn)到,舉個例子,“萬里無云”和“驕陽似火”同樣是對天氣狀況的描述,但無論在預(yù)報中還是氣象服務(wù)中都沒辦法把“萬里無云”所描述的語境體現(xiàn)出來;另外一個條件是對天氣有唯一性描述,不存在多種語義或歧義的詞組,比如風(fēng)輕云淡一詞本意是描述天氣晴好,但在語境的使用更多的是用于描述人的心境恬淡、閑適。像是中雨、暴雨、霜凍、臺風(fēng)、酷寒、炎熱、大霧、大雨傾盆、風(fēng)雨交加、狂風(fēng)暴雨等都可作為用于判斷發(fā)文描述中是否包含天氣對其產(chǎn)生影響的詞組。
2.2 實(shí)驗(yàn)結(jié)論
情感標(biāo)簽變動的百分比反映的是天氣因素對其他因素的影響,比如標(biāo)簽為-1的1月份為-1.0933%,即天氣因素的加入使得整體標(biāo)簽為-1的數(shù)據(jù)比之前少了1.0933%。雖然從單月來看,氣象服務(wù)整體呈現(xiàn)一個正面的趨勢,但1月到2月的變動幅度還是相對較大的,特別是在-1和0的標(biāo)簽上,這也說明了天氣因素對于整體情感分布的影響較大,即民眾對于天氣的敏感度隨時間在增加,從現(xiàn)實(shí)的角度考慮,2月前后正是疫情席卷全國的轉(zhuǎn)折點(diǎn),考慮到疫情這類的因素對其他因素本身也會產(chǎn)生影響,便不難解釋這些變化。