文/高依旻 施 亮(河海大學(xué)圖書館)
上古之人憑一己之力在大自然中生存。隨著工具的誕生、科技的發(fā)展,人的五官、四肢均得到延伸,如汽車是腿的延伸,電話是耳朵的延伸,電視是眼睛的延伸等。人的一切器官的指揮中心——大腦的延伸則是計(jì)算機(jī),大腦的作用就是接受、處理、存儲信息。獲取信息則是人類一切行動(dòng)的前提。
2020年突發(fā)的“新型冠狀病毒肺炎”是繼“非典”后人類面臨的又一次全球范圍內(nèi)的突發(fā)傳染性疾病,其對社會的影響之深,前所未見。從情報(bào)學(xué)的角度看,疫情當(dāng)屬應(yīng)急情報(bào)的范疇,而不確定、不對稱、不完全、不均衡的災(zāi)害情報(bào)使得以情報(bào)為支撐的決策變得異常困難。疫情的發(fā)生會深刻影響信息的傳播方式,同時(shí)信息的傳播也會反作用于疫情給社會帶來的影響。
信息熵是對不確定性的一種度量方法,通過統(tǒng)計(jì)發(fā)生的概率,從而得出信息的信息量?!靶鹿诜窝住贝笠?guī)模爆發(fā)之前,如果我們結(jié)合以前處理非典、H1N1、埃博拉等類似傳染性疾病的防控經(jīng)驗(yàn),建立起有效的疫情信息甄別體系,能夠及時(shí)、客觀預(yù)測疫情大規(guī)模傳播的可能性,那么就有可能大大減小本次疫情造成的損失。
古代疫情對信息傳播的影響并無記載。復(fù)旦大學(xué)歷史學(xué)系教授、中國科學(xué)技術(shù)史學(xué)會常務(wù)理事高晞?wù)J為:對可考的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析可以確認(rèn),明清時(shí)期的疫病最為嚴(yán)重,出現(xiàn)了1580—1589年、1639—1648年、1813—1822年、1857—1866年4次高峰。其中,1817年,霍亂由海路傳入中國,由溫州、寧波北移西傳,最后至西藏西南地區(qū)。疫情的空間分布包括閩廣、江南、黃河下游和云貴地區(qū),被認(rèn)為是近代以來波及最廣、影響最大、研究成果亦頗多的一場疫情。
古代的多次瘟疫,均無與圖書、情報(bào)相關(guān)的記錄。現(xiàn)代的信息傳播較之古代增長迅速,信息載體類型繁多,可居斗室中而知天下事。盡管信息傳播與疫情的關(guān)系密切,但是圖書情報(bào)界研究疫情的論文仍然比較少,在萬方數(shù)據(jù)庫中搜索“瘟疫+情報(bào)”,只有2篇論文,搜索“非典+情報(bào)”有34篇論文,搜索“疫情+情報(bào)”有23篇論文,去除重復(fù),共57篇論文。其中比較早的是1996年發(fā)表于期刊《上海醫(yī)藥情報(bào)研究》上的論文《世界艾滋病疫情現(xiàn)狀》。2003年“非典”事件發(fā)生后,2003—2004年發(fā)表相關(guān)論文22篇;2005—2012年陸續(xù)每年有三四篇相關(guān)論文發(fā)表;2012年以后,每年大約只有1篇相關(guān)論文發(fā)表。
對于信息傳播與疫情的相互影響,首先可以從社會變化與信息傳播的關(guān)系方面進(jìn)行研討。
信息主體在信息活動(dòng)中由于信息增加而導(dǎo)致“人的不自由狀態(tài)”,導(dǎo)致其主體性的喪失,即信息生產(chǎn)得越多、傳播得越快,作為信息主體的人卻感到越發(fā)不自由,從而抑制了人的發(fā)展,如信息焦慮等。信息的超載正如信息的不足一樣,使社會無序化程度增加,信息也就異化為與信息主體的意愿相悖。
信息增加是表面因素,根本原因還是在于信息主體無法從繁雜的信息中篩選到重要的情報(bào)。信息主體篩選情報(bào)與個(gè)人的認(rèn)知有關(guān)。疫情中導(dǎo)致信息異化的原因有很多,包括政治因素、經(jīng)濟(jì)因素、文化因素、技術(shù)因素、心理因素等,但根本原因還是在于信息主體的認(rèn)知,也就是信息主體對信息的判斷。當(dāng)然,信息主體的認(rèn)知是建立在上述各種因素的影響之上的。
從哲學(xué)角度來說,信息異化現(xiàn)象是導(dǎo)致社會變化的因素。社會只要變化,必然會變成與原來不同的狀態(tài)。變化原本是不分善惡利弊的,從倫理學(xué)角度來說,既可以對人類有利,也可以對人類不利。為了避免社會向?qū)θ祟惒焕姆较虬l(fā)展,在疫情來臨的時(shí)候,需要盡快甄別信息,采取措施加以防范。至于疫情信息的甄別,首先需要將其從大量的互聯(lián)網(wǎng)信息中篩選出來,因此必須對信息進(jìn)行度量。
疫情信息演化與一般網(wǎng)絡(luò)輿情相同,根據(jù)其社會影響力大小的發(fā)展變化可分為萌芽期、擴(kuò)散期和消退期三個(gè)階段。其中,萌芽期(或稱為潛伏期)是指有關(guān)背景事件的信息引發(fā)的輿論已初見跡象,但網(wǎng)民對該網(wǎng)絡(luò)輿情內(nèi)容的了解還處于初始階段;擴(kuò)散期(或稱熱議期、傳播期、激發(fā)期)是指萌芽態(tài)的網(wǎng)絡(luò)輿情受到一定中介性因子的刺激之后呈現(xiàn)出事件影響力的擴(kuò)大和升級,并隨時(shí)有可能轉(zhuǎn)化為重大危機(jī)事件的一種狀態(tài);消退期是指激發(fā)狀態(tài)的網(wǎng)絡(luò)輿情經(jīng)過一系列相應(yīng)政策措施的調(diào)控,輿情的影響力和關(guān)注度趨于消失或者方向發(fā)生轉(zhuǎn)換轉(zhuǎn)向衍生輿情的一種狀態(tài)。
學(xué)界一般公認(rèn)信息的作用是“減少不確定性”。如何計(jì)量“減少不確定性”?有人認(rèn)為,信息可以用字節(jié)的數(shù)量來表示,但在實(shí)際生活中,很多字節(jié)的語言未必能消除信息的不確定性。例如,天氣預(yù)報(bào)通常會以降雨或晴天的概率來描述未來天氣的狀況,若播報(bào)內(nèi)容中將降雨與晴天的概率都以50%進(jìn)行播報(bào),信息量雖多,公眾卻無法真正判斷未來的天氣情況,這其實(shí)是無用信息。如果在一片平靜中,突然廣播“地震馬上來了”,這短短幾個(gè)字節(jié),會使大眾立刻意識到原本極小概率的“地震”事件會成為大概率事件,就會紛紛做好應(yīng)對措施,從而避免一場災(zāi)難。因此,信息量不能簡單以字節(jié)的數(shù)量來衡量。
“熵”來自熱力學(xué),其物理學(xué)意義是用來度量體系混亂的程度。根據(jù)熱力學(xué)第二定律,在一個(gè)封閉的熱力學(xué)系統(tǒng)中,熵只能增加。也就是說,在一個(gè)孤立的系統(tǒng)中,整個(gè)系統(tǒng)只會越來越混亂,而不會在沒有外力作用的情況下自己變得有序??藙诘隆ぐ瑺栁榈隆は戕r(nóng)(ClaudeElwood Shannon)創(chuàng)造性地將熱力學(xué)概念“熵”引用到信息學(xué)中,形成了“信息熵”的概念。
“信息熵”常被用來作為衡量一個(gè)系統(tǒng)不確定性的量化指標(biāo)。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,信息熵就越高。數(shù)學(xué)定義中,對數(shù)可以描述這個(gè)特征,因此采用對數(shù)對信息進(jìn)行量化,表達(dá)式如下:
式中:p表示某一事件出現(xiàn)的概率;函數(shù)f是概率p的減函數(shù)。
若信源符號有n種取值,A…A…A,則對應(yīng)的概率為p…p…p,且各種符號的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號不確定性-logp的統(tǒng)計(jì)平均值,稱為信息熵,用H表示,則:
若事件A是某一個(gè)二元信源,只可能有兩種信號發(fā)出,采用信息熵來計(jì)算:
當(dāng)兩個(gè)信號提及的概率相同時(shí),該信源的信息熵最大,信源最混亂,不確定性最高;極端情況下,只有一個(gè)信號源發(fā)生時(shí),信息熵為0,信源最穩(wěn)定,最容易做出判斷,如圖1所示。
按照萌芽期、擴(kuò)散期和消退期來描述疫情發(fā)生的不同階段,分別記為U、U、U,對應(yīng)的信息熵記為
圖1 二元信源熵函數(shù)圖
如圖3所示,甄別未知疫情時(shí),首先要科學(xué)構(gòu)建衡量疫情狀態(tài)的指標(biāo)體系和萌芽期、擴(kuò)散期、消退期的權(quán)重值;其次按照指標(biāo)體系收集、統(tǒng)計(jì)已知疫情的各類數(shù)據(jù);第三按疫情信息的甄別體系計(jì)算各類疫情的信息熵,建立甄別未知疫情的參照數(shù)據(jù)庫;最后統(tǒng)計(jì)、計(jì)算未知疫情在萌芽期的信息熵,比對參照數(shù)據(jù)庫,分析該疫情未來可能的流行狀態(tài),做好應(yīng)對準(zhǔn)備。
圖2 疫情信息的甄別體系
圖3 疫情信息的甄別流程
以下取假設(shè)的指標(biāo)體系和權(quán)重說明該模式的甄別流程。設(shè)萌芽期和擴(kuò)散期的權(quán)重是0.4,消退期的權(quán)重是0.2。取不明原因發(fā)燒、咳嗽、腹瀉以及CT病變這4項(xiàng)指標(biāo)來衡量一個(gè)疫情的狀態(tài)。若疫情1為已知的普通型流感,將疫情1的上述4項(xiàng)指標(biāo)的平均發(fā)生概率分別記為pp、p、p值,分別統(tǒng)計(jì)出某段年區(qū)間內(nèi)疫情1的萌芽期、擴(kuò)散期和消退期的pp、p、p;疫情2為已知的某種較罕見流感,將疫情2的上述4項(xiàng)指標(biāo)的平均發(fā)生概率分別記為q、q、q、q,分別統(tǒng)計(jì)出某段年區(qū)間內(nèi)疫情2的萌芽期、擴(kuò)散期和消退期的q、q、q、q值。分別計(jì)算這兩種疫情的信息熵,計(jì)算結(jié)果見表1。
以疫情1和疫情2的信息熵為參照值,判斷某種未知疫情時(shí),以該指標(biāo)體系統(tǒng)計(jì)出萌芽期的發(fā)生概率,將信息熵進(jìn)行比較,若接近疫情2的信息熵,則需加以重視。
表1 兩種疫情的信息熵計(jì)算結(jié)果
2020年的疫情反映出信息傳播與疫情有緊密關(guān)聯(lián)。疫情信息不能被快速識別導(dǎo)致了疫情大蔓延,究其原因在于疫情信息在傳播階段被異化。信息異化現(xiàn)象是導(dǎo)致社會變化的因素,為了減少由于信息問題對社會產(chǎn)生不利影響,需要對信息進(jìn)行準(zhǔn)確甄別,并對所反映的不好的社會變化加以防范,使社會盡量向好的方向發(fā)展。
文章研究了從信息量的度量到信息熵的度量,提出了在二維模式下通過以動(dòng)態(tài)信息熵的度量來構(gòu)建疫情信息甄別體系,并且舉例說明。采用上述方法提取有價(jià)值的信息,再進(jìn)行人工分析,比較適合互聯(lián)網(wǎng)大量信息的過濾。
疫情信息甄別原本需要建立整個(gè)理論體系,如疫情詞表、網(wǎng)頁抓取規(guī)則等,需要龐大的數(shù)據(jù)支撐。由于時(shí)間與條件的限制,本文僅選擇反映信息度量的動(dòng)態(tài)信息熵算法進(jìn)行研究,其他工作有待后期完善。[本文系江蘇省圖書館學(xué)會課題“圖書情報(bào)學(xué)科體系與分支學(xué)科”(項(xiàng)目編號:20YB01)的研究成果之一。]