文/高依旻 施 亮(河海大學圖書館)
上古之人憑一己之力在大自然中生存。隨著工具的誕生、科技的發(fā)展,人的五官、四肢均得到延伸,如汽車是腿的延伸,電話是耳朵的延伸,電視是眼睛的延伸等。人的一切器官的指揮中心——大腦的延伸則是計算機,大腦的作用就是接受、處理、存儲信息。獲取信息則是人類一切行動的前提。
2020年突發(fā)的“新型冠狀病毒肺炎”是繼“非典”后人類面臨的又一次全球范圍內的突發(fā)傳染性疾病,其對社會的影響之深,前所未見。從情報學的角度看,疫情當屬應急情報的范疇,而不確定、不對稱、不完全、不均衡的災害情報使得以情報為支撐的決策變得異常困難。疫情的發(fā)生會深刻影響信息的傳播方式,同時信息的傳播也會反作用于疫情給社會帶來的影響。
信息熵是對不確定性的一種度量方法,通過統(tǒng)計發(fā)生的概率,從而得出信息的信息量?!靶鹿诜窝住贝笠?guī)模爆發(fā)之前,如果我們結合以前處理非典、H1N1、埃博拉等類似傳染性疾病的防控經驗,建立起有效的疫情信息甄別體系,能夠及時、客觀預測疫情大規(guī)模傳播的可能性,那么就有可能大大減小本次疫情造成的損失。
古代疫情對信息傳播的影響并無記載。復旦大學歷史學系教授、中國科學技術史學會常務理事高晞認為:對可考的數據進行統(tǒng)計分析可以確認,明清時期的疫病最為嚴重,出現了1580—1589年、1639—1648年、1813—1822年、1857—1866年4次高峰。其中,1817年,霍亂由海路傳入中國,由溫州、寧波北移西傳,最后至西藏西南地區(qū)。疫情的空間分布包括閩廣、江南、黃河下游和云貴地區(qū),被認為是近代以來波及最廣、影響最大、研究成果亦頗多的一場疫情。
古代的多次瘟疫,均無與圖書、情報相關的記錄。現代的信息傳播較之古代增長迅速,信息載體類型繁多,可居斗室中而知天下事。盡管信息傳播與疫情的關系密切,但是圖書情報界研究疫情的論文仍然比較少,在萬方數據庫中搜索“瘟疫+情報”,只有2篇論文,搜索“非典+情報”有34篇論文,搜索“疫情+情報”有23篇論文,去除重復,共57篇論文。其中比較早的是1996年發(fā)表于期刊《上海醫(yī)藥情報研究》上的論文《世界艾滋病疫情現狀》。2003年“非典”事件發(fā)生后,2003—2004年發(fā)表相關論文22篇;2005—2012年陸續(xù)每年有三四篇相關論文發(fā)表;2012年以后,每年大約只有1篇相關論文發(fā)表。
對于信息傳播與疫情的相互影響,首先可以從社會變化與信息傳播的關系方面進行研討。
信息主體在信息活動中由于信息增加而導致“人的不自由狀態(tài)”,導致其主體性的喪失,即信息生產得越多、傳播得越快,作為信息主體的人卻感到越發(fā)不自由,從而抑制了人的發(fā)展,如信息焦慮等。信息的超載正如信息的不足一樣,使社會無序化程度增加,信息也就異化為與信息主體的意愿相悖。
信息增加是表面因素,根本原因還是在于信息主體無法從繁雜的信息中篩選到重要的情報。信息主體篩選情報與個人的認知有關。疫情中導致信息異化的原因有很多,包括政治因素、經濟因素、文化因素、技術因素、心理因素等,但根本原因還是在于信息主體的認知,也就是信息主體對信息的判斷。當然,信息主體的認知是建立在上述各種因素的影響之上的。
從哲學角度來說,信息異化現象是導致社會變化的因素。社會只要變化,必然會變成與原來不同的狀態(tài)。變化原本是不分善惡利弊的,從倫理學角度來說,既可以對人類有利,也可以對人類不利。為了避免社會向對人類不利的方向發(fā)展,在疫情來臨的時候,需要盡快甄別信息,采取措施加以防范。至于疫情信息的甄別,首先需要將其從大量的互聯網信息中篩選出來,因此必須對信息進行度量。
疫情信息演化與一般網絡輿情相同,根據其社會影響力大小的發(fā)展變化可分為萌芽期、擴散期和消退期三個階段。其中,萌芽期(或稱為潛伏期)是指有關背景事件的信息引發(fā)的輿論已初見跡象,但網民對該網絡輿情內容的了解還處于初始階段;擴散期(或稱熱議期、傳播期、激發(fā)期)是指萌芽態(tài)的網絡輿情受到一定中介性因子的刺激之后呈現出事件影響力的擴大和升級,并隨時有可能轉化為重大危機事件的一種狀態(tài);消退期是指激發(fā)狀態(tài)的網絡輿情經過一系列相應政策措施的調控,輿情的影響力和關注度趨于消失或者方向發(fā)生轉換轉向衍生輿情的一種狀態(tài)。
學界一般公認信息的作用是“減少不確定性”。如何計量“減少不確定性”?有人認為,信息可以用字節(jié)的數量來表示,但在實際生活中,很多字節(jié)的語言未必能消除信息的不確定性。例如,天氣預報通常會以降雨或晴天的概率來描述未來天氣的狀況,若播報內容中將降雨與晴天的概率都以50%進行播報,信息量雖多,公眾卻無法真正判斷未來的天氣情況,這其實是無用信息。如果在一片平靜中,突然廣播“地震馬上來了”,這短短幾個字節(jié),會使大眾立刻意識到原本極小概率的“地震”事件會成為大概率事件,就會紛紛做好應對措施,從而避免一場災難。因此,信息量不能簡單以字節(jié)的數量來衡量。
“熵”來自熱力學,其物理學意義是用來度量體系混亂的程度。根據熱力學第二定律,在一個封閉的熱力學系統(tǒng)中,熵只能增加。也就是說,在一個孤立的系統(tǒng)中,整個系統(tǒng)只會越來越混亂,而不會在沒有外力作用的情況下自己變得有序??藙诘隆ぐ瑺栁榈隆は戕r(ClaudeElwood Shannon)創(chuàng)造性地將熱力學概念“熵”引用到信息學中,形成了“信息熵”的概念。
“信息熵”常被用來作為衡量一個系統(tǒng)不確定性的量化指標。一個系統(tǒng)越是有序,信息熵就越低;反之,信息熵就越高。數學定義中,對數可以描述這個特征,因此采用對數對信息進行量化,表達式如下:
式中:p表示某一事件出現的概率;函數f是概率p的減函數。
若信源符號有n種取值,A…A…A,則對應的概率為p…p…p,且各種符號的出現彼此獨立。這時,信源的平均不確定性應當為單個符號不確定性-logp的統(tǒng)計平均值,稱為信息熵,用H表示,則:
若事件A是某一個二元信源,只可能有兩種信號發(fā)出,采用信息熵來計算:
當兩個信號提及的概率相同時,該信源的信息熵最大,信源最混亂,不確定性最高;極端情況下,只有一個信號源發(fā)生時,信息熵為0,信源最穩(wěn)定,最容易做出判斷,如圖1所示。
按照萌芽期、擴散期和消退期來描述疫情發(fā)生的不同階段,分別記為U、U、U,對應的信息熵記為
圖1 二元信源熵函數圖
如圖3所示,甄別未知疫情時,首先要科學構建衡量疫情狀態(tài)的指標體系和萌芽期、擴散期、消退期的權重值;其次按照指標體系收集、統(tǒng)計已知疫情的各類數據;第三按疫情信息的甄別體系計算各類疫情的信息熵,建立甄別未知疫情的參照數據庫;最后統(tǒng)計、計算未知疫情在萌芽期的信息熵,比對參照數據庫,分析該疫情未來可能的流行狀態(tài),做好應對準備。
圖2 疫情信息的甄別體系
圖3 疫情信息的甄別流程
以下取假設的指標體系和權重說明該模式的甄別流程。設萌芽期和擴散期的權重是0.4,消退期的權重是0.2。取不明原因發(fā)燒、咳嗽、腹瀉以及CT病變這4項指標來衡量一個疫情的狀態(tài)。若疫情1為已知的普通型流感,將疫情1的上述4項指標的平均發(fā)生概率分別記為pp、p、p值,分別統(tǒng)計出某段年區(qū)間內疫情1的萌芽期、擴散期和消退期的pp、p、p;疫情2為已知的某種較罕見流感,將疫情2的上述4項指標的平均發(fā)生概率分別記為q、q、q、q,分別統(tǒng)計出某段年區(qū)間內疫情2的萌芽期、擴散期和消退期的q、q、q、q值。分別計算這兩種疫情的信息熵,計算結果見表1。
以疫情1和疫情2的信息熵為參照值,判斷某種未知疫情時,以該指標體系統(tǒng)計出萌芽期的發(fā)生概率,將信息熵進行比較,若接近疫情2的信息熵,則需加以重視。
表1 兩種疫情的信息熵計算結果
2020年的疫情反映出信息傳播與疫情有緊密關聯。疫情信息不能被快速識別導致了疫情大蔓延,究其原因在于疫情信息在傳播階段被異化。信息異化現象是導致社會變化的因素,為了減少由于信息問題對社會產生不利影響,需要對信息進行準確甄別,并對所反映的不好的社會變化加以防范,使社會盡量向好的方向發(fā)展。
文章研究了從信息量的度量到信息熵的度量,提出了在二維模式下通過以動態(tài)信息熵的度量來構建疫情信息甄別體系,并且舉例說明。采用上述方法提取有價值的信息,再進行人工分析,比較適合互聯網大量信息的過濾。
疫情信息甄別原本需要建立整個理論體系,如疫情詞表、網頁抓取規(guī)則等,需要龐大的數據支撐。由于時間與條件的限制,本文僅選擇反映信息度量的動態(tài)信息熵算法進行研究,其他工作有待后期完善。[本文系江蘇省圖書館學會課題“圖書情報學科體系與分支學科”(項目編號:20YB01)的研究成果之一。]