■ 張振宇 喻發(fā)勝
早在2000年,學(xué)者麥奎爾(Denis McQuail)就指出:“原則上,其它我們已經(jīng)敘述過的媒介好像已經(jīng)沒有什么存在的必要了,因?yàn)樗械拿浇槎寄軌蚣{入以計算機(jī)傳播為核心的架構(gòu)之下。”①隨后十多年間,計算機(jī)科學(xué)給傳媒行業(yè)帶來的沖擊有目共睹,而數(shù)據(jù)庫(Database)②作為計算機(jī)科學(xué)的重要分支,③雖然早在20世紀(jì)80年代即被引入到國內(nèi)傳媒行業(yè),但30多年過去了,大多數(shù)媒體對數(shù)據(jù)庫的理解和應(yīng)用還停留在資料庫、案例庫的初級階段,遠(yuǎn)遠(yuǎn)沒有發(fā)揮出數(shù)據(jù)庫蘊(yùn)含的巨大威力。近年來,基于數(shù)據(jù)庫技術(shù)的大數(shù)據(jù)(Big Data)理念與方法的出現(xiàn),更為擁有海量內(nèi)容資源的新聞行業(yè)帶來了新的發(fā)展契機(jī),傳統(tǒng)媒體應(yīng)該如何通過數(shù)據(jù)庫建設(shè)來實(shí)現(xiàn)新聞文本的“物盡其用”,進(jìn)而探索其戰(zhàn)略轉(zhuǎn)型的可能性路徑,是一個值得嘗試的研究方向。
在這一背景下,筆者團(tuán)隊自2013年起在兩項國家社科基金課題的支持下,開始探索如何基于傳媒本體來建設(shè)“中國突發(fā)事件數(shù)據(jù)庫”,并于2018年初步完成了該數(shù)據(jù)庫的基本架構(gòu)。在歷時五年的研發(fā)過程中,我們發(fā)現(xiàn)數(shù)據(jù)庫建設(shè)雖然是一個面向?qū)嵺`的應(yīng)用課題,但卻蘊(yùn)含著更抽象層面的理論命題,那就是計算機(jī)科學(xué)的思維方式(即“運(yùn)用計算機(jī)科學(xué)的基礎(chǔ)概念去求解問題、設(shè)計系統(tǒng)和理解人類的行為”④)對重新發(fā)掘新聞價值的啟示意義。⑤具體而言,該命題可以展開為:(1)在傳統(tǒng)媒體的市場邏輯中,被稱為“易碎品”的新聞在媒體平臺發(fā)布之后,往往就因其時效性的消逝而失去了使用價值,但在計算機(jī)思維的加持下,是否能從已經(jīng)過時的新聞中挖掘出新的價值?(2)計算機(jī)思維中的數(shù)據(jù)庫理念和方法對新聞報道文本的深度加工有何借鑒意義?這不同于過去簡單地將新聞內(nèi)容數(shù)字化之后入庫,而是如何根據(jù)不同的需求將新聞報道加工成數(shù)據(jù)庫能夠挖掘和可視化呈現(xiàn)的結(jié)構(gòu)化數(shù)據(jù)?(3)如果將前面兩個問題的答案相結(jié)合,是否能為傳統(tǒng)媒體的轉(zhuǎn)型提供一種路徑選擇的可能性(從內(nèi)容提供商到數(shù)據(jù)服務(wù)商)?為了回答這一問題鏈,有必要追本溯源,首先考察國內(nèi)媒體數(shù)據(jù)庫的建設(shè)史及對其的研究史。
就目前能夠查詢到的史料而言,國內(nèi)媒體的數(shù)據(jù)庫建設(shè)史可以上溯到20世紀(jì)80年代,當(dāng)時新華社、文匯報等新聞單位率先引入了對媒體進(jìn)行數(shù)字化存儲的機(jī)制,這可被視為媒體數(shù)據(jù)庫的雛形。但在隨后十多年時間里,新聞媒體的數(shù)據(jù)庫主要是直接將報紙進(jìn)行數(shù)字化掃描后以電子文檔的形式存儲起來,只提供基本的新聞查詢和檢索功能,因此更接近檔案庫(或曰資料庫、案例庫)的概念。⑥
進(jìn)入21世紀(jì)以來,隨著數(shù)據(jù)庫技術(shù)的不斷迭代升級,新聞媒體也比過去更加重視數(shù)據(jù)庫的建設(shè),主要體現(xiàn)為以下三點(diǎn):一是在建設(shè)主體上,除了國家通訊社和幾大中央紙媒外,越來越多的地方媒體和廣電媒體也開始自建數(shù)據(jù)庫;⑦二是在內(nèi)容架構(gòu)上,除了檔案型新聞報道數(shù)據(jù)庫之外,還出現(xiàn)了讀者(訂戶)數(shù)據(jù)庫、影視劇數(shù)據(jù)庫、廣告客戶數(shù)據(jù)庫、影視政策研究數(shù)據(jù)庫、無人機(jī)新聞采集數(shù)據(jù)庫等;⑧三是在功能設(shè)計上,媒體數(shù)據(jù)庫除了對內(nèi)提供新聞檢索等功能外,也開始嘗試對外提供一定的增值服務(wù)。雖然這些服務(wù)基本上還停留在信息查詢的層面,但這對于媒體轉(zhuǎn)型的探索意義遠(yuǎn)超過其實(shí)際價值。⑨
通過歷史梳理我們發(fā)現(xiàn),國內(nèi)新聞媒體數(shù)據(jù)庫的建設(shè)體現(xiàn)出以下幾個特點(diǎn):一是起步晚,基礎(chǔ)相對薄弱,直至目前也沒有出現(xiàn)具有盈利能力的新聞內(nèi)容數(shù)據(jù)庫;二是各自為營,不同數(shù)據(jù)庫的適用范圍受限于所屬媒體的輻射范圍,極少能提供跨地域、跨行業(yè)的數(shù)據(jù)服務(wù);三是功能單一,基本上只能提供最基礎(chǔ)的新聞內(nèi)容的存儲、檢索服務(wù),沒有對新聞內(nèi)容進(jìn)行深度挖掘和可視化呈現(xiàn)。
與國內(nèi)媒體數(shù)據(jù)庫的建設(shè)進(jìn)程相呼應(yīng),國內(nèi)新聞傳播學(xué)界對傳媒數(shù)據(jù)庫的相關(guān)研究也體現(xiàn)出一定的階段性特征:目前能查到的最早的相關(guān)文獻(xiàn)是1985年的《美日報紙的信息服務(wù)》,⑩當(dāng)時國內(nèi)媒體尚未開始建設(shè)數(shù)據(jù)庫,因此該文主要是引介發(fā)達(dá)國家報業(yè)在20世紀(jì)六七十年代建設(shè)數(shù)據(jù)庫的經(jīng)驗(yàn)。在隨后十多年的時間里,國內(nèi)媒體在數(shù)據(jù)庫的建設(shè)上乏善可陳,相關(guān)研究也停滯了近十年,直到1994年,才有第二篇文獻(xiàn)開始研究國內(nèi)新聞媒體的數(shù)據(jù)庫建設(shè)。嚴(yán)格意義上說,在2000年以前,國內(nèi)相關(guān)文獻(xiàn)都很難稱得上是學(xué)術(shù)論文,而主要是各類資訊和經(jīng)驗(yàn)總結(jié),沒有太多理論含量。直到2001年后,隨著越來越多的媒體開始自建各類數(shù)據(jù)庫,這一時期相關(guān)研究才在廣度和深度上有所拓展:在廣度上,這一時期的研究超越了過去主要研究報刊數(shù)據(jù)庫的界限,而將不同類型和功能的媒體數(shù)據(jù)庫納入研究范疇;在深度上,這一時期的研究不再停留于對數(shù)據(jù)庫基本知識的介紹和經(jīng)驗(yàn)總結(jié)上,而是開始探討數(shù)據(jù)庫的設(shè)計理念、建設(shè)規(guī)劃、內(nèi)容架構(gòu)、應(yīng)用領(lǐng)域等內(nèi)容,乃至對傳媒數(shù)據(jù)庫可能帶來問題的反思上。盡管取得了不少成果,但國內(nèi)相關(guān)研究還存在以下問題:(1)研究視角相對集中,大多數(shù)文獻(xiàn)都站在應(yīng)用角度,聚焦于數(shù)據(jù)庫如何服務(wù)新聞報道和產(chǎn)品營銷;(2)研究思路較為單一,大都遵循了“現(xiàn)狀-問題-原因-對策”的常規(guī)模式,并未體現(xiàn)出傳媒行業(yè)數(shù)據(jù)庫建設(shè)的特殊性與不同類型媒體數(shù)據(jù)庫的豐富性;(3)研究結(jié)論流于空泛,所提出的對策多為宏觀的描繪,缺乏相對具體的方法與路徑,也未見從實(shí)踐到理論的學(xué)術(shù)建構(gòu)。
從上述梳理中不難發(fā)現(xiàn),國內(nèi)傳媒數(shù)據(jù)庫實(shí)際建設(shè)進(jìn)度與理論研究成果呈現(xiàn)出很強(qiáng)的相關(guān)性,且都存在著繼續(xù)深入的空間。其中,這兩者共同存在的問題是它們基本上都在傳統(tǒng)的史料保存或檔案管理范疇中進(jìn)行,相對缺乏計算機(jī)思維的引入。對此,本文擬通過引入計算機(jī)思維來重新審視和發(fā)掘新聞文本的價值,將其從僅供查閱的“史料”轉(zhuǎn)變?yōu)榭晒┩诰虻摹罢Z料”,在此基礎(chǔ)上搭建數(shù)據(jù)庫的平臺架構(gòu)并進(jìn)行數(shù)據(jù)挖掘,以實(shí)現(xiàn)新聞內(nèi)容資源的充分燃燒,進(jìn)而探索為傳媒轉(zhuǎn)型提供一種可能路徑。下面將分而述之。
從傳統(tǒng)新聞學(xué)的視角看,失去了時效性的新聞也就失去了最核心的使用價值,只剩下檔案或者史料價值。但從計算機(jī)思維的視角看,已經(jīng)“過時”的新聞報道卻因其事實(shí)層面的準(zhǔn)確性、報道領(lǐng)域的全面性和文字表達(dá)的規(guī)范性而天然地具備了成為優(yōu)質(zhì)數(shù)據(jù)庫語料資源的巨大潛質(zhì)。這正是建設(shè)傳媒數(shù)據(jù)庫所具有的獨(dú)特優(yōu)勢——因?yàn)榻ㄔO(shè)任何類型的數(shù)據(jù)庫首先都需要考慮數(shù)據(jù)的來源問題,而傳媒可以直接取材于自身豐富和優(yōu)質(zhì)的內(nèi)容資源。
正是在這一學(xué)科交叉的視野下,我們在思考中國突發(fā)事件數(shù)據(jù)庫的數(shù)據(jù)來源問題時,就發(fā)現(xiàn)不同類型的突發(fā)事件分屬不同的職能部門(如社會安全事件主要?dú)w口公安部,公共衛(wèi)生事件則歸口衛(wèi)計委),而各部門對突發(fā)事件進(jìn)行信息管理時所使用的數(shù)據(jù)結(jié)構(gòu)存在較大差異(如公安部的數(shù)據(jù)表格就不同于衛(wèi)計委),數(shù)據(jù)整合的難度很大。相比較而言,從媒體報道中對突發(fā)事件相關(guān)新聞進(jìn)行數(shù)據(jù)清洗反而效率更高,因此,在經(jīng)過反復(fù)嘗試和比對后,我們選擇了新華網(wǎng)、人民網(wǎng)和中國裁判文書網(wǎng)作為突發(fā)事件數(shù)據(jù)采集的主要來源。這一研究選題也正好給我們提供了一次以“突發(fā)事件”為對象、嘗試借助計算機(jī)科學(xué)的數(shù)據(jù)庫思維來對媒體內(nèi)容資源進(jìn)行重新整合的探索發(fā)現(xiàn)之旅。
為了服務(wù)于后期的數(shù)據(jù)挖掘和知識發(fā)現(xiàn),我們從一開始就摒棄了直接對媒體內(nèi)容進(jìn)行數(shù)字化轉(zhuǎn)換的傳統(tǒng)模式,采用了對媒體內(nèi)容進(jìn)行結(jié)構(gòu)化處理這一新的資源配置模式。因?yàn)閺挠嬎銠C(jī)思維的視角看,數(shù)據(jù)庫與資料庫的根本區(qū)別正在于后者所存儲的是只能檢索瀏覽的非結(jié)構(gòu)化數(shù)據(jù),而前者存儲的則是可供計算挖掘的結(jié)構(gòu)化數(shù)據(jù),即“可以用二維表表示的數(shù)據(jù),其中每個字段的取值范圍和存儲所需的數(shù)據(jù)量都有清晰的界定”。數(shù)據(jù)的結(jié)構(gòu)化問題實(shí)際上源于新聞思維和計算機(jī)思維的根本性差異——因?yàn)槿嗽陂喿x新聞時能夠直接通過文字理解其文本的意義,但計算機(jī)所看見的文本卻是一行行的字符串,因此只有當(dāng)字符串以特定格式出現(xiàn)在指定區(qū)域時,才能被計算機(jī)讀取和理解,這就是結(jié)構(gòu)化的意義。
而對新聞報道進(jìn)行結(jié)構(gòu)化處理的前提是制定基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn),在計算機(jī)思維看來,這其實(shí)是一個信息表示標(biāo)準(zhǔn)化的問題——“除非信息系統(tǒng)(數(shù)據(jù)庫)對其所處理和交換的信息的表示有一致性的認(rèn)識,否則信息系統(tǒng)的優(yōu)越性就不能發(fā)揮,而對于各種信息表示一致性的認(rèn)識,只有通過開展信息表示標(biāo)準(zhǔn)化才能達(dá)到?!痹诒卷椖恐?這就意味著對于所有以文本形式存在的突發(fā)事件新聞報道,都應(yīng)該有一個統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范來描述與突發(fā)事件本體相關(guān)的各個維度信息。
為此,我們專門研究制定了“中國突發(fā)事件基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)(下文簡稱EBDPS)”。由于突發(fā)事件的種類繁多、特征各異,再加上對其進(jìn)行新聞報道時不同媒體所采用的語匯也不盡相同,因此制定標(biāo)準(zhǔn)必須兼顧事件的本體特征和新聞報道的文體特征。為此,該標(biāo)準(zhǔn)將突發(fā)事件的基礎(chǔ)數(shù)據(jù)分為三個模塊:本體、影響與應(yīng)對。其中,“本體”指的是對突發(fā)事件本身各項特征的描述,例如發(fā)生的時間、地點(diǎn)、類別、級別等;“影響”指的是對突發(fā)事件所造成后果的描述,例如死亡人數(shù)、受傷人數(shù)、經(jīng)濟(jì)損失(貨幣化和非貨幣化)等;“應(yīng)對”指的是政府部門、社會組織和公眾所開展的各項救援措施。每個模塊均包含了相應(yīng)維度的字段,每個字段則有相應(yīng)的數(shù)據(jù)類型、數(shù)值單位和填寫規(guī)則,制定該標(biāo)準(zhǔn)的過程,其實(shí)也就是在各類突發(fā)事件新聞報道所涉及到的信息之間尋求“并集”的過程,最終的目標(biāo)是盡可能保障對任意一起突發(fā)事件的新聞報道都可以被加工成一條能夠被數(shù)據(jù)庫識別和存儲的突發(fā)事件數(shù)據(jù)。
標(biāo)準(zhǔn)的制定只是結(jié)構(gòu)化處理的第一步,因?yàn)樵阡浫氲倪^程中我們發(fā)現(xiàn),以求全為原則的基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)不可避免地產(chǎn)生了大量的冗余字段,從而極大地影響了前期錄入和后期檢索的速度,為此,我們又引入了“最小數(shù)據(jù)集”的方法來對基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)進(jìn)行二次加工。所謂最小數(shù)據(jù)集(Minimum Data Set,簡稱MDS),是指通過收集最少的數(shù)據(jù),最好地掌握一個研究對象所具有的特點(diǎn)或一件事情、一份工作所處的狀態(tài),其核心是針對被觀察的對象建立一套精簡實(shí)用的數(shù)據(jù)指標(biāo)。如果說基礎(chǔ)數(shù)據(jù)處理標(biāo)準(zhǔn)的制定需要“求其全”的話,那么最小數(shù)據(jù)集的制定則需要“取其精”,以使其能夠被數(shù)據(jù)庫便捷地檢索和運(yùn)算。由此,我們將突發(fā)事件的MDS確定為“類別、時間、地點(diǎn)、死亡人數(shù)、經(jīng)濟(jì)損失”五個可量化的維度,從而用最小的數(shù)據(jù)量勾勒出一起突發(fā)事件最核心的信息要素,以便提高后期對突發(fā)事件新聞?wù)Z料進(jìn)行批量結(jié)構(gòu)化處理的速度和準(zhǔn)確率。
綜上,在確定主要數(shù)據(jù)來源、制定好EBDPS和提煉出MDS之后,就基本上制定好針對任意一條新聞文本的數(shù)據(jù)處理方法,亦即完成了突發(fā)事件數(shù)據(jù)庫所需要的資源配置工作。從學(xué)理層面看,這一過程的理論意義部分在于,它揭示了計算機(jī)科學(xué)中結(jié)構(gòu)化數(shù)據(jù)的思想對于新聞報道文本再加工的重要借鑒意義——那些已經(jīng)過時的“新聞”文本通過符合數(shù)據(jù)庫標(biāo)準(zhǔn)的結(jié)構(gòu)化處理之后,就能轉(zhuǎn)化為可供繼續(xù)挖掘的數(shù)據(jù)資源。但面對海量的新聞報道文本,如何利用計算機(jī)思維及相關(guān)方法來設(shè)計批量化處理的加工流程,則是接下來需要研究解決的問題。
過去新聞媒體自建的資料庫、檔案庫之所以未能實(shí)現(xiàn)對內(nèi)容資源的深度加工,最重要的原因就是在數(shù)據(jù)采集環(huán)節(jié)上無法實(shí)現(xiàn)對海量文本的高效批量化處理,特別是無法基于特定的主題需求對相關(guān)文本進(jìn)行流水線式的加工作業(yè),所以只能簡單地將原有的紙質(zhì)文本數(shù)字化后存儲起來。為了解決這一問題,在建設(shè)突發(fā)事件數(shù)據(jù)庫時,我們采用了計算機(jī)科學(xué)中的“人機(jī)協(xié)同”理念來設(shè)計整個結(jié)構(gòu)化信息加工流程。
所謂“人機(jī)協(xié)同”,指的是“在知識管理、尤其在基于語義Web的知識處理過程中,強(qiáng)調(diào)人與計算機(jī)的分工與合作,通過人對知識處理的前端控制,降低計算機(jī)知識處理的難度,在人與計算機(jī)之間尋找最佳的協(xié)同狀態(tài)……人與計算機(jī)共同感知、共同決策、相互學(xué)習(xí)、相互監(jiān)督,共同完成知識管理任務(wù)?!敝孕枰藱C(jī)協(xié)同,是因?yàn)槿说乃季S和計算機(jī)思維在文本處理領(lǐng)域中各有所長——人腦的長處是基于長期知識積累后對語義信息的準(zhǔn)確理解和判斷,而計算機(jī)的長處則在于通過特定算法對規(guī)定重復(fù)任務(wù)的高效完成。這一理念在本次研究中體現(xiàn)為:首先在知識處理的前端由人工研發(fā)作為檢索依據(jù)的正則表達(dá)式(“人”),接下來用專門開發(fā)的爬蟲軟件對指定域名的目標(biāo)文本進(jìn)行抓取(“機(jī)”),再借助特定算法對抓取的海量文本進(jìn)行初步的數(shù)據(jù)清洗(“機(jī)”),最后由人工完成對計算機(jī)已處理文本的甄別、錄入與檢查(“人”)。
在人機(jī)協(xié)同的過程中,新聞傳播學(xué)者最能發(fā)揮其專業(yè)優(yōu)勢的地方是通過對突發(fā)事件新聞報道的內(nèi)容分析來編寫爬蟲軟件所依據(jù)的正則表達(dá)式(regular expression)。作為一種匹配文本中字符序列的查找模式,正則表達(dá)式最基本的功能就是讓計算機(jī)用戶和開發(fā)人員找到想要的文本塊。對于本項目而言,正則表達(dá)式的意義在于為爬蟲軟件提供描述突發(fā)事件的關(guān)鍵詞,以尋找和抓取在語義上最相關(guān)的新聞報道。當(dāng)然,任何爬蟲軟件都無法做到對目標(biāo)文本的完全匹配,只能盡可能避免遺漏與冗余。因此,如何從已有的典型語料中提煉關(guān)鍵詞來組成正則表達(dá)式是一個非常重要的問題。
最開始,我們考慮到抓取文本描述的主體對象是突發(fā)事件,因此選擇了政府部門制定的“突發(fā)事件分級分類標(biāo)準(zhǔn)”作為提取關(guān)鍵詞的依據(jù),但測試后發(fā)現(xiàn),抓取效果并不理想——得到的文本多為政府文件,跟目標(biāo)文本的匹配度不高。經(jīng)過仔細(xì)甄別,發(fā)現(xiàn)癥結(jié)在于誤將政府文件作為正則表達(dá)式的編寫依據(jù),而想抓取的目標(biāo)文本源自媒體上的新聞報道,兩種文體的差異導(dǎo)致了正則表達(dá)式的匹配失靈。對此,我們改為直接從典型的新聞報道中提取關(guān)鍵詞,并考慮到爬蟲軟件搜索語料的邏輯是字符串匹配而非語義匹配,為了避免遺漏,我們設(shè)計了包含and和or這兩級邏輯結(jié)構(gòu)的正則表達(dá)式,以盡可能全面地涵蓋各種關(guān)鍵詞:第一級是用and連接“主體”和“動詞”,如“洪水a(chǎn)nd發(fā)生”;第二級是用or連接主體或動詞的不同表達(dá)方式,如“(洪水or洪災(zāi)or山洪)and(發(fā)生or出現(xiàn)or遭遇or襲擊)”,并對三級分類的每一個突發(fā)事件類別中都設(shè)置了三個正則表達(dá)式,分別對應(yīng)其本體、影響和救援這三類新聞,以提高檢索的準(zhǔn)確度。
經(jīng)過多次試錯修訂好正則表達(dá)式之后,接下來的網(wǎng)絡(luò)爬蟲、數(shù)據(jù)清洗等環(huán)節(jié)就基本上納入了計算機(jī)的正常工作流程,在此不再贅述。當(dāng)然,期間也有人工的隨時介入(如對采集過程的監(jiān)測、爬蟲方式的改進(jìn)、防火墻障礙的清除等),直至最后將清洗完畢的新聞素材按照之前研發(fā)的MDS格式錄入數(shù)據(jù)庫,原本也想編寫程序來批量錄入,但經(jīng)過嘗試發(fā)現(xiàn)準(zhǔn)確率太低,所以還是選擇了“人工錄入+檢查”的方式。最后,項目組從約一億三千萬個原始網(wǎng)頁中幾經(jīng)淘煉,共錄入了15354起突發(fā)事件(工作時間截至2018年12月1日),并將每一起突發(fā)事件的原始新聞報道都以完整網(wǎng)頁的形式作為科研素材另存為數(shù)據(jù)庫中備察。
從學(xué)術(shù)研究的層面看,這一實(shí)踐環(huán)節(jié)的學(xué)理意義主要在于計算機(jī)思維中“人機(jī)協(xié)同”理念的深刻啟示,正如計算機(jī)專家周以真所指出的,計算機(jī)思維能夠幫助我們明晰哪些事情計算機(jī)比人做得好?哪些事情人比計算機(jī)做得好?對于本研究命題而言,計算機(jī)在大規(guī)模語料的批量處理、對結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計運(yùn)算、工作流程的無縫銜接和穩(wěn)步遞進(jìn)等方面具有人腦所無法比擬的優(yōu)勢;而人在研究問題的發(fā)現(xiàn)、研究目標(biāo)的錨定、文本意義的識別理解等方面比計算機(jī)要更勝一籌。因此,要想計算機(jī)科學(xué)為我所用,首先必須清楚本專業(yè)的需求與優(yōu)劣勢,同時也要理解計算機(jī)的高能與局限,并學(xué)會以計算機(jī)的思維方式來思考問題,這樣才能超越過去“僅得其表”的媒體資料庫階段,進(jìn)入到“深得其里”的媒體數(shù)據(jù)庫階段?;A(chǔ)數(shù)據(jù)錄入工作的結(jié)束,也標(biāo)志著突發(fā)事件數(shù)據(jù)庫的初步建成,接下來需要面對的就是“so what?”的問題,即,當(dāng)我們已經(jīng)獲取了由新聞文本加工而來的海量突發(fā)事件數(shù)據(jù)之后,又能怎樣?對此,下文將借助計算機(jī)思維中的數(shù)據(jù)挖掘理念及方法來回答這一問題。
作為一種重要的計算機(jī)思維方式,數(shù)據(jù)挖掘是指“通過特定的算法對大量的數(shù)據(jù)進(jìn)行自動分析,從而揭示數(shù)據(jù)當(dāng)中隱藏的規(guī)律和趨勢,即在大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)新知識,為決策者提供參考”,大數(shù)據(jù)的興起使其重要價值被更多專業(yè)人士所認(rèn)識,圖靈獎得主吉姆·格雷(Jim Gray)甚至將數(shù)據(jù)科學(xué)上升到范式革命的高度,將其從第三范式的計算機(jī)科學(xué)中獨(dú)立出來成為第四范式(The Fourth Paradigm),理由是其不同于基于數(shù)學(xué)建模的傳統(tǒng)研究范式,而能夠跨域?qū)ξ锢斫?physical universe)的觀測而直接通過對數(shù)據(jù)界(data universe)的研究獲取新知識;數(shù)據(jù)挖掘的思想傳播到國內(nèi)后,李國杰院士也敏銳地發(fā)現(xiàn)數(shù)據(jù)挖掘?qū)τ谟嬎銠C(jī)科學(xué)與社會科學(xué)交叉協(xié)同的重大意義,指出社會科學(xué)能夠借助大數(shù)據(jù)的推力,脫下“準(zhǔn)科學(xué)”的外衣,真正邁進(jìn)科學(xué)殿堂。
這一論斷對于作為社會科學(xué)的新聞傳播學(xué)也有啟示意義:已經(jīng)結(jié)構(gòu)化的新聞文本為我們提供了優(yōu)質(zhì)的語料基礎(chǔ),通過對其進(jìn)行數(shù)據(jù)挖掘,可以“發(fā)現(xiàn)未知的關(guān)系,和以數(shù)據(jù)擁有者可以理解并用對其有價值的新穎方式來總結(jié)數(shù)據(jù)?!本唧w到本題所建設(shè)的突發(fā)事件數(shù)據(jù)庫中,目前的數(shù)據(jù)挖掘主要沿著兩條路徑展開:一是對中國境內(nèi)四大類突發(fā)事件的時空分布特征進(jìn)行統(tǒng)計呈現(xiàn),以顯示其整體性的變化趨勢;二是就某一類突發(fā)事件與特定領(lǐng)域的關(guān)聯(lián)度展開具體分析,以揭示其風(fēng)險演化的相關(guān)性。需要說明的是,由于本課題屬于探索性研究,目前只進(jìn)行了一些最基礎(chǔ)的挖掘工作,因此所列舉的數(shù)據(jù)挖掘成果主要是為了證明對新聞文本進(jìn)行價值挖掘的可行性,并不能代表相關(guān)研究的最高水平。下面將分而述之:
由于突發(fā)事件的發(fā)生時間和地點(diǎn)是描述其本體特征的重要信息,因此我們在制定EBDPS和MDS時都設(shè)置了相應(yīng)的字段,當(dāng)基于全網(wǎng)爬取的所有突發(fā)事件MDS都錄入進(jìn)數(shù)據(jù)庫之后,即可采用最基礎(chǔ)的數(shù)據(jù)挖掘算法對描述其發(fā)生時間和地理位置的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)計分析,以時間和空間兩個維度來計算每一類突發(fā)事件的發(fā)生頻次,從而觀測其發(fā)生的概率是否具有一定的特征?應(yīng)該說,這也能體現(xiàn)突發(fā)事件數(shù)據(jù)庫的最基本功能——即從宏觀上了解四大類突發(fā)事件在時空中的分布狀況。經(jīng)過初步統(tǒng)計和可視化處理之后,得到了以下三組圖表,第一組是從2001年以來四大類突發(fā)事件發(fā)生頻次的年度分布圖(以月為最小單位),見圖1-圖4:
第二組是從2001年以來四大類突發(fā)事件發(fā)生頻次的月份分布圖,見圖5-圖8:
圖1 2001-2016中國自然災(zāi)害的時間分布
圖2 2001-2016中國事故災(zāi)難的時間分布
圖3 2001-2016中國公共衛(wèi)生事件的時間分布
圖4 2001-2016中國社會安全事件的時間分布
圖5 2001-2016自然災(zāi)害的月份分布
圖6 2001-2016事故災(zāi)難的月份分布
圖7 2001.1-2016公共衛(wèi)生事件的月份分布
圖8 2001.1-2016社會安全事件的月份分布
第三組是從2001年以來四大類突發(fā)事件的空間分布圖(以省份為最小單位),見圖9-圖12:
圖9 2001-2016中國自然災(zāi)害的空間分布
圖10 2001-2016中國事故災(zāi)難的空間分布
圖11 2001-2016公共衛(wèi)生事件的空間分布
圖12 2001-2016社會安全事件的空間分布
如果能夠掌握全樣本的突發(fā)事件時空分布特征,對于理解突發(fā)事件的發(fā)生規(guī)律和研究相應(yīng)的風(fēng)險防控措施無疑具有重大意義。但就筆者所檢索的范圍來看,不論是政府部門的權(quán)威發(fā)布,還是科研院所的研究成果,均未發(fā)現(xiàn)有對2001年以來四大類突發(fā)事件整體性的時空分布特征進(jìn)行展示的數(shù)據(jù)和文獻(xiàn)(只有就某一特定類型突發(fā)事件的時空分布研究文獻(xiàn)),其原因可能是受條塊分割的管理體制和領(lǐng)域細(xì)分的科研需求所限。而本文基于新聞報道所挖掘出的四大類突發(fā)事件時空分布特征的可視化呈現(xiàn)自然不敢稱全面,也難以做到精準(zhǔn),但大數(shù)據(jù)研究本身就意味著對誤差的容忍,這一挖掘結(jié)果至少給我們提供了從某個側(cè)面(主流媒體新聞報道)“一窺全豹”的契機(jī),也間接證明了新聞文本所蘊(yùn)含的價值所在。
如果有朝一日政府部門公開了突發(fā)事件的相關(guān)統(tǒng)計數(shù)據(jù),再將其與本文的數(shù)據(jù)挖掘結(jié)果進(jìn)行比對,抑或還有另一種研究價值:即分析怎樣的突發(fā)事件才能見諸于媒體?換言之,新聞媒體對于突發(fā)事件的報道是依據(jù)怎樣的標(biāo)準(zhǔn)進(jìn)行選擇的?這樣的報道標(biāo)準(zhǔn)凸顯了什么內(nèi)容,又遮蔽了什么內(nèi)容?那可能會為突發(fā)事件相關(guān)研究開拓一個新的面向,本文不再展開。
如果說對突發(fā)事件時空分布特征的可視化呈現(xiàn)是從整體上讓我們獲知其發(fā)生頻次的概貌的話,那么對某一特定類型突發(fā)事件的數(shù)據(jù)挖掘則有助于我們深入分析其對于人類社會的風(fēng)險影響,而實(shí)現(xiàn)這一目標(biāo)的路徑就是對某一具體事件類型的不同維度數(shù)據(jù)進(jìn)行相關(guān)關(guān)系(correlation)運(yùn)算。
對“相關(guān)性”的重視也是大數(shù)據(jù)的支撐性理念之一,舍恩伯格就曾旗幟鮮明地指出,大數(shù)據(jù)“要相關(guān)性而不是因果性”,安德森(Chris Anderson)甚至有更極端的觀點(diǎn)認(rèn)為:“相關(guān)關(guān)系的價值已經(jīng)可以讓我們忽略因果關(guān)系”。對于本題而言,我們主要分析了特定類型的突發(fā)事件與其隨后發(fā)生的其它事件之間的相關(guān)性,以此來推測其風(fēng)險演化的某些可能性。為了盡可能試驗(yàn)不同的價值適用場景,我們設(shè)計了一個以兩年為研究周期,以寫作碩士研究生學(xué)位論文為實(shí)現(xiàn)途徑,涵蓋四大類突發(fā)事件的研究計劃,并取得了一些之前未曾預(yù)料的研究發(fā)現(xiàn)。限于篇幅,此處不展開分析過程,僅對其結(jié)果做概括性的描述。
在自然災(zāi)害領(lǐng)域,駱璟選取了數(shù)據(jù)庫中2011-2015年經(jīng)過中國境內(nèi)的全部臺風(fēng)災(zāi)害及其衍生災(zāi)害的相關(guān)信息進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)臺風(fēng)除了能造成顯而易見的氣象災(zāi)害以外,還容易引發(fā)地質(zhì)災(zāi)害——約占96%的臺風(fēng)發(fā)生后均有地質(zhì)災(zāi)害發(fā)生,其發(fā)生概率從高到低依次是滑坡(23%)、泥石流(19%)、崩塌(8%)和決堤(3%)等,從而以實(shí)證數(shù)據(jù)提出了需要重視對臺風(fēng)衍生災(zāi)害的預(yù)警建議。
在事故災(zāi)難領(lǐng)域,于清在數(shù)據(jù)庫平臺上對新華網(wǎng)2005-2015年4983條道路交通事故相關(guān)報道進(jìn)行結(jié)構(gòu)化處理和數(shù)據(jù)挖掘,發(fā)現(xiàn)道路交通事故,提出了高速交通事故的四因素致災(zāi)模型,即高速交通事故一般都是由環(huán)境(天氣、時間等)、道路(路況、地理等)、車輛(機(jī)械故障等)、人為(駕駛員、行人等)因素所導(dǎo)致的,并計算出它們在交通事故發(fā)生因素中所占的比重,以期能為高速交通事故的傳媒預(yù)警提供一些借鑒。
在公共衛(wèi)生事件領(lǐng)域,徐睿含關(guān)注的是突發(fā)性豬流感對生豬產(chǎn)業(yè)鏈的影響,她通過比對2004-2015年間突發(fā)事件數(shù)據(jù)庫中的豬流感疫情數(shù)據(jù)與農(nóng)業(yè)部發(fā)布的《中國農(nóng)產(chǎn)品價格調(diào)查年鑒》中生豬產(chǎn)業(yè)鏈(如豬仔、豬肉、豬飼料等)相關(guān)價格數(shù)據(jù)進(jìn)行相關(guān)性分析,發(fā)現(xiàn)豬流感疫情對仔豬價格存在顯著負(fù)相關(guān)關(guān)系(時滯6-12個月,相關(guān)系數(shù)為0.6827),對出欄量也是顯著負(fù)相關(guān)關(guān)系(時滯5個月,相關(guān)系數(shù)為0.6870),但與豬飼料價格、獸醫(yī)站經(jīng)營收入則沒有太大影響。
在社會安全事件領(lǐng)域,王湘云通過對2006-2016年間1176起搶劫類突發(fā)事件的數(shù)據(jù)挖掘,發(fā)現(xiàn)搶劫案件與節(jié)氣存在一定的相關(guān)關(guān)系:在相對寒冷的第一和第四季度,搶劫事件的案發(fā)率為52.4%,但值得注意的是,二月份多處于中國的農(nóng)歷春節(jié),該月份的案發(fā)率全年最低,僅占全年案發(fā)總數(shù)的6.4%。此外,盡管該研究中的統(tǒng)計數(shù)字人口流動的大省往往也是搶劫案件高發(fā)的省份,然而并不能說明流動人口是搶劫案件的“主力軍”。例如,在廣東、浙江等經(jīng)濟(jì)發(fā)達(dá)地區(qū),外籍人員作案比例分別為17%和9%,而在遼寧、新疆等經(jīng)濟(jì)欠發(fā)達(dá)地區(qū),該統(tǒng)計數(shù)字分別攀升至27%和32%。作者通過相關(guān)性分析發(fā)現(xiàn)外來流動人口作案率與該地區(qū)的經(jīng)濟(jì)發(fā)達(dá)程度呈顯著負(fù)相關(guān)(相關(guān)系數(shù)為-0.486)。
當(dāng)然,從新聞傳播學(xué)的學(xué)術(shù)標(biāo)準(zhǔn)來衡量,上述研究發(fā)現(xiàn)可能對傳統(tǒng)新聞傳播學(xué)的學(xué)術(shù)譜系沒有太大的理論貢獻(xiàn),但其意義主要在于探索了對新聞報道進(jìn)行數(shù)據(jù)挖掘以實(shí)現(xiàn)其潛在價值的可行性。正如計算機(jī)專家David Hand曾指出的:“(數(shù)據(jù)挖掘)和所有科研事業(yè)一樣,許多努力將是沒有回報的(做一項保證會成功的研究既是罕見的也是乏味的),但是一旦有了令人興奮的發(fā)現(xiàn),這些努力就得到了加倍的補(bǔ)償?!睂τ诒静糠盅芯慷?雖然目前所取得的成果很有限,但其令人興奮之處在于:發(fā)現(xiàn)了作為一種計算機(jī)思維的數(shù)據(jù)庫方法對于新聞文本價值挖掘乃至傳媒行業(yè)轉(zhuǎn)型的啟示意義。
數(shù)據(jù)科學(xué)家周濤曾提出:要從能源的高度來重估數(shù)據(jù)的價值,即計算和數(shù)據(jù)是現(xiàn)代社會重要的能源和材料,是第三次工業(yè)革命的主要推動力。這一典型的計算機(jī)思維方式似乎可以提醒我們換一個角度思考傳媒行業(yè)的轉(zhuǎn)型發(fā)展問題:目前,傳統(tǒng)傳媒業(yè)大多遭遇了經(jīng)營上的困境,“二次售賣”理論對此的解釋是:當(dāng)?shù)谝淮问圪u失敗時(傳統(tǒng)媒體渠道提供的內(nèi)容不再被受眾選擇),第二次售賣也就很難實(shí)現(xiàn)了(傳統(tǒng)媒體無法將受眾售賣給廣告商)。學(xué)界為了從理論上紓解這一困境,提出過不同版本的“三次售賣”理論,如賣品牌、賣衍生品、賣短信互動、賣價值鏈等等,但總的看來,上述觀點(diǎn)都跳不出傳統(tǒng)傳媒經(jīng)營的范疇,究其原因,可能是因?yàn)橄嚓P(guān)研究大多集中在新聞傳播學(xué)領(lǐng)域,學(xué)科的藩籬在一定程度上限制了關(guān)于“哪些可以售賣”的想象力。
但計算機(jī)思維(特別是數(shù)據(jù)庫理念)的引入?yún)s能夠讓我們拓寬“三次售賣”的思路:因?yàn)槊襟w經(jīng)年積累的內(nèi)容資源中其實(shí)蘊(yùn)含著海量的數(shù)據(jù),而“通過對海量數(shù)據(jù)進(jìn)行分析,能夠獲得具有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見”,在數(shù)據(jù)庫技術(shù)的加持下,諸如新聞報道等媒體內(nèi)容就可以通過結(jié)構(gòu)化處理流程提煉出數(shù)據(jù),進(jìn)而具備了可供挖掘和售賣的價值,正如舍恩伯格所指出的:“當(dāng)文字變成數(shù)據(jù),它就開始大顯神通了——人可以用之閱讀,計算機(jī)可以用之分析”。因此,本題研究的意義也可以解讀為另一種“三次售賣”理論,以此來為傳統(tǒng)媒體轉(zhuǎn)型提供一條可供借鑒的路徑:傳統(tǒng)媒體在“二次售賣”的基礎(chǔ)上,還能夠通過建設(shè)基于自身內(nèi)容積累的傳媒數(shù)據(jù)庫,根據(jù)用戶的特定需求來進(jìn)行數(shù)據(jù)挖掘和分析,即售賣以數(shù)據(jù)庫為載體的“傳媒行業(yè)所積累的海量數(shù)據(jù)和基于大數(shù)據(jù)的增值服務(wù)”。
當(dāng)然,就本課題組目前研究的程度而言,利用計算機(jī)思維來建設(shè)傳媒數(shù)據(jù)庫進(jìn)而實(shí)現(xiàn)新聞價值的完全燃燒,還面臨著不少現(xiàn)實(shí)障礙。例如:在建設(shè)主體層面,現(xiàn)在很多新聞媒體相對缺乏大數(shù)據(jù)理念,尚未意識到基于自身資源建設(shè)傳媒數(shù)據(jù)庫的可行性和潛在價值;在數(shù)據(jù)采集層面,存在著描述性的新聞報道范式與結(jié)構(gòu)化的數(shù)據(jù)采集標(biāo)準(zhǔn)之間的矛盾,導(dǎo)致很多模糊表達(dá)的報道文本很難進(jìn)行結(jié)構(gòu)化處理;在數(shù)據(jù)來源層面,大數(shù)據(jù)思維要求數(shù)據(jù)源多多益善,因?yàn)椴煌瑏碓吹臄?shù)據(jù)疊加在一起時往往能夠產(chǎn)生“1+1>2”的效應(yīng),但目前條塊分割的傳媒管理制度和開放程度非常有限的公共數(shù)據(jù)導(dǎo)致了現(xiàn)在媒體數(shù)據(jù)庫的建設(shè)只能以自身積淀的數(shù)據(jù)為主,如果能夠在未來能夠引入更多元的數(shù)據(jù)倉庫與傳媒數(shù)據(jù)庫進(jìn)行疊加的話,無疑能從新聞文本中挖掘出更有價值的信息,等等。雖然這些聽起來都屬于應(yīng)用層面的問題,但正如羅杰斯(Everett M.Rogers)所指出的:“在傳播學(xué)史上,面向?qū)嶋H應(yīng)用的研究選題經(jīng)常會為抽象理論領(lǐng)域的突破打下基礎(chǔ)?!币虼?本文不成熟的研究僅僅只是一個粗淺的開始,這些問題都有待于未來更進(jìn)一步的探索。
(感謝華中師范大學(xué)新聞傳播學(xué)院王然老師對本文所作貢獻(xiàn))
注釋:
① [美]丹尼斯·麥奎爾:《麥奎爾大眾傳播理論》(第4版),崔保國、李琨譯,清華大學(xué)出版社2006年版,第14頁。
② 從技術(shù)層面講,數(shù)據(jù)庫就是關(guān)聯(lián)記錄項(或曰關(guān)聯(lián)表,related tables)的自描述(self-describing)集合。見David M.Kroenke、David J.Auer:《數(shù)據(jù)庫原理(第3版)》,清華大學(xué)出版社2008年版,第15頁;在計算機(jī)科學(xué)的話語體系中,數(shù)據(jù)庫是持久存儲在計算機(jī)內(nèi)有組織、可共享的數(shù)據(jù)集合。即按照一定的數(shù)據(jù)模型組織、描述和存儲,具有較小的冗余度、較高的數(shù)據(jù)獨(dú)立性和易擴(kuò)展性,并可為用戶所共享。見《數(shù)據(jù)庫百科全書》編委會:《數(shù)據(jù)庫百科全書》,上海交通大學(xué)出版社2009年版,第11頁。
③ 關(guān)于計算機(jī)科學(xué)的分類有不同的說法,如1991年ACM(國際計算機(jī)學(xué)會)和IEEE(國際電氣和電子工程師協(xié)會)聯(lián)合發(fā)布的“Core areas of computer science(計算機(jī)科學(xué)的核心領(lǐng)域)”,將其分為九大種屬;維基百科(Wikipedia)則將計算機(jī)科學(xué)分為十三個門類,但無論哪種劃分,都將Database單列為其中一種。
④ 在這里采用的曾任美國卡內(nèi)基·梅隆大學(xué)計算機(jī)科學(xué)系主任、著名計算機(jī)科學(xué)家周以真(Jeannette M.Wing)在美國計算機(jī)權(quán)威期刊《Communications of the ACM》雜志上給出的定義,見Jeannette M.Wing:《Computational Thinking》,《COMMUNICATIONS OF THE ACM》,March 2006/Vol.49,No.3。
⑤ 從某種意義上看,本文可視為該數(shù)據(jù)庫建設(shè)的副產(chǎn)品:一則在研發(fā)過程中所遭遇的很多難題其實(shí)折射出傳媒數(shù)據(jù)庫建設(shè)的共性困境,這些具體的問題及其解決為本文寫作提供了靈感和素材;二則與數(shù)據(jù)庫編程專家貫穿始終的深入討論甚至爭辯,也促使筆者學(xué)習(xí)如何以計算機(jī)科學(xué)的思維方式來思考本學(xué)科的問題,并嘗試將這些思考以本學(xué)科畛域的話語方式表達(dá)出來。
⑦ 據(jù)不完全統(tǒng)計,國內(nèi)自建數(shù)據(jù)庫的新聞媒體除了前文列舉的之外,還有:國家廣電總局、解放軍報社、北京日報社、廣州日報社、浙江日報社、深圳特區(qū)報、天津日報社、貴陽日報社、浙江工人日報社、銀川晚報社等新聞媒體。
⑧ 上述數(shù)據(jù)庫具體內(nèi)容依次參見下列文獻(xiàn):葛紅霞:《轉(zhuǎn)企改制與構(gòu)建媒體用戶數(shù)據(jù)庫》,《記者搖籃》,2012年第2期;陳秀敏:《廣播影視政策研究數(shù)據(jù)庫建設(shè)與發(fā)展思考》,《廣播與電視技術(shù)》,2014年第6期;胡新橋,劉志月:《廣告專業(yè)化數(shù)據(jù)庫生存策略》,《新聞前哨》,2010年第6期;《合潤SSI影視劇數(shù)據(jù)庫正式上線》,《聲屏世界·廣告人》,2013年第7期;劉勝男:《搜狐建立飛手?jǐn)?shù)據(jù)庫 加速改變新聞生產(chǎn)方式》,《中國傳媒科技》,2015年第9期。
⑨ 如貴陽日報數(shù)據(jù)庫就向當(dāng)?shù)攸h政機(jī)關(guān)、企業(yè)、高等院校等提供信息服務(wù),見郭英劍,梅敏:《無憂檢索、增值管理、服務(wù)社會——貴陽日報數(shù)據(jù)庫激活信息數(shù)字化》,《中國傳媒科技》,2003年第2期。