(張鵬,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系知識工程研究室資深工程師,清華數(shù)據(jù)科學(xué)研究院科技大數(shù)據(jù)研究中心研究員,研究領(lǐng)域包括文本數(shù)據(jù)挖掘和語義分析、知識圖譜構(gòu)建和應(yīng)用等)
當(dāng)前新聞業(yè)務(wù)的發(fā)展對基于事件的報(bào)道管理和稿件組織有著迫切的需求,但國內(nèi)正在使用的各種新聞標(biāo)準(zhǔn)和采編系統(tǒng)均沒有從系統(tǒng)設(shè)計(jì)上很好地滿足這種需求。另一方面,根據(jù)建立多媒體業(yè)態(tài)發(fā)展的需要,新聞產(chǎn)品及資源需要提供更加多元化的展示方式。相比于傳統(tǒng)的按照時間順序展示新聞,按新聞主題事件組合展示的方式逐漸被廣泛使用。例如,以新聞事件為中心組織報(bào)道和稿件的編輯加工,以市場為導(dǎo)向進(jìn)行新聞產(chǎn)品的生產(chǎn),尤其是面向新興媒體用戶,提供滿足個性化需求、基于專題和突發(fā)事件的產(chǎn)品營銷和稿件展示方式。這一多媒體報(bào)道形式的轉(zhuǎn)變,要求新聞信息管理平臺能夠提供基于事件的新聞組織管理和展示方式。對此,國外通訊社(德新社、美聯(lián)社)已經(jīng)建立相應(yīng)的技術(shù)系統(tǒng)。IPTC發(fā)布的NewsML G2標(biāo)準(zhǔn)就是其中的代表性成果。
綜上,中文新聞事件標(biāo)準(zhǔn)的制定和應(yīng)用已經(jīng)是必然的趨勢。報(bào)道策劃和新聞事件信息置標(biāo)語言(Reporting Planing and News Event Markup Language,以下簡稱REML)標(biāo)準(zhǔn)恰好滿足了以上對于新聞數(shù)據(jù)標(biāo)準(zhǔn)的需求,為實(shí)現(xiàn)適合新聞業(yè)務(wù)特點(diǎn)和發(fā)展要求的基于事件的新聞稿件組織模式、報(bào)道管理模式和新聞產(chǎn)品供稿模式提供了堅(jiān)實(shí)的基礎(chǔ),也填補(bǔ)了國內(nèi)相關(guān)領(lǐng)域的一項(xiàng)空白。
REML標(biāo)準(zhǔn)的需求主要分為業(yè)務(wù)流程需求和數(shù)據(jù)需求兩個方面,其中,業(yè)務(wù)流程需求是根本,數(shù)據(jù)需求是對業(yè)務(wù)流程需求在元數(shù)據(jù)層面的具體化表現(xiàn)。
根據(jù)新聞事件報(bào)道的業(yè)務(wù)流程,大致上可以將新聞事件分為有計(jì)劃事件和突發(fā)事件兩種。兩種新聞事件在報(bào)道流程上略有不同。
1.1 有計(jì)劃事件報(bào)道流程
有計(jì)劃事件報(bào)道流程示意圖,如圖1所示。
如圖1所示,整個事件報(bào)道流程可以分為三個階段:準(zhǔn)備、進(jìn)行和結(jié)束。
(1)準(zhǔn)備階段指事件報(bào)道還未開始,進(jìn)行事件前的各項(xiàng)準(zhǔn)備工作階段。該階段主要包括事件發(fā)起(確定事件的大致內(nèi)容、時間表等信息),報(bào)道準(zhǔn)備(確定參與事件報(bào)道工作的人力、設(shè)備等資源),報(bào)道組織(依據(jù)事件時間表和人力物力等資源,安排報(bào)道的詳細(xì)計(jì)劃)三個步驟。
(2)進(jìn)行階段指事件報(bào)道已開始,隨時根據(jù)事件進(jìn)展發(fā)布、更新事件相關(guān)信息的過程。該階段主要的工作內(nèi)容就是根據(jù)實(shí)際報(bào)道工作過程中產(chǎn)生的各種反饋信息調(diào)整事件數(shù)據(jù)和報(bào)道組織數(shù)據(jù),并及時發(fā)送給各個需求方。
(3)結(jié)束階段指事件報(bào)道已經(jīng)終止,對報(bào)道工作進(jìn)行后期總結(jié)、匯總和整理的過程。該階段的工作主要步驟是報(bào)道總結(jié)(對報(bào)道管理信息的統(tǒng)計(jì)分析),以及事件歸檔(將事件信息加工成完整成熟的事件知識庫詞條)。
圖 1 有計(jì)劃事件報(bào)道流程
1.2 突發(fā)事件報(bào)道流程
突發(fā)事件報(bào)道流程由于突發(fā)事件的特殊性,與有計(jì)劃事件報(bào)道流程的差異主要是基本沒有準(zhǔn)備階段,進(jìn)行階段和結(jié)束階段基本相同。突發(fā)事件報(bào)道流程示意圖,如圖2所示。
圖 2 突發(fā)事件報(bào)道流程
需要特殊說明的是,突發(fā)事件報(bào)道流程中,最開始發(fā)布事件時,由于時間緊迫,缺乏事先的準(zhǔn)備,只有對事件本身的簡單描述,報(bào)道組織相關(guān)的數(shù)據(jù),例如報(bào)道需要的人力物力、報(bào)道安排等都十分缺乏設(shè)置完全沒有。這些缺少的數(shù)據(jù)需要在進(jìn)行階段不斷更新,甚至到結(jié)束階段視情況進(jìn)行后期補(bǔ)充。
REML標(biāo)準(zhǔn)覆蓋的元數(shù)據(jù)主要分為兩類:事件元數(shù)據(jù)和報(bào)道元數(shù)據(jù)。
事件元數(shù)據(jù)定義了事件元數(shù)據(jù)指描述新聞事件本身的客觀元數(shù)據(jù)。一個事件的描述信息,包括一個通用的屬性集和一些特定于事件的屬性,并且這些屬性通過一個完整結(jié)構(gòu)來包裝。通用的屬性集包括了事件的名稱、定義、標(biāo)注以及事件與其他某個事件或者某個話題的關(guān)系。特定屬性包括了時間、發(fā)生狀態(tài)、訪問狀態(tài)信息、加入條件信息、主題信息、地點(diǎn)信息、參與者信息、組織者信息、聯(lián)系信息、語言信息、其他信息等內(nèi)容。
報(bào)道元數(shù)據(jù)是指新聞事件報(bào)道之前或過程中產(chǎn)生的管理元數(shù)據(jù)。報(bào)道元數(shù)據(jù)應(yīng)包含了報(bào)道人員、事件報(bào)道中需要使用的各種設(shè)備信息、報(bào)道任務(wù)等、以及提供者根據(jù)自己的需要利用自定義結(jié)構(gòu)和元數(shù)據(jù)來提供額外的非標(biāo)準(zhǔn)信息。
2.1 研制過程
REML標(biāo)準(zhǔn)的研制工作從2012年6月正式啟動,經(jīng)過近10個月的調(diào)研、分析、起草、驗(yàn)證和修改過程,于2013年3月基本定稿,并完成標(biāo)準(zhǔn)文本。后經(jīng)公開意見征集,收集了眾多新聞行業(yè)內(nèi)外專家學(xué)者和企業(yè)技術(shù)工作者的反饋意見,并依此對標(biāo)準(zhǔn)文本進(jìn)行了大規(guī)模增補(bǔ)修訂,最終于2017年完成全部國標(biāo)送審和報(bào)批工作,于2017年12月底由國家標(biāo)準(zhǔn)委正式發(fā)布為國家標(biāo)準(zhǔn)。
標(biāo)準(zhǔn)的起草單位包括新華通訊社、清華大學(xué)、北京中科大洋科技發(fā)展股份有限公司、新奧特(北京)視頻技術(shù)有限公司、人民日報(bào)社、北京日報(bào)報(bào)業(yè)集團(tuán)、解放軍報(bào)社、北京北大方正電子有限公司和中國傳媒大學(xué)等來自學(xué)術(shù)界、媒體、科技企業(yè)等多個領(lǐng)域的頂尖單位,起草人也囊括了媒體領(lǐng)域?qū)<?、學(xué)者教授、計(jì)算機(jī)技術(shù)專家以及眾多媒體一線工作者,確保了標(biāo)準(zhǔn)的研制過程既有理論高度,又切合行業(yè)實(shí)際情況。
標(biāo)準(zhǔn)的研制過程包括了需求收集分析、標(biāo)準(zhǔn)設(shè)計(jì)和起草、公開征求意見和修改以及應(yīng)用測試等幾個階段。
在需求收集分析階段,標(biāo)準(zhǔn)起草小組成員廣泛調(diào)研了當(dāng)前國內(nèi)外相關(guān)的標(biāo)準(zhǔn)規(guī)范,收集了國內(nèi)新聞領(lǐng)域的各種需求。在相關(guān)標(biāo)準(zhǔn)方面,IPTC國際標(biāo)準(zhǔn)組織發(fā)布的NewsML-G2中包含的EventsML-G2是相關(guān)性最大的工作;國內(nèi)的國家標(biāo)準(zhǔn)GB/T 20092-2013 中文新聞信息置標(biāo)語言(CNML)則是中文新聞信息標(biāo)準(zhǔn)領(lǐng)域最權(quán)威的技術(shù)標(biāo)準(zhǔn)之一。這兩項(xiàng)標(biāo)準(zhǔn)為REML標(biāo)準(zhǔn)的研制工作提供了良好的基礎(chǔ)和參考依據(jù)。與此同時,通過對國內(nèi)新聞領(lǐng)域的相關(guān)需求收集,也獲得了眾多有價值的需求信息,包括:
(1)事件導(dǎo)向的新聞采編、管理流程,以及REML標(biāo)準(zhǔn)在上述流程中的地位和應(yīng)用模式等。這方面的需求從根本上決定了REML標(biāo)準(zhǔn)的服務(wù)對象,業(yè)務(wù)模型和數(shù)據(jù)模型等各個方面。
(2)元數(shù)據(jù)模型的需求。從EventsML-G2標(biāo)準(zhǔn)的內(nèi)容來看,IPTC標(biāo)準(zhǔn)組已經(jīng)將事件導(dǎo)向的新聞工作流程中的各種可能都已經(jīng)考慮的比較周全,但是在各種細(xì)節(jié)上,由于國情和語言、工作習(xí)慣上的差異可能會導(dǎo)致其元數(shù)據(jù)模型與實(shí)際應(yīng)用需求間的各種差異。因此,有必要針對我國中文新聞環(huán)境下的特殊情況,考慮對其元數(shù)據(jù)模型進(jìn)行必要的增補(bǔ)和修改。
(3)與CNML標(biāo)準(zhǔn)的配合。CNML標(biāo)準(zhǔn)已經(jīng)成為中文新聞信息領(lǐng)域的國標(biāo),且已經(jīng)獲得了業(yè)內(nèi)大多數(shù)單位和企業(yè)的采納。REML標(biāo)準(zhǔn)的制定必須要緊密圍繞CNML標(biāo)準(zhǔn),利用好CNML標(biāo)準(zhǔn)現(xiàn)有的各種有利條件。
從需求收集的結(jié)果來看,新需求主要集中在對報(bào)道管理系統(tǒng)的支持上。與EventsML-G2相比,REML標(biāo)準(zhǔn)既包括了面向新聞用戶的事件數(shù)據(jù)表示和應(yīng)用,還兼顧了新聞生產(chǎn)者以事件為中心的全新新聞報(bào)道管理流程和規(guī)范。
依據(jù)上述需求,標(biāo)準(zhǔn)起草小組融合置標(biāo)語言、語義網(wǎng)等技術(shù),吸收EventsML-G2和CNML標(biāo)準(zhǔn)的優(yōu)點(diǎn),完成了REML標(biāo)準(zhǔn)的初步起草工作。起草稿既保證了與EventsML-G2和CNML標(biāo)準(zhǔn)的兼容性,又補(bǔ)充擴(kuò)展了面向國內(nèi)新聞行業(yè)專業(yè)需求的元數(shù)據(jù)和業(yè)務(wù)模型。
在之后的兩年多時間里,標(biāo)準(zhǔn)研制小組一邊征集各方專家對REML標(biāo)準(zhǔn)的建議和意見,一邊也積極與技術(shù)公司合作,將REML標(biāo)準(zhǔn)應(yīng)用于實(shí)際新聞行業(yè)應(yīng)用系統(tǒng)的開發(fā)中,通過實(shí)際的軟件開發(fā)和使用獲取更直接和更真實(shí)的反饋意見。通過對這些專家意見和應(yīng)用測試反饋的仔細(xì)分析研判,標(biāo)準(zhǔn)起草小組對REML標(biāo)準(zhǔn)內(nèi)容進(jìn)行了持續(xù)不斷地升級修改,期間歷經(jīng)近十個版本的迭代,最終形成相對穩(wěn)定且實(shí)用的標(biāo)準(zhǔn)版本。
2.2 技術(shù)優(yōu)勢
REML標(biāo)準(zhǔn)的研制過程其實(shí)是一次技術(shù)創(chuàng)新和思維方式改造的過程,才能保證標(biāo)準(zhǔn)在本領(lǐng)域中處于領(lǐng)先地位,并且在相當(dāng)一段時間內(nèi)仍然保持其生命力和應(yīng)用價值。REML的技術(shù)優(yōu)勢主要體現(xiàn)在如下幾個方面:
首先,REML標(biāo)準(zhǔn)的數(shù)據(jù)模型涵蓋了新聞事件和報(bào)道的策劃、生產(chǎn)、交換和管理等新聞事件數(shù)據(jù)的全生命周期,是一套完整的新聞事件信息數(shù)據(jù)解決方案。這點(diǎn)可以保證新聞事件數(shù)據(jù)在多個技術(shù)系統(tǒng)間實(shí)現(xiàn)自由流轉(zhuǎn),而并不需要轉(zhuǎn)換,大大降低了數(shù)據(jù)使用和管理的成本,也降低了相關(guān)系統(tǒng)的開發(fā)難度。
其次,REML標(biāo)準(zhǔn)與現(xiàn)有中文新聞信息國家標(biāo)準(zhǔn)(例如中文新聞信息置標(biāo)語言,CNML)之間有良好的兼容性,對已經(jīng)采用了CNML標(biāo)準(zhǔn)的單位、系統(tǒng)來說都不存在任何顛覆性技術(shù)風(fēng)險(xiǎn)。
再次,REML標(biāo)準(zhǔn)采用了面向知識的語義技術(shù),不僅可以描述新聞事件數(shù)據(jù)本身,還可以與外部知識庫進(jìn)行關(guān)聯(lián),進(jìn)而實(shí)現(xiàn)新聞事件數(shù)據(jù)的語義化分析處理,甚至以此為基礎(chǔ)建立新聞事件知識庫。
2.3 應(yīng)用及前景
REML標(biāo)準(zhǔn)的研發(fā)過程采用了更先進(jìn)的“研制-應(yīng)用”雙線螺旋式推進(jìn)模式。該模式的優(yōu)勢顯而易見,標(biāo)準(zhǔn)在研制過程中就充分考慮了實(shí)際應(yīng)用的需要,并且通過實(shí)際應(yīng)用對標(biāo)準(zhǔn)進(jìn)行充分的驗(yàn)證和修正,避免了標(biāo)準(zhǔn)高高在上,與實(shí)際應(yīng)用脫節(jié)的問題。
隨著融媒體服務(wù)、知識服務(wù)和智能服務(wù)的概念在新聞領(lǐng)域逐漸興起和發(fā)展,新聞生產(chǎn)和利用逐漸向數(shù)據(jù)融合、知識融合的方向快速前進(jìn)。新聞事件數(shù)據(jù)作為行業(yè)中最重要的知識和資產(chǎn)之一,必將成為各新聞媒體單位關(guān)注的重點(diǎn)。而REML標(biāo)準(zhǔn)的頒布實(shí)施,則從標(biāo)準(zhǔn)層面保證了新聞事件從生產(chǎn)端開始就是以高質(zhì)量結(jié)構(gòu)化的形式保存,并且能夠有效交換和傳輸,最后還能以語義數(shù)據(jù)的形式成為知識資產(chǎn),為構(gòu)建基于新聞事件知識的智能服務(wù)提供基礎(chǔ)。