劉成勇
早在1980年,著名的未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據贊頌為“第三次浪潮的華彩樂章”。2009年前后,“大數據”一詞才開始逐步受到信息技術行業(yè)的重視。在經歷了幾年的批判、質疑、討論、炒作之后,大數據迎來了屬于它的時代。2012年3月,美國白宮科技政策辦公室發(fā)布《大數據研究和發(fā)展計劃》,成立“大數據高級指導小組”,率先將“大數據戰(zhàn)略”上升為國家戰(zhàn)略。
2014年3月,“大數據”首次出現在我國《政府工作報告》中。2015年7月,國務院辦公廳發(fā)布《關于運用大數據加強對市場主體服務和監(jiān)管的若干意見》。8月,國務院印發(fā)《促進大數據發(fā)展行動綱要》,明確規(guī)劃國家將實施政府數據資源共享開放工程、國家大數據資源統(tǒng)籌發(fā)展工程、政府治理大數據工程、公共服務大數據工程、萬眾創(chuàng)新大數據工程、大數據關鍵技術及產品研發(fā)與產業(yè)化工程、大數據產業(yè)支撐能力提升工程、網絡和大數據安全保障工程等十項大數據工程。10月,黨的十八屆五中全會提出,實施網絡強國戰(zhàn)略,實施“互聯網+”行動計劃,實施國家大數據戰(zhàn)略,標志著大數據戰(zhàn)略正式上升為國家戰(zhàn)略,開啟了大數據建設的新篇章。
一、從信息視角認識世界
人類已經進入信息社會、信息時代,信息是我們這個世界賴以運行的血液、食物和生命力。盡管信息的原始形式已經存在了成千上萬年,但是真正對信息進行理性認識,卻還是上個世紀中葉左右的事。信息是什么?1948年,控制論的創(chuàng)始人維納(Norbert Wiener)在《控制論——關于在動物和機器中控制和通信的科學》一書中指出:“信息就是信息,既不是物質也不是能量?!睆亩谝淮伟研畔⑻岬搅伺c物質、能量并駕齊驅的地位,勾畫出了一幅“物質—能量—信息”的世界三要素的新圖景。哈佛大學信息政策研究中心主任A.歐廷格(Oettinger)說:“沒有物質,任何東西都不存在;沒有能量,任何事情都不會發(fā)生;沒有信息,任何東西都沒有意義?!?/p>
人們一般很少去思考信息與訊息、消息、知識、數據等之間的聯系和區(qū)別。第一次洞察信息本質、也是第一次賦予“信息”一詞精確定義的是克勞德·香農(Shannon)。1949年,香農發(fā)表了《通信的數學理論》,經典地闡明了通信的基本問題,提出了通信系統(tǒng)的模型,給出了信息量的數學表達式,這是人類第一次系統(tǒng)、全面、理性地認識信息,從此奠定了一門新的學科——信息論。香農認為,剝除了語義內容,“信息是用來消除隨機不確定性的東西”,是出人意料,這一定義被人們看作是經典性定義并加以引用。香農還引入了測量信息的最小單位——比特(bit),如今已經躋身為量納的一員,成為今天日常生活都離不開的詞匯。信息與概率密不可分。1比特,從根本上說,就是代表一次擲硬幣猜正反面時的不確定程度。令人頗感興趣的是,香農當時能夠想到的最大信息倉庫是美國國會圖書館。
從此以后,信息論猶如一股洪流,在心理學、遺傳學、量子力學、經濟學、語言學等一個又一個領域掀起了顛覆性的革命,極大地改變了現代科學的面貌。萬物源自比特。在這個大數據時代,所有新聞出版行業(yè)從業(yè)人員在世界觀方面,應該具有“信息”視角,讓信息成為我們世界觀的核心之一,因為我們本身就是信息行業(yè),我們現在所從事的社會活動和工作崗位,歸根結底都是信息的獲取利用、生產加工和傳播消費。
二、樹立三種新的數據思維
西方有一句話:“除了上帝,任何人都應該用數據說話?!薄洞龠M大數據發(fā)展行動綱要》提出建立“用數據說話、用數據決策、用數據管理、用數據創(chuàng)新”的管理機制,這將建立起全社會的數據思維和數據文化。正解大數據要上升到文化的高度,其本質就是理性思維、科學精神、實事求是,因為數據就是事實。大數據專家維克托·邁爾·舍恩伯格在《大數據時代》一書中具有洞見性地提出三種數據思維:整體思維、多樣思維和相關思維,已經成為共識。但我認為,新聞出版行業(yè)更應該具備如下三種思維:
一是價值思維。我們要明明白白地認識到:數據是一種資產,數據是財富。大數據思維的核心是價值思維。這里所說的數據,不僅包括管理數據、交易數據和社交數據,也包括用戶數據。傳統(tǒng)新聞出版單位一定要充分認識到:用戶也是不可忽視的一筆重要財富。2014年2月20日,Facebook宣布用160億美元收購WhatsApp,在整個收購的價值組成中,對WhatsApp逾5億用戶的估值約為20億美元(約合人民幣123億元),相當于每名用戶約4美元(約合人民幣25元)。
二是應用思維。有人說,誰擁有了大數據,誰就擁有了未來,就占領了制高點、取得了主動權。這種觀點值得商榷,因為數據的價值在于應用,而不在于擁有。大數據真正重要的不是數據本身,如何利用數據驅動單位內部的業(yè)務流程和產品研發(fā)才是重中之重,這意味著要從業(yè)務驅動轉變?yōu)閿祿寗?,這正是傳統(tǒng)產業(yè)轉型升級的關鍵所在。數據比流程更重要,這一點對于新聞出版行業(yè)尤其關鍵,因為我們這個行業(yè)定量思維、數據決策嚴重匱乏,選題策劃、印數決策等更多地依賴于經驗。亞馬遜與傳統(tǒng)書店對決的勝出,最核心的原因在于,其電子商務架構于大數據平臺之上,通過全維度記錄、存儲與描述數據,深入進行數據關聯與數據挖掘,并基于數據進行預測與推薦。而傳統(tǒng)發(fā)行行業(yè)面臨的痛點在于,產品與服務無法數據化。
三是共享思維。出版單位內部的數據孤島現象是普遍存在的,有的出版社不同編輯室之間連作者信息都不能共享。出版?zhèn)髅郊瘓F不同企業(yè)之間的孤島效應更加明顯,新聞出版行業(yè)層面更是缺乏大數據平臺。大數據的發(fā)展需要全社會、全行業(yè)協(xié)同,最終實現數據共享。共享是指“使用而非擁有”,非公非私,既可以公有私用,也可以私有公用。必須要認識到,本部門、本企業(yè)、本集團、本行業(yè)內部數據如果不流動起來,不與外部數據融合,就會成為死數據。越共享,效率越高。當然共享并不意味著免費,關鍵在于利益機制設計。
三、大數據在解決新聞出版業(yè)痼疾方面大有可為
長期以來,新聞出版行業(yè)形成了幾大痼疾,嚴重影響產業(yè)健康發(fā)展:一是庫存暴漲,產能過剩,供需嚴重不匹配,已經成為產業(yè)不能承受之重,風險極大,行業(yè)亟需綠色發(fā)展。出版業(yè)和全國經濟一樣,面臨巨大的去庫存問題。2004到2014年10年時間,全國總庫存(出版社和新華書店系統(tǒng))數量增長近25億冊,金額突破1000億元,達到創(chuàng)紀錄的1010億元,而2014年全國純銷售僅為778億元,早已形成倒掛之勢,剔除中小學教材,實際庫銷比已經逼近2。二是發(fā)行市場諸侯割據,條塊分割,缺乏全國性的發(fā)行中盤,統(tǒng)一開放競爭有序的全國大市場遠遠沒有形成,導致我國的出版?zhèn)髅郊瘓F難以做大主業(yè)。三是出版發(fā)行生態(tài)鏈畸形,寄銷制導致無條件退貨,賬期長,回款難,誠信缺失,真正意義上的出版社圖書單品種核算難以實現,編輯績效考核和激勵機制難以建立,整個行業(yè)仍是粗放式管理。要想從根本上解決上述問題,就必須充分利用大數據技術,建立行業(yè)大數據平臺和信用信息平臺,從產業(yè)鏈上中下游進行精確管理,數據驅動選題策劃、印刷決策,分析用戶行為,精準營銷、個性化推薦,重塑出版生產、銷售和管理模式。
四、新聞出版行業(yè)有哪些大數據
人人都在談大數據,到底新聞出版行業(yè)擁有哪些大數據?仁者見仁,智者見智,分類方法很多。我認為,從業(yè)務來分,新聞出版大數據可分為七類:一是機構數據。主要包括新聞出版政府機構、事業(yè)單位、行業(yè)協(xié)會,出版?zhèn)髅郊瘓F、出版社、報社、期刊社、音像電子社、印刷廠、發(fā)行集團、書店等企業(yè)和機構的名稱、地址、法定代表人、網址、規(guī)模、業(yè)務范圍、收入、利潤等數據。二是人員數據。主要包括公務員、企業(yè)管理人員、編輯、記者、發(fā)行、技術、作者、專家等新聞出版行業(yè)從業(yè)人員的基本數據,如姓名、性別、地區(qū)、行業(yè)、專長、職務、職稱、主要作品、發(fā)表文章、教育經歷、職業(yè)經歷等數據。三是產品數據。包括圖書數據、報紙數據、期刊數據、音像制品數據和網絡出版物數據。既包括作者等元數據,也包括選題數據、發(fā)稿數據、印刷數據、版權數據等。四是政務數據。指政府在綜合辦公、市場監(jiān)管、公共服務過程產生的數據,包括人事信息、財務數據、政策法規(guī)、統(tǒng)計信息、規(guī)劃計劃、標準信息等。五是商務數據。指新聞出版企業(yè)主體在市場交易過程中產生的數據,包括合同、供貨、采購、發(fā)貨、退貨、結算、版權交易等數據。包括用戶人口屬性數據、用戶關系數據、用戶行為數據等。像評論、轉發(fā)、分享、下載、點贊、收藏數據,粉絲數、認證信息、學習時段、閱讀工具、閱讀方式、閱讀時間段、閱讀時長、閱讀偏好、閱讀能力、閱讀目的、閱讀范圍等用戶行為數據正是目前移動互聯網出版所必須關注的。七是內容數據,包括信息和知識。一般將知識歸納為四種類型:事實知識、原理知識、技能知識和人力知識。中文百科知識體系把人類科學文化知識和實踐活動領域分為24個類別,形成了中文百科分類目錄。這是我們新聞出版行業(yè)所特有的數據寶藏,也是知識服務的基礎。
五、了解一點大數據技術
要想不被IT企業(yè)神乎其神的大數據軟件和技術所忽悠,有必要對大數據技術略知一二。大數據關鍵技術一般包括大數據采集技術、大數據存儲及管理技術、大數據分析及挖掘技術、大數據展現及應用技術等。
網絡爬蟲、ETL(Extract-Transform-Load)和數據眾包屬于大數據采集技術。我們所熟知的高德地圖則綜合采用情報搜集平臺LSE、API軌跡分析、衛(wèi)星影像自動識別、UGC反饋以及浮動車等多種數據采集技術。大數據存儲及管理關鍵技術則包括Hadoop的三大核心技術,即分布式文件系統(tǒng)(HDFS)、分布式系統(tǒng)架構(MapReduce)和分布式數據庫(NoSQL)。大數據分析及挖掘技術包括自然語言處理、語義分析、關聯挖掘分析、神經網絡、話題檢測與追蹤、情感傾向分析、序列分析、機器學習、個性化推薦、文本智能處理技術、圖像識別、模式識別、語音識別等。個性化推薦又可以分別基于協(xié)同過濾、關聯規(guī)則、社交圈、用戶畫像、內容來進行推薦。文本智能處理技術包括文本分類、相似性檢測、自動摘要、主題詞標引、信息抽取、文本聚類、中文分詞。大數據展現及應用技術值得一提的是數據可視化技術,傳統(tǒng)的數據展示是單調、乏味的,多以餅圖、柱圖和線圖等形式展示,遠遠滿足不了多角度、多層次及交互性的要求,那么大數據數據可視化技術則可以提供標簽云、聚類圖、流圖、熱圖、散點圖等更具表現力、更具交互性的數據可視化實現方案,將數據的各個屬性值以多維數據的形式表示,使人們能夠以更直觀的方式看到數據及其結構關系,發(fā)現數據中隱含的信息,從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。最后,還要提一下云計算與大數據的關系。大數據和云計算是一枚硬幣的兩面,大數據必須云計算來處理,云計算的本質就是大數據處理技術。云計算和大數據應當成為大型新聞出版?zhèn)髅郊瘓F的標配。
六、亟需建立新聞出版大數據標準體系
標準化是建設新聞出版大數據的基礎與關鍵,也是真正實現新聞出版大數據潛在價值的必要條件。2014年,工信部和國標委成立了“全國信標委大數據標準工作組”,負責制定和完善我國大數據領域標準體系。建設新聞出版大數據過程中,多源采集的數據存在格式混亂、對接困難等問題,必然會降低數據挖掘、分析的效率,影響其價值的實現。因此,必須開展新聞出版大數據標準頂層設計,從基礎、技術、產品、安全、管理、應用等多個角度梳理新聞出版大數據標準需求,建立健全新聞出版大數據標準體系,重點突破一批涉及大數據的基礎性、方法性、應用性標準的研制,指導新聞出版大數據的采集、共享、交換、加工、應用和服務,為新聞出版大數據發(fā)展夯實基礎。在研究國家大數據技術標準體系框架的基礎上,結合出版數據自身的特點,以及未來出版大數據發(fā)展的趨勢,新聞出版大數據標準體系框架可以包括基礎標準、技術標準、產品和平臺標準、安全標準、應用和服務標準等五大類。其中,基礎標準包括總則、術語、技術參考模型、元數據等標準。技術標準包括數據治理、數據質量等標準。產品和平臺類標準主要包括智能工具、可視化工具、大數據平臺、測試規(guī)范等標準。數據安全標準主要包括通用要求、隱私保護等標準。應用和服務標準包括開放數據集、數據服務平臺、領域應用數據等標準。
七、建立新聞出版行業(yè)大數據共享交換機制和平臺至關重要
正如英特爾中國研究院院長吳甘沙所說,數據之于數據社會,就如同水之于城市或者血液之于身體一樣。要真正盤活新聞出版大數據資源,讓散落在各處的新聞出版數據真正流動起來,建立新聞出版政府主管部門、新聞出版企業(yè)和社會之間的大數據共享交換機制和平臺就顯得格外必要。一是政府統(tǒng)籌規(guī)劃、全面部署。倡導通過市場化、社會化方式匯聚和優(yōu)化配置社會資源,避免出現新的“信息孤島”。二是開辟多種數據采集渠道。綜合行政收集、自愿提供、有償購買、協(xié)議交換、網絡抓取、傳感收集等方式建立新聞出版大數據采集機制。尤其要加強對新聞出版企業(yè)信息化規(guī)劃與行業(yè)大數據采集需求的融合指導,鼓勵新聞出版企業(yè)加強對其生產經營活動中數據的采集。三是創(chuàng)造多種數據共享模式。鼓勵各級新聞出版主管機構率先推進政務數據資源的集中與開放,與社會聯動;鼓勵新聞出版企業(yè)通過商業(yè)行為創(chuàng)新數據共享機制,探索既確保多方數據所有權又實現數據整合應用的商業(yè)模式;鼓勵民間資本參與新聞出版大數據共享交換體系的建立。四是解決信息安全和隱私保護等。只有對涉及隱私保護和商業(yè)秘密的數據進行合理化處理,才能最大化發(fā)揮數據共享交換各方的積極性,才能實現新聞出版大數據的有序共享。
八、加快建設行業(yè)大數據重大工程,構建新聞出版大數據體系
新聞出版大數據體系應該包括基礎設施、數據、技術、平臺、應用、標準、安全、機構、機制等方面。重大工程對構建大數據體系起著核心作用。“十三五”期間,應該從政府監(jiān)管、公共服務和產業(yè)發(fā)展三個層面啟動若干重大工程。在政府監(jiān)管層面,啟動新聞出版及掃黃打非大數據監(jiān)管工程,建設新聞出版信息資源數據庫,提升政府決策支撐、風險防范、市場監(jiān)管、重大事件預警能力。在公共服務層面,啟動出版發(fā)行信息公共服務平臺,建成全國出版可供書目數據庫,形成基于國家標準的支撐出版、發(fā)行、采購、編目、決策于一體的新型公共服務模式。在產業(yè)發(fā)展層面,啟動新聞出版大數據應用工程,包括國家知識服務大數據應用工程、國家出版發(fā)行大數據應用工程、ISLI標準大數據應用工程等。
對于新聞出版人來說,大數據完全不同于云計算、移動互聯網、物聯網,后者都是技術,而懂技術、關心技術的總是少數,而數據、信息、知識則不同,它們是內容,是我們生存的根本,我們應該具有信息視角、數據思維,我們的重點應該放在數據、信息的采集、處理和應用上,扎扎實實、一點一滴做好數字化轉型工作,開創(chuàng)新聞出版業(yè)創(chuàng)新、協(xié)調、綠色、開放、共享發(fā)展之路,因為我們都是馬歇爾·麥克盧漢所說的“采集信息為生的人”。
九、數字化轉型仍然是大數據的基礎
應用大數據首先要擁有大數據。可是,大數據在哪兒呢?目前,出版?zhèn)髅狡髽I(yè)自己擁有大數據平臺和大數據采集能力的很少,大多沒有用戶多方位屬性和行為數據,難以對用戶行為和個性化需求進行深入分析。而擁有用戶大數據的社交網站、電商、互聯網公司也不會把大數據給出版企業(yè)使用。即使是出版企業(yè)內部的小數據,也散落在網站、ERP、協(xié)同編輯系統(tǒng)等不同的系統(tǒng)平臺,沒有統(tǒng)一整合。因此,出版企業(yè)大數據建設頂層設計要統(tǒng)籌大數據與小數據、內部數據與外部數據。首先,要全面進行ERP建設,加強對選題、生產、營銷、發(fā)行、服務、財務、管理等全過程的管理信息化,完整收集過程中的內部數據,這是大數據的基礎之基礎。臨淵羨魚,不如退而結網。其次,全面推進數字化轉型,國家數字復合出版系統(tǒng)工程研發(fā)的新聞內容選題與評價系統(tǒng)、圖書選題及發(fā)行分析系統(tǒng)、出版信息采集與策劃服務系統(tǒng)、全文相似性分析系統(tǒng)、內容動態(tài)重組系統(tǒng)、發(fā)布管理系統(tǒng)、出版機構運營服務與支撐系統(tǒng)、多形態(tài)廣告發(fā)布系統(tǒng)、在線學習平臺、數字資源標準管理與解析服務系統(tǒng)、復合出版數據傳遞系統(tǒng)、全國出版內容交換系統(tǒng)等眾多系統(tǒng)和平臺,全方位支持新聞出版企業(yè)的創(chuàng)意、生產、營銷和經營管理活動,讓新聞出版企業(yè)充分擁抱大數據和互聯網,希望能在不久的將來全面應用在所有新聞出版企業(yè),否則大數據就是無源之水,無本之本。
十、不能神化大數據
撥開對大數據紙上談兵和美好理想的迷霧,對大數據專家所強調的全樣本、相關性和混雜性需要保持清醒的認識,不要神化大數據。首先,大數據不能代替小數據,全樣本分析依然不能代替抽樣調查。原因是大數據技術本身以及現實的條件遠遠沒有達到全體樣本的水平,存在一定偏差。大數據與傳統(tǒng)數據最主要的不同在于,大數據的采集過程更多是生產經營等各類活動的未經處理的附屬產品,數據反映的信息可能只是總體的一部分。何況總體取決于人們關心的問題,總體是會變化的。另外,過度追求全樣本可能造成建設模式復雜度升高、成本增加而導致事實上不可能。不能片面追求大數據。不是所有企業(yè)都必須考慮大數據戰(zhàn)略,大數據分析有其門檻。規(guī)模不夠大的企業(yè)可以考慮購買服務。第二,即使在使用抽樣數據時,我們也從未奢望過數據的精確性。我們從來都要在信息混雜的情況下做出大多數的決策。百分百的數據決策、科學決策是做不到的,否則還要創(chuàng)意干什么呢?恐怕在相當長的時間,我們都要數據決策和經驗決策并重。第三,強調相關關系而忽視因果關系是讓人無法接受的,尤其是以知識傳承為使命的新聞出版行業(yè),大數據不能代替理性思考、邏輯演繹。甚至《大數據時代》一書的譯者周濤都公開表示:如果放棄了對因果的追求,就是放棄了人凌駕計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落。其實,因果關系也是相關關系的一種。
(作者系新聞出版總署信息中心副主任)