姚永春
大數(shù)據(jù)應用通常需要依賴數(shù)據(jù)公司的外部數(shù)據(jù)服務,但外部數(shù)據(jù)服務能否取得良好的效果,取決于出版企業(yè)對自己的需求和目標是否有明確清晰的刻畫。出版企業(yè)如果缺乏明確的大數(shù)據(jù)應用規(guī)劃,再好的大數(shù)據(jù)技術服務也難有用武之地。
這是一個概念層出不窮的時代,有些概念不過是曇花一現(xiàn),有些卻注定會改變整個人類社會的發(fā)展軌跡,“大數(shù)據(jù)”當是后者中的一個。自20世紀80年代被提出,到現(xiàn)今炙手可熱,“大數(shù)據(jù)”概念在一番沉寂后,終于迎來“大爆發(fā)”。《自然》《科學》等重要刊物相繼推出“大數(shù)據(jù)”??烙⒌葒奥?lián)合國先后提出與大數(shù)據(jù)相關的發(fā)展計劃。2013年,Gartner將大數(shù)據(jù)列為在未來三年將對企業(yè)的長期計劃、規(guī)劃和行動方案產(chǎn)生重大影響的十大戰(zhàn)略技術之一,更讓其商業(yè)實踐如火如荼:IBM、微軟、甲骨文、EMC等大數(shù)據(jù)行業(yè)公司設計出各種“硬件+軟件+數(shù)據(jù)”的整體解決方案,提供基礎性服務;亞馬遜、臉譜、谷歌、沃爾瑪、淘寶、百度、阿里巴巴、騰訊等企業(yè),通過深度挖掘自身積累的海量用戶數(shù)據(jù),在精準營銷、個性化服務等各個業(yè)務領域積極嘗試大數(shù)據(jù)應用,布局大數(shù)據(jù)業(yè)務體系。同時根據(jù)Gartner的一份名為《2013年大數(shù)據(jù)普及程度背后的炒作》的報告,64%的受訪企業(yè)表示他們正在或即將進行大數(shù)據(jù)工作。
出版企業(yè)顯然沒有理由漠視大數(shù)據(jù)的存在及其作為一股強大的技術變革力量對商品生產(chǎn)、營銷、消費以及文化領域等方面的影響。出版業(yè)就實質(zhì)而言,自古就是數(shù)據(jù)的生產(chǎn)與集成部門,承擔著生產(chǎn)、收集、管理、分析、發(fā)布數(shù)據(jù),實現(xiàn)數(shù)據(jù)知識化轉(zhuǎn)化的任務。換言之,出版業(yè)是數(shù)據(jù)高度密集型行業(yè)。據(jù)麥肯錫公司下屬全球研究所的一份報告,美國傳媒業(yè)擁有715拍字節(jié)的數(shù)據(jù)總量,在所調(diào)查的17個行業(yè)中位居第三[1]。問題在于,出版企業(yè)該如何把握大數(shù)據(jù)帶來的機遇,真正從“大數(shù)據(jù)金礦”中獲得價值呢?
舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》中分析了有信息化基礎的非互聯(lián)網(wǎng)公司的大數(shù)據(jù)價值鏈。根據(jù)他的觀點,大數(shù)據(jù)的價值創(chuàng)造源自數(shù)據(jù)本身、處理數(shù)據(jù)的技能以及利用數(shù)據(jù)的創(chuàng)新思維三個方面,對應三種商業(yè)模式:掌控大數(shù)據(jù)并利用海量數(shù)據(jù)的授權使用獲取收益,如twitter;掌握大數(shù)據(jù)技術并通過提供技術服務獲取收益,如Teradata;通過挖掘數(shù)據(jù)價值并整合創(chuàng)新獲取收益,如Jetpac。以此觀照大數(shù)據(jù)之于出版企業(yè)的價值,顯然,出版企業(yè)不太可能轉(zhuǎn)型為大數(shù)據(jù)技術的掌控者和服務提供商,而作為大數(shù)據(jù)的掌控者和價值挖掘者,不僅符合出版企業(yè)知識生產(chǎn)、傳播和積累的功能定位,而且能夠充分發(fā)揮出版企業(yè)既有的資源優(yōu)勢和智力優(yōu)勢。與之對應,筆者認為,傳統(tǒng)出版企業(yè)要掘金“大數(shù)據(jù)”,必須在兩個層面進行合理規(guī)劃——大數(shù)據(jù)構建層面和大數(shù)據(jù)應用層面。
一、大數(shù)據(jù)構建層面:從建立大數(shù)據(jù)庫到部署云環(huán)境,搭建出版企業(yè)的大數(shù)據(jù)平臺
在大數(shù)據(jù)時代,數(shù)據(jù)本身是“寶藏”,可以創(chuàng)造價值。傳統(tǒng)出版時代積累的海量數(shù)據(jù)及出版活動中源源不斷產(chǎn)生的新數(shù)據(jù),是“大知識”“大科學”的重要源泉,是出版企業(yè)重要的新經(jīng)濟利益來源。但正如舍恩伯格強調(diào)的,良好的信息基礎是企業(yè)獲得大數(shù)據(jù)價值的前提。只有擁有PB級甚至TB、ZB級的多樣化數(shù)據(jù),且保證這些數(shù)據(jù)能夠便捷地進行關聯(lián),出版企業(yè)才能夠通過對大數(shù)據(jù)的授權使用或相關關系分析生成有價值的數(shù)據(jù)產(chǎn)品獲益,才可能形成自身的大數(shù)據(jù)價值鏈。所以,出版企業(yè)必須著力夯實數(shù)據(jù)基礎,搭建一個標準化、可橫向拓展的統(tǒng)一數(shù)據(jù)平臺,擴大數(shù)據(jù)規(guī)模,擴展數(shù)據(jù)容量,收集、存儲更全面、更翔實、更完備、更有效的出版數(shù)據(jù)及相關數(shù)據(jù),成為規(guī)模數(shù)據(jù)擁有者。大數(shù)據(jù)構建,是出版企業(yè)真正成為數(shù)據(jù)驅(qū)動型企業(yè),掘金大數(shù)據(jù)的根本。
出版企業(yè)大數(shù)據(jù)構建層面的工作可以從兩個方面展開:一是事實信息數(shù)據(jù)化,主要通過大數(shù)據(jù)庫建設完成;二是內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)的對接與整合,主要通過出版企業(yè)云環(huán)境的部署實現(xiàn)。
1.建立出版企業(yè)的大數(shù)據(jù)庫
“大數(shù)據(jù)存在前提是客觀事物的活動狀態(tài)得以便捷高效、低成本、全方位地數(shù)字化記錄”。[2]出版企業(yè)在多年數(shù)字化探索中,雖然已經(jīng)部分實現(xiàn)了事實信息的數(shù)據(jù)化,有了一定的數(shù)據(jù)積累,比如,許多出版企業(yè)通過ERP系統(tǒng),積累了選題、發(fā)行、財務、人事管理等方面的內(nèi)部信息。但整體而言,還是存在數(shù)據(jù)資源數(shù)量少,類型單一,缺乏關聯(lián)等問題,遠遠無法滿足掘金大數(shù)據(jù)的需要。這也是目前出版企業(yè)的數(shù)字化實踐主要停留在“從既有的出版資源中遴選優(yōu)秀、暢銷的內(nèi)容進行數(shù)字化生產(chǎn)”[3]層面的重要原因。大數(shù)據(jù)的本義是龐大的數(shù)據(jù)集,具有規(guī)模大、種類多等特點。根據(jù)IDC對大數(shù)據(jù)的定義,大數(shù)據(jù)要收集超過100TB的數(shù)據(jù),或從小數(shù)據(jù)開始,但數(shù)據(jù)每年增長60%以上[4]。顯然,出版企業(yè)屬于定義中的后一種情況。因此,出版企業(yè)要做的事是,以既有ERP系統(tǒng)數(shù)據(jù)資源為基礎,充分實現(xiàn)事實信息數(shù)字化,并進一步擴大數(shù)據(jù)來源,特別要增加對各類實時流數(shù)據(jù)的收集和存儲,提升數(shù)據(jù)的精細化程度。
大數(shù)據(jù)資源繁雜、增長迅速,出版企業(yè)在建立自己的大數(shù)據(jù)庫之前,必須依據(jù)大數(shù)據(jù)應用目標定義自身的價值數(shù)據(jù)標準,確定大數(shù)據(jù)收集、存儲的類型和范圍?;诔霭嫫髽I(yè)掘金大數(shù)據(jù)的需要,筆者以為,出版企業(yè)的大數(shù)據(jù)庫可以由以下類型數(shù)據(jù)集構成。(1)讀者數(shù)據(jù)集:讀者數(shù)據(jù)一直是出版企業(yè)重點收集存儲的數(shù)據(jù),但傳統(tǒng)讀者信息主要是人口統(tǒng)計指標信息,如性別、年齡、文化層次等,這些相對靜態(tài)的數(shù)據(jù)很難滿足數(shù)字出版的需要。大數(shù)據(jù)庫中的讀者數(shù)據(jù)集,更強調(diào)對與讀者消費行為相關的動態(tài)數(shù)據(jù)的抓取,比如通過Cookie技術獲取讀者瀏覽網(wǎng)頁、搜索和評論圖書產(chǎn)品、閱讀狀態(tài)等行為數(shù)據(jù),通過這些數(shù)據(jù),出版企業(yè)可以獲得關于讀者在購買偏好、購買意愿、購買頻率、購買周期、忠誠度、滿意度、營銷手段適應性等方面的豐富數(shù)據(jù),有利于出版企業(yè)準確把握讀者的閱讀與消費脈動,實現(xiàn)供給與需求的精準匹配。(2)產(chǎn)品數(shù)據(jù)集:主要收集、存儲出版企業(yè)自己生產(chǎn)的各類有形產(chǎn)品數(shù)據(jù),包括內(nèi)容數(shù)據(jù)集和銷售數(shù)據(jù)集。內(nèi)容數(shù)據(jù)集收集、存儲服務于產(chǎn)品定制化生產(chǎn)和數(shù)據(jù)創(chuàng)意服務的產(chǎn)品內(nèi)容數(shù)據(jù),可以在出版企業(yè)內(nèi)容數(shù)字化的過程中一并建立。銷售數(shù)據(jù)集可以在現(xiàn)有ERP系統(tǒng)中的選題信息基礎上進行擴充,增加出版物在載體形態(tài)(如紙質(zhì)版、Pad版、手機版、網(wǎng)絡版等)、不同載體形態(tài)的銷售狀況、生命周期、銷售淡旺季、營銷分類、促銷手段適應性、替代與互補品種等方面的數(shù)據(jù)。如果出版企業(yè)提供出版服務,應獨立建立出版服務數(shù)據(jù)集。(3)供應鏈數(shù)據(jù)集:可在現(xiàn)有ERP發(fā)行系統(tǒng)信息的基礎上升級而成,重要的是,不僅要收集出版企業(yè)既有供應鏈上各級批發(fā)商、零售商的相關數(shù)據(jù),也要收集行業(yè)供應鏈數(shù)據(jù),特別是電子商務方面的數(shù)據(jù)。對供應鏈數(shù)據(jù)的采集,除了運營效率、成本、市場覆蓋面等基礎數(shù)據(jù),要注意針對每類產(chǎn)品甚至每件產(chǎn)品實時追蹤其供應或銷售數(shù)據(jù),以及時調(diào)整其供應鏈構成,保證產(chǎn)品生產(chǎn)或銷售取得最大收益。(4)營銷活動數(shù)據(jù)集:數(shù)字時代,營銷是與內(nèi)容創(chuàng)新并重的出版企業(yè)競爭優(yōu)勢來源。營銷活動的投入產(chǎn)出比如何,與產(chǎn)品、讀者的適應性如何,線上線下營銷活動的關系是互補還是替代……這些都是大數(shù)據(jù)時代出版企業(yè)應該收集也可以收集得到的數(shù)據(jù)。(5)作者數(shù)據(jù)集:包括作者的性別、年齡、主要作品等基本數(shù)據(jù)及動態(tài)行為數(shù)據(jù),如作者新近發(fā)布的微博、參與的互動話題、新加入的圈子等。這些動態(tài)數(shù)據(jù),對出版企業(yè)的選題創(chuàng)新、作者開發(fā)都有積極意義。(6)其他數(shù)據(jù)集:如版權數(shù)據(jù)集、財務數(shù)據(jù)集、人事數(shù)據(jù)集等。
出版企業(yè)在建立大數(shù)據(jù)庫的過程中,要逐步形成數(shù)據(jù)收集網(wǎng)絡,擴大數(shù)據(jù)存儲范圍。不能僅僅局限于傳統(tǒng)ERP信息源,或者業(yè)務與社交數(shù)據(jù)源,還應該把對出版活動有較大影響的其他數(shù)據(jù)源囊括進來,比如二維碼信息,源自信息亭、車載娛樂系統(tǒng)等智能系統(tǒng)和網(wǎng)絡邊緣設備傳感器生成的內(nèi)容,搜索、移動、網(wǎng)絡分析工具產(chǎn)生的數(shù)據(jù)等,這些復雜的流數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,是企業(yè)打造個性化客戶服務的全新信息價值寶庫。在數(shù)據(jù)類型方面,大數(shù)據(jù)庫建設的重點是突破傳統(tǒng)ERP系統(tǒng)主要采集結構化數(shù)據(jù)的局限,增加對半結構化數(shù)據(jù)和非結構化數(shù)據(jù)的收集和存儲,如各種文本、文檔、圖像、音頻、視頻、社交媒體中與出版活動相關的、能產(chǎn)生商業(yè)價值的數(shù)據(jù)。當然,在擴大數(shù)據(jù)收集范圍的同時必須注意數(shù)據(jù)質(zhì)量,并根據(jù)企業(yè)發(fā)展需要隨時對數(shù)據(jù)資源進行增減。
2.部署出版企業(yè)的云環(huán)境
大數(shù)據(jù)庫的建立強調(diào)的是出版企業(yè)的內(nèi)部信息化基礎建設,借用時髦的概念,可以稱之為出版企業(yè)的“私有云”建設。但必須指出的是,如果這個大數(shù)據(jù)庫只是做到了自身規(guī)模的快速膨脹,卻未能有效地嵌入互聯(lián)網(wǎng)數(shù)據(jù)鏈中,那么,它仍然屬于“信息孤島”,并不比傳統(tǒng)ERP先進多少,換言之,它的大數(shù)據(jù)價值十分有限。而且,實事求是地說,出版企業(yè)大數(shù)據(jù)庫的容量一定是有限的,因為其無法承擔對更高性能基礎設備的投資。另一方面,數(shù)字時代企業(yè)的邊界在逐漸消融,“企業(yè)應該作為開放的系統(tǒng)與外界進行溝通”,“應有效整合企業(yè)、產(chǎn)業(yè)、地區(qū)、國家甚至全世界高層次的經(jīng)濟系統(tǒng),以更多的外部資源來謀取更廣闊的發(fā)展空間”[4]。從這個角度看,出版企業(yè)要充分獲取大數(shù)據(jù)商業(yè)價值,必須善于借力外部數(shù)據(jù)資源——各種公共和共享的數(shù)據(jù)資源,如政務數(shù)據(jù)源、商務數(shù)據(jù)源、普查數(shù)據(jù)等。此外,更加重要的是,大數(shù)據(jù)必須與云計算結合,才能完成由“數(shù)據(jù)垃圾”向“信息金礦”的華麗轉(zhuǎn)身。所以,出版企業(yè)大數(shù)據(jù)構建的最終目標是部署自己的云環(huán)境,利用云基礎架構實現(xiàn)大數(shù)據(jù)價值挖掘。
出版企業(yè)的云環(huán)境部署,較為可行的是在私有云的基礎上創(chuàng)建混合云,或添加大數(shù)據(jù)分析至內(nèi)部服務。同時要善于利用公有云中的重要外部資源和應用程序,借助公有云服務補充內(nèi)部資源,實現(xiàn)企業(yè)內(nèi)外數(shù)據(jù)、多方平臺數(shù)據(jù)的整合。比如,可以利用政府公開數(shù)據(jù),獲取社會經(jīng)濟文化發(fā)展數(shù)據(jù)和相關行業(yè)數(shù)據(jù);利用銀行信息系統(tǒng),獲取讀者的金融信息、信用信息;利用亞馬遜、當當網(wǎng)、京東商城的用戶行為數(shù)據(jù),獲取有關讀者、市場、圖書產(chǎn)品方面的信息。隨著大數(shù)據(jù)分析和云計算技術的發(fā)展,甲骨文、微軟、谷歌以及許多不知名的數(shù)據(jù)公司,都開始提供專業(yè)服務幫助企業(yè)部署云環(huán)境,其中不乏出版云平臺,如云漢公司與IBM打造的“中國出版發(fā)行交易云平臺”、方正阿帕比公司的“阿帕比云出版服務平臺”,出版企業(yè)也可通過購買其一攬子解決方案,實現(xiàn)“私有云”與這些云平臺的精準對接,構建滿足自身需求的云環(huán)境。需要提醒的是,云環(huán)境的構建強調(diào)與外部的關聯(lián)和對接,可能會帶來一些安全隱患,所以,在部署云環(huán)境的過程中,出版企業(yè)一定要注意保護私有云中的敏感數(shù)據(jù)。
二、大數(shù)據(jù)應用層面:從營銷領域的試水到全業(yè)務覆蓋,從數(shù)據(jù)產(chǎn)品到數(shù)據(jù)創(chuàng)意服務
大數(shù)據(jù)的最終意義是“獲得洞察力和價值”[5],大數(shù)據(jù)應用的核心是通過對數(shù)據(jù)的知識化促成正確決策和高效行動。因此,大數(shù)據(jù)之于出版企業(yè)的應用價值,首先在于通過數(shù)據(jù)分析優(yōu)化出版流程,節(jié)約運營成本,提高經(jīng)營管理效率。從當前大數(shù)據(jù)技術發(fā)展現(xiàn)狀及出版企業(yè)的實際出發(fā),出版企業(yè)在這一層面的大數(shù)據(jù)應用,最好采取與大數(shù)據(jù)技術供應商或數(shù)據(jù)分析公司合作的模式,將后者的分析結果應用于出版社的各項活動中。同時,從既有數(shù)據(jù)基礎看,先試水大數(shù)據(jù)營銷,再嘗試選題策劃與作品創(chuàng)作的創(chuàng)新,最后覆蓋全業(yè)務鏈,較為可行。大數(shù)據(jù)在出版企業(yè)的商業(yè)應用還有一個重要方面,即“以數(shù)據(jù)為核心”的產(chǎn)品生產(chǎn)與服務提供,也就是出版企業(yè)作為大數(shù)據(jù)價值的挖掘者和轉(zhuǎn)化者,通過對大數(shù)據(jù)的有效整合分析和價值挖掘,向社會提供數(shù)據(jù)產(chǎn)品或數(shù)據(jù)創(chuàng)意服務。
1. 以大數(shù)據(jù)分析實現(xiàn)精準營銷,促進出版流程優(yōu)化,提高經(jīng)營管理效率
在零售、電子商務等領域,借助大數(shù)據(jù)實施精準營銷的成功案例已為數(shù)不少。在圖書營銷方面,亞馬遜、當當?shù)染W(wǎng)站的薦書服務也廣為人知。實際上,當前的技術條件已經(jīng)能夠支持出版企業(yè)在大數(shù)據(jù)營銷方面走得更遠?!娥囸I游戲》在北美上映時,出版商即通過電子閱讀器獲得了有關讀者閱讀該書的速度、標注行為、閱讀第一冊后立即購買第二冊等信息[6]。Coliloquy是專為亞馬遜kindle提供浪漫小說的電子書公司,它甚至根據(jù)對浪漫小說讀者閱讀狀態(tài)的統(tǒng)計分析,“勾勒出讀者眼中完美男人的標準——有著純正歐洲口音、30歲上下、黑頭發(fā)、綠眼睛”[6]。現(xiàn)在,亞馬遜、谷歌、蘋果及其他很多數(shù)據(jù)公司都能夠有效地捕捉關于讀者閱讀狀態(tài)和消費行為的具體數(shù)據(jù),如讀者的地理分布、對閱讀內(nèi)容的偏好、閱讀時長、閱讀深度、相關廣告點擊次數(shù)與瀏覽時長、頁面功能按鈕點擊習慣、價格敏感性等。所以,對出版企業(yè)來說,使用數(shù)據(jù)公司的服務掌握讀者瀏覽、閱讀、購買、標注等閱讀行為信息,進行大數(shù)據(jù)營銷,增強營銷活動的效果,發(fā)現(xiàn)更加細膩的營銷機會,改善讀者消費體驗,無疑是掘金大數(shù)據(jù)最快捷的路徑。巴諾書店在銷售非小說和長篇紀實類文學作品時,就會根據(jù)數(shù)據(jù)分析采取相應對策,比如,在讀者可能產(chǎn)生閱讀倦怠的內(nèi)容節(jié)點,添加視頻、網(wǎng)頁鏈接或其他多媒體資源,改善讀者閱讀體驗,吸引讀者繼續(xù)閱讀[6]。《第一財經(jīng)》《華爾街日報》《新京報》等國內(nèi)媒體也開始與數(shù)據(jù)公司友盟合作,進行類似嘗試。
通過大數(shù)據(jù)分析提高選題策劃的市場適應性和作品創(chuàng)作的針對性,是值得出版企業(yè)期待的一項大數(shù)據(jù)應用。雖然出版界還沒有《紙牌屋》這種大數(shù)據(jù)排列組合的直接產(chǎn)物,但“Coliloquy模式”[7]也開啟了讀者介入作品創(chuàng)作過程之門,作者會根據(jù)讀者偏好流數(shù)據(jù)隨時調(diào)整故事內(nèi)容,讀者可以決定故事的發(fā)展和結局。Scholastic的全球暢銷書《39條線索》系列,是通過對在線游戲玩家數(shù)據(jù)的追蹤和挖掘,找到其中最吸引人的線索和角色后策劃出版的。谷歌圖書數(shù)據(jù)庫應用甚至顯示,高質(zhì)量的數(shù)據(jù)分析可以應用于科學研究并生成部分研究成果。正如豆瓣上一篇日志的觀點:“如果我們能量化用戶的閱讀題材、閱讀場所、閱讀時長、標注章節(jié)和重復瀏覽內(nèi)容,大數(shù)據(jù)時代的快銷書指日可待?!盵8]可見,以大數(shù)據(jù)分析為基礎創(chuàng)新出版物內(nèi)容與形式,構思選題,實現(xiàn)內(nèi)容的個性化定制,甚至在大數(shù)據(jù)分析的基礎上直接完成作品,在不遠的將來會是出版企業(yè)大數(shù)據(jù)的核心應用之一。
大數(shù)據(jù)最終將應用于出版企業(yè)的各個業(yè)務環(huán)節(jié),幫助出版企業(yè)優(yōu)化業(yè)務流程,提高運營效率。國內(nèi)一些學者在這方面多有論述。吳鋒指出,“大數(shù)據(jù)對科技期刊出版具有革命性影響,將推進科技期刊編輯流程的再優(yōu)化、科技期刊出版業(yè)態(tài)的多媒體化和科技期刊評價規(guī)則的多元化”。[9]王鈺通過分析破壞性創(chuàng)新和大數(shù)據(jù)對圖書銷售的影響,探討了大數(shù)據(jù)時代書店和出版社圖書銷售改進策略[10]。當然,大數(shù)據(jù)于出版企業(yè)管理效率提升的作用,必須建立在數(shù)據(jù)打通的基礎上,包括讀者行為數(shù)據(jù)、出版者行為數(shù)據(jù)及出版企業(yè)內(nèi)部銷售數(shù)據(jù)、營銷數(shù)據(jù)、庫存數(shù)據(jù)、選題數(shù)據(jù)等全部數(shù)據(jù)的打通。只有數(shù)據(jù)貫通,出版企業(yè)才能有效實施大數(shù)據(jù)監(jiān)控,使各部門之間協(xié)調(diào)一致,最終獲得經(jīng)營管理效率的提高。
需要指出的是,在大數(shù)據(jù)應用的這一層面,大數(shù)據(jù)對出版企業(yè)是一種商業(yè)成本、經(jīng)濟投入,傳統(tǒng)出版企業(yè)究竟能否獲得令人滿意的投入產(chǎn)出比尚待驗證。而且,如前所述,這一大數(shù)據(jù)應用通常需要依賴數(shù)據(jù)公司的外部數(shù)據(jù)服務,但外部數(shù)據(jù)服務能否取得良好的效果,取決于出版企業(yè)對自己的需求和目標是否有明確清晰的刻畫。出版企業(yè)如果缺乏明確的大數(shù)據(jù)應用規(guī)劃,再好的大數(shù)據(jù)技術服務也難有用武之地。所以,在大數(shù)據(jù)應用的這一層面,出版企業(yè)的當務之急是設計大數(shù)據(jù)應用藍圖,從試水大數(shù)據(jù)營銷穩(wěn)步推廣到覆蓋全業(yè)務領域。
2.數(shù)據(jù)產(chǎn)品生產(chǎn)與數(shù)據(jù)創(chuàng)意服務提供
大數(shù)據(jù)和云計算對出版產(chǎn)業(yè)的影響,絕不只是技術變革,而是深刻的產(chǎn)業(yè)變革。一方面,“大數(shù)據(jù)時代使媒介融合集成的全媒體趨勢、信息技術與媒體技術交匯的信息媒體化趨勢加強”,出版企業(yè)需要重新界定出版產(chǎn)品和出版服務的范圍;另一方面,“企業(yè)界限、定位不再清晰,信息資源被重新分配,合作方式被不斷改寫”[11],出版企業(yè)面臨市場邊界消失及眾多新進入者攜信息技術優(yōu)勢不斷掠奪、蠶食傳統(tǒng)及數(shù)字出版市場的挑戰(zhàn),需要充分挖掘大數(shù)據(jù)價值,重新設計出版產(chǎn)品和出版服務?!耙詳?shù)據(jù)為核心”的產(chǎn)品生產(chǎn)和服務提供,成為出版企業(yè)應對“經(jīng)營橫向跨界、產(chǎn)業(yè)越界混融、生產(chǎn)與消費合一”趨勢的重要的大數(shù)據(jù)應用。
程曉龍與王明亮的“大數(shù)據(jù)出版”設想可以說是對大數(shù)據(jù)這一應用的具體描述。程曉龍認為,“數(shù)字出版或許應該首先是數(shù)據(jù)出版,它整合、梳理大量內(nèi)容資料,全面、細致囊括相關知識,是海量數(shù)據(jù)、龐大數(shù)據(jù)庫的有效管理。其次,它將是數(shù)據(jù)關系的智能服務,能夠智能挖掘、匹配一切閱讀興趣,為讀者的沉浸閱讀、深入學習提供內(nèi)容和工具,是滿足閱讀需求的數(shù)據(jù)綜合服務。最后,數(shù)字出版必將成為大數(shù)據(jù)出版,即以內(nèi)容為基準,包含各種服務的PB級大數(shù)據(jù);處理速度迅速、涵蓋多種類型以及信息感知無處不在、隨機變化但智慧關聯(lián)”。[12]王明亮以《中國統(tǒng)計年鑒數(shù)據(jù)庫》(CSYD)的出版為例提出“大數(shù)據(jù)出版”構想。在他看來,大數(shù)據(jù)時代的出版者需要“真正理解內(nèi)容,不斷地深入挖掘各種用戶、讀者研究和學習的需求,把出版看成是對讀者提供知識服務的過程”;“大數(shù)據(jù)出版”的核心不是出版圖書也不是發(fā)布數(shù)據(jù)信息,是“把有意義的每一條數(shù)據(jù)及其數(shù)據(jù)關系都看成是一個出版產(chǎn)品”,向讀者“提供數(shù)據(jù)服務”;更進一步,“大數(shù)據(jù)出版”還可以指微數(shù)據(jù)與微數(shù)據(jù)在“大數(shù)據(jù)云層”中的“強耦合”[13]。一言以蔽之:將數(shù)據(jù)及其相互關系視為出版產(chǎn)品,為讀者提供數(shù)據(jù)關系的智能服務。
數(shù)據(jù)產(chǎn)品生產(chǎn),是指出版企業(yè)作為數(shù)據(jù)整合機構,通過對龐大的結構化、半結構化和非結構化數(shù)據(jù)的分析挖掘,提煉出有價值的關于各個行業(yè)發(fā)展趨勢、市場行情等預測性信息,以數(shù)據(jù)圖譜或趨勢性信息的方式提供給社會,供各行各業(yè)決策時參考。數(shù)據(jù)創(chuàng)意服務的實質(zhì)類似于咨詢服務,出版企業(yè)通過對數(shù)據(jù)的深度挖掘與解讀,形成不同領域的創(chuàng)意,然后提供給相關領域的企業(yè)或政府部門,由后者付諸實踐。數(shù)據(jù)產(chǎn)品生產(chǎn)與數(shù)據(jù)創(chuàng)意服務提供對出版企業(yè)并非遙不可及。目前出版企業(yè)正在嘗試的將雜志或圖書內(nèi)容“碎片化”后再根據(jù)讀者需求重新整合的做法,實際就是一種數(shù)據(jù)產(chǎn)品生產(chǎn)模式。路透社的金融信息產(chǎn)品,更是典型的數(shù)據(jù)產(chǎn)品。IBM的創(chuàng)意食譜,已經(jīng)是數(shù)據(jù)分析的結果。不少出版企業(yè)將產(chǎn)品線延伸至在線服務領域,如中啟創(chuàng)科技與南開大學出版社合作開啟的“教育云平臺”、科大訊飛的“暢言教育資源云服務平臺”等,為教師、學生、出版社等提供空間及應用服務,可視為數(shù)據(jù)創(chuàng)意服務的萌芽。當然,這與“以數(shù)據(jù)為核心”的數(shù)據(jù)產(chǎn)品生產(chǎn)與數(shù)據(jù)創(chuàng)意服務還有較大距離。一則,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)創(chuàng)意服務中的“數(shù)據(jù)”,并不專指傳統(tǒng)出版物的內(nèi)容數(shù)據(jù),更意指出版企業(yè)在私有云和公有云中能夠獲取的全部數(shù)據(jù);二則,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)創(chuàng)意服務是建立在數(shù)據(jù)關系基礎上的,強調(diào)數(shù)據(jù)與數(shù)據(jù)的精確匹配;三則,數(shù)據(jù)產(chǎn)品與數(shù)據(jù)創(chuàng)意服務的提供很多時候是一體的,是一種綜合智能服務。
三、 結語
大數(shù)據(jù)給傳統(tǒng)出版企業(yè)帶來了新的機遇,但傳統(tǒng)出版企業(yè)要真正通過大數(shù)據(jù)獲得“大利潤”“大發(fā)展”殊非易事。正如Gartner的調(diào)查所顯示的,許多企業(yè)對于大數(shù)據(jù)應用其實非常迷茫,不知道要做什么,怎么做。筆者不揣簡陋,對出版企業(yè)在大數(shù)據(jù)構建和大數(shù)據(jù)應用兩個層面的規(guī)劃略作構想,期冀對傳統(tǒng)出版企業(yè)掘金大數(shù)據(jù)有所裨益。最后還想強調(diào)的一點是,兩個層面的工作需要同時展開,數(shù)據(jù)規(guī)模化與數(shù)據(jù)價值挖掘需要同步。
(作者單位:武漢大學信息管理學院)
參考文獻
[1] 涂子沛. 大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)和我們的生活[M].桂林:廣西師范大學出版社,2012:37.
[2]吳鋒.“大數(shù)據(jù)時代”科技期刊的出版革命及面臨挑戰(zhàn)[J].出版發(fā)行研究,2013(8):66-70.
[3]劉志偉.云計算大數(shù)據(jù)升溫中探模式[N].中國出版?zhèn)髅缴虉螅?013-11-08(01).
[4]馬建光等.大數(shù)據(jù)的概念、特征及其應用[J].國防科技,2013(2):11.
[5]余建斌,趙展慧.大數(shù)據(jù)崛起[N].人民日報,2013-02-22(20).
http://whb.news365.com.cn/wh/201207/t20120709_515721.html.
[6]陳硯青,徐璐明.小心:你讀書時,“書”也在讀你[N/OL].文匯報,2012-07-09. http://whb.news365.com.cn/wh/201207/t20120709_515721.html.
[7]Coliloquy:讀者和作者互動 換個方式講故事[OL].http://tech.qq.com/a/20120119/000286.htm.
[8]楊鑫倢.終有一天 大數(shù)據(jù)會“顛覆”出版業(yè)[N/OL].IT時報,2013-08-19. http://it.sohu.com/20130819/n384494421.shtml.
[9]吳鋒.“大數(shù)據(jù)時代”科技期刊的出版革命及面臨挑戰(zhàn)[J].出版發(fā)行研究,2013(8):66-70.
[10]王鈺.破壞性創(chuàng)新、大數(shù)據(jù)與圖書銷售[J].科技與出版,2013(6):85-87.
[11][法]喬治·納漢. 趙春雷編譯.“大數(shù)據(jù)”時代的計算機信息處理技術[J].世界科學,2012(2).
[12]程曉龍. 數(shù)字出版的未來:從“小數(shù)據(jù)”到“大數(shù)據(jù)”[N].中國新聞出版報,2013-08-29(005).
[13]王明亮.關于“大數(shù)據(jù)出版”的一些體會和猜想[N].中國新聞出版報,2013-08-29(005).