任娟
圖書銷量是衡量圖書產(chǎn)品市場表現(xiàn)及出版單位經(jīng)濟效益的主要指標,也是測度圖書產(chǎn)品社會效益的基本參照,是實現(xiàn)“雙效統(tǒng)一”的評價要素。我國出版業(yè)存在圖書產(chǎn)品同質(zhì)化、圖書生產(chǎn)與讀者需求脫節(jié)、有效供給不足等問題,導致供需失衡。傳統(tǒng)的圖書銷量判斷預測依賴于編輯的直覺預測與信心判斷[1]46,統(tǒng)計預測依賴于歷史銷量數(shù)據(jù)的采樣范圍、時效性。大數(shù)據(jù)時代,圖書銷量預測是出版大數(shù)據(jù)預測的重要組成部分,如何推進數(shù)據(jù)驅(qū)動的圖書銷量預測成為學界和業(yè)界關注的一個重要問題。數(shù)據(jù)驅(qū)動的圖書銷量預測旨在通過出版大數(shù)據(jù)和市場需求預測方法,將情境數(shù)據(jù)納入圖書銷量預測模型,判斷用戶情感狀態(tài),分析用戶群體行為,推測未來的銷量。因此,數(shù)據(jù)驅(qū)動的圖書銷量預測可解決認知偏差、數(shù)據(jù)時滯、數(shù)據(jù)缺失等問題,成為破解同質(zhì)化問題、優(yōu)化需求管理、提升有效供給的大數(shù)據(jù)賦能手段。
《中共中央關于制定國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》中指出,“十四五”時期經(jīng)濟社會發(fā)展要以推動高質(zhì)量發(fā)展為主題,以深化供給側結構性改革為主線。供給側結構性改革的核心是實現(xiàn)有效供給,有效供給依賴于對有效需求的精準識別,而內(nèi)容創(chuàng)新也離不開供需精準對接。一方面,數(shù)據(jù)驅(qū)動的銷量預測成為出版的數(shù)字賦能、大數(shù)據(jù)賦能工具,有利于實現(xiàn)需求精準預測。從供給側入手,運用數(shù)字技術和工具,推動數(shù)字賦能出版,在存量上減少無效供給,在增量上擴大中高端供給,有利于提高供給質(zhì)量、供給效率和全要素生產(chǎn)率,促進內(nèi)容創(chuàng)新與產(chǎn)品創(chuàng)新;從需求側著眼,運用大數(shù)據(jù)技術和方法,推動大數(shù)據(jù)賦能出版,洞悉新需求,發(fā)現(xiàn)需求變化,有利于創(chuàng)新數(shù)據(jù)驅(qū)動的生產(chǎn)、傳播和消費方式,促進需求創(chuàng)造與需求精準預測。另一方面,數(shù)據(jù)驅(qū)動的銷量預測成為出版業(yè)需求識別、市場洞察、營銷預警工具,有利于實現(xiàn)供需精準對接。供給側結構性改革的內(nèi)在邏輯是著力解決市場規(guī)模、市場結構、時空限制等方面的供需匹配,實現(xiàn)供需精準對接[2]。一是尋找并滿足新需求、中高端需求,通過全民閱讀、出版“走出去”等擴大市場需求,實現(xiàn)市場規(guī)模上供需匹配;二是推動內(nèi)容創(chuàng)新和產(chǎn)品創(chuàng)新,通過主題出版、書號總量控制等優(yōu)化供應結構,實現(xiàn)市場結構上供需匹配;三是推動出版融合、國際化發(fā)展,通過網(wǎng)絡營銷、按需出版等打破時空限制,實現(xiàn)供需匹配。因此,數(shù)據(jù)驅(qū)動的圖書銷量預測是保證出版供需精準對接、深化供給側結構性改革的重要工具。
另外,與圖書同屬于體驗型文化產(chǎn)品的電影,近十年來在票房預測和電影營銷等方面的實證研究發(fā)展迅速,并在驅(qū)動電影業(yè)務發(fā)展中得以應用。因此,探索數(shù)據(jù)驅(qū)動的圖書銷量預測成為我國出版學術研究的一項重要課題。
判斷預測是指預測者綜合經(jīng)驗豐富、學識淵博的專家和其他相關人員的意見,根據(jù)已掌握的直觀材料和歷史資料,運用個人的經(jīng)驗和分析判斷能力,對事物的未來發(fā)展趨勢做出判斷。[3]勞倫斯(Michael Lawrence)等[4]對1980—2005年在經(jīng)濟心理學、社會心理學、實驗心理學領域發(fā)表的200多篇以判斷預測為主題的文獻進行了綜述,將歷史數(shù)據(jù)(historical data)定義為用于預測的產(chǎn)品銷售歷史記錄,將歷史數(shù)據(jù)之外的數(shù)據(jù)作為領域數(shù)據(jù)或情境數(shù)據(jù)(domain or contextual data),并定義為用于理解過去和預測未來的所有其他數(shù)據(jù),包括過去和未來的促銷計劃、競爭對手數(shù)據(jù)、制造數(shù)據(jù)和宏觀經(jīng)濟預測數(shù)據(jù)。塞弗特(Matthias Seifert)等人[5]33選擇電臺播放單曲的峰值位置、音樂視頻的制作及其在音樂排行榜中的表現(xiàn)、最具影響力的行業(yè)雜志對單曲的專業(yè)性評論、唱片公司用于推廣營銷的費用、單曲是否已發(fā)行專輯的一部分、同一周的發(fā)行唱片歌手及歌手地位作為情境數(shù)據(jù),發(fā)現(xiàn)對于唱片這類需求不穩(wěn)定的預測對象,預測者不依靠歷史數(shù)據(jù),只做情境數(shù)據(jù)分析的判斷預測結果更準確。楊金花[1]47借鑒認知心理學理論,將參照類別(同類主題圖書)的實現(xiàn)率、成功率、平均銷量等分布性信息作為歷史數(shù)據(jù),將單一性信息(個案的特定證據(jù))作為情境數(shù)據(jù),引入銷量預測校正程序,對編輯預測行為進行規(guī)范。杜秀芳[6]1001通過文獻綜述發(fā)現(xiàn),提供反饋、分解、組合預測和建議采納等策略,可以增進判斷預測的準確性。
判斷預測隱含的意義建構機制通常被視為一個模式匹配過程,在此過程中,預測者感知預測事件的信息刺激,并通過將其與過去經(jīng)歷的類似情況相比較來進行推理。[5]34歷史數(shù)據(jù)和情境數(shù)據(jù)能夠提高判斷預測準確度的原因在于:一方面,通過提供歷史數(shù)據(jù)能夠增加模式匹配的成功概率;另一方面,通過提供更多的情境數(shù)據(jù),包括促銷活動、媒體報道、網(wǎng)絡口碑、競爭情報等一般性領域知識相關的產(chǎn)品特定信息,能夠幫助預測者更好地理解真實情況中發(fā)生的、對預測產(chǎn)生較大影響的事件或活動。
綜上所述,認知心理學視角的圖書銷量預測,主要關注預測的偏差及產(chǎn)生原因,采用歷史數(shù)據(jù)和情境數(shù)據(jù)來提高預測準確度,包括判斷預測和組合預測(判斷預測與統(tǒng)計預測相結合)兩類方法。判斷預測是將編輯判斷預測作為選題決策、庫存管理的重要環(huán)節(jié),依賴編輯經(jīng)驗和領域知識,采用直覺預測,預估首印量、重印量等。判斷預測存在主觀性、可驗證性差、處理復雜問題的能力和科學決策能力不足等局限。組合預測通過企業(yè)內(nèi)部數(shù)據(jù)測算判斷預測的準確度,將其作為基于歷史數(shù)據(jù)的統(tǒng)計預測量和基于情境數(shù)據(jù)的直覺預估量的組合權重設置依據(jù),以一定的統(tǒng)計預測規(guī)則校正直覺預估量;也可利用企業(yè)ERP系統(tǒng)中的印數(shù)評估、庫存測評等模塊進行統(tǒng)計預測,運用判斷預測調(diào)整統(tǒng)計預測。
統(tǒng)計預測是指根據(jù)過去的情況和資料建立數(shù)學模型,并由此對未來趨勢做出預測的一種非主觀方法。[6]998主要分為回歸分析預測、時間趨勢分析預測、隨機時間序列分析預測三類方法。回歸分析預測利用線性相關關系、非線性相關關系,擬合成直線或曲線,用于基于截面數(shù)據(jù)、時間序列數(shù)據(jù)的中短期預測,可應用于不考慮環(huán)境變化的統(tǒng)計預測。時間趨勢分析預測僅利用自身的歷史數(shù)據(jù)觀察趨勢,可用于短期、中期、長期預測,可應用于未能全面發(fā)現(xiàn)影響因素的統(tǒng)計預測。隨機時間序列分析預測利用時間序列的歷史值及隨機擾動項來預測未來變化,可應用于滿足時間序列平穩(wěn)性假設的統(tǒng)計預測。劉軍和張冠勇[7]利用圖書歷史銷量數(shù)據(jù),提出了基于指數(shù)平滑、回歸分析的圖書需求預測方法。韓欽[8]將圖書熱度作為預測對象,以相似圖書的歷史熱度時間序列預測新版圖書熱度,將時間序列分析模型應用于圖書選題決策。曾文等[9]813提出了基于圖書出版行業(yè)大數(shù)據(jù)(在線評論數(shù)據(jù)、銷量數(shù)據(jù))的選題決策分析模型。
統(tǒng)計模型為統(tǒng)計預測提供了統(tǒng)計顯著性和經(jīng)濟意義,計量經(jīng)濟學為統(tǒng)計預測提供了方法和分析模式。計量經(jīng)濟模型從經(jīng)濟角度考查銷量與其影響因素的因果關系,影響因素的全面測度成為提升統(tǒng)計預測準確度的關鍵。計量經(jīng)濟學視角下圖書銷量預測過程包括預測指標測度、預測時間提前量確定、預測模型構建三個環(huán)節(jié)。
出版大數(shù)據(jù)為銷量預測的影響因素的全面測度提供數(shù)據(jù)源,為在線評論等情境數(shù)據(jù)提供分析工具,有助于提升預測準確度。大數(shù)據(jù)時代,網(wǎng)絡口碑(在線評論、微博)及其內(nèi)在情感表達在一定程度上折射出社會集體的智慧和情感狀態(tài),而這種情感狀態(tài)往往會影響個人行為決策的選擇結果,并對社會活動具有一定的預測能力。[10]96大數(shù)據(jù)時代,隨著在線評論的海量化、在線采集的工具化、用戶情感的可計算,在線評論經(jīng)濟價值的量化與開發(fā)成為一個具有實證基礎的研究方向。
格魯爾(Daniel Gruhl)等[11]認為博客情感分析可用于預測圖書銷量排名峰值,博客提及量是圖書銷量預測的一個有效的先行指標,原因在于較早購買者的推薦會影響潛在用戶的購買決策。孟園等[12]144通過實證發(fā)現(xiàn),以月度為觀察周期,細粒度情感指數(shù)的變動趨勢要領先于產(chǎn)品銷量的變動趨勢,綜合情感指數(shù)滯后1個觀察周期時能提供最好的預測效果,滯后1~4個觀察周期時能對銷量預測起作用。
基于情感分析的圖書銷量預測主要包括用戶評分量化預測、產(chǎn)品情感感知預測、屬性情感感知預測三種思路。一是利用基于用戶評分的粗粒度情感分析方法。謝瓦利埃(Judith A. Chevalier)和梅茲林(Dina Mayzlin)[13]利用亞馬遜網(wǎng)站和巴諾網(wǎng)站的用戶評分進行了粗粒度情感分析,建立了線性回歸分析模型并驗證了口碑說服效應。二是基于評論內(nèi)容的粗粒度情感分析方法。李雪妮等[14]采用基于詞典的方法對圖書在線評論內(nèi)容進行情感分析及量化,建立了情感感知自回歸模型,發(fā)現(xiàn)納入情感分析結果的模型在銷量預測方面具有更高的準確性。張川 (Zhang Chuan)等[15]基于前景理論的“消極偏見”解釋,即消費者對負面在線評論的態(tài)度比正面在線評論更敏感,構建了一個基于情感分析、前景理論和宏觀經(jīng)濟指標的自回歸模型,利用歷史銷量數(shù)據(jù)、在線評論和宏觀經(jīng)濟指標對中國汽車銷量進行預測。該類研究僅考慮用戶對產(chǎn)品的整體情感傾向。三是基于產(chǎn)品屬性的細粒度情感分析的方法。孟園等[12]144采用領域本體和情感詞典,構造了包含5個產(chǎn)品屬性的細粒度情感指數(shù),提出了基于ARMA模型(autoregressive moving average model,自回歸滑動平均模型)的產(chǎn)品銷量預測模型。相對于粗粒度情感分析,細粒度情感分析考慮用戶對產(chǎn)品各屬性的情感傾向,更貼近用戶真實的情感表達。該類研究將在線評論與計量經(jīng)濟模型相結合進行組合預測,在銷量預測效力上有較大改善。以上研究體現(xiàn)了圖書在線評論作為圖書銷量的影響因素和預測因素的重要性,但現(xiàn)有大多數(shù)研究的目標是建立統(tǒng)計意義上的關系,而不是發(fā)展預測模型的行業(yè)應用。
現(xiàn)有關于圖書的預測研究側重于預測在銷圖書的未來銷售表現(xiàn),因為這類預測模型有更多可用的解釋變量,包括在銷圖書的早期銷售數(shù)據(jù)、促銷活動及節(jié)假日效應、專家評論和用戶評論等,在實際情況中圖書銷量的預測會受到這些因素的影響,因此,考慮更多高質(zhì)量的情境數(shù)據(jù),有助于模型產(chǎn)生更準確的預測結果。
由于只有少量甚至沒有先前的銷售數(shù)據(jù),且需求模式不確定,導致新書銷量預測的實現(xiàn)相對于在銷書而言更加困難。新書銷量預測并非完全不需要或沒有數(shù)據(jù)可用。在圖書正式出版前進行銷量預測可以參考前文所述的判斷預測進行同類參照的策略,但在新產(chǎn)品銷量依賴網(wǎng)絡口碑擴散效應的互聯(lián)網(wǎng)時代,判斷預測的“測不準”風險較大。計算傳播學視角下的新產(chǎn)品擴散模型可以為新書銷量預測提供一種可能的路徑。計算傳播學旨在基于人類傳播行為的數(shù)字足跡,采用文本挖掘、情感分析、社會網(wǎng)絡分析等帶有顯著計算特征的數(shù)據(jù)分析方法,以探究人類傳播行為的表現(xiàn)模式和內(nèi)在邏輯。[16]新產(chǎn)品擴散這一概念最早由美國學者巴斯(Frank M. Bass)提出,認為新產(chǎn)品擴散是在一定時間內(nèi),在大眾傳媒和口碑傳播影響下,由率先采納的少數(shù)消費者逐漸擴展為更多消費者的動態(tài)過程,并構建了經(jīng)典Bass模型,通過綜合外部宣傳、推廣效應以及在線評論產(chǎn)生的擴散效應預測產(chǎn)品采納情況。[17]
基于Bass模型和情感分析的圖書銷量預測主要包括用戶評分量化預測、產(chǎn)品情感感知預測兩種思路。一是基于用戶評分的粗粒度情感分析方法。早期的組合預測模型主要將在線評論指標如評論數(shù)量、評論評分等結構化數(shù)據(jù)作為影響銷量預測的因素,沒有考慮在線評論的情感傾向。如德拉洛卡斯(Chrysanthos Dellarocas)等[18]將電影在線評論統(tǒng)計維度指標納入Bass模型,結合歷史銷售額和在線評論數(shù)據(jù),發(fā)現(xiàn)電影在線評論的評論數(shù)量、口碑效價和口碑離散度均與未來的電影票房有顯著正向關系,且預測精確度優(yōu)于標準Bass模型。二是基于評論內(nèi)容的粗粒度情感分析方法。王芳等[19]將口碑因素嵌入Bass模型,同時考慮口碑數(shù)量和正負情感對銷量預測的影響,結果表明該模型能夠很好地預測在線新產(chǎn)品需求。樊治平(Fan Zhi Ping)等[20]以汽車行業(yè)為研究對象,將Norton和Bass兩人共同建立的Norton-Bass模型和基于HowNet情感詞典(HowNet情感詞典是在中文領域使用最廣泛的中文情感詞典)的情感分析方法相結合,利用歷史銷量數(shù)據(jù)和在線評論情感傾向構建銷量預測模型。這篇文獻在Scopus數(shù)據(jù)庫被引用178次(截至2022年6月21日),某種程度上說明結合Bass模型和在線評論情感分析的銷售預測模型具有廣泛的應用領域和價值。Bass模型提供了新產(chǎn)品的當前采用者和潛在使用者互動的基本原理,更適用于已經(jīng)上市一段時間且產(chǎn)生了一些銷售數(shù)據(jù)的新產(chǎn)品銷量預測;如果新產(chǎn)品尚未正式上市,就需要參考類似產(chǎn)品的歷史銷售數(shù)據(jù)進行預測。Bass模型的預測準確性關鍵取決于模仿參數(shù)、創(chuàng)新參數(shù)和市場潛力等參數(shù)的確定。
人工智能模型從海量的歷史銷量數(shù)據(jù)及相關文本數(shù)據(jù)中發(fā)掘出有價值的信息,采用人工神經(jīng)網(wǎng)絡、隨機森林等算法對少量的非線性數(shù)據(jù)建模,預測中短期圖書銷量。
張毓?。ˋlain Yee Loong Chong)等[21]通過設計大數(shù)據(jù)架構,結合情感分析和神經(jīng)網(wǎng)絡,探索大數(shù)據(jù)環(huán)境下銷量預測的方法。研究發(fā)現(xiàn)在線評論、在線促銷策略和用戶情感都能預測產(chǎn)品銷量,但這些變量的相互作用效應比單個變量本身對銷售預測更為重要。梅蒂(Suman Kalyan Maity)等[22]采用機器學習方法中的支持向量機模型(support vector machine,英文縮寫SVM)和logistic回歸模型進行建模,對Goodreads平臺上的書籍相關數(shù)據(jù)進行跨平臺分析,提取書籍閱讀行為特征,將這些與亞馬遜網(wǎng)站的書籍銷售量進行關聯(lián),探尋亞馬遜暢銷書普遍具有的用戶行為模式。王偉軍等[23]提出一個整合微博公眾情感狀態(tài)、微博提及數(shù)、評論情感、評論數(shù)量的預測特征模型,采用多任務機器學習方法處理不同提前期的新產(chǎn)品市場預測問題,并用電影數(shù)據(jù)驗證了方法的有效性。此類方法將傳統(tǒng)銷量預測模型、人工智能模型與體現(xiàn)產(chǎn)品重要市場信息的網(wǎng)絡口碑結合,有助于在銷量預測上更接近真實。
識別圖書銷量的影響因素是圖書銷量預測的前提和基礎。影響圖書銷量的因素錯綜復雜,除了歷史銷量數(shù)據(jù)外,還與圖書本身特征、外部動態(tài)環(huán)境因素有關,如圖書質(zhì)量、促銷手段、同類書競爭、網(wǎng)絡口碑、社會熱點、隨機事件因素等。借助大數(shù)據(jù)技術找出各變量之間的相關關系、因果關系,識別出重要的、數(shù)據(jù)可獲得的影響因素,尤其是少數(shù)隱性但關鍵的因素,將其分解為不同的維度和具體指標,構建銷量預測理論框架并進行建模,以盡可能減少預測與事實之間的偏差,是數(shù)據(jù)驅(qū)動圖書銷量預測的重難點所在。為了進一步明確圖書銷量預測模型的大數(shù)據(jù)基礎,依據(jù)大數(shù)據(jù)的半結構化、非結構化數(shù)據(jù)特征,區(qū)分為大數(shù)據(jù)表達的以在線評論為代表的口碑傳播因素和結構化數(shù)據(jù)表達的傳統(tǒng)的圖書特征因素。因此,本文將圖書銷量影響因素區(qū)分為圖書特征相關的情境因素和以在線評論為代表的圖書口碑傳播情境因素。
發(fā)行時間、類型及是否為續(xù)集、是否入選過暢銷書榜單和榜單排名等圖書自身特征因素,以及圖書獲獎等事件驅(qū)動因素與圖書銷量的關系,在以往實證研究中受到學者的廣泛關注。
(1)圖書發(fā)行時間
圖書發(fā)行時間是圖書生命周期曲線的起點,圖書銷量隨著出版時間的延長而衰減的一般規(guī)律得到了研究驗證。[24]美國《紐約時報》暢銷書榜單中的虛構類圖書和非虛構類圖書絕大多數(shù)都在發(fā)行10周內(nèi)達到銷售頂峰,一本書發(fā)行的前幾周非常重要,這是抓住讀者興趣以及圖書營銷宣傳、書店重點推薦、社交媒體評論等發(fā)揮作用的關鍵時期。[25]6
(2)圖書類型
已有實證研究中將圖書類型納入圖書銷量分析模型,但是依據(jù)不同的分類標準和研究需要,圖書類型的定義在不同的文獻中也存在較大差異,如依據(jù)體裁劃分為虛構類、非虛構類兩大類;依據(jù)圖書內(nèi)容、讀者群體劃分為科幻小說、犯罪小說等。[26]是否為續(xù)集或系列圖書通常被認為是圖書銷量的影響因素之一。一般而言,續(xù)集類圖書相對于普通新書,已經(jīng)擁有相對穩(wěn)定的讀者,因此某一系列的后續(xù)圖書會受到較多關注。此外,已有實證研究解釋了虛構類圖書作者比其他類型作者更多產(chǎn),且更容易復制暢銷書的成功的原因。[25]3
(3)圖書排名
近幾年,國內(nèi)暢銷書市場的頭部效應日益明顯。根據(jù)北京開卷信息技術有限公司的數(shù)據(jù)監(jiān)控,2020年銷量前1%的產(chǎn)品碼洋貢獻率為58.6%,前5%的產(chǎn)品碼洋貢獻率為82.3%。業(yè)內(nèi)較有知名度的開卷暢銷書榜單、當當網(wǎng)暢銷書榜單都有“老書”暢銷不衰、榜單相對固化等現(xiàn)象。造成這些現(xiàn)象的原因可能是:普通讀者愿意選擇經(jīng)過大眾和實踐檢驗的作品以減少選擇風險,出版機構受限于市場或書號更傾向于“老書重做”,出版業(yè)自身創(chuàng)新后勁不足等。國外學者對圖書是否曾經(jīng)入選暢銷書榜單及其排名與圖書銷量的關系進行了實證研究,發(fā)現(xiàn)《紐約時報》暢銷書榜單會對上榜圖書的銷量帶來較大增長,且對那些作者是首次出書的暢銷書銷量影響更大。[27]這些學者的研究都驗證了一般意義上圖書的上榜及排名與銷量的正相關關系。然而,針對我國圖書排行榜門檻較低、缺乏固定分類標準的榜單市場現(xiàn)狀,讀者的態(tài)度會影響圖書排行榜的傳播效果,唯有那些客觀公允的榜單才能對讀者發(fā)揮積極、正向的引導作用。[28]
(4)事件驅(qū)動因素
相對于暢銷書榜單注重圖書銷量而言,圖書評獎活動更注重對圖書的思想性、內(nèi)涵價值、影響力等方面的評價,重在發(fā)現(xiàn)和推介好書。獲得有公信力、權威性的重要獎項往往是圖書高質(zhì)量的體現(xiàn)。已有研究表明,圖書獲獎作為外部驅(qū)動事件,會帶來獲獎后的圖書銷量大幅增長。[29]圖書獎項數(shù)據(jù)也被用于衡量圖書認可度、社會效益等指標,納入圖書出版選題決策模型等研究中。[9]817此外,其他事件驅(qū)動因素的影響在圖書銷量預測研究中也不可忽視,如被知名媒體提及對圖書產(chǎn)生的需求溢出效應[30]和文化類電視節(jié)目對圖書銷量產(chǎn)生的即時效應[31]等。
隨著社會化網(wǎng)絡和電子商務的快速發(fā)展,在線評論對圖書銷量的影響凸顯。在線評論已經(jīng)成為消費者獲取和分享圖書信息的重要渠道,當當網(wǎng)等圖書電商網(wǎng)站、豆瓣圖書等社交媒體平臺成為消費者的決策參考來源,以在線評論為代表的口碑傳播與圖書銷量關系成為圖書銷量預測的研究基礎。本文考慮到網(wǎng)絡口碑傳播者的專業(yè)性、知名性、同質(zhì)性對信息采納者的影響差異,根據(jù)圖書網(wǎng)絡口碑傳播者的身份、聲譽等特征劃分為專家書評、意見領袖書評和用戶在線評論。
(1)專家書評
在圖書生命周期的早期,由于專家書評體現(xiàn)的專業(yè)性或知名性,注重從內(nèi)容視角傳遞圖書質(zhì)量,能夠為市場的“跟隨者”提供關于圖書的知識和經(jīng)驗,因而成為大多數(shù)消費者購書決策的參考??死组T特(Michel Clement)等[32]實證研究了德國最受歡迎的文學電視節(jié)目《文學四重奏》中的4位書評人對被評書籍銷售成功的影響,發(fā)現(xiàn)專家書評是銷量的影響因素之一。這一研究結論可能跟國外較早建立了成熟的獨立書評機制有關,比如美國大學與研究圖書館協(xié)會(Association of College and Research Libraries,英文縮寫ACRL)的Choice網(wǎng)站是一個著名的學術圖書專家評論平臺,它邀請美國最優(yōu)秀的學者對最新的學術書籍進行評論,并定期把新書信息、書評和圖書榜單發(fā)布在官網(wǎng)上,被公認為審查優(yōu)秀學術圖書的機構品牌。
目前,國內(nèi)專家書評面臨多種現(xiàn)實挑戰(zhàn)。一是稀疏性。相比較而言,國內(nèi)仍然缺乏健全的書評環(huán)境和機制,權威性高的專家評論數(shù)量較少且可見度不高,難以對大多數(shù)讀者的購買決策產(chǎn)生影響。二是分散化。國內(nèi)關于圖書的專家評論分散在各個載體,包括發(fā)表在期刊上的書評論文、散落在報紙上的書評文章、主流平臺評選的“中國好書”等榜單的專家推薦、圖書腰封的評論文本,以及豆瓣圖書頻道等社交網(wǎng)絡平臺的專業(yè)性長評。
(2)意見領袖書評
除了相關領域?qū)<遥庖婎I袖發(fā)表的書評會引領群體行為、影響閱讀選擇,對圖書銷量的影響同樣值得關注。楊華等[33]實證研究了網(wǎng)絡口碑與消費者圖書購買意愿的關系,發(fā)現(xiàn)傳播內(nèi)容特性對消費者圖書購買意愿具有直接影響,傳播者特性對圖書購買意愿存在直接影響和以傳播內(nèi)容特性為中介的間接影響,認為應借助豆瓣書評、博客等文化推廣式平臺,充分發(fā)揮名人、意見領袖所發(fā)表的書評方面的作用。
(3)用戶在線評論
專家及意見領袖書評在某種程度上能反映圖書的質(zhì)量或影響力,而基于用戶生成內(nèi)容的圖書在線評論則更多地體現(xiàn)圖書的受關注程度和用戶的綜合評價。在不被惡意操縱的前提下,在線評論指標可以用于評價圖書在原有受眾圈層內(nèi)外的讀者群體中獲得的更廣泛教育或文化影響。[34]國外學者專注于在線評論與圖書銷量關系的學術研究起步較早,相對而言國內(nèi)在這方面的學術研究起步較晚,研究成果主要分散在經(jīng)濟學、管理學、情報學等領域。龔詩陽等[35]從評論數(shù)量、評論效價維度驗證了在線評論對圖書銷量有顯著影響,評論差異有顯著的負向影響,且在線評論的影響隨圖書生命周期而逐步減弱。隨著數(shù)據(jù)挖掘技術的發(fā)展,許多學者對在線評論情感分析進行了深入研究。羅克拉格(Matthew D. Rocklage)等[36]認為星級評價不能作為對項目真實價值的有效性參考,預測了從1995年到2015年亞馬遜網(wǎng)站上所有書籍的成功性,并發(fā)現(xiàn)了在線評論文本情感性因素比星級評價更能發(fā)揮預測作用,所有圖書前30條評論中更多正面的情感性表達預示著更多的購買量,且這一結論在93%的圖書類型中都適用。
綜上所述,已有研究確立了在線評論作為圖書銷量的影響因素、預測因素的重要性,但大多沒有提供可用于現(xiàn)實決策的具體模型。本文擬從圖書特征和口碑傳播兩個方面,厘清影響因素和圖書銷量之間的預測機制,為構建數(shù)據(jù)驅(qū)動的圖書銷量預測理論框架提供有效的預測指標測度和理論解釋。
在前文分析的基礎上,本文將在線評論情感分析納入圖書銷量預測理論框架(見圖1),將計量經(jīng)濟模型、新產(chǎn)品擴散模型、人工智能模型等進行綜合集成。理論框架主要包括數(shù)據(jù)獲取與預處理、圖書在線評論情感指數(shù)構建、圖書銷量預測模型構建和圖書銷量預測模型效果評價四個模塊。
圖1 數(shù)據(jù)驅(qū)動的圖書銷量預測理論框架
(1)數(shù)據(jù)獲取與預處理
作為圖書銷量預測理論框架的數(shù)據(jù)基礎,這一步驟的主要目的是根據(jù)預測目標確定并獲取反映圖書銷量影響因素的指標和數(shù)據(jù),將內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)、結構化數(shù)據(jù)與非結構化數(shù)據(jù)進行匯聚,區(qū)分為圖書歷史銷量數(shù)據(jù)集、圖書特征數(shù)據(jù)集、圖書在線評論語料庫,重點在于對反映讀者需求的圖書在線評論數(shù)據(jù)進行采集與挖掘。首先,進行多源中文圖書在線評論的基礎語料庫構建。采用網(wǎng)絡爬蟲工具在當當網(wǎng)、豆瓣讀書、媒體專欄等不同平臺上爬取讀者書評和專業(yè)書評,將在線評論按信息來源和圖書類別分類,并完成語料的初步情感標注工作,形成基礎語料庫;其次,利用中科院計算所的大數(shù)據(jù)語義增強分析平臺(NLPIR)以及其他開源程序,進行分詞處理、分句處理、詞性標注和詞頻統(tǒng)計等數(shù)據(jù)預處理;最后,利用圖書名稱和ISBN等標識進行數(shù)據(jù)關聯(lián),實現(xiàn)多源中文在線評論的語料數(shù)據(jù)準備。
(2)圖書在線評論情感指數(shù)構建
首先,采用本體建模技術和文本挖掘方法,分析多源圖書在線評論文本的語言特點、語言模式和內(nèi)容構成,基于語義相似度和共現(xiàn)關系,構建圖書評論語料庫和圖書領域情感詞典。識別概念間的整體部分關系、類屬關系和屬性情感關聯(lián)關系,構建圖書評論領域本體,實現(xiàn)圖書在線評論的多維度聚合與語義提取。其次,基于圖書評論領域本體和圖書領域情感詞典,提取圖書產(chǎn)品屬性及用戶情感,判定情感傾向和情感強度,對在線評論的情感、屬性、統(tǒng)計、質(zhì)量四個方面進行量化,實現(xiàn)細粒度的評論解讀。從主觀和客觀兩個情感維度以及客觀情感的內(nèi)容、形式、價值、服務四個子維度出發(fā),構造圖書在線評論細粒度情感指數(shù)集。
(3)圖書銷量預測模型構建
通過描述性分析和相關性分析,對影響圖書銷量的重要變量進行篩選、描述和數(shù)據(jù)探索,結合實際業(yè)務,綜合考慮模型預測準確性與模型可解釋性的匹配度進行模型選擇,將情感指數(shù)作為反映讀者對圖書情感的變量,結合發(fā)行時間、入選榜單情況、獲獎等事件驅(qū)動因素所對應的變量,納入計量經(jīng)濟模型、新產(chǎn)品擴散模型、人工智能模型,檢驗各影響因素對圖書銷量的影響和預測的作用機制,并對圖書的銷量預測進行實證研究。
依據(jù)情感指標納入預測模型的方式,將基于情感分析的預測方法區(qū)分為以情感分析結果為主要依據(jù)、以情感分析結果為輔助依據(jù)兩種方法。前者的基本流程包括文本分析、數(shù)據(jù)規(guī)范化、預測結果輸出;后者的基本流程包括文本分析、數(shù)據(jù)規(guī)范化、指標集成、預測結果輸出[10]100。以情感分析結果為主要依據(jù)的預測方法僅采用在線評論的情感計算指標,將情感指標作為圖書銷量預測單一的先行指標進行預測。以情感分析結果為輔助依據(jù)的預測方法,將情感指標作為圖書銷量預測的先行指標之一進行預測,將圖書特征因素、歷史數(shù)據(jù)等與銷量預測具有相關關系的指標,結合情感指標進行指標集成,通過多指標集成提高預測準確度。由于這類預測模型有更多可用的解釋變量,在實際情況中圖書銷量的預測會受到這些因素的影響,因此,考慮更多高質(zhì)量的情境數(shù)據(jù),有助于模型產(chǎn)生更準確的預測結果。
(4)圖書銷量預測模型效果評價
將不同的預測模型與基準模型進行對比,選擇可靠的檢驗統(tǒng)計量、驗證程序來檢驗模型的預測效果,并比較分析不同算法、模型對數(shù)據(jù)擬合能力的優(yōu)勢和劣勢,進而調(diào)整、迭代、優(yōu)化,以進一步提升模型的預測能力。圖書銷量預測最終要回歸到業(yè)務應用層面,預測模型最直接的效果是能夠進一步提升出版機構對圖書市場輿情研判、前端預警和應對市場變化的能力,更好地支持出版業(yè)務決策。因此,預測模型效果評價必然要在出版業(yè)界專家、管理層對模型提供業(yè)務理論指導和實踐經(jīng)驗總結的基礎上,綜合考慮模型的可解釋性、可落地性和可擴展性。
大數(shù)據(jù)時代,動態(tài)復雜的外部環(huán)境給圖書銷量預測增加了難度,在內(nèi)外部多重因素的綜合影響下,圖書銷量變化呈現(xiàn)出復雜性、非線性特征。而出版業(yè)傳統(tǒng)的圖書銷量預測中缺乏需求端的數(shù)據(jù),僅依靠出版機構已有的歷史銷售數(shù)據(jù)、圖書物理屬性數(shù)據(jù)和編輯經(jīng)驗進行未來銷量估計,預測精度較差,這也是導致多年來我國圖書行業(yè)庫存較高、供需結構性矛盾的主要原因。目前,由于圖書銷量的影響因素類型和數(shù)據(jù)的多樣性,以及用于圖書銷量預測的方法、模型和算法相對匱乏,圍繞圖書銷量預測的研究面臨極大挑戰(zhàn)。
(1)多源異構數(shù)據(jù)匯聚問題
系統(tǒng)地收集圖書銷量影響因素對應的高質(zhì)量數(shù)據(jù)是提高預測精確度的前提條件。大數(shù)據(jù)技術為圖書銷量影響因素的研究提供了多樣化的數(shù)據(jù)源,為圖書銷量預測更接近現(xiàn)實提供了實現(xiàn)的可能。與圖書基本特征數(shù)據(jù)不同,反映讀者需求的圖書在線評論廣泛分布于不同的網(wǎng)絡平臺、圖書館、實體書店以及其他文化機構或媒體的相關數(shù)據(jù)或資料中,且多以非結構化數(shù)據(jù)形式呈現(xiàn)。針對多源異構數(shù)據(jù)信息單元之間的關系呈現(xiàn)非線性、多維性、模糊性的特點,數(shù)據(jù)獲取與匯聚過程中要選擇具有代表性、權威性、可獲得性的數(shù)據(jù)源,將在線評論數(shù)據(jù)與圖書特征數(shù)據(jù)進行深度關聯(lián),挖掘圖書銷量、用戶購書決策及評價行為背后所隱含的深層原因,以減少預測的不確定性。在多源異構數(shù)據(jù)匯聚的研究過程中,面臨著評論有用性識別、數(shù)據(jù)聚合和語義提取等實際問題。
(2)預測建模的跨學科問題
預測方法和影響因素同屬于銷量預測研究關注的重點。銷量預測本身是一個商業(yè)問題,涉及經(jīng)濟學、管理學、計算機學、傳播學等多領域,具有典型的跨學科屬性。大數(shù)據(jù)在為圖書銷量預測研究提供了更多維的影響因素的同時,也需要與之相適應的理論和研究方法。傳統(tǒng)的圖書銷量預測方法以時間序列分析、自回歸模型為代表,但這些經(jīng)典模型難以捕捉大數(shù)據(jù)環(huán)境下的非線性特征。近年來,該領域的學者不斷在預測方法和建模上進行優(yōu)化,如引入機器學習以提高預測精度等。因此,如何借鑒先進的銷量預測方法和技術應用到圖書領域,結合影響圖書銷量的特定因素進行建模和實證研究,并用于指導出版實踐是一項富有挑戰(zhàn)性的工作。圖書在線評論作為重要的銷量預測指標,在研究中需要借助計算科學與復雜科學等跨學科視角,構建針對圖書的社交網(wǎng)絡信息傳播模型;借助自然語言處理、文本挖掘等技術對多源異構圖書在線評論數(shù)據(jù)進行質(zhì)量判定、語義分析和情感傾向分析;借助出版領域?qū)<液凸芾碚咭庖妼D書銷量預測結果進行判斷性調(diào)整,驗證預測模型和算法的效果,這些工作都需要進行跨學科的探索和創(chuàng)新。
基于圖書在線評論情感分析的圖書銷量預測理論框架構建,有助于更深入地理解社會如何與圖書產(chǎn)品進行互動,為全民閱讀背景下實現(xiàn)圖書“叫好又叫座”、社會效益與經(jīng)濟效益俱佳的場景提供了可能。本文所構建的數(shù)據(jù)驅(qū)動的圖書銷量預測理論框架傾向于從理論、方法、路徑上提供總體設計,但是在實際應用中,銷量預測的成功在很大程度上與圖書供應鏈的反應程度、出版機構的數(shù)字化水平、大數(shù)據(jù)賦能等密切相關。展望未來,隨著更多的出版機構通過搭建大數(shù)據(jù)平臺將資源數(shù)據(jù)、運營數(shù)據(jù)、用戶行為數(shù)據(jù)等進行有效整合和共享,圖書供應鏈將朝著數(shù)字化、全渠道、全鏈路的方向發(fā)展,圖書銷量預測方式將融合算法、數(shù)據(jù)、場景三要素,推動圖書行業(yè)數(shù)據(jù)智能的迭代發(fā)展,為供需精準對接提供科學依據(jù)。