亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數據驅動的圖書銷量預測理論框架研究 *

        2022-09-05 01:51:38任娟
        出版與印刷 2022年3期
        關鍵詞:情感模型

        任娟

        一、引言

        圖書銷量是衡量圖書產品市場表現及出版單位經濟效益的主要指標,也是測度圖書產品社會效益的基本參照,是實現“雙效統(tǒng)一”的評價要素。我國出版業(yè)存在圖書產品同質化、圖書生產與讀者需求脫節(jié)、有效供給不足等問題,導致供需失衡。傳統(tǒng)的圖書銷量判斷預測依賴于編輯的直覺預測與信心判斷[1]46,統(tǒng)計預測依賴于歷史銷量數據的采樣范圍、時效性。大數據時代,圖書銷量預測是出版大數據預測的重要組成部分,如何推進數據驅動的圖書銷量預測成為學界和業(yè)界關注的一個重要問題。數據驅動的圖書銷量預測旨在通過出版大數據和市場需求預測方法,將情境數據納入圖書銷量預測模型,判斷用戶情感狀態(tài),分析用戶群體行為,推測未來的銷量。因此,數據驅動的圖書銷量預測可解決認知偏差、數據時滯、數據缺失等問題,成為破解同質化問題、優(yōu)化需求管理、提升有效供給的大數據賦能手段。

        《中共中央關于制定國民經濟和社會發(fā)展第十四個五年規(guī)劃和二〇三五年遠景目標的建議》中指出,“十四五”時期經濟社會發(fā)展要以推動高質量發(fā)展為主題,以深化供給側結構性改革為主線。供給側結構性改革的核心是實現有效供給,有效供給依賴于對有效需求的精準識別,而內容創(chuàng)新也離不開供需精準對接。一方面,數據驅動的銷量預測成為出版的數字賦能、大數據賦能工具,有利于實現需求精準預測。從供給側入手,運用數字技術和工具,推動數字賦能出版,在存量上減少無效供給,在增量上擴大中高端供給,有利于提高供給質量、供給效率和全要素生產率,促進內容創(chuàng)新與產品創(chuàng)新;從需求側著眼,運用大數據技術和方法,推動大數據賦能出版,洞悉新需求,發(fā)現需求變化,有利于創(chuàng)新數據驅動的生產、傳播和消費方式,促進需求創(chuàng)造與需求精準預測。另一方面,數據驅動的銷量預測成為出版業(yè)需求識別、市場洞察、營銷預警工具,有利于實現供需精準對接。供給側結構性改革的內在邏輯是著力解決市場規(guī)模、市場結構、時空限制等方面的供需匹配,實現供需精準對接[2]。一是尋找并滿足新需求、中高端需求,通過全民閱讀、出版“走出去”等擴大市場需求,實現市場規(guī)模上供需匹配;二是推動內容創(chuàng)新和產品創(chuàng)新,通過主題出版、書號總量控制等優(yōu)化供應結構,實現市場結構上供需匹配;三是推動出版融合、國際化發(fā)展,通過網絡營銷、按需出版等打破時空限制,實現供需匹配。因此,數據驅動的圖書銷量預測是保證出版供需精準對接、深化供給側結構性改革的重要工具。

        另外,與圖書同屬于體驗型文化產品的電影,近十年來在票房預測和電影營銷等方面的實證研究發(fā)展迅速,并在驅動電影業(yè)務發(fā)展中得以應用。因此,探索數據驅動的圖書銷量預測成為我國出版學術研究的一項重要課題。

        二、圖書銷量預測研究的理論視角

        1. 認知心理學視角

        判斷預測是指預測者綜合經驗豐富、學識淵博的專家和其他相關人員的意見,根據已掌握的直觀材料和歷史資料,運用個人的經驗和分析判斷能力,對事物的未來發(fā)展趨勢做出判斷。[3]勞倫斯(Michael Lawrence)等[4]對1980—2005年在經濟心理學、社會心理學、實驗心理學領域發(fā)表的200多篇以判斷預測為主題的文獻進行了綜述,將歷史數據(historical data)定義為用于預測的產品銷售歷史記錄,將歷史數據之外的數據作為領域數據或情境數據(domain or contextual data),并定義為用于理解過去和預測未來的所有其他數據,包括過去和未來的促銷計劃、競爭對手數據、制造數據和宏觀經濟預測數據。塞弗特(Matthias Seifert)等人[5]33選擇電臺播放單曲的峰值位置、音樂視頻的制作及其在音樂排行榜中的表現、最具影響力的行業(yè)雜志對單曲的專業(yè)性評論、唱片公司用于推廣營銷的費用、單曲是否已發(fā)行專輯的一部分、同一周的發(fā)行唱片歌手及歌手地位作為情境數據,發(fā)現對于唱片這類需求不穩(wěn)定的預測對象,預測者不依靠歷史數據,只做情境數據分析的判斷預測結果更準確。楊金花[1]47借鑒認知心理學理論,將參照類別(同類主題圖書)的實現率、成功率、平均銷量等分布性信息作為歷史數據,將單一性信息(個案的特定證據)作為情境數據,引入銷量預測校正程序,對編輯預測行為進行規(guī)范。杜秀芳[6]1001通過文獻綜述發(fā)現,提供反饋、分解、組合預測和建議采納等策略,可以增進判斷預測的準確性。

        判斷預測隱含的意義建構機制通常被視為一個模式匹配過程,在此過程中,預測者感知預測事件的信息刺激,并通過將其與過去經歷的類似情況相比較來進行推理。[5]34歷史數據和情境數據能夠提高判斷預測準確度的原因在于:一方面,通過提供歷史數據能夠增加模式匹配的成功概率;另一方面,通過提供更多的情境數據,包括促銷活動、媒體報道、網絡口碑、競爭情報等一般性領域知識相關的產品特定信息,能夠幫助預測者更好地理解真實情況中發(fā)生的、對預測產生較大影響的事件或活動。

        綜上所述,認知心理學視角的圖書銷量預測,主要關注預測的偏差及產生原因,采用歷史數據和情境數據來提高預測準確度,包括判斷預測和組合預測(判斷預測與統(tǒng)計預測相結合)兩類方法。判斷預測是將編輯判斷預測作為選題決策、庫存管理的重要環(huán)節(jié),依賴編輯經驗和領域知識,采用直覺預測,預估首印量、重印量等。判斷預測存在主觀性、可驗證性差、處理復雜問題的能力和科學決策能力不足等局限。組合預測通過企業(yè)內部數據測算判斷預測的準確度,將其作為基于歷史數據的統(tǒng)計預測量和基于情境數據的直覺預估量的組合權重設置依據,以一定的統(tǒng)計預測規(guī)則校正直覺預估量;也可利用企業(yè)ERP系統(tǒng)中的印數評估、庫存測評等模塊進行統(tǒng)計預測,運用判斷預測調整統(tǒng)計預測。

        2. 計量經濟學視角

        統(tǒng)計預測是指根據過去的情況和資料建立數學模型,并由此對未來趨勢做出預測的一種非主觀方法。[6]998主要分為回歸分析預測、時間趨勢分析預測、隨機時間序列分析預測三類方法?;貧w分析預測利用線性相關關系、非線性相關關系,擬合成直線或曲線,用于基于截面數據、時間序列數據的中短期預測,可應用于不考慮環(huán)境變化的統(tǒng)計預測。時間趨勢分析預測僅利用自身的歷史數據觀察趨勢,可用于短期、中期、長期預測,可應用于未能全面發(fā)現影響因素的統(tǒng)計預測。隨機時間序列分析預測利用時間序列的歷史值及隨機擾動項來預測未來變化,可應用于滿足時間序列平穩(wěn)性假設的統(tǒng)計預測。劉軍和張冠勇[7]利用圖書歷史銷量數據,提出了基于指數平滑、回歸分析的圖書需求預測方法。韓欽[8]將圖書熱度作為預測對象,以相似圖書的歷史熱度時間序列預測新版圖書熱度,將時間序列分析模型應用于圖書選題決策。曾文等[9]813提出了基于圖書出版行業(yè)大數據(在線評論數據、銷量數據)的選題決策分析模型。

        統(tǒng)計模型為統(tǒng)計預測提供了統(tǒng)計顯著性和經濟意義,計量經濟學為統(tǒng)計預測提供了方法和分析模式。計量經濟模型從經濟角度考查銷量與其影響因素的因果關系,影響因素的全面測度成為提升統(tǒng)計預測準確度的關鍵。計量經濟學視角下圖書銷量預測過程包括預測指標測度、預測時間提前量確定、預測模型構建三個環(huán)節(jié)。

        出版大數據為銷量預測的影響因素的全面測度提供數據源,為在線評論等情境數據提供分析工具,有助于提升預測準確度。大數據時代,網絡口碑(在線評論、微博)及其內在情感表達在一定程度上折射出社會集體的智慧和情感狀態(tài),而這種情感狀態(tài)往往會影響個人行為決策的選擇結果,并對社會活動具有一定的預測能力。[10]96大數據時代,隨著在線評論的海量化、在線采集的工具化、用戶情感的可計算,在線評論經濟價值的量化與開發(fā)成為一個具有實證基礎的研究方向。

        格魯爾(Daniel Gruhl)等[11]認為博客情感分析可用于預測圖書銷量排名峰值,博客提及量是圖書銷量預測的一個有效的先行指標,原因在于較早購買者的推薦會影響潛在用戶的購買決策。孟園等[12]144通過實證發(fā)現,以月度為觀察周期,細粒度情感指數的變動趨勢要領先于產品銷量的變動趨勢,綜合情感指數滯后1個觀察周期時能提供最好的預測效果,滯后1~4個觀察周期時能對銷量預測起作用。

        基于情感分析的圖書銷量預測主要包括用戶評分量化預測、產品情感感知預測、屬性情感感知預測三種思路。一是利用基于用戶評分的粗粒度情感分析方法。謝瓦利埃(Judith A. Chevalier)和梅茲林(Dina Mayzlin)[13]利用亞馬遜網站和巴諾網站的用戶評分進行了粗粒度情感分析,建立了線性回歸分析模型并驗證了口碑說服效應。二是基于評論內容的粗粒度情感分析方法。李雪妮等[14]采用基于詞典的方法對圖書在線評論內容進行情感分析及量化,建立了情感感知自回歸模型,發(fā)現納入情感分析結果的模型在銷量預測方面具有更高的準確性。張川 (Zhang Chuan)等[15]基于前景理論的“消極偏見”解釋,即消費者對負面在線評論的態(tài)度比正面在線評論更敏感,構建了一個基于情感分析、前景理論和宏觀經濟指標的自回歸模型,利用歷史銷量數據、在線評論和宏觀經濟指標對中國汽車銷量進行預測。該類研究僅考慮用戶對產品的整體情感傾向。三是基于產品屬性的細粒度情感分析的方法。孟園等[12]144采用領域本體和情感詞典,構造了包含5個產品屬性的細粒度情感指數,提出了基于ARMA模型(autoregressive moving average model,自回歸滑動平均模型)的產品銷量預測模型。相對于粗粒度情感分析,細粒度情感分析考慮用戶對產品各屬性的情感傾向,更貼近用戶真實的情感表達。該類研究將在線評論與計量經濟模型相結合進行組合預測,在銷量預測效力上有較大改善。以上研究體現了圖書在線評論作為圖書銷量的影響因素和預測因素的重要性,但現有大多數研究的目標是建立統(tǒng)計意義上的關系,而不是發(fā)展預測模型的行業(yè)應用。

        現有關于圖書的預測研究側重于預測在銷圖書的未來銷售表現,因為這類預測模型有更多可用的解釋變量,包括在銷圖書的早期銷售數據、促銷活動及節(jié)假日效應、專家評論和用戶評論等,在實際情況中圖書銷量的預測會受到這些因素的影響,因此,考慮更多高質量的情境數據,有助于模型產生更準確的預測結果。

        3. 計算傳播學視角

        由于只有少量甚至沒有先前的銷售數據,且需求模式不確定,導致新書銷量預測的實現相對于在銷書而言更加困難。新書銷量預測并非完全不需要或沒有數據可用。在圖書正式出版前進行銷量預測可以參考前文所述的判斷預測進行同類參照的策略,但在新產品銷量依賴網絡口碑擴散效應的互聯(lián)網時代,判斷預測的“測不準”風險較大。計算傳播學視角下的新產品擴散模型可以為新書銷量預測提供一種可能的路徑。計算傳播學旨在基于人類傳播行為的數字足跡,采用文本挖掘、情感分析、社會網絡分析等帶有顯著計算特征的數據分析方法,以探究人類傳播行為的表現模式和內在邏輯。[16]新產品擴散這一概念最早由美國學者巴斯(Frank M. Bass)提出,認為新產品擴散是在一定時間內,在大眾傳媒和口碑傳播影響下,由率先采納的少數消費者逐漸擴展為更多消費者的動態(tài)過程,并構建了經典Bass模型,通過綜合外部宣傳、推廣效應以及在線評論產生的擴散效應預測產品采納情況。[17]

        基于Bass模型和情感分析的圖書銷量預測主要包括用戶評分量化預測、產品情感感知預測兩種思路。一是基于用戶評分的粗粒度情感分析方法。早期的組合預測模型主要將在線評論指標如評論數量、評論評分等結構化數據作為影響銷量預測的因素,沒有考慮在線評論的情感傾向。如德拉洛卡斯(Chrysanthos Dellarocas)等[18]將電影在線評論統(tǒng)計維度指標納入Bass模型,結合歷史銷售額和在線評論數據,發(fā)現電影在線評論的評論數量、口碑效價和口碑離散度均與未來的電影票房有顯著正向關系,且預測精確度優(yōu)于標準Bass模型。二是基于評論內容的粗粒度情感分析方法。王芳等[19]將口碑因素嵌入Bass模型,同時考慮口碑數量和正負情感對銷量預測的影響,結果表明該模型能夠很好地預測在線新產品需求。樊治平(Fan Zhi Ping)等[20]以汽車行業(yè)為研究對象,將Norton和Bass兩人共同建立的Norton-Bass模型和基于HowNet情感詞典(HowNet情感詞典是在中文領域使用最廣泛的中文情感詞典)的情感分析方法相結合,利用歷史銷量數據和在線評論情感傾向構建銷量預測模型。這篇文獻在Scopus數據庫被引用178次(截至2022年6月21日),某種程度上說明結合Bass模型和在線評論情感分析的銷售預測模型具有廣泛的應用領域和價值。Bass模型提供了新產品的當前采用者和潛在使用者互動的基本原理,更適用于已經上市一段時間且產生了一些銷售數據的新產品銷量預測;如果新產品尚未正式上市,就需要參考類似產品的歷史銷售數據進行預測。Bass模型的預測準確性關鍵取決于模仿參數、創(chuàng)新參數和市場潛力等參數的確定。

        4. 機器學習視角

        人工智能模型從海量的歷史銷量數據及相關文本數據中發(fā)掘出有價值的信息,采用人工神經網絡、隨機森林等算法對少量的非線性數據建模,預測中短期圖書銷量。

        張毓?。ˋlain Yee Loong Chong)等[21]通過設計大數據架構,結合情感分析和神經網絡,探索大數據環(huán)境下銷量預測的方法。研究發(fā)現在線評論、在線促銷策略和用戶情感都能預測產品銷量,但這些變量的相互作用效應比單個變量本身對銷售預測更為重要。梅蒂(Suman Kalyan Maity)等[22]采用機器學習方法中的支持向量機模型(support vector machine,英文縮寫SVM)和logistic回歸模型進行建模,對Goodreads平臺上的書籍相關數據進行跨平臺分析,提取書籍閱讀行為特征,將這些與亞馬遜網站的書籍銷售量進行關聯(lián),探尋亞馬遜暢銷書普遍具有的用戶行為模式。王偉軍等[23]提出一個整合微博公眾情感狀態(tài)、微博提及數、評論情感、評論數量的預測特征模型,采用多任務機器學習方法處理不同提前期的新產品市場預測問題,并用電影數據驗證了方法的有效性。此類方法將傳統(tǒng)銷量預測模型、人工智能模型與體現產品重要市場信息的網絡口碑結合,有助于在銷量預測上更接近真實。

        三、圖書銷量預測的影響因素

        識別圖書銷量的影響因素是圖書銷量預測的前提和基礎。影響圖書銷量的因素錯綜復雜,除了歷史銷量數據外,還與圖書本身特征、外部動態(tài)環(huán)境因素有關,如圖書質量、促銷手段、同類書競爭、網絡口碑、社會熱點、隨機事件因素等。借助大數據技術找出各變量之間的相關關系、因果關系,識別出重要的、數據可獲得的影響因素,尤其是少數隱性但關鍵的因素,將其分解為不同的維度和具體指標,構建銷量預測理論框架并進行建模,以盡可能減少預測與事實之間的偏差,是數據驅動圖書銷量預測的重難點所在。為了進一步明確圖書銷量預測模型的大數據基礎,依據大數據的半結構化、非結構化數據特征,區(qū)分為大數據表達的以在線評論為代表的口碑傳播因素和結構化數據表達的傳統(tǒng)的圖書特征因素。因此,本文將圖書銷量影響因素區(qū)分為圖書特征相關的情境因素和以在線評論為代表的圖書口碑傳播情境因素。

        1. 圖書特征因素

        發(fā)行時間、類型及是否為續(xù)集、是否入選過暢銷書榜單和榜單排名等圖書自身特征因素,以及圖書獲獎等事件驅動因素與圖書銷量的關系,在以往實證研究中受到學者的廣泛關注。

        (1)圖書發(fā)行時間

        圖書發(fā)行時間是圖書生命周期曲線的起點,圖書銷量隨著出版時間的延長而衰減的一般規(guī)律得到了研究驗證。[24]美國《紐約時報》暢銷書榜單中的虛構類圖書和非虛構類圖書絕大多數都在發(fā)行10周內達到銷售頂峰,一本書發(fā)行的前幾周非常重要,這是抓住讀者興趣以及圖書營銷宣傳、書店重點推薦、社交媒體評論等發(fā)揮作用的關鍵時期。[25]6

        (2)圖書類型

        已有實證研究中將圖書類型納入圖書銷量分析模型,但是依據不同的分類標準和研究需要,圖書類型的定義在不同的文獻中也存在較大差異,如依據體裁劃分為虛構類、非虛構類兩大類;依據圖書內容、讀者群體劃分為科幻小說、犯罪小說等。[26]是否為續(xù)集或系列圖書通常被認為是圖書銷量的影響因素之一。一般而言,續(xù)集類圖書相對于普通新書,已經擁有相對穩(wěn)定的讀者,因此某一系列的后續(xù)圖書會受到較多關注。此外,已有實證研究解釋了虛構類圖書作者比其他類型作者更多產,且更容易復制暢銷書的成功的原因。[25]3

        (3)圖書排名

        近幾年,國內暢銷書市場的頭部效應日益明顯。根據北京開卷信息技術有限公司的數據監(jiān)控,2020年銷量前1%的產品碼洋貢獻率為58.6%,前5%的產品碼洋貢獻率為82.3%。業(yè)內較有知名度的開卷暢銷書榜單、當當網暢銷書榜單都有“老書”暢銷不衰、榜單相對固化等現象。造成這些現象的原因可能是:普通讀者愿意選擇經過大眾和實踐檢驗的作品以減少選擇風險,出版機構受限于市場或書號更傾向于“老書重做”,出版業(yè)自身創(chuàng)新后勁不足等。國外學者對圖書是否曾經入選暢銷書榜單及其排名與圖書銷量的關系進行了實證研究,發(fā)現《紐約時報》暢銷書榜單會對上榜圖書的銷量帶來較大增長,且對那些作者是首次出書的暢銷書銷量影響更大。[27]這些學者的研究都驗證了一般意義上圖書的上榜及排名與銷量的正相關關系。然而,針對我國圖書排行榜門檻較低、缺乏固定分類標準的榜單市場現狀,讀者的態(tài)度會影響圖書排行榜的傳播效果,唯有那些客觀公允的榜單才能對讀者發(fā)揮積極、正向的引導作用。[28]

        (4)事件驅動因素

        相對于暢銷書榜單注重圖書銷量而言,圖書評獎活動更注重對圖書的思想性、內涵價值、影響力等方面的評價,重在發(fā)現和推介好書。獲得有公信力、權威性的重要獎項往往是圖書高質量的體現。已有研究表明,圖書獲獎作為外部驅動事件,會帶來獲獎后的圖書銷量大幅增長。[29]圖書獎項數據也被用于衡量圖書認可度、社會效益等指標,納入圖書出版選題決策模型等研究中。[9]817此外,其他事件驅動因素的影響在圖書銷量預測研究中也不可忽視,如被知名媒體提及對圖書產生的需求溢出效應[30]和文化類電視節(jié)目對圖書銷量產生的即時效應[31]等。

        2. 圖書口碑傳播因素

        隨著社會化網絡和電子商務的快速發(fā)展,在線評論對圖書銷量的影響凸顯。在線評論已經成為消費者獲取和分享圖書信息的重要渠道,當當網等圖書電商網站、豆瓣圖書等社交媒體平臺成為消費者的決策參考來源,以在線評論為代表的口碑傳播與圖書銷量關系成為圖書銷量預測的研究基礎。本文考慮到網絡口碑傳播者的專業(yè)性、知名性、同質性對信息采納者的影響差異,根據圖書網絡口碑傳播者的身份、聲譽等特征劃分為專家書評、意見領袖書評和用戶在線評論。

        (1)專家書評

        在圖書生命周期的早期,由于專家書評體現的專業(yè)性或知名性,注重從內容視角傳遞圖書質量,能夠為市場的“跟隨者”提供關于圖書的知識和經驗,因而成為大多數消費者購書決策的參考??死组T特(Michel Clement)等[32]實證研究了德國最受歡迎的文學電視節(jié)目《文學四重奏》中的4位書評人對被評書籍銷售成功的影響,發(fā)現專家書評是銷量的影響因素之一。這一研究結論可能跟國外較早建立了成熟的獨立書評機制有關,比如美國大學與研究圖書館協(xié)會(Association of College and Research Libraries,英文縮寫ACRL)的Choice網站是一個著名的學術圖書專家評論平臺,它邀請美國最優(yōu)秀的學者對最新的學術書籍進行評論,并定期把新書信息、書評和圖書榜單發(fā)布在官網上,被公認為審查優(yōu)秀學術圖書的機構品牌。

        目前,國內專家書評面臨多種現實挑戰(zhàn)。一是稀疏性。相比較而言,國內仍然缺乏健全的書評環(huán)境和機制,權威性高的專家評論數量較少且可見度不高,難以對大多數讀者的購買決策產生影響。二是分散化。國內關于圖書的專家評論分散在各個載體,包括發(fā)表在期刊上的書評論文、散落在報紙上的書評文章、主流平臺評選的“中國好書”等榜單的專家推薦、圖書腰封的評論文本,以及豆瓣圖書頻道等社交網絡平臺的專業(yè)性長評。

        (2)意見領袖書評

        除了相關領域專家,意見領袖發(fā)表的書評會引領群體行為、影響閱讀選擇,對圖書銷量的影響同樣值得關注。楊華等[33]實證研究了網絡口碑與消費者圖書購買意愿的關系,發(fā)現傳播內容特性對消費者圖書購買意愿具有直接影響,傳播者特性對圖書購買意愿存在直接影響和以傳播內容特性為中介的間接影響,認為應借助豆瓣書評、博客等文化推廣式平臺,充分發(fā)揮名人、意見領袖所發(fā)表的書評方面的作用。

        (3)用戶在線評論

        專家及意見領袖書評在某種程度上能反映圖書的質量或影響力,而基于用戶生成內容的圖書在線評論則更多地體現圖書的受關注程度和用戶的綜合評價。在不被惡意操縱的前提下,在線評論指標可以用于評價圖書在原有受眾圈層內外的讀者群體中獲得的更廣泛教育或文化影響。[34]國外學者專注于在線評論與圖書銷量關系的學術研究起步較早,相對而言國內在這方面的學術研究起步較晚,研究成果主要分散在經濟學、管理學、情報學等領域。龔詩陽等[35]從評論數量、評論效價維度驗證了在線評論對圖書銷量有顯著影響,評論差異有顯著的負向影響,且在線評論的影響隨圖書生命周期而逐步減弱。隨著數據挖掘技術的發(fā)展,許多學者對在線評論情感分析進行了深入研究。羅克拉格(Matthew D. Rocklage)等[36]認為星級評價不能作為對項目真實價值的有效性參考,預測了從1995年到2015年亞馬遜網站上所有書籍的成功性,并發(fā)現了在線評論文本情感性因素比星級評價更能發(fā)揮預測作用,所有圖書前30條評論中更多正面的情感性表達預示著更多的購買量,且這一結論在93%的圖書類型中都適用。

        綜上所述,已有研究確立了在線評論作為圖書銷量的影響因素、預測因素的重要性,但大多沒有提供可用于現實決策的具體模型。本文擬從圖書特征和口碑傳播兩個方面,厘清影響因素和圖書銷量之間的預測機制,為構建數據驅動的圖書銷量預測理論框架提供有效的預測指標測度和理論解釋。

        四、數據驅動的圖書銷量預測理論框架構建:以圖書在線評論為例

        在前文分析的基礎上,本文將在線評論情感分析納入圖書銷量預測理論框架(見圖1),將計量經濟模型、新產品擴散模型、人工智能模型等進行綜合集成。理論框架主要包括數據獲取與預處理、圖書在線評論情感指數構建、圖書銷量預測模型構建和圖書銷量預測模型效果評價四個模塊。

        圖1 數據驅動的圖書銷量預測理論框架

        1. 核心內容模塊

        (1)數據獲取與預處理

        作為圖書銷量預測理論框架的數據基礎,這一步驟的主要目的是根據預測目標確定并獲取反映圖書銷量影響因素的指標和數據,將內部數據與外部數據、結構化數據與非結構化數據進行匯聚,區(qū)分為圖書歷史銷量數據集、圖書特征數據集、圖書在線評論語料庫,重點在于對反映讀者需求的圖書在線評論數據進行采集與挖掘。首先,進行多源中文圖書在線評論的基礎語料庫構建。采用網絡爬蟲工具在當當網、豆瓣讀書、媒體專欄等不同平臺上爬取讀者書評和專業(yè)書評,將在線評論按信息來源和圖書類別分類,并完成語料的初步情感標注工作,形成基礎語料庫;其次,利用中科院計算所的大數據語義增強分析平臺(NLPIR)以及其他開源程序,進行分詞處理、分句處理、詞性標注和詞頻統(tǒng)計等數據預處理;最后,利用圖書名稱和ISBN等標識進行數據關聯(lián),實現多源中文在線評論的語料數據準備。

        (2)圖書在線評論情感指數構建

        首先,采用本體建模技術和文本挖掘方法,分析多源圖書在線評論文本的語言特點、語言模式和內容構成,基于語義相似度和共現關系,構建圖書評論語料庫和圖書領域情感詞典。識別概念間的整體部分關系、類屬關系和屬性情感關聯(lián)關系,構建圖書評論領域本體,實現圖書在線評論的多維度聚合與語義提取。其次,基于圖書評論領域本體和圖書領域情感詞典,提取圖書產品屬性及用戶情感,判定情感傾向和情感強度,對在線評論的情感、屬性、統(tǒng)計、質量四個方面進行量化,實現細粒度的評論解讀。從主觀和客觀兩個情感維度以及客觀情感的內容、形式、價值、服務四個子維度出發(fā),構造圖書在線評論細粒度情感指數集。

        (3)圖書銷量預測模型構建

        通過描述性分析和相關性分析,對影響圖書銷量的重要變量進行篩選、描述和數據探索,結合實際業(yè)務,綜合考慮模型預測準確性與模型可解釋性的匹配度進行模型選擇,將情感指數作為反映讀者對圖書情感的變量,結合發(fā)行時間、入選榜單情況、獲獎等事件驅動因素所對應的變量,納入計量經濟模型、新產品擴散模型、人工智能模型,檢驗各影響因素對圖書銷量的影響和預測的作用機制,并對圖書的銷量預測進行實證研究。

        依據情感指標納入預測模型的方式,將基于情感分析的預測方法區(qū)分為以情感分析結果為主要依據、以情感分析結果為輔助依據兩種方法。前者的基本流程包括文本分析、數據規(guī)范化、預測結果輸出;后者的基本流程包括文本分析、數據規(guī)范化、指標集成、預測結果輸出[10]100。以情感分析結果為主要依據的預測方法僅采用在線評論的情感計算指標,將情感指標作為圖書銷量預測單一的先行指標進行預測。以情感分析結果為輔助依據的預測方法,將情感指標作為圖書銷量預測的先行指標之一進行預測,將圖書特征因素、歷史數據等與銷量預測具有相關關系的指標,結合情感指標進行指標集成,通過多指標集成提高預測準確度。由于這類預測模型有更多可用的解釋變量,在實際情況中圖書銷量的預測會受到這些因素的影響,因此,考慮更多高質量的情境數據,有助于模型產生更準確的預測結果。

        (4)圖書銷量預測模型效果評價

        將不同的預測模型與基準模型進行對比,選擇可靠的檢驗統(tǒng)計量、驗證程序來檢驗模型的預測效果,并比較分析不同算法、模型對數據擬合能力的優(yōu)勢和劣勢,進而調整、迭代、優(yōu)化,以進一步提升模型的預測能力。圖書銷量預測最終要回歸到業(yè)務應用層面,預測模型最直接的效果是能夠進一步提升出版機構對圖書市場輿情研判、前端預警和應對市場變化的能力,更好地支持出版業(yè)務決策。因此,預測模型效果評價必然要在出版業(yè)界專家、管理層對模型提供業(yè)務理論指導和實踐經驗總結的基礎上,綜合考慮模型的可解釋性、可落地性和可擴展性。

        2. 關鍵問題解決思路

        大數據時代,動態(tài)復雜的外部環(huán)境給圖書銷量預測增加了難度,在內外部多重因素的綜合影響下,圖書銷量變化呈現出復雜性、非線性特征。而出版業(yè)傳統(tǒng)的圖書銷量預測中缺乏需求端的數據,僅依靠出版機構已有的歷史銷售數據、圖書物理屬性數據和編輯經驗進行未來銷量估計,預測精度較差,這也是導致多年來我國圖書行業(yè)庫存較高、供需結構性矛盾的主要原因。目前,由于圖書銷量的影響因素類型和數據的多樣性,以及用于圖書銷量預測的方法、模型和算法相對匱乏,圍繞圖書銷量預測的研究面臨極大挑戰(zhàn)。

        (1)多源異構數據匯聚問題

        系統(tǒng)地收集圖書銷量影響因素對應的高質量數據是提高預測精確度的前提條件。大數據技術為圖書銷量影響因素的研究提供了多樣化的數據源,為圖書銷量預測更接近現實提供了實現的可能。與圖書基本特征數據不同,反映讀者需求的圖書在線評論廣泛分布于不同的網絡平臺、圖書館、實體書店以及其他文化機構或媒體的相關數據或資料中,且多以非結構化數據形式呈現。針對多源異構數據信息單元之間的關系呈現非線性、多維性、模糊性的特點,數據獲取與匯聚過程中要選擇具有代表性、權威性、可獲得性的數據源,將在線評論數據與圖書特征數據進行深度關聯(lián),挖掘圖書銷量、用戶購書決策及評價行為背后所隱含的深層原因,以減少預測的不確定性。在多源異構數據匯聚的研究過程中,面臨著評論有用性識別、數據聚合和語義提取等實際問題。

        (2)預測建模的跨學科問題

        預測方法和影響因素同屬于銷量預測研究關注的重點。銷量預測本身是一個商業(yè)問題,涉及經濟學、管理學、計算機學、傳播學等多領域,具有典型的跨學科屬性。大數據在為圖書銷量預測研究提供了更多維的影響因素的同時,也需要與之相適應的理論和研究方法。傳統(tǒng)的圖書銷量預測方法以時間序列分析、自回歸模型為代表,但這些經典模型難以捕捉大數據環(huán)境下的非線性特征。近年來,該領域的學者不斷在預測方法和建模上進行優(yōu)化,如引入機器學習以提高預測精度等。因此,如何借鑒先進的銷量預測方法和技術應用到圖書領域,結合影響圖書銷量的特定因素進行建模和實證研究,并用于指導出版實踐是一項富有挑戰(zhàn)性的工作。圖書在線評論作為重要的銷量預測指標,在研究中需要借助計算科學與復雜科學等跨學科視角,構建針對圖書的社交網絡信息傳播模型;借助自然語言處理、文本挖掘等技術對多源異構圖書在線評論數據進行質量判定、語義分析和情感傾向分析;借助出版領域專家和管理者意見對圖書銷量預測結果進行判斷性調整,驗證預測模型和算法的效果,這些工作都需要進行跨學科的探索和創(chuàng)新。

        五、結語

        基于圖書在線評論情感分析的圖書銷量預測理論框架構建,有助于更深入地理解社會如何與圖書產品進行互動,為全民閱讀背景下實現圖書“叫好又叫座”、社會效益與經濟效益俱佳的場景提供了可能。本文所構建的數據驅動的圖書銷量預測理論框架傾向于從理論、方法、路徑上提供總體設計,但是在實際應用中,銷量預測的成功在很大程度上與圖書供應鏈的反應程度、出版機構的數字化水平、大數據賦能等密切相關。展望未來,隨著更多的出版機構通過搭建大數據平臺將資源數據、運營數據、用戶行為數據等進行有效整合和共享,圖書供應鏈將朝著數字化、全渠道、全鏈路的方向發(fā)展,圖書銷量預測方式將融合算法、數據、場景三要素,推動圖書行業(yè)數據智能的迭代發(fā)展,為供需精準對接提供科學依據。

        猜你喜歡
        情感模型
        一半模型
        如何在情感中自我成長,保持獨立
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        如何在情感中自我成長,保持獨立
        3D打印中的模型分割與打包
        情感移植
        欧美自拍区| 色狠狠av老熟女| 免费午夜爽爽爽www视频十八禁 | 日韩AV无码乱伦丝袜一区| 久久精品国产亚洲av高清蜜臀 | 亚洲女同av在线观看| 男女交射视频免费观看网站| 国产aⅴ激情无码久久久无码| 在线看片免费人成视频电影| 蜜臀av 国内精品久久久| 久久久久亚洲av无码a片软件| 在线成人福利| 一本加勒比hezyo无码视频| 国产av普通话对白国语| 亚洲国产一区二区三区精品| 免费不卡无码av在线观看| 国产乱了真实在线观看| 8ⅹ8x擦拨擦拨成人免费视频 | 国产女合集小岁9三部| 人妻精品丝袜一区二区无码AV| 91精品国产91久久综合桃花| 国产亚洲精品视频在线| 在线观看一区二区三区在线观看| 国内精品久久久久影院薰衣草 | 亚洲av综合日韩精品久久久| 国产成人高清视频在线观看免费| 在线观看国产激情视频| 大又大又粗又硬又爽少妇毛片| 中文字幕人妻丝袜乱一区三区 | 波多野结衣有码| 久久99中文字幕久久| 中文文精品字幕一区二区| 亚洲成在人线视av| 国产成人精品999在线观看| 一区二区三区国产美女在线播放| 一级黄片草逼免费视频| 国产一区二区三区在线大屁股| 国产av无码国产av毛片| 国产精品久久久久av福利动漫| 婷婷综合五月| 手机在线中文字幕国产|