王紅 王雅琴 黃建國
DOI:10.3969/j.issn.1008-0821.2021.09.008
[中圖分類號]G253.1 [文獻標識碼]A [文章編號]1008-0821(2021)09-0074-10
1引言
1.1問題提出
圖書采訪是一項嚴謹?shù)目茖W決策工作,尤其是在確定每一類目圖書的采訪數(shù)量或預算后,面對大量差異化趨小、同質化嚴重的圖書品種,優(yōu)選出流通利用率高、符合圖書館性質、任務等建設方向且綜合評價較高的圖書,成為圖書采訪過程中面臨的主要任務。
流通數(shù)據(jù)作為讀者需求直接映射結果.在采訪實踐中,常常作為分類知識的采訪數(shù)量提供參考,然而,流通數(shù)據(jù)對具體圖書品種的選擇,卻很難提供數(shù)據(jù)支持。迫使采訪人員把具體圖書品種選擇的依據(jù)轉為從讀者需求人手,通過各種手段收集需求數(shù)據(jù),并采用各種研究工具預測讀者需求。但在面臨具體圖書品種,不能充分挖掘和利用真實的需求數(shù)據(jù)隱含的參考價值,而是依賴讀者的需求意愿,通過需求調查或者讀者參與采訪等手段作為遴選圖書的依據(jù),導致圖書采訪結果的信度降低,最終影響采訪效率。
采用成熟的人工智能算法,挖掘利用隱含在流通數(shù)據(jù)中讀者需求的信息,以此轉化為遴選圖書的依據(jù),不僅使圖書采訪有了可靠的客觀依據(jù),而且有利于把握復雜多變的讀者需求,為進一步研究讀者需求規(guī)律,探索圖書采訪的決策分析,提供嚴謹?shù)倪壿嬕罁?jù)和量化決策指標,打造堅實的理論和應用保障。
1.2問題引入
圖書采訪作為一項決策活動,決策對象是待采訪圖書,決策內容是選擇具有較高流通潛力的圖書。圖書采訪決策的核心問題是基于怎樣的原理,采用何種方式,能夠科學、客觀、嚴謹?shù)貙γ恳环N待采訪圖書的流通趨勢進行量化描述,并根據(jù)量化結果,優(yōu)選出最具有流通潛力的圖書。
讀者需求和圖書流通,是同一問題互為矛盾互為依存的兩種表述視角,讀者需求的行為結果就是圖書流通的表現(xiàn)結果。但是,由于讀者需求具有需求意愿和需求行為兩個過程,與采用讀者需求意愿相比,采用需求行為結果對具體的圖書需求品種預測更具有可信度和說服力。
圖書館對館藏圖書流通的掌控和了解程度,相對于讀者需求意愿而言,有著更加充分有力、令人信服的客觀記錄數(shù)據(jù)基礎。館藏圖書有確定的知識內容及其描述信息,館藏圖書流通有詳實的記錄數(shù)據(jù),依據(jù)館藏圖書的客觀描述和流通等數(shù)據(jù)比通過收集探索讀者需求等主觀因素數(shù)據(jù),分析圖書流通規(guī)律與趨勢更具有堅實的基礎和可靠保障。
在對圖書流通現(xiàn)象內在規(guī)律和機制充分了解之前,某種圖書發(fā)生流通的事件,只能稱之為有限觀察范圍內的一種隨機事件。隨機事件既有偶然性的一面,又具有必然性的一面,這種偶然性意味著隱藏在圖書流通現(xiàn)象背后的讀者需求規(guī)律尚未能被揭示,必然性則表明,復雜且毫無頭緒的圖書流通現(xiàn)象,具有統(tǒng)計學意義的規(guī)律尚待挖掘。
1.3問題分析
圖書采訪最主要任務,是不斷補充具有流通潛力的館藏,認識了解圖書流通的形成機制和特征,是識別圖書流通潛力的基礎和前提。圖書流通是由圖書和讀者兩個圖書館客體對象互動的結果,相對于讀者需求意愿與行為,圖書具有穩(wěn)定的客觀特征,從圖書自身角度,圖書是包含固定知識內容的載體。從圖書館館藏管理角度來看,圖書是由MARC數(shù)據(jù)標識的管理對象;從讀者視角,圖書只是擁有各種不同名稱的知識載體,一種館藏圖書發(fā)生流通之前,讀者對該圖書內容的了解程度,主要有3種情況:一是從未聽說該種圖書,但通過圖書的封面上題名項等信息,對圖書承載的知識內容有了初步的認識;二是讀者通過各種渠道,對該種圖書承載的知識內容有一定的了解,但并不知曉圖書的內容細節(jié);三是閱讀過該圖書,因為各種不為圖書館所知的原因,再次借閱該圖書。從圖書采訪角度來看,圖書采訪補充的圖書種類,主要是讀者從未閱讀知曉的新書。
一般情況下,對一種圖書發(fā)生流通的陳述是,圖書被有獲取圖書承載知識內容需求的讀者借閱。這種陳述隱含兩個重要的前提:一是讀者需求背后有著復雜的需求動機和目的;二是讀者需求目標是圖書所在類目的知識,被借閱的圖書僅僅是讀者對該類知識載體的一種選擇。由此可知,圖書發(fā)生流通的機制主要在于,一種圖書能夠展示給讀者的內涵表征信息,成為決定該種圖書被讀者選中借閱的關鍵因素。圖書傳遞給讀者的信息,由兩個途徑構成:一是圖書與讀者的直接互動,通過讀者觀察和翻閱瀏覽,把圖書自身攜帶的基本描述信息和知識內容展示給讀者后,最終形成圖書的流通結果;二是讀者查看圖書的題名、簡介,或從其他相關渠道了解的內容,既包括圖書內容的基本描述性信息,也包括圖書內容簡介或部分內容信息,以及圖書可能發(fā)揮的作用與功能等內容。
從圖書流通形成的機制可以看出,一種圖書是否發(fā)生流通,與這種圖書所在的相同知識分類中的其他圖書之間,具有競爭和相互影響的關系,與其他分類圖書之間沒有任何關系。因此,在既不能把握和調控讀者主觀意愿,也不能了解圖書流通現(xiàn)象內在機理和規(guī)律的情況下,從具體知識類目下的館藏基本知識描述信息入,通過考察不同館藏的流通規(guī)律分析,探索具有類似描述信息的待采訪圖書流通潛力,具有操作的可行性和邏輯的充分性。
1.4問題假設與定義
由于圖書采訪的目標是選購具有流通潛力的圖書,因此,本研究提出一種假設,一種圖書流通競爭潛力的影響因素,是圖書所在具體分類的類目中,由圖書封面的題名、作者和出版機構3個要素對讀者綜合作用的結果。因此,圖書采訪決策活動可以表述為:
定義1:設Acq={x1,x2,…,xi為全部待決策圖書集合,總計有i種待選圖書,xi為每一種待決策圖書,每一個待決策圖書x={a1,a2,…,am},n為待決策圖書z有m維屬性特征(即題名等),圖書采訪決策,就是根據(jù)am承載的信息,判斷xi未來流通潛力,對xi做出購買Buy或不購買Nobuy的二元分類判斷,使Acq集合中每一個對象x,都擁有一個新的分類屬性(購買或不購買)。其中,圖書的屬性特征維度m,是對圖書形式和內容所承載全部信息,依據(jù)一定分類規(guī)則做出的多維特征劃分。
2相關研究
圖書館發(fā)展困境之一是資源采訪環(huán)節(jié)存在問題,影響了圖書館資源建設的效率和質量,對圖書館各項職能的發(fā)揮產(chǎn)生影響。王紫劍、李穎、毛靜華等分別從圖書采訪和出版發(fā)行角度,對圖書采訪人員素質提出了要求和解決的途徑。而基于圖書自身承載的特征數(shù)據(jù)要素,開展圖書采訪的研究,常見的關注點主要以提升采訪圖書質量為目標,集中在圖書分類特征、出版機構特征和作者特征分析。相關研究主要體現(xiàn)在圖書特征要素篩選、圖書價值分析等方面的探索。蔡時連認為文獻出版發(fā)行信息是文獻的核心和實質,分為內部特征和外部特征,涵蓋了出版機構、發(fā)行機構、價格、作者、版次、印刷單位、裝幀和書號等,以及標題、摘要、前言、目錄和內容部分及其科學價值等。樊國萍認為,書目信息經(jīng)過信息的制作、傳遞與利用3個主要環(huán)節(jié),在流動中信息的損耗難以避免。許繼新在分析判斷圖書學術價值的途徑后,提出判斷圖書效能要素從高到低依次為核心著者、核心出版社和著作方式。王紅等提出圖書館現(xiàn)有的數(shù)據(jù)絕大部分為有標記數(shù)據(jù),其中館藏主要是由MARC數(shù)據(jù)標準控制的標記數(shù)據(jù),根據(jù)館藏、讀者和流通數(shù)據(jù),可揭示館藏、流通和知識分布規(guī)律。馬費成等認為在當前的研究方向中,采用詞頻分析法,利用文獻核心內容的關鍵詞或主題詞出現(xiàn)的頻次,能夠發(fā)現(xiàn)研究熱點和發(fā)展動向。吳越提出利用數(shù)據(jù)挖掘的方法,構建高校圖書館圖書采訪決策模型,能夠幫助采訪館員發(fā)現(xiàn)模型與數(shù)據(jù)之間聯(lián)系的思路。胡楊注意到零借閱率圖書作為動態(tài)分析數(shù)據(jù),其存在有必然性和客觀性。
3相關原理
圖書的分類特征內容主要由自然語言構成?;谧匀徽Z言開展人工智能分類分析,首先需要利用自然語言處理分析技術,對圖書特征描述進行量化處理,然后再利用人工智能技術開展分類研究。
3.1自然語言分析處理技術
自然語言處理是人工智能領域的重要組成部分,已經(jīng)在信息索引、文本分類、機器翻譯、搜索引擎、對話系統(tǒng)等領域取得長足進步。其中,具有堅實數(shù)學理論支撐和可量化分析技術的統(tǒng)計自然語言處理技術異軍突起,通過利用學習人類已經(jīng)形成的語言資料,成為探索自然語言規(guī)律的最基礎理論。
分詞技術、信息提取和文本分類是自然語言處理的核心技術。中文分詞就是對中文斷句,分出來的詞語,往往來自詞典為主的詞表,中文分詞最簡單的方法是直接匹配詞表,返回此表中最長詞語;信息提取就是把文本里包含的信息點進行結構化處理,變成可利用表格進行信息組織的形式,以利于數(shù)據(jù)庫存儲和處理;信息點指文本中的事件、實體的關系;文本分類是指按照一定的分類體系或標準對文本進行自動分類標記。
關鍵詞提取可以發(fā)現(xiàn)文本數(shù)據(jù)重要特征,信息提取主要內容是關鍵詞提取,TF-IDF(Term Fre-quency-Inverse Document Frequency).詞頻一逆文檔頻率,基于語料進行關鍵詞提取模型訓練的方法,是比較成熟和常用的關鍵詞提取方法。作為一種關鍵詞統(tǒng)計提取方法.用以評估一個詞語對于文件集或語料庫中一份文件的重要程度。計算公式如下:
其中,w代表給定詞語,詞頻TF表示在一個文檔或語料庫中,給定詞語在本文檔內的重要程度,即給定詞語出現(xiàn)的頻率,是該詞語出現(xiàn)的次數(shù),與該文檔出現(xiàn)最多次數(shù)詞語的次數(shù)之比。逆文檔頻率IDF表示在全部文檔中或語料庫中,給定詞語對每一個文檔或語料庫的重要程度,是由文檔的總數(shù)量除以包含給定詞語的文檔數(shù)量,再對計算結果取對數(shù)。由于IDF是對一個大于或等于1的數(shù)值取對數(shù),其結果是一個大于0的值域,這不僅意味著包含給定詞語的文檔數(shù)量越少,IDF數(shù)值越大,也表明給定詞語越能夠代表該文檔獨特的特征。TF-IDF通過計算全部詞語在本文檔的重要性和獨特性的量化關系,按照計算結果降序排序和選擇關鍵詞個數(shù),就得到代表每個文檔特征的關鍵詞集合。
文本分類一般包括兩分類和多分類,如確定是否購買一本書,就是買或不買兩種分類;而確定一本書是圖書分類法中的哪種分類,就是多分類。文本分類是當前機器學習領域相對成熟的技術,主要原理是利用計算機,在已有分類的數(shù)據(jù)基礎上,對數(shù)據(jù)特征的學習模型進行訓練,最終使模型能夠對未進行分類的數(shù)據(jù)擁有較高的預測能力。常見的分類方法主要有神經(jīng)網(wǎng)絡、支持向量機、k近鄰和樸素貝葉斯分類,其中支持向量機適合長文本分類,樸素貝葉斯適合短文本分類。
3.2文獻—詞項矩陣
文獻—詞項矩陣(Document-term Matrix)是詞共現(xiàn)矩陣的一種形式,不同文檔構成矩陣的行,不同詞項構成矩陣的列。文獻矩陣的含義如表1所示,其中Books代表文檔,Keywords代表詞項,a代表文檔中對應詞項的統(tǒng)計值。詞項一文獻矩陣以矩陣形式的表達式如下:
文獻一詞項矩陣把自然語言描述和表達的對象.通過詞項方式予以量化規(guī)范表達,使得復雜的文本對象擁有了標準的數(shù)學表示方法,為利用機器學習模型開展各種量化分析和研究,提供了基本保障。
3.3概率論與樸素貝葉斯分類
印度著名圖書館學家阮岡納贊1966年在《圖書館書刊選擇》中提出:負責圖書采購的圖書館員或教師,應該注意到選購圖書對于讀者使用該書的概率性。樸素貝葉斯分類(Naive Bayes)是當今人工智能監(jiān)督學習的重要算法,被選人數(shù)據(jù)挖掘的十大算法之一。樸素貝葉斯分類源于古典數(shù)學理論,有著堅實的數(shù)學基礎,在利用給定帶有類別向量的對象集合,判斷未曾見過對象的類別方面,具有成熟穩(wěn)健、易于構造、容易理解、分類效果極佳的優(yōu)勢。
樸素貝葉斯分類依據(jù)的貝葉斯定理,是概率論的基本原理。貝葉斯定理描述真實世界的考慮,就是承認人類認知能力的有限性,既無法對每件事情都做出測量,也無法讓每件事都可以重復發(fā)生。人們只能依據(jù)某種有限的經(jīng)驗,估計未來即將發(fā)生事件的可能性。其思路是,當不能準確知悉一個事物的本質時,可以依靠與事物特定本質相關的事件出現(xiàn)的多少去判斷其本質屬性的概率,即支持某項屬性的事件發(fā)生得愈多,則該屬性成立的可能性就愈大。比如一個工科高校,在圖書采訪面對一種TP18人工智能類目的圖書時,如果不考慮其他任何因素,此種圖書是否會發(fā)生流通時間的概率只能各占50%,如果增加出版社的條件,采訪館員根據(jù)對出版社儲備的知識與經(jīng)驗,即可判斷出此種圖書的出版社為“清華大學出版社”的流通發(fā)生概率,將遠遠大于“人民教育出版社”的流通概率。
貝葉斯定理的數(shù)學形式也極為簡單,通過先驗概率和條件概率,得到事件發(fā)生的后驗概率:
其中,B和C為隨機事件,應用在圖書館管理工作,可以把B解讀為圖書或館藏,把C解讀為購買或流通。
樸素貝葉斯進行分類,就是計算所有的P(C|B),找到最大條件概率c,即arg maxP(c|b),即樸素貝葉斯分類公式:
其中,c∈C、b∈B,通過類別c發(fā)生情況下6發(fā)生的條件概率P(b|c)和先驗概率P(c),得到c的P(c|b)的最大值。
樸素貝葉斯分類在實際應用中,由于實際觀察的有限性,以及樣本數(shù)量較少,常常會出現(xiàn)實際樣本中,b=w1,w2,…,wn,隨機事件b的屬性特征劃分,并不能涵蓋新樣本的屬性特征劃分wn+1的情況,造成P(b|c)=0的情況,由于不能因為沒有觀察記錄,就認為該事件出現(xiàn)的幾率為零,在利用樸素貝葉斯分類時,也必須確保詞項的條件概率非零,一般采用貝葉斯分類的平滑技術即拉普拉斯平滑技術,對每個類別下所有劃分的計數(shù)加1,在訓練樣本集數(shù)量較大時,并不會對結果產(chǎn)生影響,并且解決了P(b|c)=0的問題,提高了樸素貝葉斯分類的精度。
4研究方法
4.1研究數(shù)據(jù)與工具
待采訪圖書數(shù)據(jù),來自2018年太原市新華書店的新書書單,館藏數(shù)據(jù)和流通數(shù)據(jù)來自太原科技大學2018年以前全部數(shù)據(jù)。本研究根據(jù)太原科技大學以理工為主的特點,結合近年來人工智能技術成為熱點等因素,選擇TP18類圖書的館藏和流通數(shù)據(jù)作為研究的基礎依據(jù),并把新華書店TP18類全部新書作為待采訪書單,開展采訪分析。中文分詞的詞典和停詞表,是基于系統(tǒng)自帶的詞典,結合通過自定義方式。
研究的工具采用Windows7系統(tǒng)上的64位R語言4.0版本,在R語言的IDE工具RStudio上展開,數(shù)據(jù)以兩種方式存儲:一是存放在數(shù)據(jù)庫中:二是以CSV格式文件存儲。其中數(shù)據(jù)庫中的數(shù)據(jù)是為了動態(tài)分析,CSV格式文件存儲的數(shù)據(jù),可以重復實驗過程。數(shù)據(jù)庫采用Mysq16.0版本,數(shù)據(jù)在數(shù)據(jù)庫中的字符編碼為UTF-8。中文分詞技術采用Jie-ba分詞的R語言版本的字典,TF-IDF、詞項一文本矩陣和樸素貝葉斯分類和預測等,采用R語言tm包提供的相關函數(shù)與工具。
4.2研究思路
樸素貝葉斯方法,只關注初始分項和分析結果,圖書采訪的分析結果,就是在具有相同的知識分類下,計算每種圖書未來潛在的流通率,并通過相互比較,選擇潛在流通率更高的圖書。
定義2:具體類目下的館藏圖書集合I={y1,y2,…,yj,yj為館藏圖書,總計有j種館藏圖書,每種館藏yj={a1,a2,…,am,classify},a為館藏圖書x有m維屬性特征,classify為分類項,分類項是指yj是否發(fā)生流通事件,用circ和nocirc兩個不連續(xù)變量對館藏圖書進行分類。
每種圖書都有基本劃分,即有流通和無流通的兩種分項,有兩個分項向量構成全部的向量空間;同時又有多項特征第二種分項,同一知識類目下的館藏圖書和待采訪圖書的全部特征,構成第二種分項的向量空間?;跇闼刎惾~斯分類,首先,利用流通數(shù)據(jù),進行模型訓練;其次,對待采訪圖書進行是否具有流通潛力的預測,第三,根據(jù)每種圖書的潛在流通概率,優(yōu)選出具有更高流通潛力的圖書。
4.2.1邏輯起點
對圖書采訪而言,圖書的表征就是發(fā)生圖書流通的先決條件。一種圖書承載的知識內容特點,雖然由大量詞語組合而成,但概括而言,圖書題名、內容簡介、知識分類等圖書基本描述,高度集成了圖書承載的知識內容與特點,讀者初識一種剛剛出版的圖書,也是通過圖書這些表征,開始知曉和推測圖書可能承載知識內容與特點。因此,任何讀者認識一種圖書的知識內涵,都是以讀者發(fā)現(xiàn)和了解圖書的表征為邏輯起點,圖書在借閱和閱讀的過程中,實現(xiàn)知識轉移和傳承,是圖書發(fā)揮價值后的邏輯終點。
4.2.2圖書特征分析篩選
圖書內容構成圖書特征,圖書特征通過圖書描述數(shù)據(jù)得以集中體現(xiàn)。為了減少模型計算量,利用圖書描述信息的兩種規(guī)范數(shù)據(jù)進行前期的優(yōu)化篩選。圖書描述信息主要有:一是針對出版行業(yè)的圖書在版編目數(shù)據(jù)(CIP);二是針對圖書館行業(yè)的機讀目錄數(shù)據(jù)(MARC)。鑒于待采訪圖書承載的知識內容,對于讀者尚處于未知階段,圖書特征主要選擇圖書外觀上的數(shù)據(jù),包括題名、副題名、著者、出版機構、叢編、分輯和價格7項指標。
4.3研究原理
圖書采訪決策,就是利用有關數(shù)學原理和機器學習方法基礎,根據(jù)館藏圖書的特征分量,對圖書流通產(chǎn)生的影響,預測待采訪圖書特征分量可能的流通趨勢。
樸素貝葉斯分類的分析原理,把該類館藏圖書劃分為有流通和無流通兩類,并利用圖書館可觀察記錄,分析每一種圖書的特征分量。每一種圖書特征分量的表達,就是對所有館藏圖書的題名,利用分詞技術獲取關鍵詞,通過關鍵詞、著者和出版機構名稱,表現(xiàn)一種圖書的全部特征。由于著者和出版機構是專有名詞,不可分詞,題名中的關鍵詞,就是每一種圖書的特征劃分。如題名為“不完備信息系統(tǒng)知識獲取的粗糙集理論與方法”的圖書特征劃分,去掉沒有實際意義的虛詞、助詞、介詞等,就是“不完備”“信息系統(tǒng)”“知識獲取”“粗糙集”“理論”“方法”6個基本劃分組成,這6個特征與著者和出版機構,共同組成此種圖書的綜合描述內容。把能收集到且包括全部館藏的TP18類圖書的題名進行分詞并刪除重復項,構成文獻一詞項矩陣。學習訓練集是人工智能采訪系統(tǒng)進行深度學習訓練的依據(jù)。把帶有是否發(fā)生流通分類項的館藏數(shù)據(jù)分為訓練集和測試集,依據(jù)文獻一詞項矩陣,進行樸素貝葉斯計算,并找到分類最大概率,評估樸素貝葉斯分類模型,并利用模型對文檔詞項矩陣中的待采訪圖書進行預測分類,就可得到能夠量化解釋的采訪決策書單。
5研究過程
5.1數(shù)據(jù)現(xiàn)狀與特征篩選
圖書館TP18類目館藏圖書的基本指標情況是,總計有249種圖書,其中,從未發(fā)生流通的53種,大約占該類館藏數(shù)量的21%,發(fā)生流通的196種,大約占該類館藏數(shù)量的79%,流通次數(shù)總計3742次。出版機構覆蓋了51個,館藏圖書中最多的是“科學出版社”,達到57種圖書,大約占館藏數(shù)量的22%,如表1所示。著者總計有229組,館藏中最多有3種圖書,占館藏數(shù)量的1.16%,如表2所示。
圖書館TP18類館藏流通覆蓋196種館藏,每種館藏平均利用19次,采用流通次數(shù)作為統(tǒng)計指標,會進一步加劇有流通和無流通分類館藏數(shù)量之間的失衡,可能導致強化優(yōu)勢分類弱化劣勢分類特征情況的發(fā)生,因此,只對館藏是否有流通進行標識,而不對館藏流通次數(shù)進行統(tǒng)計。
館藏特征的提取與淘汰,取決于各分項數(shù)據(jù)的具體狀況。館藏圖書題名項是本研究重點關注的分項指標:出版機構作為館藏圖書的一種特征分項劃分,從統(tǒng)計指標來看,能夠對館藏進行差異化分組,可以作為獨立開展分析的一項特征納入分析視野。著者特征雖然是圖書的重要特征,但由于著者特征在館藏中出現(xiàn)頻率普遍偏低,最多僅占1.2%,幾乎一種圖書一個分項,統(tǒng)計差異性過小,而且本研究只限定一種圖書是否發(fā)生流通的現(xiàn)象,而未擴展到流通的次數(shù)問題,因此,著者特征無法作為明顯特征開展分析,只能棄用。
5.2構建圖書特征語料庫
語料來源主要包括圖書館館藏圖書和待采訪圖書的題名和出版機構,館藏圖書根據(jù)流通歷史分為有流通和無流通兩個分類項,分別標記為circ和nocirc;待采訪圖書為無分類項的待預測數(shù)據(jù),分類項在系統(tǒng)中為空白項。表3為全部數(shù)據(jù)內容,其中包括館藏數(shù)據(jù)249條,待采訪圖書數(shù)據(jù)275條。數(shù)據(jù)內容由題名和出版機構數(shù)據(jù)構成。
利用自然語言的中文分詞技術,提取題名關鍵詞,對分詞后的題名關鍵詞和出版機構等語料,利用式(1)進行TF-IDF值的計算和排序,建立語料庫,形成如表4所示的內容。語料庫把每種圖書的題名分解為多個關鍵詞,這些關鍵詞分別表明了人工智能類圖書內容的視角、層次、功能、手段等訴求,這些訴求給圖書提供了確定性的特征劃分,是識別圖書流通潛力的重要依據(jù)。
5.3構建文獻—詞項矩陣
文獻—詞項矩陣采用多變量伯努利事件空間方式,在表現(xiàn)形式上,式(2)中的amn元素數(shù)值都是以0和1表示,由于觀察事件的有限性,矩陣的形式具有較強的稀疏性,為了節(jié)省計算機內存開銷和運行效率,并不對矩陣進行密集轉換。
表5是部分館藏圖書的文獻—詞項矩陣,根據(jù)館藏圖書的id,利用式(2),對圖書特征分項關鍵詞形成的分類項目,建立稀疏矩陣,包括524個文檔,697個詞項,意味著這個矩陣在不包括流通分類項情況下,是一個524*697的矩陣,697個詞項表明在現(xiàn)有的語料基礎上,TP18人工智能類圖書的細節(jié)特征達到697個,利用現(xiàn)有249種館藏的流通現(xiàn)狀,分析館藏圖書流通現(xiàn)狀與這697個特征之間的聯(lián)系,就可為圖書流通潛力的分析打開重要的窗口。
5.4訓練評價樸素貝葉斯分類模型
作為圖書采訪決策,目標是對納入采購計劃的圖書予以量化評價,以及對評價本身的可靠性給出明確的量化指標。因此,圖書采訪決策更加關注模型分類結果中,有流通潛力圖書的量化指標及其評價。
隨機選取館藏圖書數(shù)據(jù)集的70%作為訓練集,剩余30%作為驗證集,把數(shù)據(jù)輸入樸素貝葉斯分類模型,利用式(5),訓練樸素貝葉斯分類模型。模型的靈敏性、精度、假陽性等指標,采用2×2列聯(lián)表方式,對模型計算結果進行統(tǒng)計。圖1是采用R語言Gmodels包中的CrossTable函數(shù)進行模型評估得到的結果。
在納入統(tǒng)計的69種具有明顯特征的館藏中,包含53種標識為有流通(circ)館藏和16種標識為無流通(nocirc)。樸素貝葉斯分類模型表現(xiàn)出明顯的分類靈敏性,53種有流通的館藏預測接近60%,16種無流通的館藏預測62.5%。
圖書采訪決策關注的重點主要是模型最終預測結果的37種圖書,這37種圖書評價指標的可靠性就是圖書采訪最終結果的評價。從預測結果看,模型的精度接近83.78%,假陽性僅為16.22%,這樣的結果表明,采用樸素貝葉斯分類方法開展圖書采訪,在TPl8分類采購的圖書中,真正具有流通潛力的圖書達到83.78%,而沒有流通潛力卻購人的圖書僅占16.22%。
5.5預測采訪圖書
利用定義1,把待采訪書單數(shù)據(jù)模型化,根據(jù)訓練好的樸素貝葉斯分類模型,對275種待選的采訪圖書進行分類預測,得到模型推薦的有流通潛力的131種圖書書單。從模型的靈敏度和假陽性判斷,可以對本次TPl8類圖書采訪,進行總體量化判斷和評價,其中至少109種圖書具有流通潛力,僅有22種圖書不具有流通潛力;也表明,每一種被選中購買的圖書,只有16.22%的概率,不具有流通潛力。對于模型推薦的131種TP18類圖書,采訪人員可以根據(jù)前期預置的該類目計劃采訪種類和數(shù)量,參考其他采訪約束條件挑選圖書。
6研究結論
本研究采用中文分詞技術提取館藏圖書特征,并利用樸素貝葉斯分類方法,依據(jù)館藏流通數(shù)據(jù),探索和驗證圖書自身承載描述信息對流通產(chǎn)生的影響和作用規(guī)律,并依據(jù)模型預測待采訪圖書的流通潛力,研究結論如下:
在圖書采訪選書階段,利用樸素貝葉斯理論和方法,能夠暫時不考慮讀者因素,僅僅依據(jù)館藏流通動態(tài),在流通數(shù)據(jù)和圖書品種選擇之間,直接建立起基于概率論原理的因果量化關系。本研究得到的新書流通趨勢判斷結論.形成一個全新的參照系.為進一步針對促成圖書流通的讀者驅動因素,深入探索讀者需求動機發(fā)生、表達、實施的機制,提供了數(shù)據(jù)層面的驗證和參考指標。對題名、出版、內容摘要等圖書描述信息,利用中文分詞技術進行關鍵詞切分和提取,不僅能夠為進一步開展機器學習等人工智能探索提供可能,還為圖書多維分類,深入到圖書內容層面開展語義和邏輯分析,提供了必要的方法支撐和無限的可能。
從本研究的數(shù)據(jù)分布偏移程度來看,靜態(tài)數(shù)據(jù)中,同一圖書分類下的出版社特征過于集中,而作者特征分布較為松散,圖書的知識描述特征相對比較適中;動態(tài)流通則表現(xiàn)為出版社特征較為明顯的趨勢。表明圖書館采訪選書的原則偏重出版社因素并兼顧知識分布的廣度,館藏圖書及建設特征和讀者群體特征相對穩(wěn)定,讀者知識需求呈現(xiàn)連續(xù)性特征,能夠為基于流通數(shù)據(jù),開展采訪選書,提供可靠穩(wěn)定的保障。本研究模型在實驗中具有較強的靈敏性,驗證了圖書流通潛力與圖書描述的表征信息有必然聯(lián)系的假設。表明描述圖書承載知識特征的單詞和短語等表層描述信息,對館藏圖書發(fā)生流通具有直接的影響,并反映在圖書流通數(shù)據(jù)中。
7結語
讀者需求行為產(chǎn)生的圖書流通數(shù)據(jù),是讀者需求表現(xiàn)出的客觀真實結果,以流通數(shù)據(jù)為圖書采訪依據(jù),不僅能夠避免過度依賴讀者需求意愿,表現(xiàn)出的不確定性、不可捉摸性和復雜變化性,還能夠避免圖書采訪人員主觀因素對選書決策產(chǎn)生影響。圖書流通數(shù)據(jù),凝聚了館藏圖書和讀者兩個對象全部的信息與內涵,是圖書最有價值的數(shù)據(jù)資源,蘊藏著讀者知識需求和館藏知識的全部秘密,挖掘館藏流通數(shù)據(jù)隱含的規(guī)律,能夠為揭示圖書館內在規(guī)律提供堅實的證據(jù)。樸素貝葉斯分類,作為一種機器學習方法與工具,為開展科學嚴謹?shù)膱D書采訪工作,提供一種智能化的決策方法,讓圖書采訪工作真正建立在客觀、科學、嚴謹?shù)幕A上,使圖書采訪的結果可證明、可量化、可解釋。