劉芳
(陜西學(xué)前師范學(xué)院陜西西安710100)
人類(lèi)在獲得知識(shí)過(guò)程中的方式主要包括兩種,第一種為實(shí)踐,第二種為閱讀。雖然實(shí)踐非常重要,但是能夠通過(guò)閱讀有效掌握先輩們的實(shí)踐成果及經(jīng)驗(yàn),圖書(shū)館屬于學(xué)校及整個(gè)社會(huì)尤為重要的部分,其使我們站在巨人肩膀中學(xué)習(xí)[1]。在現(xiàn)代信息大爆炸時(shí)代不斷來(lái)臨及專(zhuān)業(yè)分類(lèi)不斷細(xì)化的過(guò)程中,對(duì)于圖書(shū)文獻(xiàn)分類(lèi)具有大量的要求。為了能夠有效滿(mǎn)足現(xiàn)代圖書(shū)館設(shè)備管理需求,避免因?yàn)槿藶楣芾沓霈F(xiàn)的錯(cuò)誤,就要實(shí)現(xiàn)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)[2]。目前,國(guó)內(nèi)外圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要趨勢(shì)為網(wǎng)絡(luò)化、資源化、個(gè)性化及小型化,其不僅能夠?qū)崿F(xiàn)分布式資源相互操作的特點(diǎn),還能夠?qū)崿F(xiàn)并行處理高速查詢(xún)。大部分的圖書(shū)館已經(jīng)實(shí)現(xiàn)編目、采訪、閱覽、流通及信息咨詢(xún)等工作自動(dòng)化統(tǒng)計(jì)及管理,提高了圖書(shū)館服務(wù)質(zhì)量及工作效率。但是部分圖書(shū)館并沒(méi)有得到完善,其分類(lèi)系統(tǒng)更新比較緩慢,學(xué)科分類(lèi)比較單一,無(wú)法滿(mǎn)足現(xiàn)代全新文獻(xiàn)分類(lèi)需求[3]?;诖?,文中實(shí)現(xiàn)了基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)。
因?yàn)閭鹘y(tǒng)圖書(shū)館文獻(xiàn)在手工操作模式中,圖書(shū)編目及借閱的工作量比較大,并且精準(zhǔn)性較低,所以就要?jiǎng)?chuàng)建圖書(shū)館多種功能,詳見(jiàn)圖1,根據(jù)需求對(duì)主要功能需求進(jìn)行歸納[4]。
圖1 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的功能模塊
通過(guò)圖1可以看出來(lái),用戶(hù)不需要登錄就能夠?qū)D書(shū)館圖書(shū)信息及文獻(xiàn)信息進(jìn)行檢索及瀏覽,如果用戶(hù)使用借書(shū)證號(hào)及密碼實(shí)現(xiàn)系統(tǒng)的登錄,可以使用讀者論壇、圖書(shū)館及資源共享等模塊功能[5]。圖2為管理員的需求功能結(jié)構(gòu)。
圖2 系統(tǒng)管理員的需求功能結(jié)構(gòu)
圖書(shū)管理人員主要是圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的使用人員,參與到圖書(shū)館中的所有業(yè)務(wù),其比普通用戶(hù)具有更多的需求。其能夠?qū)崿F(xiàn)圖書(shū)信息、借閱人員信息、總體借閱情況信息管理及統(tǒng)計(jì),并且還能夠?qū)D書(shū)基本信息進(jìn)行瀏覽、添加及查詢(xún)等操作[6]。
目前,學(xué)科分類(lèi)越來(lái)越細(xì)化,單一學(xué)科逐漸朝著跨學(xué)科及學(xué)科交叉方向發(fā)展,同一個(gè)文獻(xiàn)能夠同時(shí)屬于多個(gè)學(xué)科及多個(gè)主題。傳統(tǒng)圖書(shū)館分類(lèi)系統(tǒng)是利用詞和詞之間對(duì)比對(duì)文獻(xiàn)相似性進(jìn)行判斷。但是,基于現(xiàn)實(shí)語(yǔ)言環(huán)境,兩個(gè)共同語(yǔ)句較少文獻(xiàn)有可能表達(dá)相同主題,只是使用不同闡述方式。所以,在對(duì)比文獻(xiàn)的時(shí)候,可以通過(guò)其對(duì)相同主題的描述對(duì)其相似度進(jìn)行描述。本文所研究的基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)全面考慮了標(biāo)簽及頻率相關(guān)性,提高了系統(tǒng)的性能[7]。圖3為基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖。
圖3 基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖
文中設(shè)計(jì)的系統(tǒng)主要包括特征抽取、預(yù)處理、文獻(xiàn)分類(lèi)及分類(lèi)訓(xùn)練器模塊。其中預(yù)處理模塊的功能就是實(shí)現(xiàn)圖書(shū)館現(xiàn)有格式文獻(xiàn)資源的格式轉(zhuǎn)換,統(tǒng)一使其轉(zhuǎn)換成為文本文檔格式,并且實(shí)現(xiàn)格式文檔分詞處理等;其中分類(lèi)器訓(xùn)練模塊的主要目的為將包括語(yǔ)義信息特征到判別式分類(lèi)模型中放入實(shí)現(xiàn)分類(lèi)器參數(shù)訓(xùn)練,使用訓(xùn)練參數(shù)實(shí)現(xiàn)分類(lèi)器的定義;特征抽取模塊使用LDA模型實(shí)現(xiàn)文本特征的表示,并且實(shí)現(xiàn)特征提取,對(duì)其進(jìn)行權(quán)值賦予;文獻(xiàn)分類(lèi)模型的功能為用戶(hù)通過(guò)對(duì)需要分類(lèi)的文檔進(jìn)行有效的選擇,實(shí)現(xiàn)分類(lèi)結(jié)果目錄的指定,實(shí)現(xiàn)所有文檔分類(lèi),之后到結(jié)果文件中輸入[8]。圖4為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)。
文中所設(shè)計(jì)的基于LDA模型的文獻(xiàn)分類(lèi)系統(tǒng)主要目的為實(shí)現(xiàn)移動(dòng)數(shù)字圖書(shū)館內(nèi)容的數(shù)字化,也就是實(shí)現(xiàn)相關(guān)文獻(xiàn)資料的數(shù)字化。其能夠以圖書(shū)分類(lèi)系統(tǒng)為基礎(chǔ),根據(jù)讀者需求實(shí)現(xiàn)不同形式的制作,所以制作之后的形式并不同[9]。圖5為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)。
圖4 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)
圖5 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)
文中研究系統(tǒng)的開(kāi)發(fā)使用的軟件及硬件環(huán)境主要為:應(yīng)用層使用功能VStuido集成化開(kāi)發(fā)環(huán)境,在實(shí)現(xiàn)文本規(guī)范化處理的過(guò)程中,主要包括去停用詞及中文分詞等,利用分詞實(shí)現(xiàn)文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類(lèi)別反應(yīng)出來(lái)的詞作為特征,之后實(shí)現(xiàn)特征提??;文獻(xiàn)分類(lèi)模塊使用戶(hù)利用需要分類(lèi)的文檔選擇實(shí)現(xiàn)分類(lèi)結(jié)果目錄的制定,之后實(shí)現(xiàn)所有文檔分類(lèi);分類(lèi)器訓(xùn)練模塊將包括語(yǔ)義信息特征到分類(lèi)模型中存放,之后實(shí)現(xiàn)分類(lèi)器參數(shù)的訓(xùn)練,使用訓(xùn)練之后的參數(shù)進(jìn)行分類(lèi)器的定義[10]。圖6為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)。
圖6 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)
3.2.1 預(yù)處理模塊
圖書(shū)館文獻(xiàn)資源格式各不相同,首先要實(shí)現(xiàn)多種格式數(shù)據(jù)的轉(zhuǎn)化,使其能夠成為計(jì)算機(jī)便于處理的格式,在此過(guò)程中要?jiǎng)h除文本標(biāo)點(diǎn)符號(hào)及空格。出國(guó)文檔處理之后,要使用正向最大匹配及CRF方法相互結(jié)合實(shí)現(xiàn)分詞處理,之后對(duì)文本中的詞進(jìn)行逐一的掃描,將詞實(shí)現(xiàn)相互匹配,實(shí)現(xiàn)停用詞的過(guò)濾處理,最后得出文檔分解的詞列表,在本次磁盤(pán)中存儲(chǔ)[11]。圖7為圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程。
圖7 圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程
3.2.2 特征抽取模塊
在文本分類(lèi)中,要想能夠提高計(jì)算機(jī)對(duì)真實(shí)文本的處理效果,就要尋找理想形式化表示方法,此種表示方法要能夠?qū)⑽臋n內(nèi)容充分的反映出來(lái)。傳統(tǒng)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)是利用詞之前對(duì)比實(shí)現(xiàn)文獻(xiàn)相似性判斷,但是現(xiàn)實(shí)語(yǔ)境中的共同詞語(yǔ)較少文獻(xiàn)在表達(dá)相同主題的時(shí)候使用參數(shù)方式不同,所以還要全面了解其對(duì)主題的判斷。LDA屬于實(shí)現(xiàn)文本數(shù)據(jù)主題信息建模的方式,其能夠簡(jiǎn)單描述文檔,保存本質(zhì)統(tǒng)計(jì)信息,從而有效提高文檔集大規(guī)模處理的高效性。所以本系統(tǒng)使用LDA主題模型表示文本特征,從而實(shí)現(xiàn)文本特征抽取模塊的創(chuàng)建[12-13]。圖8為特征抽取模塊處理的過(guò)程。
圖8 特征抽取模塊處理的過(guò)程
3.2.3 分類(lèi)器訓(xùn)練模塊
圖9為分類(lèi)器訓(xùn)練模塊的算法流程,首先實(shí)現(xiàn)模型的加載,之后得到加載的類(lèi)別,最后將模型進(jìn)行銷(xiāo)毀。
圖9 分類(lèi)器訓(xùn)練模塊的算法流程
3.2.4 文獻(xiàn)分類(lèi)模塊
以文本主題條件為基礎(chǔ),使系統(tǒng)對(duì)此矩陣矩陣模塊進(jìn)行讀取,對(duì)于需要分類(lèi)的文本使用此矩陣實(shí)現(xiàn)文本分類(lèi),將分類(lèi)的結(jié)果到本地硬盤(pán)中實(shí)現(xiàn)序列化[14-16]。圖10為文獻(xiàn)分類(lèi)模塊的流程。
圖10 文獻(xiàn)分類(lèi)模塊的流程
表1為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)中相應(yīng)的信息表。
表1 用戶(hù)基本信息表
表2 圖書(shū)文獻(xiàn)信息表
現(xiàn)在多標(biāo)簽的文本分類(lèi)還并沒(méi)有滿(mǎn)足理想分類(lèi)性能需求,并且也無(wú)法滿(mǎn)足圖書(shū)館學(xué)術(shù)文獻(xiàn)分類(lèi)實(shí)際使用需求,其具有一定的提高空間。對(duì)本文所研究系統(tǒng)進(jìn)行全面的分析,表示其能夠有效滿(mǎn)足用戶(hù)需求,確定主題模型的數(shù)量,實(shí)現(xiàn)大規(guī)模主體模型的訓(xùn)練,實(shí)現(xiàn)大量數(shù)據(jù)的處理。