亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)

2018-08-25 08:14:44劉芳

電子設(shè)計(jì)工程 2018年16期

劉芳

（陜西學(xué)前師范學(xué)院陜西西安710100）

人類(lèi)在獲得知識(shí)過(guò)程中的方式主要包括兩種，第一種為實(shí)踐，第二種為閱讀。雖然實(shí)踐非常重要，但是能夠通過(guò)閱讀有效掌握先輩們的實(shí)踐成果及經(jīng)驗(yàn)，圖書(shū)館屬于學(xué)校及整個(gè)社會(huì)尤為重要的部分，其使我們站在巨人肩膀中學(xué)習(xí)[1]。在現(xiàn)代信息大爆炸時(shí)代不斷來(lái)臨及專(zhuān)業(yè)分類(lèi)不斷細(xì)化的過(guò)程中，對(duì)于圖書(shū)文獻(xiàn)分類(lèi)具有大量的要求。為了能夠有效滿(mǎn)足現(xiàn)代圖書(shū)館設(shè)備管理需求，避免因?yàn)槿藶楣芾沓霈F(xiàn)的錯(cuò)誤，就要實(shí)現(xiàn)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)[2]。目前，國(guó)內(nèi)外圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要趨勢(shì)為網(wǎng)絡(luò)化、資源化、個(gè)性化及小型化，其不僅能夠?qū)崿F(xiàn)分布式資源相互操作的特點(diǎn)，還能夠?qū)崿F(xiàn)并行處理高速查詢(xún)。大部分的圖書(shū)館已經(jīng)實(shí)現(xiàn)編目、采訪、閱覽、流通及信息咨詢(xún)等工作自動(dòng)化統(tǒng)計(jì)及管理，提高了圖書(shū)館服務(wù)質(zhì)量及工作效率。但是部分圖書(shū)館并沒(méi)有得到完善，其分類(lèi)系統(tǒng)更新比較緩慢，學(xué)科分類(lèi)比較單一，無(wú)法滿(mǎn)足現(xiàn)代全新文獻(xiàn)分類(lèi)需求[3]?；诖?，文中實(shí)現(xiàn)了基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)。

1 系統(tǒng)需求分析

因?yàn)閭鹘y(tǒng)圖書(shū)館文獻(xiàn)在手工操作模式中，圖書(shū)編目及借閱的工作量比較大，并且精準(zhǔn)性較低，所以就要?jiǎng)?chuàng)建圖書(shū)館多種功能，詳見(jiàn)圖1，根據(jù)需求對(duì)主要功能需求進(jìn)行歸納[4]。

圖1 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的功能模塊

通過(guò)圖1可以看出來(lái)，用戶(hù)不需要登錄就能夠?qū)D書(shū)館圖書(shū)信息及文獻(xiàn)信息進(jìn)行檢索及瀏覽，如果用戶(hù)使用借書(shū)證號(hào)及密碼實(shí)現(xiàn)系統(tǒng)的登錄，可以使用讀者論壇、圖書(shū)館及資源共享等模塊功能[5]。圖2為管理員的需求功能結(jié)構(gòu)。

圖2 系統(tǒng)管理員的需求功能結(jié)構(gòu)

圖書(shū)管理人員主要是圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的使用人員，參與到圖書(shū)館中的所有業(yè)務(wù)，其比普通用戶(hù)具有更多的需求。其能夠?qū)崿F(xiàn)圖書(shū)信息、借閱人員信息、總體借閱情況信息管理及統(tǒng)計(jì)，并且還能夠?qū)D書(shū)基本信息進(jìn)行瀏覽、添加及查詢(xún)等操作[6]。

2 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)總體設(shè)計(jì)

目前，學(xué)科分類(lèi)越來(lái)越細(xì)化，單一學(xué)科逐漸朝著跨學(xué)科及學(xué)科交叉方向發(fā)展，同一個(gè)文獻(xiàn)能夠同時(shí)屬于多個(gè)學(xué)科及多個(gè)主題。傳統(tǒng)圖書(shū)館分類(lèi)系統(tǒng)是利用詞和詞之間對(duì)比對(duì)文獻(xiàn)相似性進(jìn)行判斷。但是，基于現(xiàn)實(shí)語(yǔ)言環(huán)境，兩個(gè)共同語(yǔ)句較少文獻(xiàn)有可能表達(dá)相同主題，只是使用不同闡述方式。所以，在對(duì)比文獻(xiàn)的時(shí)候，可以通過(guò)其對(duì)相同主題的描述對(duì)其相似度進(jìn)行描述。本文所研究的基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)全面考慮了標(biāo)簽及頻率相關(guān)性，提高了系統(tǒng)的性能[7]。圖3為基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖。

圖3 基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖

文中設(shè)計(jì)的系統(tǒng)主要包括特征抽取、預(yù)處理、文獻(xiàn)分類(lèi)及分類(lèi)訓(xùn)練器模塊。其中預(yù)處理模塊的功能就是實(shí)現(xiàn)圖書(shū)館現(xiàn)有格式文獻(xiàn)資源的格式轉(zhuǎn)換，統(tǒng)一使其轉(zhuǎn)換成為文本文檔格式，并且實(shí)現(xiàn)格式文檔分詞處理等；其中分類(lèi)器訓(xùn)練模塊的主要目的為將包括語(yǔ)義信息特征到判別式分類(lèi)模型中放入實(shí)現(xiàn)分類(lèi)器參數(shù)訓(xùn)練，使用訓(xùn)練參數(shù)實(shí)現(xiàn)分類(lèi)器的定義；特征抽取模塊使用LDA模型實(shí)現(xiàn)文本特征的表示，并且實(shí)現(xiàn)特征提取，對(duì)其進(jìn)行權(quán)值賦予；文獻(xiàn)分類(lèi)模型的功能為用戶(hù)通過(guò)對(duì)需要分類(lèi)的文檔進(jìn)行有效的選擇，實(shí)現(xiàn)分類(lèi)結(jié)果目錄的指定，實(shí)現(xiàn)所有文檔分類(lèi)，之后到結(jié)果文件中輸入[8]。圖4為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)。

3 基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)

3.1 系統(tǒng)硬件設(shè)計(jì)

文中所設(shè)計(jì)的基于LDA模型的文獻(xiàn)分類(lèi)系統(tǒng)主要目的為實(shí)現(xiàn)移動(dòng)數(shù)字圖書(shū)館內(nèi)容的數(shù)字化，也就是實(shí)現(xiàn)相關(guān)文獻(xiàn)資料的數(shù)字化。其能夠以圖書(shū)分類(lèi)系統(tǒng)為基礎(chǔ)，根據(jù)讀者需求實(shí)現(xiàn)不同形式的制作，所以制作之后的形式并不同[9]。圖5為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)。

圖4 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)

圖5 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)

3.2 系統(tǒng)的詳細(xì)設(shè)計(jì)

文中研究系統(tǒng)的開(kāi)發(fā)使用的軟件及硬件環(huán)境主要為：應(yīng)用層使用功能VStuido集成化開(kāi)發(fā)環(huán)境，在實(shí)現(xiàn)文本規(guī)范化處理的過(guò)程中，主要包括去停用詞及中文分詞等，利用分詞實(shí)現(xiàn)文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類(lèi)別反應(yīng)出來(lái)的詞作為特征，之后實(shí)現(xiàn)特征提??；文獻(xiàn)分類(lèi)模塊使用戶(hù)利用需要分類(lèi)的文檔選擇實(shí)現(xiàn)分類(lèi)結(jié)果目錄的制定，之后實(shí)現(xiàn)所有文檔分類(lèi)；分類(lèi)器訓(xùn)練模塊將包括語(yǔ)義信息特征到分類(lèi)模型中存放，之后實(shí)現(xiàn)分類(lèi)器參數(shù)的訓(xùn)練，使用訓(xùn)練之后的參數(shù)進(jìn)行分類(lèi)器的定義[10]。圖6為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)。

圖6 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)

3.2.1 預(yù)處理模塊

圖書(shū)館文獻(xiàn)資源格式各不相同，首先要實(shí)現(xiàn)多種格式數(shù)據(jù)的轉(zhuǎn)化，使其能夠成為計(jì)算機(jī)便于處理的格式，在此過(guò)程中要?jiǎng)h除文本標(biāo)點(diǎn)符號(hào)及空格。出國(guó)文檔處理之后，要使用正向最大匹配及CRF方法相互結(jié)合實(shí)現(xiàn)分詞處理，之后對(duì)文本中的詞進(jìn)行逐一的掃描，將詞實(shí)現(xiàn)相互匹配，實(shí)現(xiàn)停用詞的過(guò)濾處理，最后得出文檔分解的詞列表，在本次磁盤(pán)中存儲(chǔ)[11]。圖7為圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程。

圖7 圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程

3.2.2 特征抽取模塊

在文本分類(lèi)中，要想能夠提高計(jì)算機(jī)對(duì)真實(shí)文本的處理效果，就要尋找理想形式化表示方法，此種表示方法要能夠?qū)⑽臋n內(nèi)容充分的反映出來(lái)。傳統(tǒng)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)是利用詞之前對(duì)比實(shí)現(xiàn)文獻(xiàn)相似性判斷，但是現(xiàn)實(shí)語(yǔ)境中的共同詞語(yǔ)較少文獻(xiàn)在表達(dá)相同主題的時(shí)候使用參數(shù)方式不同，所以還要全面了解其對(duì)主題的判斷。LDA屬于實(shí)現(xiàn)文本數(shù)據(jù)主題信息建模的方式，其能夠簡(jiǎn)單描述文檔，保存本質(zhì)統(tǒng)計(jì)信息，從而有效提高文檔集大規(guī)模處理的高效性。所以本系統(tǒng)使用LDA主題模型表示文本特征，從而實(shí)現(xiàn)文本特征抽取模塊的創(chuàng)建[12-13]。圖8為特征抽取模塊處理的過(guò)程。

圖8 特征抽取模塊處理的過(guò)程

3.2.3 分類(lèi)器訓(xùn)練模塊

圖9為分類(lèi)器訓(xùn)練模塊的算法流程，首先實(shí)現(xiàn)模型的加載，之后得到加載的類(lèi)別，最后將模型進(jìn)行銷(xiāo)毀。

圖9 分類(lèi)器訓(xùn)練模塊的算法流程

3.2.4 文獻(xiàn)分類(lèi)模塊

以文本主題條件為基礎(chǔ)，使系統(tǒng)對(duì)此矩陣矩陣模塊進(jìn)行讀取，對(duì)于需要分類(lèi)的文本使用此矩陣實(shí)現(xiàn)文本分類(lèi)，將分類(lèi)的結(jié)果到本地硬盤(pán)中實(shí)現(xiàn)序列化[14-16]。圖10為文獻(xiàn)分類(lèi)模塊的流程。

圖10 文獻(xiàn)分類(lèi)模塊的流程

3.3 數(shù)據(jù)庫(kù)的設(shè)計(jì)

表1為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)中相應(yīng)的信息表。

表1 用戶(hù)基本信息表

表2 圖書(shū)文獻(xiàn)信息表

4 結(jié)束語(yǔ)

現(xiàn)在多標(biāo)簽的文本分類(lèi)還并沒(méi)有滿(mǎn)足理想分類(lèi)性能需求，并且也無(wú)法滿(mǎn)足圖書(shū)館學(xué)術(shù)文獻(xiàn)分類(lèi)實(shí)際使用需求，其具有一定的提高空間。對(duì)本文所研究系統(tǒng)進(jìn)行全面的分析，表示其能夠有效滿(mǎn)足用戶(hù)需求，確定主題模型的數(shù)量，實(shí)現(xiàn)大規(guī)模主體模型的訓(xùn)練，實(shí)現(xiàn)大量數(shù)據(jù)的處理。