亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)

        2018-08-25 08:14:44劉芳
        電子設(shè)計(jì)工程 2018年16期
        關(guān)鍵詞:分類(lèi)圖書(shū)館文本

        劉芳

        (陜西學(xué)前師范學(xué)院陜西西安710100)

        人類(lèi)在獲得知識(shí)過(guò)程中的方式主要包括兩種,第一種為實(shí)踐,第二種為閱讀。雖然實(shí)踐非常重要,但是能夠通過(guò)閱讀有效掌握先輩們的實(shí)踐成果及經(jīng)驗(yàn),圖書(shū)館屬于學(xué)校及整個(gè)社會(huì)尤為重要的部分,其使我們站在巨人肩膀中學(xué)習(xí)[1]。在現(xiàn)代信息大爆炸時(shí)代不斷來(lái)臨及專(zhuān)業(yè)分類(lèi)不斷細(xì)化的過(guò)程中,對(duì)于圖書(shū)文獻(xiàn)分類(lèi)具有大量的要求。為了能夠有效滿(mǎn)足現(xiàn)代圖書(shū)館設(shè)備管理需求,避免因?yàn)槿藶楣芾沓霈F(xiàn)的錯(cuò)誤,就要實(shí)現(xiàn)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)[2]。目前,國(guó)內(nèi)外圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要趨勢(shì)為網(wǎng)絡(luò)化、資源化、個(gè)性化及小型化,其不僅能夠?qū)崿F(xiàn)分布式資源相互操作的特點(diǎn),還能夠?qū)崿F(xiàn)并行處理高速查詢(xún)。大部分的圖書(shū)館已經(jīng)實(shí)現(xiàn)編目、采訪、閱覽、流通及信息咨詢(xún)等工作自動(dòng)化統(tǒng)計(jì)及管理,提高了圖書(shū)館服務(wù)質(zhì)量及工作效率。但是部分圖書(shū)館并沒(méi)有得到完善,其分類(lèi)系統(tǒng)更新比較緩慢,學(xué)科分類(lèi)比較單一,無(wú)法滿(mǎn)足現(xiàn)代全新文獻(xiàn)分類(lèi)需求[3]?;诖?,文中實(shí)現(xiàn)了基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)。

        1 系統(tǒng)需求分析

        因?yàn)閭鹘y(tǒng)圖書(shū)館文獻(xiàn)在手工操作模式中,圖書(shū)編目及借閱的工作量比較大,并且精準(zhǔn)性較低,所以就要?jiǎng)?chuàng)建圖書(shū)館多種功能,詳見(jiàn)圖1,根據(jù)需求對(duì)主要功能需求進(jìn)行歸納[4]。

        圖1 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的功能模塊

        通過(guò)圖1可以看出來(lái),用戶(hù)不需要登錄就能夠?qū)D書(shū)館圖書(shū)信息及文獻(xiàn)信息進(jìn)行檢索及瀏覽,如果用戶(hù)使用借書(shū)證號(hào)及密碼實(shí)現(xiàn)系統(tǒng)的登錄,可以使用讀者論壇、圖書(shū)館及資源共享等模塊功能[5]。圖2為管理員的需求功能結(jié)構(gòu)。

        圖2 系統(tǒng)管理員的需求功能結(jié)構(gòu)

        圖書(shū)管理人員主要是圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的使用人員,參與到圖書(shū)館中的所有業(yè)務(wù),其比普通用戶(hù)具有更多的需求。其能夠?qū)崿F(xiàn)圖書(shū)信息、借閱人員信息、總體借閱情況信息管理及統(tǒng)計(jì),并且還能夠?qū)D書(shū)基本信息進(jìn)行瀏覽、添加及查詢(xún)等操作[6]。

        2 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)總體設(shè)計(jì)

        目前,學(xué)科分類(lèi)越來(lái)越細(xì)化,單一學(xué)科逐漸朝著跨學(xué)科及學(xué)科交叉方向發(fā)展,同一個(gè)文獻(xiàn)能夠同時(shí)屬于多個(gè)學(xué)科及多個(gè)主題。傳統(tǒng)圖書(shū)館分類(lèi)系統(tǒng)是利用詞和詞之間對(duì)比對(duì)文獻(xiàn)相似性進(jìn)行判斷。但是,基于現(xiàn)實(shí)語(yǔ)言環(huán)境,兩個(gè)共同語(yǔ)句較少文獻(xiàn)有可能表達(dá)相同主題,只是使用不同闡述方式。所以,在對(duì)比文獻(xiàn)的時(shí)候,可以通過(guò)其對(duì)相同主題的描述對(duì)其相似度進(jìn)行描述。本文所研究的基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)全面考慮了標(biāo)簽及頻率相關(guān)性,提高了系統(tǒng)的性能[7]。圖3為基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖。

        圖3 基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的用例圖

        文中設(shè)計(jì)的系統(tǒng)主要包括特征抽取、預(yù)處理、文獻(xiàn)分類(lèi)及分類(lèi)訓(xùn)練器模塊。其中預(yù)處理模塊的功能就是實(shí)現(xiàn)圖書(shū)館現(xiàn)有格式文獻(xiàn)資源的格式轉(zhuǎn)換,統(tǒng)一使其轉(zhuǎn)換成為文本文檔格式,并且實(shí)現(xiàn)格式文檔分詞處理等;其中分類(lèi)器訓(xùn)練模塊的主要目的為將包括語(yǔ)義信息特征到判別式分類(lèi)模型中放入實(shí)現(xiàn)分類(lèi)器參數(shù)訓(xùn)練,使用訓(xùn)練參數(shù)實(shí)現(xiàn)分類(lèi)器的定義;特征抽取模塊使用LDA模型實(shí)現(xiàn)文本特征的表示,并且實(shí)現(xiàn)特征提取,對(duì)其進(jìn)行權(quán)值賦予;文獻(xiàn)分類(lèi)模型的功能為用戶(hù)通過(guò)對(duì)需要分類(lèi)的文檔進(jìn)行有效的選擇,實(shí)現(xiàn)分類(lèi)結(jié)果目錄的指定,實(shí)現(xiàn)所有文檔分類(lèi),之后到結(jié)果文件中輸入[8]。圖4為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)。

        3 基于LDA模型的圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的設(shè)計(jì)

        3.1 系統(tǒng)硬件設(shè)計(jì)

        文中所設(shè)計(jì)的基于LDA模型的文獻(xiàn)分類(lèi)系統(tǒng)主要目的為實(shí)現(xiàn)移動(dòng)數(shù)字圖書(shū)館內(nèi)容的數(shù)字化,也就是實(shí)現(xiàn)相關(guān)文獻(xiàn)資料的數(shù)字化。其能夠以圖書(shū)分類(lèi)系統(tǒng)為基礎(chǔ),根據(jù)讀者需求實(shí)現(xiàn)不同形式的制作,所以制作之后的形式并不同[9]。圖5為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)。

        圖4 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的主要結(jié)構(gòu)

        圖5 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的硬件結(jié)構(gòu)

        3.2 系統(tǒng)的詳細(xì)設(shè)計(jì)

        文中研究系統(tǒng)的開(kāi)發(fā)使用的軟件及硬件環(huán)境主要為:應(yīng)用層使用功能VStuido集成化開(kāi)發(fā)環(huán)境,在實(shí)現(xiàn)文本規(guī)范化處理的過(guò)程中,主要包括去停用詞及中文分詞等,利用分詞實(shí)現(xiàn)文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類(lèi)別反應(yīng)出來(lái)的詞作為特征,之后實(shí)現(xiàn)特征提??;文獻(xiàn)分類(lèi)模塊使用戶(hù)利用需要分類(lèi)的文檔選擇實(shí)現(xiàn)分類(lèi)結(jié)果目錄的制定,之后實(shí)現(xiàn)所有文檔分類(lèi);分類(lèi)器訓(xùn)練模塊將包括語(yǔ)義信息特征到分類(lèi)模型中存放,之后實(shí)現(xiàn)分類(lèi)器參數(shù)的訓(xùn)練,使用訓(xùn)練之后的參數(shù)進(jìn)行分類(lèi)器的定義[10]。圖6為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)。

        圖6 圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)的詳細(xì)設(shè)計(jì)結(jié)構(gòu)

        3.2.1 預(yù)處理模塊

        圖書(shū)館文獻(xiàn)資源格式各不相同,首先要實(shí)現(xiàn)多種格式數(shù)據(jù)的轉(zhuǎn)化,使其能夠成為計(jì)算機(jī)便于處理的格式,在此過(guò)程中要?jiǎng)h除文本標(biāo)點(diǎn)符號(hào)及空格。出國(guó)文檔處理之后,要使用正向最大匹配及CRF方法相互結(jié)合實(shí)現(xiàn)分詞處理,之后對(duì)文本中的詞進(jìn)行逐一的掃描,將詞實(shí)現(xiàn)相互匹配,實(shí)現(xiàn)停用詞的過(guò)濾處理,最后得出文檔分解的詞列表,在本次磁盤(pán)中存儲(chǔ)[11]。圖7為圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程。

        圖7 圖書(shū)館文獻(xiàn)資源轉(zhuǎn)換格式的流程

        3.2.2 特征抽取模塊

        在文本分類(lèi)中,要想能夠提高計(jì)算機(jī)對(duì)真實(shí)文本的處理效果,就要尋找理想形式化表示方法,此種表示方法要能夠?qū)⑽臋n內(nèi)容充分的反映出來(lái)。傳統(tǒng)圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)是利用詞之前對(duì)比實(shí)現(xiàn)文獻(xiàn)相似性判斷,但是現(xiàn)實(shí)語(yǔ)境中的共同詞語(yǔ)較少文獻(xiàn)在表達(dá)相同主題的時(shí)候使用參數(shù)方式不同,所以還要全面了解其對(duì)主題的判斷。LDA屬于實(shí)現(xiàn)文本數(shù)據(jù)主題信息建模的方式,其能夠簡(jiǎn)單描述文檔,保存本質(zhì)統(tǒng)計(jì)信息,從而有效提高文檔集大規(guī)模處理的高效性。所以本系統(tǒng)使用LDA主題模型表示文本特征,從而實(shí)現(xiàn)文本特征抽取模塊的創(chuàng)建[12-13]。圖8為特征抽取模塊處理的過(guò)程。

        圖8 特征抽取模塊處理的過(guò)程

        3.2.3 分類(lèi)器訓(xùn)練模塊

        圖9為分類(lèi)器訓(xùn)練模塊的算法流程,首先實(shí)現(xiàn)模型的加載,之后得到加載的類(lèi)別,最后將模型進(jìn)行銷(xiāo)毀。

        圖9 分類(lèi)器訓(xùn)練模塊的算法流程

        3.2.4 文獻(xiàn)分類(lèi)模塊

        以文本主題條件為基礎(chǔ),使系統(tǒng)對(duì)此矩陣矩陣模塊進(jìn)行讀取,對(duì)于需要分類(lèi)的文本使用此矩陣實(shí)現(xiàn)文本分類(lèi),將分類(lèi)的結(jié)果到本地硬盤(pán)中實(shí)現(xiàn)序列化[14-16]。圖10為文獻(xiàn)分類(lèi)模塊的流程。

        圖10 文獻(xiàn)分類(lèi)模塊的流程

        3.3 數(shù)據(jù)庫(kù)的設(shè)計(jì)

        表1為圖書(shū)館文獻(xiàn)分類(lèi)系統(tǒng)中相應(yīng)的信息表。

        表1 用戶(hù)基本信息表

        表2 圖書(shū)文獻(xiàn)信息表

        4 結(jié)束語(yǔ)

        現(xiàn)在多標(biāo)簽的文本分類(lèi)還并沒(méi)有滿(mǎn)足理想分類(lèi)性能需求,并且也無(wú)法滿(mǎn)足圖書(shū)館學(xué)術(shù)文獻(xiàn)分類(lèi)實(shí)際使用需求,其具有一定的提高空間。對(duì)本文所研究系統(tǒng)進(jìn)行全面的分析,表示其能夠有效滿(mǎn)足用戶(hù)需求,確定主題模型的數(shù)量,實(shí)現(xiàn)大規(guī)模主體模型的訓(xùn)練,實(shí)現(xiàn)大量數(shù)據(jù)的處理。

        猜你喜歡
        分類(lèi)圖書(shū)館文本
        分類(lèi)算一算
        在808DA上文本顯示的改善
        分類(lèi)討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類(lèi)討論
        圖書(shū)館
        教你一招:數(shù)的分類(lèi)
        飛躍圖書(shū)館
        文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
        去圖書(shū)館
        蜜桃视频网站在线观看一区| 欧美亚洲另类自拍偷在线拍| 国产精品久久久精品三级18| 国产日韩精品一区二区在线观看播放| 91在线观看国产自拍| 国产免费人成视频网站在线18| 久久精品亚洲一区二区三区浴池| 国产色诱视频在线观看| 青榴社区国产精品| 亚洲一区二区三区重口另类| 宅男66lu国产在线观看| 亚洲综合色丁香婷婷六月图片| 亚洲中文字幕无码不卡电影| 中文字幕亚洲一二三区| 无码国内精品久久人妻| 日韩欧群交p片内射中文| 日本久久久| 国产99视频一区二区三区 | 秋霞午夜无码鲁丝片午夜精品| 97SE亚洲国产综合自在线不卡| 蜜臀av中文人妻系列| 白白色发布免费手机在线视频观看| 亚洲av无码一区二区三区天堂古代| 国内少妇人妻丰满av| 插入中文字幕在线一区二区三区| 日本一区三区三区在线观看| 风韵多水的老熟妇| 国产婷婷丁香五月麻豆| 国产精品国产三级国a| 精品国产自在现线看久久| 日韩人妻一区二区三区蜜桃视频 | 国产一级毛片卡| 日本一二三区在线视频观看 | 欧美疯狂做受xxxxx高潮| 中文字幕高清无码不卡在线| 久久夜色国产精品噜噜亚洲av| 免费久久人人爽人人爽av| 久久国产热精品波多野结衣av| 国产精品一区二区蜜臀av| 粉嫩av国产一区二区三区| 美丽人妻被按摩中出中文字幕|