亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于內(nèi)存計(jì)算的圖書館文獻(xiàn)服務(wù)模式構(gòu)建研究

        2021-06-04 03:09:08于芳
        微型電腦應(yīng)用 2021年5期
        關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù)庫(kù)圖書館

        于芳

        (哈爾濱工業(yè)大學(xué)(威海) 圖書館, 山東 威海 264209)

        0 引言

        在當(dāng)前的大數(shù)據(jù)時(shí)代背景下,現(xiàn)代圖書館的文獻(xiàn)逐漸增多,數(shù)據(jù)處理越來(lái)越復(fù)雜。文獻(xiàn)服務(wù)涵蓋類數(shù)據(jù)檢索、文獻(xiàn)標(biāo)準(zhǔn)等方面內(nèi)容,具有總量大、種類多、高價(jià)值低密度特性,因此為讀者提供高效精準(zhǔn)的文獻(xiàn)服務(wù)成為現(xiàn)代圖書館面臨的主要任務(wù)[1-2]。采用先進(jìn)的“計(jì)算”收到來(lái)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的深層次挖掘,成為一種必要的方式[3-5]。目前,人們通過(guò)提高單個(gè)CPU處理速度在一定程度解決了數(shù)據(jù)處理問(wèn)題,但數(shù)據(jù)的I/O速度成為制約瓶頸[6]。而共享內(nèi)存試圖通過(guò)增加數(shù)據(jù)庫(kù)緩沖池來(lái)實(shí)現(xiàn)數(shù)據(jù)處理提升的目的,但受限于數(shù)據(jù)庫(kù)技術(shù)和操作系統(tǒng),難以滿足實(shí)際需求[7]。內(nèi)存計(jì)算通過(guò)將處理數(shù)據(jù)一次性存取,避免了對(duì)數(shù)據(jù)的頻繁操作造成的處理時(shí)間延長(zhǎng),但在海量數(shù)據(jù)量下,如何高效、精確查找到所需要的文獻(xiàn)資料,成為目前資料查閱迫切解決的需求[8-10]。目前比較典型內(nèi)存計(jì)算主流框架有Apache 的Hadoop+Spark系統(tǒng),應(yīng)用較多的的內(nèi)存計(jì)算產(chǎn)品如SAP HANA等[11]。本文基于圖書館數(shù)據(jù)信息特征,利用內(nèi)存計(jì)算中Spark系統(tǒng)框架高的容錯(cuò)機(jī)制和實(shí)時(shí)運(yùn)算優(yōu)勢(shì),提出一種基于短句“字符串匹配”和文檔的“相似度匹配”下的混合關(guān)聯(lián)算法,實(shí)現(xiàn)圖書館文獻(xiàn)查閱過(guò)程中的準(zhǔn)確推薦需求。

        1 圖書館推薦服務(wù)內(nèi)存算法

        對(duì)于圖書館而言,推薦是通過(guò)科學(xué)合理化建議來(lái)幫助讀者選擇滿足需求的圖書、論文、專利文獻(xiàn)。推薦算法作為圖書館個(gè)性化服務(wù)系統(tǒng)設(shè)計(jì)的核心模塊,推薦質(zhì)量直接影響到服務(wù)效率和質(zhì)量[12]。傳統(tǒng)的圖書數(shù)據(jù)推薦難以滿足不同客戶需求的個(gè)性化、精準(zhǔn)化推薦,因而導(dǎo)致用戶節(jié)約轉(zhuǎn)化率低。在大數(shù)據(jù)環(huán)節(jié)下,利用大數(shù)據(jù)挖掘算法,來(lái)提升推薦算法的精準(zhǔn)性、新穎性等性能,成為迫切解決的問(wèn)題[13]。目前,主流的推薦算法包括內(nèi)容推薦算法、協(xié)調(diào)過(guò)濾推薦算法以及混合推薦算法[14-16]。

        關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘領(lǐng)域的重要技術(shù),用來(lái)發(fā)現(xiàn)用戶使用文獻(xiàn)間的關(guān)系。基于關(guān)聯(lián)規(guī)則推薦算法首先根據(jù)用戶使用文獻(xiàn)構(gòu)成關(guān)聯(lián)規(guī)則,并通過(guò)瀏覽、查閱行為進(jìn)行推薦,但用戶使用文獻(xiàn)數(shù)據(jù)較大時(shí),則需要通過(guò)信道數(shù)據(jù)挖掘獲得用戶使用文獻(xiàn)的關(guān)聯(lián)規(guī)則?;趦?nèi)容的推薦算法根據(jù)不同文獻(xiàn)間存在的相似度進(jìn)行推薦,通過(guò)數(shù)據(jù)挖掘?qū)τ脩粑墨I(xiàn)內(nèi)容進(jìn)行評(píng)分,建立檔案模型,根據(jù)評(píng)分篩選推薦給用戶。

        協(xié)同過(guò)濾算法中,根據(jù)不同的對(duì)象分為基于用戶、物品和模型的協(xié)同過(guò)濾。基于用戶協(xié)調(diào)算法相當(dāng)于一類聚類算法,即根據(jù)用戶對(duì)文獻(xiàn)的評(píng)價(jià)日志進(jìn)行用戶間相似度計(jì)算,根據(jù)相同評(píng)分層次的鄰居用戶來(lái)推薦相應(yīng)的文獻(xiàn);基于物品的協(xié)同則通過(guò)物品間相似度進(jìn)行,即對(duì)文獻(xiàn)進(jìn)行聚類,推送給特定用戶;基于模型的協(xié)同通過(guò)對(duì)用戶歷史借閱信息來(lái)構(gòu)建模型,采用概率模型、人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘技術(shù)進(jìn)行圖書評(píng)價(jià)預(yù)測(cè),通過(guò)數(shù)據(jù)挖掘算法獲得的歷史數(shù)據(jù)向用戶推薦圖書文獻(xiàn)。

        混合推薦算法則是綜合了多種推薦技術(shù)獲得的推薦結(jié)果,最終形成一個(gè)推薦列表。混合推薦算法有效避免了單一推薦算法的弱點(diǎn),模型級(jí)聯(lián)融合和加權(quán)融合作為兩種方式,將人工神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)回歸算法和概率模型、回歸算法等線性和非線性技術(shù)融合起來(lái),提高推薦結(jié)果精確度。

        本文針對(duì)圖書館文獻(xiàn)數(shù)據(jù)格式多、類型復(fù)雜的特點(diǎn),為避免文獻(xiàn)查找缺陷、文獻(xiàn)瀏覽迷航、文獻(xiàn)分析效率低的特點(diǎn),基于大數(shù)據(jù)環(huán)境下,提出一種新的混合推薦算法,針對(duì)文獻(xiàn)間相似度較大的情況,采用“字符串匹配”和“相似性度量”的文獻(xiàn)關(guān)聯(lián),利用參數(shù)優(yōu)化提升推薦性能,避免“文獻(xiàn)缺失”,通過(guò)構(gòu)建文獻(xiàn)列表來(lái)概述“瀏覽迷航”的問(wèn)題,同時(shí),基于Spark框架構(gòu)建內(nèi)存算法結(jié)構(gòu),提升大數(shù)據(jù)系統(tǒng)性能,提升文獻(xiàn)推薦算法的分析效率。

        2 圖書館文獻(xiàn)推薦的混合算法

        2.1 文獻(xiàn)推薦的混合推薦算法

        當(dāng)用戶根據(jù)自身需求登錄圖書館信息系統(tǒng),查閱感興趣的文獻(xiàn)鏈接時(shí),系統(tǒng)通過(guò)用戶瀏覽文獻(xiàn)的特征度來(lái)查找相似的文獻(xiàn)?;诖?,本文提出的混合推薦算法即根據(jù)瀏覽的文件相似度特征來(lái)進(jìn)行匹配度排名后,推薦給客戶。因此,基于用戶興趣和文獻(xiàn)數(shù)據(jù)來(lái)構(gòu)建混合關(guān)聯(lián)模型,具體以用戶感興趣的文獻(xiàn)特征建立用戶偏好模型,同時(shí)根據(jù)文獻(xiàn)特征和用戶匹配度來(lái)建立海量文獻(xiàn)的數(shù)據(jù)建模。根據(jù)用戶興趣模型從數(shù)據(jù)庫(kù)中選定相似匹配度高的文獻(xiàn)進(jìn)行排序,并推薦給用戶?;谟脩襞d趣的文獻(xiàn)數(shù)據(jù)模型的混合推薦算法,如圖1所示。

        從圖1中可以看出,利用Sparik RDD來(lái)支撐“字符串匹配”,利用Spark MLlib支撐“相似性度量”。采用混合推薦算法主要是根據(jù)用戶需求推薦不同類型的的文獻(xiàn),如“圖書到圖書”或“圖書到文獻(xiàn)”間不同類型的推薦。為提高推薦性能,其中建立了“字符串匹配”和“相似性度量”關(guān)聯(lián)方法?!白址ヅ洹敝饕獙ⅰ白髡摺薄瓣P(guān)鍵詞”等文獻(xiàn)數(shù)據(jù)庫(kù)中規(guī)劃化的元數(shù)據(jù)進(jìn)行比較,確定不同文獻(xiàn)間的字符串是否關(guān)聯(lián)?!跋嗨菩远攘俊敝饕獙⑽墨I(xiàn)“摘要”“篇名”等內(nèi)容較長(zhǎng)切標(biāo)書靈活的文檔類型進(jìn)行相似度計(jì)算,并整合成混合權(quán)重進(jìn)行排名推薦。

        圖1 圖書文獻(xiàn)混合推薦算法

        2.2 混合關(guān)聯(lián)算法的流程

        根據(jù)上節(jié)中算法的結(jié)構(gòu)框架,建立“混合關(guān)聯(lián)”推薦算法。具體流程如圖2所示。

        圖2 推薦列表實(shí)現(xiàn)流程

        圖中包括了“字符串匹配”“相似性度量”“混合關(guān)聯(lián)權(quán)重計(jì)算”“推薦列表”排名四個(gè)具體步驟。

        字符串匹配中,抽取圖書數(shù)據(jù)庫(kù)中的“作者”“關(guān)鍵詞”信息與論文數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)。如圖書數(shù)據(jù)庫(kù)和論文數(shù)據(jù)值相同,則建立兩個(gè)文獻(xiàn)的關(guān)聯(lián)Spark RDD三元組(id1,id2,Wchar),其中id1和id2分別為兩個(gè)文獻(xiàn)id;Wchar為字符關(guān)聯(lián)度權(quán)重,反映關(guān)聯(lián)的重要程度。

        相似性度量中,通過(guò)抽取圖書數(shù)據(jù)庫(kù)中的“書名”“內(nèi)容介紹”與論文數(shù)據(jù)庫(kù)中的“篇名”和“摘要”進(jìn)行關(guān)聯(lián)。由于文檔內(nèi)容較長(zhǎng),因此,采用文檔相似度關(guān)聯(lián)時(shí),首先利用分詞軟件對(duì)文本進(jìn)行預(yù)處理,去除停用詞,保留分詞,通過(guò)TF-IDF()算法獲得分詞的TF/IDF值作為權(quán)重值。這里的TF為某一文檔個(gè)中該分詞出現(xiàn)的頻數(shù),如式(1)。

        TF=T/M

        (1)

        其中,T為文檔中詞語(yǔ)總數(shù);M為該分詞出現(xiàn)次數(shù)。

        IDF為反文檔頻率,用于鑒定某一分詞在文檔中的區(qū)分能力,如式(2)。

        IDF=log(D/(Dw+1))

        (2)

        式中,D為數(shù)據(jù)庫(kù)中文檔總數(shù);Dw為出現(xiàn)該分詞的數(shù)量,通常Dw越小,IDF越大,則表明該分詞越重要。

        將計(jì)算獲得的分詞TD-IDF值生成新的文檔向量模型,其中w=TF*IDF作為該分詞的權(quán)重,計(jì)算文檔D1和D2的余弦相似度Sim(D1,D2)作為“相似性度量”權(quán)重WSim,建立基于(id1,id2,WSim),如式(3)。

        (3)

        式中,s為模型分詞列表長(zhǎng)度;wi1、wi2為文檔對(duì)應(yīng)分詞權(quán)重。

        再進(jìn)行“混合關(guān)聯(lián)”權(quán)重計(jì)算,得到“字符串匹配”權(quán)重和“相似性度量”權(quán)重,并將結(jié)果作為文獻(xiàn)id1和id2的最終關(guān)聯(lián)權(quán)重Whybrid,建立格式為(id1,id2,Whybrid)的RDD三元組,如式(4)。

        (4)

        式中,a為調(diào)和參數(shù),確定兩個(gè)關(guān)聯(lián)比重[17];m,n為兩類關(guān)聯(lián)關(guān)聯(lián)此次;k為關(guān)聯(lián)種類求和變量。

        根據(jù)獲得的Whybrid大小排名,獲得推薦列表,利用Spark中的RDD函數(shù)包中的rdd.sortBy()進(jìn)行函數(shù)排表,將文獻(xiàn)相關(guān)度高的文獻(xiàn)排名靠前。

        3 實(shí)證研究分析

        3.1 運(yùn)行平臺(tái)

        為驗(yàn)證本文提出的混合文獻(xiàn)推薦算法的可行性,本文以某大學(xué)圖書館館藏書名數(shù)據(jù)庫(kù)為對(duì)象進(jìn)行實(shí)例分析。其中實(shí)證數(shù)據(jù)來(lái)源包括該校圖書館藏書數(shù)據(jù)庫(kù)共1 243 557條數(shù)據(jù),同時(shí),通過(guò)爬蟲軟件從互聯(lián)網(wǎng)中收集共472 536條文獻(xiàn)數(shù)據(jù),其中期刊論文373 327條,碩博論文125 646條構(gòu)成研究論文庫(kù)。

        系統(tǒng)運(yùn)行在3個(gè)節(jié)點(diǎn)的Spark集群上??紤]到數(shù)據(jù)計(jì)算量較大,將系統(tǒng)分為Spark離線計(jì)算部分以及Web界面部分。離線計(jì)算用于在Hadoop+Spark平臺(tái)計(jì)算文獻(xiàn)間關(guān)聯(lián)權(quán)重,建立RDD三元組;Web界面能直接調(diào)取數(shù)據(jù)庫(kù)結(jié)果,并實(shí)時(shí)推薦和顯示。

        3.2 推薦性能評(píng)價(jià)

        目前針對(duì)文獻(xiàn)推薦性能的指標(biāo)評(píng)價(jià)有多種類型[18]。本文在相關(guān)研究的基礎(chǔ)上,采用準(zhǔn)確率來(lái)評(píng)價(jià)算法的推薦性能[19]。即在推薦列表中用戶真正感興趣的類型所占的比重,建立起準(zhǔn)確率計(jì)算公式,如式(5)。

        Pre=N/L

        (5)

        式中,L為文獻(xiàn)推薦列表長(zhǎng)度;N為感興趣文獻(xiàn)數(shù)量。

        根據(jù)研究,為保證算法的準(zhǔn)確率,確定該“混合關(guān)聯(lián)”調(diào)和參數(shù)a取值范圍在0.5-0.7。本文中根據(jù)算法特點(diǎn),確定a=0.6[20]。

        3.3 結(jié)果和討論

        全數(shù)據(jù)集調(diào)價(jià)下,不同長(zhǎng)度推薦列表的準(zhǔn)確率。如圖3所示。

        圖3 不同推薦列表長(zhǎng)度下的算法準(zhǔn)確率

        通常準(zhǔn)確率指標(biāo)表征了符合用戶興趣的文獻(xiàn)占比。從圖3中可以看出,隨著TOPN長(zhǎng)度的增加,與用戶偏好具有高相似度論文進(jìn)入列表的概率逐漸上升,由于采用本文算法是融合論文不同特征構(gòu)建的空間向量模型,因此能夠有效提取文檔特征,從而當(dāng)文獻(xiàn)列長(zhǎng)度更大,則相應(yīng)的關(guān)聯(lián)相似度更大,則表現(xiàn)出更高的準(zhǔn)確率。

        TopN=10條件下,不同論文庫(kù)規(guī)模下的算法準(zhǔn)確率測(cè)試結(jié)果,如圖4所示。

        圖4 不同論文庫(kù)規(guī)模下的算法準(zhǔn)確率

        可以看出,隨著論文庫(kù)規(guī)模不斷增加,數(shù)據(jù)更為豐富,算法的準(zhǔn)確率穩(wěn)步提升。采用RDD關(guān)聯(lián)三元組算法是基于“先計(jì)算后檢索”方案進(jìn)行,能夠根據(jù)所需文獻(xiàn)形成的兩兩相似度數(shù)值進(jìn)行檢索排序,因而論文庫(kù)越大,則相似度數(shù)值越精確,準(zhǔn)確率越高。

        4 總結(jié)

        本文在大數(shù)據(jù)背景下,提出了一種“混合關(guān)聯(lián)”的圖書館文獻(xiàn)推薦內(nèi)存算法。通過(guò)將短文本“字符串匹配”和長(zhǎng)文檔“相似性度量”進(jìn)行匹配,引入調(diào)和參數(shù)實(shí)現(xiàn)不同分詞相似度的融合,提高文獻(xiàn)的相互關(guān)聯(lián)性。并通過(guò)構(gòu)建文獻(xiàn)、權(quán)重間的Spark RDD三元組實(shí)現(xiàn)文獻(xiàn)的交叉推薦,根據(jù)不同的混合權(quán)重排名獲得不同長(zhǎng)度推薦列表。在引入準(zhǔn)確率進(jìn)行算法的評(píng)價(jià)中表明,該算法在較大圖書資料系統(tǒng)中依然具備了非常高的準(zhǔn)確率,并能夠滿足用戶對(duì)感興趣資料文獻(xiàn)的查找需求。

        猜你喜歡
        關(guān)聯(lián)數(shù)據(jù)庫(kù)圖書館
        “苦”的關(guān)聯(lián)
        圖書館
        奇趣搭配
        數(shù)據(jù)庫(kù)
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        飛躍圖書館
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        數(shù)據(jù)庫(kù)
        去圖書館
        精品福利一区二区三区| 欧美在线不卡视频| 欧美中出在线| 色噜噜亚洲精品中文字幕| 免费成人电影在线观看| 亚洲精品乱码久久久久久久久久久久 | 中文人妻熟妇乱又伦精品| 福利视频黄| 日本一区不卡高清在线观看 | 99久久精品一区二区三区蜜臀| 国产精品高清免费在线| 日本亲近相奷中文字幕| 少妇人妻偷人精品免费视频| 人妻无码中文专区久久综合| 一区两区三区视频在线观看| 变态调教一区二区三区女同| 天美传媒一区二区| JIZZJIZZ国产| 亚洲一区二区三区在线激情| 中文字幕人妻丝袜成熟乱| 三级4级全黄60分钟| 亚洲黄色性生活一级片| 久久精品国产在热亚洲不卡| 深夜福利啪啪片| 欧美高大丰满freesex| 国产美女三级视频网站| 成人久久久精品乱码一区二区三区 | 熟女丝袜美腿亚洲一区二区三区| 开心五月天第四色婷婷| 幻女bbwxxxx在线视频| ZZIJZZIJ亚洲日本少妇| 天堂麻豆精品在线观看| 久久久久88色偷偷| 亚洲色大成网站www尤物| 区一区一日本高清视频在线观看 | 久久综合99re88久久爱| 又色又污又爽又黄的网站| 素人激情福利视频| 国产精品久久久在线看| 亚洲av成人中文无码专区| 亚洲国产成人手机在线电影|