亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        畫像分析為基礎(chǔ)的圖書館大數(shù)據(jù)實(shí)踐
        ——以國家圖書館大數(shù)據(jù)項(xiàng)目為例

        2019-01-17 12:03:56
        圖書館論壇 2019年2期
        關(guān)鍵詞:畫像標(biāo)簽圖書館

        楊 帆

        0 引言

        大數(shù)據(jù)已成為人類最寶貴的財(cái)富,怎樣有效運(yùn)用這些數(shù)據(jù),發(fā)揮其作用,是大數(shù)據(jù)實(shí)踐的核心。圖書館的資源一直是人類社會(huì)的重要財(cái)富,而近年圖書館的數(shù)字資源呈爆發(fā)式增長,如何從這些數(shù)據(jù)中挖掘更有價(jià)值的信息,從而更好地為社會(huì)提供服務(wù),是圖書館面臨的挑戰(zhàn)。

        用戶畫像以及標(biāo)簽化體系在數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析以及大數(shù)據(jù)領(lǐng)域應(yīng)用廣泛。國內(nèi)圖書館領(lǐng)域的專家學(xué)者很早就涉足大數(shù)據(jù)研究。一方面,對(duì)圖書館大數(shù)據(jù)的理論基礎(chǔ)作深入的研究,如樊偉紅等對(duì)圖書館大數(shù)據(jù)特點(diǎn)、相關(guān)技術(shù)進(jìn)行了分析,并提出大數(shù)據(jù)可以幫助圖書館建立業(yè)務(wù)風(fēng)險(xiǎn)模型、用戶流失分析模型等[1];蘇新寧提出圖書館為應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn),在資源建設(shè)、資源組織、服務(wù)模式以及人才建設(shè)等方面需要做出轉(zhuǎn)變[2]。另一方面,對(duì)圖書館大數(shù)據(jù)的應(yīng)用模式以及相關(guān)技術(shù)應(yīng)用進(jìn)行了深入研究,如何勝等基于大規(guī)模網(wǎng)絡(luò)分析方法提出高校圖書館大數(shù)據(jù)應(yīng)用模式體系[3];溫浩宇等針對(duì)圖書館的異構(gòu)數(shù)據(jù)提出基于NoSQL的中間件模型的數(shù)據(jù)集成方法,用于存儲(chǔ)異構(gòu)數(shù)據(jù)等[4]。

        近兩年圖書館對(duì)大數(shù)據(jù)的研究及應(yīng)用逐漸向以用戶為核心的服務(wù)提升等領(lǐng)域滲透,如研究圖書館用戶行為、個(gè)性化服務(wù)和精細(xì)化服務(wù)等。本文以國家圖書館大數(shù)據(jù)項(xiàng)目為例,重點(diǎn)討論圖書館讀者畫像、資源畫像的構(gòu)建,基于讀者畫像和資源畫像如何構(gòu)建圖書館大數(shù)據(jù)平臺(tái)以及平臺(tái)的相關(guān)分析工具等。

        1 用戶畫像概念及研究運(yùn)用現(xiàn)狀

        1.1 用戶畫像的概念

        用戶畫像就是以海量數(shù)據(jù)為基礎(chǔ),抽取出與用戶相關(guān)的信息全貌,包括用戶的姓名、年齡、性別等固有屬性,也包括用戶的網(wǎng)絡(luò)行為和習(xí)慣,如網(wǎng)購行為、閱讀習(xí)慣等,以上足夠多的數(shù)據(jù)逐漸抽象出一個(gè)用戶的信息全貌,這樣的信息為大數(shù)據(jù)進(jìn)一步分析用戶的行為習(xí)慣,更精準(zhǔn)地定位用戶并提供個(gè)性化服務(wù)奠定了基礎(chǔ)。

        1.2 相關(guān)研究與應(yīng)用

        國內(nèi)圖書館對(duì)于用戶畫像及數(shù)據(jù)標(biāo)簽化的研究與應(yīng)用可以分為兩種方式。

        (1)研究如何通過數(shù)據(jù)的采集以及補(bǔ)全而構(gòu)建完善的讀者畫像模型或用戶行為模型。朱白認(rèn)為還原讀者的真實(shí)面目是圖書館精準(zhǔn)服務(wù)的內(nèi)容之一,提出了如何通過分析讀者相關(guān)數(shù)據(jù)去繪制讀者的“臉譜”,從而實(shí)現(xiàn)讀者的精準(zhǔn)定位[5]。胡媛等認(rèn)為用戶畫像是大數(shù)據(jù)環(huán)境下用戶描述工具,在用戶的建模上具有優(yōu)勢(shì),并基于用戶畫像提出了數(shù)字圖書館知識(shí)社區(qū)關(guān)聯(lián)模型構(gòu)建,進(jìn)而對(duì)數(shù)字圖書館用戶畫像進(jìn)行建模分析,在此基礎(chǔ)上構(gòu)建綜合服務(wù)能力評(píng)價(jià)指標(biāo)體系[6]。劉速分析了用戶畫像的概念及特征,并從數(shù)據(jù)來源、數(shù)據(jù)采集、信息識(shí)別、模型搭建等方面就用戶畫像的構(gòu)建進(jìn)行闡述,并提出了一些用戶畫像的分析方法[7]。美國思域技術(shù)公司(Civic Technologies)在美國博物館和圖書館服務(wù)協(xié)會(huì)資助下,在美國10所圖書館展開了關(guān)于用戶方面的大數(shù)據(jù)項(xiàng)目,通過分析核心用戶數(shù)據(jù),深入了解用戶的生活、學(xué)習(xí)習(xí)慣,細(xì)分用戶,形成用戶畫像用于創(chuàng)新服務(wù)[8]。

        (2)通過構(gòu)建用戶畫像(或用戶行為模型),將畫像分析結(jié)果用于圖書館個(gè)性化服務(wù)或圖書館精準(zhǔn)服務(wù),這類研究著眼于如何利用用戶畫像或用戶行為模型為圖書館或讀者服務(wù)。2013年上海圖書館開展創(chuàng)新型數(shù)據(jù)服務(wù),并發(fā)布了上海圖書館年度閱讀報(bào)告以及讀者個(gè)人年度閱讀賬單。通過該項(xiàng)目,上海圖書館將讀者的行為數(shù)據(jù)以及資源數(shù)據(jù)緊密聯(lián)系在一起,并進(jìn)行了挖掘分析,實(shí)現(xiàn)了數(shù)據(jù)可視化在圖書館的應(yīng)用[9],其中資源分類與讀者行為的關(guān)聯(lián)就是類似標(biāo)簽應(yīng)用的一種方式。趙迎春提出利用讀者行為數(shù)據(jù)構(gòu)建大數(shù)據(jù)分析平臺(tái)的思路,并提出應(yīng)用策略以及系統(tǒng)架構(gòu)[10]。何勝等基于本體及關(guān)聯(lián)數(shù)據(jù)技術(shù),提出一種構(gòu)建用戶行為模型的方法,根據(jù)本體的用戶行為模型,設(shè)計(jì)了一種通用Hadoop大數(shù)據(jù)分析平臺(tái)和MapReduce計(jì)算框架用于圖書館個(gè)性化服務(wù)[11]。

        2 項(xiàng)目思路及畫像構(gòu)造

        2.1 項(xiàng)目背景及思路

        2015年初,國家圖書館開始大數(shù)據(jù)項(xiàng)目——數(shù)據(jù)管理與分析平臺(tái)的項(xiàng)目建設(shè)工作。該項(xiàng)目在前期充分調(diào)研的基礎(chǔ)上,選取了與讀者、資源相關(guān)的5個(gè)主要業(yè)務(wù)系統(tǒng),其中包括ALEPH系統(tǒng)、文津搜索系統(tǒng)、讀者門戶系統(tǒng)、統(tǒng)一用戶管理系統(tǒng)、門禁管理系統(tǒng)的數(shù)據(jù)作為大數(shù)據(jù)項(xiàng)目的數(shù)據(jù)來源。這5個(gè)核心業(yè)務(wù)系統(tǒng)涉及到的數(shù)據(jù)主要包含了讀者相關(guān)的數(shù)據(jù),包括讀者屬性數(shù)據(jù)(如性別、生日等),讀者行為數(shù)據(jù)(借還書、出入閱覽室等);資源元數(shù)據(jù)(包含資源屬性信息)以及資源利用相關(guān)的數(shù)據(jù)。因此,如何構(gòu)建讀者數(shù)據(jù)以及資源數(shù)據(jù)之間的聯(lián)系,如何建立讀者與資源的數(shù)據(jù)模型成為了該大數(shù)據(jù)項(xiàng)目的關(guān)鍵,而用戶畫像的概念恰好符合這樣的要求。

        2.2 用戶畫像的維度及獲取

        用戶畫像數(shù)據(jù)可分為兩個(gè)維度:靜態(tài)畫像數(shù)據(jù),動(dòng)態(tài)畫像數(shù)據(jù)。靜態(tài)畫像數(shù)據(jù)就是用戶的個(gè)人基本數(shù)據(jù),即姓名、性別、年齡等;動(dòng)態(tài)畫像數(shù)據(jù)就是用戶的行為數(shù)據(jù)。不同行業(yè)不同領(lǐng)域?qū)τ脩綮o態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)的需求不同,但是基本差距不會(huì)太大,當(dāng)然,用戶畫像的“像素”(用戶數(shù)據(jù)項(xiàng))越高越好。很多互聯(lián)網(wǎng)公司還會(huì)根據(jù)情況以及針對(duì)關(guān)鍵行為數(shù)據(jù)的缺失,通過爬蟲系統(tǒng)爬取或通過購買來獲取自身不具備的行為數(shù)據(jù)。但是由于實(shí)施成本和對(duì)用戶隱私的保護(hù),因此“像素”并不是衡量用戶畫像的唯一指標(biāo)。

        3 讀者畫像及資源畫像

        3.1 讀者畫像

        讀者畫像數(shù)據(jù)從統(tǒng)一用戶管理系統(tǒng)、ALEPH系統(tǒng)、文津搜索系統(tǒng)、讀者門戶系統(tǒng)、門禁管理系統(tǒng)等5個(gè)核心業(yè)務(wù)系統(tǒng)中抽取用戶數(shù)據(jù)建立讀者畫像。統(tǒng)一用戶管理系統(tǒng)保存了讀者注冊(cè)信息、登錄信息以及身份信息等大量讀者靜態(tài)和動(dòng)態(tài)信息數(shù)據(jù)。例如,ALEPH系統(tǒng)承擔(dān)了國家圖書館大部分傳統(tǒng)業(yè)務(wù),包括書目數(shù)據(jù)編目、OPAC檢索、紙本圖書流通等,也保存了讀者借還書信息、圖書預(yù)約、續(xù)借信息。文津搜索系統(tǒng)整合了國家圖書館自建資源和外購資源的元數(shù)據(jù),同時(shí)也記錄了讀者檢索、查看、在線閱讀、文獻(xiàn)傳遞等行為信息。讀者門戶系統(tǒng)是國家圖書館各類資源的發(fā)布窗口,保存了讀者在線瀏覽、閱讀、收藏等信息。門禁管理系統(tǒng)則記錄了讀者在各個(gè)閱覽室的刷卡記錄,具體見圖1。其中,5個(gè)核心業(yè)務(wù)系統(tǒng)均保存了不同程度的讀者行為數(shù)據(jù),而讀者的賬號(hào)信息(ID、身份證號(hào)、非實(shí)名注冊(cè)賬號(hào))就成為了多系統(tǒng)之間行為數(shù)據(jù)關(guān)聯(lián)的橋梁。與互聯(lián)網(wǎng)不同的是,圖書館的用戶行為數(shù)據(jù)既包含線上行為數(shù)據(jù),也包含線下行為數(shù)據(jù),這些數(shù)據(jù)完整地勾勒了讀者的信息全貌,為進(jìn)一步分析讀者行為習(xí)慣提供了足夠的數(shù)據(jù)基礎(chǔ)。

        圖1 構(gòu)建讀者畫像的用戶數(shù)據(jù)情況

        3.2 資源畫像

        以往研究更注重研究用戶的行為偏好,通過讀者畫像和偏好定位到他們喜歡的書籍或書籍類型,從而實(shí)現(xiàn)圖書推薦等服務(wù)。但這些研究中僅注重讀者建模后與資源數(shù)據(jù)的掛接和關(guān)聯(lián),對(duì)圖書館資源的畫像構(gòu)建和圖書館資源分析還不夠重視。在大數(shù)據(jù)環(huán)境下圖書館服務(wù)的應(yīng)用中,通過一些資源定位到一定范圍的讀者群體也非常關(guān)鍵,這對(duì)圖書館精細(xì)化服務(wù)起著至關(guān)重要的作用。因此,為圖書館的資源畫像,不僅可以將資源元數(shù)據(jù)的屬性信息從眾多系統(tǒng)中抽取出來建立完整的圖書館資源,而且還可以完成讀者行為數(shù)據(jù)中與資源相關(guān)的數(shù)據(jù)建立相應(yīng)的關(guān)聯(lián),為后面的讀者與資源的精細(xì)化分析以及數(shù)據(jù)挖掘構(gòu)建起完整的數(shù)據(jù)體系。

        在其他行業(yè)大數(shù)據(jù)應(yīng)用中,和用戶相關(guān)聯(lián)的對(duì)象資源往往是具體的商品或者服務(wù)。對(duì)讀者來講,圖書館浩瀚的資源就是他們的對(duì)象,而圖書館的資源比其他行業(yè)的數(shù)據(jù)相對(duì)復(fù)雜,尤其在分類方面。以國家圖書館為例,信息系統(tǒng)的資源數(shù)據(jù)有自建中文、西文圖書數(shù)據(jù),有自建學(xué)位論文資源、多媒體資源、縮微影像資源,有來自于全國聯(lián)合編目系統(tǒng)的數(shù)據(jù),有外購數(shù)據(jù),還有全國征集的古籍、縮微影像等。圖2粗略整理了用于構(gòu)建資源畫像而從業(yè)務(wù)系統(tǒng)中選取的資源屬性相關(guān)數(shù)據(jù)。

        圖2 構(gòu)建資源畫像的相關(guān)數(shù)據(jù)

        4 標(biāo)簽體系構(gòu)建與數(shù)據(jù)模型

        4.1 標(biāo)簽與標(biāo)簽體系

        標(biāo)簽可以理解為一種用戶特征的符號(hào)表示,用戶畫像就可以用標(biāo)簽的集合來表示[12],符號(hào)可以是數(shù)字,也可以是文字,而資源畫像也是如此。因此,“畫像”建立的過程,就是添加相應(yīng)的標(biāo)簽的過程。圖1與圖2中的屬性數(shù)據(jù),也就是基本屬性標(biāo)簽。收集的讀者畫像數(shù)據(jù)以及資源畫像數(shù)據(jù)就抽象出一個(gè)讀者畫像模型以及資源畫像模型,而打標(biāo)簽就是對(duì)這些初次收集特征數(shù)據(jù)、行為數(shù)據(jù)“貼上”符號(hào),方便計(jì)算機(jī)處理。一般來講,標(biāo)簽化會(huì)采用多級(jí)標(biāo)簽與多級(jí)分類,例如第一級(jí)標(biāo)簽是基本屬性,那么二級(jí)標(biāo)簽就是基于第二級(jí)分類逐級(jí)進(jìn)行細(xì)分,如果還能進(jìn)行細(xì)分則可以分為三級(jí)標(biāo)簽,如讀者基本屬性信息中的地址信息是二級(jí)分類,地址信息又分為工作地址與家庭地址,這就屬于三級(jí)分類。當(dāng)然,根據(jù)數(shù)據(jù)的情況還可以進(jìn)行更細(xì)的劃分,而且當(dāng)多層數(shù)據(jù)標(biāo)簽進(jìn)行關(guān)聯(lián)之后,還可以形成更精細(xì)化的標(biāo)簽,例如根據(jù)已有用戶劃分模型進(jìn)行組合、交叉分析,生成精細(xì)化標(biāo)簽群體。而這些不同層級(jí)的標(biāo)簽,就構(gòu)成了標(biāo)簽體系。

        4.2 基于標(biāo)簽體系的讀者與資源模型

        以國家圖書館大數(shù)據(jù)項(xiàng)目為例,根據(jù)已獲取的讀者畫像數(shù)據(jù)、資源畫像數(shù)據(jù)建立起基本屬性標(biāo)簽?;緦傩詷?biāo)簽包括讀者基本屬性標(biāo)簽和資源基本屬性標(biāo)簽。讀者基本屬性標(biāo)簽是以數(shù)據(jù)來源系統(tǒng)中的讀者基本屬性為基礎(chǔ)對(duì)讀者進(jìn)行處理與分析。比如,姓名、性別、職稱、地域、教育程度等特征屬性的歸為讀者屬性的一級(jí)標(biāo)簽;通過一級(jí)標(biāo)簽信息進(jìn)一步挖掘得到的歸為讀者屬性二級(jí)標(biāo)簽;對(duì)讀者的基本行為信息,如讀者卡注冊(cè)時(shí)間,最近登錄時(shí)間分為三級(jí)標(biāo)簽。資源基本屬性標(biāo)簽是以數(shù)據(jù)來源系統(tǒng)中的資源基本屬性為基礎(chǔ)對(duì)資源進(jìn)行歸類分析,如資源系統(tǒng)號(hào)、題名、責(zé)任者、出版者等特征屬性,分級(jí)方法同讀者基本屬性標(biāo)簽。具體分級(jí)情況如表1所示(標(biāo)簽數(shù)據(jù)多,僅列常見數(shù)據(jù))。

        表1 基礎(chǔ)標(biāo)簽體系分級(jí)

        讀者及資源標(biāo)簽關(guān)聯(lián)后的精細(xì)化標(biāo)簽。主要將讀者屬性以及資源屬性標(biāo)簽進(jìn)行關(guān)聯(lián)、聚類(或結(jié)合多種屬性特征和信息行為進(jìn)行多維度關(guān)聯(lián)),形成全新、更精細(xì)化的標(biāo)簽,如檢索了什么關(guān)鍵字、作者的相關(guān)領(lǐng)域有哪些、隸屬的分類學(xué)科、資源類型、借閱行為是否頻繁、訪問特征等,這些標(biāo)簽形成了讀者與資源的模型,詳見表2-3。

        4.3 基于標(biāo)簽體系的迭代分析

        大數(shù)據(jù)技術(shù)以及聚類、挖掘分析等分析方法在圖書館的應(yīng)用,為精細(xì)化服務(wù)以及個(gè)性化服務(wù)提供了新思路。如何在浩瀚的資源中定位到有一定特色的資源,如何在茫茫人海中找到某一特定的人群是這個(gè)問題的關(guān)鍵。因此,圖書館的大數(shù)據(jù)平臺(tái)必須有一套工具用來“找人”和“找書”,不斷精細(xì)化資源和人群的范圍,針對(duì)不同精細(xì)化的人群提供特定的服務(wù),而迭代分析就是為實(shí)現(xiàn)由粗到細(xì)的篩選分析方法。迭代分析就是通過行為、用戶、資源維度逐層鉆取關(guān)聯(lián)分析得到更精準(zhǔn)細(xì)化的(用戶或資源)群體或行為現(xiàn)象。圖3是本文提出的一種迭代工具設(shè)計(jì)思路。首先在讀者模型中找到一種行為進(jìn)行分析,獲得的結(jié)果增加讀者另一個(gè)維度進(jìn)行分析可以獲得一個(gè)范圍的群體。將這個(gè)分析結(jié)果關(guān)聯(lián)到資源的一個(gè)維度,獲取到一個(gè)資源的群體,當(dāng)結(jié)果再次選定一種用戶行為時(shí),就完成了一個(gè)迭代周期。根據(jù)這樣的分析方法迭代下去,就會(huì)獲得更精細(xì)的分析結(jié)果(讀者群體或資源群體)。通過對(duì)數(shù)據(jù)結(jié)果不斷地由粗到細(xì)、由大變小的篩選、過濾、剔除不符合條件的數(shù)據(jù)結(jié)果集,就會(huì)得到最終需要的數(shù)據(jù)結(jié)果內(nèi)容。對(duì)這些數(shù)據(jù)集打標(biāo)簽,對(duì)每個(gè)讀者或資源進(jìn)行統(tǒng)一的打標(biāo)簽處理,從而實(shí)現(xiàn)數(shù)據(jù)結(jié)果的永久保存,并可按照該維度進(jìn)行統(tǒng)計(jì)分析。

        表2 讀者數(shù)據(jù)模型

        表3 資源數(shù)據(jù)模型

        圖3 迭代分析設(shè)計(jì)思路

        5 大數(shù)據(jù)平臺(tái)構(gòu)建

        5.1 基于標(biāo)簽體系的大數(shù)據(jù)分析系統(tǒng)

        國家圖書館數(shù)據(jù)管理與分析系統(tǒng)在架構(gòu)上分為基礎(chǔ)資源層、數(shù)據(jù)處理層、應(yīng)用層以及表現(xiàn)層4層結(jié)構(gòu),詳見圖4。基礎(chǔ)數(shù)據(jù)來源于5個(gè)重要核心業(yè)務(wù)系統(tǒng),涉及的數(shù)據(jù)類型包括元數(shù)據(jù)、讀者數(shù)據(jù)、日志訪問數(shù)據(jù)、各系統(tǒng)的業(yè)務(wù)數(shù)據(jù)等4種類型。數(shù)據(jù)采集后,需要配置與不同數(shù)據(jù)來源、不同存儲(chǔ)形式和接口的基礎(chǔ)數(shù)據(jù)訪問適配器,并通過ETL工具進(jìn)行數(shù)據(jù)的抽取、數(shù)據(jù)質(zhì)量的凈化、轉(zhuǎn)換以及最后的數(shù)據(jù)加載處理。之后,數(shù)據(jù)被載入到Hadoop分布式計(jì)算平臺(tái)中,以HDFS分布式文件系統(tǒng)和YARN分布式計(jì)算框架為基礎(chǔ),數(shù)據(jù)存儲(chǔ)于HBase中,利用Hive對(duì)抽取的5個(gè)系統(tǒng)業(yè)務(wù)數(shù)據(jù)內(nèi)容進(jìn)行計(jì)算。計(jì)算平臺(tái)生成新的數(shù)據(jù),用于生成各種畫像、標(biāo)簽系統(tǒng)以及用于各類業(yè)務(wù)分析、迭代分析等。

        圖4 基于標(biāo)簽體系的大數(shù)據(jù)分析系統(tǒng)

        5.2 數(shù)據(jù)處理流程

        圖5 數(shù)據(jù)處理流程

        數(shù)據(jù)處理主要包括數(shù)據(jù)采集、ETL處理、數(shù)據(jù)預(yù)處理、生成模型、生成畫像及標(biāo)簽等,見圖5。(1)首先采集原始數(shù)據(jù)。將關(guān)系型數(shù)據(jù)庫、文本文件、Excel等數(shù)據(jù)類型放到對(duì)應(yīng)的數(shù)據(jù)適配器進(jìn)行整合處理。(2)將這些數(shù)據(jù)導(dǎo)入ETL工具中進(jìn)行數(shù)據(jù)清洗。(3)ETL處理。用戶屬性數(shù)據(jù)、用戶行為數(shù)據(jù)、資源屬性數(shù)據(jù)加載到ETL工具中,進(jìn)行去重、去除非法字段、字段拆分、字段合并、資源數(shù)據(jù)信息代碼表轉(zhuǎn)換、數(shù)據(jù)類型規(guī)范化等處理,有效的數(shù)據(jù)將會(huì)存儲(chǔ)到MongoDB中。(4)MongoDB中的數(shù)據(jù)加載到Hadoop平臺(tái)。(5)根據(jù)預(yù)定義的基礎(chǔ)模型進(jìn)行數(shù)據(jù)裝載。(6)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理分析,如行為資源整合、時(shí)間維度統(tǒng)一、多源數(shù)據(jù)維度對(duì)照關(guān)聯(lián)。(7)生成讀者、行為、資源多維關(guān)聯(lián)模型。(8)使用多維關(guān)聯(lián)生成的中間數(shù)據(jù)進(jìn)行相關(guān)預(yù)測(cè)行為分析。其中,資源標(biāo)簽的設(shè)定還需要根據(jù)資源畫像模型,通過聚類分析,設(shè)定聚類信息字段,從而得出資源聚類分布和從屬關(guān)系。(9)生成的畫像、標(biāo)簽、多維關(guān)聯(lián)數(shù)據(jù)用于上層業(yè)務(wù)自定義分析、迭代分析、標(biāo)簽精細(xì)化處理,生成決策依據(jù)數(shù)據(jù),進(jìn)行業(yè)務(wù)指導(dǎo)。

        5.3 讀者畫像與資源畫像

        根據(jù)數(shù)據(jù)的多維關(guān)聯(lián)分析以及數(shù)據(jù)計(jì)算結(jié)果,加載到讀者數(shù)據(jù)模型以及資源數(shù)據(jù)模型中,即獲得了完成的讀者及資源的畫像輪廓。國家圖書館大數(shù)據(jù)項(xiàng)目最終獲取的讀者個(gè)人畫像以及資源畫像,見圖6-7。

        5.4 標(biāo)簽管理工具

        圖6 國家圖書館大數(shù)據(jù)項(xiàng)目獲取的讀者個(gè)人畫像

        圖7 國家圖書館大數(shù)據(jù)項(xiàng)目獲取的資源個(gè)人畫像

        圖8 數(shù)據(jù)管理與分析平臺(tái)標(biāo)簽管理工具

        完整的大數(shù)據(jù)分析系統(tǒng)還需要有一定的管理工具和分析工具作支撐。標(biāo)簽工具以及標(biāo)簽管理工具就是其中重要的兩個(gè)工具,可對(duì)新分析產(chǎn)生的數(shù)據(jù)進(jìn)行“打標(biāo)簽”和對(duì)標(biāo)簽進(jìn)行管理。圖8是國家圖書館大數(shù)據(jù)項(xiàng)目平臺(tái)——數(shù)據(jù)管理與分析平臺(tái)標(biāo)簽管理工具。該工具里的標(biāo)簽一共有兩類,即“讀者標(biāo)簽”與“資源標(biāo)簽”,一個(gè)標(biāo)簽代表了一類讀者或資源群體。如標(biāo)簽“紅學(xué)”,它代表了喜歡《紅樓夢(mèng)》的讀者,是用戶的一種特征。系統(tǒng)中的標(biāo)簽體系共分為三級(jí),而標(biāo)簽名稱是標(biāo)簽的唯一屬性。

        圖9 標(biāo)簽添加工具

        圖10 迭代分析工具

        新的標(biāo)簽由工作人員設(shè)定,包括標(biāo)簽的種類、屬性、分級(jí)、條件規(guī)則等。圖9是標(biāo)簽添加工具,標(biāo)簽分為用戶特征類和資源類,標(biāo)簽歸屬則規(guī)定了該標(biāo)簽的級(jí)別,里面可選擇的還包括已經(jīng)存在的一級(jí)到三級(jí)標(biāo)簽,凡是系統(tǒng)中或今后新增的符合該條件的信息將自動(dòng)打標(biāo)簽處理。而通過迭代分析找到的數(shù)據(jù)集(讀者群體或資源群體)可以人為進(jìn)行打標(biāo)簽處理,如圖10。

        6 結(jié)語

        本文提出了一種基于讀者畫像及資源畫像為基礎(chǔ)構(gòu)建圖書館大數(shù)據(jù)分析平臺(tái)的方法,介紹了如何從數(shù)據(jù)采集到建立模型逐步實(shí)現(xiàn)構(gòu)建讀者以及資源畫像的思路,同時(shí)提出了一個(gè)基于標(biāo)簽體系的迭代分析工具設(shè)計(jì)思路,該工具可以用于定位一定讀者群體以及資源群體,從而實(shí)現(xiàn)“以書找人,以人找書”。目前根據(jù)系統(tǒng)直接分析產(chǎn)生的數(shù)據(jù)結(jié)果以及后期工作人員通過分析工具獲得的結(jié)果已經(jīng)完成了兩期大數(shù)據(jù)洞察報(bào)告,報(bào)告對(duì)國家圖書館服務(wù)情況、主要服務(wù)對(duì)象和整體資源利用情況進(jìn)行了深入分析,并根據(jù)數(shù)據(jù)分析結(jié)果提出了一些服務(wù)優(yōu)化建議。今后在圖書館大數(shù)據(jù)項(xiàng)目(尤其是畫像層面)實(shí)踐中,將著重研究圖書的分類與學(xué)科分類進(jìn)行掛接;如何將大眾分類的概念靈活引入并使用,這對(duì)資源畫像以及后期資源推薦將起到非常重要的作用。

        猜你喜歡
        畫像標(biāo)簽圖書館
        威猛的畫像
        “00后”畫像
        畫像
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        圖書館
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        飛躍圖書館
        標(biāo)簽化傷害了誰
        基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
        去圖書館
        欧美人与禽zozzo性伦交| 97精品熟女少妇一区二区三区| 亚洲一区二区三区资源| 国产自产c区| 午夜久久精品国产亚洲av| 黄色大片一区二区中文字幕| 国产一区二区三区高清视频| 亚洲av一二三又爽又爽又色| 美女福利视频网址导航| 美女性色av一区二区三区| 日韩中文字幕在线丰满| 青青草成人在线播放视频| 日韩一区av二区三区| 精品国产午夜肉伦伦影院| 久久人妻少妇嫩草av| 免费人成激情视频在线观看冫| 消息称老熟妇乱视频一区二区| 熟女人妻在线视频| 少妇内射视频播放舔大片| 亚洲AV成人无码久久精品四虎| av草草久久久久久久久久久| av东京热一区二区三区| 少妇呻吟一区二区三区| 69精品国产乱码久久久| 天天做天天爱夜夜爽| a级大胆欧美人体大胆666| 中文字幕无线码中文字幕| 中文字幕一区韩国三级| 男女午夜视频一区二区三区| 亚洲美女一区二区三区三州| 亚洲av成熟国产一区二区| 国产精品无码制服丝袜| 中文字幕av中文字无码亚| 人妻无码中文字幕| 窝窝影院午夜看片| 蜜桃一区二区三区在线看| 美腿丝袜一区在线观看| 日韩av一区二区网址| 亚洲熟女www一区二区三区| 性欧美牲交xxxxx视频欧美| 亚洲五月激情综合图片区|