亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)挖掘在圖書館讀者分類中的應(yīng)用探索

        2021-10-25 13:21:58郭明環(huán)代素香呂亞娟
        關(guān)鍵詞:關(guān)聯(lián)聚類領(lǐng)域

        郭明環(huán),代素香,呂亞娟

        (西安科技大學(xué) 圖書館,陜西 西安 710054)

        關(guān)聯(lián)挖掘[1],又稱聯(lián)系發(fā)現(xiàn)(Link Discovery),是當(dāng)前大數(shù)據(jù)分析發(fā)展中的一個(gè)新階段實(shí)用型數(shù)據(jù)分析產(chǎn)品,該模型將對(duì)待分析的數(shù)據(jù)進(jìn)行分類、產(chǎn)生的數(shù)據(jù)重構(gòu)產(chǎn)生判斷,并在它們之間產(chǎn)生關(guān)聯(lián)模式。同時(shí),允許分析員從相關(guān)數(shù)據(jù)庫中查找/調(diào)用匹配數(shù)據(jù),使其在海量的重構(gòu)數(shù)據(jù)庫中挖掘有強(qiáng)關(guān)聯(lián)的信息,為決策和優(yōu)化方案提供有價(jià)值的信息?;跉w納邏輯的關(guān)聯(lián)挖掘方法可處理多關(guān)系型的數(shù)據(jù),為不同實(shí)體之間強(qiáng)弱關(guān)系的信息采集分析提供了高效的可視化手段[2]。

        關(guān)聯(lián)挖掘技術(shù),可以先挖掘?qū)嶓w之間的聯(lián)系,從聯(lián)系入手先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后再進(jìn)行聚類處理,可以有效地提高聚類的準(zhǔn)確性。傳統(tǒng)的聚類方法在進(jìn)行實(shí)體劃分時(shí),往往多從實(shí)體間的歐氏距離起步,并以此作為劃分的依據(jù)進(jìn)行聚類分析。但是,這種分析的方法忽略了實(shí)體之間意義上的關(guān)聯(lián)這一重要屬性,因而聚類的結(jié)果往往不容易理解,或者只能從距離的角度予以理解,而關(guān)聯(lián)挖掘恰恰可以解決聚類分析中的這一難點(diǎn)[3]。

        圖書館作為信息資源的倉庫和提供者,在大學(xué)里對(duì)廣大的師生讀者發(fā)揮著關(guān)鍵作用。圖書館需要在新形勢(shì)下利用大數(shù)據(jù)技術(shù),深入挖掘讀者的信息需求,推測(cè)識(shí)別不同讀者的意圖和風(fēng)格,對(duì)讀者群體進(jìn)行科學(xué)的類別劃分,對(duì)其感興趣和關(guān)注的主題類型進(jìn)行標(biāo)簽化處理,通過智能化標(biāo)簽判定不同讀者的動(dòng)態(tài)需求,把館藏信息和推薦材料發(fā)給特定群體,為不同的圖書館讀者群體,提供針對(duì)性和個(gè)性化的服務(wù)產(chǎn)品,為高校的選修、選課和畢業(yè)論文的撰寫方向提供有價(jià)值的參考信息,最大程度上指導(dǎo)讀者高效獲取直接的相關(guān)動(dòng)態(tài)和信息等。

        1 相關(guān)研究

        國外關(guān)于關(guān)聯(lián)挖掘的研究有:Adibi J等人認(rèn)為,應(yīng)用范圍包括社會(huì)關(guān)系分析、誠信度分析、圖形識(shí)別、模式分析和關(guān)聯(lián)探索等[4];Lin S D等人論證了用關(guān)聯(lián)挖掘方法可以發(fā)現(xiàn)隱藏的關(guān)聯(lián)群體或組織結(jié)構(gòu)、判斷仿真群體可能的行為及提前預(yù)測(cè)可能發(fā)生的新的威脅及欺詐行為[5];Mooney等人研究發(fā)現(xiàn),關(guān)聯(lián)挖掘能從大量的關(guān)系數(shù)據(jù)中甄選出可能的潛在的不良活動(dòng)模式,且這些模式是關(guān)系復(fù)雜的、可操控的[6];Han和Kamber認(rèn)為,關(guān)聯(lián)挖掘的方法是一種新的大信息容量數(shù)據(jù)發(fā)掘方法[7];Sentor把關(guān)聯(lián)挖掘描述為:發(fā)現(xiàn)已知模式的證據(jù)和未知模式的聯(lián)系[8]。國內(nèi)的關(guān)聯(lián)挖掘研究有:倪志偉等人驗(yàn)證了在金融領(lǐng)域的證券市場(chǎng),基于對(duì)樣本客戶行為信息的關(guān)聯(lián)分析,可以對(duì)客戶進(jìn)行高效率分類[2];李玉華等人基于圖熵的鏈接發(fā)現(xiàn)算法給出了其在銀行反洗錢領(lǐng)域的應(yīng)用[9]。

        目前,關(guān)聯(lián)挖掘已廣泛應(yīng)用于社會(huì)生活的許多領(lǐng)域,如:反欺詐行為的偵破、法律訴訟方面的調(diào)查取證、網(wǎng)絡(luò)信息的分析和電信通訊業(yè)務(wù)的關(guān)聯(lián)調(diào)查等[4]??梢灶A(yù)見,還有很多領(lǐng)域的應(yīng)用有待探索,關(guān)聯(lián)挖掘?qū)?huì)在未來社會(huì)生活的諸多方面起到巨大的作用,比如金融領(lǐng)域的反洗錢案件的偵破、醫(yī)學(xué)領(lǐng)域一些疾病的診斷以及信息檢索領(lǐng)域用戶的識(shí)別等[10]。

        到目前為止,圖書館領(lǐng)域還缺乏用關(guān)聯(lián)數(shù)據(jù)挖掘的方法來研究讀者的個(gè)性化服務(wù),譬如流通部的閱讀推薦,學(xué)科服務(wù)部的信息資源推送等針對(duì)性的特色服務(wù)。筆者將探討基于相關(guān)分析的關(guān)聯(lián)挖掘算法在圖書館讀者分類中的應(yīng)用。我們將不同類型讀者網(wǎng)絡(luò)信息的采集行為作為抽樣數(shù)據(jù),考慮到讀者的多樣性。我們以本科生、研究生和教工為例。

        2 基于關(guān)聯(lián)挖掘的圖書館讀者劃分方法

        2.1 基于關(guān)聯(lián)挖掘的圖書館讀者劃分流程

        在對(duì)讀者群進(jìn)行劃分時(shí),基于關(guān)聯(lián)挖掘的圖書館讀者劃分方法的具體的流程如下:①采集數(shù)據(jù)并用關(guān)聯(lián)模型處理,提取關(guān)聯(lián)屬性信息—某一領(lǐng)域文獻(xiàn)下載量,網(wǎng)站瀏覽次數(shù)、登錄次數(shù)。②通過方程(1)對(duì)讀者的屬性進(jìn)行關(guān)聯(lián)強(qiáng)度分析,提取圖書館讀者間的關(guān)聯(lián)系數(shù),用相關(guān)系數(shù)作為讀者間的關(guān)聯(lián)值,作為分類的權(quán)值。構(gòu)建完全圖G(C,E,W)。③設(shè)定適當(dāng)?shù)亩x閾值β處理完全圖,為提高計(jì)算效率,可刪除權(quán)值閾值以下的關(guān)聯(lián)群落。④利用方程(5/6)獲取(3)中各類讀者的加權(quán)度WDi和加權(quán)聚集系數(shù)形WCi,再根據(jù)公式(8)計(jì)算各讀者的加權(quán)復(fù)合值WCFi。⑤對(duì)圖中加權(quán)復(fù)合特征值WCFi進(jìn)行排序。⑥從隊(duì)列中選取前k個(gè)值,以它們對(duì)應(yīng)的節(jié)點(diǎn)為聚類初始節(jié)點(diǎn),使用K-means算法,用相關(guān)性矩陣對(duì)讀者進(jìn)行分類計(jì)算,獲得讀者分類圖形。

        2.2 聚類前基于關(guān)聯(lián)挖掘算法的預(yù)處理過程

        關(guān)聯(lián)挖掘方法(link discovery based on correlation analysis,LDCA)是重要圖分析方法之一。其相關(guān)系數(shù)(Pearson相關(guān)系數(shù))是兩個(gè)統(tǒng)計(jì)量之間關(guān)聯(lián)強(qiáng)度的數(shù)量刻畫,描述了兩個(gè)特定變量間關(guān)聯(lián)的主要信息。計(jì)算公式如下:

        (1)

        (2)

        其中,n為抽樣個(gè)數(shù);xi,yi代表相應(yīng)參量屬性值;mx和my指兩個(gè)變量的相應(yīng)參量的平均值;r給出觀測(cè)的兩個(gè)變量間線性關(guān)聯(lián)強(qiáng)度,取值在-1與+1之間。這里若r>0,是指兩個(gè)變量呈正相關(guān),即正向關(guān)聯(lián);若r<0,表明兩個(gè)變量是負(fù)相關(guān),即反射關(guān)聯(lián)。若r=0,表明兩個(gè)變量間不是線性相關(guān),可以排除出群落。

        利用關(guān)聯(lián)探索方法發(fā)掘不同讀者讀書傾向的相似度,這里特指兩個(gè)讀者數(shù)據(jù)項(xiàng)之間的模式關(guān)聯(lián)程度,用關(guān)聯(lián)強(qiáng)度構(gòu)造兩實(shí)體間的行為聯(lián)系強(qiáng)弱,其可執(zhí)行路線圖如圖1所示。

        路線圖中,關(guān)聯(lián)設(shè)定、關(guān)聯(lián)生成、關(guān)聯(lián)驗(yàn)證是關(guān)聯(lián)挖掘方法的3個(gè)關(guān)鍵節(jié)點(diǎn):①關(guān)聯(lián)設(shè)定。此過程要定義了任意兩個(gè)實(shí)體之間的關(guān)聯(lián)度量函數(shù)F,其提供群落的關(guān)聯(lián)信息,其強(qiáng)度在[-1,+1]之間變化。②關(guān)聯(lián)生成。依據(jù)關(guān)聯(lián)設(shè)定求出樣本中目標(biāo)對(duì)象的相關(guān)性大小,以實(shí)體屬性和相關(guān)性權(quán)值為參量構(gòu)造出加權(quán)多邊完全圖G(U,E),其中U表示實(shí)體集合,E表示帶有相關(guān)性權(quán)值的邊值的集合。③關(guān)聯(lián)驗(yàn)證。關(guān)聯(lián)驗(yàn)證是指用另一個(gè)定義了閾值T新的函數(shù)P或算法把完全圖G匹配到它的某個(gè)子集M,M?G。該子集中的群落之間呈現(xiàn)不同關(guān)聯(lián)強(qiáng)度。

        圖1 基于相關(guān)分析聯(lián)系發(fā)現(xiàn)方法流程

        通常情況下,讀者分類一般都采用各種聚類方法來進(jìn)行,這種分類一般都是把讀者的屬性割裂開來單獨(dú)考慮。在關(guān)聯(lián)挖掘技術(shù)中,屬性與屬性之間的關(guān)聯(lián)是重點(diǎn)考察的對(duì)象,建立屬性之間的關(guān)聯(lián),讀者各個(gè)屬性之間的相互影響,在進(jìn)行過關(guān)聯(lián)挖掘技術(shù)處理之后,再進(jìn)行聚類運(yùn)算。

        2.2.1 圖書館讀者的屬性分析。圖書館讀者的屬性(數(shù)據(jù))是多維的,如使用搜索引擎檢索圖書的檢索信息、借閱圖書的統(tǒng)計(jì)信息、使用各種電子資源的信息、生活消費(fèi)信息,教育事務(wù)相關(guān)信息,科研相關(guān)信息等。對(duì)于不同的讀者類型,需要選取不同的屬性進(jìn)行分析,有的屬性能夠反映讀者的行為特征,有的則不能,從變異性的角度將學(xué)校師生的屬性分為靜態(tài)屬性和行為屬性:①靜態(tài)屬性獲取主要包括從圖書館服務(wù)系統(tǒng)中獲取的讀者信息,包括姓名、工號(hào)/學(xué)號(hào)、讀者類型、研究領(lǐng)域等個(gè)人信息在內(nèi)的基本信息;②動(dòng)態(tài)屬性采集指的讀者在閱讀中對(duì)館藏資源的使用意愿、跨館(庫)傳送的數(shù)據(jù),確定讀者群體短期、長期目標(biāo)下的信息需求;也會(huì)跟蹤圖書館中讀者的瀏覽記錄、查詢記錄等對(duì)讀者閱讀信息行為數(shù)據(jù)進(jìn)行深度挖掘[12]。參照高校圖書館管理的規(guī)律,對(duì)目標(biāo)讀者進(jìn)行標(biāo)注。譬如根據(jù)讀者訪問的網(wǎng)站類型,對(duì)其進(jìn)行分類和標(biāo)注。每學(xué)年內(nèi)如果每個(gè)點(diǎn)擊的站點(diǎn)次數(shù)超過設(shè)定次數(shù),它們將被標(biāo)記,對(duì)某一領(lǐng)域?yàn)g覽次數(shù)、文獻(xiàn)下載量超過設(shè)定次數(shù)將被標(biāo)記,訪問的網(wǎng)站將按照?qǐng)D書館網(wǎng)站、谷歌搜索引擎、360導(dǎo)航、百度網(wǎng)站等導(dǎo)航網(wǎng)絡(luò)進(jìn)行分類;根據(jù)讀者閱讀的圖書種類不同,標(biāo)注條件為每學(xué)期或每學(xué)年借閱次數(shù),借閱冊(cè)數(shù),排行名次;卡片信息比較豐富,包括用餐、班車、洗衣、超市、醫(yī)療、宿舍用電等,這些信息通常用作每學(xué)期或每學(xué)年的時(shí)間線[13]。

        下面是西安科技大學(xué)圖書館部分讀者Web日志的抽樣數(shù)據(jù),即某一領(lǐng)域的數(shù)據(jù)庫網(wǎng)絡(luò)記錄的原始數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,再通過數(shù)據(jù)篩選方法剔除與目標(biāo)讀者群體無關(guān)的數(shù)據(jù),獲得強(qiáng)關(guān)聯(lián)數(shù)據(jù)集合。筆者選取的讀者數(shù)據(jù)見表1。

        表1 圖書館用戶屬性

        2.2.2 關(guān)聯(lián)設(shè)定。對(duì)圖書館讀者的靜態(tài)屬性確定后,再提取與之對(duì)應(yīng)的動(dòng)態(tài)屬性,即某一領(lǐng)域文獻(xiàn)的下載量(篇),該領(lǐng)域內(nèi)容的瀏覽次數(shù),該領(lǐng)域相近內(nèi)容的瀏覽次數(shù),網(wǎng)絡(luò)登錄頻次。在關(guān)聯(lián)假設(shè)過程,首先定義關(guān)聯(lián)函數(shù)來描述圖書館讀者間的行為聯(lián)系程度,依據(jù)表1中4個(gè)動(dòng)態(tài)屬性值,調(diào)用Pearson系數(shù)公式來模擬圖書館讀者間的行為關(guān)聯(lián)信息。

        把讀者和其關(guān)聯(lián)信息投射到圖模型中刻畫類型交互關(guān)聯(lián)特征,具體過程如下:

        定義1 設(shè)c={c1,c2,…,ci,…,cN}為圖書館讀者集合,無序偶對(duì)(ci,cj)給出讀者ci∈C與cj∈C之間的邊值,表示讀者ci和cj之間的關(guān)聯(lián)。G(C,E)是以C為讀者集合,以E?{(ci,cj)|ci,cj∈C}為關(guān)聯(lián)集合的圖。

        定義2 讀者Ci的度Di是指其與其他讀者相關(guān)聯(lián)的邊數(shù),表示了讀者ci與其他讀者關(guān)聯(lián)的頻率強(qiáng)度。公式如下:

        Di=|{(ci,cj)|ci,cj∈E,ci,cj∈C}|

        (3)

        讀者的聚集系數(shù)是指與該讀者相連的近鄰讀者之間交互的比率。公式如下:

        (4)

        其中:Ki=|{(cj,ck)|(ci,cj)∈E,(ci,ck)∈E,cj,ck∈C}|

        2.2.3 關(guān)聯(lián)產(chǎn)生。在關(guān)聯(lián)假設(shè)階段,定義了讀者間的關(guān)聯(lián)函數(shù),在關(guān)聯(lián)發(fā)現(xiàn)過程,將用公式(1)計(jì)算讀者之間的相關(guān)性系數(shù),用于生成關(guān)聯(lián)類型的全貌圖WG(V,E,W)。

        定義3 設(shè)c={c1,c2,…,cN}為讀者集合,無序偶對(duì)(ci,cj)表示節(jié)點(diǎn)讀者ci∈C與cj∈C讀者之間的邊值,wij為讀者ci,cj間行為相關(guān)性的值,作為邊值的權(quán)值。則WG(V,E,W)是以C為讀者集合,以E?{(ci,cj)|ci,cj∈C}邊值集合,以W={wij:(vi,vj)∈E}為權(quán)值集合的圖,讀者的加權(quán)度反映了該讀者與其他讀者的連接強(qiáng)度,讀者的加權(quán)度WDi為:

        (5)

        讀者的權(quán)重?cái)可⒍葘⒔o出該讀者在一定類型內(nèi)的交互關(guān)聯(lián)頻率和作用強(qiáng)度。讀者加權(quán)聚集度WCi為:

        (6)

        (7)

        R={(ci,ck)|(ci,cj)∈E,(ci,ck)∈E,ci,cj,ck∈C}。

        其間,為提高計(jì)算效率,計(jì)算過程可依據(jù)類型特征指定閾值,過濾權(quán)重小于閾值的讀者信息,得到強(qiáng)關(guān)聯(lián)類型關(guān)聯(lián)圖形。

        2.2.4 關(guān)聯(lián)驗(yàn)證。對(duì)于關(guān)聯(lián)驗(yàn)證過程,將依據(jù)讀者的權(quán)重?cái)可⒍群途奂禂?shù),給出關(guān)聯(lián)函數(shù)的系綜函數(shù),表達(dá)形式如下:

        WCFi=αWCi+(1-α)WDi/N

        (8)

        其中,α為可調(diào)的參數(shù),0<α

        特定類型的系綜函數(shù)展示了讀者之間的交互頻度與關(guān)聯(lián)強(qiáng)度等指標(biāo)。依據(jù)相關(guān)指標(biāo)信息對(duì)讀者進(jìn)行圖形劃分,并依據(jù)類型權(quán)重?cái)可⒍软槙r(shí)針排列,不同模塊之間聚焦系數(shù)相對(duì)較低,此處并不顯示(見圖2)。

        圖2 讀者類型劃分

        圖內(nèi)RF為關(guān)聯(lián)系數(shù),RF的值越接近,說明讀者行為的相似度越大。關(guān)聯(lián)挖掘方法就是根據(jù)RF值的接近程度來對(duì)圖書館讀者群體進(jìn)行劃分的。從圖2中我們可以直觀地看到,王五、田七兩人和張三用戶的RF值比較接近,可以歸為同類型的讀者,即對(duì)筆者選定的這一特定領(lǐng)域的興趣和關(guān)注度屬于同一個(gè)類型。而對(duì)于和張三關(guān)聯(lián)系數(shù)更低的趙六和李四,他們倆之間的RF值更接近,可以歸為同一類型的讀者,如果關(guān)聯(lián)系數(shù)再低些的讀者,通過閾值β排除某些類別,通過模型循環(huán)尋找新的類別。

        驗(yàn)證:針對(duì)筆者抽樣的讀者,在未被告知訪談目的的情況下,作了一對(duì)一的訪談,真實(shí)了解了這些讀者對(duì)被我們抽樣的這一領(lǐng)域的點(diǎn)擊、瀏覽及下載的網(wǎng)絡(luò)行為的初衷。張三和田七都曾選修了涉及該領(lǐng)域的課程,王五是教授這門課程的教師,所以,他們對(duì)這一領(lǐng)域有過相近的關(guān)注度和信息需求。而李四和趙六對(duì)這一領(lǐng)域很有興趣,二人不僅選修了涉及該領(lǐng)域的課程,而且還準(zhǔn)備報(bào)考該專業(yè)的研究生。所以,他們對(duì)這個(gè)領(lǐng)域的關(guān)注度更高一些,屬于同一類型的讀者。訪談?wù){(diào)查的結(jié)果證實(shí)了關(guān)聯(lián)挖掘方法在圖書館讀者分類中的適用性。

        3 結(jié)論

        用關(guān)聯(lián)挖掘算法對(duì)樣表1中的數(shù)據(jù)計(jì)算的結(jié)果和我們對(duì)相對(duì)應(yīng)的讀者訪談?wù){(diào)查的結(jié)果是高度一致的,由此我們可以得出結(jié)論:在動(dòng)態(tài)行為屬性關(guān)聯(lián)的條件下,關(guān)聯(lián)挖掘算法可以對(duì)圖書館讀者的信息需求類別進(jìn)行劃分,且這種劃分方法更直觀,并且提高了劃分的效率。

        猜你喜歡
        關(guān)聯(lián)聚類領(lǐng)域
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        基于DBSACN聚類算法的XML文檔聚類
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        基于改進(jìn)的遺傳算法的模糊聚類算法
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
        久久国产精品不只是精品| 亚洲精品国产精品乱码视色| 国产精品亚洲片在线观看不卡| 亚洲一本到无码av中文字幕| 亚洲色成人网一二三区| 久久精品国产亚洲av成人无人区| 人妻制服丝袜中文字幕| 国产ww久久久久久久久久| 亚洲精品国产成人AV| 亚洲黄片高清在线观看| 在线观看午夜视频国产| 夜夜揉揉日日人人青青| 免费无码肉片在线观看| 一区二区三区不卡免费av| 精品一级一片内射播放| 中文字幕aⅴ人妻一区二区| 国产美女免费国产| 精品在线视频免费在线观看视频 | 无码精品人妻一区二区三区av | 狂野欧美性猛xxxx乱大交| 99久久国产综合精品麻豆| 国产超碰人人一区二区三区| 日韩一级精品视频免费在线看| 中文字幕亚洲精品无码| 十八岁以下禁止观看黄下载链接 | 国产人妻精品一区二区三区不卡 | 国产精品久久婷婷婷婷| 亚洲性av少妇中文字幕| 色欲av伊人久久大香线蕉影院| 又黄又爽又色又刺激的视频| 久久精品国产亚洲AⅤ无码剧情| 久久亚洲春色中文字幕久久| 内射欧美老妇wbb| 久久青草免费视频| 色综合久久五十路人妻| 粉嫩小泬无遮挡久久久久久| 国产嫖妓一区二区三区无码| 亚洲女同恋中文一区二区| 亚洲午夜福利在线视频| 婷婷色精品一区二区激情| 国产精品一区二区久久毛片|