亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于概念格的數(shù)字圖書館用戶知識(shí)序列模式挖掘研究

        2019-04-25 06:22:50鄭州工業(yè)應(yīng)用技術(shù)學(xué)院圖書館
        圖書館理論與實(shí)踐 2019年3期
        關(guān)鍵詞:項(xiàng)集檢索閾值

        宇 婷(鄭州工業(yè)應(yīng)用技術(shù)學(xué)院圖書館)

        1 引言

        隨著網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)的發(fā)展,圖書館的發(fā)展也是日漸提高,目前,用戶對(duì)于圖書館的檢索要求更高,迫切的需要一個(gè)智能化的檢索系統(tǒng),滿足用戶快速檢索到自己需要的圖書內(nèi)容,而數(shù)字化的圖書館檢索系統(tǒng),就可以滿足用戶對(duì)于智能檢索的要求,這種控制系統(tǒng)也是目前圖書館智能化發(fā)展的中心。[1]在現(xiàn)代圖書情報(bào)學(xué),研究數(shù)字圖書館日漸變的重要,基于多學(xué)科技術(shù)和理論的支撐,數(shù)字圖書館的研究獲得一定的發(fā)展空間。[2]在數(shù)字圖書館用戶服務(wù)建設(shè)中,關(guān)于序列模式挖掘的研究則比較少,原因是因?yàn)橥诰蚬ぷ饕騻鹘y(tǒng)序列模式挖掘活動(dòng)時(shí)間因素變的非常復(fù)雜。[3-5]在現(xiàn)實(shí)生活中,序列模式對(duì)用戶能夠快速的查找到自己所需的圖書具有指導(dǎo)意義。[6]本文基于概念格的數(shù)字圖書館,對(duì)用戶知識(shí)序列模式挖掘進(jìn)行了研究,目的是基于數(shù)字圖書館用戶檢索行為中的挖掘序列模式,對(duì)數(shù)字圖書館用戶服務(wù)進(jìn)行完善和改進(jìn)。

        2 關(guān)聯(lián)規(guī)則挖掘技術(shù)路線

        圖1 用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘系統(tǒng)流程圖

        圖1 為以概念格為基礎(chǔ)的用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘的流程圖,這幅圖的工作原理就在于,智能數(shù)字化的圖書檢索系統(tǒng)能夠?qū)τ脩舻倪x擇進(jìn)行預(yù)判,以及對(duì)用戶曾經(jīng)輸入的信息進(jìn)行記憶,當(dāng)用戶再次需要進(jìn)入系統(tǒng)進(jìn)行圖書查閱時(shí),其立刻快速的滿足用戶需要。系統(tǒng)核心部分為可變階段,在進(jìn)行挖掘時(shí),若獲得的規(guī)則無實(shí)際意義,則對(duì)置信度閾值和支持度進(jìn)行調(diào)整,重新在原格結(jié)構(gòu)基礎(chǔ)上提取。若得到的規(guī)則具有實(shí)際意義,則這個(gè)規(guī)則能夠?qū)τ脩舻男枨筮M(jìn)行準(zhǔn)確判斷,幫助用戶獲得其需求成果,如果這個(gè)規(guī)則無法滿足用戶的需要,則對(duì)閾值再次進(jìn)行調(diào)整。

        3 基于挖掘結(jié)果的用戶知識(shí)提取

        在進(jìn)行圖書館用戶系統(tǒng)工作時(shí),主要是將數(shù)字圖書館用戶個(gè)性化服務(wù)水平提高。[7]圖2為置信度閾值為49.21%,支持度閾值為30.50%時(shí)的關(guān)聯(lián)規(guī)則,規(guī)則“j(停留久)=>p(非黑夜模式)”的置信度為65.54%,支持度為49.21%。這表明在數(shù)字圖書館“長(zhǎng)時(shí)間駐留并在白天訪問”中,該節(jié)點(diǎn)為全部用戶的49.21%代表,而占據(jù)大部分比重的,則是白天訪問的用戶以及能夠長(zhǎng)時(shí)間在圖書館逗留的用戶。而在另一個(gè)部分中,規(guī)則“j=>fs(高速接入+PDF文檔+經(jīng)常使用)”具有49.21%的置信度,36.48%的支持度。這表明在使用數(shù)字圖書館時(shí),該節(jié)點(diǎn)代表36.48%的用戶采用“長(zhǎng)時(shí)間駐留+PDF文檔+訪問學(xué)術(shù)信息+經(jīng)常使用+高速接入”用法。在“長(zhǎng)時(shí)間駐留”的用戶中,能夠?qū)D書管理系統(tǒng)綜合利用的用戶特征的用戶比重為49.21%,具體見表1。

        表1 置信度閾值為49.21%,支持度閾值為30.50%時(shí)的關(guān)聯(lián)規(guī)則

        對(duì)更多零散用戶個(gè)性化知識(shí)需求,若認(rèn)為36.48%的用戶份額對(duì)其關(guān)注仍不能充分體現(xiàn),對(duì)于規(guī)則“gj(財(cái)經(jīng)類+長(zhǎng)時(shí)間閱讀)=>dmqx(農(nóng)村IP/速度不佳+晚上進(jìn)入系統(tǒng)+網(wǎng)頁(yè)文件+不太常用)”而言,其置信度為100%,支持度為11.49%。這表明在訪問數(shù)字圖書館過程中,該節(jié)點(diǎn)代表在所有用戶中有11.49%的用戶使用以上所有部分的節(jié)點(diǎn)的可信度是100%。根據(jù)選用實(shí)驗(yàn)數(shù)據(jù)源,處于同一節(jié)點(diǎn)規(guī)則包括eg=>cikmopt、cg=>eikmopt、gk=>ceimopt,置信度均為 100%,支持度為11.49%。例如規(guī)則gk=>ceimopt,該節(jié)點(diǎn)代表在所有用戶中,使用“短時(shí)間停留+查詢財(cái)經(jīng)類圖書+正常利用+地址轉(zhuǎn)換+城市地址+網(wǎng)頁(yè)文件+高端品瀏覽+白天訪問+XLS文檔+中速接入”的用戶比重為11.49%。在城市,這部分用戶大多數(shù)情況下都是處于一種快節(jié)奏得生活方式,首先來說,大部分人白天都處于上班時(shí)間,沒有時(shí)間對(duì)圖書進(jìn)行瀏覽,另外,由于城市地區(qū)的人口眾多,互聯(lián)網(wǎng)比較擁擠,所以實(shí)際的互聯(lián)網(wǎng)傳輸速度較慢,其次,生活在城市地區(qū)的居民,他們都會(huì)注重時(shí)尚的信息,所以綜上所述,得出結(jié)論,具體的情況見表2。

        表2 置信度閾值為100.00%,支持度閾值為10.05%時(shí)的關(guān)聯(lián)規(guī)則

        分析以概念格為基礎(chǔ)的數(shù)字圖書館用戶知識(shí)關(guān)聯(lián)規(guī)則挖掘,對(duì)找出用戶使用方法間的潛在聯(lián)系有益,能夠有效的從用戶的角度去考慮圖書的檢索方式,進(jìn)而會(huì)給用戶一種便捷的體驗(yàn)。[8]在研究中,通過調(diào)整閾值,獲得更多規(guī)則,在規(guī)則通過穩(wěn)定的格結(jié)構(gòu)進(jìn)行提取復(fù)用,對(duì)用戶的圖書利用習(xí)慣進(jìn)行挖掘。[9]

        4 基于概念格的數(shù)字圖書館用戶知識(shí)序列模式挖掘

        4.1 序列模式挖掘形式化描述

        序列模式挖掘是在目前已經(jīng)有的數(shù)據(jù)當(dāng)中,進(jìn)行歸納整理,并找出規(guī)律進(jìn)行排序的過程,通常情況下,是按照優(yōu)先級(jí)進(jìn)行排序。對(duì)于數(shù)字圖書館用戶知識(shí)序列模式挖掘而言,實(shí)質(zhì)上是由用戶檢索系統(tǒng)當(dāng)中的數(shù)據(jù)庫(kù)來確定,數(shù)據(jù)庫(kù)能夠?qū)τ脩舻氖褂们闆r進(jìn)行記錄,當(dāng)用戶對(duì)于某一種圖書的瀏覽次數(shù)較多時(shí),數(shù)據(jù)庫(kù)就會(huì)把其確定為最大值,同時(shí)將所有頻率大于或等于給定支持度閾值的序列即頻繁序列挖掘出。

        項(xiàng)集為非空集合,是用戶信息數(shù)據(jù)庫(kù)DB中由若干個(gè)項(xiàng)組成,記作I=(i1,i2,…,im),其中一個(gè)項(xiàng)用ik(1≤k≤m)表示,表示用戶尋找的一種圖書,k-項(xiàng)集是長(zhǎng)度為k的項(xiàng)集。

        在圖書檢索開始時(shí),用戶向智能系統(tǒng)中,輸入圖書信息,從而達(dá)到檢索的目的,在這期間,圖書檢索系統(tǒng)包括時(shí)間信息,圖書名信息等必要因素。并同時(shí)規(guī)定,當(dāng)一個(gè)用戶在不同時(shí)段搜索同一本圖書或者不同的圖書時(shí),其檢索系統(tǒng)需要判斷為每次檢索都為重新檢索。表3為用戶信息數(shù)據(jù)庫(kù)示例。

        表3 用戶信息數(shù)據(jù)庫(kù)示例

        項(xiàng)集組成的有序表即為序列(Sequence),項(xiàng)集有序排列不同,記為 I= 〈s1,s2,…,sn〉,其中 Sk(1≤k≤n)稱為序列的一個(gè)元素(Element),表示一個(gè)非空項(xiàng)集。在一個(gè)序列中,序列長(zhǎng)度是所包含項(xiàng)目的個(gè)數(shù)。L-序列表示長(zhǎng)度為L(zhǎng)的序列,表4為用戶檢索行為序列。

        表4 用戶檢索行為序列

        給定兩個(gè)序列 A= 〈a1,a2,…,am〉、B= 〈b1,b2,…,bn〉,其中m≤n,假定有一組整數(shù)i1,i2,…,im,可使a1bi1,a2bi2,…,ambim,于是可以表示,在A中包含B的內(nèi)容。如果在S序列中,只有S,并沒有其他的序列,則我們可以認(rèn)為,S序列是整個(gè)序列中最大的。

        如果在一個(gè)圖書檢索系統(tǒng)當(dāng)中,包含了S序列,那么我們就可以認(rèn)定,該用戶檢索的圖書可以用序列S來表示。在指數(shù)據(jù)庫(kù)DB中,支持序列S的用戶數(shù)和用戶總數(shù)之比為序列S支持度。頻繁序列是指支持度比最小支持度大的序列。例如給定最小支持度為36.48%,在表3的數(shù)據(jù)庫(kù)DB中,則可獲得序列模式的5位用戶中,有2位用戶檢索行為序列至少被支持,表5為支持度大于36.48%的序列模式。

        表5 支持度大于36.48%的序列模式

        由表5知,用戶1和用戶3支持序列模式<(e)(m)>。在項(xiàng)e和m間,用戶3對(duì)k進(jìn)行了搜索,在進(jìn)行m項(xiàng)進(jìn)行搜索的同時(shí),不僅僅是只搜索m,該用戶還對(duì)其他兩種項(xiàng)同時(shí)進(jìn)行了搜索,但是這種情況下,仍然支持m項(xiàng),原因是其模式屬于獨(dú)立的狀態(tài)。序列<(e)(k)>、<(e)>、<(e)(k)(s)>、<(k)(ps)> 等可滿足最小支持度,即頻繁。

        4.2 序列模式挖掘主要思想

        在本文中,對(duì)于序列模式的挖掘主要的順序是一種自上而下的過程,通過數(shù)據(jù)庫(kù)投影技術(shù)從而可獲得投影數(shù)據(jù)庫(kù),自上而下進(jìn)行檢索的優(yōu)點(diǎn)就是,當(dāng)用戶進(jìn)行搜索時(shí),其能夠進(jìn)行順序判斷,當(dāng)上層信息無法滿足用戶需求時(shí),自動(dòng)進(jìn)入下層繼續(xù)檢索,這種檢索模式也叫序列檢索模式。上層與下層之間相對(duì)獨(dú)立,但又保持著聯(lián)系。圖2為挖掘思想的拓?fù)浣Y(jié)構(gòu)。

        圖2 挖掘思想的拓?fù)浣Y(jié)構(gòu)

        基于用戶概念的圖書檢索系統(tǒng)檢索步驟可以分為8個(gè)步驟來完成。第一步是用戶輸入相關(guān)的個(gè)人信息,當(dāng)成功登錄系統(tǒng)后,系統(tǒng)會(huì)自動(dòng)生成用戶的數(shù)據(jù)庫(kù),從而使投影數(shù)據(jù)庫(kù)生成。Session時(shí)間和用戶ID是原數(shù)字圖書館用戶知識(shí)行為數(shù)據(jù)庫(kù)的主鍵,在進(jìn)行歸集后,可獲得以用戶ID為主鍵的投影數(shù)據(jù)庫(kù)。第二步是上層概念格通過形式概念分析(FCA)進(jìn)行構(gòu)建,將投影數(shù)據(jù)庫(kù)作為形式背景。第三步是在上層概念格中,通過設(shè)定的支持度閾值對(duì)上層頻繁項(xiàng)集進(jìn)行提取。第四步是在用戶已經(jīng)有的數(shù)據(jù)庫(kù)當(dāng)中,進(jìn)行新的數(shù)據(jù)加入,也就是增加新的圖書內(nèi)容,通過形式概念分析(FCA)進(jìn)行下層概念格的構(gòu)建。第五步是在下層概念格中,對(duì)滿足最小支持度閾值要求的下層頻繁項(xiàng)集進(jìn)行提取。第六步是在提取的下層概念格中,通過下層頻繁項(xiàng)集將下層概念格最大頻繁序列求出。第七步是重復(fù)第四、五、六步,直至第三步是對(duì)各上層頻繁項(xiàng)集數(shù)字圖書館用戶的檢索行為,逐一進(jìn)行下層概念格的建立,并對(duì)每個(gè)下層概念格最大頻繁序列進(jìn)行提取。最后一步就是對(duì)所有的數(shù)據(jù)進(jìn)行重新的歸納和梳理,分析用戶最常閱讀的圖書,將其作為序列的最大值進(jìn)行排放,下次檢索時(shí),直接在最上層。

        4.3 用戶知識(shí)序列模式挖掘

        數(shù)字化的圖書檢索系統(tǒng),其運(yùn)用的是用戶的數(shù)據(jù)庫(kù)相關(guān)理論,DB為一個(gè)三元組K=(U,D,R),所有檢索對(duì)象集合用D表示,所有檢索行為集合用U表示,D和U之間也是具有相關(guān)性的,這種相關(guān)性利用R表示。通過這種方法,使數(shù)據(jù)的排序變得更加有序,有序這種方法屬于挖掘數(shù)據(jù)的模式,所以,只采用單純的1-排序方法并無實(shí)際意義。在BD數(shù)據(jù)庫(kù)里,它可以根據(jù)用戶的ID判斷用戶的需求,這樣可大幅壓縮得到的投影數(shù)據(jù)庫(kù)規(guī)模。表6為用戶信息數(shù)據(jù)庫(kù)投影庫(kù)的形式背景。

        表6 用戶信息數(shù)據(jù)庫(kù)投影庫(kù)的形式背景

        通過表6,可誘導(dǎo)出上層概念格Hasse圖,具體見圖3。

        圖3 上層概念格Hasse圖

        由圖3知,在設(shè)定支持度閾值為36.48%時(shí),可獲得長(zhǎng)度大于或等于 2的上層集,分別為 (eh)、(ekmps)、(em)、(kps),依照詞庫(kù)的相關(guān)規(guī)定進(jìn)行排序工作。1-項(xiàng)集(e)可滿足最小支持度閾值,在進(jìn)行排序工作時(shí),可以發(fā)現(xiàn),1-型序列在實(shí)際當(dāng)中并沒有準(zhǔn)確的進(jìn)行應(yīng)用,所以我們可以把這部分進(jìn)行排除。當(dāng)排除上述因素之后,下一步就可以對(duì)下層的概念進(jìn)行建模。上層頻繁項(xiàng)集(ekmps)外延集合包含用戶3、5的檢索行為,表7為其形式背景。

        通過表7,可誘導(dǎo)出下層概念格Hasse圖,具體見圖4。

        表7 用戶3、5檢索行的形式背景

        圖4 下層概念格Hasse圖

        在支持度閾值為36.48%時(shí),可獲得下層頻繁項(xiàng)集(m)、(ps)、(k)、(e)。由圖 4知,在下層概念格中,根據(jù)各下層頻繁項(xiàng)集用戶的檢索狀況進(jìn)行排序,排序的依據(jù)就是以時(shí)間作為標(biāo)準(zhǔn),從前往后的進(jìn)行排序,排序拋除掉1的部分,對(duì)于長(zhǎng)度大于2的部分,按順序進(jìn)行列舉。因此處外延集所包含的用戶檢索行為只針對(duì)上層頻繁項(xiàng)集(ekmps),對(duì)于原始用戶信息數(shù)據(jù)庫(kù)無須遍歷。針對(duì)上層頻繁項(xiàng)集(kps)、(eh)、(em)的用戶檢索順序,進(jìn)行下層概念的建模工作,建模結(jié)束后,就對(duì)相關(guān)的順序進(jìn)行排序工作。利用上層對(duì)應(yīng)下層的方法,可以得出用戶1和用戶3的序列<(e)(m)>。在對(duì)用戶系統(tǒng)進(jìn)行全面檢索中,<(e)(k)(ps)> 的子序列包括序列 <(k)(s)>、<(k)(p)> 是序列,所以需要拋除掉,進(jìn)而就可以得出正確的圖書檢索序列為 <(e)(m)>、<(e)(k)(ps)>。

        5 序列模式挖掘的討論

        對(duì)于挖掘效果而言,在提取頻繁項(xiàng)集方面,概念格具有其他的挖掘方式所不具有的優(yōu)點(diǎn),他屬于一種新型挖掘模式,與傳統(tǒng)的挖掘方法存在著顯著的不同,這種方法提取的頻繁項(xiàng)集數(shù)據(jù)源能更精準(zhǔn)的滿足閾值要求,從而使挖掘工作感知有用性得到提高。[10]通過概念格迭代,對(duì)概念格提取頻繁項(xiàng)集進(jìn)行多次反復(fù)使用,以概念格為工具,最大限度使用概念格復(fù)用性,這種挖掘方法充分的考慮到了用戶的因素,使用戶在進(jìn)行圖書檢索工作時(shí),大大節(jié)省了圖書檢索時(shí)間。其優(yōu)秀的圖書檢索系統(tǒng),能夠從系統(tǒng)方面去考慮優(yōu)化用戶的檢索體驗(yàn),進(jìn)而能夠?yàn)榻ㄔO(shè)數(shù)字化、智能化的圖書館提供強(qiáng)大的技術(shù)動(dòng)力。

        6 結(jié)論

        本文基于概念格的數(shù)字圖書館,對(duì)用戶知識(shí)序列模式挖掘進(jìn)行了研究,目的是基于數(shù)字圖書館用戶檢索行為中的挖掘序列模式,對(duì)數(shù)字圖書館用戶服務(wù)進(jìn)行完善和改進(jìn),得出以下結(jié)論:

        (1)通過挖掘基于概念格的數(shù)字圖書館用戶知識(shí)關(guān)聯(lián)規(guī)則,從用戶角度分析了數(shù)字圖書館知識(shí)組織,本文從概念格方面對(duì)基于挖掘數(shù)據(jù)的方法對(duì)圖書進(jìn)行檢索系統(tǒng),一定程度上,優(yōu)化了用戶的檢索體驗(yàn)。

        (2)通過自頂向下概念格迭代在對(duì)用戶檢索模式進(jìn)行挖掘工作時(shí),只需要采用一次挖掘的方法,就能夠?qū)崿F(xiàn)準(zhǔn)確的用戶定位,無需進(jìn)行多次挖掘,從而使挖掘時(shí)間大幅壓縮,獲得的挖掘效果良好。

        猜你喜歡
        項(xiàng)集檢索閾值
        小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
        2019年第4-6期便捷檢索目錄
        基于自適應(yīng)閾值和連通域的隧道裂縫提取
        比值遙感蝕變信息提取及閾值確定(插圖)
        河北遙感(2017年2期)2017-08-07 14:49:00
        室內(nèi)表面平均氡析出率閾值探討
        專利檢索中“語(yǔ)義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        一種新的改進(jìn)Apriori算法*
        國(guó)際標(biāo)準(zhǔn)檢索
        婷婷色在线视频中文字幕| 国产久视频| 国内精品久久久久久久久蜜桃| 亚洲嫩模一区二区三区视频| 一区二区亚洲精美视频| 91九色极品探花内射| 亚洲全国最大的人成网站| 日韩亚洲无吗av一区二区| 中文精品久久久久人妻不卡| 人人爽人人澡人人人妻| 成在人线av无码免费| 色综合久久久久综合999| 日韩丝袜人妻中文字幕| 黄色精品一区二区三区| 揄拍成人国产精品视频| 免费人妻精品一区二区三区| 女人做爰高潮呻吟17分钟| 国产小屁孩cao大人| 成人综合亚洲国产成人| 青青青爽在线视频免费播放| 丰满少妇弄高潮了www| 九九99无码精品视频在线观看| 精品亚洲一区二区99| 一区二区亚洲熟女偷拍| 亚洲综合日韩精品一区二区| 麻豆av一区二区三区| 国产性一交一乱一伦一色一情| 午夜亚洲AV成人无码国产| 二区三区亚洲精品国产| av黄页网国产精品大全| 精品国产一区二区三区av性色 | 无码国产亚洲日韩国精品视频一区二区三区 | 亚洲av之男人的天堂网站| 一本一本久久a久久精品| 欧美亚洲国产精品久久久久| 久久成人永久婷婷99精品| 日韩午夜理论免费tv影院| 在线播放免费播放av片| 国内精品大秀视频日韩精品| 青青草免费在线视频导航| 97超碰国产成人在线|