亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)字資源云服務(wù)推薦系統(tǒng)設(shè)計

        2017-09-01 15:54:43張龍昌張洪銳
        計算機技術(shù)與發(fā)展 2017年8期
        關(guān)鍵詞:滿意度資源用戶

        張龍昌,張洪銳

        (渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121000)

        數(shù)字資源云服務(wù)推薦系統(tǒng)設(shè)計

        張龍昌,張洪銳

        (渤海大學(xué) 信息科學(xué)與技術(shù)學(xué)院,遼寧 錦州 121000)

        隨著云計算技術(shù)在數(shù)字資源整合中的應(yīng)用越來越廣泛,云服務(wù)推薦系統(tǒng)的用戶數(shù)據(jù)集呈現(xiàn)指數(shù)級增長的趨勢,因而對于數(shù)字資源云服務(wù)的使用者來說,從海量的數(shù)字資源中找到自己真正感興趣的云服務(wù)變得愈加困難,亦即出現(xiàn)了“信息超載”的問題。為了解決“信息超載”問題,設(shè)計并實現(xiàn)了數(shù)字資源云服務(wù)推薦系統(tǒng)。該系統(tǒng)可快速發(fā)現(xiàn)滿意度最高的云服務(wù)并推薦給目標(biāo)用戶,提高了大數(shù)據(jù)環(huán)境下的推薦速度。同時,為了提高數(shù)字資源云服務(wù)的推薦命中率,所構(gòu)建的推薦系統(tǒng)采用改進(jìn)的協(xié)同過濾算法,向云服務(wù)使用者(待推薦的目標(biāo)用戶)推薦具有相似興趣行為用戶訪問過的滿意度高的云服務(wù)。實驗結(jié)果表明,數(shù)字資源云服務(wù)推薦系統(tǒng)可以提高推薦速度,準(zhǔn)確地向用戶推薦滿意度高的數(shù)字資源云服務(wù),能夠快速提升用戶體驗。

        數(shù)字資源云服務(wù);信息超載;推薦系統(tǒng);滿意度

        0 引 言

        數(shù)字資源[1]是文獻(xiàn)信息的表現(xiàn)形式之一,是將計算機技術(shù)、通信技術(shù)及多媒體技術(shù)相互融合而形成的以數(shù)字形式發(fā)布、存取、利用的信息資源總和。商業(yè)化的數(shù)據(jù)庫、機構(gòu)或個人建立的數(shù)據(jù)庫、各種網(wǎng)絡(luò)免費資源等都屬于數(shù)字資源。由于云計算具有資源分配動態(tài)化、需求服務(wù)自助化、網(wǎng)絡(luò)訪問便捷化、服務(wù)可計量化、資源虛擬化以及具有可共享及可大幅度降低成本的特點,受到國內(nèi)外研究者的高度關(guān)注。其中數(shù)字圖書館應(yīng)用云計算技術(shù)實現(xiàn)資源整合最為突出[2]。隨著云計算技術(shù)的發(fā)展與應(yīng)用,國內(nèi)外應(yīng)用云計算技術(shù)的整合大型的提供數(shù)字資源服務(wù)的系統(tǒng)不斷涌現(xiàn)。

        隨著數(shù)字資源云服務(wù)的種類和數(shù)量規(guī)模不斷增加,在給數(shù)字資源使用者帶來便利的同時,也使用戶面對龐大的數(shù)字資源無所適從。針對這種狀況,采用數(shù)字資源云服務(wù)推薦系統(tǒng)是一種有效的解決方案。為此,設(shè)計并實現(xiàn)了數(shù)字資源云服務(wù)推薦系統(tǒng),運用基于R樹的協(xié)同過濾算法查詢top-n個最相似用戶,計算這n個用戶訪問過的數(shù)字資源云服務(wù)的綜合滿意度,向待推薦目標(biāo)用戶推薦滿意度最高的數(shù)字資源云服務(wù)即可。

        1 系統(tǒng)結(jié)構(gòu)

        數(shù)字資源云服務(wù)推薦系統(tǒng)從系統(tǒng)功能角度劃分為五個模塊[3-4](見圖1):Web前端組件模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)存儲模塊、推薦模塊和數(shù)據(jù)更新模塊。Web前端組建模塊主要用于收集用戶的數(shù)據(jù)(包含用戶隱式反饋的興趣行為和顯式反饋的用戶評分);數(shù)據(jù)存儲模塊有文件存儲(日志文件)和數(shù)據(jù)庫等存儲方式管理數(shù)據(jù)[5];數(shù)據(jù)預(yù)處理模塊主要是對用戶隱式反饋的數(shù)據(jù)進(jìn)行清理、去冗余等操作[6];推薦模塊則選用推薦算法向用戶進(jìn)行個性化云服務(wù)推薦[7];數(shù)據(jù)更新模塊是隨著用戶興趣的變化進(jìn)行數(shù)據(jù)更新[8]。

        圖1 推薦系統(tǒng)結(jié)構(gòu)

        隨著云計算技術(shù)的發(fā)展,客戶端等軟件逐漸會被淘汰,SaaS(軟件即服務(wù))越來越多地基于瀏覽器以插件的形式提供云服務(wù)。Web前端組件模塊主要是從瀏覽器及各SaaS服務(wù)供應(yīng)商服務(wù)器中收集用戶數(shù)據(jù),不作介紹,重點介紹其他四個模塊。

        2 數(shù)據(jù)預(yù)處理模塊

        數(shù)據(jù)預(yù)處理工作在Web日志挖掘中具有基石的作用,高效正確的預(yù)處理方法關(guān)乎數(shù)據(jù)挖掘的成敗,基于正確的有意義的歷史數(shù)據(jù)做出的推薦算法才能有效地、正確地推送用戶喜好的服務(wù)[9]。用戶的歷史行為數(shù)據(jù)和用戶評分是研究推薦算法的關(guān)鍵資源,具體分為兩類:顯式反饋和隱式反饋[10]。顯式反饋是用戶對購買、使用的云服務(wù)做出評分等主觀感受反饋,也就是數(shù)字資源云服務(wù)用戶滿意度模型計算所需的預(yù)期值和感知值;隱式反饋則是用戶在瀏覽、購買云服務(wù)時產(chǎn)生的一系列客觀行為,如收藏云服務(wù)、點擊鏈接等,也就是數(shù)據(jù)資源云平臺用戶興趣行為。

        2.1 用戶訪問樹

        數(shù)據(jù)預(yù)處理的一個重要工作是從日志文件中準(zhǔn)確地識別出訪問數(shù)字資源云服務(wù)的用戶,重建用戶會話過程(即用戶在購買使用云服務(wù)進(jìn)行的一系列行為序列),其過程通常包括用戶識別、會話識別、路徑補充等。用戶是指通過一個瀏覽器或者客戶端訪問一個或多個服務(wù)器的個體。由于緩存、代理服務(wù)器和防火墻的使用,導(dǎo)致準(zhǔn)確識別用戶及其事務(wù)很復(fù)雜。目前常用基于日志/站點、拓?fù)浣Y(jié)構(gòu)的辦法進(jìn)行識別,然而如果網(wǎng)站的拓?fù)浣Y(jié)構(gòu)比較復(fù)雜,在根據(jù)拓?fù)浣Y(jié)構(gòu)識別頁與頁之間的關(guān)系時,效率就會降低[11]。故采用了基于用戶訪問樹的用戶識別方法識別用戶及其事務(wù)。

        用戶訪問樹采用孩子鏈表表示法,即用一組連續(xù)的空間來存儲樹上的節(jié)點,同時在每個節(jié)點上附加一個指針指向由其孩子節(jié)點構(gòu)成的單鏈表。這種表示法找孩子節(jié)點比較容易,只要搜索firstChild指針指向的鏈表即可。其類型定義的存儲結(jié)構(gòu)如下:

        typedef struct CTNode

        {int child; //節(jié)點的序號

        struct CTNode *next; //指向同一層的下一個節(jié)點

        }CTNode, *ChildPtr;

        typedef struct

        {TelemType data; //節(jié)點存儲的數(shù)據(jù)類型

        ChildPtr firstChild; //孩子鏈表的頭指針

        }CTBox;

        typedef struct

        {unsigned char *url; //用戶訪問的url鏈接或者是表示頁面或者云服務(wù)唯一的標(biāo)識符

        int *userBehave; //用戶在url產(chǎn)生的興趣行為

        }TelemType;

        typedef struct

        {CTBox nodes[MAX_TREE_SIZE]; //MAX_TREE_SIZE最大節(jié)點數(shù)

        intn; //n為節(jié)點總數(shù)

        }CTree;

        一個頁面可以超鏈接到多個頁面,按照當(dāng)前用戶訪問的順序依次構(gòu)造用戶訪問樹。當(dāng)前用戶訪問一個鏈接(URL),遍歷用戶訪問樹,依據(jù)日志里參考頁的信息,如果樹中有鏈接(oldURL)可以鏈接到URL,那么就將此鏈接的用戶隱式反饋的相關(guān)信息(即為上述存儲結(jié)構(gòu)中的TelemType)存儲到oldURL所在節(jié)點下;如果樹中沒有鏈接可以鏈接到URL,那么就重新產(chǎn)生一棵新樹。

        2.2 數(shù)據(jù)預(yù)處理流程

        數(shù)據(jù)預(yù)處理通常分為數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約四步。由于一個用戶的興趣隨著時間可能發(fā)生改變,所以用戶識別、會話識別對于數(shù)據(jù)更新維護、保持?jǐn)?shù)據(jù)的時效性尤為重要。因此,在數(shù)據(jù)預(yù)處理流程中,用戶識別、會話識別和事務(wù)識別同樣必不可少。下面依次按照數(shù)據(jù)預(yù)處理流程(見圖2)對顯式與隱式反饋的數(shù)據(jù)進(jìn)行預(yù)處理操作[12]。

        圖2 數(shù)據(jù)預(yù)處理流程

        (1)數(shù)據(jù)清理。

        數(shù)據(jù)清理主要包括遺漏數(shù)據(jù)填補、噪聲數(shù)據(jù)處理、剔除無用數(shù)據(jù)等。

        遺漏數(shù)據(jù)填補:簡單的處理方式一般有采用默認(rèn)值、平均值等對遺漏數(shù)據(jù)進(jìn)行填補。但是這種方法可能會影響數(shù)據(jù)挖掘的效果。另外,復(fù)雜一點的方法是通過回歸分析、貝葉斯方法或決策樹推斷最可能的值,這類方法充分利用歷史數(shù)據(jù),做到有理有據(jù),因而效果最好,但復(fù)雜性較大。通常數(shù)據(jù)量比較大時,遺漏數(shù)據(jù)缺失值較多,通常也可以采用刪除此條記錄的方式進(jìn)行處理,這樣處理往往簡單有效。

        噪聲數(shù)據(jù)處理:噪聲是指收集變量信息時的隨機錯誤或誤差,包括錯誤的值或者偏離期望的鼓勵點。通常采用的技術(shù)包括分箱方法、聚類、回歸方法。

        剔除無用數(shù)據(jù):Web日志挖掘中,日志文件存儲著各式各樣的文件,例如gif、jpg等圖片文件與需要收集的變量值無關(guān)時,需要剔除這些文件,統(tǒng)一整理出新的文件內(nèi)容。

        (2)用戶識別。

        如何區(qū)分是否為同一個用戶?如果沒有登錄賬戶的話,不同的ip肯定不能算作同一個用戶,相同的ip,不同的用戶代理agent也不屬于同一個用戶。那么相同的ip和相同的agent就一定屬于同一個用戶嗎?也不一定。用戶訪問樹就用于劃分不同的用戶,因為一個用戶當(dāng)前可能停留在某一個鏈接上,然后,點擊百度推送內(nèi)容中進(jìn)入另一個鏈接,這兩個鏈接之間沒有任何關(guān)系,那么暫時就把它們劃分為不同的用戶。這樣做是為了保持用戶訪問樹較小的原子性,有助于以后數(shù)據(jù)更好地關(guān)聯(lián)。

        (3)會話識別。

        按照用戶訪問樹的構(gòu)造,一棵用戶訪問樹對應(yīng)一個用戶訪問過的鏈接請求等信息。當(dāng)這棵用戶訪問樹上頁面請求的時間跨度比較大時,超過一定的閾值,有可能就是一個用戶多次訪問的同一個云服務(wù)應(yīng)用或網(wǎng)站,這時,就可以識別同一個用戶訪問同一個服務(wù)的多次會話信息,并且清楚地知道最新訪問的信息記錄。能夠區(qū)分出最新的用戶反饋信息,在數(shù)據(jù)更新模塊起著至關(guān)重要的作用。

        (4)事務(wù)識別。

        數(shù)據(jù)預(yù)處理中的事務(wù),通常指的是頁面及其表示的集合。按照Web使用記錄挖掘任務(wù)來看,頁面分兩種類型:內(nèi)容頁與導(dǎo)航頁。內(nèi)容頁是用戶需求的信息所在的頁面;導(dǎo)航頁是用于指導(dǎo)用戶搜索信息的頁面。根據(jù)挖掘任務(wù)的不同,事務(wù)可以表示為一個頁,也可以表示為一系列頁的序列[13]。

        用戶訪問樹記錄了任一個用戶每一次會話的事務(wù),所以事務(wù)識別不再是問題。只要確定某一個用戶的用戶訪問樹,按照時間閾值識別會話,就可以獲取想要的事務(wù)。用戶訪問樹中每個節(jié)點記錄的不僅僅是云服務(wù)應(yīng)用的標(biāo)識或URL,還有一些附屬信息,即用戶興趣行為信息。

        事務(wù)識別在所設(shè)計開發(fā)的推薦系統(tǒng)模型中的意義和承擔(dān)的工作遠(yuǎn)不止于此。推薦系統(tǒng)結(jié)構(gòu)中采集用戶信息模塊是Web前端組件模塊,共分為兩部分,一部分是隱式信息采集,也就是用戶訪問樹中記錄的信息集,通過事務(wù)識別,構(gòu)建用戶興趣行為的數(shù)據(jù)模型;另一部分則是用戶顯式信息采集,也就是采集、計算獲取用戶滿意度的工作也在事務(wù)識別時做,主要把獲取到的用戶滿意度集成到數(shù)據(jù)存儲模塊。事務(wù)識別部分是區(qū)分用戶、會話和事務(wù)的最清晰明了的地方,也是顯式反饋和隱式反饋信息處理最方便的地方。用戶興趣行為數(shù)據(jù)和用戶滿意度在事務(wù)識別過程中同步處理。

        (5)數(shù)據(jù)集成。

        數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲,建立數(shù)據(jù)倉庫的過程實際上就是數(shù)據(jù)集成。其實,從用戶識別到事務(wù)識別這個過程也是數(shù)據(jù)集成的過程,另外還包括Web日志文件集成,是把瀏覽器、客戶端和服務(wù)器上的緩存、日志等文件進(jìn)行數(shù)據(jù)集成。

        (6)數(shù)據(jù)變換。

        通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式,將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。這一點對于基于距離的挖掘算法特別重要。

        下面介紹一種數(shù)據(jù)變換的形式:設(shè)Y=(y)m×n為m個用戶表現(xiàn)的n種興趣行為的決策矩陣,yij表示第i個用戶的第j種行為的數(shù)據(jù)采集值。令Z=(z)m×n為進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化后的矩陣,同理,zij表示第i個用戶的第j個行為的數(shù)據(jù)標(biāo)準(zhǔn)化后的值。Y=(y)m×n轉(zhuǎn)化成Z=(z)m×n如下所示:

        (1)

        (7)數(shù)據(jù)規(guī)約。

        一般意義上的數(shù)據(jù)規(guī)約是由于數(shù)據(jù)量非常大,進(jìn)行數(shù)據(jù)挖掘時需要耗費很長的時間,嚴(yán)重影響了時間性能,所以應(yīng)用一些數(shù)據(jù)規(guī)約技術(shù)得到數(shù)據(jù)集的規(guī)約表示,大大縮小了數(shù)據(jù)量,這部分?jǐn)?shù)據(jù)仍然保持著原數(shù)據(jù)的完整性。采用基于R樹的協(xié)同過濾算法(R_CF),R樹是以用戶之間的相似度進(jìn)行構(gòu)造,通過這種索引結(jié)構(gòu),可以大大縮減數(shù)據(jù)集進(jìn)行協(xié)同過濾計算,大大提高時間性能,和數(shù)據(jù)規(guī)約有相同的目的和效果。

        3 數(shù)據(jù)存儲模塊

        數(shù)據(jù)存儲模塊主要有文件存儲和數(shù)據(jù)庫存儲,文件存儲主要是從服務(wù)器端、客戶端和瀏覽器收集的原始數(shù)據(jù)集,以文件形式存儲,和通常的Web日志存儲格式基本相同。主要描述一下數(shù)據(jù)庫存儲及其存儲數(shù)據(jù)的必不可少的幾張表的設(shè)計及索引方面的工作。

        3.1 Oracle Spatial空間索引

        Oracle Spatial是Oracle的空間數(shù)據(jù)操作開發(fā)包,用來存儲、管理、查詢空間數(shù)據(jù),提供了一套SQL方案和函數(shù),用來存儲、檢索、更新和查詢數(shù)據(jù)庫中的空間要素集合[14]。主要由幾何數(shù)據(jù)類型,空間索引機制,一套操作函數(shù),管理工具組成。Oracle支持自定義的數(shù)據(jù)類型,可以用數(shù)組、結(jié)構(gòu)體或帶有構(gòu)造函數(shù)、功能函數(shù)的類來定義自己的對象類型。這樣的對象類型能用于屬性列的數(shù)據(jù)類型,也能用來創(chuàng)建對象表。而Oracle Spatial也正是基于該特性研發(fā)的一套空間數(shù)據(jù)處理系統(tǒng)。下面是空間索引的相關(guān)語法:

        (1)空間索引的創(chuàng)建。

        create index on ();

        Indextype is mdsys.spatial_index;

        為了在表的字段上創(chuàng)建空間索引,應(yīng)當(dāng)始終指定INDEXTYPE為mdsys.spatial_index??臻g索引表存儲在SDO_INDEX_TABLE字段中,總是以MDRT開頭。

        (2)空間索引的參數(shù)。

        create index on ();

        Indextype is mdsys.spatial_index;

        parameters('PARAMETER_STRING');

        PARAMETER_STRING參數(shù)可以設(shè)置的變量主要有六個,分別為tablespace、work_tablespace、layer_gtype、sdo_index_dims、sdo_dml_batch_size和sdo_level。

        tablespace用于指定哪個表空間來存儲空間索引表。例如,parameters('TABLESPACE=gmapdata')是指定gmapdata表空間來存儲索引表。

        work_tablespace用于指定工作表空間。在索引創(chuàng)建過程中,R-tree索引會在整個數(shù)據(jù)集上執(zhí)行排序操作,因此會產(chǎn)生一些工作表。不過這些工作表在索引創(chuàng)建過程結(jié)束時會被刪除,會產(chǎn)生很多表空間碎片。設(shè)置work_tablespace參數(shù),使其指定一個單獨的表空間,就可以避免這種情況的發(fā)生。

        layer_gtype指定了索引列的幾何數(shù)據(jù)為特定類型的幾何體,有助于加快查詢操作符的執(zhí)行速度。

        sdo_index_dims指定空間索引維數(shù),默認(rèn)為2。

        sdo_dml_batch_size用于指定一個事務(wù)中批量插入/刪除/更新時的批量大小(對有大量插入的事務(wù),該參數(shù)應(yīng)設(shè)為5 000或10 000)。默認(rèn)為1 000。

        sdo_level用于指定是創(chuàng)建R-tree索引還是四叉樹索引。默認(rèn)是R-tree。

        基于Oracle Spatial就可以實現(xiàn)對多維空間的用戶興趣行為數(shù)據(jù)集的存儲。其中,每一個云服務(wù)的所有用戶隱式的反饋用戶興趣行為集建立一棵R-tree索引,基于R樹的協(xié)同過濾推薦算法就可以通過R-tree索引結(jié)構(gòu)找到top-n個相似度最高的用戶,然后根據(jù)這top-n個用戶訪問其他數(shù)字資源云服務(wù)的用戶滿意度,選擇最滿意的云服務(wù)向用戶推薦。

        3.2 數(shù)據(jù)庫表設(shè)計

        數(shù)據(jù)庫表包括用戶信息表(User)、云服務(wù)信息表(CloudService)、用戶滿意度表(UserSatisfaction)、用戶興趣行為信息表(UserInterestBehave)。用戶信息表是用戶通常的基本信息,這里主要對其他三張表的結(jié)構(gòu)及關(guān)聯(lián)關(guān)系進(jìn)行描述。

        (1)云服務(wù)信息表。

        該表內(nèi)的數(shù)據(jù)是數(shù)字資源云平臺提供的云服務(wù)的信息列表,表名為CloudService。ID同樣也是順序自動生成。主要信息如表1所示。

        (2)用戶滿意度表。

        該表主要存儲用戶對數(shù)字資源云平臺提供的云服務(wù)的滿意度的信息,表名為UserSatisfaction。用戶對訪問、購買或者使用過的數(shù)字資源云服務(wù)進(jìn)行主觀評分后,獲取用戶滿意度。此部分工作是在數(shù)據(jù)預(yù)處理模塊(2.2節(jié)中的事務(wù)識別)完成。表結(jié)構(gòu)見表2。其中,USER_BEHAVE_ID是用戶興趣行為表的id,用戶滿意度表是由USER_BEHAVE_ID字段進(jìn)行空間索引的,該字段關(guān)聯(lián)的是用戶興趣行為表(UserInterestBehave)的主鍵。

        (3)用戶興趣行為表。

        該表表名為UserInterestBehave,用來收集記錄用戶興趣行為的信息,如收藏標(biāo)簽、刪除標(biāo)簽和點擊鏈接等操作。經(jīng)過數(shù)據(jù)預(yù)處理后,這幾個行為動作構(gòu)成一個空間向量,此表就存儲用戶的這些行為空間向量。為簡單處理,只列出如下三個維度,如表3所示。

        表1 云服務(wù)信息表結(jié)構(gòu)

        表2 用戶滿意度表結(jié)構(gòu)

        表3 用戶興趣行為表結(jié)構(gòu)

        4 推薦模塊

        推薦模塊是推薦系統(tǒng)的核心部分,主要功能就是運用不同的推薦算法推送有效滿足用戶需求的云服務(wù)。該部分主要采用基于R樹的協(xié)同過濾算法(R_CF)實現(xiàn)推薦,包括前面的數(shù)據(jù)預(yù)處理和數(shù)據(jù)庫存儲結(jié)構(gòu)的設(shè)計等一系列工作也是為了算法更好的實現(xiàn)。R_CF算法只是獲取和目標(biāo)用戶相似度最高的top-n個用戶。下面描述了如何向目標(biāo)用戶推送云服務(wù)。

        推薦引擎,是主動發(fā)現(xiàn)用戶當(dāng)前或潛在的需求,并主動推送信息給用戶的信息網(wǎng)絡(luò)。其主要功能是挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。推薦引擎有助于選擇哪種推薦算法或者推薦策略?;赗_CF算法,可以快速查找到top-n個最相似用戶。下面列出兩種向目標(biāo)用戶推薦數(shù)字資源云服務(wù)的策略:

        (2)

        (2)有可能n個用戶共訪問過的m個云服務(wù),用戶都沒有進(jìn)行評分,所以無法獲取用戶滿意度,也就是n個用戶可能恰好都是非注冊用戶,那么所有云服務(wù)cloudm都為0,使用步驟(1)中的方法就無法進(jìn)一步篩選出用戶最喜好的云服務(wù)了,此時,可以推送m個云服務(wù)中用戶數(shù)最多的那個云服務(wù)。

        5 數(shù)據(jù)更新模塊

        隨著云計算技術(shù)在數(shù)字資源的發(fā)展與應(yīng)用,各種系統(tǒng)、服務(wù)器等資源的整合使得數(shù)據(jù)量急劇上升。傳統(tǒng)的大數(shù)據(jù)更新方式是夜間離線進(jìn)行,白天推薦系統(tǒng)分析的數(shù)據(jù)是前一天的數(shù)據(jù),晚上用戶量急劇減少后,再進(jìn)行批量離線大數(shù)據(jù)更新。這樣使得數(shù)據(jù)分析和數(shù)據(jù)更新分時地訪問數(shù)據(jù)倉庫系統(tǒng),隔離了相互影響。夜間離線更新在數(shù)據(jù)時效性方面存在巨大缺陷,云計算技術(shù)的發(fā)展,數(shù)字資源的應(yīng)用不僅僅局限于中國。例如,國外的文獻(xiàn)檢索等數(shù)字資源越來越廣泛地應(yīng)用于高校師生,中國白天是美國夜間,美國夜間又是中國白天,這種時段的劃分又難以分得清楚,可見,離線更新不符合當(dāng)前大數(shù)據(jù)業(yè)務(wù)處理的需求[15]。

        在線更新數(shù)據(jù)必然降低了數(shù)據(jù)查詢的效率,數(shù)據(jù)查詢對在線更新操作也會造成一定的阻力,兩者之間的相互影響限制了數(shù)據(jù)在線更新的發(fā)展。為了降低兩者相互間的影響,圖3展示了一種數(shù)據(jù)在線更新的設(shè)計思路[16]。

        圖3 數(shù)據(jù)在線更新

        圖3中,內(nèi)存、緩存區(qū)、磁盤、文件和固態(tài)硬盤可以存儲數(shù)據(jù)。內(nèi)存大部分還是要用于數(shù)據(jù)分析處理,小部分緩存區(qū)用于緩存需要更新的數(shù)據(jù),磁盤主要還是存儲主數(shù)據(jù),日志文件是數(shù)據(jù)分析的原數(shù)據(jù),而固態(tài)硬盤是分擔(dān)緩存區(qū)來不及向內(nèi)存更新的數(shù)據(jù)。固態(tài)硬盤具有良好的讀性能,可以降低在線更新對查詢操作的影響。固態(tài)硬盤的容量只需要是硬盤容量的1%即可,節(jié)省成本[17]。

        服務(wù)器的日志文件記錄了用戶終端傳遞過來的最新的用戶興趣行為數(shù)據(jù),日志文件經(jīng)預(yù)處理后生成待更新的記錄,待更新的記錄都包含需要更新的數(shù)據(jù)記錄的主鍵、操作(插入/修改/刪除)以及具體的更新數(shù)值(插入的值/修改后的新值),新注冊用戶的用戶興趣行為等記錄主鍵自動生成。如圖3所示,待更新數(shù)據(jù)首先存放在緩沖區(qū),緩沖區(qū)的數(shù)據(jù)和磁盤查詢出來的主數(shù)據(jù)采用歸并算法合并數(shù)據(jù),供上層推薦算法分析處理;如果緩沖區(qū)已滿,就將待更新數(shù)據(jù)暫時存儲至固態(tài)硬盤;如果固態(tài)硬盤將滿或者超過設(shè)定的閾值時,就將固態(tài)硬盤里的數(shù)據(jù)采用現(xiàn)有的歸并機制進(jìn)行合并回寫到磁盤主數(shù)據(jù),并清除固態(tài)硬盤數(shù)據(jù)。

        持久化存儲區(qū)加入了固態(tài)硬盤協(xié)助數(shù)據(jù)更新,不僅利用其高效的讀寫能力加快查詢、更新操作,而且還承擔(dān)了緩沖區(qū)的一部分工作,從而節(jié)省出內(nèi)存區(qū)供推薦算法分析處理,從歷史數(shù)據(jù)層面上有助于提高云服務(wù)推薦的效率和準(zhǔn)確率。

        6 結(jié)束語

        為了解決“信息過載”問題,設(shè)計并實現(xiàn)了數(shù)字資源云服務(wù)推薦系統(tǒng)。該系統(tǒng)主要包括“數(shù)據(jù)預(yù)處理”、“數(shù)據(jù)存儲”、“推薦算法”和“數(shù)據(jù)更新”四個模塊。系統(tǒng)通過數(shù)據(jù)預(yù)處理模塊對原始數(shù)據(jù)進(jìn)行處理,建立用戶興趣行為模型;采用改進(jìn)的協(xié)同過濾算法向目標(biāo)用戶推薦數(shù)字資源云服務(wù)。數(shù)字資源云服務(wù)推薦系統(tǒng)可以提高推薦速度,準(zhǔn)確地向用戶推薦滿意度高的數(shù)字資源云服務(wù),能夠快速提升用戶體驗,有效解決“信息過載”問題。

        [1] 吳小清.廣東高職院校圖書館數(shù)字資源建設(shè)現(xiàn)狀與共建共享研究[J].資治文摘:管理版,2010(2):165-166.

        [2] 胡新平.云圖書館構(gòu)想[J].情報理論與實踐,2010,33(6):29-32.

        [3] Oh J,Kim S,Kim J,et al.When to recommend:a new issue on TV show recommendation[J].Information Sciences,2014,280:261-274.

        [4] Sheng J,Liu S.A knowledge recommend system based on user model[J].International Journal of Digital Content Technology & Its Applications,2010,4(9):168-173.

        [5] 周玲元,段隆振.個性化圖書推薦系統(tǒng)設(shè)計與實現(xiàn)—以南昌航空大學(xué)圖書館為例[J].圖書館理論與實踐,2014(12):106-109.

        [6] 鐘克吟.基于標(biāo)簽與協(xié)同過濾算法的學(xué)術(shù)資源推薦系統(tǒng)的構(gòu)建[J].圖書館理論與實踐,2014(9):80-82.

        [7] 張 瑤,陳維斌,傅順開.基于大數(shù)據(jù)的高校圖書館推薦系統(tǒng)仿真研究[J].計算機工程與設(shè)計,2013,34(7):2533-2541.

        [8] 孟祥武,紀(jì)威宇,張玉潔.大數(shù)據(jù)環(huán)境下的推薦系統(tǒng)[J].北京郵電大學(xué)學(xué)報,2015,38(2):1-15.

        [9] 童恒慶,梅 清.Web日志挖掘數(shù)據(jù)預(yù)處理研究[J].現(xiàn)代計算機:下半月版,2004(3):6-9.

        [10] 印 鑒,王智圣,李 琪,等.基于大規(guī)模隱式反饋的個性化推薦[J].軟件學(xué)報,2014,25(9):1953-1966.

        [11] 劉加伶,范 軍.基于用戶訪問樹的Web日志挖掘數(shù)據(jù)預(yù)處理[J].計算機科學(xué),2009,36(9):154-156.

        [12] 李 燕,馮博琴,魯曉鋒.Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)[J].計算機工程,2009,35(22):44-46.

        [13] 胡秦斌,李廣原.Web使用記錄挖掘前的事務(wù)識別方法[J].廣西師范學(xué)院學(xué)報:自然科學(xué)版,2007,24(4):97-99.

        [14] 閆 斌.基于分布式的空間數(shù)據(jù)庫引擎設(shè)計與實踐[D].成都:電子科技大學(xué),2011.

        [15] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計算機研究與發(fā)展,2015,52(2):333-342.

        [16] Athanassoulis M,Chen S,Ailamaki A,et al.Online updates on data warehouses via judicious use of solid-state storage[J].ACM Transactions on Database Systems,2015,40(1):1-42.

        [17] Gupta R.System to recommend related search queries:EP,EP2701080[P].2014.

        Design of Recommender System with Cloud Services of Digital Resource

        ZHANG Long-chang,ZHANG Hong-rui

        (College of Information Science and Technology,Bohai University,Jinzhou 121000,China)

        As cloud computing technology has been widely used for integrating digital resources,user data set of recommender system of cloud service shows the tendency of exponential growth.Therefore,it is difficult for users of cloud services with digital resource to find their interested cloud services from the huge amounts of digital resources,especially producing the problem of information overload.In order to solve problem of information overload,a recommender system with cloud services of digital resource is designed and implemented,which can quickly find cloud services with the highest satisfaction for target users and improve recommendatory speed in large data environment.Meanwhile,in order to improve hit rate in the process of recommending cloud services with digital resources,the recommendation system has employed improved collaborative filtering algorithm to recommend the favorite cloud services the users with similar interest accessed for target users.The experimental results show that recommender system with cloud services of digital resource has improved the recommendatory speed,and accurately recommended the user cloud services of digital resource with high satisfaction,which has lifted the user experience.

        digital resource cloud services;information overload;recommender system;satisfaction

        2016-05-22

        2016-08-25 網(wǎng)絡(luò)出版時間:2017-07-05

        教育部人文社會科學(xué)研究青年基金(15YJC870028);遼寧省教育科學(xué)技術(shù)研究一般項目(L2014451);遼寧省自然科學(xué)基金(2015020009);遼寧省社會科學(xué)規(guī)劃基金(L15BTQ002)

        張龍昌(1977-),男,博士,研究方向為服務(wù)計算、云計算、物聯(lián)網(wǎng);張洪銳(1989-),男,碩士研究生,研究方向為服務(wù)計算、云計算、物聯(lián)網(wǎng)。

        http://kns.cnki.net/kcms/detail/61.1450.TP.20170705.1649.014.html

        TP302

        A

        1673-629X(2017)08-0139-06

        10.3969/j.issn.1673-629X.2017.08.029

        猜你喜歡
        滿意度資源用戶
        多感謝,生活滿意度高
        工會博覽(2023年3期)2023-04-06 15:52:34
        基礎(chǔ)教育資源展示
        16城市公共服務(wù)滿意度排行
        小康(2021年7期)2021-03-15 05:29:03
        一樣的資源,不一樣的收獲
        淺談如何提升脫貧攻堅滿意度
        活力(2019年19期)2020-01-06 07:34:38
        明天村里調(diào)查滿意度
        雜文月刊(2019年15期)2019-09-26 00:53:54
        資源回收
        資源再生 歡迎訂閱
        資源再生(2017年3期)2017-06-01 12:20:59
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        黑人玩弄极品人妻系列视频| 亚洲成人中文| 九九99国产精品视频| 极品少妇在线观看视频| 成人国产激情自拍视频| 99久久精品费精品国产一区二| av人摸人人人澡人人超碰小说| 亚洲国产成人资源在线桃色| 亚洲码专区亚洲码专区| 野花香社区在线视频观看播放| 无码av免费一区二区三区试看 | 午夜一区二区三区在线观看| 国产精品成人亚洲一区| 久久精品麻豆日日躁夜夜躁| 在线免费观看韩国a视频| 日产精品一区二区在线| 精品国内日本一区二区| 国产精成人品日日拍夜夜免费| 国产午夜福利精品| 国产精品亚洲av无人区一区蜜桃| 色大全全免费网站久久| 怡红院免费的全部视频| 亚洲AV无码久久精品成人| 丰满少妇av一区二区三区| 久久久久亚洲av成人片| 国产精品福利视频一区| 国产一区二区三区国产精品| 国产精品伦理久久一区| 手机福利视频| 久久99国产亚洲高清观看韩国| 毛片av中文字幕一区二区| 久久无码一一区| 日韩精品成人一区二区三区| 2021亚洲国产精品无码| 无码国产色欲xxxxx视频| 国产成人久久精品77777综合| 91一区二区三区在线观看视频 | 国自产偷精品不卡在线| 国产一区二区三区国产精品| 久久精品国产免费一区二区三区| 人妻少妇偷人精品无码|