吳俊華
(桐鄉(xiāng)市傳媒中心,浙江 桐鄉(xiāng) 314500)
隨著信息技術(shù)及互聯(lián)網(wǎng)的飛速發(fā)展,新媒體資訊需求不斷提升,很多用戶不僅要瀏覽資訊,還希望平臺能直接推薦資訊。如何收集這些信息,如何快速有效地將用戶真實需要的信息展示出來,是目前搜索引擎和爬蟲收集系統(tǒng)迫切需要解決的問題。這需要構(gòu)建一個實時、精準(zhǔn)、全方位的新媒體資訊平臺。
移動新媒體正以越來越快的速度增長,用戶對個性化推薦的需求比以往任何時候都大。隨著移動互聯(lián)網(wǎng)的興起,越來越多的用戶接入互聯(lián)網(wǎng),可以收集到大量的信息。對于新媒體資訊的推薦,可以通過在新媒體對象到達(dá)時通知用戶來完成初步推薦。通知服務(wù)的運(yùn)行機(jī)制為:對于傳入的新聞資訊對象,手動將相應(yīng)的描述附加到媒體對象,如頻道、標(biāo)題和作者,用戶需要在新媒體平臺指定自己的喜好,系統(tǒng)將用戶的喜好與媒體對象的描述進(jìn)行比較,如果匹配,系統(tǒng)會將匹配的媒體對象發(fā)送給感興趣的用戶[1]。
本文以新媒體內(nèi)容資訊推薦為例,探討個性化推薦和云計算如何應(yīng)用于新媒體資訊。
本文提供一種通過訂閱關(guān)鍵詞實現(xiàn)針對移動互聯(lián)網(wǎng)用戶的個性化的搜索結(jié)果推薦系統(tǒng)和方法。用戶可在輸入框中輸入任意關(guān)鍵詞或選擇系統(tǒng)計算出的指定時段最熱門關(guān)鍵詞,系統(tǒng)將使用智能分詞系統(tǒng)分析用戶輸入的關(guān)鍵詞并使用搜索引擎去源信息索引庫中進(jìn)行搜索,結(jié)合用戶所關(guān)注的語義標(biāo)簽特征或領(lǐng)域,按照時間順序進(jìn)行倒序排列展示,并將結(jié)果以多種方式下發(fā)給用戶,真正實現(xiàn)個性化搜索結(jié)果精準(zhǔn)推薦[2]。
系統(tǒng)主要包括內(nèi)容采集模塊、關(guān)鍵詞訂制管理模塊、搜索引擎模塊、排名策略管理模塊、Wap頁面模塊以及發(fā)送模塊。
通過爬蟲服務(wù)器從互聯(lián)網(wǎng)Web網(wǎng)站爬取相關(guān)資源內(nèi)容。爬蟲服務(wù)器定時循環(huán)工作,保持內(nèi)容不斷更新。
關(guān)鍵詞訂制管理模塊的主要功能為:設(shè)置搜索關(guān)鍵詞,設(shè)定關(guān)注欄目,設(shè)置搜索結(jié)果發(fā)送頻率,設(shè)定用戶所關(guān)注的情感、情景及風(fēng)格特征等。用戶根據(jù)自己的需求設(shè)置信息發(fā)送頻率,并將發(fā)送手機(jī)號碼、搜索關(guān)鍵詞及發(fā)送頻次記錄到搜索需求表中[3]。
系統(tǒng)檢索搜索需求表,根據(jù)用戶訂制的關(guān)鍵詞,定期從通過網(wǎng)絡(luò)爬蟲采集的原始內(nèi)容庫中,通過搜索引擎檢索出用戶所需要的內(nèi)容。搜索引擎由一個中心節(jié)點及數(shù)十個檢索節(jié)點組成,每個節(jié)點負(fù)責(zé)檢索不同的分特征內(nèi)容。
搜索引擎接收到搜索任務(wù)后,中心節(jié)點按照檢索節(jié)點語義標(biāo)簽分類表,將需檢索的關(guān)鍵詞分發(fā)給各檢索節(jié)點,完成內(nèi)容檢索,之后中心對檢索結(jié)果根據(jù)語義標(biāo)簽進(jìn)行合并,得到最新的搜索結(jié)果。例如,用戶設(shè)定了關(guān)鍵詞“運(yùn)動”,系統(tǒng)根據(jù)發(fā)送頻率定期觸發(fā)搜索引擎,檢索出“運(yùn)動”相關(guān)類型的音樂,并將搜索結(jié)果傳給排名策略模塊。
系統(tǒng)通過搜索引擎搜到關(guān)于該關(guān)鍵詞的最新內(nèi)容后,排名策略管理模塊根據(jù)用戶的個人信息判斷用戶的偏好,對搜索結(jié)果根據(jù)排名策略重新進(jìn)行排序,將用戶關(guān)注度高的信息內(nèi)容排在前面。例如,用戶設(shè)定的關(guān)鍵詞是“運(yùn)動”,通過對用戶的識別,對用戶身份、年齡進(jìn)行判斷,主動給用戶展示用戶需要的資訊,引導(dǎo)用戶瀏覽網(wǎng)站上的內(nèi)容[4]。
系統(tǒng)獲得搜索結(jié)果和排名策略后,調(diào)用Wap頁面管理模板,自動將搜索結(jié)果依據(jù)排名策略組合生成Wap頁面,并保存到Wap網(wǎng)站服務(wù)器上;將該關(guān)鍵詞搜索結(jié)果的Wap頁面URL鏈接、標(biāo)題欄、手機(jī)號碼等信息在Wap Push發(fā)送表中插入一條新的記錄。
發(fā)送模塊自動輪詢Push發(fā)送表,若發(fā)現(xiàn)有新的未發(fā)送記錄,則立即將搜索結(jié)果通過Push的方式發(fā)送到用戶的手機(jī)上;發(fā)送成功后,修改為已發(fā)送狀態(tài)。
移動新媒體資訊推薦系統(tǒng)(MRS)是一個提供基于新聞資訊數(shù)據(jù)分組和用戶興趣的推薦服務(wù)平臺。MRS數(shù)據(jù)庫中的新聞對象以及傳入的新聞對象都是媒體推薦的候選對象。該系統(tǒng)由7個功能塊組成,即track選擇器、特征提取器、分類器、配置文件管理器、推薦模塊、接口以及數(shù)據(jù)庫。當(dāng)一個新的媒體對象被插入到MRS的數(shù)據(jù)庫時,會經(jīng)過軌道選擇器和特征提取器兩個功能塊。根據(jù)提取的特征,分類器功能塊將傳入的媒體對象正確分配到某個媒體組[5]。
基于內(nèi)容的協(xié)同過濾方法,目的是推薦用戶最近感興趣的內(nèi)容組的媒體對象。為了捕捉用戶最近的興趣,系統(tǒng)分析最近的交易訪問歷史。在以下示例中,為簡單起見,本系統(tǒng)僅使用最近的5個事務(wù)。
每筆交易都分配了不同的權(quán)重,其中最新的交易權(quán)重最高。此外,交易中包含更多訪問媒體對象的內(nèi)容組比同一交易中的其他組具有更高的權(quán)重。內(nèi)容組Gi的權(quán)重GWi計算如下:
式中:TWj是交易Tj的權(quán)重;n是用于分析的最新交易數(shù);MOj,i是交易Tj中屬于內(nèi)容組Gi的媒體對象數(shù)量。
這些權(quán)重將記錄在用戶的偏好表中。在計算每個內(nèi)容組的權(quán)重后,MRS對所有內(nèi)容組進(jìn)行排名。權(quán)重較大的內(nèi)容組具有較高的推薦優(yōu)先級。為了避免向用戶推薦大量的媒體對象,MRS限制了推薦的媒體對象的數(shù)量。根據(jù)GWi將推薦來自內(nèi)容組的不同數(shù)量的媒體對象。每個內(nèi)容組的媒體對象Ri的數(shù)量決定如下:
式中:N是推薦列表中媒體對象的數(shù)量;GWi是目標(biāo)群體的權(quán)重;M是MRS中內(nèi)容組的總數(shù)。
對于內(nèi)容組Gi,選擇用戶尚未訪問的最新Ri媒體對象。在推薦列表中,媒體對象將按照相應(yīng)的組權(quán)重降序排列。在同一個內(nèi)容組中,會優(yōu)先推薦最新的媒體對象。
系統(tǒng)通過爬蟲技術(shù)主動對已發(fā)現(xiàn)網(wǎng)頁進(jìn)行內(nèi)容檢索。該技術(shù)類似谷歌、百度等搜索引擎采用的爬蟲技術(shù),可高效檢索網(wǎng)站所有頁面,不留死角,同時通過自動化智能填表、模擬Https客戶端等技術(shù)實現(xiàn)對論壇、Https類網(wǎng)站的相關(guān)媒體信息抓取。網(wǎng)絡(luò)爬蟲系統(tǒng)主要是從網(wǎng)絡(luò)上抓取各種類型的網(wǎng)頁,包括靜態(tài)或動態(tài)、結(jié)構(gòu)化或非結(jié)構(gòu)化的網(wǎng)頁,并提供過濾、更新及噪音去重等功能。
云平臺部署包括服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備以及管理設(shè)備等部分,存儲網(wǎng)、虛擬網(wǎng)及管理網(wǎng)相互獨立。
服務(wù)器上安裝虛擬化軟件XenServer,虛擬化管理軟件采用XenCenter,網(wǎng)絡(luò)部署架構(gòu)如圖1所示。
圖1 云平臺部署架構(gòu)
數(shù)據(jù)庫服務(wù)用于承載音樂智能搜索系統(tǒng)部署的硬件環(huán)境,具備用戶信息存儲、計費結(jié)帳、信息交互及數(shù)據(jù)容災(zāi)等核心功能。
數(shù)據(jù)庫服務(wù)器配置3臺小型機(jī),采用異地容災(zāi)機(jī)制,確保平臺可靠穩(wěn)定。
生產(chǎn)庫存儲采用磁盤陣列和FC網(wǎng)絡(luò),保證關(guān)鍵事務(wù)型業(yè)務(wù)的數(shù)據(jù)庫讀寫性能和高性能數(shù)據(jù)分析。
Oracle數(shù)據(jù)庫軟件為用戶系統(tǒng)數(shù)據(jù)庫應(yīng)用部署包括小型機(jī)資源池組成的生產(chǎn)庫,向下傳輸?shù)紽C交換機(jī)并進(jìn)一步進(jìn)行備份存儲和生產(chǎn)存儲。
私有云主要實現(xiàn)數(shù)據(jù)倉庫及其他非生產(chǎn)數(shù)據(jù)庫建設(shè)、完成與生產(chǎn)數(shù)據(jù)庫數(shù)據(jù)交互等功能。涉及1套私有云組件、5臺物理存儲設(shè)備以及1套三級等保測評服務(wù)。
移動互聯(lián)網(wǎng)搜索并不是搜索結(jié)果越多越好,而是需在有限的屏幕內(nèi)展現(xiàn)用戶想要的部分內(nèi)容,注重使用簡約化和查詢實效性。移動互聯(lián)網(wǎng)搜索可通過個性化的垂直搜索或通過設(shè)定個性化搜索標(biāo)簽,設(shè)定搜索范圍,提供更為準(zhǔn)確的搜索結(jié)果。
本文以新媒體信息的資訊推薦為例,提出了基于云計算和搜索技術(shù)的媒體內(nèi)容推薦系統(tǒng)的設(shè)計與實現(xiàn),基于用戶的協(xié)同過濾推薦算法,為大數(shù)據(jù)背景下的媒體內(nèi)容的設(shè)計提供了參考。