吳燕 鐘永美 韓飛
摘 要 本文分析了基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)研究現(xiàn)狀,以及這種大數(shù)據(jù)庫中的數(shù)據(jù)挖掘的推薦引擎帶來的效果并分析其擁有的優(yōu)勢與劣勢,并得出結論。
關鍵詞 數(shù)據(jù)挖掘 推薦引擎系統(tǒng) 數(shù)據(jù)分析
一、基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的現(xiàn)狀
(一)推薦引擎系統(tǒng)的現(xiàn)狀
我們處于一個信息密集的時代,如果只是依靠簡單的計算與處理,需要花費大量的人力和時間,無法從海量信息中選擇對自己有用的信息。所以為了能夠在海量信息中提供符合用戶需要、感興趣的信息便產(chǎn)生了推薦引擎系統(tǒng)。相對于普通搜索引擎系統(tǒng),推薦引擎系統(tǒng)更加貼近用戶需求。
這項技術貼近人們生活的應該是購物平臺和一些訊息推送平臺,如淘寶、天貓、京東等,它們的購物首頁推送的物品往往是用戶剛剛搜索過的或者是搜索數(shù)量最多的,這些推送無疑會吸引用戶的注意力,從而增加銷售量。這些平臺的高明之處是通過傳輸數(shù)據(jù)使其他平臺也會出現(xiàn)為用戶量身定做的產(chǎn)品信息,使用戶隨時隨地都可以看見與產(chǎn)品的有關信息。
而一些訊息推送平臺如今日頭條,向用戶推送的新聞往往也是用戶比較感興趣的。這是后臺通過顯性信息和隱性信息綜合推算以此增加與用戶貼合性較高的推送量的結果。顯性信息是通過用戶填寫個人信息,對于文章的收藏、訂閱、留言等,以及手機問卷調(diào)查和用戶體驗形式收集數(shù)據(jù);隱形信息是用戶搜索的內(nèi)容、搜索的次數(shù)、點擊率、瀏覽時間的長短等。
(二)數(shù)據(jù)挖掘的現(xiàn)狀
數(shù)據(jù)庫與信息技術從20世紀60年代開始,從原始的文件走向復雜化,到80年代產(chǎn)生了數(shù)據(jù)挖掘的概念。經(jīng)過幾十年的發(fā)展,這項技術不斷完善和升級,數(shù)據(jù)挖掘是面向對象方法、數(shù)據(jù)庫技術、人工智能、高性能計算、信息檢索等多個技術領域相交的一門學科。
數(shù)據(jù)挖掘技術廣泛運用于各個領域,尤其是運用于發(fā)達國家金融行業(yè)預測銀行客戶的需求以及一些大型網(wǎng)站如亞馬遜、沃爾瑪?shù)?。我國的?shù)據(jù)挖掘技術并不像西方那么發(fā)達,正處于起步階段,普及這門技術任重而道遠。
二、對運用數(shù)據(jù)挖掘的推薦引擎系統(tǒng)特性的研究
(一)此類推薦引擎系統(tǒng)共同具有的特性
基于前文的分析,可得出此類推薦引擎系統(tǒng)共同具有的特性如下:
數(shù)據(jù)收集與分析產(chǎn)生的差異性是數(shù)據(jù)挖掘技術的特點,不同的用戶之間存在的個體差異導致個人信息的差異化,包括但不限于興趣愛好、年齡、收入階層、職業(yè)等。這些差異決定了用戶對信息的感興趣程度不同,因此差異性是其首要特征。
個性化是此類推薦引擎系統(tǒng)具有的鮮明的特性,也是運用數(shù)據(jù)挖掘技術進行信息推薦的必然結果。此類推薦引擎系統(tǒng)的運行原理主要是通過收集用戶的主動表達和個人信息,基于此推薦信息,將用戶的反饋作為參考,為用戶推薦個性化的信息。在當前時代背景下,這類推薦引擎系統(tǒng)的優(yōu)勢在于能夠幫助用戶便捷地獲取自己需要的和感興趣的信息。
(二)此類推薦引擎系統(tǒng)面臨的挑戰(zhàn)
雖然基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的運用日漸廣泛,但作為大數(shù)據(jù)時代誕生的一項技術,其必然還存在一些問題。經(jīng)過分析,發(fā)現(xiàn)此類推薦引擎系統(tǒng)目前面臨如下挑戰(zhàn):
推薦信息的精準度還存在不足,這是比較突出的一個問題。由于數(shù)據(jù)挖掘需要大量的用戶數(shù)據(jù)作為基礎,就很容易形成在用戶剛開始使用時,由于信息不夠完善,反饋不夠多,推薦的信息精確度較低的問題,這可能使用戶對系統(tǒng)的推薦功能失去信心。另外,用戶的興趣具有廣泛性,在收集用戶信息時集中于一兩點,可能忽略了其他興趣點,后續(xù)如果沒有補充完善,就可能造成信息整體準確度比較低。
如何在精確度和廣泛性之間取得平衡是一個必須思考的問題。同一時間段,用戶的喜好是相對固定的,但如果一味推送固定的內(nèi)容,則容易讓人產(chǎn)生審美疲勞,這會使用戶失去興趣。而推薦新的信息,則意味著需要承擔推薦的精確度下降的風險。如何在二者之間取得平衡,也是此類推薦引擎系統(tǒng)目前面臨的挑戰(zhàn)。
還有一個客觀存在的問題是如何防止惡意信息對正常數(shù)據(jù)的影響,即如何保持數(shù)據(jù)的純潔性。當前營銷手段多種多樣,出于利益的驅動,難免存在惡意破壞數(shù)據(jù)的行為,如給某一部電影或商品刷差評或惡意舉報等。如何抵御這些異常數(shù)據(jù)也是下一步需要優(yōu)化的問題。
三、結語
隨著信息時代的到來,基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)應運而生。通過分析基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)的現(xiàn)狀,我們可知,此類推薦引擎系統(tǒng)具有差異性和個性化兩個特點。同時,其面臨著一系列的挑戰(zhàn)。要確保推薦信息的準確度和數(shù)據(jù)的純潔性,需要相關的研發(fā)團隊及編程人員收集更加精細化的數(shù)據(jù),并深入分析數(shù)據(jù)。如何在精確度和廣泛性之間找到平衡點,仍需繼續(xù)探索??傊?,在當前環(huán)境下,基于數(shù)據(jù)挖掘的推薦引擎系統(tǒng)正面臨前所未有的機遇和挑戰(zhàn)。希望本文的分析能為其發(fā)展提供一些參考價值。
(作者單位為廣東東軟學院)
[作者簡介:吳燕(1996—),女,廣東東軟學院商務管理系財務管理專業(yè)本科生。鐘永美(1996—),女,廣東東軟學院商務管理系財務管理專業(yè)本科生。韓飛(1969—),男,博士,廣東東軟學院副研究員,研究方向:金融學。基金項目:本文系廣東省教育廳(粵教高函[2017]56號)2017年省級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃立項項目“自動閱讀機”(項目編號:2017-12574-006)資助。]
參考文獻
[1] 范明.數(shù)據(jù)挖掘概念與技術[M].機械工業(yè)出版社,2006.
[2] 盧亮.搜索引擎原理、時間與應用[M].電子工業(yè)出版社,2007.
[3] 廖貴明.個性化推薦引擎系統(tǒng)研究[D].電子科技大學,2013.