亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)環(huán)境下個(gè)性化推薦系統(tǒng)的研究和應(yīng)用

        2019-02-17 03:05:40
        關(guān)鍵詞:監(jiān)督用戶系統(tǒng)

        李 艷

        (蘭州財(cái)經(jīng)大學(xué) 長(zhǎng)青學(xué)院,蘭州 730000)

        1 大數(shù)據(jù)與推薦系統(tǒng)

        1.1 大數(shù)據(jù)的發(fā)展

        近年來,互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能等技術(shù)的迅猛發(fā)展和廣泛應(yīng)用導(dǎo)致全球網(wǎng)絡(luò)數(shù)據(jù)爆炸性地增長(zhǎng)。一方面推動(dòng)了全球政治、經(jīng)濟(jì)、文化和科技等方面的信息交流和資源共享;另一方面也引發(fā)了“信息過載”問題。據(jù)伙伴產(chǎn)業(yè)研究院(PAISI)研究統(tǒng)計(jì),2018年全球數(shù)據(jù)總量達(dá)19.4ZB,并且未來幾年全球數(shù)據(jù)的增長(zhǎng)速度在每年25%以上,到2020年,全球數(shù)據(jù)總量將達(dá)到30ZB。數(shù)據(jù)量的急劇增長(zhǎng)為人們?nèi)婧蜕钊氲乩斫鈫栴}提供了更多的可能性。面對(duì)如此紛繁復(fù)雜的網(wǎng)絡(luò)大數(shù)據(jù),如何從中獲取到有價(jià)值的數(shù)據(jù)成了人們新的困擾。20世紀(jì)中期,人們開始了關(guān)于數(shù)據(jù)處理技術(shù)的研究和應(yīng)用,例如數(shù)據(jù)分析和數(shù)據(jù)挖掘技術(shù)。但是隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,積累的數(shù)據(jù)量不斷增長(zhǎng),急需更有效的方法應(yīng)對(duì)數(shù)據(jù)處理中的新問題。近年來,人工智能和機(jī)器學(xué)習(xí)技術(shù)成了海量數(shù)據(jù)處理不可或缺的助力。

        1.2 個(gè)性化推薦系統(tǒng)的發(fā)展

        個(gè)性化推薦系統(tǒng)是互聯(lián)網(wǎng)大數(shù)據(jù)和海量數(shù)據(jù)處理技術(shù)相結(jié)合的應(yīng)用最廣泛的領(lǐng)域之一,也是解決“信息過載”問題的重要手段。該系統(tǒng)應(yīng)用的最為人熟知的領(lǐng)域非亞馬遜莫屬。亞馬遜公司的推薦引擎負(fù)責(zé)為瀏覽亞馬遜網(wǎng)站的用戶提供個(gè)性化的內(nèi)容。據(jù)統(tǒng)計(jì)由亞馬遜推薦系統(tǒng)所賣出的商品每秒達(dá)72.9件,推薦的轉(zhuǎn)化率高達(dá)60%,推薦系統(tǒng)對(duì)亞馬遜銷售額的貢獻(xiàn)率達(dá)30%。推薦系統(tǒng)的發(fā)源,要追溯到20世紀(jì)90年代,1992年Xerox公司為了解決信息負(fù)載的問題,第一次提出協(xié)同過濾算法,同時(shí)Goldberg等人將協(xié)同過濾算法引入了內(nèi)部新聞組文檔推薦系統(tǒng)Tapestry,此后又陸續(xù)推出了Ringo系統(tǒng)對(duì)音樂進(jìn)行協(xié)同過濾推薦,以及貝爾視頻推薦系統(tǒng)用于電影推薦[1]。直到1997年,推薦系統(tǒng)這一概念才被第一次提出[2]。90年代末,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,推薦系統(tǒng)被廣泛應(yīng)用到了電子商務(wù)領(lǐng)域,1998年亞馬遜將基于物品的協(xié)同過濾算法應(yīng)用到圖書推薦中,2003年Google將推薦技術(shù)應(yīng)用到了AdWards廣告服務(wù)中,通過分析用戶搜索的關(guān)鍵詞和用戶近期的搜索歷史記錄了解用戶的喜好和需求,從而更精準(zhǔn)地為用戶呈現(xiàn)個(gè)性化的廣告內(nèi)容。2006年,美國(guó)一家提供在線視頻流媒體服務(wù)和DVD租賃業(yè)務(wù)的公司Nexflix啟動(dòng)了Netflix Prize,這是一個(gè)有關(guān)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的比賽,他們公開了其網(wǎng)站中的一部分真實(shí)數(shù)據(jù)供參賽者使用[3],旨在解決電影評(píng)分預(yù)測(cè)問題,以此發(fā)現(xiàn)更好的方法來向用戶推薦影視產(chǎn)品。Netflix Prize競(jìng)賽中提出了很多有效的算法,同時(shí)推動(dòng)了學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)推薦算法的研究。最近幾年,隨著社會(huì)化網(wǎng)絡(luò)的發(fā)展,推薦系統(tǒng)在各行業(yè)廣泛應(yīng)用并且取得了顯著進(jìn)步。除了傳統(tǒng)的電子商務(wù)網(wǎng)站,如Amazon和淘寶網(wǎng)的電子商務(wù)推薦系統(tǒng)之外,還包括Youtube的視頻推薦系統(tǒng)、網(wǎng)易音樂推薦系統(tǒng)、Facebook和Twitter的好友推薦系統(tǒng)。經(jīng)過近二十年的發(fā)展,個(gè)性化推薦系統(tǒng)不僅在應(yīng)用領(lǐng)域上得到了迅速擴(kuò)張,而且還結(jié)合目前的網(wǎng)絡(luò)大數(shù)據(jù)環(huán)境和機(jī)器學(xué)習(xí)算法在應(yīng)用深度上有了長(zhǎng)足進(jìn)步[4]。

        2 機(jī)器學(xué)習(xí)算法的分類和發(fā)展

        近年來,“人工智能”這一概念得到了廣泛的關(guān)注,同時(shí)“機(jī)器學(xué)習(xí)”一詞也深入人心,它是人工智能研究中所使用的主要方法。這種方法的核心目的是使機(jī)器能從大量數(shù)據(jù)中尋找學(xué)習(xí)規(guī)律,并將獲得的學(xué)習(xí)規(guī)律應(yīng)用到其他的同類數(shù)據(jù)中。因此,近年來這一方法也被應(yīng)用到了個(gè)性化推薦系統(tǒng)的研究中。目前,應(yīng)用在個(gè)性化推薦系統(tǒng)中的機(jī)器學(xué)習(xí)算法主要有以下幾類:

        (1)有監(jiān)督的學(xué)習(xí)(Supervised Learning)

        有監(jiān)督的學(xué)習(xí)主要是用來建立預(yù)測(cè)模型。所謂的預(yù)測(cè)模型是指利用數(shù)據(jù)集中的其他數(shù)值來預(yù)測(cè)另一個(gè)值,因此有監(jiān)督的學(xué)習(xí)所需要的數(shù)據(jù)由兩部分構(gòu)成:一部分是用于訓(xùn)練推薦系統(tǒng)的特征(feature)數(shù)據(jù)集;另一部分是標(biāo)簽(label)數(shù)據(jù)集,通過機(jī)器學(xué)習(xí)方法尋找特征和標(biāo)簽之間的聯(lián)系,然后將其應(yīng)用在只有特征而沒有標(biāo)簽數(shù)據(jù)的數(shù)據(jù)集上,發(fā)現(xiàn)并建立特征與待預(yù)測(cè)的目標(biāo)特征(待預(yù)測(cè)標(biāo)簽)之間的關(guān)系。這種算法就如同訓(xùn)練計(jì)算機(jī)學(xué)習(xí)如何做練習(xí)題,在計(jì)算機(jī)學(xué)會(huì)完成那些沒有答案的練習(xí)題之前,先在有正確答案的練習(xí)題上進(jìn)行學(xué)習(xí),這里練習(xí)題就是特征數(shù)據(jù)集,答案就是標(biāo)簽數(shù)據(jù)集。計(jì)算機(jī)在這樣的數(shù)據(jù)集上自行建立題目含義、題目已知條件以及其他特征與答案之間的關(guān)系,然后將所學(xué)應(yīng)用到其他題目上。在有監(jiān)督的學(xué)習(xí)中,“監(jiān)督”一詞并不是指人為干預(yù),而是用標(biāo)簽數(shù)據(jù)集來?yè)?dān)任監(jiān)督的角色,讓它來控制學(xué)習(xí)的效果。此外,雖然有監(jiān)督的學(xué)習(xí)是用來建立預(yù)測(cè)模型的,但是這里的“預(yù)測(cè)”并不一定只預(yù)測(cè)未來,也可以用來“預(yù)測(cè)”過去的事情。有監(jiān)督的學(xué)習(xí)常用的算法包括:進(jìn)行分類的最近鄰、樸素貝葉斯和決策樹算法;進(jìn)行數(shù)值預(yù)測(cè)的線性回歸、回歸樹和模型樹算法;既可以分類又可以進(jìn)行數(shù)值預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)算法等。

        (2)無監(jiān)督的學(xué)習(xí)(Unsupervised Learning)

        與有監(jiān)督的學(xué)習(xí)相對(duì)應(yīng)的便是無監(jiān)督的學(xué)習(xí),它主要用來建立描述型模型。在無監(jiān)督的學(xué)習(xí)中,只有特征數(shù)據(jù)集,沒有標(biāo)簽數(shù)據(jù)集,因此訓(xùn)練或?qū)W習(xí)這類數(shù)據(jù)時(shí),計(jì)算機(jī)無法準(zhǔn)確地知道哪些特征或特征組合能代表或者能反映哪些標(biāo)簽,只能憑借算法自身的解析能力和計(jì)算機(jī)強(qiáng)大的計(jì)算能力來分析這些數(shù)據(jù)特征,從而演算出一定的代表結(jié)果的標(biāo)簽數(shù)據(jù)集。這類算法的主要目標(biāo)就是從不包含標(biāo)簽的數(shù)據(jù)中,由計(jì)算機(jī)依據(jù)數(shù)據(jù)的屬性的相似性對(duì)數(shù)據(jù)進(jìn)行聚類或者關(guān)聯(lián)分析。無監(jiān)督的學(xué)習(xí)中,具有代表性的兩個(gè)算法分別是關(guān)聯(lián)規(guī)則和K-means聚類算法,前者的主要任務(wù)是進(jìn)行模式識(shí)別,后者的主要任務(wù)就是聚類。模式識(shí)別用來描述數(shù)據(jù)之間聯(lián)系的緊密型。例如,典型的購(gòu)物籃分析問題便是通過關(guān)聯(lián)規(guī)則來識(shí)別那些經(jīng)常在一個(gè)訂單中被一起購(gòu)買的商品。其中,最著名的案例便是啤酒-尿不濕的關(guān)聯(lián),即通過關(guān)聯(lián)規(guī)則,商場(chǎng)發(fā)現(xiàn)啤酒和尿不濕是經(jīng)常會(huì)被消費(fèi)者購(gòu)買的商品,因此商家就將這兩個(gè)商品擺放在一起銷售,或者將兩者進(jìn)行捆綁做促銷,這樣便可以提高銷售量。不難發(fā)現(xiàn),關(guān)聯(lián)規(guī)則這種無監(jiān)督學(xué)習(xí)幫助商場(chǎng)改進(jìn)了其銷售策略。聚類用來將數(shù)據(jù)集按照相同類型進(jìn)行分組,當(dāng)無法利用標(biāo)簽對(duì)某個(gè)數(shù)據(jù)集進(jìn)行分類的時(shí)候,聚類算法就是用來應(yīng)對(duì)這類問題最好的方法。雖然計(jì)算機(jī)可以利用聚類算法對(duì)數(shù)據(jù)進(jìn)行分類,但是由于缺乏標(biāo)簽,分類的結(jié)果還需人工根據(jù)數(shù)據(jù)集的特征進(jìn)行解釋。

        (3)半監(jiān)督的學(xué)習(xí)(Semi-Supervised Learning)

        處在監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之間的便是半監(jiān)督的學(xué)習(xí)。在半監(jiān)督的學(xué)習(xí)中,用于訓(xùn)練計(jì)算機(jī)的數(shù)據(jù),有一部分是有標(biāo)簽的;另一部分是沒有標(biāo)簽的。沒有標(biāo)簽的數(shù)據(jù)的數(shù)量往往遠(yuǎn)遠(yuǎn)大于有標(biāo)簽的數(shù)據(jù)數(shù)量。半監(jiān)督的學(xué)習(xí)的基本原理:首先從無標(biāo)簽的數(shù)據(jù)入手,利用聚類等無監(jiān)督的學(xué)習(xí)算法創(chuàng)建分類標(biāo)簽;然后應(yīng)用一個(gè)有監(jiān)督的學(xué)習(xí)算法(例如決策樹)來尋找這些類中最重要的預(yù)測(cè)目標(biāo)。由于用于學(xué)習(xí)的數(shù)據(jù)集的分布并非完全隨機(jī),因此通過一些有標(biāo)簽的數(shù)據(jù)的局部特征和更多沒有標(biāo)簽的數(shù)據(jù)的整體分布,就可以獲得較好的分類結(jié)果。相比于有監(jiān)督的學(xué)習(xí),半監(jiān)督學(xué)習(xí)可以在相對(duì)低的成本下達(dá)到較高的準(zhǔn)確度。近幾年來半監(jiān)督學(xué)習(xí)得到了很好的應(yīng)用和發(fā)展。

        (4)強(qiáng)化學(xué)習(xí)(Reinforcement Learning)

        強(qiáng)化學(xué)習(xí)又被稱為再勵(lì)學(xué)習(xí)或評(píng)價(jià)學(xué)習(xí),是一種非常重要的機(jī)器學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)使用的是無標(biāo)簽數(shù)據(jù),它通過特征數(shù)據(jù)集與周圍環(huán)境的交互來不斷逼近正確的結(jié)果,當(dāng)然在這個(gè)過程中,學(xué)習(xí)的結(jié)果也有可能遠(yuǎn)離正確的結(jié)果,那么如何去判斷學(xué)習(xí)的結(jié)果與正確答案之間的距離是越來越近還是越來越遠(yuǎn)呢,這就需要用到獎(jiǎng)懲函數(shù)(reward function)。當(dāng)計(jì)算機(jī)面對(duì)無標(biāo)簽數(shù)據(jù)時(shí),先根據(jù)現(xiàn)有的特征得到一種結(jié)果;然后依據(jù)獎(jiǎng)懲函數(shù)來反饋該結(jié)果是對(duì)還是錯(cuò),并指導(dǎo)計(jì)算機(jī)對(duì)學(xué)習(xí)過程進(jìn)行調(diào)整;最后經(jīng)過多次嘗試和調(diào)整,計(jì)算機(jī)就可以學(xué)習(xí)到利用什么樣的特征數(shù)據(jù),在什么樣的條件下可以獲得最好的結(jié)果。強(qiáng)化學(xué)習(xí)目前面臨的最困難的問題就是延遲獎(jiǎng)勵(lì),即在計(jì)算機(jī)獲得好的結(jié)果之前需要完成大量探索工作,才能得到一個(gè)延遲的反饋。與有監(jiān)督的學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)面對(duì)的學(xué)習(xí)過程總是處在動(dòng)態(tài)變化之中,因?yàn)槠渥鞒龅拿恳粋€(gè)決定,獲得的每一個(gè)結(jié)果都會(huì)影響到下一次學(xué)習(xí)過程中數(shù)據(jù)的輸入內(nèi)容和方式。而在有監(jiān)督的學(xué)習(xí)過程中,學(xué)習(xí)的目的是明確的,學(xué)習(xí)完成后是可以立即獲得反饋的。與無監(jiān)督的學(xué)習(xí)相比,強(qiáng)化學(xué)習(xí)更關(guān)注經(jīng)過學(xué)習(xí)后所獲得的反饋,然后根據(jù)反饋信息再完成更好的學(xué)習(xí),經(jīng)過多次訓(xùn)練歸納出理想的學(xué)習(xí)結(jié)果,而無監(jiān)督的學(xué)習(xí)僅僅是去建立學(xué)習(xí)模式,不涉及反饋問題。

        3 個(gè)性化推薦系統(tǒng)的應(yīng)用

        3.1 電子商務(wù)推薦

        20世紀(jì)90年代末,隨著互聯(lián)網(wǎng)技術(shù)的不斷普及,衍生出電子商務(wù)這一商務(wù)活動(dòng),并迅速擴(kuò)張,經(jīng)過近二十年的發(fā)展,逐漸成了互聯(lián)網(wǎng)技術(shù)重要的應(yīng)用領(lǐng)域。便利是網(wǎng)絡(luò)購(gòu)物最大的優(yōu)點(diǎn),因此不斷吸引著越來越多的用戶,據(jù)CNNIC報(bào)告(42次)截至2018年6月,我國(guó)網(wǎng)民規(guī)模為8.02億,網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)到5.69億。正是這數(shù)以萬計(jì)的用戶不斷推動(dòng)著電子商務(wù)的迅速發(fā)展,同時(shí)在網(wǎng)絡(luò)中留下了數(shù)以萬計(jì)的信息數(shù)據(jù)。在這海量的信息空間中,用戶往往會(huì)迷失自己,不得不為尋找到自己心儀的東西而花費(fèi)大量的時(shí)間和精力,這便是信息過載問題。目前,亞馬遜、淘寶和京東等電子商務(wù)網(wǎng)站均通過建立推薦系統(tǒng)來應(yīng)對(duì)此問題,因此電子商務(wù)領(lǐng)域是個(gè)性化推薦系統(tǒng)應(yīng)用最廣泛的領(lǐng)域。除了傳統(tǒng)的基于協(xié)同過濾算法及其改進(jìn)算法之外,眾多研究者也提出了關(guān)于提高電子商務(wù)推薦系統(tǒng)準(zhǔn)確性和正面體驗(yàn)的很多新的想法。陳梅梅等人[5]將馬斯洛需求層次理論引入電子商務(wù)推薦系統(tǒng)中,從用戶的需求角度出發(fā),構(gòu)建了基于電子商務(wù)特點(diǎn)的用戶體驗(yàn)需求層次模型,使用回歸分析獲取影響用戶體驗(yàn)的需求因素,從而發(fā)現(xiàn)了影響推薦系統(tǒng)體驗(yàn)優(yōu)劣的若干因素。將Web日志數(shù)據(jù)與個(gè)性化推薦技術(shù)相結(jié)合對(duì)提高推薦系統(tǒng)準(zhǔn)確性有一定的作用。馬勇等人[6]提出了一種改進(jìn)方法,即將Web日志挖掘和相關(guān)性度量結(jié)合在一起并根據(jù)用戶偏好來提高推薦的準(zhǔn)確性。建立用戶興趣模型是電子商務(wù)推薦系統(tǒng)的關(guān)鍵,但是,用戶在電子商務(wù)活動(dòng)中留下的數(shù)據(jù)往往有限,無法全面反映用戶的興趣傾向,為解決該問題,趙虎等人[7]在推薦系統(tǒng)中引入了用戶隱形行為數(shù)據(jù)。這些用戶隱形行為知識(shí)是通過對(duì)用戶的原型行為數(shù)據(jù)加以分析獲得的。該方法在一定程度上提高了個(gè)性化推薦系統(tǒng)的親和力。

        3.2 新聞推薦

        新聞推薦是近年來個(gè)性化推薦的一個(gè)重要的應(yīng)用領(lǐng)域。據(jù)統(tǒng)計(jì),截至2018年6月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模為6.63億,手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)到6.31億,可見個(gè)性化推薦在新聞推薦領(lǐng)域有著廣闊的應(yīng)用前景。與電子商務(wù)推薦所不同的是新聞推薦中不但要處理數(shù)據(jù)量大且結(jié)構(gòu)復(fù)雜的問題,還會(huì)遇到另一個(gè)棘手的情況,就是用戶興趣漂移問題。花凌鋒等人[8]從基于用戶位置標(biāo)簽的基礎(chǔ)上提出了面向位置的新聞推薦算法,即首先使用聚類算法對(duì)用戶的位置標(biāo)簽數(shù)據(jù)聚類,然后再使用基于LDA算法的協(xié)同過濾技術(shù)為每個(gè)聚類位置建立偏好模型。從而實(shí)現(xiàn)利用用戶位置信息來提高推薦準(zhǔn)確度的目標(biāo)。新聞推薦還有一個(gè)難點(diǎn)就是大多數(shù)用戶在瀏覽新聞時(shí)目的性不強(qiáng),容易受其他因素的干擾和影響,從而導(dǎo)致其瀏覽行為難以預(yù)測(cè)。張驍逸等人[9]提出了根據(jù)用戶過往瀏覽日志中留下的上下文相關(guān)特征來建立Logistic回歸模型對(duì)用戶未來可能感興趣的新聞進(jìn)行預(yù)測(cè),結(jié)果表明用戶的瀏覽行為的確與其上下文信息相關(guān),同時(shí),在預(yù)測(cè)模型中加入上下文數(shù)據(jù)提高了推薦效果。

        3.3 娛樂推薦

        機(jī)器學(xué)習(xí)算法在娛樂推薦中最經(jīng)常使用的就是音樂和視頻的推薦。音樂推薦與電商推薦相比,在音樂產(chǎn)品特征的提取上更困難。章宗杰等人[10]提出了一種基于標(biāo)簽擴(kuò)展的協(xié)同過濾算法,也就是將音樂作品的社會(huì)化標(biāo)簽作為其特征,基于這樣的標(biāo)簽內(nèi)容利用協(xié)同過濾算法為用戶提供推薦列表,從而改善推薦結(jié)果的準(zhǔn)確性。對(duì)于推薦準(zhǔn)確性的提高,一直以來都是推薦系統(tǒng)始終追求的目標(biāo),譚斌等人[11]提出了基于狀態(tài)轉(zhuǎn)移的獎(jiǎng)勵(lì)值算法,即為了提高推薦準(zhǔn)確性,根據(jù)用戶喜好數(shù)據(jù)集提取出了音樂流行度和用戶從眾度兩個(gè)重要特征數(shù)據(jù),同時(shí)在推薦算法中加入了獎(jiǎng)勵(lì)函數(shù),該函數(shù)是根據(jù)用戶喜好、音樂流行度以及狀態(tài)轉(zhuǎn)移概率而提出的,從而大大提高了推薦的效果。蘭艷等人[12]提出了一種時(shí)間加權(quán)協(xié)同過濾算法用來解決電影推薦中經(jīng)常遇到的信息過期問題,即在推薦模型建立和預(yù)測(cè)評(píng)分過程中加入時(shí)間權(quán)重,在一定程度上提高了預(yù)測(cè)推薦的準(zhǔn)確性。

        3.4 廣告推薦

        廣告在我們的日常生活中無處不在,無論是在報(bào)紙、廣播和電視等傳統(tǒng)媒體中,還是在基于互聯(lián)網(wǎng)的新型媒體中,廣告幾乎無時(shí)無刻不出現(xiàn)在我們的面前。在傳媒領(lǐng)域、電商領(lǐng)域、文化產(chǎn)業(yè)領(lǐng)域中,都會(huì)涉及各種各樣的廣告投放。傳統(tǒng)媒體中,一方面媒體投放廣告沒有針對(duì)性;另一方面用戶對(duì)于廣告的接受都是被動(dòng)的。在基于互聯(lián)網(wǎng)的新媒體中,無論從廣告的投放方式還是用戶的接受方式上都有了新的變化。而這些變化的根本原因就是互聯(lián)網(wǎng)大數(shù)據(jù)的影響?;ヂ?lián)網(wǎng)廣告的出現(xiàn)主要是為了產(chǎn)生流量?;ヂ?lián)網(wǎng)的內(nèi)容采取的都是免費(fèi)模式,需要流量變現(xiàn)維持運(yùn)營(yíng),而廣告正是最佳的變現(xiàn)途徑。因此廣告投放的精準(zhǔn)性直接決定了互聯(lián)網(wǎng)公司的收益,朱志北等人[13]廣告數(shù)據(jù)稀疏性的算法,通過建立廣告相似性網(wǎng)絡(luò)來獲取廣告的相似性關(guān)系,并對(duì)該相似性矩陣進(jìn)行分解,從而獲得已知廣告數(shù)據(jù)的相似鄰居,以此來彌補(bǔ)數(shù)據(jù)稀疏性造成的推薦疏漏。陸濟(jì)湘等人[14]在傳統(tǒng)的基于關(guān)鍵詞的推薦算法中,提出了一種結(jié)合用戶應(yīng)用環(huán)境和用戶情感分析的多維廣告推薦算法。所謂情感分析是指從用戶的其他社交媒體中提取與用戶態(tài)度相關(guān)的文本數(shù)據(jù)進(jìn)行分析,并將分析結(jié)果加入推薦算法中,從而達(dá)到更精確的推薦。

        4 大數(shù)據(jù)環(huán)境下個(gè)性化推薦系統(tǒng)研究面臨的挑戰(zhàn)

        4.1 隱性喜好發(fā)現(xiàn)

        在傳統(tǒng)的基于協(xié)同過濾算法的推薦系統(tǒng)中,用戶對(duì)某種物品的喜好程度主要是通過評(píng)分來體現(xiàn)的。雖然這種獲得用戶興趣度的方法簡(jiǎn)單直接,可以很方便地應(yīng)用到推薦系統(tǒng)中,但是在實(shí)際的互聯(lián)網(wǎng)大數(shù)據(jù)環(huán)境中,除了評(píng)分之外,用戶往往還通過其他隱性的形式來表達(dá)他們的喜好程度。例如,用戶的評(píng)論文字、用戶停留在某種物品上的瀏覽時(shí)間、以及用戶瀏覽或購(gòu)買物品的頻率等都間接反映了他們對(duì)物品的興趣度,這些隱性的喜好都可以應(yīng)用到推薦系統(tǒng)的建立和使用中。推薦系統(tǒng)可以通過自然語言處理的方法從用戶的評(píng)論中獲取用戶對(duì)物品的興趣度,或者根據(jù)用戶瀏覽物品的時(shí)間長(zhǎng)度以及瀏覽或購(gòu)買物品的頻率等數(shù)據(jù),使用聚類或者關(guān)聯(lián)等算法挖掘用戶的消費(fèi)行為,利用這些消費(fèi)行為數(shù)據(jù)獲得用戶的隱形喜好。

        4.2 數(shù)據(jù)稀疏問題

        稀疏數(shù)據(jù)是指在數(shù)據(jù)集中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)。稀疏數(shù)據(jù)絕對(duì)不是無用數(shù)據(jù),只是信息不完全,通過適當(dāng)?shù)氖侄慰梢酝诰虺龃罅坑杏眯畔??;趨f(xié)同過濾算法的推薦系統(tǒng)的準(zhǔn)確性主要取決于用戶數(shù)據(jù)的數(shù)量。一般來說,某種物品獲得的評(píng)分?jǐn)?shù)據(jù)越多,推薦系統(tǒng)就能越準(zhǔn)確地預(yù)測(cè)出哪些用戶喜歡它;同樣,用戶留下的對(duì)物品的評(píng)分?jǐn)?shù)據(jù)越多,推薦系統(tǒng)也能越準(zhǔn)確地為其推薦感興趣的物品。然而,目前影響推薦系統(tǒng)推薦準(zhǔn)確性的主要問題便是數(shù)據(jù)的稀疏,即使是在這樣一個(gè)大數(shù)據(jù)的環(huán)境下,數(shù)據(jù)稀疏問題依然存在。例如,Google、 Yahoo、 Netflix、 Amazon等大型互聯(lián)網(wǎng)和電子商務(wù)企業(yè),它們每天都擁有很多的數(shù)據(jù),但是依然不夠多。

        4.3 冷啟動(dòng)問題

        冷啟動(dòng)問題是困擾推薦系統(tǒng)準(zhǔn)確性的另外一個(gè)因素,它是數(shù)據(jù)稀疏問題的一種特殊現(xiàn)象。根據(jù)推薦對(duì)象的不同,冷啟動(dòng)問題可以分為兩種:用戶冷啟動(dòng)和物品冷啟動(dòng)。用戶冷啟動(dòng)是指當(dāng)一個(gè)網(wǎng)絡(luò)系統(tǒng)中進(jìn)入一個(gè)新的用戶時(shí),由于沒有該用戶的歷史記錄等相關(guān)數(shù)據(jù),推薦系統(tǒng)對(duì)其興趣點(diǎn)一無所知,因此推薦系統(tǒng)無法給該用戶提供準(zhǔn)確的推薦。在這種情況下,通常的做法是向該用戶推薦那些系統(tǒng)中最受歡迎的物品,也就是大多數(shù)用戶感興趣和普遍反映良好的物品。物品冷啟動(dòng)問題是指當(dāng)一個(gè)新的物品進(jìn)入到一個(gè)網(wǎng)絡(luò)系統(tǒng)后,由于沒有和該物品相關(guān)的歷史記錄數(shù)據(jù),例如購(gòu)買、評(píng)價(jià)等,推薦系統(tǒng)無法將其推薦給可能對(duì)其感興趣的用戶。通常遇到這種情況時(shí),推薦系統(tǒng)往往是根據(jù)該物品和系統(tǒng)中已存在的其他物品的相似程度來推薦適合的用戶。除了協(xié)同過濾方法外,目前解決冷啟動(dòng)問題還包括一些混合方法。例如,在推薦系統(tǒng)中加入用戶或物品的特征標(biāo)簽數(shù)據(jù);提取用戶的社群信息;將關(guān)聯(lián)規(guī)則、聚類方法等數(shù)據(jù)挖掘技術(shù)引入到協(xié)同過濾方法中等。

        4.4 大數(shù)據(jù)處理與算法可擴(kuò)展性問題

        推薦系統(tǒng)完成之后,要解決實(shí)際問題依然存在諸多困難。從數(shù)據(jù)量的角度來講,大多數(shù)推薦系統(tǒng)通常都是在小規(guī)模數(shù)據(jù)上搭建起來的,它們的推薦表現(xiàn)良好,但是當(dāng)這些系統(tǒng)應(yīng)用到大規(guī)模數(shù)據(jù)集上時(shí),表現(xiàn)并不理想;從數(shù)據(jù)組成結(jié)構(gòu)的角度來講,實(shí)際問題所涉及的數(shù)據(jù)結(jié)構(gòu)往往是處在動(dòng)態(tài)變化中的,例如新用戶、新評(píng)論、新購(gòu)買情況等,造成了推薦系統(tǒng)應(yīng)用到動(dòng)態(tài)變化數(shù)據(jù)時(shí),表現(xiàn)差強(qiáng)人意。

        5 結(jié)語

        互聯(lián)網(wǎng)的發(fā)展不僅改變了社會(huì)也改變了人們的生活方式,同時(shí)也將人類帶入了大數(shù)據(jù)時(shí)代。機(jī)器學(xué)習(xí)在個(gè)性化推薦系統(tǒng)中的應(yīng)用在解決“信息過載”問題的同時(shí),也滿足了人們對(duì)于個(gè)性化服務(wù)的強(qiáng)烈需求。隨著機(jī)器學(xué)習(xí)算法研究的深入和個(gè)性化推薦系統(tǒng)應(yīng)用范圍的擴(kuò)展,在不斷暴露出各種問題的同時(shí)也開拓了未來的發(fā)展方向。例如,結(jié)合云計(jì)算技術(shù)的并行推薦可以大大提高推薦系統(tǒng)運(yùn)行速度、多推薦系統(tǒng)的交互以提高推薦準(zhǔn)確性,以及在保證推薦精確性的同時(shí)加入推薦的多樣性和新穎性等。

        猜你喜歡
        監(jiān)督用戶系統(tǒng)
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無人機(jī)系統(tǒng)
        ZC系列無人機(jī)遙感系統(tǒng)
        突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        監(jiān)督見成效 舊貌換新顏
        夯實(shí)監(jiān)督之基
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        国产专区一线二线三线码| 一区二区三区蜜桃在线视频| 成人av在线免费播放| 最新中文字幕人妻少妇| 看黄a大片日本真人视频直播| 亚洲人成电影在线无码| 玩弄放荡人妻一区二区三区| 不卡av网站一区二区三区| 东北老女人高潮大喊舒服死了| 99这里只有精品| 日本韩国黄色三级三级| 久草福利国产精品资源| 国产午夜福利不卡在线观看| 精品欧美乱子伦一区二区三区| 日本一区不卡高清在线观看| 国产自拍成人免费视频| 美女av一区二区三区| 欧美日本国产三级在线| 在线观看人成网站深夜免费| 大桥未久av一区二区三区| a级毛片免费观看网站| 精品亚洲国产探花在线播放| 手机在线中文字幕av| 午夜无码一区二区三区在线观看| 亚洲欧美日韩中文在线制服| 亚洲午夜看片无码| 精品极品视频在线观看| 777米奇色狠狠俺去啦| 色狠狠色狠狠综合一区| 白色月光在线观看免费高清| 国产青青草在线观看视频| 亚洲精品午睡沙发系列| 韩国一级成a人片在线观看| 亚洲精品天堂日本亚洲精品| 日日躁夜夜躁狠狠躁| 无限看片在线版免费视频大全| 久久精品国产视频在热| 色吧噜噜一区二区三区| 国产av精国产传媒| 欧美精品高清在线xxxx| 美女免费视频观看网址|