亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        推薦系統(tǒng)中的算法

        2019-10-14 12:01:36黃茂洲
        科技風(fēng) 2019年1期
        關(guān)鍵詞:數(shù)學(xué)

        黃茂洲

        摘 要:近些年隨著大數(shù)據(jù)時(shí)代的來臨,人們對(duì)于信息的需求量日益增多。那么,由此產(chǎn)生的一個(gè)自然的問題是:我們?nèi)绾卧诤棋臄?shù)據(jù)海洋中盡可能準(zhǔn)確地找到自己所感興趣的內(nèi)容呢?由此,在計(jì)算機(jī)科學(xué)領(lǐng)域中便產(chǎn)生了一個(gè)特定的研究領(lǐng)域——個(gè)性化的推薦系統(tǒng)。而推薦算法正是推薦系統(tǒng)的核心所在。個(gè)性化的推薦系統(tǒng)運(yùn)用在生活的不同領(lǐng)域中,它主要是利用用戶的行為數(shù)據(jù)和其之相關(guān)的物品屬性等,通過特定的數(shù)學(xué)算法來達(dá)到向用戶推薦所感興趣信息的目的?,F(xiàn)代個(gè)性化的推薦系統(tǒng)所利用的推薦算法可以分為4種,在這篇論文中,我們將分別來討論這四種不同的推薦算法的特征。

        關(guān)鍵詞:數(shù)學(xué);理論計(jì)算機(jī)科學(xué);推薦系統(tǒng);算法

        1 導(dǎo)引

        數(shù)學(xué)是計(jì)算機(jī)科學(xué)的基礎(chǔ)。在二十世紀(jì)六、七十年代時(shí),計(jì)算機(jī)科學(xué)在當(dāng)時(shí)僅僅數(shù)學(xué)的一個(gè)分支。一個(gè)很典型的例子,便是世界上第一個(gè)計(jì)算機(jī)科學(xué)的博士霍蘭德,在密歇根大學(xué)攻讀博士學(xué)位時(shí),一開始便是學(xué)習(xí)的是數(shù)學(xué)專業(yè),后來轉(zhuǎn)到了密歇根大學(xué)新成立的計(jì)算機(jī)與通信科學(xué)系,而這也成為世界上第一個(gè)真正的計(jì)算機(jī)科學(xué)系。

        當(dāng)時(shí)光進(jìn)展到二十一世紀(jì)時(shí),計(jì)算機(jī)科學(xué)這個(gè)領(lǐng)域已經(jīng)擁有了非常廣闊的研究領(lǐng)域與眾多不同方向的科研人員。而此時(shí),計(jì)算機(jī)科學(xué)在很多方面地發(fā)展,已經(jīng)開始從相反的方向來推動(dòng)數(shù)學(xué)的發(fā)展。但是,在其中,一個(gè)始終沒有發(fā)生變化的核心主題便是,計(jì)算機(jī)科學(xué)的數(shù)學(xué)基礎(chǔ),也就是理論計(jì)算機(jī)科學(xué)。

        理論計(jì)算機(jī)科學(xué)的一個(gè)重要的研究課題便是設(shè)計(jì)適應(yīng)于計(jì)算機(jī)科學(xué)中的各種不同應(yīng)用場(chǎng)景的算法。算法指的是程序員通過特定的計(jì)算機(jī)語(yǔ)言,輸入計(jì)算機(jī)系統(tǒng)中的一系列解決特定問題的清晰而明確的指令,使得計(jì)算機(jī)能夠在有限的時(shí)間以內(nèi)得出所符合設(shè)計(jì)要求的計(jì)算結(jié)果。

        一個(gè)特定的算法都必須具備自己的要素(數(shù)據(jù)對(duì)象的運(yùn)算和操作)以及五個(gè)基本特征(有窮性,確切性,輸入,輸出項(xiàng)及可行性)。

        在這篇論文中,我們主要通過機(jī)器學(xué)習(xí)中的現(xiàn)代個(gè)性化的推薦系統(tǒng)這個(gè)主題,去嘗試討論四種不同的推薦算法的特征。

        2 推薦算法

        計(jì)算機(jī)與網(wǎng)絡(luò)早已經(jīng)融入到了我們的日常的生活、學(xué)習(xí)、生活中,成為了我們不可或缺的助手與朋友。隨著近四、五十年計(jì)算機(jī)科學(xué)的高速發(fā)展,計(jì)算機(jī)與網(wǎng)絡(luò)已經(jīng)徹底改變了我們的日常生活、學(xué)習(xí)、工作習(xí)慣。

        智能化是理論計(jì)算機(jī)科學(xué)研究的一個(gè)主要目標(biāo),近些年來的實(shí)踐已經(jīng)充分證明,機(jī)器學(xué)習(xí)的方法雖然在一些特定的問題環(huán)境下還存在一些局限性,但是總體來說它是當(dāng)前實(shí)現(xiàn)智能化這個(gè)目標(biāo)最有效的一個(gè)方法。

        學(xué)習(xí)僅僅是計(jì)算機(jī)科學(xué)中的一個(gè)專門術(shù)語(yǔ),用更為嚴(yán)格的數(shù)學(xué)語(yǔ)言來說,學(xué)習(xí)即是統(tǒng)計(jì)的意思。機(jī)器學(xué)習(xí),簡(jiǎn)單地說,僅僅是利用計(jì)算機(jī)這個(gè)平臺(tái),利用統(tǒng)計(jì)學(xué)的方法,去對(duì)數(shù)據(jù)集進(jìn)行分析與歸納。現(xiàn)代個(gè)性化的推薦系統(tǒng)便是機(jī)器學(xué)習(xí)中的一個(gè)重要的主題,也是我們?nèi)粘I钪休^為熟悉的一個(gè)機(jī)器學(xué)習(xí)的貼切的例子。推薦算法是推薦系統(tǒng)的核心所在,一個(gè)特定的算法本質(zhì)上就是一個(gè)計(jì)算的過程。推薦算法的計(jì)算主要來自于數(shù)學(xué)中的線性代數(shù)與概率統(tǒng)計(jì),其中一個(gè)核心的概念,便是矩陣。

        正如我們上面所提到,機(jī)器學(xué)習(xí)中的學(xué)習(xí)的意思等價(jià)于概率論中的統(tǒng)計(jì),那么構(gòu)成機(jī)器學(xué)習(xí)理論的一個(gè)重要數(shù)學(xué)分支是概率統(tǒng)計(jì)便不會(huì)讓人感到太奇怪。但是,另一方面,什么是矩陣?什么是線性代數(shù)呢?矩陣這個(gè)詞看似十分的抽象,事實(shí)上,一個(gè)矩陣僅僅是一個(gè)數(shù)或者文字的一個(gè)排列而構(gòu)成的一張表格。我們可以對(duì)矩陣定義加法,減法,乘法等等基本的運(yùn)算。通過這些計(jì)算的規(guī)則去研究矩陣的各種性質(zhì)的學(xué)科,便是線性代數(shù)。

        在日常生活中,許許多多的APP或者各式各樣的網(wǎng)站會(huì)根據(jù)顧客的瀏覽歷史記錄或是其他的相關(guān)數(shù)據(jù),較為準(zhǔn)確的給顧客們推薦他們所感興趣的內(nèi)容,例如網(wǎng)易云音樂的每日推薦和亞馬遜的推薦讀物等等。這些看似神奇的推薦應(yīng)用背后其實(shí)都僅僅是依靠著特定的推薦算法來實(shí)現(xiàn)的。

        正如我們?cè)诘谝还?jié)的最后所總結(jié)的一樣,推薦系統(tǒng)中的各種算法也具備算法的基本條件,但它們的特別之處在于它們是在通過一個(gè)特定的矩陣來分析各個(gè)用戶的行為數(shù)據(jù)而得到的一些相關(guān)的統(tǒng)計(jì)結(jié)果(如下圖所示),這其實(shí)就是為什么推薦系統(tǒng)一般能夠準(zhǔn)確的得出一個(gè)人的喜好的背后原理所在。

        上面的統(tǒng)計(jì)圖代表了一個(gè)虛構(gòu)的音樂收集矩陣。不同的數(shù)字所代表的意義如下:?jiǎn)吻h(huán)=5,分享=4,收藏=3,主動(dòng)播放=2,聽完=1 拉黑=-5如此類推。最后把得分最高的歌曲推薦給相應(yīng)的用戶即可(如下圖所示)

        一個(gè)矩陣也許很復(fù)雜,線性代數(shù)中的一個(gè)常用的方法,便是把矩陣分解成一些更簡(jiǎn)單的矩陣的乘積,通過研究這些更簡(jiǎn)單的矩陣,來得到原始矩陣的一些有用的性質(zhì)。矩陣的UV分解是線性代數(shù)中分解一個(gè)矩陣的經(jīng)典的方法,我們?cè)谶@里不做詳細(xì)地解釋,但是我們推薦對(duì)此感興趣的讀者去參看參考文獻(xiàn)[2]中的第二章。

        利用矩陣的UV分解將每個(gè)用戶的潛在因子求出,再利用解析幾何中高維歐幾里得空間中兩個(gè)向量夾角的余弦公式相乘就可以得出得分矩陣。于是系統(tǒng)把得分最高的歌曲推薦給相應(yīng)的用戶即可(如下圖示,統(tǒng)計(jì)圖中的紅色的字體即代表推薦的歌曲)

        現(xiàn)代個(gè)性化的推薦系統(tǒng)所利用的推薦算法主要可以分為4種,在下面,我們將分別來討論這四種不同的推薦算法的特征。此外,在一些特定的問題中,還會(huì)涉及到一些非傳統(tǒng)的,并不常用的推薦算法,限于篇幅,我們?cè)谶@篇文章中暫不介紹,感興趣的讀者可以參看參考文獻(xiàn)[1]中的相應(yīng)章節(jié)。

        第一種方法是基于對(duì)象的行為數(shù)據(jù)的協(xié)同過濾算法(Collaborative Filtering,CF)。通過在對(duì)象的歷史行為(例如用戶的瀏覽記錄,購(gòu)買記錄等等)歸納出一種特定的模式,再通過這些行為記錄,利用一些基本的統(tǒng)計(jì)知識(shí)來分析這些用戶的歷史行為與產(chǎn)品的相似度。最后推薦將相似度最高且此用戶未瀏覽過的內(nèi)容推薦給用戶。這種算法可依據(jù)收集的用戶的歷史數(shù)據(jù),來推薦世界上的任何一種東西。這個(gè)算法的實(shí)施步驟主要來說可分為三個(gè)主要的階段:(1)收集、分析各個(gè)用戶的行為記錄。(2)尋找相近用戶。也就是找到和該用戶相似度最高的用戶。為了達(dá)到該目的,一般會(huì)使用調(diào)整余弦相似性來計(jì)算。

        (3)推薦。將計(jì)算得出相似度最高的產(chǎn)品且該用戶當(dāng)前沒有瀏覽過的產(chǎn)品推薦給該用戶即可。這個(gè)算法的優(yōu)點(diǎn)是所需要的產(chǎn)品的知識(shí)較少,推薦內(nèi)容準(zhǔn)確,推薦領(lǐng)域較廣等等。但它的缺點(diǎn)是強(qiáng)烈地依賴用戶反饋的準(zhǔn)確性和數(shù)量,新用戶無法得到相應(yīng)的反饋等。

        第二種的推薦算法是基于流行度:這種算法是現(xiàn)在的機(jī)器學(xué)習(xí)應(yīng)用領(lǐng)域中最為常見也是當(dāng)前應(yīng)用得最為廣泛的算法。原因是因?yàn)檫@個(gè)算法的運(yùn)算方式非常簡(jiǎn)便迅捷。將各個(gè)項(xiàng)目的流行度進(jìn)行排序,再將排行靠前的流行項(xiàng)目推薦給用戶即可。例如微博的熱搜,音樂APP中的最熱歌曲,各大新聞等。這個(gè)算法的優(yōu)點(diǎn)是算法簡(jiǎn)單,操作簡(jiǎn)便快捷,推薦內(nèi)容適用于大眾和新用戶。而它的缺點(diǎn)是不能推薦相對(duì)個(gè)性化的內(nèi)容和領(lǐng)域。

        第三種算法是基于內(nèi)容的推薦算法。假如我是一款系列游戲的愛好者,當(dāng)游戲商更新了這個(gè)游戲新的一個(gè)版本時(shí),那么我一定會(huì)很感興趣,但以上的兩種算法都不太可能將這個(gè)更新結(jié)果推薦給我。那么這時(shí)候就會(huì)利用基于內(nèi)容的推薦算法。它的理論依據(jù)主要來源于信息的過濾和檢索。通過分析用戶的歷史搜索記錄或是其他的相關(guān)的歷史行為數(shù)據(jù),從中提取關(guān)鍵字標(biāo)簽,如下圖示

        然后推薦系統(tǒng)將這些標(biāo)簽視作屬性,將用戶與數(shù)據(jù)視為歐幾里得空間中的不同向量想,系統(tǒng)計(jì)算出各個(gè)向量的距離,這個(gè)距離就從數(shù)值上反應(yīng)了內(nèi)容與用戶的相似度了。這個(gè)算法的優(yōu)點(diǎn)是能夠比較好的解決冷啟動(dòng)問題,也不會(huì)被流行度所限制,因?yàn)樗惴ū旧硎侵苯痈鶕?jù)內(nèi)容來進(jìn)行檢索。而它的 缺點(diǎn)是過度專業(yè)化,需要較高的產(chǎn)品知識(shí)與龐大的數(shù)據(jù)構(gòu)造分類器?;趦?nèi)容的推薦算法會(huì)一直根據(jù)標(biāo)簽給用戶推薦與他們密切相關(guān)的內(nèi)容,而使得推薦失去了原本的多樣性。

        最后一種推薦算法是基于模型的推薦算法。基于模型的推薦算法有不同的具體實(shí)施過程,而且他們幾乎都用到了機(jī)器學(xué)習(xí)中的一些經(jīng)典的方法。一般最簡(jiǎn)單的基于模型的方法是logistics回歸預(yù)測(cè),推薦系統(tǒng)通過分析用戶的歷史購(gòu)買、瀏覽記錄等行為數(shù)據(jù),得出有限多個(gè)影響用戶的特征屬性,例如性別,年齡,地區(qū)等等。用一個(gè)變量來代表著用戶對(duì)特定產(chǎn)品的喜好程度。于是,這些數(shù)據(jù)形成了一個(gè)二維平面中的散點(diǎn)圖,推薦系統(tǒng)通過線性回歸擬合出一個(gè)近似函數(shù),函數(shù)上的點(diǎn)來近似這些統(tǒng)計(jì)數(shù)據(jù)。接著系統(tǒng)再分別算出這些特征屬性所對(duì)應(yīng)的系數(shù),便可以得出對(duì)應(yīng)物品的權(quán)重值,權(quán)重值越大就代表這個(gè)產(chǎn)品對(duì)用戶越重要。基于模型的算法十分快速,一般用于新聞和廣告領(lǐng)域,它的優(yōu)點(diǎn)是推薦的內(nèi)容可以多樣化,而它的缺點(diǎn)則是算法局限于時(shí)效性。

        3 總結(jié)和將來的工作

        機(jī)器學(xué)習(xí)中的現(xiàn)代個(gè)性化的推薦系統(tǒng)與我們的日常生活有著密不可分的聯(lián)系,它使我們的眼界更加開拓。隨著現(xiàn)代計(jì)算機(jī)科學(xué)地迅速發(fā)展,推薦系統(tǒng)中的核心——推薦算法也在不斷的發(fā)展,但每一種算法都還是存在著一定的局限性。在將來的工作中我們可以注重在技術(shù)方面上解決這些問題,通過更深入地學(xué)習(xí)數(shù)學(xué)與理論計(jì)算機(jī)科學(xué)知識(shí),去嘗試設(shè)計(jì)更好的推薦算法,使得推薦系統(tǒng)可以更加成熟。

        參考文獻(xiàn):

        [1]李航,統(tǒng)計(jì)學(xué)習(xí)方法,第1版,北京:清華大學(xué)出版社,2012.

        [2]伊恩·古德費(fèi)洛,約書亞·本吉奧,與亞倫·庫(kù)維爾,深度學(xué)習(xí),第1版,人民郵電出版社,2017.

        猜你喜歡
        數(shù)學(xué)
        中等數(shù)學(xué)
        中等數(shù)學(xué)
        中等數(shù)學(xué)
        中等數(shù)學(xué)
        中等數(shù)學(xué)
        我們愛數(shù)學(xué)
        我為什么怕數(shù)學(xué)
        新民周刊(2016年15期)2016-04-19 18:12:04
        數(shù)學(xué)到底有什么用?
        新民周刊(2016年15期)2016-04-19 15:47:52
        我難過,因?yàn)槲铱吹綌?shù)學(xué)就難過
        錯(cuò)在哪里
        日日澡夜夜澡人人高潮| 亚洲精品欧美二区三区中文字幕| 娇妻玩4p被三个男人伺候电影| 国产精品久久久久影视不卡| 男女男生精精品视频网站| 中文字幕人妻少妇伦伦| 亚洲av永久无码精品网站在线观看| 中国娇小与黑人巨大交| 人妻丰满熟妇av一区二区 | 日韩最新在线不卡av| 久久精品女人天堂av麻| 中文有码亚洲制服av片| 精品麻豆国产色欲色欲色欲www| 中文字幕在线久热精品| 日本精品啪啪一区二区| 国产亚洲精品久久午夜玫瑰园| 熟妇人妻av中文字幕老熟妇| 无码国产精品第100页| 搞黄色很刺激的网站二区| 日韩av无码社区一区二区三区| 无码精品人妻一区二区三区影院| 日韩欧美亚洲中字幕在线播放| 欧美黑人疯狂性受xxxxx喷水| 亚洲熟妇无码久久精品| 精品久久精品久久精品| 少妇被粗大猛进进出出| 91九色播放在线观看| 久久久无码精品亚洲日韩蜜臀浪潮 | 国产精品麻花传媒二三区别| 狠狠色欧美亚洲综合色黑a| 日本一区二区三级在线| 狠狠躁日日躁夜夜躁2020| 国产又爽又黄的激情精品视频| 永久免费中文字幕av| 亚洲av一区二区三区色多多| 日本午夜理论一区二区在线观看| 欧美牲交a欧美牲交aⅴ免费下载| 欧美丰满熟妇aaaaa片| 无码吃奶揉捏奶头高潮视频| 人妖在线一区二区三区| 色综合色狠狠天天综合色|